優れた根本原因分析/障害理由の書き方

優れた根本原因分析/障害理由の書き方

おっと最近、HXServersが25230にRCAを投稿しました。RCAは「根本原因分析(Root Cause Analysis)」の略で、障害原因分析(Reasons For Outage)と呼ばれることもあります。

HXServers RCAは素晴らしいものですが、これらのアナウンスは目的を果たさないことが多すぎます。適切に実施すれば、顧客の信頼を高める素晴らしいツールとなり得ますが、不適切に実施すれば、ユーザーの不安を増大させてしまいます。

RCA を台無しにする方法の例をいくつか示します。

  • 書くのに時間がかかりすぎます。顧客は数週間ではなく、1~2日以内の回答を求めています。
  • 根本原因を明かさないでください。「まだ調査中」と伝えるのは問題ありませんが、その場合はフォローアップを書く必要があります。
  • 技術的な詳細に埋もれてしまう。「Gonkulator X-2000のファームウェア2023.1103.102をパッチ1059にアップグレードした際に失敗し、Merkel M-105トランスデューサーに連鎖的な故障が発生しました…」
  • 責任を取る代わりに、他人のせいであるかのように振る舞う。

RCA を効果的にするには、次のことを行う必要があります。

何が起こったのか明確に述べてください。 1月13日12時5分に、あれこれと問題が発生しました。アトランタ、ニューブランズウィック、ボイシのデータセンターに影響がありました。ナッシュビルには影響がありませんでした。

あなたはすぐに気づきました。監視はきちんと行われていたか、エンジニアが異常に気づいていたのでしょう。あなたは不意を突かれたわけではなく、怒った顧客が指摘するまで待つ必要もありませんでした。

どのように行動したか。XチームとYチームにすぐに連絡を取り、彼らはすぐに行動を起こしました。対応の緊急性と、問題解決がいかに重要だったかを伝えようとしています。お客様は困っていたので、あなたはできる限り迅速に解決に取り組みました。

問題を解決するために何をしたか。どのような行動をとったか、そしてなぜ時間がかかったのか。その過程でどのような問題に直面したか。常に緊急性を持って行動していたか。

問題が完全に解決されたことをどうやって確認するか。ユーザーに問題がいつでも再発する可能性があると思わせたくありません。問題を理解し、徹底的に解決に取り組んできたかどうかを確認しましょう。

この問題を防ぐために何をしていますか?この問題が二度と発生しないように尽力していますか?監視機能の追加、構成の変更、容量の追加などを行いましたか?

あなたは痛みを認め、謝ります。言い訳をするつもりはありません。自分が足りないと感じていることに気づき、そのことを深く後悔しています。

優先的に、じっくりとお話を伺いたいとお考えですか?もしかしたら、まだお困りのお客様がいらっしゃるかもしれません。もしそうなら、ぜひお力添えください。ご連絡方法はこちらです。

このようなRCAは、お客様に優秀なチームだと感じてもらえるきっかけになります。ITが完璧ではないことは誰もが知っています。Google、Microsoft、その他の巨大IT企業でも、障害やトラブルは発生します。重要なのは、問題が発生することではなく、どのように対応するかです。

おすすめの記事