緊急性が高い障害対策の専門チームで学んだ、緊急案件対応の傾向と対策

Posted by Ryuki Yoshimatsu on Wednesday, July 6, 2022

以前、マイクロソフトのサポート部門で緊急性が高い障害対応の専門チームとして活動していた時期がありました。その時の経験から、緊急案件の対応方法についてまとめてみました。

「緊急性が高い障害」とは具体的にどのようなケースか?

緊急案件として対応を依頼されるケースとしては、以下のようなパターンが多いと思います。

  • 停止することで日々の業務オペレーションに甚大な影響を与える社内システム。例えばメールや商品の受発注など。
  • 停止することで社会的な影響が大きいシステム。例えば社会インフラ、医療系など。
  • 停止することで売り上げのロスに直接影響するシステム。例えばオンラインショップなどの E コマース。

こういった緊急案件では数時間以内での解決を求められます。よくある目安としては、障害発生から 2 ~ 4 時間以内に解決することを目標として対応することが多いように思います。

緊急案件対応のゴールとは何か?

緊急案件対応において最も重要なことは「通常の状態に復旧する」ことです。
加えて、「障害の根本原因の追究・解決をすることと、通常の状態に復旧することは、イコールとは限らないという点を理解しておく」ことも重要です。

例えば、こんなケースをイメージしてみてください。
12 時から放送されるテレビ番組を絶対に見逃したくない、といった状況で、テレビが 10 時に壊れたとします。
この場合、根本原因の解決策としては「壊れたテレビを修理すること」が考えられます。テレビを修理するためのフローとしては、以下のような流れになることが予想できます。

  1. とりあえず自分でテレビを直すことを試みる
  2. 自分で修理することが無理そうだったら、テレビを購入した家電屋さんに修理を依頼する
  3. 家電屋さんでも修理が無理そうだったら、テレビのメーカーさんに修理を依頼する

この手順を踏めば、テレビが壊れたという根本原因の解決が可能です。しかし、このフローを完結するためには、壊れた状況次第では問題の解決までに数日~数週間かかることが見込まれます。

これでは、「12 時から放送されるテレビ番組を絶対に見逃したくない」という要件を満たすことができません。ではどうするか?
僕なら、「家電屋さんに行って新しいテレビを買うという回避策」をとります。新しいテレビを買うことでコストが発生しますが、回避策の採用を優先することで「12 時から放送されるテレビ番組を絶対に見逃したくない」という要件には対応できます。

通常であれば、テレビを修理するという方法が解決策になると思います。この対応の違いが、一般の障害対応と緊急案件対応の違いです。

緊急案件対応の現場で起こる困った事態

現場でよく起こる問題として、「本質的ではない調査を早急に求められることで、緊急状態から脱するための本質的な作業に手が回らない状態に陥る」ことがあります。この状態に陥ると、本来もっと早く緊急状態から脱することが出来たはずなのに、結果的に業務が復旧するまでにだいぶ時間がかかってしまった、という事が起こります。この問題が起こる原因としては、緊急案件対応に関わる人の役割の違いが考えられます。

緊急案件の関係者

緊急案件には以下のような役割を持つ人が存在します。

  • 障害によって困っている人
    社内システムを利用している社員、サービスを利用しているエンド ユーザーなど。システム障害によって直接的な被害を被っており、本当に困っている方々。

  • 責任者として状況を把握したい人
    経営者、事業部門の部門長など。障害発生時にビジネスを継続するために社内に指示を出したり、対外的な説明責任を持っている方々。

  • 責任者に状況を報告する人
    障害が発生したシステムの担当者、情報システム部門など。経営者、事業部門の部門長のような責任者に、緊急案件の対応状況などを説明する方々。

  • 問題解決の作業にあたる人
    システム側のエンジニア、IT ベンダーなど。技術的な観点から、障害から復旧するための作業に注力する方々。

この中で、緊急案件対応の方向性に大きく影響するのは「責任者に状況を報告する人」です。
責任者に状況を報告する人の行動の目的が、「通常の状態に復旧すること」ではなく「責任者から叱責されないように状況を報告すること」になった時、事態が悪化します。この場合、以下のような要求が問題解決の作業にあたる人に与えられます

  • 問題の現象について、経営層に説明するための資料を作れ
  • 現時点の作業状況についてまとめよ
  • 今後の対策、作業内容について提示せよ
  • いつまでに問題が解決できるか、正確な見積もりを出せ
  • 以上の内容を、1 時間ごとに報告書として提出せよ

上記のような要求は問題解決のための本質的な作業とは異なるものですので、これらに丁寧に対応しても緊急状態から脱して通常の状態に復旧することはありません。ですが、こういう要求は常に起こります。そのため、こういう要求が来ることを前提として緊急案件対応にあたる体制を作る必要があります。

こういう体制を組むのはいかがでしょう?

僕の経験上、緊急案件対応には以下のような体制でのぞむと良いのでは、と考えています。上で説明した「問題解決の作業にあたる人」を以下のように細分化しています。

緊急案件の体制アイデア

  • 要求の内容で作業を振り分ける人
    上記したように、「責任者に状況を報告する人」からは、問題解決の本質とは異なる要求が多く飛んでくることがあります。要求の内容を精査し、問題解決のために本当に必要な要求なのかどうかを見極めて作業の振り分けを行う役割が必要になります。

  • 緊急状態からの復旧に注力する人
    緊急案件対応において、技術的に最も重要な調査・作業を行う役割です。周囲の人は、この役割の人の作業が本質的ではない要求によって割り込まれないようにブロックする必要があります。

  • 要求に答えるための調査をする人
    「緊急状態からの復旧に注力する人」の作業が妨げられないようにするための技術的な役割です。例えば、上記したように、根本原因の追究をすることが緊急状態からの復旧にはつながらないことがあります。それでも、緊急案件対応として根本原因の追究を求められる事は多々あります。このような要求に対して答えるのがこの役割の人になります。

  • 報告書のための作文をやる人
    エンジニアの言葉をビジネス層にも理解できるように翻訳し、ビジネス文書として体裁が整った報告書を作成するための役割です。そのため、技術文書の作成とは異なるスキルが求められます。緊急案件対応では報告書を頻繁に求められることが多いため、報告書を作成する役割はエンジニアとは別に設けた方が都合が良いことが多いと思います。

上記の体制が必要になる理由

緊急案件対応において最も難しいのは、冷静さを保って物事を判断することです。技術的な難易度よりも、人の判断が緊急案件対応の結果を左右することが多いように思います。

緊急事態の発生時と一般の障害発生時の最も大きな違いは、「現場の空気感」です。
一般的な障害対応でも、作業の優先度の判断、必要最小限の工数の策定、復旧作業の実施などを通じて問題を解決するというアプローチを取ると思います。これに加えて、時間的な制約や障害による多大な影響度が付加される、というのが緊急案件対応です。この付加条件が現場にプレッシャーを与え、全体的に冷静さを欠いた動きになります。

自分がそのような緊急事態の現場の当事者になった時に、冷静さを保って行動できる人はそう多くはありません。理由は、緊急事態はめったに発生しないからです。緊急事態の経験値がないためにどう対応したら良いのかが分からず、動揺した状態になります。

そういう状況下においては、人は何とか物事を解決しようとし、とにかくやみくもに様々なことに手を出そうとします。すると、本質的ではない作業が多く発生します。そのため、緊急事態の発生時においては上記したような体制が必要になります。

緊急事態に備えて普段から出来ること

緊急事態の発生に冷静に対処できるようになるために何をすれば良いのか?それは、「緊急事態の空気感に慣れること」です。

僕がサポート部門に所属していた時、正確な数は分かりませんが、緊急事態が起こった現場に入った回数はおそらく 200 ~ 300 回程度はあるのではないかと思います。この経験から言うと、緊急事態に冷静に対応するためには、緊急事態に慣れるしかありません

どんなに素晴らしい技術力を持っていても、どんなに素晴らしいチームの統率力を持っていても、組織全体が冷静さを欠いた状況で 100% の力を発揮することはできません。そのために、普段からトレーニングをしておくことが重要です。

ただ、避難訓練のような形で実施する「障害シミュレーション」のようなトレーニングは、緊急事態に慣れるためのトレーニングとしては効果的ではありません。トレーニングの目的は障害対応のための技術力を上げることではなく、緊急事態の空気感に慣れることです。

従って、トレーニングでは緊急事態のリアルな空気感を出すことが重要です。そのためには、経営層に許可を取った上で、現場に内緒でリアルな障害を演出するドッキリ トレーニングを仕掛けるのが有効な手段だと考えます。ドッキリ トレーニングをすることで現場には緊張感が走ります。この緊張感、焦燥感、現場の空気を知っておくことが緊急事態への備えとしては重要です。

最後に

最近、通信会社で大規模な障害がありましたが、その事故の対応内容を評価した記事などを読むことがあります。中には対応について批判的な論調の記事を見かけることもありますが、その批判は冷静な状態で書かれたものです。緊急事態が起こっている瞬間にその現場で何ができるかが重要です。そのような事を意識しながら、万が一の時のために備えておくのが良いのではないかと思います。