■07/03/12 【第35回】ITIL導入 運用管理定着の実際 第5回

■インシデント管理と人的機能
 インシデント(障害)管理は、障害が発生してもITサービスが滞らないように、その障害を取り除き、安全かつ早急にサービスを復旧することを目的としている。そのために、ユーザからサービスデスクへ寄せられる情報や障害情報について、ユーザへの対策を含めた総合情報として把握しておくことが必要である。インシデント管理の対象となる範囲は、ハードウェア、ソフトウェアからネットワーク上の障害・復旧情報の伝達だけではなく、ユーザからの利用・操作方法の問い合わせといった日常的なオペレータとユーザとのコミュニケーションも含まれている。


 インシデント管理の項目は、大別すると3つある。

1.障害の問題の程度、問題解決の優先度、回復作業時間、回復予定時間の伝達、サービス停止中の対応記録などのサービス視点
2.発見時間、発見方法、発生状況、問題箇所など、インシデントの特徴とその記録
3.調査、診断記録、復旧経過記録など、インシデントの原因追及に役立つ情報の記録

 通常、この3項目はインシデントの「発見・判別・回復・解決」のプロセスを踏まえて、「問題管理」「変更管理」などのIT管理項目と関連づけられる。しかし、インシデント管理の目的は「原因追及」そのものにあるのではなく、障害情報や障害経過情報、サービス代替情報などを発信することで、ユーザへのITサービスを途切れさせないことを目的としている。それはつまり、未知の障害に対してその「原因追及」にかかりきりになってしまい、ユーザに対するフォローがないがしろにされるのを回避するためにあるといえるだろう。

 障害の原因がアプリケーションのプログラムミスのような限定的なものではなく、ハードウェアやOS、またはミドルウェアにある場合、復旧に時間を要することが考えられる。そのため、ユーザサービス継続の観点から、適正な人的配置および対応管理が求められる。まずは、日常的な「障害対応策」として障害管理統括責任者、障害回復管理責任者、障害回復のための各セクション担当者などを配置する。そして障害プロセスの記録を行う事務局とともに、緊急時にその「人的配置」が機能するかどうかも含めて、日頃から点検や模擬演習をしておく必要がある。特に、責任者の不在時や、夜間・休日の対応などは重要である。このような点から、インシデント管理は人的「障害復旧プロセス」管理ということもできる。

■問題管理とインシデント管理の関係
 問題管理は、インシデント管理で大別する既知の障害と未知の障害のうち、未知の障害の問題解決を目的としている。未知の障害については、「問題管理」で解決策を想定し、「インシデント管理」で回避策を策定することになる。インシデント管理が状況対応を目的としているのに対し、問題管理は問題解決を目的としているのである。問題の根本原因を究明することにより、リスクの前兆を把握し、障害を未然に防ぐことができる。さらにその解決策を蓄積することで、ITサービス運用の品質を維持することができるのである。

 問題管理ではインシデント管理において蓄積したデータや問題に関する情報の定期的・恒常的な分析を行うが、その分析の手法についても定期的に見直し、解決策にいたる「正しいプロセス」を検証する必要がある。やみくもにすべての情報収集を試みたり、大雑把に管理項目を設定したりすると、解決に要するデータに過剰や不足が生じてしまい、問題解決に支障をきたすこともあるからだ。

 未知の障害に対する問題解決は、障害の現象面の分析だけでは解決が困難である場合が多く、その現象が発生するメカニズムにさかのぼり、問題発生から問題発覚までのプロセスを丹念に検証する必要がある。そうすることによって、障害を引き起こす原因がITサービス運用の規則面にあるのか、あるいは運用上の属人的な影響や承認関係によるものなのか、またはネットワークシステム(ハードウェア・ソフトウェアを含む)によるものなのかが洗い出され、障害理由が判別できる。そして、こうして判別されたものを蓄積しながら、さらなる未知の障害に対し永続的に対策(対応)を行っていく。

 人的支援としては、インシデント管理のように緊急性を伴わないことから、インシデントデータの日・週・月ごとの分析をもとに、未然防止対策に長期的に取り組むことができる。