R03 SM PM2-2 サービスの可用性管理の活動について
設問ア
1.携わったITサービスの概要
Z社は自社開発のネットワーク機器を販売する通信事業者である。Z社が開発したファイルサーバ「B」(以下、Bという)は、Z社のフラグシップモデルとなっている。安価ながら、顧客要望に合わせた柔軟なディスクサイズの選択をカスタイマイズ可能で、ディスク構成にはRAID5とスナップショット機能及び差分バックアップを合わせた堅牢な機能を有し、好調な売り上げとなっている。
Bのインシデント対応はZ社技術部が対応する。顧客による電話を中心とした窓口対応から、訪問による修理対応はZ社技術部の要員(以下、修理作業者という)が実施する。またBはZ社開発部が開発し、高難易度の修理対応の機能的エスカレーションの受付先として機能する。ただし、開発課による機能的エスカレーションは、問合せなどを実施するのみで、実際の作業は修理作業者が訪問先で実施する。
2.サービス可用性の目標及び目標値、並びにそれらとITサービスの特徴との関係について
Bは、Z社のウェブページのサービスカタログにそのSLAを表示している。この内、Bのサービス可用性の目標及び目標値は、RTOが六時間となっている。これは、インシデント対応時の、顧客からの入電であるサービス要求から開始してから六時間でインシデント対応完了、あるいは何らかの代替機能によるサービスの復旧までを計測する。
このBのサービス可用性の目標値はファイルサーバであるBの顧客の業務への影響をビジネスインパクト分析により、MTPD(最大許容停止時間)を計算した結果を反映している。
私は、Z社技術部に所属するITサービスマネージャとして、BのSLAの目標達成の活動について指揮及び管理している。
722-1522
設問イ
1.RTOの達成のための重要と考えた活動について
私は、BのSLAの目標達成の為に、サービス可用性を損なう事象の監視、課題の抽出、改善策の実施などの一連の活動を継続的に実施する必要があると考えている。この考えに基づき、以下の対応を実施した。
2.監視対象とした事象と測定項目について
私がBのサービス可用性を損なう事象と考えたのは、インシデントの発生である。このインシデント対応時間であるMTRS(平均サービス回復時間
)はインシデントによるサービス停止からサービスの復旧までを示すRTOと密接に関係していると考えられるからである。
3.測定結果について
私は、月次でMTRSを確認している。このMTRSの月平均比、及び前年比との比較により、現状の状況の確認及び改善点の立案を実施している。
3.1 測定結果の評価指標
私が月次のMTRSの分析をしている中で、月平均120分であったのに対し、先月が130分であった。また、前年では月平均と同様に120分であった。この測定結果から、私は先月に発生した何らかの事象が、Bのサービス可用性を損なう事象となり得ると考え、データを以下のように分析した。
3.2 測定結果の分析について
私は、インシデントによって、MTRS(平均サービス回復時間)が悪化している先月の事象について、拡張版インシデント・ライフサイクルでの検出・診断・修理・復旧及び回復のいずれかで時間を要していたかを分析した。分析手法に採用した手法はインタビューである。具体的には、Bの作業対応におけるMTRSが長期化した上位の案件に対応した複数の作業員にインタビューを実施した。
この結果、次の知見を得た。それは、Bが自動で実施している機能更新の影響で特定の動作で動作不良となるインシデントが発生した。これに対応する為、当該インシデント対応において切り分け方法の確認で機能的エスカレーションが発生し、そのために時間を要した。
私は、以上から先月のMTRSの悪化の原因を、Bのインシデント対応における診断の工程において時間を要していたことを確認した。
1595-2195
設問ウ
1.設問イで述べた分析の結果についての課題と改善策について
先月のMTRSの悪化は、Bの機能更新によるものの為、一過性のものと考えられる。ただし、同種のインシデント対応の可能性は多分にあり、今後のサービス目標であるRTOの達成違反の原因の一つとなりかねない為、私はこの課題と対応策を検討した。
1.1 課題について
設問イで述べた分析の結果から得られた課題は、診断の工程において発生した機能的エスカレーションの多さである。また、機能の更新に対応する手順が周知徹底されるまでに時間がかかったことがもう一つの課題とした。
1.2 改善策について
私は、機能的エスカレーションの抑制を、切り分け手段の教育を実施することで改善策とした。これは、開発課の要員に要請し、実機を用いた切り分け手段を動画配信によるEラーニングで実施する。
機能の更新に対応する手順の周知徹底の遅延は、同種のインシデントが短期間に発生した場合、具体的には同日中に10件以上発生した場合、各作業員に周知すること。インシデント対応プロセスで得られた知見を問題管理プロセスに展開し、短期間で繰り返されるインシデント対応について迅速に対応する。上記が可能となるように、新たに監視対象として、インシデント対応の内容、具体的には受付時に設定される対応区分についてを測定することとした。
私は、上記をまとめ、実施する計画を作成した。
以上
この記事が気に入ったらサポートをしてみませんか?