R3 SM PM2-2 サービス可用性管理の活動について

設問ア:携わったITサービスの概要と、サービス可用性の目標及び目標値、並びにそれらとITサービスの特徴について

 Z社は、自社開発のネットワーク機器を販売する通信事業者である。Z社が開発したNASである「P」は、ユーザーサイドで権限設定など各種設定が可能にし、また機能が充実した中小企業向けのファイルサーバを販売し好評である。「P」は顧客の管理の負担を極力減らすために、機能更新やファームウェアの更新は顧客利用のない時間帯で自動で実施される。
 「P」の保守はZ社技術部が受付とサポートデスクを内勤者が行い、内勤者による対応で復旧できないインシデントが発生した場合、外勤者が訪問にて対応する。
 「P」は、顧客の重要な業務ファイルを保存し運用するため、「P」の故障によるサービス停止は、顧客の経済的損失が大きい。このため、「P」はデータ領域にRAID2により媒体二つをミラーリングする構成を組み、バックアップ領域として利用時以外にシステムから切り離されているバックアップ媒体及び、上記媒体故障に備えクラウド上へも保存をしている。
 また、媒体故障のようなハードウェア故障以外の対応は、主に内勤者による簡易的な外勤者による訪問対応を実施する。
 Z社では、顧客とサービスの可用性の目標と目標値を、「サービスの回復までに三時間」としている。この時間は、完全復旧ではなく、クラウド上のバックアップ領域から必要なファイルをダウンロードし、不完全ながらも顧客の業務に支障がなくするような縮退稼働(以下、フォールバックという)もサービスの回復に含まれる。
 私は、Z社技術部に所属するITサービスマネージャであり、顧客と合意したサービス可用性の目標値の管理と、目標の達成のための活動を行う管理者である。
680

問イ:サービス可用性の目標のために重要と考えて行った目標について、監視対象とした事象と測定項目について。また測定結果の評価指標と測定結果の分析

755-1555
 私は、サービス可用性の目標達成のためには、監視対象と測定事象を定め、その測定結果を管理することが重要だと考える。
 私が監視対象としたのは、訪問が必要であった修理対応(以下、訪問作業という)である。この内、対応時間が一時間以上の訪問作業(以下、要注意作業という)の回数を測定事項とした。
 なぜなら、これらの要注意作業はサービス可用性の目標について危ぶまれる要因があると考えたからである。これは、受付から内勤者からの訪問要請までが平均10分で、訪問要請から顧客先訪問までは平均で一時間かかる。このため修理対応中に不測の事態が発生した場合を想定して算出した。
 これらを、過去一年分の月発生件数である平均30件を評価指標と定めて管理をしている。
 先月、先々月と発生件数が30件を超え、私は、評価指標である発生件数を管理し、課題を抽出し、改善策を実施する必要があると考えた。
 分析の結果、以下二点が判明した。
 一点目は、要注意作業のMTTR(平均修理時間)の長期化である。この改善にあたってさらに詳細に分析すると、先月、先々月の「P」の機能追加やバージョンの更新を実施する際に発生した、予期せぬエラー(以下、エラーという)が関係していた。このエラーは周知されていなかったために「P」開発部門に問い合わせるなど、対応が長期化したことが判明した。
 この改善には、開発状況など現状よりも多い頻度で通達することと問題管理プロセスにおいてエラーのような繰り返されるインシデントが発生した際の迅速な対応が可能となるように、対応手順を周知できるように整備する必要があると考えらる。
 二点目は、要注意作業のMTRS(平均サービス回復時間)悪化である。この改善にあたってさらに分析すると、外勤作業の対応が3年未満の外勤者が多かった。これは、3年以上の外勤対応者が、対応処置としてフォールバックを選択することで要注意対応となる前に、一時的なサービスの回復を実施していることに対し、完全復旧のみを対応処置としていることが多いことが確認された。
 この改善には、個々の外勤対応者の作業が均一となるような作業の均質化が必要と考えられる。

問ウ:分析の結果から、サービス可用性の目標を達成するために対応が必要と課題と改善策

1762-2362
 私は、サービスの可用性の目標を達成するために、上記二点についての課題と改善策を検討した。
 一点目は要注意作業のMTTR(平均修理時間)の長期化の課題と改善策である。
 この課題は、周知徹底すべきインシデント対応の作業手順の管理方法の不備である。
 私は、開発部門が技術部に対し情報を発信する方法を用意した。具体的には、従来が発生ベースで問い合わせていた内容を、同じ内容の問合せがあった場合の閾値を設定し、この閾値を超えた場合、各訪問作業者にEメールを利用し通知する方法である。
 同時に、同種の内容についてを、Z社情報システム部が運用する技術部専用のサイトに載せ、いつでも閲覧ができるよう手配した。これは、既知のエラーや情報についての情報サイトであったが、直近のインシデント対応を「お知らせ」として表記し、上記の問合せの閾値を超えた内容を情報を表記できるように手配した。
 二点目は、二点目は、要注意作業のMTRS(平均サービス回復時間)悪化の改善である。
 この課題は、個々の訪問作業者の対応の品質のムラである。
 私は、外勤作業の対応が3年未満の外勤者を対象に、上記のZ社の技術部専用の情報の内容を中心としたEラーニングを定期的に開催することを指示した。
 また、外勤作業の対応が3年以上の外勤者から外勤作業の対応が3年未満の外勤者に対し、OJTを実施するよう計画した。具体的には、業務閑散期に、同じ訪問対応に同行し、外勤作業の対応が3年以上の外勤者から作業のチェックと両者によるレビューを行う。


この記事が気に入ったらサポートをしてみませんか?