H28 2-2 プロセスの不備について


202402041300

設問ア:ITサービスの概要と、不備があったプロセスの概要及び不備の内容

 Z社は、主に法人企業向けのネットワーク機器を開発、提案するネットワークソリューションを手掛ける通信機器販売業者である。
 Z社技術部は、自社開発したネットワーク機器の設置から保守・運用までを自社にて対応している。
 Z社が開発したNASであるB(以下、Bという)は、簡単な操作でバックアップ設定や権限設定が可能で好評を博している。
 また、バックアップのエラーも顧客管理者への通知だけでなく、Z社の保守部門へ通知を行い、バックアップエラーの内容を通知し、以降の対応を保守対応として一括で対応でき、設置から運用までをワンストップで実施できるZ社のフラグシップモデルとなっている。
 このBを含め、Z社のネットワーク機器のサポートは、Z社技術部が実施している。この内、技術部管理課が内勤業務(以下、内勤者という)が、電話受付及び対応などのサービスデスク機能を受け持つ。また、技術部サービス課が内勤者による対応で完了できなかった場合のエスカレーション先及び部品交換などの現地対応が必要な対応は、技術部サポート課の外勤業務者(以下、外勤者という)が受け持つ。外勤者はエリアごとに複数の事務所に所属し、各自社用車にて顧客先へ訪問する。
 先日、Bを利用するある顧客においてインシデントが発生した。
 それは、Bのバックアップエラー通知があってからその対応までの間に、一部のファイルの復元を希望したが、内勤者による受付から外勤者が訪問するまでに時間がかかり、復元ができない事態であった。
 この件は、担当営業や外勤者の上司が謝罪に伺い、なんとか収まった。
 しかし、事態を重く見た技術部部長は、技術部管理課所属でありITサービスマネージャの私に早急な再発防止策を作成するよう要請した。
693

設問イ:不備の調査と、対策の立案


 私は、今回のインシデントの内容を整理し、問題を識別するために、類似のバックアップに関するエラー(以下、バックアップエラーという)を調査することにした。
 内勤者の対応は、Z社の情報システム部が管理する障害対応データベースに保存されている為、情報システム部に依頼し、過去三年分のバックアップエラーの対応履歴を確認した。
 バックアップエラーは、顧客からの入電ではなくエラー通知によって受け付けられ、内勤者から外勤者へと訪問が要請され、当日か遅くとも翌日には訪問にて対応し、現場にて症状の診断を実施されていた。
 しかし、現場での診断で直らなかった場合、部品交換が必要となり、手配にさらに一日、ないしは二日かかることが判明した。
 さらに詳細に確認すると、部品交換が必要な症状のうち、約八割近くがバクアップ媒体であるHDDの交換で復旧していた。
 これらにより、私は訪問となるバックアップエラーの際に、HDDを持参することで対応時間の短縮が可能となると考えた。
 次に、私はこれらの手順を構築を検討した。この対応手順は、内勤者対応だけでなく、外勤者対応の連携が必要となるため、技術部管理課のバックアップエラーの要員と技術部サポート課課長と協議をすることとした。
 この協議の結果、バックアップエラーの通知があった場合、訪問要請と並行し、HDDを該当外勤者へ手配することとした。HDDは、Z社の購買課がある物流センターが管理するため、内勤者が購買課に依頼をする。
 また、HDDを事前に社用車に在庫として保管(以下、車在庫という)として用意する案も検討されたが、Bはバックアップの方式や容量が顧客によって違う。この案を採用すると、HDDを複数用意しなければならず、過剰在庫を抱えるリスクやコストがかかる難点があった。
 この為、この案は上記の発生ベースでの手配を先行で実施し、状況や運用定期的に観測することで再度採用を検討することとした。
 以上の手順をまとめ、私は技術部部長に提出し、了承を得た。
 私は、関係各所に通達、準備をし、運用を開始した。
862 

設問ウ:事前予防的な活動


 私は、上記のインシデント管理プロセスの不備の対応にあたり、さらに同様なインシデントの傾向分析を行う必要があると考えた。
 そこで、私は、バックアップエラーの通知の取り扱いの検討をした。
 現状では、バックアップエラーのメール通知の内容に関わらず、訪問要請をしている。
 バックアップエラーの通知メールを詳細に確認すると、バックアップのエラーの種類を示すエラーコードが記されていた。これを基に、エラーコードごとに対応履歴から対応内容を確認していくと、現場作業にて再起動を実施することで復旧することが大半であった。
 また、Bの開発をする開発課にも問合せ、対応に不備がないかを検討し、問題がないことも同時に確認した。
 私は、この再起動を電話対応にて顧客に実施を依頼すれば、より早い対応が可能となり、復元が不可能となるインシデントの発生を抑制し、事前予防が可能と考えた。
 ただし、NASであるBは、ファイルアクセス時にシャットダウン及び再起動が実施されるとファイルが破損する可能性がある。
 この為、不用意な再起動実行によって二次被害が発生するリスクがある。
 そこで、私はこの対応はバックアップエラーの対応要員の中でも、熟達した者のみに対応を指示した。
 また、この対応は、顧客側に十分な了承と状況確認を得る必要があるため、事前に確認する項目をまとめ、電話対応時に徹底するように指示を出した。
 次に、車在庫に関して検討をした。
 発生ベースでの運用が開始され、一か月後に対応を集計し、内容をパレート図を作成し確認することとした。
 すると、出庫されたHDDは多岐にわたっているものの、特定の容量が上位に存在することが判明した。
 そこで、私はこの特定の容量のHDDを社在庫ではなく、各営業所に一つ事前に配備しておく運用に変更するように技術部サポート課に要請した。
769

202402041609


この記事が気に入ったらサポートをしてみませんか?