H28 SM 午後1-1 サービス継続及び可用性管理


概要図


 R社は、中堅の製薬会社である。R社の本社は関東地方のC市にあり、工場、関東支店及びサーバ室(全て同じ建物内にある)はC市に隣接するD市に、近畿支店は近畿地方のE市にある。両支店には倉庫が併設されており、関東支店は東日本地域の注文受付と入出庫、近畿支店は西日本地域の注文受付と週出庫を担当している。
 R社の製造部の部員は、工場に勤務して製品の製造記録及び倉庫への輸送記録を端末から生産管理システムに入力している。R社の販売部の部員は、関東支店又は近畿支店に勤務して注文の入力を行っている。顧客からの注文は、両支店で毎日8時から19時までの間、電話又はファックスで受け付け、端末から販売管理システムに入力している。また、端末から製品の入出庫を販売管理システムに入力している。

システム全体の構成

 R社のシステム全体構成図を以下に示す。

①工場と同じ建物内のサーバ室には、製品の製造から倉庫への輸送までを管理する生産管理システム、及び顧客との取引と製品の入出庫を管理する販売管理システムが設置されている。
②工場、両支店及び本社には、両システム共用のデータ入力用の端末が設置されている。
③本社には、運用端末が設置されており、IP-VPN経由で両システムの運用に使われている。
④生産管理システムのストレージには製品の製造及び倉庫への輸送の記録ファイルが格納され、販売管理システムのストレージには受注ファイル及び在庫ファイルが格納されている。

両システムの運用

 R社の情報システム部員は、本社に勤務して両システムを運用している。両システムとも、毎日4-23時までオンライン処理を行う。23時から24時までは、テープ媒体にファイルのフルバックアップを取得し、サーバ室に保管している。
 システムのオペレーションは、販売管理システム専任のAチームと、生産管理システム専任のBチームの2チームに分かれている。部員は自身が担当するシステムについて教育を受け、オペレーションを実施している。
 なお、部員は自身が担当するシステム以外のオペレーションは実施していない。両チームともシフト体制を組み、それぞれ1シフト1名でオペレーションを実施している。

事業継続計画の策定

 関東地方に震度6弱レベルの地震が発生した場合の、R社の建物が損傷を受けるリスクについて調査した。その結果は以下のとおりである。
(1)C市にある本社の建物は耐震性能が高く、震度6弱レベルの地震で損傷を受ける確率が低い。
(2)D市にあるR社の敷地の地盤は軟弱であって、R社の建物(工場、関東支店、倉庫及びサーバ室)は震度6弱レベルの地震で損害を受ける確率が高い。
(3)E市にある近畿支店の建物及び倉庫は、損害を受ける確率が低い。
 この調査結果を受け、R社では情報システム部も参加する検討チームを設置して、事業継続計画(以下、BCPという)の策定に着手した。BCPの概要を以下に示す。
販売活動:関東支店は注文受付と入出庫を停止する。近畿支店は在庫を活用して注文受付と出庫を通常通り継続する。
製造活動:三年後を目途に、地盤が強固な地域に工場を移転する。移転までの間に被災した場合は、一時的に向上の操業及び近畿支店への輸送を停止する。

災害対策用システムの検討

 工場、関東支店及びサーバ室の建物の被災によって両システムが停止することが想定された。一方で、近畿支店の販売活動は可能なので、販売管理システムのRTO(目標復旧時間)は被災から120分とした。ただし、RPO(目標復旧時点)は関係部署との調整が必要なので、継続して検討することになった。
 RTOの設定を受け、ITサービスマネージャであるG氏は、被災時の技術的対策の検討を始めた。検討した結果、現在稼働中の販売管理システムと同一機能で、被災時だけ使用する災害対策システム(以下、災対システムという)を構築することになった。概要は以下のとおりである。
・災対システムと本社との間に専用線を新規に敷設し、本社の運用端末から遠隔操作を行う。
・クラウドサービスの活用も検討する。現在稼働中の販売管理システムとの互換性を考慮し、クラウド事業者が提供するPaaSを利用する。PaaSは、サービスの利用料に応じた料金体系であり、システム環境の構築だけであれば少額の費用で利用できる。
 G氏はこれらの検討結果を踏まえ、災対システムの方法案を以下のようにまとめた。
案1:災対システムを近畿支店に構築し、被災時はフルバックアップからデータを復元する。フルバックアップの取得先を、現在のテープ媒体から、近畿支店に新設するストレージに変更する。取得対象データと取得時期は現在のままとする。復旧時間は(下段注釈参照問1-1:30+30+30+30=120分)。RPOは被災当日のオンライン開始時点。
案2:災対システムはクラウドサービスを使用して構築し、現在稼働中の販売管理システムとホットスタンバイ構成とする。復旧時間は60分。RPOは被災時点。
案3:災対システムはクラウドサービスを使用して構築し、被災時はフルバックアップからデータを復元する。フルバックアップの取得方式を、データ保管サービスの利用に変更する。取得対象データと取得時期は現在のままとする。復旧時間は120分。RPOは(フルバックアップからのデータ取得時から開始なので問1-2:被災当日のオンライン開始時期)。
 案1で、RPOを被災当日のオンライン開始時点を設定した場合、情報システム部と販売部は(問1-3:被災日に入力済のデータを、システム復旧後に再入力する必要があること)をあらかじめ合意する必要がある。
 G氏は案1-3について検討した結果、案3を推奨案として検討チームに提案し、案3に決定した。

復旧手順の検討及びクラウドサービスの選定

 案3の決定を受けて、G氏は販売管理システムの復旧手順と、使用するクラウドサービスの選定に着手した。
(1)復旧手段の検討
①災対システムは、平常時は停止状態としておき、被災時に運用端末から起動する。被災状況の確認作業などに30分、その後、災対システムの起動時間に30分、さらに、ふるバックアップからのデータ復元に30分かかる。データ復元の完了後、システムの正常稼働の確認に30分かかるが、RTO内に復旧できる。
②ストレージは、平常時は最低限の容量だけを確保しておき、被災時点のデータ量に応じて、災対システムの起動作業と並行して容量の追加を行う。
(2)クラウドサービスの選定
 G氏は、災対システムの候補として、以下の4社のクラウドサービスを選んだ。

 G氏は、各社のサービスを比較し、次の条件に合致するクラウドサービスを提供する1社を選定した。
・事業継続に関する要求事項として、サービスを提供するデータセンタが、R社と同じ地方にないこと。
・災対システム稼働中にインシデントが発生し、災対システムが停止した場合、インシデントの発生から120分以内にサービスが再開可能なこと。
・(確認30分+起動完了まで30分かかるから問2-1:ストレージ追加作業が、災対システムの起動完了までに終わること)
 G氏は(関東地方になく、インシデント対応と追加の所要時間の合計が災対システム開始の60分を超えない問2-2:S社)を選定した。

災対システムの構築

 G氏は変更計画として、災対システムの構築計画、災対システムに関連する既存システムの稼働環境の修正計画、及び既存システムのオペレーションマニュアルの修正計画をまとめた。変更計画はR社で規定する変更管理プロセスに従って承認され、災対システムが構築された。災対システムの構築が完了した後、G氏は災害対策用マニュアル(以下、災対マニュアルという)も作成した。
 当初、災対システムの構築完了後、G氏は予備の専用線を追加して、可用性向上させることにした。この場合、災対システムの正常稼働の確認で予備の専用線の切替作業と疎通確認作業が増えるが、想定している30分の範囲内で作業可能と判断した。予備の専用線の追加は、変更管理プロセスに従って承認された後、予備の専用線の敷設作業が実施された。

災害復旧訓練の準備・実施

 災対システムの構築完了後、G氏は災害復旧訓練(以下、訓練という)の実施を計画した。訓練には、実施日時に勤務中の販売管理システム専任のAチームのオペレータと運用責任者が参加し、実機を使用して災対システムへの切り替えを行う。
 G氏は訓練の計画書を作成し、参加者に向け会議で訓練計画及び災対マニュアルについて説明を行った。会議において、”被災時には、勤務中のAチームのオペレータが何らかの理由で作業を行えなくなり、非番のオペレータも招集できないという不測の事態も考えられる。RTO内に復旧するために、こうしたリスクへの備えも必要である”という指摘を受け、G氏は(問3-1:Bチームのオペレータを販売管理システムのオペレーションもできるように教育する)対策を検討した。
 訓練は予定した日時に実施された。訓練完了後、訓練実施者の会議において”災対マニュアルの復旧手順では、予備の専用線の疎通確認が漏れていたので作業に手間取ってしまった”という報告があった。
 G氏はITサービスマネージャの観点から(問3-2:災対マニュアルをサービスの構成品目として認識し、変更計画の対象とする)こととした。











この記事が気に入ったらサポートをしてみませんか?