見出し画像

これだけ読めば安心!専門家でないSEが実践しているネットワーク障害対応の第一歩

ネットワーク障害が難しい理由

社内ITをスコープ別に大きく分けると、アプリ、インフラ、運用となる。そのうちネットワーク障害は鬼門であり、担当が難しい。理由としては3つある。

* 発生頻度が少なく知見がたまっていない。
* リモートであるためにわかりにくい
* 物理的な要因とソフトウェア的な要因、パフォーマンス要因について切り分けが難しい。

例えばアプリケーション障害は、そのアプリを担当している開発者もしくはベンダーがいるためにブラックボックスとは言えない。また開発~これまでの運用を通して比較的知識がたまっているために、過去の似たような障害を追っかけると何となく原因が判別できる。さらにややこしいケースでもオンラインでデバッグなどが可能であるからより詳細な分析をしやすい。

また運用障害は、これは障害が発生することを前提にシナリオを組んでいることが多い。監視システムの整備により素早くエラーを検知し、障害範囲を抑える。またバックアップからのリカバリーなどにより障害発生前のロールバック等が可能である。

それに対してネットワーク障害はあまり起きない。起きないということは素晴らしいことであるが、専門のエンジニアが用意されていない、適切なサポート契約の必要性が認められにくい。さらに知見がたまりにくいといった問題につながる。

またネットワーク障害が自分がいる拠点ならばよいが、リモートの拠点である場合、そもそも問題がなんであるか、を明らかにすることすら難しいケースがある。事象報告として、”昨日までつながっていったネットワークがつながらない”と上がってきたが、リモートユーザーと詳しく話をしたら、"ネットワークが異常に遅い"が正しい事象であったということもままある。

さらにネットワーク障害は切り分けが複雑である。

* 物理的な障害(ケーブルの破損、機器の故障)
* ソフトウェア的な障害(機器のOS異常、アプリの誤動作に大量パケット)
* パフォーマンス(回線のキャパシティ)

夜残業していたあなたが突然ネットワーク障害の連絡を受け取ってしまったら?

難しいことは考える必要はない。まずやるべきことは"なになに分析"と"どこどこ分析"である。ネットワーク障害の原因分析は正直言って素人には手に負えない。原因は表面から見えないケーブルの断線かもしれない、スイッチの熱暴走かもしれない、STPの誤動作かもしれない、回線会社側の不具合かもしれない。

原因は多岐にわたるために知見を積んだ、ネットワークエンジニアですら、障害対応は難しい。そんな障害を担当でないあなたが解決できるわけもない。しかしすくなくとも次のステップにつなげることができる。それが"なになに分析"と"どこどこ分析である"

なになに分析とは、問題は何であるかを明らかにすることである。そんなの簡単と思いきや、リモートだと案外この情報が伝わってこない。例えば以下のように問題を特定することががなになに分析の結果である。

* WANがつながらない
* インターネットがつながらない
* プリンターがつながらない
* 特定のサイトにつながらない
* 動画がダウンロードできない
* 動画が遅い

次がどこどこ分析である。

* 特定のラップトップで発生している
* ひとつの拠点で発生している
* 特定のグループで発生している。

この分析があれば次のステップである原因分析に容易に進める。そして上記のポイントはネットワークのややこしい知識やツールがなくても言葉慧通じれば誰でも実践できるということである。



この記事が気に入ったらサポートをしてみませんか?