見出し画像

障害の減らない現場の「なぜ?」を見える所まで持ってった話


お疲れ様です。むぎです。

システムのバグ・障害を減らしたいけど減らせない。減らしたいけど原因が掴めない。何をしたらいいか分からない。

そんな悩みを抱える現場と向き合って、二年間、活動してきた内容を紹介しようと思います。

はじめに

転職して、いざ現場に行ってみると、その日の会議で「本番障害を減らせ!確認・テストを怠るな!」というお達しが出たところでした。

この手の話は、どの現場でもある話ですよね。

何か気づくこともあるかなということで、まずは本番障害がどのように管理されているかを見てみることにしました。

障害管理表はあった…けど

障害管理表はちゃんと管理されていました。運用フローなんかもきちんと整備されていました。

でも、記載レベルは人によってバラバラ。作文の様に長文を書いている人もいれば、一言で終わってる人もいました。

パッと見て、品質の善し悪しがわかりませんでした。

他にも、次のようなことが起きてました。

①障害件数は増えて、減って、増えて、減って、改善の傾向が見えない。
 
②原因の分類が"その他"、"仕様通り"ばかり選択されている。
 
③原因詳細の記載が、ほとんど”テスト漏れ”と書かれている。
 
④これらを分析する人がいない。書きっぱなし。

⑤全員が全員、「障害をなくすには、テストをしっかりやるように!」という発言ばかりだった。

まずは現状を知ることから

現状を知らずに憶測で話しても仕方ないので、最初は、前年度一年分の本番障害表を全部精査してみました。

新参者なので、障害内容を読み間違ったりしてると思いますが、そこはざっくりで良しとしました。

・多少間違ってても全体の傾向は掴めるだろう
・そもそも残ってる情報少ないし

といった感じです。

そこで対策した内容を紹介します。

再設定で行ったこと①

ここから先は

2,886字
この記事のみ ¥ 200

読んで頂いて、ありがとうございました(⋆ᴗ͈ˬᴗ͈)” 宜しければ、イイねやオススメ、サポート等を頂けると、次の記事を書く、励みになります! ぜひ、よろしくお願いします(*º▿º*)