相談事例:その2:スモールスタートしたけどアラームが多すぎる
こちらでは、私が保守運用に関する相談を受けた事例を記載いたします。
「何とかサービスにたどり着いたけどアラームが多くつらい」
「サービスイン後の体制が弱く何とかやりくりをしないといけない」
という方、是非ご覧になってください!
※本記事は特定されることを回避するために、一部内容を変えています。ご容赦ください。
今回の相談者のプロフィールです。
・クラウド上でサービスを開始、B2Cのウェブサービス
・クラウドのIaas上にアプリを構築
・クラウドが不慣れでマネージドサービスをあまり使えてない
・中堅企業の中で規模が小さく6か月でサービス開始
・チームはもともと5人いたが、サービス開始後2人になった
相談者の悩みは?
ご相談者からは以下のようなことを伺いました。
「あまり慣れないクラウドサービスだったが上層部のスピード重視の方針から、半ば無理やりに6か月でサービス開始をした。」
「サービス開始後のアラームメールが1日500件ほど鳴ってしまい、それを仕分けるだけにもかなりの労力を使ってしまい、改善が進まない」
「試験ではわかっていたが、サービス開始を優先していたのでしょうがなかった」
スモールスタートあるあるな気がしていまして、サービス開始を優先すると運用がないがしろになって、サービス開始後は人を減らされるので残った人が苦しむ、、、という感じです。
ひとまず小さく改善できる手段を考える。
このチームもサービス開始後すぐで、予算もあまりなく改善にお金を使うことはほとんできませんでした。
みなさまももちろん浮かぶとは思うのですが、ひとまず小さく改善できる手段を考えて順番にやっていくしかない、、、というお話をさせていただきました。
アラーム対応一覧をエクセルで作る
一番に手を付けたのは、残ったチームの2人のスキルシェアでした。
この二人は中堅・若手の2名のスキルをシェアするところからでした。中堅の方に偏りがあって、仕事がひっ迫しすぎて何もできないという状況になってました。
地味ですがまずはアラーム対応のうち対応が必要なもの、不要なものを一覧にして、若手でも仕分けられるということを最初にやりました。
このエクセルを作るときに次のoutlookフィルターなどを意識しながらやりました。
outlookフィルターを作る
上ができたらちょっとだけ自動化をします。
outlookフィルターは不安定なことがあるので、ここに依存しきることはできませんが、振り分けをしてくれるだけでもだいぶ助かります。
事前に作ったエクセルをもとに徐々にoutlookフィルターを作っていきました。
これができると対応が決まってないアラームが浮き彫りになるので、
「フィルター漏れたものの対応を考える」「フィルターを作る」を繰り返すことで徐々にですが楽になってきます。
上の2つがうまくいってきたら次のステージを考えましょう。
管理が更に簡単になる安いサービスを入れる。
注意事項
個人的に気を付けたほうが良いと思っているのは、アラームが大量で困った時に「ツール何かないかな」となることが多いです。
ただ、ツールを入れるとなっても、前述のようなフィルダーがどうせ必要になってきます。。。
お金を払ったら一気に解決するツールなんてものは無いですし、コンサルや支援をしてくれる人はいても、実際動くのは自分たちになることが極めて多いです。
ましてはスモールスタートしたサービスはお金がなく、ツールを入れても解決することはほぼありません。。。
今のチームの課題を冷静に考えて、まずは地味ですがエクセル作ったり、outlookフィルターをすることをお勧めします。
インシデントレスポンスサービス
こちらにあるようなインシデントレスポンスサービスを最少人数で使い始めるのが最初かなと思っています。
フィルターができて、アラーム一覧があるならば、対応しなければいけないものも多くなってきます。
上司からすると、仕分けができたら次は対応をいかに早くするかに徐々に焦点が当たってきてしまうもの、、、
対応が必要なものが浮き彫りになったら、それをうまく対応するためにどうすればよいかを考えましょう。
これも2名ならば一番安くて導入しやすいものをひとまず入れて、あとで捨てる覚悟で使われるのが良いのかなと思っています。
ご覧いただきありがとうございました!
この記事が気に入ったらサポートをしてみませんか?