チーム・会社としての危機対応の「振り返り文化」って大事よね、という話
ミラティブ赤川です。
2021年ももう1/4が折り返し、月日の早さはビビるレベルですが、今年も何とか順調にやっています。
エンジニアブログ「障害振り返り」
最近、当社エンジニアチームが地道にテックブログを発信しつづけている。
ちょうど今週回が障害振り返りネタで、課題に向き合い続けるチームを象徴するような良いポストだったので、エンジニア諸氏にもそれ以外にももっと届くと良いなと思いnote無精を解いてみる。
↓コチラ
私なりに解釈すると、以下のような内容。
・障害は時には起こる前提に立つ(障害のゼロ化そのものが目的ではなく顧客に継続的に価値提供しつづけられることが本質・そこへの最適解設定)
・問題を直視した上で、ヒトではなくコトに昇華し、「チームとしての」再発防止につなげる
・HOWとして、フォーマットをキメて振り返る
・抽象度は適切か(場当たりでないか)、過剰対応になっていないか、属人性に依存していないか(「仕組み」になっているか)
・その上で課題に向き合い続ける(当社行動指針)
別に特別なことは書いていないのだが、当たり前のことを振り返り含めて当たり前にやる、というPDCAの練度は、組織の文化として大事にして今日に至っている。
代表っぽい上段と過去の危機対応の話
私個人としても、11年前のDeNA所属時代、Yahoo! mobageのβリリースにて個人情報関連の大障害を起こしたことがある
(その節はまずユーザーさん、そしてヤフーの方々にも多大なご迷惑をかけたが、ヤフーチームに寛大にもいっしょに解決に取り組んでいただきサービスは今につながっている。感謝に堪えない)。
それ以降も、当事者でない事象も含め、前職でも危機対応を何度か近くで見てきた。
当時から、過去に危機対応を経験している人は初動の落ち着きや手際が違い、非常に頼りになった思い出がある。経験が糧になる典型だ。
ミラティブ社でも、創業直後の2018年8月末に、サービスが丸1日停止するという大きな障害が起こった。
(逆に言うと、ミラティブはそれまで数年来、全く「サービス停止」時間を持ったことがなかった。その後もサービス停止メンテの数は片手で足りるはずだ。当社のインフラ技術力・運営力・振り返り力の自慢ポイント!)
その障害対応は反省が多く、翌日、Slackにこんなポストをした。危機対応への「姿勢」としては今日見てもツボは押さえているなと思うので、社内で思い出すきっかけが、業界への血肉にもなればと思い、以下共有しておく。
/////////////////////
2018/9/1 PM4:22
その後の対応も見て、まだまだ危機対応の力が組織として弱いなと感じました。
今晩以降もまだまだありえると思うので、過去の経験上、重要と思っていることを列挙します。
・まず止血を最優先する
とはいえの利益面等を考えてしまって、止血・被害拡大の措置が中途半端だと状況はたいてい悪化します。レッドゾーンに入ったらまず最優先は止血。
なまじサービスが伸びていることで、全ストップに踏み切れず、結果取り返しがつかなくなる、ということが起こりえます。
昨日も、事態悪化してるのに停止や一部メンテの判断が遅すぎたと反省しています
・事態解決のベストなコミュニケーション体制を最速で作る
一昨日の、HさんとTさんを会社に真っ先に呼ぶ判断等がこれです。
危機対応時は、関係者が一か所に集まって、とにかくコミュニケーションコストを最小化して全体で当たるのが基本中の基本です。(*2021年追記注:このへんはbeforeコロナ感はありますね)
ヤバいゾーンに入ったと思ったら、まずは集合。関連して、
・リーダーシップを明確に
対応に当たれるメンバーの中でのリーダーシップを明確にする。
誰が判断の責任者なのかキメて、そこに情報が集まる体制にする。
平時のリーダーシップと戦時のリーダーシップはぜんぜん違うという話がありますが、戦時はトップダウンでもとにかく問題解決だけにフォーカスしてそれ以外のことはすべて無視、という通常時以上にコトだけに向かう意識と、推進力が重要です。
誰が決めるのか最初にクリアにして、バシバシ決める。
・一切の遠慮をしない
呼ぶと申し訳ないのでは、この程度で手を煩わせるのはちょっと、、、等々の遠慮・責任感が危機対応時には全てアダになります。ヤバいと思ったらすぐエスカして必要な人を集める。
昨日も、重要な集まり感出しちゃってた僕の責任ですが、僕もっと早く戻るべきだったと反省してます。
・ハードコミットしない
基本的に危機対応の時の判断は焦ったものになりがちです。
止血の議論に近いですが、焦ってハードコミットしてしまうと、それが間に合わなかった時にさらなる迷惑をユーザらに強いることになりより事態が悪化します。
見えてるスケジュールより必ずバッファを取るくらいの時間軸設定を心がけましょう。今回も、あれだけプロフェッショナルが集まってても、当初見積もりよりすべての判断が押しています。いい悪いではなくそういうものです。
特に、対外コミュニケーションは慎重に慎重を期したスケジュールをコミュニケーションするようにしましょう。
・情報伝達経路を作る
今回うまくできていなかった筆頭でもあります。
1時間ごと、3時間ごと、等に状況を整理して、適切な経路で情報集約・発信するフローの構築が重要です。(対内部・対外ともに)。
必要な全員およびリーダーが同じ情報量をもって分担してことに当たるのが基本です。
途中からjoinしたりでフロントに立ちにくいメンバーもこういう観点で貢献できるので、血液をよく循環させることや兵站の整備等でみんなで支えあっていこうな。
・休める時に休む
多くの危機対応は長期戦になります。
人間なので判断力は睡眠不足で低下します。ここでも妙な責任感がアダになります。
ローテーション等を使って、休める時にしっかり休むこと。睡眠不足メンバーは全体のスピードを落とす害悪、くらいのつもりで自身がそうならないよう自己管理しましょう。
・「まず君が落ち着け」
シンゴジラのこれは真理だね~。とにかく焦らない。
修羅場経験が組織の成長、でもあるので、今回を機により非常時に強い組織になりましょう。
/////////////////////
参考になりましたら!
(note無精の励みになるので参考になる部分があったらフォローやハート、シェアしていってくださいね)
*エンジニア、PM含め、ミラティブ社では採用加速中です。C向けサービスで、顧客に向き合ったものづくりをしたい方、ぜひ!
この記事が気に入ったらサポートをしてみませんか?