見出し画像

slack大規模障害から学ぶ品質リスクとの付き合い方

今日、午前9時ごろにslackの大規模障害が起こりました。
ビジネスパーソンの皆さんはドキッとしたのではないでしょうか?「やばい!今日仕事できないんじゃないの・・!?」と。私のその一人です。
これだけの影響力があると、1時間のサービス停止のインパクトもなかなかのものだな、開発に携わる人間として、ヒヤリとした一件でした。

私の所属する会社ではslackのエンタープライズ版を利用していますが、窓口担当者とslack社の担当者とでトラブルに関する諸々のやりとりをしていたそうです。現在は、原因調査中とのことです。
そうしたやりとりを横目に、「トラブル対応って大変だな・・」としみじみ感じました。slackを利用している法人ってたくさんあると思いますし、それぞれの会社さんに担当者がいらっしゃるのだと思います。今回のトラブルについて同じような担当者間のやりとり、問い合わせ対応が現場では何度も起こってるんだろうな・・と想像しました。

開発の現場にいるとこういった顧客向け説明責任やクレーム対応といったことがなかなか実感としては見えづらいので、勉強になりました。
今回は、このトラブルの事業影響を予測し、PdMはこういった考え方をするんだろうか?というシミュレーションをしていきたいと思います。

今回のトラブルの事業影響

slackのSLAを調べたところ、99.99%でダウンタイムが許容されるスペックであるようです。
そして、規定以上のダウンタイムをオーバーした際には「slackクレジットポイント」という制度によってキャッシュバックがかかるサービス設計をしています。具体的には、1ポイント1円相当のポイントが付与されて、割引に使えます。品質が悪いと事業の損失につながるんですね。
https://slack.com/intl/ja-jp/terms/service-level-agreement
今回のダウンタイムで被った損失がどれくらいか、ざっくり見積もってみました。

50〜60分のダウンタイムが発生しましたが、それに対して本4半期の許容時間は約13分ほどです。つまり許容時間に対して40分ほどオーバーしています。
slackクレジットポイントは、オーバーしたダウンタイムの10倍の時間分、キャッシュバックとなるスペックです。つまり400分=6時間分のサービス利用料が損失として出ている計算になりそうです。

売上に対する影響は、いかがでしょうか。slackの四半期の売上高が1億8610万ドルということです。4半期を90日間だとすると、4半期売上に対する6時間分の影響と考えると、おおよそ1/360の計算。つまり約0.3%売上が減ります。よって影響は51万ドル。5000万円くらいの売上損失が見込まれるのではないでしょうか。
https://www.itmedia.co.jp/news/articles/1912/05/news080.html

品質リスクに対する向き合い方

現在、このトラブルの原因分析や対策の検討をしているだろうと思われますが、発生頻度があまりに少ない場合を除いては、再発防止策の実行をぜひやっておきたいですね。

今回のslackトラブルについて調べてみて感じたことは、品質リスクに向き合うサービス設計が秀逸だな、ということです。
というのは、slackというサービスの性質上、社内コミュニケーションツールとして用いられるため、少しでも止まると顧客へのダメージが大きいサービス性だと思います。サービスのコアな非機能観点に対して、サービス提供者自らが「ダウンタイムにはペナルティを負います」というスペックを宣言していることにはメリットがあると考えます

利点は2つあります。1つは、安心して使いやすいこと。事業者の品質へのこだわりを暗に示すことができていると思います。2つめは、品質が事業に与えるインパクトが定量化できる点。これによって、開発チームはインパクトに対する打ち手の過不足を定量的に検討することができます。

事業戦略〜運用のPDCAに好影響を与えていることが想像できます。定性的な顧客価値をうまく定量化することに成功した事例と言えるのではないでしょうか。
品質リスクを自ら負いにいく、という考え方は、品質の影響が大きいサービスの設計として、一つのロールモデルだと言えそうです。

この記事が気に入ったらサポートをしてみませんか?