見出し画像

Skeb障害にみる、運営サイドに求められる対応力

*注
全体的に謎の上から目線で書いています。苦手な方はブラウザバック推奨。

お久しぶりです。
先日のSkeb障害に対して、小並感な感想ではあるものの、少し書き残しておきたいと思ったので執筆します。

まずSkebについて、スケブと読むこのサービスは、クリエイターに対して絵やボイスといった、最近ネット市場でよく流通している系のコンテンツ制作を依頼できるもので、公式にも「リクエストボックス」と紹介されています。

自分は、今年の夏から突然アニメにハマりだし、Twitterでアニメ作品のファンアートなどもよく見るようになったのですが、その中で、所謂「絵師さん」が、リクエストを通してアニメキャラクターをさまざまなシチュエーションで描いているのを知りました。その際にリクエスト料?チップ?の決済を仲介している会社、というイメージで知ったがSkebでした。

よくよく調べてみるとSkebは近年コミュニティとしても繁栄しているみたいで、実際にかなりの利益を出しているそうです。

そんな大人気のサービスを襲った、アクセス過多によるダウンを除いて初めての大規模障害。

原因は執筆時点では究明されていませんが、Skebが全てのサーバーとサービスをSalesforce社のクラウドプラットフォーム「Heroku」に設置していたそうですが、そのHerokuのアカウントが通知なく利用不可になり、サービスが全て遮断されてしまったそうです。

すごいのが、Skeb社のその後の対応。

障害発生から社内での認知までが5分。
それから3分後にTwitter上で障害を公表。
その44分後には、Herokuの復旧時期が推測不可と判断し、Herokuの一切の利用中止を決定。同時に、別のクラウドサービスへの移管を開始します。
その約1時間後には、ユーザーへの対応として納品期限の延長を決定。
また、Twitterのプロモーションツイートを活用して障害発生のさらなる周知を図ります。
クラウドサービス移管作業の開始から、まさかのわずか2時間で移管完了。
その13時間後には本番環境の構築も完了し、ドメイン接続先の切り替えを実施。

障害発生から18時間強で、障害復旧まで漕ぎ着けたのです。

大規模障害とも呼べる今回のシチュエーションですが、1時間未満でクラウドサービスの完全移管を決断し、それから13時間で本番環境まで構築してしまうという神対応。
上層部の決断力、エンジニアの技術力、どちらも本当に素晴らしいものだと思います。

また、莫大な広告費用が発生するプロモツイートも打って、ユーザーへの周知を怠らなかったその姿勢も本当にすごいですよね。

大体こういった障害が起きたときって、障害の認知が遅れたり、ユーザーへの公表を先延ばしにしてしまったり、対応が遅れたりとさまざま問題点が挙げられますが、Skeb運営の対応にはこういった問題点がほとんどないと思います。

しかもSkeb運営の神対応はユーザー向けだけには留まりません。
今回の障害を受けて、夜間に障害対応にあたったスタッフに手当を支給する制度を導入。
対象のスタッフには、法定割増賃金に加えて3万円を支給するそうです。
なんて社員思いな会社なんだろう…
さらに、今回はクリスマスというタイミングだったこともあり、家庭を持つスタッフにとってはかなり苦痛だったことでしょう、、、ということで、年末年始の休業期間も今年は延長するそうです。

ユーザーに対しても、スタッフに対しても、恐ろしいほどの神対応を見せてくれたSkeb。
このような対応はなかなか難しいものではありますが、ここまで頑張ってくれると、ユーザーとしては「もっとこのサービスを応援したい!」という気持ちになりますし、スタッフとしても「この会社をもっと盛り上げたい」と社内の士気が上がるのではないでしょうか。
障害が発生してしまったとはいえ、Skebの対応はとても良い事例になったはずです。
ぜひ他の企業さんでも今回の対応を真似してほしいと思います。

ソース:Skebの発表「【復旧】12月23日、24日に発生しました障害に関するご報告」
サムネイル:photoAC

この記事が気に入ったらサポートをしてみませんか?