半径1メートルのAWSクラウド

2019年8月24日 16:49

昨日の8月23日(金)12:36、AWS東京リージョンで障害が発生した。AWSは僕たちの仕事のいわば“必需品”だから、会社のチャットにはその情報が流れて、昨日は騒然とした雰囲気の中での仕事になった。18時、帰宅しようと外に出た僕は帰りの足を奪われていることに気づいた。いつの間にか僕にとって、AWSは“暮らしの必需品”にもなっていたらしい。

Amazonにとっては小さな障害だが社会にとっては大きな事故

AWSのステータス情報によれば、8月23日(金)12:36、AWS東京リージョンの一部のサーバーが停止した。空調設備の管理システムの障害らしい。

日本時間 2019年8月23日 12:36 より、AP-NORTHEAST-1 の単一のアベイラビリティゾーンで、一定の割合の EC2 サーバのオーバーヒートが発生しました。この結果、当該アベイラビリティゾーンの EC2 インスタンス及び EBS ボリュームのパフォーマンスの劣化が発生しました。このオーバーヒートは、影響を受けたアベイラビリティゾーン中の一部の冗長化された空調設備の管理システム障害が原因です。

AWSの基盤は、どこかで故障が発生してもサービス全体が止まらないよう、物理サーバーから電源系統や基幹ネットワーク系統までの物理基盤をいくつかに分けている。簡単なイメージとしては、数棟の建物でデータセンターが構成されていると思えばいい。これがアベイラビリティゾーンと呼ばれる。

「空調が壊れたらクラウドが止まるくらい暑い国で来年はオリンピックか」と同僚は問題が落ち着いた後で笑ってたけど、なんにせよ故障影響はほかのアベイラビリティゾーンには及ばない。だから「当該アベイラビリティゾーンの EC2 インスタンス及び EBS ボリュームのパフォーマンスの劣化」でとどまったはずだった。EC2やRDSのSLAではサービス停止を以下のように規定しているから、アベイラビリティゾーン一つに影響が収まっている以上、アマゾンからしたら今回の件は「障害」にカウントしないかもしれない。

サービス利用者がインスタンスまたはタスク（コンテイナー1 個以上）のうち該当するものを実行している同一地域内の複数の Availability Zone が、サービス利用者にとって同時に「使用不能」となることをいう。
（Amazon Computeサービスレベルアグリーメント 2018年2月18日版）

「使用不能」とは、Multi-AZ インスタンスの実行を要求するあらゆる接続が 1 分間実行されないことを意味する。
（Amazon RDSサービスレベルアグリーメント2013年6月1日版）

だから「Amazonにとっては小さな障害」だが、「社会にとっては大きな事故」だった。「AWS 東京リージョンで発生した大規模障害についてまとめてみた - piyolog」にまとめられている通り、非常に多くのサービスが停止した。すぐにあちこちのゲームで接続障害が起きていることがつぶやかれ、14時には記事が流れた。止まったゲームの一つにアズールレーンがあり、僕のところには「アズレンがAzureを使ってなかった件」なんて投稿も流れてきた。

半径1メートルのAWSクラウド

AWSは僕たちの仕事の“必需品”でもあるから、会社のSlackチャンネル（チャットルーム）には早くから情報が流れ、社内はざわついていた。だから、13時少し前に僕のiPhoneが1件の通知を受信したとき、僕はさっと読み流してすぐに閉じてしまった。こんな通知だった。

僕は東京駅から会社最寄りの茅場町駅まで、電車ではなくドコモのシェアサイクルを移動手段にしている。その利用者用アプリから通知で、タイミングから言ってこれもAWSの単一リージョン障害の影響だろうとは思った。でもそれ以上は深く考えず軽く読み飛ばしていたし、後半の説明に印象が引きずられたため「どうやら返却ができなくなったらしい」ぐらいに思っていた。

18時、普段なら終業にする目安の時間だし、家につけば作業が必要になってもリモートで対応できると考え、帰宅することにした。エレベーターで一階に降りてホールから出て、珍しくけっこうな台数が残っているシェアサイクルの手近な一台に近づく。バッテリーが十分残っているのを確認し、鍵代わりのSUICAをかざす。いつも通り少し待たされて……それからさらに待たされて、いつもの「開錠」ではなく「Time Out」のメッセージが表示された。

僕は昼に来た通知を「返却にトラブルが起きてるらしい」ぐらいに誤読してたし、なによりもう回復していると思っていたというか、正直に言えばすっかり忘れていた。でも障害はまだ続いていたし（だってAWSがまだ回復しきってないのだからその可能性は当然あった）、返却できないだけじゃなくて開錠、つまり借出しもできなかった。

仕事でAWSを使っている分には、最初にクラウド・コンピューティングという言葉が使われたといわれるエリック・シュミットの演説にある通り、それは「インターネットの向こう、雲の上のどこか」にある感覚だ。でもこうして、暮らしに影響が及んでみると、クラウドは本当に身近に使われているものになったのだと思う。いま僕の目の前、物理的な距離として1メートル以内のところに、AWSの端っこが続いているのだと実感する。

僕たちの暮らしはDXされている

この影響で地下鉄はいつも以上に混みそうだ。それに先週に比べれば少し涼しくなった。空はまだ明るい夕焼け空だ。少し考えた後、東京駅まで歩こうと決めた。

歩きながら、再び会社のSlackを開いて、シェアサイクルからきていた通知の画面コピーと「Time Out」の表示、つまり上に乗せた写真2枚に「シェアサイクル、まだ貸出復旧してませんでした」とコメントをつけて送った。そのあと、引き続き歩きながら考えていたのは、5月に書いたのと同じことだった。

利用者の僕にとってみれば駐輪場に行って置かれてる自転車を借り出し、自分の手でハンドルを握り足でペダルを踏み、目的地最寄りの駐輪場で返却するまでのすべてがアナログ。わずかなりともデジタルを感じさせるのは、SUICA定期券が鍵がわりになることぐらいだ。でも裏側の仕組みはデジタルで、その仕組みが僕というユーザーのエクスペリエンス（UX）を変えている。

あくまでユーザー体験、あるいは暮らしや社会が変わることが、UXやDXという概念、コアコンセプトだと思う。デジタル化という概念、デジタル“に”変えるというコンセプトは、デジタル“が”変えるというUXやDXと字面だけ見ればほとんど一緒だけど、まったく別々の独立したコンセプトだ。デジタル化がDXではないことは、あの99%アナログな自転車が教えてくれる。

なにかをデジタル化することではなく、アナログな暮らしや働き方を変えることがDX、デジタル・トランスフォーメーションのコアコンセプトだと思う。そしてこうなってみると、たしかにカーナビも車両内サイネージもない僕の自転車というアナログな通勤は、それでもデジタルに支えられているのだな、と実感する。僕の暮らしは、すでにDXされているのだ。

そんなことを考えたり、でも一方では夕涼みの散歩気分で日本橋高島屋の「365日と日本橋」に寄り道したり（夕食用のパンを買った、ここの食事系パンはおすすめ）しながら、東京駅まで30分かけて歩いた。

東京駅に着くころには、先ほどのSlackへの投稿に「ヒー」という悲鳴顔のリアクションが4件付いていた。まだ会社に残っていたシェアサイクル通勤組だ。僕の暮らしだけじゃない、僕たちの暮らしはすでにDXされているのだ、と思った。

（ヘッダ画像、写真はすべて著者撮影。最後の東京駅の風景は、著者撮影の写真をArtomatonで加工した。）

参考：
AWS Service Health Dashboardに掲載されたEC2の「インスタンスの接続性について | Instance Availability」情報

9:18 PM PDT We are investigating connectivity issues affecting some instances in a single Availability Zone in the AP-NORTHEAST-1 Region.
9:47 PM PDT We can confirm that some instances are impaired and some EBS volumes are experiencing degraded performance within a single Availability Zone in the AP-NORTHEAST-1 Region. Some EC2 APIs are also experiencing increased error rates and latencies. We are working to resolve the issue.
10:27 PM PDT We have identified the root cause and are working toward recovery for the instance impairments and degraded EBS volume performance within a single Availability Zone in the AP-NORTHEAST-1 Region.
11:40 PM PDT We are starting to see recovery for instance impairments and degraded EBS volume performance within a single Availability Zone in the AP-NORTHEAST-1 Region. We continue to work towards recovery for all affected instances and EBS volumes.
Aug 23, 1:54 AM PDT Recovery is in progress for instance impairments and degraded EBS volume performance within a single Availability Zone in the AP-NORTHEAST-1 Region. We continue to work towards recovery for all affected instances and EBS volumes.
Aug 23, 2:39 AM PDT The majority of impaired EC2 instances and EBS volumes experiencing degraded performance have now recovered. We continue to work on recovery for the remaining EC2 instances and EBS volumes that are affected by this issue. This issue affects EC2 instances and EBS volumes in a single Availability Zone in the AP-NORTHEAST-1 region.
Aug 23, 4:18 AM PDT 日本時間 2019年8月23日 12:36 より、AP-NORTHEAST-1 の単一のアベイラビリティゾーンで、一定の割合の EC2 サーバのオーバーヒートが発生しました。この結果、当該アベイラビリティゾーンの EC2 インスタンス及び EBS ボリュームのパフォーマンスの劣化が発生しました。このオーバーヒートは、影響を受けたアベイラビリティゾーン中の一部の冗長化された空調設備の管理システム障害が原因です。日本時間 15:21 に冷却装置は復旧し、室温が通常状態に戻り始めました。温度が通常状態に戻ったことで、影響を受けたインスタンスの電源が回復しました。日本時間 18:30 より大部分の EC2 インスタンスと EBS ボリュームは回復しました。我々は残りの EC2 インスタンスと EBS ボリュームの回復に取り組んでいます。少数の EC2 インスタンスと EBS ボリュームが電源が落ちたハードウェアホスト上に残されています。我々は影響をうけた全ての EC2 インスタンスと EBS ボリュームの回復のための作業を継続しています。早期回復の為、可能な場合残された影響を受けている EC2 インスタンスと EBS ボリュームのリプレースを推奨します。いくつかの影響をうけた EC2 インスタンスはお客様側での作業が必要になる可能性がある為、後ほどお客様個別にお知らせすることを予定しています。 | Beginning at 8:36 PM PDT a small percentage of EC2 servers in a single Availability Zone in the AP-NORTHEAST-1 Region shutdown due to overheating. This resulted in impaired EC2 instances and degraded EBS volume performance for resources in the affected area of the Availability Zone. The overheating was caused by a control system failure that caused multiple, redundant cooling systems to fail in parts of the affected Availability Zone. The chillers were restored at 11:21 PM PDT and temperatures in the affected areas began to return to normal. As temperatures returned to normal, power was restored to the affected instances. By 2:30 AM PDT, the vast majority of instances and volumes had recovered. We have been working to recover the remaining instances and volumes. A small number of remaining instances and volumes are hosted on hardware which was adversely affected by the loss of power. We continue to work to recover all affected instances and volumes. For immediate recovery, we recommend replacing any remaining affected instances or volumes if possible. Some of the affected instances may require action from customers and we will be reaching out to those customers with next steps.

AWS Service Health Dashboardに掲載されたRDSの「インスタンスの接続性について | Instance Availability」情報

10:22 PM PDT AWSでは、現在、東京リージョンの1つのアベイラビリティゾーンで発生している、複数インスタンスに対する接続性の問題について調査を進めております。| We are investigating connectivity issues affecting some instances in a single Availability Zone in the AP-NORTHEAST-1 Region.
11:25 PM PDT AWSでは、東京リージョンの1つのアベイラビリティゾーンで発生しているインスタンスの接続性の問題について原因を特定し、現在復旧に向けて対応を進めております。| We have identified the root cause of instance connectivity issues within a single Availability Zone in the AP-NORTHEAST-1 Region and are working toward recovery.
Aug 23, 12:01 AM PDT AWSでは、現在、東京リージョンの1つのアベイラビリティゾーンで発生しているインスタンスの接続性の問題ついて、復旧を開始しております。影響を受けている全てのインスタンスの復旧に向け、対応を継続いたします。| We are starting to see recovery for instance connectivity issues within a single Availability Zone in the AP-NORTHEAST-1 Region. We continue to work towards recovery for all affected instances.
Aug 23, 2:16 AM PDT AWSでは、現在、東京リージョンの1つのアベイラビリティゾーンで接続性の問題が生じている全てのインスタンスの復旧に向け、対応を進めております。| We continue to see recovery for instance connectivity issues within a single Availability Zone in the AP-NORTHEAST-1 Region and are working towards recovery for all affected instances.
Aug 23, 6:19 AM PDT 日本時間 2019年8月23日 12:36 から 22:05 にかけて、東京リージョンの単一のアベイラビリティゾーンで一部の RDS インスタンスに接続性の問題が発生しました。現在、この問題は解消しており、サービスは正常稼働しております。 | Between August 22 8:36 PM and August 23 6:05 AM PDT, some RDS instances experienced connectivity issues within a single Availability Zone in the AP-NORTHEAST-1 Region. The issue has been resolved and the service is operating normally.

この記事が気に入ったらサポートをしてみませんか？