au障害メモ

会見終了。ざっくりメモ
技術担当ヨシムラ
社長タカハシ
法人担当ナタニ


🔶原因
多摩拠点のコアルーターリプレースにおいて交換器輻輳、加入者輻輳が発生し止まった。切り戻し手順は正しいと判断しているが、結果他系統にまで波及してしまった。
コアルーターのリプレースエラーの原因は、ハードウェアでなくソフト(プロセスエラー)的な問題と一時的な判断が出ているが、詳細は調査中

🔶復旧に時間が掛かっている理由
復旧時(コンチプラン)の想定外エラー→手作業のため

🔶iPhoneとAndroidでなぜ復旧時間がちがう?
Androidも機種やバージョンによって違うが、端末によっては通話まで出来なくなるようなふるまいもあるため、端末依存する部分がある。

🔶法人IoTへの影響などは?
音声システムはコンシューマー向けと同系統を使用。
障害発生時間帯はコンシューマー向けと同じ。

🔶ドコモの輻輳について「ひとごとではない」と言っていた高橋は、何か対処したのか?
元から十分設計してたので、特に何も考えてなかった

🔶加入者DB,volteの不一致について
①統合DBに書き込む
②volte交換器DBに書き込む←ここで障害発生している。
エラーが多く出てしまって、アクセス数が多くなる。
ここの復旧に時間がかかる。

🔶au系MVNOへの影響
楽天モバイルについては認証系切り分けてているが、輻輳制御は共通なので影響あり。楽天モバイルについてはほぼ解消済み

🔶アクセス集中は、通常と比べてどれくらいか
制御で弾いてしまうので詳細ログを検証しなければいけないが、
規定の数倍以上となっている。(規定はないしょ?)

🔶volte交換器はどれくらいの頻度でメンテしているのか
月次程度でメンテしている。今回はその一環で起きた。

🔶5G関係は?
ない

🔶これまでの障害としてはどれくらいの規模?
3,900万契約影響はこれまでで最大だと認識。
2012にも障害があったが、危機感を感じで対処してきた(が、また発生させちゃった)。また危機感を感じです感じて努力したい。

🔶3Gを停波したのは何かしら関係ある?
特に関係ない。

🔶IoT影響150万は少ないのでは?なぜ?
6月末で1,600万と公表している。音声(SMS)トリガーのみなので
150万程度となっている。

🔶多摩ネットワークセンター(NWC)について
基本的には自動切替しているが、輻輳制御については人間がやっている。ログのモニタリングが

🔶リプレースは委託?
自社作業

🔶法人担当はナタニさん
法人は26万社すべてに確認をとっていく。

🔶どれくらいのレアケース?

🔶そもそも完全に再発防止はできない?
全部が落ちても復旧は想定内だが、イレギュラーが発生した。

🔶総務省からも駆けつけたらしいが、感想
はじめての経験。影響が土日、沖縄奄美にも台風が来てるので、そっちを優先してって言われた。

🔶総務省
今後IoTのデータ基盤として、迷惑かけてごめんね。法人担当も新宿にいち早く駆けつけて対応してくれて397

🔶もう解約する!っていう状況
3万程度入電、42万ツイート

🔶対応優先順位はある?
特にないが、総務省から奄美早くしろよって言われたので、東西分岐がある部分は西を優先している。

🔶高橋はいつ対応した
26時に障害、朝4時頃固定網で入電、それから新宿出突っ張り。

🔶再発防止で折り込んでいること

🔶対処手順

🔶加入者DB

🔶auショップ対応バラバラで、ちゃんと定型文つくったほうがよかったね
おっしゃるとおりです。

🔶15分の意味
検証する

🔶抜本的な輻輳対処はできるか
できない。容量でかくすればいいんじゃ?って声はあるが、10倍用意しても超えてきてしまう。
輻輳は起こしてしまうとなかなか直らないので、今後検証していく

🔶多摩NWCについて
・AIオフィス(AIO)はどれくらい実装されているのか。
いくつかは入れてる。今回はAIOで対処できなかった(そもそも実装していない)。モニタリングはできた。今後シミュレーションとか研究所と検討してる。

🔶流量規制50パーセントは
何時? 夜の3時過ぎから。
50規制は? 15:22から、作業終了まで流量規制。

🔶volte交換器は何台?
各拠点(6拠点)。再接続数は確認ちゅう。
多摩のユーザーが全部他の拠点に割り振られても大丈夫なように準備シミュレーションしていた。(一瞬輻輳しても直るようにしていた。)
なので今回は違うシーケンスでトラブルになったと判断。確認中。

この記事が気に入ったらサポートをしてみませんか?