【3分解説】KDDIの通信障害。何が起こっていたのか?
コメント
選択しているユーザー
新ルーターへの交換が障害の大本だったわけね。
webの世界だと検証サイトで確認済みになってから本番サイトとスイッチするのが割と普通ですが、ハードの世界では難しんでしょうか?なんにせよ、障害は仕方ないのですが反省と対策はしましょう。
注目のコメント
輻輳(ふくそう)について、渋滞をイメージすると分かりやすい。一か所がつまると、玉突きになっていく。
2倍のアクセス集中は、おそらく15分間の停止時に溜まっていたものが要因だろう。こういう制御の一般論として、一度キャンセルしたり、再開時に他の機器に分散する制御になっていると思うが、それが上手くいかなかったのだと思う(リスク顕在化した後の復旧は、初めに一気に流れないようにすることがとても重要)。
輻輳は通信の言葉だが、こういう現象は通信に限った話ではない。交通も、電気も、金融市場もそう。
システミックリスクという言葉がある。普段は上手くいっていることが、何が上手くいかなくなって、ドミノ倒しのように連鎖的に影響が発現・拡大すること。
それを事前に防ぐようなシステムが、社会には色々ある。先日の地震の際に都内でも停電があったが、それは電力系統の需給バランスが一度壊れると復旧が大変なため、一度遮断して需要を減らすことで、電力系統システム全体を保護した。なお、停電が深刻化した北海道の地震では、発電障害と地震で急に電力需要が上がったことの両輪で、系統負荷が一気に上がり、大規模・深刻な停電につながった。
システミックリスクは、そもそも発生頻度が極めて低い。低いが深刻になるから対策をする。一方で頻度が低いから実験がしにくかったり、軽視されたりする。何のケースだったか覚えていないが、システミックリスク対応用の機器が点検されておらず壊れており、切り替わらなかったケースもあった。
大規模なシステム障害(コンピュータなどのシステムに限らず、連動構成する抽象概念としての「システム」)はこういうことが多い。バックアップなどはされていて、それに上手く切り替えるなどしてリスクを顕在化させず、その間に根本原因の解消を行うように設計されているが、それが上手くいかない。今回もそのように見える。
逆に、システミックリスクが未然に防がれているケースも山ほどある。安定的なインフラはそうやって作られているし、そのコストはゼロではないし当たり前でもない。
本件については、非常時のインフラレベルの用途(緊急電話等)・機器(ATM等)は、eSIM導入の上で他社回線も使えるようにする(他社回線もそういうリスク顕在化の際にはそれを優先制御して、社会インフラを持続させる)ような動きに将来的になりうるだろうか?輻輳とは、本来の接続処理を行うためのオーバーヘッド(発信状態の確認・準備等)に処理能力を取られ、呼処理自体ができなくなる状態。
今回のネットワークの接続形態がわからないから、なんとも言えないが、顧客DBのアンマッチまで起こっていたとしたら、その確認、エラー処理等で最呼が最呼を呼びシステムが処理しないとならないトラヒック量は2倍どころではなかったのではないか?
端末は自分の位置などを登録するために自動的にアクセスするはずなので、その処理の制御などを行えないと上記のような処理量がどんどん増えていたのかもしれない。
通常、緊急呼の処理は通常呼とは別にリソースや、設備を分離して確保するので、そこまで影響があるのは分離できない範囲まで影響が及んでいたのかもしれない。
ネットワークはその名の通り、それぞれが影響し合うようになっているので、メカニズム・原因の特定にはかなり手間がかかるので、エンジニアの皆さんは夜も徹した解析・回復されていると思うが、なんとか乗り切っていただきたい。KDDIの大規模通信障害について、現段階で分かっている原因を図解も入れつつまとめました。
みなさまは通信障害の影響ありましたでしょうか?私は社有携帯がau、私有携帯がpovoにしていたため通信業者一本足打法は良くなかったなと反省。親や取材先から電話がつながらなかった様子で「もしかして?」とLINEやメールで聞かれた土日でした。
スマホが当たり前につながるありがたさも認識する一方で、自動運転などが普及した後に今回のような通信障害が起きたらどうなるだろう、などと考えさせられます。