モバイルSuica障害…原因は操作手順書に誤り JR東日本
コメント
選択しているユーザー
今月24日にモバイルSuicaの残高が確認できない、チャージできないなどの不具合が起こり、使い物にならなくなりましたが、その原因が判明しました。その原因とは、システム強化のために電源工事をしようとしたところ、なんとシステムサーバーのブレーカーを切ってしまったのです。逆に言えば、ブレーカー1つで日本の交通網を麻痺させることができるという事を証明したわけで、システムを強化するどころか、システムの脆弱性を発信する結果となりました。さすがに電源1つ切れるだけで、日本中に影響を与えるというのは不味いと思うので、システムサーバーの機能を分散させるべきではないでしょうか。
注目のコメント
システム強化の一環で行っていた電源工事
二系統あると思いますが、片方を断にして、もう一方で活かして電源関連(UPS更新など)の工事をしていたのかな。
本来、断にしてはいけないほうのNFBなり操作してしまうと、両系の電源が無くなる。
どんな回路か分かりませんが、普通はどちらかは活きているはず。
2019年にQTnetのデーターセンターで障害があった時も電源周りのミスだった。
AIや自動化で人が介さず対応するのは難しい場所や作業は多い。
ヒューマンエラーを無くせたら良いけど、最終的には人なので、どうやっても限界はあるのかなと思う。
『QTnetデータセンターの電源トラブルと楽天カードの決済障害についてまとめてみた - piyolog』
https://piyolog.hatenadiary.jp/entry/2019/11/24/070048こんな馬鹿でかいシステムでも、ちょっとした間違いで止まってしまう。大きければ大きいほど全容を把握することは難しく、たいしたことない作業はマンネリ化もしやすい。
大きなシステムを、普通に動かすことがいかに難しいか。
事故のない大規模システムは、ないと思います。
以下に頻度を下げ、規模を小さくするか、大きな組織の隅々にわたって、よくしていこうという文化を醸成し、維持し続けられるか。