大企業病より深刻なみずほIT障害の病巣、再生の鍵は「あの機能」に
コメント
選択しているユーザー
素人記事。アドバイスしている専門家含めて酷すぎる。
1.監視ツールを開発会社が見れる仕組み?
運用と開発は別物。開発の問題を切り分けるのと運用で素早く安全方向に倒すのは別物。切り分けて話せていない時点で分かっていない。そして恐らく開発会社が保守しているとしたら、ログなど見られる状態にはしてあるはず。数が多いから見れないっていうのも安易で、同じメッセージが大量に来たら判断できるし、大量に出ているかどうかはとても大事な情報。
2.チャットツールの導入?
メールで連絡したから遅かった、とかなら分かるけど、これだけの問題なので電話なども使っているだろう、ツールで解消できる範囲は知れてる。
3.現場で対応承認ができるようにする?
絶対そんなのできるはず。少なくとも頭取判断でしか緊急リリースできないとかは有り得ないと思われる。もしそれが事実ならクソだが、んなわけない。
4.24/365の体制を築く?
こんなもん絶対体制はある。
問題は運用の体制ではなく設計思想。開発におけるフェールセーフの考え方もそうだし、運用そのものの設計もそう。そもそもユーザーが困る方向にエラー処理が倒れている時点でおかしい。まあもっと根本はそういうレベルの低い設計になりがちなゼネコンスタイルですけど。
注目のコメント
#みずほ #MIZUHO #MINORI #システム障害
● ハードウェア・機械は壊れる
● ソフトウェアにはバグがある
● 人間は間違える、過ちを犯す
システム障害は必ず起きるという前提で、影響範囲の極小化、早期回復・早期復旧への備えを怠ってはならない。人・組織の面からも、システムの面からも。経営はそこに投資とマネジメントで関与しているか。(丸投げ、責任の押し付けになっていないか)