全国のJRでシステム障害 2時間カード決済利用できず
コメント
注目のコメント
情報技術がどれほど進展しても100%の稼働というのはあり得ません。Googleや、Amazonですら、止まる時は止まります。
なので、何か障害が発生した時にとりあえず責めるというのは会社にとっても社会にとっても望ましい反応でないと考えてます。
問題は迅速な異常検知と復旧の体制ですが、4時に発生して6時に復旧しているのであればお手本のような対応かと。JRレベルのシステムで冗長化されてないなんてあり得ないので、されてる前提で話をして良いと思います。toCのサービスでは基本的な冗長化はそこら中のシステムでされてると思います。されてないのはサービスダウンしても売上棄損が殆どないくらい誰も使ってないサービスくらいだと思っておいて良いんじゃないかなと。
で、基本的にですが、年間何十回も障害は起こってるんですよ。当然ですが機器点数に比例するので規模が大きければ大きいほど起こってます。そして全部冗長化のおかげて一般ユーザが気づかないだけ。障害箇所と内容によっては1秒切って切り替わるような所もあります。プライマリデータベースのフェイルオーバーですら数秒。そういう世界です。スマホとかだと電波が悪いのと区別がつかないでしょう。
仮にオペレーションミスとかでなかった場合の話。
(みずほのはオペレーションミスも多分に含まれてるしそもそも実行タイミング含むメンテナンス計画自体がおかしいんですが)
証券にしろ銀行にしろ、数分以上とか多くの人が気付けるレベルの障害は当たり前の話ですがなぜフェイルオーバーできなかったのかすぐには原因がわからない想定外の事象が起こってるという事です。例えばちょっとしたメモリエラーとかだとマシンは落ちませんがリクエストは落ちます。これにマシンの代替機を準備しておいても単純には切り替わらないとか。
なので、発生をすぐに検知して状況を調べて対処して復旧するのに2時間は相当頑張った+運が良かった+問題発生時の対策を実務者がちゃんと把握している+復旧しやすい作りに事前になっているという事だと思います。
フェイルオーバーできなかった予期しない事象が発生してしまった事自体は原因究明と対策すべきだし決して良い事ではありませんが、2時間で復旧できたのは立派だと思います。この様なシステムは
少なくとも二重以上の
バックアップシステムが
あるはずです。
何かあった場合でも、
中断することなく
サービスは継続出来るはず
なのですが、
それが2時間機能しなかった
と言うことですね。
そもそもシステム上の問題なのか
運用上のヒューマンエラーなのか
はたまた想定外のことなのか
気になります。