全国のJRでシステム障害　2時間カード決済利用できず

毎日新聞

2021/04/17

Picks

このまま本文を読む

本文を読む

選択しているユーザー

松田裕之
Nishika 代表取締役
・2021年04月17日
これから、報道されるシステム障害の時間がどんどん短くなっていくんでしょうね。

今でも報道されない数秒単位の障害は多くのシステムで起きていますが、これすら報道され始める世界がいつかくるんでしょうか。

注目のコメント

満永拓邦
東洋大学情報連携学部准教授
・2021年04月17日
情報技術がどれほど進展しても100%の稼働というのはあり得ません。Googleや、Amazonですら、止まる時は止まります。

なので、何か障害が発生した時にとりあえず責めるというのは会社にとっても社会にとっても望ましい反応でないと考えてます。

問題は迅速な異常検知と復旧の体制ですが、4時に発生して6時に復旧しているのであればお手本のような対応かと。
楠本淳一
Colleagues/ふるさと納税ガイド CTO
・2021年04月18日
JRレベルのシステムで冗長化されてないなんてあり得ないので、されてる前提で話をして良いと思います。toCのサービスでは基本的な冗長化はそこら中のシステムでされてると思います。されてないのはサービスダウンしても売上棄損が殆どないくらい誰も使ってないサービスくらいだと思っておいて良いんじゃないかなと。

で、基本的にですが、年間何十回も障害は起こってるんですよ。当然ですが機器点数に比例するので規模が大きければ大きいほど起こってます。そして全部冗長化のおかげて一般ユーザが気づかないだけ。障害箇所と内容によっては1秒切って切り替わるような所もあります。プライマリデータベースのフェイルオーバーですら数秒。そういう世界です。スマホとかだと電波が悪いのと区別がつかないでしょう。

仮にオペレーションミスとかでなかった場合の話。
(みずほのはオペレーションミスも多分に含まれてるしそもそも実行タイミング含むメンテナンス計画自体がおかしいんですが)

証券にしろ銀行にしろ、数分以上とか多くの人が気付けるレベルの障害は当たり前の話ですがなぜフェイルオーバーできなかったのかすぐには原因がわからない想定外の事象が起こってるという事です。例えばちょっとしたメモリエラーとかだとマシンは落ちませんがリクエストは落ちます。これにマシンの代替機を準備しておいても単純には切り替わらないとか。

なので、発生をすぐに検知して状況を調べて対処して復旧するのに2時間は相当頑張った+運が良かった+問題発生時の対策を実務者がちゃんと把握している+復旧しやすい作りに事前になっているという事だと思います。

フェイルオーバーできなかった予期しない事象が発生してしまった事自体は原因究明と対策すべきだし決して良い事ではありませんが、2時間で復旧できたのは立派だと思います。
宮崎光史
一般社団法人Wellness Life Support 代表理事
・2021年04月17日
この様なシステムは
少なくとも二重以上の
バックアップシステムが
あるはずです。

何かあった場合でも、
中断することなく
サービスは継続出来るはず
なのですが、
それが2時間機能しなかった
と言うことですね。

そもそもシステム上の問題なのか
運用上のヒューマンエラーなのか
はたまた想定外のことなのか
気になります。