東京証券取引所 午前9時から売買再開と発表
コメント
注目のコメント
転載。
https://newspicks.com/news/5270189
切替装置が正しく動作できるか。ここが大きな鬼門です。
大規模システムは、障害が発生することを前提に設計されているので、通常は2系統の環境が用意されています。本番系がダウンしたら、待機系へ切り替えて運用を継続します。
ただ、
・障害を検知する機能
・切替を行う機能
この2つの機能はボトルネックになります。ここが失敗したら、いくつ待機系を用意しようがシステムは止まります。
これらの技術も進化してきていますが、2010年に作ったシステムに対し、2019年に今回問題になった共有ディスクを追加導入したことがポイントになりそうです。ここからは推測ですが、大きなシステム構成自体には変更を行わず、共有ディスクのところだけ構成変更したのではないかと。
これ、例えば車だとまずあり得ないやり方。数年前のモデルの車に、最新型のエンジンだけ積み替えるようなことをしているわけです。それでも動くかもしれませんが、問題が無いことを確認するためには相当な品質チェックを行わなければいけないでしょう。
しかしシステムは各社ごとに個別設計になっているので、同じ環境を別の機器で再現することは困難です。そうすると本番機そのもので検証しなければならず、リスクのある検証を事前に行うことは出来ません。「リスクのある検証」とは、たとえば機器が故障する可能性のある負荷を与えることや、営業時間外に検証が終えられない可能性のある検証です。
この問題を真正面から解決するのは難しいです。極論、メーカー保証済みの構成以外はさせないということになります。それは、機器間の市場競争が阻害されるためコスト高になります。
解決のヒントは記事の最後にもある通り、一部の機能が止まっても処理を継続できるようにすること。なのですが。
今回、障害が多重に発生しています。このケースを想定するのはなかなか難しい。多重障害を想定したシナリオを作り出すとキリがなく、どこまで解決できるだろうか、、、と思うのです。