東証障害、システム設定に不備 調査委を設置
コメント
注目のコメント
製品不具合かもしれないと思っていましたが、設定値問題でした。このレベルの機器設定は、システム毎に人が機器の設定をする以上避けられないだろう、というのが個人的な感想です。クラウドのマネージドサービスなら、インフラ側は一律同じ設定、ユーザ側はGUI等を使って分かりやすく構成を組めますから、このような基幹系システムも人手の設定を減らせる構成にしていくべきだと思います。
短期間に重厚長大なドキュメントをプロジェクト毎に大人数で作成し、信頼性要件に従って個別カスタマイズした構成を深く理解した少数の人間が机上でレビューするしかないわけです。
ほんとにこんなミスが?という気がするかもしれませんが、350ものサーバとそれに付随する機器、その中に入るミドルウェアの全設定がデフォルト値を含めると一体どれほどの数になるか、それが数人の少数の人間に委ねられていると思うと、想像を絶します。(もちろんミスはミスなのでしっかりと振り返り、横展開や再発防止が必要でしょうが。)
特にハード障害時のみに効力を発する設定値はテストすることが事実上不可能ですから、このような開発スタイルを続ける限りはヒューマンエラーが一つ二つは埋もれていることを前提とし、柔軟に対応できる業務設計も望まれます。富士通さんはいろんな部品を購入してディスク装置を作っていらっしゃるのでしょうし、東証さん側が責任を負うべき使用環境もあるでしょうから、詳細に調査して原因究明しないと本当のところ誰の責任が一番重いか微妙なところがあるようにも感じていたのだけれど・・・ 「相場情報を伝えるシステムを支える一部装置のメモリーが故障した際に、予備のディスクに自動で切り替える設定になっていなかった」、「制御機構に設定されていた数値(パラメーター)では、ディスク内のメモリーが故障した際に、予備のディスクに自動で切り替わらないようになっていた」というのは本当か (@_@;エーッ
「売買をなぜ終日停止したのかという点も問題になっている」とありますが、システムのテストに加え、このシステムが停止したときのBCPはどう定められていたものか。そこに停止と書いてあったなら、それはそれで正しい判断かと思います。もし想定外ということであったなら、管理が甘いと言われて仕方ないのかも。どこかの企業が社内で使うシステムならいざ知らず、壊れたら世界の取引が止まるシステムでいくらなんでもそれはないだろうと素人ながら思います。記事にはそのように書いてあるけれど、未だ半信半疑です (^^;原因が見えてきました。以前、テストではうまくいったと言っていたのは死活監視のテストのことを指しており、これは一号機が完全にシャットダウンした時には自動的に切り替わることを確認したということですね。そのためディスク装置そのものは落ちない中での異常発生時のテストは行っておらず、切り替え制御の設定ミスに気づかなかったということでしょう。
絶対に落としてはいけないシステムであれば、設定で動きが制御される観点についてはお金をかけてでもテストをすべきでした。正直そこら辺にあるシステムではそこまでテストをやるのは稀であり、死活監視のテストは最低限行うテストです。