Picks
36フォロー
70フォロワー
東証障害、システム設定に不備 調査委を設置
日本経済新聞
Ohya TakahiroSIer マネージャー
製品不具合かもしれないと思っていましたが、設定値問題でした。このレベルの機器設定は、システム毎に人が機器の設定をする以上避けられないだろう、というのが個人的な感想です。クラウドのマネージドサービスなら、インフラ側は一律同じ設定、ユーザ側はGUI等を使って分かりやすく構成を組めますから、このような基幹系システムも人手の設定を減らせる構成にしていくべきだと思います。 短期間に重厚長大なドキュメントをプロジェクト毎に大人数で作成し、信頼性要件に従って個別カスタマイズした構成を深く理解した少数の人間が机上でレビューするしかないわけです。 ほんとにこんなミスが?という気がするかもしれませんが、350ものサーバとそれに付随する機器、その中に入るミドルウェアの全設定がデフォルト値を含めると一体どれほどの数になるか、それが数人の少数の人間に委ねられていると思うと、想像を絶します。(もちろんミスはミスなのでしっかりと振り返り、横展開や再発防止が必要でしょうが。) 特にハード障害時のみに効力を発する設定値はテストすることが事実上不可能ですから、このような開発スタイルを続ける限りはヒューマンエラーが一つ二つは埋もれていることを前提とし、柔軟に対応できる業務設計も望まれます。
207Picks
「デジタル庁を福島に」 公明・山口代表、首相に提言
朝日新聞デジタル
Ohya TakahiroSIer マネージャー
デジタル庁という組織は概念であり、シェアオフィスのようなスペースが各所にあれば、本質的には拠点を必要としないものなのではないでしょうか。 デジタル化とはIT化ではありません。アイディア創出フェーズではビジネス/ITのノウハウを融合させた自由な場での発想が求められますし、最初の試作はITを使わないスケッチの場合も多いです。データサイエンスもポイントは現場にあり、現場を深く観察することによって示唆が得られます。そして実際に施策案が固まったら、まず当事者に試してもらってフィードバックを受ける、ということが成功のポイントとなります。 デジタル庁が機能するためには、当事者である「永田町」との強連携し、現場レベルで具体的な働き方変革を推進することが必要です。「永田町」の今の働き方の実態や本質的な課題を深く理解するのもデジタル庁の仕事になるでしょう。地方自治体との強連携も必要で、やはりその現場を深く観察し、現場に理解される施策提案が必要になります。 コロナ禍で得られたリモートのメリットデメリットを整理し、拠点面、人材確保・流動性面、対外コミュニケーション面等もデジタル庁自体がデジタルな働き方をできるために整理されることを期待します。
276Picks
東証などに「報告徴求命令」 金融庁 システムトラブルで
NHKニュース
Ohya TakahiroSIer マネージャー
共有ディスク装置というのは恐らくこのような製品だと思います。 https://www.fujitsu.com/jp/products/computing/storage/disk/eternus-dx/dx8900/ これは一筐体に何百個ものディスクを差し込むことができ、ディスクの冗長化構成(RAID)を組んでリアルタイムで同時書き込み可能になっています。(ホストだと最大四重化くらいします。)ディスクは壊れやすく、予兆検知で交換できるので、この冗長化機構はまずトラブルが起こることはありません。ネットワークケーブルや電源ケーブル等も全て冗長化されます。 こういう冗長化機構の制御をするため、筐体にはCPUやメモリも搭載されており、このCPUやメモリ等が壊れると大変なことになってしまいます。これらは非常に機能停止しにくい部品になっている上に冗長化されていたりもするのですが、マザーボードは冗長化できないので、さらにこの筐体そのものの冗長化構成が組まれることが一般的です。 つまり、RAIDに加えて筐体間のリアルタイム同期処理もされているようなものです。 恐らくこのような筐体間冗長化製品機能を使い、一号機と二号機の同期を取っていたのだと思います。 https://www.fujitsu.com/jp/products/computing/storage/disk/eternus-dx/feature/010/ 今回は筐体間冗長化製品機能に何らかの不具合があった可能性があると思われますが(あくまで個人的推測です。)、マザーボードの故障パターンを網羅し、大量書き込み中に絶妙な故障が起きても切り替わることをテストし切ることはできません。 現実はさらに複雑で、バックアップ拠点との間でも冗長化も必要で、このような遠隔バックアップ製品も使っていたはずです。 https://www.fujitsu.com/jp/products/computing/storage/disk/eternus-dx/feature/022/ このような製品機能は実際に使われ、改善を繰り返すことで100%に近い機能品質になるのですが、いかんせん、まず壊れない部品が絶妙な壊れ方をすることはほとんどなく、技術者にとっては無念でしょうが、今回の挙動自体は不運な事故だったと考えるのが妥当かもしれません。
245Picks
東京証券取引所 午前9時から売買再開と発表
NHKニュース
Ohya TakahiroSIer マネージャー
昨日の記者会見はステークホルダーへの説明責任をしっかりと果たしており、今日は大きな混乱なく市場が再開されることを期待しています。 自分も経験がありますが、HWの生殺し状態やダンマリ状態はどのような基幹システムでも稀に起こり得るものであり、今のITシステムの範疇では論理的に事前対応不可能な領域です。社会インフラシステムの直接ユーザは企業等の基幹ITシステムであり、今回のようなシーンを想定して事前にユーザテストすることに大した価値がないことは明白です。 この類のITシステムが100%止まらないことの保証は原理的に不可能ですから、(全銀のような常時ニ拠点運用も業務の特性上実装が難しいです。)100%を目指すと同時に、万が一のリスクを、より上位のレイヤーを含む広義のシステムで想定した設計にしていくことが重要です。適切でないレイヤーでの社会実装は、全利用者にとって高コストか低品質を招く結果にしかならないためです。今は100%の責任がITに求められている一方、上位レイヤーの設計権限がない場合が多く、高コスト低品質化を招いているのかもしれません。 クラウド推進やデジタル推進をするに当たっては、当然このようなトラブルが発生する前提のITシステム開発が必要ですが、業務規定の整備、さらには証券取引所としての冗長化等の社会実装が不可欠だと思います。政府や金融庁は、そういう柔軟な目線でのガバナンスシステム構築を推進して欲しいと真に思います。
116Picks
NORMAL