「切り替え失敗」はよくある 東証システム障害の真因

https://www.nikkei.com/article/DGXMZO64611290V01C20A0000000/?n_cid=DSREA001

 ※ 貴重な、現場の状況をよく知っている方のご意見だと思うぞ…。大体、あまりご存じない方に限って、騒ぎ立てるモンだからな…。ご本人は、義憤にかられて、「多くの人々の見解・意見を代表している」ものと思って、発言していることが多い…。しかし、大体は、「的が外れている場合」が殆んどだ…。
 こういう意見・見解は、「本質思考」「問題解決思考」に基づいていると思われる点で、「建設的」だ…。

 ※ オレの「組み立て」の方の状況は、やっとこインターネットへの接続がうまく行った…。ルーターに入って、「IDとパスワードの直か打ち(じかうち)」で、解決した…。
 最初は、回線の工事業者が置いていった「接続キット一式」という段ボール箱に入っていた「簡単接続ソフト」なるものを、使って設定した…。CD-ROMかなんかで、提供されているものだ…。しかし、これが「トラップ」なんだよ…。ルーターに入って見てみると、何故か「正確に入力されていない」んだ…。全然違う「文字配列」になっていた…。どういうことなのか…。まあいい…。原因究明は、後回しだ…。

 今日は、「主要ソフト」の「ユーザー・データ」の移行に取りかかる予定だ…。これがまた、大変だ…。大体、「ユーザー・データ」がどこに「保存」されているかなんて、普段それほど注意して見ていないからな…。「まとめて」「フォルダ毎」「ドライブ毎」バックアップを取っている場合が殆んどだ…。しかし、今回のようなケースだと、データの移行は、「外付けHDD」+USB2とかでやることになった(詳しい説明は、省略する。また、語ることもあろう…)。そうすると、「デカいデータ」だと、「莫大な時間」がかかることになる…。それで、「ユーザー・データ」いちいち探して、チマチマ移転することにした…。
 そんなこんなで、ヒマなジジイの「人生」は、潰れて行くわけだ…。「ヤレヤレ…」かつ「トホホ…」だ…。

「切り替え失敗」はよくある 東証システム障害の真因
https://www.nikkei.com/article/DGXMZO64611290V01C20A0000000/?n_cid=DSREA001

『本当の問題はメモリーの故障でも、切り替え機能が作動しなかったことでもない――。東京証券取引所で10月1日に発生した大規模システム障害を筆者なりに分析するとこうなる。

真因はどこにあるのか。東証のシステム問題について、2005年のシステム障害、旧ジェイコム株の誤発注問題、06年の「ライブドア・ショック」による売買停止、12年のシステム障害と、継続的に取材してきた立場から検証してみる。』
『■午前9時過ぎには2号機に切り替わっていた

今回のトラブルの引き金は機器の故障だった。10月1日午前7時過ぎに東証の取引システム「arrowhead(アローヘッド)」で共有ディスク装置のメモリー障害を検知した。

共有ディスクは2台あり、通常なら故障した1号機の役割がもう1台の2号機に切り替わるはずだった。だが、自動で切り替える「フェイルオーバー」機能がうまく作動しなかった。相場情報の配信や売買監視の業務ができず、円滑な売買ができないと判断し、東証は売買停止を決めた。

午前9時過ぎには共有ディスク2号機への強制切り替えを完了していたが、売買を再開するにはシステムを再起動する必要があった。受け付け済みの売買注文が失効となるなど影響が大きいことから、東証は再開を断念。正午前に終日売買停止を発表した。

「東京証券取引所の役割は、公平で信頼でき、使いやすく分かりやすい市場を提供することです」。東証のウェブサイトにはこう書いてある。取引の場、つまりプラットフォームの提供が証券取引所の最大の使命であり、この使命を丸1日にわたり果たせなかったという点で、東証の責任は重い。

ただ、その責任を果たせなかった原因がどこにあるか、という点について、多くのメディアがうまく整理しきれていないように感じる。10月1日以降、各種メディアが「バックアップが機能しなかった」と繰り返し伝えている。テレビのニュース番組では経済の専門家が「何のためのバックアップなのか」と憤っていた。

システムの設計や信頼性に不備があったかのような指摘は、終日全面停止問題の本質を捉えているとは言えない。

■フェイルオーバーの失敗は珍しくない

ハードウエアの故障は一定の確率で発生する。そこで、信頼性が求められる場合、故障が発生してもシステムが稼働を続けられるよう、故障した機器の役割を待機系など別の機器に自動で切り替えるフェイルオーバー機能を用意しておく。だがフェイルオーバー機能が作動しないトラブルも、実はよくある。IT(情報技術)業界に身を置く人なら実感としてよく分かるのではないか。

例えば19年に発生したアマゾン・ウェブ・サービス(AWS)の大規模障害は、空調設備を管理する制御システムのフェイルオーバー機能が正常に機能しなかった。17年に東京商品取引所の売買システムで発生したシステム障害も、サーバーの部分的な故障をシステムが故障と判別できず、フェイルオーバーに失敗した。このほかにも、フェイルオーバーの失敗による大規模なATM障害などが発生している。

要は確率の問題である。対策を何重に講じても100%安全にはならない。トラブルが発生してから「機械が壊れたのがおかしい」「バックアップ機能が働かなかったのはおかしい」と批判しても、それは建設的な批判とは言えず、再発防止につながりにくい。

こう書くと「システム障害を肯定するのか」と反論されそうだ。もちろん肯定するつもりはない。システム障害の影響が拡大した真因は、フェイルオーバー機能の不具合とは別にあると筆者はみる。それは緊急時における対応の不備だ。

■緊急対応と復旧への準備に問題があった

システム障害の原因は朝のうちに特定でき、共有ディスク装置を交換してシステムを再起動すれば売買を再開できた。だが再起動すると証券会社側で通常と異なる対応が必要になるため、対応が難しいと東証は判断、終日の売買停止を決めた。

もちろん証券会社の意見を聞いて混乱を避けるのは、公正な取引を担う観点から必要な処置だ。東証は非常時の対応についてコンティンジェンシープラン(緊急対応計画)を用意しており、それに基づいて決断を下した。ただ、停止の条件や対応策については決めてあったものの、取引を再開するための取り決めや準備が十分ではなかった。

本来であれば、システムを全面停止せざるを得ない事態が発生した後、復旧に向けた準備が整ったら「証券会社とのやり取りを経て、システムを再起動し、取引所を再開する」といった復旧まで見通したプランを策定しておくべきだった。そのような準備があれば、1999年のシステム化以降初の「終日全面停止」は避けられた可能性がある。

情報システムの世界において「そこが故障したらシステム全体が動かなくなる」という重要な機器を「単一障害点」と呼ぶ。単一障害点に不具合があるとシステムの全面停止を招く。そのため単一障害点をできるだけなくすようにシステムを設計する。もちろん東証もそのような考え方に基づき、銘柄別に売買処理のサーバーを分散したり大量のデータ処理を分散したりする工夫を凝らしている。

それでも単一障害点をゼロにすることは難しい。10月1日にトラブルが発生した共有ディスク装置がまさにそれだ。制御データなど、一部の重要情報は一元管理せざるを得ないからだ。そこで機器の二重化といった対策も施す。

そのうえで、単一障害点が壊れた時のBCP(事業継続計画)を用意し、システム障害を想定した復旧までの訓練をこなすのが理想だ。東証は共有ディスク装置に障害が発生した際に2号機へと切り替えるテストはしていたとするが、2号機への切り替えが失敗してシステム全体が停止した際の取引再開手順まで訓練しておきたかったところだ。

機器の故障とフェイルオーバー機能の不具合によってシステムが全面停止し、復旧と取引再開までの準備不足が重なって影響が拡大。初の終日全面停止に至った。これが東証システム障害の真相とみる。

■稼働率を計算してみると

「言い方はとても難しいのだが、たまには軽微なトラブルが起こったほうが現場の緊張感を維持できる。こんなことは絶対に公の場では言えないが」。ある大手金融機関のシステム責任者がこう言っていたことがある。

東証のアローヘッドは12年のシステム障害以来、約8年にわたり安定稼働を続けていた。システムが安定稼働を続けるほど現場の障害対応力は鈍りやすい。安定稼働と緊急対応力の両立が、東証に課された使命であり、今後の課題だ。

株式取引システムや銀行の勘定系システムなど、社会生活に欠かせない重要なシステムは「99.999%(ファイブナイン)」の稼働率を求められる。ファイブナイン下では24時間稼働するシステムの場合、許されるトラブル停止時間は1年当たり5分強となる。

これまでの稼働時間やトラブルによる停止時間を基に東証のアローヘッドの稼働率を計算してみると、10月2日時点で99.94%となった。ちなみに終日全面停止が起こる直前、9月30日時点では99.98%だった。障害後もスリーナインは確保するものの、フォーナインはやや遠のいた。なおこの稼働率は筆者による独自の試算であり、東証が内部で管理している稼働率とは定義などが異なる可能性がある。

今後、稼働率をフォーナインつまり99.99%まで回復させるには、単純計算でノートラブルを50年ほど続ける必要がある。ファイブナインはさらに先だ。汚名返上の道のりは長い。

最後に一言だけ付け加えたい。システム障害の原因を説明するために東証が10月1日夕方に開いた記者会見は、聞いていて分かりやすかった。日本取引所グループの最高情報責任者(CIO)としてシステム全体を管轄する東証の横山隆介常務執行役員らが難解な専門用語を極力使わず、冷静かつ簡潔に事実関係を説明していたように感じた。

ネットでも「CIOさん、めちゃめちゃすごい」などの書き込みが目立った。システム障害は残念だったが、危機発生時におけるメディア対応という観点では合格点といえる。

(日経BP総合研究所イノベーションICTラボ 大和田尚孝)

[日経クロステック2020年10月5日付の記事を再構成]』