東証システム障害の一部始終と残る疑問、NAS故障と切替設定の不備が重なる

東証システム障害の一部始終と残る疑問、NAS故障と切替設定の不備が重なる
山端 宏実、岡林 凛太郎、長倉 克枝、金子 寛人 日経クロステック/日経コンピュータ
https://xtech.nikkei.com/atcl/nxt/column/18/00001/04708/

※ まあ、当分は揉めるだろう…。

※ この記事で言われていることは、そもそも「実際には、NASのファームウエアの切り替え用設定値に誤りがあり、メモリー故障に起因する障害パターンが発生した際はNASの冗長化が機能しなくなっていた。」という事実が、「大抜かり」ではないのか、という「システムの運用・管理」の手際(てぎわ)に関する批判が一つ…。

※ もう一つは、その場合に「終日取引停止」とした「総合的判断」への批判だ…。

※ 関係各方面に「ヒアリング」した結果、「そっちの方が、傷は浅い、と判断した。」ということなんだが、その「ヒアリング」自体が、「適正手続きを踏んだもの」だったのか…。早速、「オレのところには、問い合わせが来て無いぞ。」という話しが、出ているようだ…。

※ 話しは、「証券各会社」間の競争へとも広がって行くような様相も見せている…。そういう「東証のシステム障害」をも、織り込んだ「料金設定」「顧客への事前通知・承諾の体制」となっているのかどうか…。そこら辺も、含んでの「競争力」「証券会社間の優劣」だろ…、という話しだ…。「護送船団方式」じゃないんだから、という話しだ…。

『 東証の売買システム「arrowhead(アローヘッド)」で取引に支障をきたす大規模なシステム障害が発生したのは2018年10月以来。システム障害により全銘柄の売買を終日停止する事態は東証が取引を全面的にシステム化した1999年以降初めてだ。

 これにより、3兆円規模の売買機会が失われた。影響は東証だけにとどまらず、arrowheadを使用している名古屋・札幌・福岡の各証券取引所でも10月1日の取引が全銘柄で終日にわたり停止となった。

設定不備で切り替えできず
 同社が最初に異常を検知したのは、午前9時の取引開始を約2時間後に控えた午前7時4分だ。arrowheadを構成する運用系ネットワーク内で、同社が「共有ディスク装置」と呼ぶNAS(Network Attached Storage)1号機のメモリーに故障が発生した。

NASは、arrowheadの複数のサブシステムが共通で使用する認証用のデータなどを格納している。1号機と2号機をActive-Active構成で運用しているが、1号機の障害発生時に2号機のみの運用へ自動で切り替える機能が正常に働かなかった。

 この影響で、本来はarrowheadのサブシステムの1つである「情報配信ゲートウエイ」を通じ、同日午前7時0分に送信すべき電文の送信ができなかった。別のサブシステムである「売買監視サーバー」や監視端末へのログインも不可能になるなど、NASの停止による影響はarrowheadを構成する複数のサブシステムに広がった。

 証券会社など外部に異変を通知したのは約1時間後の午前8時1分。さらに午前8時30分すぎに、午前9時からの取引を停止すると通知。午前8時54分には障害の影響が東証以外のシステムに波及しないよう、arrowheadと証券会社間の発注系経路を遮断。

原因究明と復旧作業を進めたが、結局午前11時45分に終日売買停止を発表した。原因となったメモリーが載った基板を同日中に交換したうえでシステムを再起動し、翌10月2日午前9時から売買を再開した。

 その後の調査で、富士通が納入したNASのファームウエアの設定不備が大規模障害につながったことが判明した。2台構成のNASの1台で障害が発生しても、本来はもう1台のみの運用に自動で切り替えてarrowhead全体の運用に支障が出ない設計だった。

 しかし実際には、NASのファームウエアの切り替え用設定値に誤りがあり、メモリー故障に起因する障害パターンが発生した際はNASの冗長化が機能しなくなっていた。

東証はarrowheadを2019年11月に刷新する際、事前のテストで2台のNASの死活監視を途絶えさせて、自動で切り替わることを確認していた。だがその際、今回の設定不備は見抜けなかった。設定作業そのものは富士通が実施していたという。

 東証と富士通は2020年10月4日までにファームウエアの設定を修正したが、なぜNASのファームウエアの設定不備を見抜けなかったのかが今後の焦点となりそうだ。

終日停止の東証判断は適切なのか
 今回のシステム障害では別の問題も浮き彫りとなった。実は午前9時26分の段階で、共有ディスク装置2号機への強制切り替えを完了しており、システムを再起動すればarrowheadを復旧できる状態となっていた。しかし東証は再起動を見送り、午後0時30分からの午後の取引もせずに終日取引停止とすることを正午前に発表した。

 同日夕方の会見で東証の宮原幸一郎社長はこの判断について「複数の市場関係者と協議した結果、(仮に取引時間中に復旧できても)システムを再起動すると(証券会社などから送信済みの注文の扱いなどを巡り)投資家などに混乱が生じることが想定され、終日売買停止することにした」と説明した。

これに対しauカブコム証券の斎藤正勝社長は「当社にそのような(協議の)問い合わせは来ていない。当社はイレギュラー対応でデータを修正すれば注文の失効手続きができる。平常時の手数料だけでなく障害対応も含めてサービス品質だ」とする。

 そのうえで斎藤社長は、証券会社はシステム障害が起こりうると見越してイレギュラー対応で迅速に取引再開できるよう、システム投資や事業継続計画(BCP)の整備を進めるべきだと指摘する。

 「一部の証券会社が障害への備えを怠り、東証もそうした一部証券会社に合わせて再開を見合わせるならば、BCPは画餅と化す。対応可能な証券会社だけでも早期に市場を再開させることこそ、東証が投資家に対し提供すべきサービスではないか」と疑問を呈する。』