みずほシステム障害、混乱の16時間 原因なお特定できず

みずほシステム障害、混乱の16時間 原因なお特定できず
報告書案
https://www.nikkei.com/article/DGXZQOUB30CH50Q1A830C2000000/

 ※ この記事の書き方だと、「物理ディスク(※ HDDベースか、SSDベースかまでは不明)」が正・副同日で「機器故障」したのが、主たる原因ということだ…。

 ※ しかし、そういう「物理機器」は、どの金融機関でも同じように使用しているハズだ…。

 ※ それなのに、みずほだけが「大規模システム障害」になるのは、何故なのか…。

 ※ そこいら辺が、さっぱり分からんな…。

※ ネットで拾った画像だ…。

※ 通常、金融機関が「合併・統合」すると、「規模の大きいところ」の「基幹勘定系システム」に寄せて行く…。

※ しかし、みずほの場合、それが「できなかった」らしく、「基幹勘定系システム」をそれぞれ残した…。

※ そして、それを「リング状につなぐ」システムである「MINORI」という新システムを開発した…。

※ おそらく、旧「基幹勘定系のシステム(COBOLで書かれたものも、残存していると思われる)」の細部まで「分かっている人」も、「その資料」も、もはや残ってはいないんだろう…。

※ そこいら辺が、根本的な問題なのか…。

『みずほフィナンシャルグループ(FG)で8月19日夜に起きた機器故障に端を発したシステム障害は頼みのバックアップがことごとく稼働しない誤算が重なり、復旧までに16時間を要した。すでに今年4度の障害を起こしてきたみずほは最悪の事態を想定し、早めに判断・行動するという教訓を生かせたのか。日本経済新聞が独自入手した報告書案から混乱ぶりを再現した。

システム障害発生と顧客対応に関する事実認識

8月19日午後7時40分に物理ディスク装置の一つが故障し、ミラーディスクに切り替わるとともにスペアディスクへのコピーが始まった。午後8時52分に切り替え先のディスクでも故障が発生し、同53分に業務統合チャネル基盤で複数のエラーが発生した。同基盤の停止に伴い営業部店端末のすべてが使えないことを踏まえ、午後10時2分に障害一報を発信した。

システム障害を伝えるみずほ銀行の張り紙(20日午前、大阪市中央区)

国内営業部店の運営を統括する法人業務部・個人業務部は8月19日午後9時20分に企画管理部より障害情報の共有を受け、速やかに翌20日の営業部店実施事項を検討した。午後10時30分以降、継続的に開かれた部会などを通じて状況把握につとめ、午後11時10分には法人業務部・個人業務部はエリア長らとのミーティングを始めた。

復旧が翌日の営業開始までに終わらない場合に備えて、営業部店の役職者以上に翌朝の午前7時30分までに出勤させると判断し、午後11時20分に営業部店長に指示した。

8月20日午前6時の第2回非常対策PT会議で、システムの復旧めどは午前11時で、開店時間を超過するとの報告を受け、お客様告知とコールセンターの開設時間を午前8時30分とし、同時刻にホームページに告知掲載した。メディアへの情報発信はホームページ掲載のタイミングで各社に連絡した。

記者会見対応は、度重なる障害に伴うおわびを含めて、適切な状況説明が必要との観点から必要な要員をあらかじめ確保した。8月20日午前10時45分ごろ、坂井辰史社長、藤原弘治頭取を主な説明者とする記者会見を同午後5時から開く方向で検討を始めた。

システム障害について謝罪するみずほFGの坂井社長(左)とみずほ銀行の藤原頭取(20日、東京・丸の内)

店頭などでは大きな混乱にこそ至らなかったものの、システムの全面復旧は午前11時58分となり、国内の他行向け円建て仕向け送金・海外向け円建て仕向け送金で、日銀ネットのシステム時限である午後2時55分までに送信が完了しなかった。

8月19日午後11時42分にカードの紛失登録依頼の電話を受けたものの、端末による紛失設定ができず、翌20日午前8時57分に他行ATMで50万円が引き出される不正があった。

障害発生の原因分析と2~3月に起きた障害との関係

今回の障害は物理デスクの故障が直接の原因だが、2つのディスクが同日故障した理由が偶然か、他の要因が内在しているかは現時点で不明であり、さらなる調査・確認を進めていく必要がある。復旧に向けた対応を進めるなかで、営業部店の開始時刻を意識したタイムマネジメントが十分でなく、対応案を比較した上で、判断時限をあらかじめ設定する対応ができていなかった。

現在、最重要・重要決済業務を担い原則停止不可のシステムについて、9月末を期限に保守期限を超過している機器の有無を確認している。他社で採用が見送られている機器の情報をベンダーから収集するなど、定期的にハード機器の点検を行い、予防保守へ生かす取り組みを検討している。

ディスク機器について、保守期限超過がないことは確認済みだが、今回の障害を踏まえて、ベンダーによる点検結果(ディスクの使用年数、故障回数、故障率など)を管理し、予防保守に活用するなどの追加対応が必要と認識している。

これまでの稼働確認は「顧客に不都合な仕様」などの観点で行ったため、MINORI(みのり)本体とチャネル系システムとの間に位置する業務チャネル基盤は点検対象外としていたが、今回の障害を踏まえて、点検範囲を再検討する。

今回のように自動切り替えが想定通り作動しないケースでも迅速に復旧させる手順・マニュアルが整備されているか、追加点検が必要だ。対応手順の選択の誤りが発生しており、外為事務処理の時限を意識した復旧対応力の継続強化が必要と認識している。

改善・再発防止策

みずほ銀行は6月15日に一連のシステム障害を踏まえた再発防止策を公表し、「多層的な障害対応力の向上」とそれを支える「人と組織の持続的強化」について組織全体として取り組んできた。しかしながら、2月、3月のシステム障害に続き、今回の障害が起きたことを重く受け止め、みのりの特性を踏まえた適切な管理体制が構築されているか、リソース配分・運営がシステムリスクへの潜在的な影響を与えていないか、有事における対応体制は適切に構築されているか、顧客影響が十分に配慮されているかなどの観点から、経営レベルでの一層の管理体制の強化に取り組んでいく。

予防的な観点から、ハードウエア機器の経年劣化・故障回数・故障率などについて定期点検の実施などの追加対応を検討する。これまでの総点検のカバー範囲を確認するとともに、みのり本体とチャネル系システムをつなぐ基盤系システムを点検対象とすることや、実機での稼働確認を追加検討する。

ハード故障の原因を踏まえ、みのりシステムについて、当初想定した設計になっているか点検を検討する。顧客影響が顕在化していない初期段階においても、最大影響を想定し、対外告知に必要な対応を確認のうえ、告知予定時刻の前倒しを検討する。SNSによるプッシュ型告知はホームページ告知と同時並行的に準備を進めることを徹底する。

【関連記事】
・みずほ報告書の全容判明、システム「設計通りか点検」
・みずほシステム障害頻発、浮かぶ3つの課題 』