みずほ銀行の教訓に学ぶ、KDDI障害再発防止策の焦点は「レジリエンス」

みずほ銀行の教訓に学ぶ、KDDI障害再発防止策の焦点は「レジリエンス」
https://xtech.nikkei.com/atcl/nxt/column/18/02152/072700002/

『後編

中田 敦、金子 寛人、高槻 芳、山端 宏実
日経クロステック/日経コンピュータ
堀越 功
日経クロステック

大規模通信障害の発生を受けてKDDIは2022年7月28日にも総務省へ報告書を提出する。報告書の焦点は、実効性の高い再発防止策を打ち出せるかどうかだ。一連のシステム障害を起こしたみずほ銀行も再発防止策を策定し、取り組みを進めている。緊急座談会の後編では、みずほ銀行の教訓から学ぶKDDIの再発防止策のポイントを探る。(司会は堀越 功=日経クロステック)

前編はこちら https://xtech.nikkei.com/atcl/nxt/column/18/02152/072600001/?i_cid=nbpnxt_sied_blogcard 

大規模障害を起こしたKDDIとみずほ銀行、運用体制の弱さに共通点

 KDDIとみずほ銀行のシステム障害に共通点はあるのか。KDDIが再発防止策を準備する中、みずほ銀行の事例から学べる教訓は何か。みずほ銀行とKDDIの障害を追ってきた日経クロステックの記者が集まり、緊…

2022/07/27

KDDIの通信障害が大規模化、長期化した理由として、昔と比べてモバイルネットワークが複雑になっている点が指摘されています。

日経クロステック高槻 芳: KDDIの通信障害は、制御信号と呼ばれる電話システム特有のトラフィックが、加入者データベース(DB)に集中したことが原因の一つです。モバイルネットワークでは、同期コミュニケーションである音声通話を必ずつながるようにするために、実際の音声データだけでなくさまざまな制御信号がやりとりされます。

 現在のモバイルネットワークは、IP網上でこのような音声通話の仕組みを再現している状態です。Webシステムなどと比べて、非常に複雑なトランザクション処理が必要になる点が違います。わずかなボタンの掛け違いで、雪だるまのように制御信号が増えてしまい、アクセスが集中する「輻輳(ふくそう)」状態に陥ります。

 金融システムもトランザクション処理があります。しかしモバイルネットワークの場合、数百万、数千万という規模で制御信号がやりとりされます。ここは少し特殊な部分だと思います。

通信会社が恐れる重大トラブル「輻輳」とは、KDDIの大規模障害で注目

 KDDIの携帯電話サービスで2022年7月2日未明から発生した大規模な通信障害。きっかけは機器交換のトラブルによるわずか15分間の音声通話の不通だったが、その対処中に発生した「輻輳(ふくそう)」によ…

2022/07/08

みずほ銀行のシステム障害も、DBに起因するトランザクションのエラーが原因の1つでした。

日経クロステック中田 敦:みずほ銀行の2021年2月28日のシステム障害は、DB周辺のトラブルが原因でした。定期預金システムで使っていたDBが、大量のトランザクションを処理できる設定になっていませんでした。

 定期預金システムのDBが処理できなくなったことで、その影響がメインフレームで稼働しているDBに波及し、エラーが起きました。エラーを抑えるために、メインフレームのDBへのトランザクションを絞る機構が働き、その影響でATMからのトランザクション処理が失敗して、ATMが通帳やカードを飲み込んだという流れになります。

 みずほ銀行の定期預金システムのDBは富士通製で、メインフレームのDBは日本IBM製でした。そのため定期預金システムを見ている担当者は、メインフレームにエラーが波及している状況を把握していませんでした。連鎖障害の影響を見極められなかった点が、システム障害を長引かせた大きな原因になっています。

 なお今回のKDDI通信障害では、「DBが輻輳」という表現が普通に使われている点に、違和感があります。情報システムの場合、「トランザクションがどれくらい失敗したのか」「レスポンスタイムがどれくらい遅くなったのか」「同時接続数をどれくらい減らしたのか」といった言葉で説明します。「DBが輻輳」では、何も語っていないのと同じです。

みずほ銀行システム障害を悪化させた、「エラー設計」と運用のミスを解説

 みずほ銀行で2021年2月28日に発生したシステム障害では、勘定系システム「MINORI」のサブシステムで発生したエラーがシステムの中枢に波及し、トラブルの範囲が拡大した。なぜエラーは連鎖したのか。…

2021/07/06

KDDIの通信障害は、利用者への周知が十分ではなかったという指摘があります。

日経クロステック金子 寛人: KDDIが通信障害発生後、最初に会見した際の高橋誠社長の対応について、ネットでは「社長なのにきちんと説明できている」という称賛の声があがりました。これはKDDIの実務担当者が障害の初動段階で、一般の利用者に対してどのような問題が起きているのか、きちんと説明できていなかったことの裏返しではないでしょうか。

 通信障害を起こしたKDDIは、総務省から「もっと顧客目線で情報開示すべきだ」という指摘を受けました。KDDIはその後、1時間ごとに情報を開示するように改めました。

 顧客目線で情報開示するという方向性は間違っていません。ただし1時間ごとに情報を小出しにするだけでは、利用者の不安はいつまでたっても消えません。もっと利用者の不安を解消するような情報開示の仕方があったのではないでしょうか。

 例えば「Wi-Fiのような代替手段があります」とか「Wi-Fiに接続すれば、対話アプリを使って音声通話ができます」など、利用者の目線に立った情報開示の方法はいろいろあったと思います。

KDDI通信障害の周知・広報が悪評を買った訳、解釈できず利用者に混乱を招く

 KDDIが2022年7月2~4日に起こした大規模通信障害を巡っては、利用者への周知・広報がまずかったとの指摘が多く出ている。金子恭之総務相も7月5日の記者会見で同社の周知・広報に苦言を呈した。とはい…

2022/07/20 』

『KDDIが「復旧作業が終わった」と公表後も、利用者レベルではつながらないケースがありました。

金子:KDDIの中では、復旧作業が終わったという意味での「復旧」と、利用者のレベルで使えるようになる意味での「回復」を使い分けていたと思います。しかし一般の利用者には、「復旧」と「回復」の違いがまったく伝わらず、混乱が生じました。

 やはり利用者目線で、技術を翻訳できる存在を常日ごろから育てていく必要があります。そうしなければ、このような緊急事態時に、人材育成ができていない点が明らかになってしまうでしょう。

みずほ銀行のシステム障害でも、顧客への情報開示が課題でした。

日経クロステック山端 宏実:みずほ銀行の2021年2月28日のシステム障害は日曜日に発生し、営業店に行員がいませんでした。その結果、カードや通帳をATMに取り込まれた利用者が立ち往生するという被害をもたらしました。

 みずほ銀行側で障害規模を的確につかめなかったため、営業店への行員の出勤指示が遅れました。結果的に行員への出勤指示が出たのは、障害発生から4時間以上が経過した同日午後2時25分以降です。

 広報が中心となって対応していたホームページ上の告知についても、部門間のやりとりに手間取り遅れました。対外告知を開始したのはシステム障害が発生してから3時間以上も後でした。

 みずほ銀行は、システム面に加え顧客への情報開示方法を含めて、再発防止策を策定しています。しかし先に触れたように、みずほ銀行は現在、経過観察期間のような位置づけです。実効性が担保できるような形で再発防止策が進んでいるのか、まだ検証できていません。

システム障害の警告を見落とした、みずほ銀行の組織的欠陥

 みずほ銀行で2021年2月28日に起きたシステム障害では、運用担当部門が警告を見逃したりエラーを適切に分析できなかったりした結果、トラブルが拡大した。運用担当者は貧弱なツールしか与えられず、電話や口…

2021/07/12

みずほ銀行は2022年1月に再発防止策を出しました。どのような内容でしょうか。

中田:細かい項目がずらりと並んでいます。

 みずほ銀行は2002年と2011年にも大きなシステム障害を起こしました。この2つのシステム障害は原因が明確で、やるべきことがはっきりしていました。例えば2011年のシステム障害は、勘定系システムの老朽化が大きな原因でした。再発防止策として、勘定系システムの刷新を進めるというシナリオを描けました。

 これに対し、今回のケースでは細かな原因が山程あります。全体像をつかむことは困難です。システム運用は、細かい点の積み重ねであることの裏返しかもしれません。

山端:みずほ銀行が10回以上起こしたシステム障害の技術的な共通原因を、誰もが探したくなります。しかし実際には見つけられず、その結果として企業風土の問題を指摘する声があります。再発防止策には、風土改革のためのさまざまな施策も含まれています。

中田:みずほ銀行の企業風土の問題にばかり耳目が集まっている点について、個人的にはあまりよくないと思っています。技術的な原因をきちんと指摘できないため、社風にその答えを求めているように見えるからです。

 経営者が心を入れ替えたり、社風を改めたりするだけで、システム障害がなくなることはありません。技術的な原因があるからこそシステム障害が起きます。その点を正しく修正しない限り、システム障害は続きます。

 KDDIの再発防止策においても、社風に原因を求めるのではなく、技術的な対策をきちんと示してほしいです。システム障害は必ず起きます。そこからどう素早く回復するのかがポイントです。レジリエンス(復元力)を高めることが重要になります。

みずほ銀行システム障害再発防止策の実像、DB統一や人材育成で安定稼働は成るか

 みずほ銀行はシステム障害の連鎖を止められるのか――。同行は現在、勘定系システム「MINORI」の安定稼働対策の見直しを進めている。MINORIのハードウエアは更新時期が近づいているため、それに合わせ…

2022/03/09

KDDIが近く公表を予定する報告書について、どのような内容を期待しますか。

高槻:トラブルは起きるという前提に立ち、総合的なシステムアーキテクチャーをいかに描くのかがポイントになると思います。報告書には、障害の原因や経緯が書いてあるだけではなく、それに対してレジリエンスを高める方策や、障害が起こることを前提にどのように対応するのかまで踏み込んだ内容を期待します。

 先ほど、モバイルネットワークは電話システム特有の複雑さがあると指摘しました。でも通信が重要な社会インフラになった今、いつまでも「特殊だ、複雑だ」とは言っていられないでしょう。利用者の目線に立った、普通の会社として説明をしてほしいところです。

山端:システム障害としては、東京証券取引所(東証)も2020年に、全銘柄の終日売買停止という障害を起こしました。

 東証は現在、米Google(グーグル)が提唱するシステム安定稼働の方法論「SRE(Site Reliability Engineering)」を踏まえて取り組みを進めています。例えば、障害対応の専門チームをつくったり、専門チームが扱う新たなシステムを構築したりしようとしています。

 新たなシステムでは、どこに障害が起きているのかを把握するだけでなく、障害によってどのようなサービスが影響を受ける可能性があるかを直感的に見られるようにしていきます。東証ではこのシステムを、業務部門の人でも見られるようにし、部門間の情報共有のタイムラグをなくすようにしていく計画です。

 東証はこれまで「ネバーストップ」というキーワードを掲げてシステム運用してきました。今後はこれに加えて「レジリエンス」も両立していくとしています。「ネバーストップ」と「レジリエンス」を両立する組織や仕組みをどのようにつくるのか。KDDIやみずほ銀行にとっても、東証の事例は参考になると思います。

東証・次期arrowheadの全貌、新方針レジリエンス確保へ3つの「秘策」

 東京証券取引所は2024年度後半をめどに、株式売買システム「arrowhead」を刷新する。2020年10月1日に発生したシステム障害による全銘柄の終日売買停止を受けて、「レジリエンス(復元力)」の…

2022/07/25

金子:航空業界では10年ほど前、米Boeing(ボーイング)の中型機「787」のトラブル多発を受けて、世界で同機が運航停止になったことがあります。この時、日本航空(JAL)のパイロットが「どんな機器であっても壊れるリスクを完全にゼロにすることはできない。ただ壊れ方にも、よい壊れ方と悪い壊れ方がある。『壊れました』とメッセージを出し、他のシステムに迷惑を掛けないよう静かに壊れるのがあるべき姿だ」と話したことを覚えています。

 みなさんが指摘する通り、システム障害はなくなりません。障害が起きた時に、いかに影響を最小化できるのか。壊れることを前提に、素早く回復するような仕組みが必要になります。

 加入者に黒電話をレンタルしていた電電公社の時代とは異なり、多種多様なデバイスがネットワークにつながるようになりました。通信事業者はすべてのデバイスをコントロールできません。それを前提に、いかにネットワークを維持管理していくのか。報告書ではそのような道筋を示してほしいです。

 KDDI自身、もはや社会インフラを担う大事な会社です。これまでの通信業界とはフェーズが変わっていることを意識しながら、再発防止策をつくってほしいです。

中田:KDDIは今回の教訓を、日本のインターネット技術者のミーティングである「JANOG」などでオープンに話をしてほしいです。2022年7月に開催されたJANOGのミーティングでも、携帯電話事業者のシステム運用監視におけるシステムインテグレーター依存が課題として取り上げられていたそうです。これが通信業界全体の課題だとしたら、業界全体で改善してほしいです。

 さらにはKDDI自身が、今回の通信障害についてのポストモーテム(事後検証)を書き、広く公開していくことも期待しています。』