KDDI通信障害で思い出すソフトバンク社長の提言

KDDI通信障害で思い出すソフトバンク社長の提言
https://www.nikkei.com/article/DGXZQOUC066W10W2A700C2000000/

 ※ なんだか、菅さん(菅 義偉 元首相)の強力な旗振りで、実現した「ケータイ・スマホ料金引き下げ」が、「遠因」であるかのような話も出ているな…。

 ※ いずれ、「料金下げれば」「品質(もしくは、通信障害耐性)は、落ちる」という関係にある…。

 ※ 世の中、「どっちも実現」「いいとこ取り」とは、なかなか行かないものだ…。

『KDDIが7月2日に起こした通信障害は大きな社会問題に発展した。「au」「UQモバイル」「povo(ポヴォ)」といった同社の携帯電話サービスだけでなく、同社回線を使う格安スマートフォン事業者のサービスも音声通話やデータ通信が利用しづらい状況に陥った。これらサービスをあらゆるモノがネットにつながる「IoT」用途で活用している例も多く、影響は物流や自動車、気象、銀行、交通関連など多方面に及んだ。

携帯大手の大規模障害は近年だけでも、2018年12月のソフトバンク、21年10月のNTTドコモ、今回のKDDIと相次いでいる。毎回、影響の大きさに驚かされる。今回も携帯インフラのもろさを改めて痛感すると同時に、今後は競争を超えた協調も必要なのではないかと感じた。
ドコモの教訓で対策していたが…

障害のきっかけとなったのは、ルーターの交換に伴うルート変更だった。この作業中に高音質通話サービスのVoLTE交換機で警告が発生。一部の音声通話が不通になっていることが判明し、切り戻しを実施した。音声通話の不通時間は約15分間だったが、これがVoLTE交換機の輻輳(ふくそう)と呼ぶアクセスの集中を招いてしまった。

その後は悪夢のようだった。輻輳は信号接続要求やデータ/音声接続要求の流量制御を実施しても解消されず、加入者情報を管理するデータベースにまで波及した。この結果、加入者データベースのデータ不一致が起こり、この修正対処まで必要となった。

7月4日には一部のVoLTE交換機(18台中の6台)から加入者データベースに対して不要な過剰信号を送出していたことも判明した。これでは復旧に長時間を要するのも当然である。
今回の障害でつくづく感じたのは、輻輳の恐ろしさだ。ドコモが21年10月に起こした障害も輻輳の影響で長時間化した。最初は規模が小さくても、接続不可・再接続を何度も繰り返してアクセスが膨れ上がり、一定の規模を超えると手がつけられない状況に陥る。

KDDIは今回、「再送(再接続)が起こってはじいているので(正確な規模は)分からないが、既定の量の数倍のアクセスが来ていたと思う」(技術統括本部長の吉村和幸専務)としており、これでは50%の流量制御をかけても通常より多いことになる。

輻輳の恐ろしさを熟知している携帯大手でさえ対処を見誤ると、簡単に大規模障害につながる。ドコモの21年10月の障害では旧設備への切り戻しを実施し、20万台のIoT端末に位置登録を促した結果、輻輳を招いた。ドコモは当時、「この単位(20万台)であれば問題ないと考えていたが、輻輳が発生してしまった。これを抑えきれず、全国のネットワークに影響が広がった」としていた。

KDDIの障害については今後の調査結果を待ちたいが、やはり7月2日の早い時間帯に輻輳を抑えきれなかったのが痛かった。

7月3日の記者会見では「不具合が発生した拠点に収容されている全ユーザーが他の拠点に接続を切り替えても大丈夫だというシミュレーションはできていた。実際には一斉に来ても大丈夫、あるいは一瞬輻輳するけど収束するというシミュレーションだった。そこが利かなかった。どういう動きがあったのかしっかりと検証しなければならない」(吉村専務)と話していたのが印象的だった。

KDDIは今回、ドコモの大規模障害の教訓を生かせなかった格好だが、実際に教訓を生かすのは容易ではない。「端末の接続要求が増えて大規模な輻輳を招き、復旧までに長時間かかった」という点でKDDIとドコモの事象は似ているものの、輻輳に至る経緯はさまざまだからだ。

KDDIは7月4日のオンライン記者会見で「(ドコモの大規模障害を受け)VoLTE交換機に輻輳が起こってもすぐに復旧可能な手順と設計を考えてきた。今回の障害が発生した時点でまさにその手順を踏んで直ちに対応したが、復旧できなかった」(吉村専務)と振り返った。
「ローミングで協力してはどうか」

KDDIに限った話ではなく、大規模障害はいずれまた起こると考えたほうがよい。

ふと思い出したのは、ソフトバンクが18年12月に起こした大規模障害を受け、宮川潤一社長(当時は副社長兼最高技術責任者)が「社会的意義を考えると、災害時や大規模障害時は事業者間のローミング(相互乗り入れ)で協力することを検討してはどうか」と提言していたことだ。災害時や大規模障害時に限り、他社網へのローミングで最悪の事態を回避する。

当時は「さすがに競合他社が受け入れるわけがない」と感じていたが、大手3社がそろって大規模障害を起こしたとなれば、改めて検討の余地があるのではないか。突然の戦火に見舞われたウクライナでは「全キャリアにローミングがかかっていて8~9割はつながるとされる」(携帯大手幹部)。

もっとも、宮川社長の提言後、大きな進展はないという。

「災害などで一部の設備が被害を受けただけなら融通しやすいが、KDDIの大規模障害はコア(交換機)で発生している。コアで問題が起こったらどうしようもない。仮にローミングでKDDIのネットワークを受け入れるとなると、うちまで倒れてしまいかねない。少なくとも現状の2~3倍のキャパシティーを持たなければならない。明日は我が身で重要な問題だが、残念ながら今は携帯電話料金引き下げの影響により、そこまで設備を増強する余力は残っていない」(携帯大手幹部)ような状況だ。

KDDIの大規模障害を巡っては、警察(110番)や海上保安庁(118番)、消防(119番)への緊急通報ができなくなったことも問題視された。

確かにデータ通信までローミングで受け入れるとなれば2~3倍のキャパシティーが必要なのかもしれないが、災害時や大規模障害時はせめて音声通話だけでもローミングによる協力でサービスの提供を維持できないものだろうか。音声通話だけであれば実現のハードルはそれほど高くないはずだ。

もはや携帯電話サービスは極めて重要な社会インフラとなっており、その維持のため、競争を超えた協調も必要なのではないか。総務省と携帯大手にはぜひ前向きな検討を期待したい。

(日経クロステック/日経コンピュータ 榊原康)

[日経クロステック 2022年7月6日付の記事を再構成]

【関連記事】

・「復旧? まだ通じない!」 KDDI、空回りの情報開示
・緊急時のローミング検討、総務相 KDDI通信障害で
・KDDI通信障害で露呈 緊急通報に他社回線使えない理由 』