ソフトバンク、大規模通信障害の経緯と対応策を公表

2018/12/20 13:33
保存
共有
印刷
その他

日経クロステック

ソフトバンクは2018年12月19日、同月6日に発生した携帯電話サービスの全国的な通信障害の経緯と今後の対応策について説明した。

ソフトバンクの宮川潤一副社長執行役員兼CTO

ソフトバンクの宮川潤一副社長執行役員兼CTO

障害が発生したのは13時39分、復旧したのは18時4分で、4時間25分もの間、通信がつながりにくくなっていた。ソフトバンクやワイモバイルなどの約3060万回線が影響を受けたという。原因はスウェーデンのエリクソン製LTE交換機のソフトウエア(MME:Mobility Management Entity)の不具合である。

障害の発生から2時間15分後の15時54分に、切り分け調査からLTE交換機の障害であることを特定。16時22分にすべてのLTE交換機のソフトウエア更新を開始した。17時35分に西日本で復旧、障害から4時間25分後の18時4分に全国で完全復旧した。

ソフトバンクでは、LTE交換機を含むコア設備を西日本センターと東日本センターで運用しており、センター間で相互にバックアップしている。LTE交換機は西日本センターと東日本センターに計18台ある。LTE交換機が一斉にダウンしたため、障害箇所の特定に時間がかかったという。

全国のLTEネットワークに一斉に障害が発生したため、3Gネットワークへのアクセスが急増。3Gネットワークが高負荷状態に陥り、3Gでもつながりにくくなってしまった。

LTE交換機の内部では、正常性監視機能とLDAP(ディレクトリサービスにアクセスするための通信プロトコル)を利用したユーザー管理機能の間でTLSを使った暗号通信を行っていた。このTLS証明書の有効期限が切れてしまったため、ユーザー管理機能が監視できなくなってしまい、システム異常を検出して機器が再起動した。このTLS証明書はソフトウエアに埋め込まれていたため、ソフトバンクでは有効期限を確認できなかったという。

障害発生時のMMEのバージョンは1.14であり、証明書を利用しない1.08というバージョンに戻すことでLTE交換機を復旧させた。1.08は2017年6月22日から利用しており、2018年3月14日から4月26日までの期間で、18台のLTE交換器のMMEを1.14にバージョンアップした。今回の障害で、再び1.08に戻ることになった。

■ソフトを改良し、別メーカーの機器も採用

今後の対策には、暫定対策と恒久対策があるという。

暫定対策は3つ。まず、商用設備における証明書の有効期限を総点検する。最重要設備の点検は12月11までに完了済み。有効期限切れの証明書はなかったという。その他の全設備の点検は12月31までに完了する予定。

また、ラボ試験で機器の日付を未来に設定し、動作を確認する。3年後、5年後、7年後、10年後の日付を設定する。今後の新規設備や新規ソフトウエアではすべて確認するという。

この障害の復旧時には、LTE交換機のソフトウエアを入れ替えて立ち上げるまでに約2時間かかった。この時間の短縮も図る。

恒久対策も3つある。まず、エリクソンと協力し、証明書の有効期限の確認や証明書の更新をソフトバンク側でもできるようにソフトウエアを改良する。2019年1月31日に新しいソフトウエアへの切り替えを完了する予定。

システムアーキテクチャーも見直す。今回の障害は、システム異常を検出した際にシステムを再起動したために発生した。今後は、サービスの継続に無関係な異常に対しては警告するだけで運用は継続するようにする。再起動すべき異常かどうかを厳選する検討をエリクソンと始めたという。

LTE交換機を複数のメーカーから導入する。これまではLTE交換機はすべてエリクソン製だった。これに別のメーカーのLTE交換機を追加する。現在、欧州のメーカー1社と米国のメーカー1社の製品を検討しており、MMEの互換性などを考慮していずれかのメーカーの製品を導入する予定。2019年6月30日までに10台以上のLTE交換機を追加する。「過剰投資にはなるが、万が一に備えて決断した」(同社の宮川潤一副社長執行役員兼最高技術責任者=CTO)。また、西日本センターと東日本センターをそれぞれ2カ所にする。

(日経 xTECH/日経NETWORK 大森敏行)

[日経 xTECH 2018年12月19日掲載]

保存
共有
印刷
その他

電子版トップ



[PR]