アクティブモード設定時に死活監視エラーとなる件について

Incident Report for PicoCELA Inc

Resolved

一定期間観察し、再発していないことを確認いたしましたので、本件はクローズいたします。
Posted Mar 19, 2025 - 13:15 JST

Monitoring

毎日0時に実行される設定ファイルの自動バックアップ処理中に、サーバー側の処理実行可能数上限を超過し、異常終了していることが原因となります。これにより、PCWLとPicoManagerの通信整合が取れず、監視状態不整合となりました。

処理実行可能数上限に達した場合、自動的に上限を引き上げる仕組みになっていましたが、処理プロセスの生成に時間を要したため、処理できないリクエストが発生したことを確認いたしました。
サーバー側の処理実行可能数上限引き上げおよび、処理プロセスをホットスタンバイさせるようにスケーリングポリシーを見直し、1月26日0時以降この事象が再発していないことを確認いたしました。

また本件対応の過程において、1月25日0時以降にサーバー側の障害が発生し、一部のノードで死活監視エラーが発生しました。こちらについては1月25日5時ころまでに復旧し、死活状態はオンラインとなっています。

この事象により死活監視がエラーとなったノードについて、無線ネットワークの運用に影響はありません。
現時点で死活監視がエラー状態のノードは、再起動により復旧することができます。

障害発生防止までに時間を要しましたこと、あらためてお詫びいたします。
Posted Jan 28, 2025 - 00:29 JST

Identified

MQTT有効化がONになっているノードにつきまして、毎日0時ころに実行されるPCWL側からの通信において、サーバー側の処理実行可能数上限を超過していることが原因と判明いたしました。
これにより、PicoManagerとPCWL側の死活状態不整合が発生し、当該ノードの監視系機能が停止しております。

PicoManagerからノードにアクセスするノード設定やイベントモニタ等には影響ありません。
また、バックホールやAP機能等の運用にも影響はありません。

現在サーバー側のスケーリングの見直しを行っております。

ご利用中のお客様にご迷惑をおかけしておりますこと、重ねてお詫び申し上げます。
Posted Jan 22, 2025 - 10:50 JST

Investigating

2025年1月18日(土)0時以降、アクティブモード設定しているノードの一部について、死活監視エラーとなる事象を確認しました。
原因は現在調査中です。

死活監視エラーについては、ノードの再起動を行うことで復旧いたします。

ご利用中の皆様にはご迷惑をおかけして大変申し訳ありません。
Posted Jan 20, 2025 - 17:49 JST
This incident affected: PicoManager.