🌐

ネットワーク一時アクセス不可とのたたかいのきろく。

2023/05/22に公開

昨年度末から、2か月かかった戦いにやっと終止符が打てた模様なので、自身の備忘も兼ねてまとめましたので、情報共有いたします。コロナ対応として入れた、ある拠点用のインターネット接続用ネットワークで、出社が増えてきて時限爆弾が爆発しました…。

症状

一時的に以下の事象が発生しました。

  • クライアントのインターネット接続が不安定(遅延、切断)される。
  • クライアントから、インターネット接続ルーターに設定しているDNS向けにPingを打つと、(遅延、未達)となる。
  • クライアントから名前解決ができなくなる(nslookupコマンドがタイムアウトする)
  • インターネット接続ルーターへの死活監視(ICMP)で、アラートとなる。
  • インターネット接続ルーターのトラフィックレポート(SNMP?)で、グラフ上通信量が一時0となる。(通信は発生しているはずなのに)

環境

  • 社内クライアント向けインターネット回線
  • インターネット回線からルーター、SW、無線APまでを一括で導入・保守契約を締結済。
    • ハードウェア保守はオンサイト
    • ソフトウエア保守はリモート対応のみ
  • ネットワーク構成は、[インターネット接続ルーター] - [L2SW] - [無線AP] - [PC・スマホ] という、シンプルなインターネットアクセス用ネットワーク
  • インターネット接続ルーター(以下ルーター)は、NEC製のIXルーター(IX2106)

復旧までに対応したこと

  • ルーターの再起動 → 一時的に復旧
  • ベンダーの提案のもとルーターのUFSキャッシュ値(*1)の拡張 → 一時的に復旧、のちに再発。
  • マニュアルにてパケット評価フローと、機器にデフォルトのキャッシュサイズを拡張できる設定を確認したところ、ダイナミックACL(*2)のキャッシュ領域の不足が関係している可能性があると思われたため、ベンダーに拡張を依頼 → 復旧

感想・気づき

  • サービスとはいえ、機器のマニュアルを早く読むべきだった。NECさん、素晴らしいマニュアルを開示してくれていた。
  • サービスで借りている機器(保守・運用業務はしない)とはいえ、ログの閲覧権限、Showコマンドの入力ぐらいは許可されているサービスを選ぶべきだった???
    • ここは、私個人の意見です。いろいろな意見があると思います。
  • サービス型だと導入も早くお安いですが、規定のパラメータシートを埋めるだけでは、共通設定となって埋もれている設定に痛い目にあうことはあるのだろうなと勉強になりました。
  • ルーターの再起動は、ハードウェア保守とソフトウェア保守の間のグレーゾーンとなり、再起動はユーザー側のオンサイトでの実施となり、ベンダーがリモートで再起動していただけなかったのは想定外でした。
  • ベンダーさんは、個人的には動きが非常に良かったです。

参考情報

Discussion