サポート業務ってなんでうまくまわならいんだろう
この投稿は、2024年JINSのアドベントカレンダー21日目の記事です。
挨拶
こんにちはJINSインフラ担当の神尾と申します。
以前は全社で使うすべてのIT機器の運用保守から手配までしておりました(いわゆる一人情シス)今は主にネットワーク関連のインフラの構築。運用保守を担当しています。
サポートしならがバスタブ曲線って本当にそうなんだなと,部品そのものに思いをはせたり,なんで廃止しようとするシステムって急に故障するんだろう?とオカルト的なことまで日々考えています
ちょっと毛色が変わって、ものすごくアナログなことを書きたいと思います
サポート業務って
運用保守業務に携わっている皆さんは必ず経験することだと思います。
対象と思われる箇所をいくら対応しても改善せず、結局全然無関係な場所にトラブルが起きていた、とか。それでも改善すればよいですが完全に煮詰まってしまってループに陥るとか。
このあたりは、遠方で(サポートはほとんどうでそうですが)現物をみずに電話やChatのみで対応する場合だと特に多いです。とにかく、こちら側で思っていることと実際の現場で感じてることや見えるものが違っていることが大きな問題になります。じゃなんでこうなるのでしょう?
人は予想外に独創的なことをする
たとえば配線には必ずラベルを貼るのですがケーブル両端同じにしてねって言ってても作業者によってFromで貼っちゃう
ルータとスイッチ間の配線に ルーター側にはスイッチ スイッチ側にはルーターって貼っちゃう。これわかりやすそうなのですがリモートでサポートするときに、”ルーターって書いたケーブルありますよね?”って聞いてもルーター側にはそう書いてないのでわからない。
あと、壁面に縦置きでって指示した場合、(これ文面だとどっちでもとれるんでしょうけど、写真付きで指示しても・・)壁面から前方にせり出す格好で(壁から生えている感じ)設置してるとかもう邪魔で仕方がない。
もっと言うと、これは流石に今現在はないですが昔だと、ツイストペアを無視してただ指定通りにコネクターをつなぐとか。これある程度使えちゃうので本当にこまりました。(チェッカーなんかももっていない業者さんだったのでしょう)
ヒアリングって難しい
例えば、ある機器が不具合だったとします。まぁ再起動をかけてみるのが常套手段ですよね。そこで電源ケーブルを抜いて挿しなおしてってお願いをするわけですが、治らない。おかしいなと思い何度もやっていて、試しに、電源ランプついてますか・・・?て聞いたらついていないと。電源故障ではいくら再起動しても無理ですよね。
これ、そんな馬鹿なって思うかもしれませんが、状況や流れによっては陥ってしまうことだったりします。
相手はITのエンジニアでもなければ、それが趣味に人でもないんです。なのでLANケーブルといったり電源ケーブルといっても分からなくってもそれは仕方がない話なんです。
対策
以上本当に単純な話しを書きましたが、それ以外でもはまっちゃってわからくなるトラブルは沢山あり、日々考え方を直しながら対応しているわけなんですが、当社ではこの手の問題に対応するため以下のような対策をとってきました。
- トラブル発生個所や状態をリモートでわかる仕組み
これは昔な考えられなかったですが、今のクラウド管理のシステムでは簡単ですね。当社では4年ほど前からMerakiシリーズで機器をそろえています。機器の動作状況をリアルタイムで確認できるのはすごくありがたい。これで随分故障個所が絞られるので相手の時間を無題に使わせなくてよくなりました。当然サポートする側の時間もですね。 - 機器は必ず決まった場所に決まったレイアウトで
機器はひとまとめにボックスにいれています。当社では情報配電盤と呼んでいます(昔制御盤を少しかじったのでそれを参考に考えました)特殊な構成でない限り、同じ場所に同じ機器を設置しています。無論配線の出す位置もすべて指定しています。なので、電話で指示する場合も 左上のシルバーの機械とは、ある程度共通の認識で機器を指定できます。(テプラも貼ってありますが、機器交換ではられていなかったりで確実ではない)
これ余談ですが、かなりがちがちに指定しても作業される方の個性が出ますし(運用に影響がない範囲で)品質にも差が出ます。完成した写真を眺めながら、この配線は良いなぁとか一人でうなずいたりしてます。
- ケーブルのテプラの命名
これも必ずこのように施工すると指定しています。両方とも同じ名称で。
あと POSとかCATとかってデベロッパーが用意しているものもあったりして配線を間違えて挿されてループすることも結構あったので、必ずJINSPOSとかJINSCATのような表記にしています。
でどうなった
- 単純なようですが、効果は大きいですね。
- トラブルの切り分けから故障機器の特定は なれたらダッシュボード眺めるだけで(そこに表示されない管理されていない機器も含め)大体特定できるようになりました。
- 電話で指示も随分楽になりました。無論BOXに収めているので足でひっかけて断線するとかの問題も皆無
- ループもなくなりました
- これまで書いたことってクラウド管理の環境以外は基本中の基本だと思いますが、すべての拠点で同じ構成・同じ品質ってのが結構難しかったりします。その辺いかに担保していくかってことを日々考えています。
Discussion