見出し画像

サーバーの変な不具合

昨日の深夜から、職場のファイルサーバーに妙な不具合が発生し、今日は結局夕方までその修復作業に掛かりっきりでした。仕事進まなかった…!

その不具合というのが、最初はSSDの故障かと思ったのですが、どうもそうでもなさそうなのです。現象はこうです。IPアドレス等は実在のものとは変えてありますが。

そのサーバーはFreeBSD13.1で運用しています。NICは2枚をリンクアグリゲーションし、そのうえでVLAN1・VLAN10・VLAN20と複数のVLANを作ってトランキングしています。相手はCISCOのL3スイッチで、角VLANともに特に異常は見られません。
サーバーには複数のネットワーク空間のアドレスが降られていますが、主に使われるのは192.168.10.x/24です。192.168.10.1、192.168.10.2、192.168.10.3…とIPアドレスを振り、そのうち192.168.10.1をDHCPサーバーに、192.168.10.2をsambaサーバーとして運用していました。

長年これで稼働してきたのですが、昨晩から挙動が変になります。私はL3スイッチやルーターでaclの調整をしていたので、てっきりaclにミスがあったのかと思い元に戻しましたが、症状が治まることはありませんでした。

症状というのは、PINGは普通に通る。dhcpサーバーは異常なく稼働している。sambaサーバーが、ソケットにはつながるんだけど通信ができない。サーバー側にログインしてsockstatをみても、syn-ackは戻っているみたいなんだけどデータが流れない。もちろん、samba領域から外部(インターネット)への通信も失敗。dhcpサーバー側は正常。

ここまでくると、SSDに一部不具合があり、smbdのプログラムそのものやライブラリに何らかのデータ欠損が発生したか?と考え、出勤して朝一からまずシステム領域のSSDを外し、別のSSDを入れてOSをインストールし、データを移す作業を行いました。さんざん時間を掛けてある程度まで動くようになっても、

やっぱり192.168.10.2から/宛の通信ができねぇ!

となれば、sambaサーバを192.168.10.2ではなく192.168.10.3に変更してみると、今度はちゃんと動くんですよ奥さん!!!

つまり、最初のトラブル時も、IPアドレスだけ付け替えれば動いた可能性が高いんですね。まぁ、元々のSSDは保全してありますから、それを元に戻せば動くんでしょうけど、新しいSSDにデータも移しちゃいましたんでねぇ。

ともかく。

なんで192.168.10.2だけ通信ができないのかが分かりません。最初は、ありがちな話ですがIPアドレスの重複?と思いましたが違います。PINGは正常に通じるのに、TCP通信は(あ、多分UDPもかな)できない。その「できない」のも、ソケットに接続はするんだけどデータが流れない。

FreeBSDをいじくって四半世紀、色々なトラブルも経験しましたが、今回のようなケースは初めてです。L3SWのaclかな?とも思いましたが、ネットワーク超えてないし単なるL2機能しか使っていません。もとよりaclも外してます。物理インターフェースは同じで論理アドレスだけを付け替えれば正常に動作する、というのも不思議な現象。
結局原因は分からず、IPアドレスを付け替えてDNSへの登録データも修正して終わりにしましたが、さて、この現象の原因は何だと思います…?

では、今日はこの辺で。

以上。

この記事が気に入ったらサポートをしてみませんか?