会社のITインフラ改革〜仮想化サーバ②〜

2022年11月8日 08:43

過去noteシリーズはこちらを参考ください。
（更新はリアルタイムではありません）
https://itnews.jp/?p=709

会社のITインフラ改革〜仮想化サーバ①〜の続編です。

前回のお話

前回は仮想化システムを導入したものの、これって停電する環境だと寿命が縮まるね。また、仮想化システムって結局、ラックスペースを大量に使用するね。こういう中、5年経過しラックスペースを圧縮できるHCIで更新したよ、というお話をしました。

Nutanix HCI 採用の決定的理由

システムのリプレイス、5年毎に発生するリスクをどう凌ぐか、が情シスにとっては重要な鍵です。会社にとってメリットが高いもの、は、言うまでもないですが、そのシステムは誰が運用しているのかが最も重要です。ネームバリュー、シェアが高いものを入れて運用できなかった場合は言語道断。嫌われる情シス部門、ヒトが入ってこない問題を克服するには、システム更新でもリスクが低い運用体制が必要。

Nutanixの場合、アプライアンス（一体型）で提供されているため、何かしらリソース不足が発生すれば、ノードを追加すれば良いという考え方。そのため、ディスク不足であれば、ディスクが多いノードを追加すればいい。その際、vCPUやメモリも増えてしまうが…。ノード追加し冗長化させていき、保守満了機器は、そのノードを落としてサヨナラが簡単にできる「スケーラビリティ」の良さ。そういう事前に大規模構築が不要で、電源ONすればすぐ利用できる便利なシステムを一般的にHCI (Hyper-Converged Infrastructure)と呼ばれています。

前回の記事で、Nutanix上の稼働しているVMは、ハイパーバイザーを介さず、直接、SCSIで接続されているリソースにアクセスしているというI/O (Input / Output) の良さを簡単に比較して書いた。ここではまだ触れていないけれど、ノード障害の耐用性が優れている点もある。

一般的なサーバやストレージはRAIDとかで構成されている。RAIDは冗長性に優れ、勤務先の物理サーバではRAID5やらRAID6やらで構成し活用している。RAIDの欠点はディスク故障した際、ホットスペアからリビルド（再構築）を行われる。この、リビルド中にI/Oとかのパフォーマンスが下がることだ。で、故障したディスクを交換すると、また、ホットスペアでリビルドされた構成が、元のディスク構成にリビルドされるため、ここがまたI/O低下するの？というリスクになる。リビルド時間はディスク容量がデカければでかいほど、時間がかかるわけだから。

Nutanixの場合、同じデータを複数の異なるノード内のディスクに保存することが行われている。同じデータを2ノードないし3ノードで保持できる。ちなみに、2ノードで保持していることをRF2(Replication Factor 2)と呼ばれる。そのため、RF2で構成する場合最低3ノード、RF3の場合最低5ノードが必要となるため、最低3ノードからの構成になるのは、この理由から。

つまり、別のノード内のディスクでデータが保存されるわけだから、ディスク障害時でもレジリエンス（resilience）が高い、と言うことになる。そして、2018年当初では、SSD・HDDのハイブリッド構成でもI/Oが高いということから、あえて、オールフラッシュは不要だよ（2022年頃は、オールフラッシュモデルも多数出てますが）といった、パフォーマンスの良さと言うのも導入した条件の１つだ。

まとめると、Nutanixは、パフォーマンスがよく、耐障害性のレジセンスがよく、そして一番の難関なシステムリプレイス時、スケーラビリティで展開できるため、時短ができるという３拍子揃っているシステムなんだ、と言うことを胸を張って伝えたい。

今回採用したNutanixはNX1465-G5で、スーパーマイクロ製となっていた。HCI市場では、スーパーマイクロを利用している機器が後々多いことがわかった。

下の画像のように、１台の箱に４つのサーバが収納されている。詳細なサマリーはこちら（Dont Poke the Polar Bear）を見てもらえれば良いと思います。

ラック収納への削減

仮想化サーバ更新時、わずか2Unitで4ノードで構成されたアプライアンス製品（HCI：Hyper Converged Infrastructure）の知名度が高い製品にNutanixぐらいだった。CiscoのHCIであるHyperFlex2018年頃から知られるようになった気がするけど、たまたま私が検討・調査していた資料は2016年ごろからの調査であったため含まれていなかった。

前回の仮想化サーバ①でも触れましたが、ESXi 3ノード構成の場合、ラックスペースがUPSを含めて32ラック丸々スペースを利用したと伝えた。それが、Nutanix NX1465を利用することで、わずか2Unit＋UPSの3Unitの5Unitで大幅削減できたという成果が得られた。

これも決定的でデータセンター移設への加速化を位置付けた理由の１つとなっている。

仮想化システム停電リスク

良い製品だけど、ビル設置だと年１回停電があるんだよね…、と言う課題。前回記事①で触れたけれど、Nutanixに対応したUPS連携機器が非常に多い。当時は、USPソリューションズぐらいしか無かったと思うが、Nutanixから勧められたメーカーだったので、これを採用した。ESXiに限らず、AHV、HyperVに対応している。

シャットダウンボックスといった弁当箱より小さい機器を設置し、Nutanixを各レイヤーごとに順番に自動シャットダウン、自動起動を可能としたもので、この導入によって、相当運用リスクが軽減した。

UPSソリューションズのUPSは、結構細かいタスク処理ができて面白い製品だった。UPSからSSH処理が走らせることができるのだ。このお陰で、L3スイッチのシャットダウン処理を走らせることができ、システム自動処理が実現した。ただ、2019年にデータセンターを契約したことで、これらの停電対応設備が不要になったのは言うまでもない。

来年、更新

現在、ハイパーバイザーAHVで構成したNutanix 基盤は6ノードで構成している。これが来年更新となっている。物価高・円安とかで費用があがっているダメージは大きいが、現6ノードに対し新5ノードを追加し、一時的に11ノードにした状態で、更新となる4ノードを取り外し、7ノードにするという計画で動いている。この更新について、更新後にノートで公開しようと思う。

仮想化導入による業務効果

仮想化導入によって、これまで検証できなかったシステムを手軽に対応できることになったのが大きい。例えば、暗号化システムを導入しようと検討した際、ダミーADを構築し、どう影響を及ぼすかを検証できたり、ウイルス対策サーバを作り直したり分散させたり、システムを気軽に導入できるようになった。これにより、IT活用が加速化した。

システム導入する際、サーバー導入は結構体力が必要。UPSとセット、バックアップどうするの？どこに設置するの？誰が構築するの？といった問題や、ハードウエアの費用も比較的高いしね…と言う問題もあった。

仮想化により、IaaS提供を社員に行うことができるようになった。まさに、仮想化利用により業務がいわばクラウド屋さんになった。（笑）

まとめ

スケーラビリティ・パフォーマンス・レジリエンスといった、企業においてデジタル格差に打ち勝つ攻めのビジネスモデルの構築に必要な３要素で構成されたNutanix採用により、ITを活用した業務が加速化した。仮想化を活用し、どんどん業務を効率よくシステムを使って加速していきたい。

ただ、仮想基盤そのものが壊れたらヤバイヨ！ヤバイヨ！だよね。これについては、機会があれば執筆します。

この記事が気に入ったらサポートをしてみませんか？