会社のITインフラ改革〜仮想化サーバ①〜
過去noteシリーズはこちらを参考ください。
本文が長くなるため、2回に分けて記載します。
(更新はリアルタイムではありません)
https://itnews.jp/?p=709
仮想化サーバは入社時にはなかった
十数年前の入社時、そもそもサーバは基幹系以外は2台しか無かったと思う。アルミラックにDELLのPowerEdgeが置かれ、テスト導入と聞かされたため、実際は社内展開はされていなかったと思う。それと、ノートン(Symantec AntiVirus)の定義ファイル配布サーバの2台かな。基幹系はオフコンなので、結構でっかかった記憶がある。
2022年11月現在、基幹系にしろ情報系(IT系)にしろ、私が担当している多くの機器(Oracle DB以外)は仮想化上で稼働している。向こう1年以内には、一部を除いて、仮想化(オンプレとクラウドのハイブリッド)に統合していく計画だ。
仮想化のメリットはVM(仮想マシン)間は、10GbEという高速通信が可能だったり、スナップショット(VMのクローン的なもの)をとって作業が可能なこと、仮想化サーバは5年毎の更新になるものの、その上で稼働しているVMは、言わばほったらかしで良いこと、UPSがそれぞれサーバ毎に用意が不要なこと、バックアップがUPSと同様に、それぞれ不要なこと、良いことづくしだ。
しかし、それに至るまでの苦労話、経験談を語っていきたい。
仮想化サーバは停電を想定しない
データセンターを利用したのは2019年からなので、つい最近。この話の苦労話はまた別でしましょう。
社内設置型でかつ、ビルにテナントとして入っている場合、年1度の消防法による定期停電が発生する。また、落雷とかでも瞬間停電を経験したことがある。さらに、入社当時はサーバルームもなかったので、専用の空調設備はなかった。つまり、サーバーが増えればふえるほど、部屋が暖房っぽくなり、UPSのブレーカー落ち、システムが停止する。いずれも経験済みだ。
こういった苦労なことを経験すると、次こそは…!改善してやる!と言い聞かせながら、景気悪化、経費削減、主張しても結局、情シスの投資は売上に結び付かず消費になってしまう。
2013年にAD展開と共にESXiをハイパーバイザーとするVMware vSphereを導入した。これが勤務先では初の仮想化システムの導入だ。ま、初導入なんだけど、会社からには評価されなかった。基本、情シスが評価されることはなく、システムが停止したら叱られるだけ、そう、叱られなければ、まぁ、いい、というのが情シスの職務。だから、ヒトが敬遠し入ってこない理由の1つに違いない。
停電に伴うVMware vSphere (ESXi) システム停止
当時は管理サーバであるvSphereサーバーは別途物理サーバを手配していた。停電に向けてESXi上で稼働しているVM(仮想マシン)をすべてシステム終了を行う。VMware Toolsが入っているマシンは、右クリックして終了ができたりした。
VMが停止したら、ハイパーバイザーを構成している物理サーバ(ホスト)を停止する。ここでまれに停止したつもりが正常にシャットダウンされないケースが発生し、電源オンした際に色々とトラブルが発生し、青ざめたことはしょっちゅう起きる。マニュアル通り、行かないものが業務だ。
ホストが電源OFFとなれば、vSphere管理サーバーが物理サーバだったので、シャットダウン。その後、vSphereによってマウント(接続)されていたストレージ(ファイルサーバのでかいもの)のシャットダウン。ストレージは、Fujitsu ETERNUSを使っていたので、これを、ぽちぽち物理スイッチで電源をOFFしていたような気がする。
ただ、まだまだ。ホストとストレージ、管理サーバがそれぞれ接続されているFc(光ファイバチャネル)の電源OFF、そして、L3スイッチは当時はJuniperを利用していて、シャットダウンコマンドが用意されていたため、コマンドでL3スイッチを落とす、といって作業をしていた。L2はほったらかししていた記憶がある。
ただ、これで終わりではない。UPSを落としていく必要があった。
結構面倒なので、これをバッチとタスクスケジューラとかの組み合わせで処理に変更した時があった。この場合、うまくホストが停止されず、メンテナンスモードになり、そのホスト上で稼働していたVMが他のホストに移動(vMotion)し偏る状況になったことを、経験した。そのため、そういうリスクから逃れたいという名目で、データセンターへの利用を急がした理由の1つでもある。
復電に伴うVMware vSphere (ESXi) システム稼働
システム停止を行なった順番を逆さまの手順で行えばいい。
UPSはタスクで自動起動しているため、それより上を考えればよかった。L3スイッチ起動させ、Fcを起動させ、ストレージを起動させた上でESXi一式を起動させていくという処理となる。当時のストレージは、Fujitsu ETERNUSを利用しており、7ノード 20TBぐらい(瞬間バックアップ:OPCの都合上、半々の利用だったかな)だったと思う。この起動は物理ボタンで電源ONを押さなければ起動しなかったと思う。
ESXiを管理しているvSphere物理サーバを起動させ、ホストであるESXiの物理電源をONにし起動させ、vSphere Client(当時はアプリでも提供されていた)から仮想化に接続し、ホストを確認。前述記載通り、ホストがメンテナンスモードだよ、という事象が結構な確率で遭遇した。
このメンテナンスモードに気づかず、VM(仮想マシン)をぽちぽち電源ONしていると、全体的にリソース(メモリやCPU)がいつもより圧迫してるじゃん!と気づけば、ホスト1台が動いていないんじゃん!と気づき、メンテナンスモードを解除、vMotionを利用してVMをバランスよく手作業で再配置する、といった作業を行なった。
ESXi利用では最大3ノード(ホストが3台)だったので、それがメンテナンスモードで2台になった際は、これでホスト1倒れるとシステム起動不可という不安を注ぎながらの復旧対応処理だった。
導入した2013年から数年間は、出社しながら作業しなくてはいけないという面倒リスクから、ある程度リモートで対応できればいいな、ということもあり、ここで初めてFortigateのSSL-VPNを導入した。
現在勤務先では、SSL-VPNはオンプレからサービス(クラウド)に切り替えている。これは別の記事で書こうと思っているが、SSL-VPN脆弱性を悪用した不正侵入を恐れての対応だ。
2018年、仮想化システムの更新
仮想化システムリプレイスを検討していた2017年頃、HCI (Hyper Converged Infrastructure) が非常に人気の商材だった。個人的好きなHPEは、SimpliVityというブランドで2017年ごろにリリースし、これで移行という計画に入った。勤務先では相見積もりによる製品選定が必要なため、このSimpliVity (HPE) か、VMware vSANか、Nutanix AHVかの3択で製品選定を行なった。
SimpliVityは当時は買収されたブランドでもあり、HPEでのHCI経験が浅く、SimpliVityのサポート体系も固まっておらず、2018年更新には間に合わないという理由で断念。また、当時はこの製品は金融機関向けで一般企業にはあまり推奨してはいなかったムードだった。むしろ、HPE Proliantを利用し、ESXiでvSANを作るのが推奨されていた時代だ。
そのため一騎打ち。NutanixかvSANか。2017年ごろに一般的に選定する場合は、仮想化技術の歴史が深いVMware vSANだっただろう。私はNutanixを選んだ。これは、構造式からの問題でもあった。
NutanixのVMのI/O (Input / Output) は、Controller VM (CVM) を介して、SCSI接続されているシステムリソース(メモリ・CPU・ストレージ)にアクセスする。ハイパーバイザーを介さないため、効率よく無駄なくリソースを処理できるのがポイントだ。一方、vSANの場合は、ハイパーバイザーを介してシステムリソースにアクセスする。選定していた2017年ごろ、vSAN構成にするにせよ、ストレージが別途必要だったりして、サーバ台数は相変わらず多いんだね、とかといった理由で、Nutanixを採用した条件の1つでもある。
サーバー台数の圧縮
2013〜2018年の仮想化環境は最終的にホスト3台(vSphere Essentials Plus Kit は最大3台まで)に、管理サーバであるvSphereが1台。ストレージが7台。これで2Uサーバが11台の22Unit消費。これにFc(光ファイバチャネル)が冗長化するために2台分で2Unitで、24Unitという構成だった。この24Unitに対し耐えられるUSPのうち、ビル内のラックに収納できるものがなく、ホスト向け・vSphere向け・ストレージ向け・HUB類(Fc・L3とか)向けに分けざるを得なかった。UPSはシュナイダーが使い勝手が良いので、それを選ぶとUPS 4台なので8Unit。合計 30Unitとなる。事務所サーバルームの天井高さが低いため、32Unitサーバラックすべてを消費するという構成だった。
このフルラック1基に対し、通常更新なら、もう1基ラックをたてれば良い話だが、サーバルームのスペースも限られ、ラック増設はできない状況。いかに小さくするか、というのが議論となった。当時、調査期間中に、vSANの一体型アプライアンスが無かったような気がしており、vSANを利用す流にあたって、ホスト最低2台・vSphere管理サーバはVM上で稼働させるものの、別途ストレージを立てる構成で、最低でも3台6Unitが必要だったと思う。
一方、Nutanixは、わずか2Unitで4ノードが利用できるHCIの凄さに感動し、採用した覚えがある。しかも、わずか2Unitで当社が必要とするストレージ容量20TB以上が利用でき、かつ、SSD・HDDとのハイブリッドで高速処理ができるという魅力で採用したのも1つだ。
まとめ
この回では、仮想化システムを導入したが、停電がある環境では寿命が縮まることを経験したことを伝えた。また仮想化システムを利用する場合、ラック占有率が高いことも伝えた。仮想化システム更新時は、タイミングの問題だったけれども、コンパクトサイズは出ていなかった頃だった。