Green500 上位の PEZY のコンピュータは冷却電力を含めた総消費電力において省電力性能が劣る
2019年2月3日追加
2018年11月の Green500 で,冷媒を循環する電力を演算電力に加えたレベル3で Shoubu system B は測定されました.冷媒を冷却する電力は除外されていることなど,記事「Green500 レベル3の電力だけでは PEZY Shoubu system B は熱で壊れてしまう」で説明しました.
追加ここまで
PEZY のスーパーコンピュータは,省電力性能に関するスーパーコンピュータのリスト Green500 に掲載されています.しかし,その PEZY のコンピュータが省電力性能に優れているとは限らず,実際はむしろ省電力性能が劣っています.その理由は Green500 では冷却電力が除外されていて,冷却電力の値がまったく公表されていないことにあります.
PEZYグループ、国内1位のLINPACK性能と世界1位のGreen500性能を達成から引用します(強調は引用者による).
また、Green500では冷却の電力はサーバ電力には含まれないが、フロリナート液浸冷却によりチップのジャンクション温度が下がり、リーク電流が減るという効果も低電力化に貢献している。
ExaScaler の用いる液浸冷却の電力は Green500 の順位に影響しないため,冷却電力が多く使われたとしても Green500 の上位に入ることが可能です.
実際,PEZY Computing, ExaScaler のコンピュータは,密行列計算 (HPL) において,ほぼ同じ計算性能を示すPEZY/ExaScaler のコンピュータ Gyoukou (19.14 PFlops, 5MW) は産業技術総合研究所の ABCI (19.88 PFlops, 2.3MW) の2倍以上の電力を必要とします.
この記事では,冷却電力を含めた総消費電力について,(a) 密行列演算と一般の演算の消費電力の比率,(b) 電力使用効率 PUE,の2点について推定値を求めた上で比較します.
以下では説明のために,(一般の演算の消費電力)/(密行列演算の消費電力)という比率を演算消費電力比と呼びます.(実アプリケーションと相関の低い)密行列演算に特化して省電力性能を上げたコンピュータほど,この値が大きくなり,実際には省電力になりません.この演算消費電力比という定義は,PEZY Computing が冷却電力の値を公表しないためにこの記事で導入したもので,通常の省電力性能の議論には使われません.
この記事で推定した限りでは,他の省電力性能に優れるスーパーコンピュータと比べて,(1) 演算消費電力比が同程度ならば冷却電力(PUE)が非常に大きくなり,省電力性能は低い, (2) 冷却電力が同程度(PUEが同じ値)ならば演算消費電力比が非常に大きくなり,実用において省電力性能は低い,といずれの場合も Gyoukou の省電力性能に否定的な結果となりました.
冷却電力を含む総消費電力に関する情報が明らかにされていないため,製造した PEZY Computing, ExaScaler,または設置場所を提供している理化学研究所, 高エネルギー加速器研究機構が情報を公開しない限り,本当に省電力性能に優れているのかは不明です.冷却電力の値を公表することなく,Green500 の順位だけで PEZY Computing のコンピュータの省電力性能が高いと結論付けるのは,科学的議論からかけ離れた行いです.
これまで省電力性能の重要性を強調してきたにもかかわらず,冷却電力を含む総消費電力や平均消費電力の情報を公開していないのは不思議でなりません.Gyoukou の最大消費電力が公表されたのは,開発中止に伴う引き取り先を探すのに止むを得なかったためであり,冷却電力を含めた消費電力の省電力性について,これまで公式の説明はありません.
これは PEZY Computing, ExaScaler だけの問題に留まりません.総消費電力では省電力ではないが Green500 では上位に入るように工夫された,実用アプリケーションには適さないコンピュータを肯定的に評価することは,実用アプリケーションを扱えて,省電力性能の高いスーパーコンピュータを開発している人たちの努力をないがしろにするものです.その人たちの真摯な努力を軽視することは,科学技術の計算基盤を担うインフラとしてのスーパーコンピュータを開発する人たちのやる気を削ぐことになり,その結果,科学技術のインフラの弱体化,延いては国内の科学技術の衰退に直結します.
電力使用効率 PUE (Power Usage Effectiveness)
冷却電力は,スーパーコンピュータやデータセンターなどの省電力性能を考えるうえで重要な要素です.冷却電力を含む省電力性能の指標として PUE と呼ばれる電力使用効率があります(用語解説(PUE とは) ,PUE とは).
PUE = (施設全体の消費電力)/(IT 機器の消費電力)
= 1+((IT機器以外の消費電力)/(IT 機器の消費電力))
PUE の値が 1 に近づくほど,冷却電力など IT機器を利用する以外の消費電力が節約されています.例えば,Google のデータセンターは PUE が 1.1 前後であると報告されています.また,Wikipedia では,PUE が 1.2 を切るデータセンターがいくつか紹介されています.
残念ながら,PUE も Green500 と同様に,万能の指標ではありません.ここではその特徴を3つ説明します.
1つは,PUE は(3か月や1年といった)長期間における消費電力に基づく指標であり,実際に使われた電力から求められる値であることです.演算対象が限定されないので,ベンチマークテスト用に最適化してスコアを上昇させることは困難です.その一方で,利用されないコンピュータであれば,省電力性を発揮する特定の演算だけを繰り返すことで,PUE の数字を下げることも原理的には可能です(一般のスーパーコンピュータはユーザからの多様なジョブを処理するので,意図的に PUE を下げる操作は現実的ではありません).
もう1つは,IT機器の消費電力が削減(節電)され,IT機器以外の消費電力が同じならば PUE の値は増加(悪化)することです.このため,PUE だけでなく総消費電力などもあわせて参考にする方が,省電力性能を考えるうえで有効でしょう.
3つ目の特徴は,冷却に必要な電力はコンピュータの設置場所に依存するため,PUE は設置場所に影響される可能性があることです.同一構成のデータセンターを寒冷地と温暖地の2か所に設置すれば,(冷却の電力がより必要な)温暖地のデータセンターの PUE が大きく(悪く)なる可能性があります.前に示した Google のデータセンターでは,シンガポールが最も高い PUE = 1.16 になっています(アメリカの南寄りのオクラホマが,北欧フィンランドよりも低い PUE = 1.08 を達成することもあります).PUE を下げる設置場所を選ぶことは総消費電力を抑えることになるため,この特徴は利点とも考えられます.
ベンチマーク順位とPUE, 消費電力の比較
ベンチマーク順位とPUE, 電力量の関係を次の表に示します.表に用いた数字は,この記事の最後に示す情報を基にしています.
PEZY Computing のコンピュータで,冷却電力を含む総消費電力の情報があるのは,Gyoukou だけです(撤去に伴い,新たな設置場所を募集する際に「全体の消費電力が5メガW」だと公表されました).
冷却電力を含めた Gyoukou の省電力性能
Gyoukou の最大総消費電力 5MW, HPL ベンチマークの電力 1,350kW を,日本国内の省電力性能に優れたスーパーコンピュータ Oakforest-PACS, TSUBAME3.0 の値と比較します.Gyoukou における冷却電力の値が公表されていないため直接の比較は不可能ですが,PUE,演算消費電力比の一方が Oakforest-PACS と同程度であると仮定したときのもう一方の値を推定することで,Gyoukou の(Green500 以外を基準とする)省電力性能を他と比較します.以下に示す推定値が省電力性能について低い値になったことから,冷却電力を含む総消費電力においては,Gyoukou は省電力性能は低いと考えられます.
1. PUE の推定(演算消費電力比が同程度と仮定)
Oakforest-PACS, TSUBAME3.0 のどちらも,HPL ベンチマークの消費電力よりも平均電力は大きいため,最大電力も HPL ベンチマークの消費電力より増加します.省電力性能が優れているなら,その増加である演算消費電力比は同程度であるべきです.そこで Gyoukou において演算消費電力が HPL ベンチマーク以外でも優れていると仮定します.
冷却電力を除く最大消費電力と HPL ベンチマークの電力の比率が,Oakforest-PACS と Gyoukou で同じならば,
3440 : 2719 = a : 1350
から,Gyoukou の(冷却電力を除く)最大消費電力は a = 1708.0 (kW) と推定されます.Gyoukou の最大消費電力が 5,000kW なので,Green500 で考慮されていない冷却電力は 3292.0 kW と推定されます.よってこの仮定における Gyoukou の推定 PUE は 2.92 になり, Oakforest-PACS, TSUBAME3.0 より大幅に省電力性能が低いと推定されます.
2. 演算消費電力比の推定(PUE が同程度と仮定)
Gyoukou の省電力効率が最大消費電力でも保たれているなら,PUE も同程度になるはずです.ここで,Gyoukou, Oakforest-PACS, TSUBAME3.0 のいずれも関東地方に設置されている(いた)ため,設置場所の違いによる PUE への影響はないと考えます.
そこで, Gyoukou の最大電力における PUE が Oakforest-PACS と同じ 1.23 だと仮定します.このとき冷却電力を除いた Gyoukou の最大消費電力 a は
5000/a=1.23
から a = 4056.6 (kW) と推定されます.この消費電力は HPL ベンチマークの消費電力のおよそ3倍(演算消費電力比率が 3)にあたります(Oakforest-PACS は 1.27 倍しか増加しません).つまり,Gyoukou では密行列を計算する HPL では消費電力が少ないが,それ以外の計算をさせたときの省電力性能は3倍まで増加する可能性があります.
TSUBAME3.0 の PUE = 1.033 と Shoubu の PUE が同程度になると仮定すると,冷却電力を除いた Gyoukou の最大消費電力は HPL ベンチマークの消費電力の3.58倍まで増加し,密行列以外の演算での Gyoukou の省電力性能はさらに低くなると推定されます.
実際の Gyoukou の省電力性能は2通りの推定値の間のどこかにあります.取りうる値を表すグラフを次に示します.
この結果から,Gyoukou の Green500 における好成績は,冷却電力を含めないルールに過剰に適合した結果であり,実際の省電力性能を保証するものではないと考えられます.
Gyoukou と同一のプロセッサ,液浸冷却により Green500 で1-3位となった Shoubu system B などについても,同様の議論は成り立ち,冷却電力を含めた総消費電力の省電力性能は保証されない,と考えられます.冷却電力を含めた総消費電力の値が理化学研究所などから公表されることが,実際の省電力性能を判断するために不可欠です.
まとめ
Gyoukou の最大電力の値を基に,冷却電力と(密行列演算以外の)演算消費電力を推定しました.その結果,PEZY Computing, ExaScaler のコンピュータが Green500 で上位なのは冷却電力を除外するルールによるもので,冷却電力を含めた総消費電力に対する省電力性能では,他のスーパーコンピュータに遠く及ばないことを説明しました.これは,Green500 上位という情報だけでは省電力性能に優れているかは明らかでなく,冷却電力を考慮すれば省電力性能が低いと考えられるため,冷却電力を含めた総消費電力などの情報が省電力性能の評価に不可欠であることを示しています.
比較対象とした Oakforest-PACS, TSUBAME3.0 は Green500 だけでなく,PUE, 冷却電力を含む総消費電力についても省電力性能が示されていて,多様な指標で確かめてもバランスよく省電力性能が高められていることがわかります.一方,Gyoukou は公表している Green500 以外の指標では省電力性能は低いと推定され,Green500 のルールに過剰に適合しているものの実際に密行列以外を演算させたときには省電力性能が低いと思われます.
Oakforest-PACS, TSUBAME3.0 は研究開発の計算資源として利用されているため,それらと Gyoukou などが省電力性能について同程度であったとしても,実用性の点から Oakforest-PACS, TSUBAME3.0 が遥かに優れています.
省電力性能がスーパーコンピュータの指標として重要であり,PEZY Computing, ExaScaler のコンピュータが省電力性能に優れていると主張するのならば,総消費電力,平均消費電力(含冷却,除冷却)を公式情報として既に発表していて当然に思えますが,関連情報がほとんど示されていないのは不思議です(Oakforest-PACS, TSUBAME3.0 は公式に情報を示しています).
ただ,PEZY Computing, ExaScaler のコンピュータは計算資源としては,無料で待ち時間なしでも(実アプリケーションを用いた) 研究に使われていないため,平均消費電力よりも,冷却電力を含む最大消費電力の方が参考になると思われます.
消費電力などに関する情報源
HPL ベンチマークの消費電力
Gyoukou https://www.top500.org/system/179102
Shoubu https://www.top500.org/system/178809
Shoubu system B https://www.top500.org/system/179165
Oakforest-PACS https://www.top500.org/system/178932
TSUBAME3.0 https://www.top500.org/system/179093
Gyoukou
最大消費電力 世界4位のスパコン「暁光」撤去へ 移設場所を募集(登録不要)
Oakforest-PACS
平均消費電力 Site Update for Oakforest-PACS at JCAHPC (PDF) 12ページ
最大消費電力 日本のスパコン「Oakforest-PACS」と「Reedbush」の電力測定手法
TSUBAME3.0
PUE, 平均電力 東工大 Tsubame3.0 の概要 (PDF) 22ページ