Green500 1位 PEZY Shoubu system B は電力あたりの平均演算性能で上位10%に入らない

2019年2月3日 23:17

電力あたりの HPL (high performance LINPACK) 演算回数で順位付けされる Green500 が更新されました．その結果をもとに，PEZY Computing のコンピュータ Shoubu system Bが電力あたりの平均演算性能では上位10% に入らないことを示します．これは，Shoubu system B（をはじめとする PEZY Computing のコンピュータ）が密行列演算以外の計算では電力当たりの性能が落ちる偏った設計になっている実例です．

Shoubu system B を稼働させるのに必要な電力を Green500 レベル 3 ではカウントしていない問題もあります．その問題については別の記事にまとめました．

平均効率による比較

Green500 で使われている HPL だけでなくメモリ性能を測定するベンチマークも必要だ（例えば Top500 のパネルディスカッション），という意見があります．一方，メモリ性能のベンチマークである HPCG は有害だという牧野淳一郎氏の意見もあります．

そこで，その2つの平均を取った値で，電力効率を比較します．平均は HPLとHPCGの幾何平均とする安藤壽茂氏の案

Dongarra先生はHPLとHPCGはブックエンドの両端と言っており、筆者の勝手な推測であるが、将来的にはTO500（原文ママ）がHPLとHPCGの幾何平均でランキングされるということも起こり得るのではないであろうか。

に基づきます．幾何平均は対数変換された値の相加平均に対応するので，対数軸でグラフ化されることの多い演算回数に関する平均として自然なものです．

また，HPCG に基づく電力当たりの演算効率 Green HPCG の記事を参考にしました．Green HPCG に Shoubu system B を（十分に有利な）推定値を使って入れると12位（上位20%）以下になります．

以下では，1. 代表的なもの（Sunway TaihuLight, ABCI 以外は Green500 レベル 3 で電力を測定）と 2. HPCG と消費電力の両方を提出した58台，の2通りを対象に比較します．

1. 代表的なシステムの比較

ABCI は電力についてレベル 1 の測定を提出していて，冷却電力が不明のため，PEZY Computing に有利になるような 2つの推定値(a), (b) を用います．(a) は，最適化する前の電力に PUE （冷却電力を含めた総電力と演算電力の比率）よりも大きい 1.2 を掛けた値を全体の電力とします．(b)は，ABCI の総電力 2.3MW を使い，電力あたりの効率としての下限値を求めます．

一方，Shoubu system B は HPCG の値を提出していません．このため，メモリバンド幅について Shoubu system B (B/F = 0.02) [T+18] より大きい
Sunway TaihuLight (F/B = 22.4, B/F = 0.044) [D16] の HPCG/HPL の比率を Shoubu system B の推定上限値として使います（これはメモリバンド幅に関するベンチマークの値を，メモリバンド幅について Shoubu system B より良い TaihuLight を使って推定しているので， Shoubu system B にとって有利な推定値で，実際の値はこれを下回るでしょう）．この比率により HPCG の推定上限値は 1,063.3 x 0.005 = 5.3165 (Gflop/s) になります．

電力の値については，本来は HPL と HPCG では違う値になりますが，データがないため，Green HPCG のように同一値と仮定しています．HPL ではプロセッサはフル稼働，メモリがほぼ待機に対して，HPCG ではプロセッサがほぼ待機，メモリはフル稼働と考えれば，電力が同一であるという推定はおおざっぱな近似とみなせます．

この表の4列目が HPL にもとづく電力効率 (Green500) を表す値で，Shoubu system B が最も高い数字を出しています．一方，7列目の HPL と HPCG の平均にもとづく電力効率の値では，Shoubu system B は Sunway TaihuLight の次に低い値になっています．そして，ABCI が総電力を使い切ったときの電力当たりの効率 (b) よりも，Shoubu system B の上限値は低く（効率が悪く）なっています．

このように， Shoubu system B（をはじめとする PEZY Computing のコンピュータ）はメモリ性能が重点的に必要なアプリケーションだけでなく，プロセッサとメモリへの負荷が半分ずつのアプリケーションでも電力当たりの効率が落ちると予測されます．

一方，他のスーパーコンピュータは，実際のアプリケーションでの性能を考慮している（と思われる）ため，電力当たりの HPCG の性能は Shoubu system B より高く，結果平均演算効率では Shoubu system B を上回ります．さらに，平均よりもメモリ性能を必要とするアプリケーションでは，Shoubu system B の電力効率はさらに落ちることになります．

演算に特化してメモリ性能が低いコンピュータ (Shoubu system B) を，演算とメモリの両方の性能を持つスーパーコンピュータ (Summit) と比較するときに，メモリ性能が影響しないベンチマーク (HPL) で効率を測定すればメモリ性能が低いコンピュータ (Shoubu system B) が有利です．有利な Green500 レベル3での電力当たりの演算効率が良くても，平均で演算効率が落ちてしまうのなら，実用上の価値は非常に薄れます．このため Green500 での Shoubu system B 1位に実際的な意味はありません．

2. 平均効率順位（2018年11月）

HPCG と消費電力の両方の値を提出した58台を，平均効率（([HPL] x [HPCG]) ^(1/2) / [電力]）の順番に並べたのが，次のリストです．多くのシステムが消費電力を Green500 レベル1 で測定しているため，レベル3測定の Shoubu system B に不利な比較とならないよう，Shoubu system B の電力はレベル1の参考測定値（55.6kW）を使いました．このため，上に示した平均効率の値 1.266 以下よりも高い平均効率の推定上限値（1.352）になっています．

[平均効率順位] [Top500 順位] [HPCG 順位] [平均効率 (GFLOPS/W)] [HPCG 演算効率 (GFLOPS/W)] [名前（2017年11月以後開始なら太字）]
001 001 001 2.094462 0.299064 Summit
002 411 054 1.969170 0.326818 MareNostrum P9 CTE
003 007 005 1.928494 0.308536 ABCI
004 002 002 1.752581 0.241409 Sierra
005 022 016 1.562919 0.238132 TSUBAME3.0
006 015 014 1.380276 0.205963 HPC4
007 005 006 1.362365 0.208442 Piz Daint
008*374 N/A 1.352284 0.095620 Shoubu system B （HPCG 推定上限値）
008 051 035 1.351044 0.192909 DGX Saturn V
009 014 009 0.840780 0.141787 Oakforest-PACS
010 243 048 0.678418 0.114422 JOLIOT-CURIE KNL
011 016 011 0.628825 0.105022 Tera-1000-2
012 012 010 0.566617 0.090236 Cori
013 091 049 0.558086 0.073895 ATERUI II
014 025 021 0.544965 0.074903 MareNostrum
015 204 036 0.530210 0.110941 Astra
016 040 041 0.504697 0.057452 JOLIOT-CURIE SKL
017 033 024 0.451798 0.063199 Electra
018 006 004 0.437841 0.072066 Trinity
019 003 007 0.435088 0.031282 Sunway TaihuLight
020 361 057 0.413232 0.055580 Falcon
021 044 034 0.377944 0.050801 JURECA
022 036 025 0.374327 0.050538 Cheyenne
023 063 026 0.362999 0.062596 Fujitsu PRIMEHPC FX100
024 056 023 0.356892 0.066667 SORA-MA
025 084 031 0.335229 0.058845 Plasma Simulator
026 089 050 0.333367 0.042567 Prolix2
027 090 051 0.332631 0.042577 Beaufix2
028 062 045 0.326526 0.039521 Mistral
029 246 055 0.322252 0.043073 Cobalt
030 055 043 0.321787 0.039853 HPC2
031 069 032 0.321337 0.051855 TSUBAME 2.5
032 131 046 0.319785 0.049450 Prometheus
033 021 018 0.303588 0.042344 Mira
034 010 012 0.301891 0.041872 Sequoia
035 039 028 0.298845 0.041021 Vulcan
036 271 056 0.298229 0.039548 Graham
037 212 060 0.296497 0.025898 Endeavor
038 009 013 0.290059 0.039264 Titan
039 032 022 0.280180 0.040179 Shaheen II
040 092 047 0.279972 0.037727 Tianhe-2 LvLiang Solution
041 230 059 0.277726 0.030716 Sid
042 043 037 0.267863 0.034505 Cray XC40
043 042 038 0.267863 0.034505 Cray XC40
044 105 052 0.246248 0.033770 Tera-1000-1
045 030 020 0.244045 0.038172 Hazel Hen
046 077 044 0.235536 0.031800 occigen2
047 027 017 0.231695 0.039750 Pleiades
048 034 019 0.223398 0.039202 Pangea
049 253 040 0.222914 0.048788 iDataPlex DX360M4
050 360 058 0.206189 0.027574 Cartesius 2
051 018 003 0.198808 0.047609 K computer
052 416 061 0.169158 0.015514 EAGLE
053 064 027 0.143526 0.024337 SuperMUC
054 231 042 0.123466 0.023914 Curie thin nodes
055 186 029 0.110180 0.024436 ARCHER
056 134 030 0.096271 0.020987 Edison
057 487 062 0.014163 0.000622 Lomonosov

Shoubu system B を HPCG の上限推定値をもとにリストに加えると，8位相当になり，上位10%（6台）に入りませんでした．HPCG の上限推定値で8位ということは実際の HPCG の値ではより下位になること，8位以下の多くは Shoubu system B よりも古くから稼働しているシステムのため性能が不足していることに注意が必要です．

さらに，電力あたりの HPL と HPCG について，1位の値を 100 として正規化した値を，平均演算効率で1位から10位までのシステムに Shoubu system B を加えてグラフ化します．

Shoubu system B 以外はすべて HPCG 側に少し増える程度でほぼ同じ比率になる傾向があります．Shoubu system B だけは HPCG 側で大幅に比率が減っています．この結果から，Shoubu system B 以外は，演算性能とメモリ性能のバランスを取ってつくられていることがわかります．メモリ性能が要求される問題ほど，Shoubu system B での電力当たりの効率が急激に落ちる一方，上位10システムは電力当たりの効率は変化しません．

Shoubu system B を除外すれば，Green500 の順位から，電力あたりの平均演算効率やメモリ性能を必要とするときの効率を推測できるので，Green500 は多くのスーパーコンピュータにとって電力当たりの効率の指標の1つになっています．しかし，Shoubu system B のように演算性能とメモリ性能のバランスが偏っているコンピュータにとって，Green500 の成績は平均演算効率などにつながらず，実用上の電力効率を保証しません．

電力効率の観点からも，Shoubu system B は密行列演算といった演算性能のみを重視する問題以外には向いていないことが示唆されます．

条件の付いた電力あたりの演算効率

測定電力の範囲や計算対象の違いは次の表にまとめられます．

演算性能を見る HPL を使って消費電力（＋循環電力）までの効率を表すのがGreen500 レベル1（レベル3）でした．システムを動かすのに必要な全電力あたりの効率は PUE が指標になります．Green500 はレベルに関係なく，メモリ性能を見る HPCG や演算性能とメモリ性能の平均を対象とした電力効率を測定していません．上の表の空欄部分と1行目の右がその Green500 で測定していない部分にあたります．このため，メモリ重視の演算だけでなく平均的な演算に対する電力効率であっても，Shoubu system B のような前のグラフで偏りを示すコンピュータでは Green500 の順位は省電力性能の参考になりません．

まとめ

実用的なスーパーコンピュータの電力当たりの性能を比較する観点から，演算性能とメモリ性能の両方を考慮した電力当たりの演算性能として，電力当たりの平均演算効率を計算しました．そしてPEZY computing/ExaScaler の Shoubu system B（Green500 1位）が，非常に有利な推定上限値を使っても，平均演算効率では上位10%に入らないことを示しました．

このような平均演算効率を考える上でも，Green HPCG は非常に参考になる値なので，電力測定も行った Green HPCG が今後記録されていくとすれば，スーパーコンピュータの性能評価の1つとして参考になるでしょう．PEZY Computing のプロセッサによる HPCG の値が公表されていないのは残念です．

参考文献

[D16] J. Dongarra (2016) Report on the Sunway TaihuLight System. University of Tennessee, Department of Electrical Engineering and Computer Science
Tech Report UT-EECS-16-742. PDF
[T+18] H. Tanaka et al. (2018) Automatic Generation of High-Order Finite-Difference Code with Temporal Blocking For Extreme-Scale Many-Core Systems. The 4th International IEEE Workshop on Extreme Scale Programming Models and Middleware (EPSM2). archive, PDF

この記事が気に入ったらサポートをしてみませんか？