Mixed-Precision Random Projection for RandNLA on Tensor Cores

ランダム投影は、データの構造を捉えながら次元を下げることができ、今日大量のデータを扱う機械学習、信号処理、情報検索などの基本ツールとなっている。RandNLA (Randomized Numerical Linear Algebra) は、ランダム投影を活用してテンソルの低ランク分解の計算量を削減し、最小二乗問題を解く。ランダム投影の計算は単純な行列の乗算ですが、その漸近的な計算量はRandNLAアルゴリズムにおける他の演算よりも一般的に大きくなります。そのため、様々な研究により、その計算量を削減する方法が提案されている。我々は、NVIDIA GPU上で、単精度テンソルのTensor Coreを用いた高速な混合精度ランダム投影法を提案する。ランダム行列の精度が低いことを利用し,FP32行列とFP16行列の間の高度に最適化された行列乗算法SHGEMM (Single and Half-precision GEMM)を開発し,ランダム行列がFP16で保存されているTensor Core上で実現する.本手法は、精度を維持しながら、ベースラインの単精度実装と比較して、Randomized SVDを1.28倍、Random projection high order SVDを1.75倍高速に計算することができます。

この記事が気に入ったらサポートをしてみませんか?