見出し画像

FIDとHPSの違いについて

テキストから画像を生成するモデルが注目を集めています。しかし、生成された画像の品質を評価するのは簡単ではありません。そこで重要な役割を果たすのが、FID (Fréchet Inception Distance) とHPS (Human Preference Score) という2つの評価指標です。

今回は、この2つの指標の違いについて解説していきます。

FIDとは?

FIDは、生成された画像と本物の画像の特徴量分布の距離を測定することで、生成画像の品質を定量的に評価する指標です。

具体的には、生成画像と本物の画像の特徴量をInception v3モデルで抽出し、それぞれの平均ベクトルと共分散行列を計算し比較します。FIDの値が小さいほど、生成画像が本物の画像に近いとみなされます。

ただし、FIDには

  • 画質のすべての側面を捉えきれない

  • 前処理に敏感である

  • 人間の知覚と必ずしも一致しない

などの限界があります。

HPSとは?

一方、HPSは人間の好みや判断に基づいて生成画像を評価する指標です。

生成画像の品質やテキストプロンプトとの整合性について、人間からフィードバックや評価を収集し、それに基づいてモデルの性能を評価します。

HPSモデルは人間によるラベル付けデータを用いて学習され、生成画像に対する人間の好みを予測しスコア化します。

これにより、FIDでは捉えきれない

  • 画像の不自然さ、不整合

  • アーティファクト(JPEGのブロックノイズなど)

などの細かな品質の側面を捉えることができます。

FIDとHPSの違い

FIDは事前学習済みのネットワークを用いて生成画像と本物の画像の特徴量分布を機械的に比較する指標であるのに対し、HPSは人間の判断や好みを収集し、それに基づいて学習されたモデルによって評価を行う指標だと言えます。

HPSはテキストから画像を生成するモデルをより人間の感覚に沿った形で評価することを目指しており、FIDの限界を補う役割を果たしています。

まとめ

FIDとHPSは、どちらもテキストから画像を生成するモデルの性能を評価するための重要な指標です。FIDは機械的な比較に基づく評価であるのに対し、HPSは人間の感覚により沿った評価を行うことを目的としています。

この記事が気に入ったらサポートをしてみませんか?