見出し画像

AI Search Engine 多言語評価レポート

一、要旨

ChatGPTの登場に伴い、対話型検索エンジン技術は急速に注目を集めるようになりました。Perplexity、iAskのような汎用的な質問応答型検索エンジンや、特定の垂直分野に特化した検索ソリューションが市場に登場しています。

私たちは、このような対話型検索製品が直接的な回答を提供する点で、従来のキーワードベースの検索やユーザー自身が情報を閲覧する検索エンジンと比べて著しい優位性を持ち、検索技術の発展における破壊的なパラダイムになる可能性があると考えています。しかし、実際の使用過程では、いくつかの問題点にも気付きました。特に、回答の正確性と信頼性の面で課題があります。不正確な回答や、ユーザーのクエリと無関係または無意味な「幻覚的な回答」が頻繁に現れ、ユーザーエクスペリエンスに深刻な影響を及ぼしています。

世界中のユーザー層の言語の多様性を考慮し、私たちの評価レポートでは、英語、日本語、簡体字中国語、ロシア語、繁体字中国語など、複数の言語を選択し、これらの質問応答型検索エンジン製品の正確性に関する予備的なテストと評価を行いました。

本レポートでは、評価方法、テストプロセス、および得られた結論について詳しく説明します。私たちの目的は、開発者、研究者、およびエンドユーザーに対して、これらの質問応答型検索エンジンが異なる言語環境でどのようなパフォーマンスを示すのかを理解し、現段階での限界と改善の方向性を示すための包括的なパフォーマンス評価を提供することです。

今回の質問応答型検索エンジンの総合的なパフォーマンス評価により、以下の主要な発見が得られました。

全体的に、評価対象の各製品のパフォーマンスは、私たちの期待するレベルに達していませんでした。しかし、主に中国市場にサービスを提供している企業であるMetaso(秘塔)が、わずかな優位性でPerplexityを上回り、評価全体で最も優れたパフォーマンスを示したことは注目に値します

すべての製品のデータ分析結果を総合すると、英語の質問に対する回答の正確率が最も高いことが示されました。対照的に、ロシア語の質問に対する正確率が最も低く、日本語の質問に対する正確率も比較的低いことが分かりました。


言語別の詳細なパフォーマンスでは、Perplexityが英語の質問への回答で大きくリードしており、簡体字中国語のパフォーマンスも非常に優れていました。Metasoも簡体字中国語と繁体字中国語のパフォーマンスが目覚ましいものでした。しかし、この2社は他の言語ではいずれも合格レベルに達していませんでした。iAskの能力は各言語で比較的バランスが取れていましたが、全体的には中程度のレベルでした。You.comは英語の質問への回答のみ良好なパフォーマンスを示しました。

注1:今回の評価では、各製品とも無料版(Metasoは研究モードを選択)を選択しました。Pro版の評価は後日実施する予定です。
注2:今回の評価では、回答の正確性にのみ焦点を当て、返答言語やフォーマットなどの他の側面は無視しています。

二、製品の選択

今回の質問応答型検索エンジンのパフォーマンス評価を行うにあたり、私たちは aicpb.com のウェブサイトが提供するAI検索エンジン分野のリーディング製品リストを参考にしました。従来のキーワード検索エンジンを除外した後、市場で最も優れたパフォーマンスを示す4つのAI質問応答型検索エンジン製品を評価対象として慎重に選択しました。

これらの製品は業界のリーダーと見なされており、その技術と市場でのパフォーマンスは現在のAI検索エンジンの最高レベルを代表しています。私たちの評価は、これらのトップ製品のパフォーマンスを詳細に分析することを目的としており、特にユーザーのクエリを理解し回答する能力、および異なる言語のクエリを処理する際の正確性と信頼性に焦点を当てています。

上記の4つの製品の具体的な情報は以下の通りです(aicpb.com の統計を参照)。
ランキング 製品名 分類 3月でアクセス 前期比
2 Perplexity AI Search Engine 64.14M 25.17%
3 You.com AI Search Engine 10.44M 14.61%
5 Metaso AI Search Engine 7.21M 551.36%
7 iAsk AI Search Engine 3.43M 15.43%

三、評価データ

上記のAI質問応答型検索エンジン製品の多言語環境でのパフォーマンスを包括的に評価するため、私たちは英語、日本語、簡体字中国語など6つの主要言語を選択してテストを行いました。多言語のテストケースの分布は以下の通りです。

評価言語 割合
英語 20%
日本語 20%
簡体字中国語 20%
繁体字中国語 20%
ロシア語 10%
韓国語 10%
合計 100%
本次評価では、ユーザーが日常生活で遭遇する可能性のあるクエリニーズをシミュレートするため、リアルタイムニュースの取得、ローカル情報の検索、技術的問題への回答、製品の特徴に関する問い合わせ、およびビジネスコンサルティングの5つの異なる使用シナリオを特別に設計しました。

シナリオ 評価のポイント ケース数 割合
技術コンサルティング 専門的な技術的問題を理解し回答する能力を評価 20 20%
最新ニュース リアルタイム情報を追跡・処理し、最新のニュースイベントを提供する能力を評価 20 20%
ローカル情報 ローカル(レストラン、店舗、観光地、交通機関など)の情報検索を評価 20 20%
製品問い合わせ 正確で有用な製品情報を提供する能力を評価 20 20%
ビジネスコンサルティング ビジネス分野における専門的な情報分析と検索の能力を評価 20 20%
合計 100 100%
これら5つのシナリオはよくあるクエリタイプの範囲をカバーしていますが、ユーザーのすべての潜在的なニーズを完全にカバーできない可能性があることを認識しています。そのため、今後の評価では、テストセットを継続的に拡張し、より多くのカテゴリとシナリオを導入することで、評価が製品の実際のパフォーマンスとユーザーエクスペリエンスをより包括的に反映できるようにする予定です。

テストケースは、以下のようにオープンソース化されています。コーパス:

四、評価方法と結果

テスト方法
正確率:手動で評価
実際の回答とGround truthおよびKey wordsを比較します。一致する場合はTrue、そうでない場合はFalseとします。
Answer Correctness: GPT-4による採点
Ragasプラットフォームの回答正確性指標を採用し、評価モデルにはGPT-4-Turboを使用します。回答の正確性の計算式は以下の通りです。

指標説明:

評価指標
評価指標 評価の定義 長所 短所
Accuracy 人手でGround truthとkey wordsに基づいて実際の回答を評価 評価の精度が高い 評価の作業量が大きい
Answer correctness GPT-4がGround truthと実際の回答を比較 評価の作業量が少ない 評価の質が一般的
要約では既に正確率の評価結果が提供されているため、回答の正確性の評価結果は以下の通りです。

正確率 AC
Perplexity 65% 65.22%
Metaso 66% 62.7%
iAsk 60% 62.27%
You.com 34% 58.27%

五、事例分析

最新ニュース

Question:最近の埼玉県行田市事故の死傷者数は何人ですか?

Ground truth:最近の埼玉県行田市の事故での死傷者数は以下の通りです:\n死亡者数: 1人\n負傷者数: 3人

Comment: Perplexity, You.comは関連する結果を検索できませんでした。Metasoが答えた結果は、基本的にGround truthと一致しています。iAskの回答は英語ですが、説明と回答の出典は正しいです。

ローカル情報

Question:進撃の巨人はいつ発行されましたか?

Ground truth:「進撃の巨人」は、諫山創による日本の漫画作品で、2009年9月9日に発行が開始されました。そして、2021年4月9日に連載が完結しました。最新刊(34巻)は2021年6月9日に発売されました⁵。この作品は世界中で非常に人気があり、多くの派生作品が生まれています。

Comment: 「進撃の巨人」の発売日に関する質問に答える中で、PerplexityとiAskの回答時間はどちらも正確でしたが、Perplexityはさらに詳細な情報を提供しました。一方、MetasoとYou.comの回答は正確ではありませんでした。Perplexityの回答は、情報収集と処理の面での優位性をより明確に示しています。

技術コンサルティング

Question:Anthoropic Claude のデータポリシーは?

Ground Truths:ユーザーの個人データは、モデルのトレーニングに使用されないため、ユーザーデータを利用してモデルを構築することはありません。

Comment: Perplexityの回答は問題と関係がなく、正しく答えていません。Metasoの回答が最も正確で、Anthoropic Claudeのデータポリシーについて詳しく説明しています。iAskの回答はGround Truthsには含まれていませんが、参照した情報源を確認したところ、その回答が正しいことが確認されました。You.comは関連情報を見つけられませんでした。

製品問い合わせ

Question:갤럭시 S24의 화면 해상도는 어떻게 되나요?

Ground Truths:갤럭시 S24 기본 모델의 화면 해상도는 2340 x 1080 픽셀입니다

Comment: Perplexityは存在しない解像度を示しており、iAskはより高い解像度を提供していますが、実際には間違っています。You.comの回答も正しくありません。Metasoが最も良いパフォーマンスを示し、正確な解像度と異なるモデルに関する追加情報を提供しています。

Comment:Metasoは直接に正しい答えを出しましたが、PerplexityとiAskは自分の検索プロセスを説明しているようで、実際の問題を解決していません。You.comの回答には何の役にも立つ情報が含まれていません。

詳細内容:
https://news.felo.me/2024/05/ai-search-engine-%E5%A4%9A%E8%A8%80%E8%AA%9E%E8%A9%95%E4%BE%A1%E3%83%AC%E3%83%9D%E3%83%BC%E3%83%88/

六、結論(Conclusion)

今回の評価では、市場をリードする4つのAI質問応答型検索エンジン製品について、英語、日本語、簡体字中国語など6つの言語環境で、リアルタイムニュース、ローカル情報の検索、技術的問題、製品の特徴、ビジネスコンサルティングの5つのシナリオを対象に深層的な多言語パフォーマンス分析を行いました。その結果、以下の結論が得られました。

全体的なパフォーマンス:評価対象のすべてのAI質問応答型検索エンジン製品は、ある側面では潜在的な能力を示しましたが、全体的なパフォーマンスは期待されるレベルに達しませんでした。MetasoとPerplexityはテストで明らかにリードしていましたが、まだかなりの改善の余地があります。
言語の正確性:英語の質問に対する回答の正確率は、他の言語よりも全般的に高く、ロシア語と日本語の正確率は低くなっており、言語間の処理能力はまだ課題であることが示されました。
製品固有のパフォーマンス:Perplexityは英語の質問への回答で優れたパフォーマンスを示し、Metasoは簡体字中国語と繁体字中国語の処理で際立っていました。iAskは各言語で比較的バランスの取れたパフォーマンスを示しましたが、You.comは英語以外のクエリにはほとんど使用できませんでした。
将来的には、評価テストセットを拡張し、より多くの言語とクエリシナリオを追加することで、より包括的で詳細なパフォーマンス評価を提供する予定です。技術の進歩とデータセットの充実により、AI質問応答型検索エンジンは世界中のユーザーの多様なニーズにより適切に対応できるようになり、将来の検索技術でより重要な役割を果たすことができると私たちは信じています。

この記事が気に入ったらサポートをしてみませんか?