PromptCBLUE: A Chinese Prompt Tuning Benchmark for the Medical Domain

Ikemen Mas Kot

2023年11月1日 22:21

https://arxiv.org/abs/2310.14151

本研究の学術的背景、研究課題の核心は、人工知能応用における大規模言語モデル（LLM）のバックエンドが生み出すバイオメディカル言語理解のベンチマークです。この分野において最も重要な問題は、既存のベンチマークが英語に限定されているため、他の言語での成功を再現することが難しいこと、またはLLMがどのようにこれらの知識を応用して広範なバイオメディカルタスクを実行するかを評価することを軽視し、LLMのプリトレーニング段階で公開コーパスが漏洩してしまっていることです。
本研究の目的は、医療領域におけるLLMの研究を促進するために、PromptCBLUEという大規模なマルチタスクプロンプトチューニングベンチマークを構築することです。このベンチマークは、医療エンティティ認識、医療テキスト分類、医療自然言語推論、医療対話理解、医療コンテンツ/対話生成などの幅広いバイオメディカルタスクで、中国のLLMの多様な能力を評価するための適切なテストベッドとオンラインプラットフォームです。
本研究の着想は、医療領域でのLLMの研究を支援するために、中国のバイオメディカル言語理解評価（CBLUE）ベンチマークをPromptCBLUEという大規模なマルチタスクプロンプトチューニングベンチマークデータセットに再構築したことに由来します。関連する国内外の研究動向としては、英語に限定された既存のベンチマークや、LLMの知識探索に焦点を当てたベンチマークがあります。
本研究では、PromptCBLUEの医療エンティティ認識、医療テキスト分類、医療自然言語推論、医療対話理解、医療コンテンツ/対話生成などのタスクに対する9つの中国のLLMの実験結果を報告しました。これにより、商用およびオープンソースのモデルの能力を比較評価し、タスクにおける基準を確立しました。
本研究では、PromptCBLUEの評価によって、以下の有効性を検証しました：(a) OpenAIのChatGPTやGPT-4はパフォーマンスが低く、より小規模なスケールでのファインチューニングが依然として必要であること、(b) 思考連鎖プロンプティングや出力形式の設計が、PromptCBLUEの医療情報抽出タスクでLLMのパフォーマンスを向上させること、(c) 現時点では、医療領域でのさらなるプリトレーニングがLLMのパフォーマンス向上に大きな影響を与えないこと、これは以前のBERT時代とは異なる結果であることを明らかにしました。

この記事が気に入ったらサポートをしてみませんか？