Self-Specialization: Uncovering Latent Expertise within Large Language Models

Ikemen Mas Kot

2023年10月9日 22:49

本研究の問いは、「大規模な言語モデルを専門分野（例：バイオメディカル）に特化させるための自己調整が、目的とする領域でのゼロショットやフューショット性能を向上させるのに有効であるかどうか」です。
本研究の目的は、大規模な言語モディルの一般的な調整ではなく、専門分野に特化した自己調整を焦点に置き、その効果を評価することです。学術的な独自性や創造性は、自己調整プロセスでフィールドごとの未ラベルデータといくつかのラベル付けされたシードを利用する自己特化を探求しています。
本研究の着想は、大規模な言語モデル（LLMs）を指定した指示を用いて適切に導く仕組みである指示調整の重要性から生まれました。しかし、これはその性格上、質の高いデータを大量に必要とする課題を持っています。このデータ集めが難易度が高く、短時間で効率的にスケーラブルにすることは難しいことが指摘されています。そこで出てきた解決策が、自己調整というアプローチです。これは、モデル自体が指導データを自動生成することで、モデルの内部的な一般的な知識を活用する手段を提供します。
本研究では、新しい概念である自己特化の導入と探求を行いました。この手法では、専門分野特有のシードと外部知識を組み込むことで、モデルを一般的な調整を超えて導くことを目指します。その結果、自己特化モデル（30B）が基礎モデル（MPT-30B）を大幅に上回り、さらにはより大きなモデル（LLaMA-65Bを基にしたもの）をも上回る性能を発揮したことを確認しました。
本研究の有効性は、実際にバイオメディカル領域での自己特化モデルを評価する実験により検証しました。その結果、自己特化モデルが基礎モデルを大幅に上回るだけでなく、自己調整によって改善されたより大きなモデルをも上回る性能を発揮することが明らかとなりました。

この記事が気に入ったらサポートをしてみませんか？