![見出し画像](https://assets.st-note.com/production/uploads/images/113002827/rectangle_large_type_2_4912ac6a262147ef2fffaa8c106b4d7f.png?width=800)
Photo by
miyu283
論文紹介: 翻訳タスクでLLMは意味的な整合性も学習する
英語の学習データセットでプレトレーニングを行ったLLMを、翻訳タスクのデータセットでファインチューニングすることでの非英語の能力を強化する場合の効果を整理した論文が発表されていました。
詳しくは、リンク先を参照お願いします。
翻訳タスクをデータセットに加えることで、翻訳タスクに加えて意味的な整合性(セマンティック アライメント)も学習できる(Figure 1, 2)
翻訳タスクのデータを増やすことで、LLM内の意味の整合性が強化され性能が向上する(Figure 3)
英語から非英語への翻訳データと、非英語から英語への翻訳データは両方ともセマンティック アライメントの学習に有益ではあるが、翻訳データのターゲット側に英語以外のテキストを配置するとより良い効果が得られる(Figure 3)
翻訳の性能: Y(意味的な整合性の指標として)と、データの量: x とのスケーリング則を提案
![](https://assets.st-note.com/img/1691654420717-l5GwPhll5P.png)
![](https://assets.st-note.com/img/1691652248182-C1oflVdJly.png)
![](https://assets.st-note.com/img/1691652626524-5kuAf1pqSI.png?width=800)
![](https://assets.st-note.com/img/1691653442905-5iNHJ93cCl.png?width=800)
各言語特有のドメイン知識以外は、英語での推論性能が高いモデルを翻訳データでファインチューニングして利用するのが有効そうということで、(みんな薄々気づいていたは思いますが)、実験データも含めて整理されており興味深い内容だと思いました。
誤りや論点不足などあれば是非コメントいただけると幸いです。
この記事が気に入ったらサポートをしてみませんか?