見出し画像

最先端のオープンソースチャットボット - BlenderBot

以下の記事を参考にして書いてます。

A state-of-the-art open source chatbot

1. 要旨

・「Facebook AI」は、史上最大のオープンドメインチャットボットである「BlenderBot」を開発し、オープンソース化しました。人間評価者によると、エンゲージメントのスコアで他よりも優れており、より人間味を感じます。

・会話型AIの長年の研究の集大成であるこれは、「共感」「知識」「個性」などの多様な会話スキルのセットを、1つにブレンドした最初のチャットボットになります。

・このマイルストーンは、改良されたデコード技術、スキルの斬新なブレンド、既存の最大システムの3.6倍である94億のパラメータを持つモデルを含む新しいチャットボットレシピを通じて達成されました。

・本日、完全なモデル、コード、評価のセットをリリースします。これにより、他のAI研究者がこの作業を再現し、会話型AI研究を継続して進めることができます。

2. はじめに

「会話」は私たちが毎日実践している芸術です。夕飯何を食べるかを話し合ったり、夕食後に見たい映画を決めたり、現在の出来事について話し合って世界観を広げたりします。何十年もの間、AI研究者は、人間と同じように会話できるAIシステムの構築に取り組んできました。

現在、AIシステムは主にフライト予約など、事前にプログラムされた特殊なタスクで優れています。しかし、真にインテリジェントな人間レベルのAIシステムを実現するには、会話のより広いコンテキストと、特定のトピックが互いにどのように関連しているかを理解する必要があります。

私たちは長年の研究の集大成として、史上最大のオープンドメインチャットボットである「BlenderBot」を開発し、オープンソース化したことを発表します。 人間評価者によると、エンゲージメントのスコアで他よりも優れており、より人間味を感じます。 チャットボットが、ペルソナを想定し、ほぼ全てのトピックについて話し合い、共感を示す能力など、いくつかの会話スキルを自然な14ターンの会話フローにブレンドすることを学んだのはこれが初めてです。 本日、新しいチャットボットの作成に使用した主要な要素の詳細を紹介します。

現在の最高のシステムのいくつかは、Webから供給された巨大なテキストコーパスを使用して、数百万または数十億のパラメータで大容量のニューラルモデルを学習することによって進歩を遂げました。私たちの新しいレシピには、最大94億のパラメータ(既存の最大システムの3.6倍)を備えた大規模なニューラルモデルだけでなく、スキルと詳細な生成をブレンドするための手法も組み込まれています。

3. チャットボットのレシピ : スケール・ブレンドスキル・生成戦略

◎ スケール
他の自然言語処理研究と同様に、チャットボットを作成する最初のステップは大規模な学習でした。大量の会話データで大規模な(最大94億)Transformerニューラルネットワークを事前学習しました。抽出された会話の15億の学習データを含む、利用可能なパブリックドメインの会話を使用しました。私たちのニューラルネットワークは大きすぎて単一のデバイスに収まらないため、列単位のモデル並列処理などの手法を利用しました。これにより、最大の効率を維持しながら、ニューラルネットワークをより小さく管理しやすい部分に分割できます。ニューラルネットワークをこのように注意深く編成することで、テラバイトサイズのデータセットに拡張するために必要な高効率を維持しながら、以前よりも大規模なネットワークを処理できるようになりました。

◎ ブレンディングスキル
大規模な学習は重要ですが、可能な限り最高の発話者を作成するために必要な要素はそれだけではありません。 大規模な公開学習セットで平均的な会話を模倣することを学ぶことは、必ずしもエージェントが最高の発話者の特徴を学ぶことを意味するわけではありません。実際、注意深く行わないと、モデルが貧弱な、あるいは有毒な振る舞いを模倣する可能性があります。最近、これらの望ましいスキルを学習・評価するための「Blended Skill Talk」(BST)と呼ばれる新しいタスクを導入しました。「BST」は、以前の調査を活用した次のスキルで構成されています。

・個性を引き出す  (PersonaChat)
・知識の活用  (Wizard of Wikipedia)
・共感の表示  (Empathetic Dialogues)
・3つ全てをシームレスにブレンド  (BST)

これらのスキルをブレンドすることは難しい課題です。システムは、人が冗談から深刻に変わった場合のトーンの調整など、適切なときに異なるタスクを切り替えることができなければならないからです。新しい「BST」データセットは、これらの動作をブレンドして表示するシステムを構築する方法を提供します。「BST」を使用してモデルを微調整すると、ボットの会話能力に対する人間の評価に劇的な影響があることがわかりました。

◎ 生成戦略
ニューラルモデルの学習は通常、モデルが次の単語をどれだけうまく予測して生成できるかを測定する混乱を最小限に抑えることによって行われます。ただし、会話型エージェントが繰り返したり、他の欠点を示したりしないようにするために、研究者は通常、モデルの学習後に、ビーム検索、ネクストトークンサンプリング、n-gramブロッキングなど、いくつかの可能な生成戦略を使用します。エージェントの発話の長さは、人間の評価者とのより良い結果を達成するために重要であることがわかりました。短すぎると、反応が鈍くなり、興味がないことを伝えます。長すぎると、チャットボットは話を聞いてくれないように見えます。サンプリングがビーム検索よりも優れていることを発見した最近の研究とは対照的に、検索ハイパーパラメータを注意深く選択すると、このトレードオフを制御することで強力な結果が得られることを示しています。特に、最小ビーム長を調整すると、応答の「鈍い対スパイシーな」スペクトルを制御できます。

4. レシピのテスト

モデルを評価するために、ペアワイズ人間評価を通じて、Googleの最新の「Meena」に対するパフォーマンスのベンチマークを行いました。モデルがリリースされていないため、この評価には約100の公開されランダム化されたログを使用しました。ACUTE-Evalメソッドを使用して、人間の評価者は、それぞれのチャットボットとペアになっている人間間の一連の対話を見せられました。 

「長い会話のために誰と話したいですか?」  (魅力を示す)
「どちらのスピーカーがより人間味がありますか?」  (人間性を示す)

「Meena」のチャットと「BlenderBot」のチャットを提示したところ、評価者の67%が「BlenderBot」の方がより人間的に聞こえる、75%が「BlenderBot」の方がより長い会話をしたいと答えました。

人間の評価による更なる分析では、ブレンドスキルと、繰り返しのない詳細な応答を生成する生成戦略の選択の両方の重要性が強調されました。エンゲージメントを測定するための人間対人間と人間対BlenderBotの会話のA/B比較では、BSTタスクで微調整したモデルの方が人間よりも49%好まれたのに対し、パブリックドメインの会話のみで訓練されたモデルの方が好まれたのはわずか36%でした。

ビームブロッキングや最小ビーム長の制御などの復号化戦略も結果に大きな影響を与えました。最小ビーム長の制約を取り除いた後、モデルの応答は約半分の長さになり、BSTモデルのパフォーマンスは49%から21%へと低下しました。これらの結果は、モデルのスケーリングが重要である一方で、チャットボットのレシピには他にも同じように重要な部分があることを示しています。

画像1

このグラフは、人間の評価者が人間同士のチャットよりもチャットボットを好む頻度を時間の経過とともに示しています。2018年以降、この評価ではモデルのパフォーマンスが向上しています。

過去数年の間に、特異性制御ポリエンコーダー、このブログ記事で紹介したレシピのような様々な主要なモデルの改良により、私たちのチャットボットモデルのパフォーマンスを2倍に向上させてきました。今回のテストでは、最新のモデルのパフォーマンスは、人間とほぼ同等の品質を実現しています。これは、このタイプの評価では人間レベルに近いパフォーマンスを達成していることを示唆しています。しかし、私たちのチャットボットは人間に比べてまだ多くの弱点を持っています。

5. 今後の展望

オープンドメインチャットボットの改善が進んだことをうれしく思います。しかし私たちの対話システムは、人間レベルの知性を達成するにはほど遠いです。私たちの最高モデルは、矛盾や繰り返しなどの間違うことがあり、他の生成システムで見られるように、知識を「幻覚」させる可能性があります。 人間による評価も、一般的に比較的短い会話を使用して行われます。十分に長い会話を行うと、これらの問題がより明らかになります。

現在、新しいアーキテクチャと様々な損失関数を使用したより長い会話で、モデルの会話品質をさらに向上させる方法を模索しています。また、会話で有害な言葉を除外するためのより強力な分類子の構築にも注力しています。また、チャットボットの性別による偏見を緩和するための研究で予備的な成功を収めています。

この分野での真の進歩は、再現性にかかっています。モデルのリリースは、モデルの機能に対する完全で信頼性の高い洞察を可能にするために不可欠であると信じています。そのため、対話調査プラットフォーム「ParlAI」を通じて、最先端のオープンドメインチャットボットを公開しました。自動評価と人間評価を微調整して実行するためのオープンソースコードによって、AI研究コミュニティがこの作業をベースに開発し、会話型AIを集合的に推進できることを願っています。



この記事が気に入ったらサポートをしてみませんか?