生成AIの技術＞特徴＞大規模言語モデルのアラインメント〜嗚呼果てしなきJDLA Generative AI Test 2023 への道（４）

2023年6月13日 00:19

このたび、2023年6月24日に開催される日本ディープラーニング協会主催の「JDLA Generative AI Test 2023」に挑戦する事になったので、素直にシラパスに従って勉強しようと思います。
勉強する教材は「Generative AI」ググったり本を読んだり、協会が提供するビデオや教材に一切頼らずに進めようと思います。残された日は１２日、しラパスの項目は２０ということで毎日２〜３つづつ進めていこうと思います。

「JDLA Generative AI Test 2023」とは？

まず「JDLA Generative AI Test 2023」というのが何なのかを軽く説明します。「JDLA Generative AI Test 2023」は一般社団法人　日本ディープラーニング協会（JDLA）がこの度開催する認定試験です。試験時間はたったの１５分、問題は選択式の２０問くらい、受験費用はたったの2200円という非常に低コストなので超お手軽です。資格としてはアレな気もしますが（すみません）話のネタに受験してみることにしました。

シラパス：生成AIの技術＞特徴

生成AIの技術
特徴
大規模言語モデルのアラインメントを理解している。
アラインメント (Alignment)、人間のフィードバックによる強化学習 (RLHF)、インストラクション・チューニング (Instruction Tuning)

シラパスより

次もChatGPTにアラインメント (Alignment)について聞いてみます。

大規模言語モデルにおけるアラインメントは、入力と出力の間の対応関係を特定することを指します。これにより、モデルは入力と出力の間の相互作用や依存関係を理解し、適切な翻訳や生成を行うことができます。アラインメントの特定には、セルフアテンションやアテンション機構が使用されます。キーワードの箇条書きは以下の通りです:

アラインメント
入力と出力の対応関係
相互作用
依存関係
セルフアテンション・アテンション機構

アライメントそのものは
・入力と出力の間の対応関係を特定すること
・モデルは入力と出力の間の相互作用や依存関係を理解

セルフアテンション・アテンション機構：入力シーケンス内の要素同士の関連性を計算する仕組みです。各要素は、他の要素に対して重要度の重みを計算し、それに基づいて自己の表現を調整します。

ここからアラインメント以外のキーワードについてBingで調べてみます

人間のフィードバックによる強化学習 (RLHF)
人間のフィードバックによる強化学習 (RLHF) は、人間からのフィードバックを用いて、AI（言語）モデルを強化学習で微調整する手法です。この手法は、ChatGPTなど高性能な会話型AIの学習プロセスとして採用されています。RLHF は、人間の価値基準に沿うように、人間のフィードバックを使って AI モデルを強化学習で微調整することができます。RLHF は、複数の学習プロセスで構成される、挑戦的な概念です。

ポイントを抜き出すと
・人間からのフィードバックを用いて、強化学習で微調整する手法
・ChatGPTなど高性能な会話型AIの学習プロセスとして採用
・人間の価値基準に沿うように、AI モデルを強化学習で微調整
・複数の学習プロセスで構成される、挑戦的な概念

「微調整」「フィードバック」がキーワードですね。
フィードバックって返事だけでなくて「いいね」的なものとか、その後の動きとかも含まれる的な話を聞いたような気が・・・・

インストラクション・チューニング (Instruction Tuning)
インストラクション・チューニングとは、より自然で正確なゼロショットプロンプトによる対話を促進するために考案されたファインチューニングの一形態です。テキストが入力されると、事前訓練されたモデルを微調整することで、より自然な応答を生成することができます。RLHF（人間のフィードバックからの強化学習）は、人間の好みに合わせてモデルを調整するインストラクション・チューニングを行うことができます。

ゼロショットなど一部、次につながるワードが出てきていますが、ざっくりまとめると
・ファインチューニングの一形態
・自然で正確なZero-Shotプロンプトによる対話を促進するために考案

最後にBardにファインチューニングと、インストラクション・チューニングとRLHFの関係を説明してもらいました

この記事が気に入ったらサポートをしてみませんか？