GPT-3.5-Turboファインチューニング, ELYZA日本語LLM, etc - Generative AI 情報共有会 #5

Masatoshi Kurihara

2023年8月30日 16:00

今週、8月29日（火）にZENKIGEN社内で実施の「Generative AI最新情報共有会」でピックアップした生成AI関連の情報を共有します。

この連載の背景や方向性に関しては第一回の記事をご覧ください。

GPT-3.5 Turboのファインチューニング機能が公開

個別のユースケースに精度よく対応できるようにするためのGPT-3.5 Turboのファインチューニング機能が公開（GPT-4は今秋予定）。

想定されるユースケース

スタイル、トーン、フォーマット、その他の質的側面の設定
希望するアウトプットを出す際の信頼性の向上
複雑なプロンプトに従わない場合の修正
エッジケースの処理
プロンプトで表現するのが難しい新しいスキルやタスクの実行

どういう時にファインチューニングを利用すると良いか？

まず、プロンプト設計や関数呼び出しで良い結果が得られないか検証すべき。
プロンプト設計や関数呼び出しの検証ではうまくいかず、上記ユースケースに当てはまりそうな場合、ファインチューニングを検討。

ファインチューニング後のモデルはプロンプトでタスクに関する詳細な説明をする必要がなくなるので、品質を下げることなくコスト削減が見込める。GPT-4より良好な結果が得られる場合もある。

ファインチューニングの方法

1. データの準備
（例えば、面接内容を評価するファインチューニングモデルを作りたい場合）

{"messages": [{"role": "system", "content": "あなたは優秀な採用担当者です。..."}, {"role": "user", "content": "面接官: 「こんにちは」 候補者: 「よろしくお願いします」 ..."}, {"role": "assistant", "content": "面接の評価: 3, 評価観点: ..."}]}
{"messages": [{"role": "system", "content": "あなたは優秀な採用担当者です。..."}, {"role": "user", "content": "面接官: 「初めまして」 候補者: 「よろしくお願いします」 ..."}, {"role": "assistant", "content": "面接の評価: 2, 評価観点: ..."}]}
{"messages": [{"role": "system", "content": "あなたは優秀な採用担当者です。..."}, {"role": "user", "content": "面接官: 「よろしくお願いします」 候補者: 「よろしくお願いします」 ..."}, {"role": "assistant", "content": "面接の評価: 4, 評価観点: ..."}]}

“system” にシステムプロンプト（解かせるタスクの説明）、”user” に入力データ、”assistant” に求める出力例、を記述する。

どのくらいのデータが必要か？
最低10個。通常、50~100個のトレーニング例で明確な改善が見られる。

2. ファイルのアップロード

curl https://api.openai.com/v1/files \
  -H "Authorization: Bearer $OPENAI_API_KEY" \
  -F "purpose=fine-tune" \
  -F "file=@path_to_your_file"

アップロードされたデータの取り扱い
他のAPIと同様に、ファインチューニングAPIに送受信されるデータは顧客が所有するものであり、OpenAIや他の組織が他のモデルのトレーニングに使用することはない。

3. ファインチューニングジョブの作成

curl https://api.openai.com/v1/fine_tuning/jobs \
-H "Content-Type: application/json" \
-H "Authorization: Bearer $OPENAI_API_KEY" \
-d '{
  "training_file": "TRAINING_FILE_ID",
  "model": "gpt-3.5-turbo-0613"
}'

所要時間は数分から数時間程度と記載。

4. ファインチューニングモデルの使用

curl https://api.openai.com/v1/chat/completions \
-H "Content-Type: application/json" \
-H "Authorization: Bearer $OPENAI_API_KEY" \
-d '{
  "model": "ft:gpt-3.5-turbo:org_id",
  "messages": [
    {
      "role": "system",
      "content": "以下の採用面接の評価を行なってください。"
    },
    {
      "role": "user",
      "content": "面接官: 「こんにちは」 候補者: 「よろしくお願いします」 ..."
    }
  ]
}'

ft:gpt-3.5-turbo:org_id でファインチューニングモデルを指定し利用可能。

ファインチューニングモデルの取り扱い
モデルの所有権はOpenAIにあるが、モデルにアクセスできるのはOrganizationのみ。
モデルはAPIコールでいつでも削除可能。

価格

学習: $0.008 / 1K Tokens
- 例 : 10万トークンの学習ファイルを3エポック学習させるための予想コストは2.40ドル
ファインチューニングモデル利用時
- 入力: $0.012 / 1K Tokens
- 出力: $0.016 / 1K Tokens

ChatGPT Enterprise発表

企業向けのChatGPTプラン、ChatGPT Enterpriseが登場。

提供内容

Enterprise-gradeのセキュリティとプライバシー
- 顧客プロンプトと企業データは、OpenAIモデルのトレーニングには使用されない
- 静止時（AES 256）および転送時（TLS 1.2+）のデータ暗号化
- SOC 2準拠
大規模展開のための機能
- 一括メンバー管理が可能な管理コンソール
- SSO
- ドメイン認証
- 利用状況に関する分析ダッシュボード
最も強力なChatGPT
- GPT-4への無制限アクセス（使用量上限なし）
- GPT-4の高速化（最大2倍高速化）
- 高度なデータ解析（旧Code Interpreter）への無制限アクセス
- 4倍長い32kのコンテキスト入力
- 社内で共有可能なチャットテンプレートにより、共同作業や共通のワークフローを構築可能
- APIを使用するための無料クレジット

価格

現状、個別見積もり（Contact Sales）

今後の予定

既存のアプリケーションとChatGPTの接続による、企業データによるChatGPTのナレッジの安全な拡張機能。
小規模チーム向けのChatGPT Business
業務用に最適化された高度なデータ分析とブラウジングのさらに強力なバージョン
データアナリスト、マーケティング担当者、カスタマーサポートなど、特定の役割のためのツールがさらに充実

ELYZA、「Llama 2」をベースとした商用利用可能な日本語LLM公開

モデル

MetaのLlama-2-7b-chatモデルをベースとした3モデルを公開

ELYZA-japanese-Llama-2-7b
- MetaのLlama-2-7b-chatに対して、約180億トークンの日本語テキストで追加事前学習を行ったモデル
ELYZA-japanese-Llama-2-7b-instruct
- ELYZA-japanese-Llama-2-7bに対して、ELYZA独自の高品質な指示データセットを用いて事後学習したモデル
ELYZA-japanese-Llama-2-7b-fast / ELYZA-japanese-Llama-2-7b-fast-instruct
- 13,042個の日本語の語彙を追加し、同じ日本語の文章を表すのに必要なトークン数を約55%まで削減することで、推論速度の大幅な効率化をしたモデル

評価

性能評価として、ELYZA独自の人手評価用の複雑なタスクを含む100件のデータセットを利用。

クローズドモデルも含めた比較。GPT-4やGPT-3.5 Turboには及ばないが、175BパラメータあるGPT-3.5に匹敵する性能。

↓ lm-evaluation-harnessによる評価結果

全ての項目において元のLlama-2-7b-chatを上回るスコア。
このような一般データセットでは、日本語の知識や簡単な読解能力を測ることはできるものの、ユーザーからの指示に従う能力を測るには不向き。
事後学習を行ったELYZA-japanese-Llama-2-7b-instructと、行っていないELYZA-japanese-Llama-2-7bでは、指示に従う能力に大きな差があるにも関わらず、lm-evaluation-harnessの評価結果では同程度のスコア。

出力例

↓ ブレインストーミングのタスクで、指示の通り5つの異なるアイデアをユーザーに提供。出力のフォーマットに関しても、連番 + 見出し + 説明文の形式になっており、ユーザーが読みやすいように工夫されている。

↓ 2つの文章が言い換え可能かを判定するタスク。1の文と2の文の意味を正確に解釈した上で、それらが異なっていることを正しく判定。

ライセンス
- Llama 2 Community License
  - Acceptable Use Policy に従う限りにおいて、研究および商業目的での利用可能。
13B、70Bモデルも開発中。

ChatGPT pluginの紹介始めます

背景

社内共有会として、もう少し利活用イメージや実際に触ってみようという動機づけとなるトピックを入れられればなと思っていました。
アンケートで、ChatGPT pluginの紹介が面白そうという声をいただき確かに良さそうと思ったので、今回から毎回数個実際に触ってみた紹介をしていきます。
※ 有用かどうかなど取捨選択をしていると大変なので、触った結果をありのまま共有していきます。

Expedia

旅行計画の検討に利用可能。
実行例

FiscalNote

よくわからなかったが、アメリカ政府関連の最新情報をもとに回答してくれる？
実行例1
実行例2

Instacart

レシピに必要な食材をリストアップしてInstacartで購入するためのリンクを生成してくれるものっぽい。
実行例

（ビジネス事例）LLMと画像分析により被災状況を把握する技術

災害発生時に集まる膨大な被災現場の画像から、即時かつ的確に被災状況・場所を把握することが可能。

利用者の意図に応じて現場画像を絞り込み
- LLMによる言葉の意味解釈と画像分析による画像の類似性判定を活用することで、膨大な現場画像の中から利用者の意図に合う画像に絞り込むことが可能。
- これまでは、あらかじめ学習した対象物しか認識できず、絞り込める画像が限られており、利用者の意図に応じて的確に調査することが難しかったが、LLMを活用することで、フリーワードにより現場画像を絞り込むことが可能に。

被災状況・場所を地図上に番地レベルで表示
- 被災場所が分からない現場画像について、街の広い範囲をカバーする上空画像や地図データと照合することで、現場画像の場所を番地レベルの正確さで推定し、地図上に表示することが可能。
- 災害時などの緊急時に提供される現場画像には、必ずしも位置情報が付与されておらず、被災場所の特定が難しい場合があり、これまでは衛生画像や航空写真など上空画像を活用しての場所推定をしていたが、地図データの地理情報を合わせることで、現場画像の場所推定精度として世界最高水準の照合精度を達成。

2025年度中の実用化を目指す。

（ビジネス事例）パッケージ作成に画像生成AI活用

画像生成AIサービスは、商品パッケージのリサーチやデザインを手掛けるプラグのものを活用。

“商品デザインに特化したAIサービスの先行試用版で生成した画像を参考に、デザイナーが一から作り直した” とのことで、あくまで参考利用。

活用されたプラグ社の最近のプレスリリース

「パッケージデザインAI」
- 1020万人に上る消費者調査の結果をAIの学習データに使い、東京大学と共同研究。

10秒で商品デザインを評価するAIに、棚評価とネーミング・コピー評価を追加

棚評価
- 競合商品や商品が置かれる位置によって、自社商品がどの程度注視されるかをヒートマップで確認可能。

ネーミング・コピー評価
- デザイン画像をアップロードした後、異なるネーミングを５つ入力すると、どのネーミングが消費者に最も好まれるかAIが予測スコアを算出。

お知らせ

少しでも弊社にご興味を持っていただけた方は、お気軽にご連絡頂けますと幸いです。まずはカジュアルにお話を、という形でも、副業を検討したいという形でも歓迎しています。

この記事が気に入ったらサポートをしてみませんか？