見出し画像

[07/13~07/19] 生成AI Weekly News #46|GPT-4o mini をピックアップ

今回も社内で話題になった生成AIに関するニュースをご紹介します。


[お知らせ] 生成AI PoC 「ハタアゲ」|10社限定キャンペーン中!

お客様のニーズに合ったプランで、生成AI PoC をスタートできます。 確実に・早く結果を出す PoC「ハタアゲ」


ピックアップ|GPT-4o mini


GPT-4o mini 登場

OpenAI は 2024年7月18日に、低コストで高性能な小型AIモデル「GPT-4o mini」を発表しました。この新モデルは、従来の GPT-4 シリーズよりも精度が高く、使用コストを大幅に削減しています。特に、入力トークンが100万あたり15セント、出力トークンが100万あたり60セントと、GPT-3.5 Turbo よりも60%以上安価です。GPT-4o mini は、マルチモーダル機能を持ち、テキストだけでなく画像の理解も可能です。これにより、様々なアプリケーションでの利用が期待されています。

端的にいうと、「それなりに優秀なモデルがかなり安価に利用できるようになった」ということです。

https://openai.com/index/gpt-4o-mini-advancing-cost-efficient-intelligence/

性能

評価ベンチマークでは、MMLU のベンチマークに関する結果では、Gemini Flash、Claude Haiku、GPT-3.5 Turbo を上回っており、GPT-4o とも僅差といった結果になっています。

https://openai.com/index/gpt-4o-mini-advancing-cost-efficient-intelligence/

コスト

そして、最大の特徴はコスト面です。
GPT-4o と比較した時に圧倒的に低コストなのですが、低コストで使えることが特徴だった GPT-3.5 Turbo よりも60%以上安価です。

https://github.com/kunishou/GenerativeAI-Cost

その他特徴

低コストという点以外にも特徴があります。
現時点では、テキストとビジョンのみですが、将来的にそれらに加えて画像、ビデオ、オーディオの入出力もサポートされるようです。

より低コストで性能がよく、マルチモーダルな LLM ということですね。

現在、GPT-4o mini は API でテキストとビジョンをサポートしており、将来的にはテキスト、画像、ビデオ、オーディオの入出力もサポートされる予定です。このモデルには 128K トークンのコンテキストウィンドウがあり、リクエストごとに最大 16K の出力トークンをサポートし、2023 年 10 月までの知識があります。GPT-4o と共有される改良されたトークナイザーのおかげで、英語以外のテキストの処理がさらにコスト効率が良くなりました。

https://openai.com/index/gpt-4o-mini-advancing-cost-efficient-intelligence/

他モデルとの比較:

コンテキストウィンドウ:128K
(※ GPT-4o:128K、Claude 3.5 Sonnet:200K)

最大出力:16K
(※ GPT-4o:4K、Claude 3.5 Sonnet:8K)

ナレッジカットオフ:2023年10月まで
(※ GPT-4o:2023年12月、Claude 3.5 Sonnet:2024年4月)



プロダクト・サービス


「Gemini」が「Google Workspace」内のデータから回答できる拡張機能がベータ公開

GoogleがGemini向けのGoogle Workspace拡張機能をオープンベータとして公開しました。この機能により、GmailやGoogle ドライブ、Google ドキュメント内の情報を基にGeminiが回答を生成できるようになります。Gemini Business/Enterprise/Education/Education Premiumアドオンのユーザーが利用可能で、管理者が有効化することで、日常業務のワークフローにGeminiがアクセスし、より適切な回答を得られるようになります

管理者が「Google Workspace」拡張機能を有効化すると、Gmailや「Google ドライブ」、「Google ドキュメント」内の情報を基に「Gemini」が回答を生成できるようになる。

「Google Workspace」拡張機能がアクセスできる情報は、「Google ドライブ」内のアクセス制御設定に従っており、ユーザーが所有者のファイル、または共有されているファイル(共有ドライブ経由を除く)に限られる。ただしオープンベータ期間中は、ユーザーIDとデバイスの位置やセキュリティ状況といった情報に基づいてアクセス制御を管理できるコンテキストアウェア アクセス(CAA)がサポートされないので、注意。

https://forest.watch.impress.co.jp/docs/news/1609029.html


Claude 3.5 Sonnet API の最大出力トークン数が4096 → 8192に倍増

Claude 3.5 Sonnet の API 利用時の最大出力トークン数が、倍増したようです。


HeyGen Streaming Avatar、ホログラムがインタラクティブに

AIビデオ生成の HeyGen が、リアルタイムでインタラクティブに動くホログラムのデモを発表しました。

7月中には利用できるようになる模様。

Your live-streaming avatar agent, available on your site 24/7.

https://www.producthunt.com/products/heygen/launches


新しいDeepfakeツール、「rendernet」


音楽生成AI「Suno」にmp3がアップロード出来るように



ニュース


世界初のAIによる完全翻訳・吹替え映画が米国公開

スウェーデン語の SF 映画を、Flawless 社の TrueSync という技術を使用して、翻訳した映画が公開されたようです。

特筆したいのが、唇の動きも同期しており、かなり自然に英訳されているところです。

具体的なイメージは、こちらを見ていただけると!


EU の AI 法、2024年8月1日に施行

EUの包括的なAI規制法である「AI法」が2024年8月1日に施行されることが決定しました。この法律はAIの開発や利用に関するリスクに応じて規制を設け、特に高リスクなAIの使用を禁止します。全面的な適用は2026年からですが、一部の規制は段階的に早期適用されます。違反した場合、最大で年間売上高の7%または3500万ユーロの罰金が科される可能性があります。


DeepL、言語翻訳ならびに文章校正のLLMを搭載した「次世代言語モデル」実装を発表


プロンプトだけで対応できる業務は34%、生成AI活用に関する独自調査結果

株式会社Lightblueが実施した調査によると、生成AIツールのプロンプトだけで対応できる業務は全体の約34%に過ぎないことが明らかになりました。調査は、生成AIを導入済みまたは導入予定の法人を対象に行われ、36社から抽出した1,281件のアイディアを分析しました。その結果、RAG(Retrieval-Augmented Generation)を活用することで、業務の約41%が実現可能であることが示され、システム開発のニーズも浮き彫りになりました。

弊社がご支援している中でも、プロンプトだけで解決できることは全体業務の中でも少なく、社内システムとの繋ぎこみや業務フローの再構築が必要だったりすることが多いので、まさにこのデータが示している通りだと思います。


生成AIチャット×日本古典籍



論文・技術系


医療・ヘルスケア領域における大規模言語モデルの構築に向けて、preferred networks

概要
- 既存の大規模言語モデル (LLM) に対して医療ドメインの独自コーパスを用いた finetuning を行い、医療特化の大規模言語モデル Llama3-Preferred-MedSwallow-70B を開発しました。
- Llama3-Preferred-MedSwallow-70B は日本医師国家試験において、 GPT-4 を上回る成績を収め、Hugging Face Hub で公開されているモデルの中で最高性能を誇ります。
- PFN では医療・ヘルスケアを含む様々な分野での LLM 活用を目指し、引き続き研究開発を進めていきます。

https://tech.preferred.jp/ja/blog/llama3-preferred-medswallow-70b/


[論文] OpenAI、AIに人間にも分かりやすく説明させるアルゴリズムを提案

概要

この論文は、大規模言語モデル(LLM)の出力の「判読性」を高める方法を研究しています。具体的には、数式の問題を解く際に、回答の正確性だけでなく、その回答が人間や他のモデルにとってチェックしやすいかどうかを重視するトレーニングアルゴリズムを提案しています。このアルゴリズムは、「Prover-Verifier Game」という手法を応用し、小型の検証モデルを使って回答の正確性を確認しやすくすることを目指しています。

先行研究と比べてどこがすごい?

先行研究では、LLMの出力の信頼性を高めるために、回答の正確性のみを最適化していましたが、このアプローチでは回答が複雑で理解しづらくなることがありました。本研究では、回答の「判読性」も重視する新しいトレーニング方法を導入することで、この問題を改善しています。また、この手法は、小型の検証モデルを使うことでスケーラビリティを向上させ、より広範な適用が可能となっています。

技術や手法のキモはどこ?

提案されたトレーニングアルゴリズムは、「Prover-Verifier Game」に基づいています。このゲームでは、以下の3つの要素が重要です:

  1. Helpful Prover:正確な解を生成し、検証モデルがその解を正しいと判断するように訓練されたモデル。

  2. Sneaky Prover:誤った解を生成し、検証モデルを欺くことを目的としたモデル。

  3. Verifier:解の正確性を予測する小型のモデル。

このアルゴリズムは、これらのモデルを交互に訓練し、最終的には判読性の高い回答を生成する「Helpful Prover」と、誤りを見抜く「Verifier」を得ることを目指します。

議論はあるか?

本研究では、Prover-Verifier Gameの有効性を示しましたが、以下のような課題も議論されています:

  • データの多様性と難易度:実験は比較的簡単なGSMデータセットを使用しているため、より複雑なデータセットでの検証が必要です。

  • 人間とモデルの判読性の関係:最終的な目標は人間に対する判読性の向上であり、より広範な人間評価の実施が求められます。

  • 他の領域への適用:数式以外の問題に対してもこの手法が有効かどうかは今後の研究が必要です。

Title: Prover-Verifier Games Improve Legibility of LLM Outputs
Authors: Jan Hendrik Kirchner, Yining Chen, Harri Edwards, Jan Leike, Nat McAleese, Yuri Burda
Year: 2024
URL: https://cdn.openai.com/prover-verifier-games-improve-legibility-of-llm-outputs/legibility.pdf


[論文] 嘘の情報を言うこと(ハルシネーション)を検出するための新たなモデル、LYNX


[論文] LLMに対して「心の理論」を実装したエージェントは、そうでないLLMエージェントや強化学習エージェントと比べて様々な競争で優位に立つこと



その他ニュース


GoogleやMicrosoftなど14社、AIセキュリティ推進の「CoSAI」創設


生成AIを使う際に避けて通れない著作権について知っておくべきこと


Google Scholarでの世界のtop 10の音声合成研究者の魚拓



[ご案内] 生成AI PoC 「ハタアゲ」|10社限定キャンペーン中!


この1年で、生成AIの法人様向けお問い合わせ相談数1,000件、PoC支援実績20件、本開発支援10件を突破しました。

限定10社様に150万円〜の特別価格キャンペーンを開始!
お客様のニーズに合ったプランで、生成AI PoC をスタートできます。
確実に・早く結果を出す PoC「ハタアゲ」

▼ お申し込みはコチラ!


今週もニュースが盛りだくさんの1週間でした。来週もどんなニュースがあるのか楽しみです!

今週もお疲れ様でした!

=========================================
この note が気に入ってくれた方は、
ぜひ「いいね」と「フォロー」をお願いします♪

X でも生成AI や LLM に関する情報を発信してますので、
ぜひ覗いてみてください!

「株式会社エクスプラザ(公式)」アカウント
https://twitter.com/explaza_inc
「生成AI事例集」アカウント
https://twitter.com/explaza_usecase

生成AI事例集

会社HP


この記事が気に入ったらサポートをしてみませんか?