今週、10月1日(火)にZENKIGEN社内で実施の「Generative AI最新情報共有会」でピックアップした生成AI関連の情報を共有します。
この連載の背景や方向性に関しては、以下第一回の記事をご覧ください。
OpenAI o1発表(2024/09/12)
https://openai.com/index/introducing-openai-o1-preview/
回答生成する前に多くの時間をかけて考えるように設計されたOpenAIの新たなフラグシップモデル「OpenAI o1」発表。
(“o1” の ”o” は OpenAI の “o” らしい。)(GPT-4o の “o” は “omni” の “o”)
性能
数学、プログラミング、科学領域の高度な問題に対する成績でgpt4oを圧倒。
技術
技術の詳細は明らかにされていないが、Chain-of-Thought(思考の連鎖)を駆使していることが述べられている。
Chain-of-Thought
人間が難しい質問に答える前に長い時間考えるのと同様に、”思考を巡らして”最終回答を生成する。
- 方向性に間違いを認識したら修正したり、別のアプローチを試したり。
- 難しいステップを単純なステップに分解したり。
こちら にOpenAI o1がどのように "思考を巡らせているか" の例が紹介されている。
ここでは一例として、暗号解読の例を取り上げる。
与えられた暗号解読問題はこちら。
【GPT-4o】
GPT-4oでは以下の出力となり正解に辿り着けなかった。
【OpenAI o1-preview】
o1では、回答をする前に「思考」の過程が入る。
ブログ記事中ではその「思考」内容が共有されている(非常に長いので端折りながら掲載)。
この思考により最終回答に辿り着いている。
回答としては、この思考内容を要約したものとして、以下の内容がユーザーに提示される。
(この推論時にコストをかけることで回答性能を上げる推論計算量のスケーリングの話はホットな話題の一つで、関連する論文の紹介をした記事を以前あげているのでこちらもよろしければご覧ください。)
GPT-4oとOpenAI o1の使い分け
o1は複雑な推論が必要なタスクに秀でている。
一方、ライティング(Personal Writing, Editing Text)に関してはGPT-4oの方がo1-previewより人間に好まれる結果が報告されている。
ライティングなど身近な話題に対しては、GPT-4oの方が使い勝手が良い(レスポンスも早いし、安い)。
OpenAI、Advanced Voiceモードが利用可能に(2024/09/25)
今年5月にGPT-4oが発表された際にデモとして公開されていた音声機能の一部(以下記事で紹介)が一般に利用可能になった。
日本語でも対話可能。
面接練習をしてみた感想↓
返答までの間をほとんど感じずかなり自然。
最初にさまざまな指示(「”深掘り”をするように」, 「圧迫面接のような形で」など…)を与えればその形式で行なってくれる。
回答に詰まった際などはフォローに入ってくれる。こちらが遮ると発話をやめてくれる。
(社内共有会時点では発表されていなかったが、)Advanced Voiceモードと同様に低遅延な音声対話用API「Realtime API」が発表された。
https://openai.com/index/introducing-the-realtime-api/
Meta、Llama 3.2公開(2024/09/25)
画像処理を行うvision LLM(11Bと90B)と、エッジやモバイルデバイス上で動作させることを想定した軽量なLLM(1Bと3B)を公開。
Llama 3.1は、8B, 70B, 405BのLLM(テキストのみ)として公開されていた。
Llama 3.2 Vision(11B, 90B)
チャートやグラフを含む文書レベルの理解、画像のキャプション付け、自然言語記述に基づく画像内のオブジェクトをピンポイントで特定するようなビジュアルグラウンディングタスクなど、画像推論のユースケースをサポート。
Claude 3 Haiku や GPT-4o-mini のようなクローズドモデルと比較して画像理解、テキストの両ベンチマークで競合することを報告。
Llama 3.2(1B, 3B)
エッジデバイス、モバイルデバイス上で動作させることを想定した軽量なLLM。
処理がローカルで行われるため、レスポンスが早い。メッセージやカレンダー情報などのデータをクラウドに送信しないため、プライバシーが維持される。
同程度サイズの軽量モデルと競合する性能。
Slackで生成AI機能(Cohere AI App)が利用可能に(2024/09/16)
CohereのLLM「Command-R」シリーズ(RAG(検索拡張生成)に強いとされるモデルシリーズ)を利用し、ウェブ検索や社内情報の収集(Notionなどと接続)をしてタスクをサポート。日本語も対応。
https://cohere-ai.ghost.io/content/media/2024/09/Cohere_Slack_R2--1---1-.mp4
実際に社内slackで利用するにあたっては、プライバシーポリシーの確認(社内データがどのように扱われるか)が必要。
お知らせ
少しでも弊社にご興味を持っていただけた方は、お気軽にご連絡頂けますと幸いです。まずはカジュアルにお話を、という形でも、副業を検討したいという形でも歓迎しています。