[09/21~09/27] 生成AI Weekly News #55
今回も社内で話題になった生成AIに関するニュースをご紹介します。
ピックアップ|
ChatGPT アドバンスボイスモード 提供開始
OpenAIが今週、ChatGPTの新機能「Advanced Voice Mode(高度な音声モード)」の提供を開始しました。
この機能は、ChatGPT PlusおよびTeamプランの利用者に順次展開されています。Advanced Voice Modeにより、ユーザーはより自然で直感的な音声対話をChatGPTと行うことができるようになりました。人間のような反応速度と感情豊かな応答が特徴で、9種類の個性的な音声から選択することも可能です。
1. アドバンスドボイスモードの概要
アドバンスドボイスモードは、ChatGPTが音声での対話を行うための新しい機能です。このモードでは、AIが人間のように自然な会話を行うことができ、感情を理解し、適切に表現する能力を持っています。主な特徴は以下の通りです:
この機能は、特にビジネスや教育の場面で役立つと期待されています。例えば、多言語での会議や語学学習などで活用されることが考えられます。
2. アドバンスドボイスモードの活用方法
アドバンスドボイスモードはさまざまなシーンで活用できます。具体的な利用例としては以下のようなものがあります:
リアルタイム通訳: 海外の取引先との会議で、AIがリアルタイムで通訳を行うことで、スムーズなコミュニケーションが可能になります5。
語学学習: ネイティブスピーカーとの会話練習パートナーとして利用することで、効果的な語学学習が実現します6。
カスタムキャラクターとの対話: ユーザーが設定したキャラクターとしてAIと対話することで、ゲームや物語の中に入り込んだような体験ができます7。
これらの活用方法により、業務効率や学習効果が向上することが期待されています。
3. アドバンスドボイスモードの設定と使い方
アドバンスドボイスモードを利用するには、まずChatGPT PlusまたはTeamプランに加入する必要があります。設定方法は以下の通りです:
ユーザーアイコンをクリック: ChatGPTにログイン後、右上のユーザーアイコンをクリックします。
カスタマイズメニューへアクセス: 「ChatGPTをカスタマイズする」を選択し、自分が望む応答スタイルやキャラクター設定を入力します。
設定を保存: 入力後、「保存」ボタンをクリックすると、数分後に設定が反映されます。
このように簡単な手順で、自分好みのAIとの対話体験を作り出すことができます。
アドバンスドボイスモードは、AIとのコミュニケーションに新たな次元をもたらす革新的な機能です。これを活用することで、より自然に日常にAIが溶け込んでいくことが期待されます。
プロダクト・サービス
OpenAIが新しいModeration API公開
OpenAIは、GPT-4oをベースにした新しいマルチモーダルなモデレーションモデル「omni-moderation-latest」をModeration APIで公開しました。
このモデルはテキストと画像の両方に対応し、有害なコンテンツをより正確に検出できます。特に非英語コンテンツに対する精度が向上しており、開発者がより堅牢なモデレーションシステムを構築できるようになりました。
GoogleがGeminiの新バージョン (Gemini-1.5-Pro-002 / Gemini-1.5-Flash-002) をリリース
Googleは9月24日に、Gemini 1.5の新バージョンである「Gemini-1.5-Pro-002」と「Gemini-1.5-Flash-002」をリリースしました。これらの新モデルは、コンテキストウィンドウが200万トークンに拡大され、処理速度が向上しています。また、料金の大幅な値下げや、開発者向けのレート制限の引き上げも行われました。
Meta社がLlama 3.2を発表
MetaがAIモデル「Llama 3.2」を発表しました。
このモデルは画像認識機能を持つ大規模モデル(11Bと90B)と、エッジデバイスやモバイル向けの軽量テキストモデル(1Bと3B)を含んでいます。大規模モデルはグラフや図表の理解、画像へのキャプション付けなどの視覚タスクを処理でき、軽量モデルはオンデバイスでの個人向けAIアプリケーション開発に適しています。Metaはこれらのモデルをオープンソースで公開し、AIの民主化と革新を促進することを目指しています。
新たなOSSマルチモーダルモデル Molmo が登場
Allen Institute for Artificial Intelligence (AI2)が、オープンソースのマルチモーダルAIモデル「Molmo」を発表しました。
Molmoは、テキストと画像の両方を処理できる能力を持ち、特に画像認識タスクにおいて卓越した性能を示しています。最大の特徴は、OpenAIのGPT-4oやGoogleのGemini 1.5 Proに匹敵する性能を持ちながら、モデルサイズが約10分の1と非常に小さいことです。
Alibaba presents MIMO
NotionAI の新機能
語学アプリ「Duolingo」、GPT-4oを使った英会話機能を開始
Googleの「NotebookLM」、YouTube動画の概要生成も可能に
ニュース
OpenAIからCTOに続き最高研究責任者と研究担当副社長も退社
「OpenAIが非営利から営利目的の法人に移行を計画中」とロイターが報道
性的なディープフェイク画像、見ても所持しても処罰 韓国で法改正
論文・技術系
[論文] OpenAIの新モデル「o1」は、『大規模"推論"モデル(Large Reasoning Model(LRM))』と呼ばれている
[論文] 『CoT』は、主に"数学"や"論理"で大きな効果を発揮し、他のタスクではあまり効果がない
OpenAI o1 API rate limitが大幅増
その他ニュース
道内初!生成AIで接客サービス「AItube」登場 旭川空港の土産店で“AI技術”活用、音声や文字で土産品紹介や観光案内など ほかの空港でも導入を検討
ゆるキャラ、AIで制作を断念 松江市 著作権侵害などの恐れ
AIを活用したメトロのディスプレイ
AIの安全性を“攻撃者視点”で評価するガイドライン IPAなどが無料公開 LLMへの8つの攻撃手法を紹介
今週もニュースが盛りだくさんの1週間でした。来週もどんなニュースがあるのか楽しみです!
今週もお疲れ様でした!
=========================================
この note が気に入ってくれた方は、
ぜひ「いいね」と「フォロー」をお願いします♪
X でも生成AI や LLM に関する情報を発信してますので、
ぜひ覗いてみてください!
「株式会社エクスプラザ(公式)」アカウント
https://twitter.com/explaza_inc
「生成AI事例集」アカウント
https://twitter.com/explaza_usecase
生成AI事例集
会社HP
この記事が気に入ったらサポートをしてみませんか?