見出し画像

[09/21~09/27] 生成AI Weekly News #55

今回も社内で話題になった生成AIに関するニュースをご紹介します。


ピックアップ|


ChatGPT アドバンスボイスモード 提供開始

OpenAIが今週、ChatGPTの新機能「Advanced Voice Mode(高度な音声モード)」の提供を開始しました。
この機能は、ChatGPT PlusおよびTeamプランの利用者に順次展開されています。Advanced Voice Modeにより、ユーザーはより自然で直感的な音声対話をChatGPTと行うことができるようになりました。人間のような反応速度と感情豊かな応答が特徴で、9種類の個性的な音声から選択することも可能です。

1. アドバンスドボイスモードの概要

アドバンスドボイスモードは、ChatGPTが音声での対話を行うための新しい機能です。このモードでは、AIが人間のように自然な会話を行うことができ、感情を理解し、適切に表現する能力を持っています。主な特徴は以下の通りです:

  • 自然な音声理解と応答: AIはユーザーの発言を理解し、文脈に応じた適切な応答を生成します12

  • 多言語対応: 50以上の言語に対応しており、国際的なコミュニケーションをサポートします3

  • 感情表現: AIは会話中に感情を表現し、より人間らしい対話を実現します4

この機能は、特にビジネスや教育の場面で役立つと期待されています。例えば、多言語での会議や語学学習などで活用されることが考えられます。

2. アドバンスドボイスモードの活用方法

アドバンスドボイスモードはさまざまなシーンで活用できます。具体的な利用例としては以下のようなものがあります:

  • リアルタイム通訳: 海外の取引先との会議で、AIがリアルタイムで通訳を行うことで、スムーズなコミュニケーションが可能になります5

  • 語学学習: ネイティブスピーカーとの会話練習パートナーとして利用することで、効果的な語学学習が実現します6

  • カスタムキャラクターとの対話: ユーザーが設定したキャラクターとしてAIと対話することで、ゲームや物語の中に入り込んだような体験ができます7

これらの活用方法により、業務効率や学習効果が向上することが期待されています。

3. アドバンスドボイスモードの設定と使い方

アドバンスドボイスモードを利用するには、まずChatGPT PlusまたはTeamプランに加入する必要があります。設定方法は以下の通りです:

  1. ユーザーアイコンをクリック: ChatGPTにログイン後、右上のユーザーアイコンをクリックします。

  2. カスタマイズメニューへアクセス: 「ChatGPTをカスタマイズする」を選択し、自分が望む応答スタイルやキャラクター設定を入力します。

  3. 設定を保存: 入力後、「保存」ボタンをクリックすると、数分後に設定が反映されます。

このように簡単な手順で、自分好みのAIとの対話体験を作り出すことができます。

アドバンスドボイスモードは、AIとのコミュニケーションに新たな次元をもたらす革新的な機能です。これを活用することで、より自然に日常にAIが溶け込んでいくことが期待されます。



プロダクト・サービス


OpenAIが新しいModeration API公開

OpenAIは、GPT-4oをベースにした新しいマルチモーダルなモデレーションモデル「omni-moderation-latest」をModeration APIで公開しました。
このモデルはテキストと画像の両方に対応し、有害なコンテンツをより正確に検出できます。特に非英語コンテンツに対する精度が向上しており、開発者がより堅牢なモデレーションシステムを構築できるようになりました。

https://openai.com/index/upgrading-the-moderation-api-with-our-new-multimodal-moderation-model/


GoogleがGeminiの新バージョン (Gemini-1.5-Pro-002 / Gemini-1.5-Flash-002) をリリース

Googleは9月24日に、Gemini 1.5の新バージョンである「Gemini-1.5-Pro-002」と「Gemini-1.5-Flash-002」をリリースしました。これらの新モデルは、コンテキストウィンドウが200万トークンに拡大され、処理速度が向上しています。また、料金の大幅な値下げや、開発者向けのレート制限の引き上げも行われました。


Meta社がLlama 3.2を発表

MetaがAIモデル「Llama 3.2」を発表しました。
このモデルは画像認識機能を持つ大規模モデル(11Bと90B)と、エッジデバイスやモバイル向けの軽量テキストモデル(1Bと3B)を含んでいます。大規模モデルはグラフや図表の理解、画像へのキャプション付けなどの視覚タスクを処理でき、軽量モデルはオンデバイスでの個人向けAIアプリケーション開発に適しています。Metaはこれらのモデルをオープンソースで公開し、AIの民主化と革新を促進することを目指しています。


新たなOSSマルチモーダルモデル Molmo が登場

Allen Institute for Artificial Intelligence (AI2)が、オープンソースのマルチモーダルAIモデル「Molmo」を発表しました。
Molmoは、テキストと画像の両方を処理できる能力を持ち、特に画像認識タスクにおいて卓越した性能を示しています。最大の特徴は、OpenAIのGPT-4oやGoogleのGemini 1.5 Proに匹敵する性能を持ちながら、モデルサイズが約10分の1と非常に小さいことです。


Alibaba presents MIMO


NotionAI の新機能


語学アプリ「Duolingo」、GPT-4oを使った英会話機能を開始


Googleの「NotebookLM」、YouTube動画の概要生成も可能に



ニュース


OpenAIからCTOに続き最高研究責任者と研究担当副社長も退社


「OpenAIが非営利から営利目的の法人に移行を計画中」とロイターが報道

https://www.reuters.com/technology/artificial-intelligence/openai-remove-non-profit-control-give-sam-altman-equity-sources-say-2024-09-25/


性的なディープフェイク画像、見ても所持しても処罰 韓国で法改正



論文・技術系


[論文] OpenAIの新モデル「o1」は、『大規模"推論"モデル(Large Reasoning Model(LRM))』と呼ばれている


[論文] 『CoT』は、主に"数学"や"論理"で大きな効果を発揮し、他のタスクではあまり効果がない


OpenAI o1 API rate limitが大幅増



その他ニュース


道内初!生成AIで接客サービス「AItube」登場 旭川空港の土産店で“AI技術”活用、音声や文字で土産品紹介や観光案内など ほかの空港でも導入を検討


ゆるキャラ、AIで制作を断念 松江市 著作権侵害などの恐れ


AIを活用したメトロのディスプレイ


AIの安全性を“攻撃者視点”で評価するガイドライン IPAなどが無料公開 LLMへの8つの攻撃手法を紹介



今週もニュースが盛りだくさんの1週間でした。来週もどんなニュースがあるのか楽しみです!

今週もお疲れ様でした!

=========================================
この note が気に入ってくれた方は、
ぜひ「いいね」と「フォロー」をお願いします♪

X でも生成AI や LLM に関する情報を発信してますので、
ぜひ覗いてみてください!

「株式会社エクスプラザ(公式)」アカウント
https://twitter.com/explaza_inc
「生成AI事例集」アカウント
https://twitter.com/explaza_usecase

生成AI事例集

会社HP


この記事が気に入ったらサポートをしてみませんか?