見出し画像

ChatGPT新機能「高度な音声モード」開始/Google「NotebookLM」がYouTubeやオーディオに対応/Adobeの動画生成AI「Firefly Video Model」は、OpenAI・Soraと比べてどう違うのか?/サム・アルトマンCEO、米国政府にデータセンター建設を提案/生成 AI 文脈でよく聞く RAG とは?【週刊AIのニュース 2024年9月30日号】

こんにちは。AIのある暮らしです。

2024年9月23日〜9月29日の「週刊AIのニュース」をお届けします。

みなさまのAI情報収集にご活用ください。


【1】文章生成AI

ChatGPTとスムーズに会話できる「高度な音声モード」、Plusプランに提供開始

OpenAIは「高度な音声モード(Advanced Voice Mode)」をChatGPTの有料プラン(Plus、Team)のユーザー向けに提供開始しました。これはマルチモーダルAIモデル「GPT-4o」の進化版で、テンポの良い会話が可能です。今回のアップデートで、男性と女性の声5つが追加され、合計9つの声から選択可能となりました。また、「カスタム指示」や「メモリ」機能が追加され、ユーザーの情報や話し方の指示に基づいてChatGPTとの対話をより自然かつ効率的にカスタマイズできるようになりました。会話のスピードやアクセントの理解力も向上し、よりスムーズな対話が可能です。

ChatGPT「高度な音声モード」で何ができる? 使ってみて感じたメリット

ChatGPTの「高度な音声モード」の提供が有料ユーザー向けに開始され、よりスムーズな会話が可能となりました。この新機能では、従来の音声モードと異なり、回答までの時間が大幅に短縮され、途中で話しかける「割り込み」も可能になっています。これにより、より人間に近いテンポでの会話が実現し、指示や質問に即座に対応することが可能です。また、デモでは通訳や声のトーン変更、カメラ映像の認識などが披露されており、幅広いシーンで活用できることが期待されています。

【破壊的】ChatGPTの新機能で英会話学校や営業トークの講師が廃業する?

ChatGPTの新機能「高度な音声モード(Advanced Voice Mode)」が有料ユーザー向けに登場し、タイムラグの少ない自然な会話が可能になりました。この機能を使うことで、英会話の練習や営業トークの訓練などがより実践的に行えます。ChatGPTにお客様役を演じさせて営業ロールプレイに活用したり、ネイティブスピーカーとの会話をシミュレーションすることも可能です。0.3秒での回答や感情的な表現もできるため、人間と話しているような体験が得られます。この進化は英会話講師や営業トークの講師にとって脅威となり、AIが従来の指導方法を変える可能性が高いです。

ChatGPT、会話の「間」0.3秒に 人間味増し悪用リスクも

OpenAIは、人工知能(AI)を使った対話型システム「ChatGPT」に新たな音声機能「アドバンスト・ボイス・モード」を導入しました。この機能により、AIとの会話の反応速度はわずか0.3秒と、人間同士のような自然な会話が可能になりました。感情を読み取るAIの登場で、仕事や生活の効率向上が期待されていますが、なりすましなどの悪用リスクも指摘されています。AI技術の進化に伴い、その便利さとリスクの両面が注目されています。

Googleの「NotebookLM」、YouTube動画の概要生成も可能に

Googleは、Gemini 1.5 Proを搭載したメモアプリ「NotebookLM」でYouTubeのURLとオーディオファイル(MP3、WAVなど)を情報源として追加できるようにしました。NotebookLMは、ユーザーが選択したソースを基に要約やアイデアの説明、ブレインストーミングができる仮想リサーチアシスタントです。YouTube動画の文字起こしが50万語未満であれば、動画の長さに制限なく概要を生成できます。日本語を含む多数の言語に対応しており、英語の内容も日本語で要約可能です。

グーグル、自分だけのAIノート「NotebookLM」がYouTubeやオーディオ対応

Googleは、自分だけのAIデータベースを作れる「NotebookLM」にYouTubeやオーディオファイルのサポートを追加しました。NotebookLMはユーザーがアップロードしたデータに基づき、大規模言語モデル(LLM)が要約や回答を行う仕組みです。今回のアップデートにより、YouTubeの動画やMP3などのオーディオファイルをノートブックに追加し、動画の要約や音声録音の書き起こしが可能になりました。また、英語の「Audio Overview」を他の人に共有できる機能も追加され、講義や会議の内容を効率的に利用できます。

【2】画像・動画生成AI

グラビアカメラマンがAI生成したグラビア写真をAIで動画化してみた。架空ゲームショウの謎コスプレもあるよ

今回、過去に作成したグラビア写真を元に、AIを使って動画化するコラボ企画が行われました。使用した画像はSD 1.5、SDXL、SD3 Medium、FLUX.1 [dev]など、さまざまなAIモデルから生成されています。動画は「Runway Gen-3 Alpha Turbo」のImage to Video機能を用いてプロンプトなしで生成し、1280×768ピクセル、24FPSのMPEG-4ムービーが作られました。それぞれのAIモデルで異なる表現や動きが見られ、特にFLUX.1 [dev]で作成されたものは高解像度で、実写に近いクオリティを実現しています。動画全編はYouTubeで公開されており、グラビア写真からAIで動画化する可能性の広がりが感じられます。

画像生成AIはゲーム作りをどう変えるのか?【TGS2024】

東京ゲームショウ2024では、画像生成AI「Adobe Firefly」が展示され、ゲーム開発における生成AIの活用が注目されました。Adobe Fireflyはテキスト入力で商用利用可能な画像を生成でき、著作権に配慮したコンテンツを提供しています。今後は動画を生成する機能も搭載され、自社のキャラクターとAI生成の背景を組み合わせることも可能です。この技術により、ゲームの開発効率が向上し、独自の世界観を持つ作品が生まれる可能性が広がっています。

Adobeの動画生成AI「Firefly Video Model」は、OpenAI・Soraと比べてどう違うのか?

Adobeが新たに発表した動画生成AI「Firefly Video Model」は、テキストプロンプトからリアルな動画を生成する技術です。他のAI動画生成モデルと比較すると、カメラのアングルや動き、ズームなどの細かなコントロールが可能で、動画を微調整できる点が特徴です。また、画像を動画に変換したり、2D・3Dのアニメーション効果を追加することも可能です。Fireflyはパブリックドメインのデータでトレーニングされており、著作権問題にも配慮されています。今後、Adobeの動画生成モデルがどれだけリアルな動画を生成できるかに注目が集まっています。

アドビが作業データ作成・管理プラットフォーム「Adobe Workfront Planning」を提供開始

アドビは、プロジェクト管理ソリューション「Adobe Workfront」の一部として、作業データ作成・管理の一元化プラットフォーム「Adobe Workfront Planning」の提供を開始しました。このプラットフォームは、マーケティング活動を集約し、戦略的なプランニングと実行をサポートします。ワークフローとデータを結び付け、AIによる会話型インターフェースを通じてインサイトにアクセスできるため、キャンペーンの計画や立ち上げが効率化され、チーム間の調整作業も削減されます。

動画生成AIとは?商用利用上の注意点からおすすめアプリ12選まで紹介

動画生成AIは、ユーザーが入力したテキストや音声から新しい動画を自動生成できるAIです。商用利用する際は、アプリごとに利用可能かどうかの確認や無料・有料プランによる対応の違いに注意が必要です。この記事では、ビジネスシーンで使える12個のおすすめ動画生成AIアプリを紹介しています。例えば「Haiper」はテキストや画像から動画を作成でき、「Runway Gen-2」は英語テキストから素早く動画を生成できます。自社のニーズに合った動画生成AIを選ぶことで、効率的な動画制作が可能になります。

【3】モバイル・マルチモーダルAI

AIでさらに進化した Google Pixel 9 シリーズ。AIアシスタント「 Gemini 」やカメラ機能がスゴすぎた!

Google Pixel 9シリーズが新たに発売され、AIアシスタント「Gemini」が搭載されました。Geminiはテキストや画像、音声、動画などを同時に処理し、ビジネスから日常生活まで幅広くサポートしてくれるAIです。情報収集や資料作成、議事録の作成などビジネスシーンでの効率化に役立つだけでなく、献立の提案や旅行プランの作成など、プライベートでも活用可能です。また、Googleサービスと連携し、より便利に使える点も魅力です。AI機能に加え、カメラ機能も進化しており、ビジネスでもプライベートでも活躍する1台です。

GeminiアプリがGoogle Workspaceユーザーでも利用可能に

Googleは、スタンドアロンのGeminiアプリをGoogle WorkspaceのBusiness、Enterprise、Frontlineプランに含めることを発表しました。Geminiを利用することで、AIアシスタントを活用した業務が可能になり、Gmailやドキュメント、ドライブでもGeminiを使用できるようになりました。また、AIの大規模言語モデル「Gemini-1.5-Pro-002」と「Gemini-1.5-Flash-002」も発表され、性能や速度、コスト効率が向上しました。1.5 Proの価格も値下げされ、レート制限や出力速度も改善されています。

サムスン、Galaxy Tab S10 Ultra、Galaxy Tab S10+を発表!箱から出してすぐにAI機能を利用できるタブレット

サムスン電子ジャパンは、AI対応の最新タブレット「Galaxy Tab S10 Ultra」と「Galaxy Tab S10+」を発表し、10月3日から販売開始します。両モデルはMediaTek Dimensity 9300+を搭載し、Galaxy初のAI機能が最初からインストールされています。ディスプレイはDynamic AMOLED 2Xで、Sペンを使用したAIスケッチや検索などの機能が利用可能です。価格は、Galaxy Tab S10 Ultraが219,120円から、Galaxy Tab S10+が187,440円からとなっています。

Snapchatが連携先をChatGPTからGoogle Geminiに変更 何が変わった?:「My AI」内でのマルチモーダル生成AI体験を強化

Snapchatの開発元Snapは、Google Cloudとの戦略的パートナーシップを拡大し、AI搭載チャットbot「My AI」にGoogle Cloudの生成AIプラットフォーム「Vertex AI」の「Gemini」マルチモーダル機能を導入しました。この新しい機能により、テキストだけでなく音声、画像、動画、コードなどさまざまな形式の情報を理解・操作できるようになり、ユーザーは旅行中の写真の翻訳や商品の健康度比較など、より多様なインタラクションが可能になりました。以前はOpenAIのChatGPTをベースにしていましたが、Google Geminiへの切り替えによりMy AIの利用は2.5倍以上に増加し、より高度なマルチモーダルAI体験を提供しています。

「iPhone 16 Pro」レビュー:「Apple Intelligence」で便利になったが、決定的な利点はまだ見えない

「iPhone 16 Pro」シリーズは、新たに「Apple Intelligence」機能を搭載し、AIによるスマートリプライやSiriの改良など、日常で役立つ機能が追加されました。しかし、多くの新機能はまだベータ版であり、他社のスマートフォンと比較して決定的な優位性は見られません。ハードウェア面ではカメラ機能やバッテリー寿命が強化されており、Proモデルでは高解像度の動画撮影やスタジオ品質のマイクを利用できますが、今後のソフトウェアアップデートでさらに進化することが期待されています。

【4】生成AI活用事例

ChatGPTで勉強計画を立ててみた! 忘却曲線活用からクイズ作成まで徹底検証

勉強にChatGPTを活用することで効率が大幅に向上します。この記事では、AIを使った学習方法のメリットと使い方について紹介しています。AIを使うメリットの1つは、ゲーム感覚で気軽に勉強できることです。また、AIは24時間いつでも質問に答えてくれるため、効率的に学習できます。さらに、エビングハウスの忘却曲線に基づいた勉強計画をAIに立ててもらったり、AIにクイズを出してもらったりすることで、記憶定着や学習の復習がスムーズに行えます。これにより、自分で計画を立てる手間が省け、最適な学習スケジュールを作成できるのです。日々の勉強にAIを取り入れることで、効率的で楽しい学習が可能になります。


ChatGPTでExcelのマクロを作成してみよう

この記事では、ChatGPTを使ってExcelのマクロを作成する方法が紹介されています。ChatGPTに「このマクロの実装方法を教えてください」と尋ねることで、手順を解説してくれます。実際に使う際にはExcelの「開発」タブを表示し、VBAコードをコピー&ペーストすることで簡単にマクロを実行できます。無料版のGPT-3.5でも正常に動作し、セルの関数が正しい出力結果に変わることが確認されています。マクロの実装が初めてでも、ChatGPTを活用すればスムーズに進められます。

ハローワークに生成AI 求人・求職マッチング精度向上へ

厚生労働省は、ハローワークのサービスに生成AI(人工知能)を導入する方針を決定しました。米企業OpenAIをアドバイザーとして起用し、求人と求職者のマッチング精度や効率を高めるためのプロジェクトチーム(PT)を発足します。この取り組みにより、企業の人手不足解消や求職者の就職支援の改善が期待されています。9月中にPTの立ち上げが発表される予定で、オンラインでの求人・求職申し込みや職業紹介にAIを活用していく方針です。

【5】生成AI業界

OpenAIからCTOに続き最高研究責任者と研究担当副社長も退社

OpenAIのミラ・ムラティCTOに続き、最高研究責任者(CRO)ボブ・マグルー氏と研究担当副社長バレット・ゾフ氏も退社することが明らかになりました。サム・アルトマンCEOは、退社の理由について「リーダーシップの交代は企業にとって自然なこと」とコメントしています。ムラティ氏はOpenAIが好調な時期に退社することを望んだとされ、突然の退社は情報漏洩を防ぐためだったと説明されています。また、OpenAIは営利目的の公益法人に再編する計画が進められていると報じられています。

【ホワイトカラーの仕事も生成AIに奪われる?】文章作成から数学的処理まで、広がる「会話型AI」の可能性

生成AIの登場は社会に大きな変化をもたらしています。特に2022年に登場した画像生成AI「Dall-E 2」や「Midjourney」、そしてChatGPTなどが話題となり、生成AIの存在が一般にも広く知られるようになりました。ChatGPTは公開から2ヶ月で1億ユーザーに達し、翻訳、プログラミング、文章作成など多岐にわたるタスクをこなします。しかし、この便利さの一方で、AIが差別的な判断や偽情報の拡散、環境への負荷などの倫理的課題も浮上しています。今後の社会では、この「生成AI」と共存するための倫理的創造性が求められています。

エヌビディアより有望な投資先? 米電力大手のコンステレーション・エナジーを分析

エヌビディアの株価が2024年に156%上昇する一方、米電力大手コンステレーション・エナジーも129%上昇し、注目を集めています。コンステレーションは、マイクロソフトと10年間の契約を締結し、データセンター運営のエネルギー需要が急増する中での成長が期待されています。エヌビディアの収益成長が鈍化する一方で、コンステレーションはさらなる成長余地があると予測されています。今後のAIエネルギー需要の増加に対応し、同社が有望な投資先となる可能性が指摘されています。

進む「生成AIと家電の融合」欧州最大のエレクトロニクスショーで見た最先端

ドイツ・ベルリンで開催された「IFA 2024」では、家電とAIの融合が注目されました。AI技術を活用した製品が多数展示され、家電の利便性が大幅に向上していることが示されました。例えば、ドイツのシーメンスはAIが調理をサポートするオーブンを商品化し、ユーザーが食材を入れるだけでAIが最適な火加減や調理時間を自動で設定します。また、イタリアのキャンディは、スマートフォンで撮影した洗濯物の写真をAIが解析し、生地に合わせた洗濯コースを選択するスマート洗濯機を発売しています。こうしたAI技術の進化により、家電製品がますますスマートになり、ユーザーの生活をより便利にする時代が到来しています。

ChatGPTに偽の記憶を植え付けてユーザーデータを盗む手法が開発される

ChatGPTにはメモリ機能があり、ユーザーとの会話の履歴を長期的に保持して使うことが可能です。このメモリ機能は2024年2月に発表され、9月から一般ユーザーにも提供されています。セキュリティ研究者のヨハン・レーベルガー氏は、プロンプトインジェクションという攻撃手法を使って、ChatGPTに偽の記憶を植え付ける脆弱性を発見しました。この攻撃により、本来は生成されないはずの情報を引き出し、ユーザーデータを盗むことが可能となります。この脆弱性はAIのセキュリティに対する新たなリスクを示しており、注意が必要です。

「時間の矢」が生成AIにも含まれていた? “未来から過去を予測”する逆の訓練をLLMで実施 海外チームが検証

スイスのEPFLや英ロンドン大学の研究者らは、大規模言語モデル(LLM)が「次のトークンを予測する能力」に比べ、「前のトークンを予測する能力」が劣ることを明らかにしました。この現象は、時間が過去から未来へと一方向に流れる「時間の矢」が影響していると考えられます。研究では、GPTやGRU、LSTMなどのモデルを用い、前向きと後ろ向きの予測を比較した結果、全てのモデルが前向きの予測で優位性を示しました。この現象は英語やフランス語を含む多様な言語で確認され、AIが自然言語の「時間の流れ」を学習過程で獲得している可能性が示唆されました。

生成AI導入への歩み~その1・導入の考え方~

多くの自治体では、住民ニーズの多様化や職員不足に対応するために、生成AIの導入を進めています。埼玉県戸田市では、24時間365日対応の「AI総合案内サービス」を導入し、住民の利便性を向上させています。また、東京都港区ではLINE公式アカウントでAIを活用したチャットボットの実証実験を開始し、住民がいつでも問い合わせできる環境を整備しました。しかし、自治体における生成AI導入には初期導入コストやデータセキュリティ、職員のスキル不足といった課題も存在します。これらの課題に対処し、効果的に生成AIを活用することが、自治体のデジタル化推進に重要です。

AppleとMeta、EUのAI協定に参加せず?その理由は

欧州連合(EU)のAI協定は、安全なAI開発を推進するための取り組みですが、AppleとMetaの2社がこの協定に参加していないことが明らかになりました。協定はAIガバナンス戦略、リスクの高いAIシステムの特定、従業員のAIリテラシー向上の3つを柱としています。Appleは10月に「Apple Intelligence」を導入する予定ですが、EUのデジタル市場法(DMA)により、同機能がEU内で使用できない状況です。この規制が協定不参加の理由かどうかは不明ですが、将来的に展開が認められれば参加する可能性もあります。

原発5個分。OpenAIのアルトマンCEO、米国政府に前代未聞のデータセンター建設を提案

OpenAIのサム・アルトマンCEOが、バイデン政権に対し、米国内の複数の都市に5GW(原発5基分に相当)の巨大データセンターを建設する提案を行いました。長期的にはこの規模のデータセンターを5~7基建設したいとしています。アルトマンCEOは、これにより数万人の雇用創出やGDPの押し上げ、AI開発における米国の主導権維持を期待しています。しかし、これだけの電力を供給することは困難で、供給力や送電網の拡張など多くの課題があります。

【6】SNS業界

YouTubeには架空の「奇妙な雑学」を投稿し続ける“謎のチャンネル”がある――ホラー好きの間で人気急上昇中の動画クリエイターに「発想の源泉」を聞いた

YouTubeチャンネル「奇譚師にんぎょ」(@mermaidbot97)が、架空の「奇妙な雑学」を投稿し続け、ホラー好きの間で話題になっています。約31万人のフォロワーを持つ彼は、「この人を捜さないで」「空に触らないで」といった都市伝説風の雑学を投稿。AIで生成されたリアルな画像やポスターが用いられているため、一見本物のように見えます。しかし、動画の最後に「この物語はフィクションです」と表示され、架空の世界だと判明します。奇譚師にんぎょの作品は「ゾクゾクする」と高評価され、多くの視聴者を魅了しています。

激安EC「Temu」テレビ、YouTubeで広告増える謎 安さの理由は?幅広い世代が利用している

中国発の越境ECアプリ「Temu」が、日本でも注目を集めています。2022年9月にアメリカでサービスを開始し、日本には2023年夏に上陸。1年足らずで月間利用者は2000万人に迫っています。Temuの安さの秘密は、運営企業PDDホールディングスの経営戦略にあります。中国で「拼多多(ピンドゥドゥ)」という激安ECプラットフォームを展開し、地方の中高年層をターゲットに低価格の商品を提供したことで9億人のユーザーを獲得しました。このノウハウが、Temuの安さを実現しています。

Tommy february6の人気がアメリカで沸騰!音源を使用したTikTokユーザー作成動画が1億再生を突破

Tommy february6の楽曲が、アメリカで大ブームを巻き起こしています。2000年代初期のカルチャー「Y2K」の世界的ブームの中、TikTokで彼女の「Lonely in Gorgeous」を使用した動画が1億再生を突破しました。川瀬智子によるソロプロジェクトであるTommy february6は、2001年から活動を開始。9月27日にはTikTokアカウントを米国と日本で開設し、「Lonely in Gorgeous」のMVを最初に投稿しました。Y2Kブームの中、彼女の人気はさらに高まっています。

【7】おすすめ動画

生成AI進化は「まだ二合目!?」世界最大規模のICTリサーチ&アドバイザリ企業が明かす生成AIのハイプ・サイクルについて紹介

ソフトバンクのAI戦略室の担当者が、ガートナー社が発表した2024年の生成AIのハイプサイクルを解説します。ガートナーは世界中のビジネスやテクノロジーの動向を分析する企業で、彼らのレポートは新しいテクノロジーの発展と適用可能なタイミングを予測する上で非常に重要です。

生成AIに関する主なトピックとして、「マルチモーダル生成AI」「オープンソースの大規模言語モデル」「ドメイン固有の生成AIモデル」「自立エージェント」の4つが紹介されています。ガートナーの予測によると、2027年までに約40%の生成AIがマルチモーダル化し、企業のAI活用が加速することが期待されています。

【ローソン 14,500店舗が秘める可能性】KDDI髙橋社長が通信業界の現状と今後を語る/KDDI流 生成AIはこう活用する/ローソンを通して実現する”未来のコンビニ”

KDDIの髙橋誠社長が通信業界の現状、今後の方向性、生成AIの活用法、ローソンを通して実現する「未来のコンビニ」について語ります。通信業界が他の産業とどのように連携していくか、またKDDIがどのように生成AIをビジネスに取り入れているかが詳細に紹介されています。

特に、ローソンの事例では、店舗の上にドローンを活用することなど、KDDIのテクノロジーを通してどのようにコンビニエンスストアが進化していくかが語られます。さらに、グローバルスタンダードな技術と日本独自のバリューを組み合わせて提供する「ソーシャルインパクト」の考え方についても説明され、通信業界が目指す未来像が明らかにされました。

【日本企業の生産性を変革するAI活用】AIの導入と活用は別

生成AIの業務活用が叫ばれる中、日本企業では導入企業と本格活用企業で二極化が進んでおり、実際にAIを活用できている企業は2~3割と少数にとどまっている。 その背景には、AIに対する漠然とした不安や、既存AIでは日本語対応や自社データとの連携が不十分で「使えない」と感じてしまう企業が多いことが挙げられる。

生成 AI 文脈でよく聞く RAG とは?

このビデオは、生成AIの文脈でよく聞く「RAG」について説明しています。 RAGは、生成AIモデルが外部のデータソースから情報を取得し、それを使用してより正確で包括的な回答を提供することを可能にするアーキテクチャです。 生成AIモデルは、大規模言語モデル(LLM)をベースとしていますが、LLM単独では正確性、網羅性、安全性などの観点で限界があります。そこで、RAGは、LLMに「リトリーバー」と呼ばれる補助システムを追加することで、これらの問題を解決します。

リトリーバーは、LLMがアクセスできない外部のデータソースから情報を取得し、LLMに提供することで、LLMの知識を補完します。 RAGは、生成AIが最新の情報を取得したり、機密情報を含む質問に回答したりすることを可能にし、生成AIの信頼性を高めるための重要な技術と言えます。

公式LINE登録で特典がもらえます


AIのある暮らし公式LINEに登録いただくと「AIの最新情報」「勉強会の募集」の案内や「本当にしごとに役立つプロンプト20選」ががもらえます。

さいごに

ここまでお読みいただきありがとうございました。

また今後もしごとや暮らしに役立つAI情報を発信していく予定ですので、アカウントのフォローをお願いいたします。

それではまた次の投稿でお会いしましょう!


この記事が参加している募集

この記事が気に入ったらサポートをしてみませんか?