見出し画像

週刊AIニュース (2024年1月1週目)

はじめに

明けましておめでとうございます。
2024年から1週間のAIニュースをまとめていきます。
記事を読むことで、「1週間の最新AI情報ををサクッとインプット」することができます。

2024年は辰年ということで、早速DALL-E3を使って画像を生成してみました。

画像をよく見ると「2224」になってました。AI頑張れ..笑

余談はさておき、早速本題に入っていきます。

本記事の対象者

  • 最新のAI情報をインプットしたい人

  • AI初心者から中級者の方

1月1週目のAI最新ニュース

  • 松尾研LLM 大規模言語モデル講座を無償公開

  • GPT-4 プロンプト26の原則

  • Googleが動画生成技術「VideoPoet」を発表

  • Appleが生成AI機能を搭載したスマホを検討

  • Windowsパソコンに「Copilotキー」を搭載

  • 中国が言葉や音をオーディオ形式に変換するAI「Amphion」を公開

松尾研LLM 大規模言語モデル講座を無償公開

Twitter(X)でも発信しましたが、松尾研が「LLM 大規模言語モデル講座 2023」を公開しました。

講座の内容は下記になっています。

日本のLLMの開発状況、プロンプティング、⽂脈内学習、Augmented Language Modelsといった内容や、Transformeやファインチューニングなどの応用的な内容までを学ぶことができます。
各スライドも図解が豊富なので理解しやすい構成になっています。

ぜひLLM技術について本質的な部分から学びたい人は活用してみてください。

GPT-4 プロンプト26の原則

大規模言語モデルの回答の品質が上がる「プロンプト26の原則」が公開されました。

これらの26の原則を使うことで、LLMからの応答の品質と正確さが大幅に向上することが示されています。

研究内容によると、LLaMA-1/2、GPT-3.5/4といったさまざまなモデルで行われました。これらの原則を適用することで、LLMの応答の正確性が平均して、小規模および中規模モデルで20%~30%、大規模モデルでは50%以上の改善が上がることがわかりました。

26の原則は下記のようにようになっています。

(1) 礼儀を省く:「お願いします」などの礼儀用語は不要。
(2) 対象者を明示:「専門家向け」など、返答を受け取る対象者をプロンプトに明示。
(3) 複雑なタスクの分割:複雑なタスクを簡単なプロンプトに分ける。
(4) 肯定的指示の使用:否定的な言葉ではなく肯定的な言葉を使用。
(5) 明確化のための指示:「簡単な言葉で説明して」「中学生にも分かるように説明して」など。
(6) 報酬の提示:「良い解答には報酬を出す」と示す。
(7) 事例を提示:既存の事例を使用。
(8) プロンプトのフォーマット:「###Instruction###」で始め、適宜「###Example###」や「###Question###」を含める。
(9) 明確なタスク指示:「あなたのタスクは」と指示。
(10) ペナルティの提示:「ペナルティあり」と伝える。
(11) 自然言語による回答指示:「自然言語で回答して」と指示。
(12) 先導的な言葉の使用:「ステップバイステップで考えて」と指示。
(13) 偏見の排除:「偏見を持たず、ステレオタイプに依存しない」と指示。
(14) ユーザーとの対話促進:問題解決までモデルに質問させる。
(15) テストを含む指導:テストを出してもらい、自分の理解度を試す。
(16) モデルへの役割割り当て:モデルに特定の役割を割り当てる。
(17) デリミターの使用:特定の区切り文字を使用。
(18) 繰り返しの使用:特定の単語やフレーズを複数回使用。
(19) 思考の連鎖:中間ステップを生成し、事例を組み合わせる。
(20) 出力プライマーの使用:期待される出力の始まりでプロンプトを終える。
(21) 詳細なテキストの作成指示:「詳細に書いて」と指示。
(22) スタイル変更の防止:「スタイルを変更しない」と指示。
(23) 複数ファイル対応のコーディングプロンプト:複数のファイルにまたがるコーディング作業の効率化のために、自動的に新しいファイルを作成し、生成されたコードを適切なファイルに挿入するスクリプトを作成することを提案。
(24) 特定の言葉でテキストを続ける:「与えられた言葉で完成させて」と指示。
(25) モデルの要件の明示:コンテンツを制作するためにモデルが守らなければならない要件を、キーワード、規定、ヒント、指示などの形で明示。
(26) サンプルに基づくテキスト作成:提供されたサンプルに基づいて同じ言語で書くよう指示。

Googleが動画生成技術「VideoPoet」を発表

Google Researchが、新しい動画生成技術「VideoPoet」を発表しました。

VideoPoetは、テキストから動画、画像から動画、動画のスタイリゼーション、動画の内部・外部編集、そして動画からオーディオへの変換など、幅広い動画生成タスクをこなすことができる大規模言語モデル(LLM)です。

また、VideoPoetは、動きや深さ、光の流れを表すビデオを取り込み、テキストに導かれたスタイルで内容を描画する機能を持っています。

VideoPoetでは、ビデオとオーディオを離散トークンのシーケンスとしてエンコードし、それらをもとの表現に戻すことができるトークナイザーを用いています。

Googleによるこの発表は、AI技術の進展とメディア生成の分野における新たな可能性を示しています。

Animating a painting with different prompts. Left: “A woman turning to look at the camera.” Right: “A woman yawning.” **

左: カメラを向く女性 右: あくびをする女性
(出典:Google Reserch Blog

Appleが生成AI機能を搭載したスマホを検討

Appleが生成AI機能を搭載したスマートフォンの開発を検討しているという情報です。

アナリストのJeff Puによると、Appleは2024年末を目処にiPhoneおよびiPadで生成AI技術の実装を開始する計画です。
Appleは2023年に数百台のAIサーバーを構築し、翌年にはさらに多くを追加する予定です。同社は、クラウドベースのAIと「エッジAI」(デバイス上でのデータ処理を行う)の組み合わせを提供するとされています。

2024年末の予定が守られれば、AppleはiOS 18およびiPadOS 18から生成AI機能の導入を開始する可能性があります。

具体的な使用方法は未定ですが、Siriに大規模言語モデルを組み込んで複雑なタスクを自動化する機能が含まれる可能性もあります。

またBloombergのMark Gurmanによると、Appleは「ChatGPT」に似た「Apple GPT」というニックネームのチャットボットを社内でテスト中であるということもわかっています。

Appleが生成AI技術を搭載したスマートフォンの開発に積極的に取り組んでいることが伺えますが、具体的な導入時期や機能の詳細はまだ不明です。

Windowsパソコンに「Copilotキー」を搭載

MicrosoftはWindows 11 PCに新しい「Copilotキー」を導入すると発表しました。これは、Windowsのキーボードにおける約30年ぶりの大きな変更になっています。

  • AIの統合

  • Copilotキーの導入

  • 広範な導入予定

  • AI体験の強化

AIの統合

Microsoftは、AIをシステム、シリコン、ハードウェアにわたってWindowsにシームレスに統合することを目指しています。
これにより、2024年を「AI PCの年」として、より個人的で知能的なコンピューティングの未来への重要なシフトを迎えることになります。

Copilotキーの導入

Copilotキーは、Windowsキーと同様にPCキーボードの中核部分となります。
このキーは、日常生活でCopilotをシームレスに利用するための新しい方法を提供します。
Copilotキーを押すことで、Windows内のCopilot体験が呼び出されます​。

広範な導入予定

CESに先立ち、新しいWindows 11 PCにCopilotキーが搭載されるようになります。これには、今後発売されるSurfaceデバイスも含まれ、今月から春にかけて利用可能になる予定です。

AI体験の強化

Microsoftは、クラウド処理とローカル処理の境界を曖昧にするオペレーティングシステムを構築することにより、Windowsを最高のAI体験の目的地にすることを目指しています。

中国が言葉や音をオーディオ形式に変換するAI「Amphion」を公開

https://github.com/open-mmlab/Amphion


2023年12月15日、香港中文大学(深セン)のデータサイエンス学部を含む研究チームは、オーディオ音楽・音声生成のための包括的ツールキット「Amphion」の開発を発表しました。

研究者がAmphionの作成した作品を動画「Amphionはテイラー・スウィフトに中国語の歌を歌わせる」と題して公開し、SNSを賑あわせました。

Amphionは、テキストから音声(TTS)、歌声変換(SVC)、テキストからオーディオ(TTA)などの機能を提供します。

ツールキットはMITライセンスのもとでオープンソースとして公開されており、GitHubで利用することができます。

最後に

いかがだったでしょうか。今週のAI情報をまとめました。

  • 松尾研LLM 大規模言語モデル講座を無償公開

  • GPT-4 プロンプト26の原則

  • Googleが動画生成技術「VideoPoet」を発表

  • Appleが生成AI機能を搭載したスマホを検討

  • Windowsパソコンに「Copilotキー」を搭載

  • 中国が言葉や音をオーディオ形式に変換するAI「Amphion」を公開

Twitter (X)では、AI関連の情報に加え、エンジニア向けの情報なども発信しているので、ぜひフォローしてみてください。

https://twitter.com/MacopeninSUTABA

加えて、1/22 (月) 19:00~「音楽×IT」をテーマにしたイベントを開催するので、興味ある方はぜひ参加してみてください。


この記事が気に入ったらサポートをしてみませんか?