サム・アルトマン、オリオン（GPT-5）、NotebookLM、Pixtral、Metaのフェイスブックデータを使った学習について匂わせる

2024年9月18日 06:18

8,193 文字

最初のニュースは、サム・オルトマンからのまた一つの謎めいたツイートやねん。前回の謎めいたツイートは、ストロベリーのリリースの約2ヶ月前やったんやけど。
ほんで、この動画はVultureの提供でお届けしとんねん。Vultureは、最新のNVIDIAチップを使って生成AI系のスタートアップを簡単に立ち上げられるサービスやで。Vultureの詳細は、動画の説明欄にリンク貼っとくわ。
今回のツイートではこう言うてんねん。「中西部の故郷に帰ってくるんが大好きや。夜空が美しくて、冬の星座がすぐに昇ってくるのが楽しみやわ。めっちゃええんよ」
このツイートから、もうすでにようけの情報が解読できるんや。まず「I love」から始まっとるんやけど、前回のストロベリーに関するツイートでも、全部小文字で「i love」って始まっとったんよ。ほんで、OpenAIから新しいモデルや技術が出る時のヒントとしては、前回とよう似たパターンやな。
「中西部の故郷に帰ってくるんが大好きや。夜空が美しくて」って続くねんけど、「冬の星座」って言うとるやろ？この「星座」っちゅうのは、噂されとる次の最先端モデル「オリオン」を指しとるんやろうな。ほんで「冬」やから、年末までには期待できるかもしれんな。
最後に「めっちゃええんよ」って言うとるけど、誰かが調べてくれたんやけど、オリオン座は確かに冬の代表的で見つけやすい星座の一つやねんて。オリオンモデルは間違いなくもうすぐ出てくるで。
次はマイクロソフトの話やな。コパイロット製品をリニューアルしとるんやけど、正直言うて、リニューアルは必要やったんちゃうかな。一番魅力的な機能やった「リコール」は無期限延期されとったし、来月にはリリースされるかもしれんっちゅう情報が出たばっかりやったんや。
ほんで、今までは専用のコパイロットキーを押したら、ChatGPTがWindowsにネイティブで開くっちゅうだけで、ウェブ版のChatGPTとあんまり変わらへんかったんよ。だから、マイクロソフトがAIをWindowsのあらゆる側面に統合し続けとるのを見るのは嬉しいわ。
新しく追加される機能について話そか。これがコパイロット・ページっちゅうやつや。どんなもんか見せたるわ。
これ、Perplexityによう似とるな。ウェブ検索ができて、外部のウェブページを参照できるんや。ほんで答えを出してくれて、そこからページも作れるんよ。今まで見たことないもんやないけど、AIで作ったもんから、チームの誰かと共同作業を始められて、AIを使ってそのドキュメントを改良し続けられるっちゅうインターフェースがユニークやと思うわ。
ほんで、ここに誰かが入力しとるの見えるやろ？「同じ構造を使って、営業機会のための提案概要を表形式で作成して」って。ほんま深く統合されたAIの作業プロダクトやな。ええと思うわ、めっちゃ。
次は、Excelのコパイロットや。普通の表計算シートがあって、右側にコパイロットのウィンドウがあるんや。Pythonコードを書いてくれて、自動的にExcelドキュメントに出力してくれんねん。めっちゃクールやで。
いつもみたいに、自然言語で欲しいものを正確に入力するだけで、コパイロットがExcelで作ってくれんねん。ほんで、いろんなチャートができるわ。チャートに何を表示したいか正確に指定せんでも、出力で何を達成したいかを指定するだけでええんや。
ほんで、これがそのチャートを作るために書かれたPythonコードや。めっちゃ印象的やわ。ほんまええと思う。
次は、PowerPointのコパイロットや。多分同じような感じやと思うわ。見たいものを正確に入力したら、デッキを作ってくれるんやろな。
「商業用EV充電ステーションが小売企業にとって価値がある理由を説明してください。顧客を引き付け、来店頻度を増やすのにどう役立つかも含めて」
全部リサーチしてくれて、デッキを組み立ててくれんねん。好きなように再構成したり、追加したりもできるわ。見てみ、簡単なプロンプトとボタンクリック一つで、デッキ全体が作れるんやで。
次はOutlookのコパイロットや。フォローアップの仕方のちょっとしたヒントをくれたり、上にサマリーを表示してくれたりしとるな。めっちゃ革新的なもんやないけど、それでもクールやと思うわ。
でも、ほんまに見せたいのは、コパイロット・スタジオのエージェント・ビルダーや。マイクロソフトのエージェントがどんなもんか見てみよか。
これがコパイロット・スタジオや。これはフィールドサービスエージェントやね。カスタムGPTsにめっちゃ似とるわ。他のエージェントフレームワークで作ったような完全なエージェントやないけど、カスタムGPTsの再スキンみたいなもんやな。まあ、カスタムGPTsは好きやから、ええと思うけどな。
特定のドキュメントにリンクできるし、ウェブ検索機能も付けられるし、社内のドキュメントも見れるようにできるんや。ほんまええわ。でも、基本的にはカスタムGPTsやな。
サティア・ナデラがコメントしとんねん。普通なら一つのコメントだけ取り上げへんけど、これはほんまに意味深で、OpenAIに対するちょっとした当てこすりにもなっとるんや。
「AIがより高性能になって、エージェントモデル自体がコモディティ化するにつれて、全ての価値は、ビジネスデータやワークフローでこれらのモデルをどうステアリング、グラウンディング、ファインチューニングするか、そして人間からAI、AIから人間へのインタラクションのUIレイヤーとどう組み合わせるかによって生み出されるようになる」
これ、このチャンネルで何度も話したことやな。モデルはコモディティ化しとるんや。特にLlamaがリリースされて、トップクラスのクローズドソースの最先端モデルとほぼ同じパフォーマンスを出せるようになってからは、もうコモディティやねん。
サティアは、前から言うとるけど、4次元チェスをしとるんや。あらゆるAI企業に投資しとって、OpenAIのモデルだけに全てを賭けとるわけやないねん。MetaのLlamaとも提携しとるし、めっちゃAIに全力投球しとるのには感心するわ。マイクロソフトの全ての新製品、おめでとうやな。
次は、MetaとLlamaの話や。マーク・ザッカーバーグが、LlamaをFacebookのデータで学習させてへんって言うてたんが、嘘やったかもしれんのや。
The Vergeが先週、こんな記事を出したんや。「Metaは、EUにおらん限り、2007年以降に公開投稿したほぼ全てのものをAIに食わせた」。FacebookやInstagramの投稿を公開したままにしとったら、AI学習設定からオプトアウトする方法がないんやて。
マーク・ザッカーバーグが本当に言いたかったんは、プライベートなデータでは学習させへんってことかもしれんけど、公開投稿なら学習させたんやろうな。まあ、納得はできるわ。
OpenAIや他のAI企業と違うところは、自社製品から得られる高品質なユニークなデータを持っとるっちゅうことやからな。Metaは、2007年以降に大人のFacebookとInstagramユーザーが公開した全てのテキストと写真をAIモデルに学習させたって認めとんねん。
オーストラリアのABCニュースによると、Metaのグローバル・プライバシー・ディレクターのメリンダ・クレイアは、最初はAI導入に関する地方政府の調査で、2007年のユーザーデータがAI学習に使われとるっちゅう主張を否定したんやけど、追加の質問の後で認めたんやて。
「要するに、2007年以降の投稿を意識的にプライベートに設定してない限り、Metaは、InstagramやFacebookの全ての公開投稿から、全ての写真と全てのテキストをスクレイピングすることに決めたんです。意識的にプライベートに設定しない限り、それが現実なんですよね？」って聞かれて、「その通りです」って答えたんや。
ほんで、彼らのプライバシーセンターを見たら、ほんまにそう書いとるんやで。「FacebookとInstagramの公開投稿とコメントを使って、これらの機能用の生成AIモデルを学習させ、オープンソースコミュニティにも提供します。公開以外の対象者向けの投稿やコメントは、これらの目的には使用しません」って。
マーク・ザッカーバーグが、Facebookのデータで学習させへんって言うとったのを覚えとるけど、もしかしたら「プライベートなデータ」って言うとったのに、気づかんかったんかもしれんな。まあ、Facebookを使っとって、コンテンツが公開されとるなら、データは学習に使われとるってことやな。
次は、MRAW AIが新しいモデルをリリースしたんや。MRAWらしく、トレントリンクを投げただけで、みんなが何なのかを解読せなあかんかったんやけどな。
結局、Pixol 12bっちゅう視覚モデルやったんや。画像をロードして、その画像について何でも聞けるんやて。まだ試す機会がなかったんやけど、もし試してほしかったら、コメントで教えてな。
次は、元OpenAI従業員による新しいオープンソースプロジェクトがめっちゃクールそうやねん。
ウィリアムが言うとんねん。「プロンプトエンジニアリングの未来、E11の発表に興奮しとります。OpenAIでの経験から生まれたアイデアを元に開発したE11は、軽量な機能的LMプログラミングライブラリで、自動バージョン管理とトレース機能、豊富なローカルOSS可視化ツール、マルチモーダリティにネイティブ対応しとります」
E11は、Lang chainみたいなフレームワークへの不満から生まれたんやて。三つの原則があって、「プロンプトは文字列やなくてプログラムや」「プロンプトは機械学習モデルのパラメータや」「言語モデルの呼び出しは一回一回が貴重や」っちゅうことやな。プロンプティングは読みやすくて科学的であるべきやって。
使い方の例を見せたるわ。左側に見えとるのは、Lang chainとE11で基本的に同じことをしとるんや。コードは数行で、モデルを指定して、使いたいプロンプトの関数を定義するんや。例えば、jokeを定義して、「tell me a joke about」を返すんや。ほんで、そのメソッドを呼ぶだけやねん。
プロンプトエンジニアリングは最適化のプロセスやから、E11は自動的にバージョン管理してシリアライズしてくれんねん。特別なIDEやエディタは要らへんのや。
ほんで、オープンソースのUIもあるんや。「E11 studio」っちゅう、ローカルで動くオープンソースツールで、プロンプトのバージョン管理、モニタリング、可視化ができんねん。これがそのUIや。
プロンプトのバージョン管理は、大規模言語モデルを使って堅牢なシステムを作る時、特にエージェントフレームワークを使う時には、めっちゃ重要やねん。
ほんで、マルチモーダルにもネイティブ対応しとるんや。ここに見えとる画像が全部出力されとるやろ。
気になったら、説明欄にGitHubのリンク貼っとくから、チェックしてみてな。オープンソースやから、楽しんでや。
次は、AdobeがFireflyっちゅうブランド名で、独自のテキスト生成動画モデルを出すらしいねん。
アレクサンドルが言うとんねん。「Adobe Firefly動画モデルの登場や。今日発表されて、今年の後半に公開ベータが出るらしいで。商用利用でも安全に使えるように設計されとんねん」
これがAdobeのAI事業の特徴やな。自社で所有しとるか、ライセンスを取得したIPだけで学習させとるって言うとんねん。
「素晴らしい映画品質と流動的なモーション、カメラコントロール、そしてもちろん、我々のツールとの深い統合」やて。
こんな感じになるらしいわ。画像をアップロードして、プロンプトを入力したら生成してくれんねん。
いくつか例を見せたるわ。いろんなプロンプトで、動画の出来はそこそこええと思うわ。完璧やないけど、なかなかええやん。
今年の初めに出したテキスト生成画像製品と似とるけど、こっちはテキスト生成動画やな。
これがめっちゃすごいと思うわ。ここにあるのが本物の動画や。虫眼鏡で花を見とる小さな女の子やな。これが元の動画で、下にあるのが生成されたクリップや。
これは、撮り忘れた部分や、編集中に追加で必要になった部分を補完するのに使えるんちゃうかな。めっちゃ賢いアイデアやと思うわ。見た目もええし、編集中に追加で撮影が必要になった時、プロンプトを入力するだけで簡単に作れるようになるんやで。
次は、ClaraのCEOが、AIを使って自社のテキストスタック全体を書き直しとるんやて。これは、SaaSビジネスの未来にとってめっちゃ示唆に富んどると思うわ。
SaaSビジネスは長年、過剰に料金を取っとったんやけどな。昔、わいもSaaSスタートアップの創業者やったから、よう分かるんや。
ClaraのCEOが言うには、同社はSaaSプロバイダーのSalesforceを停止して、数週間以内にWorkdayも停止するらしいねん。世界最大級のSaaS企業2社やで。
「AIの標準化と簡素化を組み合わせた大規模な社内イニシアチブが進行中や。例えば、つい最近Salesforceを停止したばかりで、数週間以内にWorkdayも停止する予定や。統合できるようになったんで、多くのSaaSプロバイダーを停止しとんねん」やて。
正直、これについては複雑な思いがあんねん。一方では、ソフトウェアをもっと効率的に、もっと高速に作れる新しいツールがあるから、従業員数によってはめっちゃ高くつくSaaSに全部払う必要がないんかもしれんって思うわ。
でも他方では、エンジニアは一般的に、新しいシステムを構築するのに必要な作業量を過小評価しがちやねん。これもその例になるんちゃうかなって思うわ。
わいの前の会社では、実際に作っとった中核のソフトウェアが難しかったわけやないねん。他のプラットフォームとの統合や、その統合の構築、メンテナンス、必要な統合を全部確保することが大変やったんや。これにはめっちゃ時間がかかんねん。AIがそこまでできるかどうか分からんけど、AIがSaaS業界にどう影響するか、見ものやと思うわ。
次は、Google LabsがNotebook LMをリリースしたんや。これは基本的に、ノートやドキュメントをアップロードして、それをポッドキャストに変換してくれるもんやねん。
「新しいオーディオ概要機能を使えば、ドキュメント、スライド、チャートなどを、ワンクリックで魅力的なディスカッションに変えられます」やて。
これは、ブログ記事を元にした例やな。「Notebook LMがグローバル化、スライドサポートとより良いファクトチェック方法を追加」
「情報の海に溺れそうになったことない？記事、PDF、ウェブサイト、全部が宇宙の秘密を解き明かすって約束しとるけど、少なくとも先延ばしにしとった研究プロジェクトを終わらせるのを手伝ってくれるんやけどな」
「ほんまそれ。消火栓から水を飲もうとしとるみたいやな」
なかなかええ感じやけど、実際の使い道を考えとんねん。研究論文をアップロードして聞くのはイメージできるけど、読むのと同じくらい効果的かどうか分からんわ。
これの使い道、どう思う？技術的にはめっちゃクールやけど、実際のアプリケーションがよう分からんのや。
次は、もちろん先週OpenAIがo1をリリースしたやつやな。めっちゃ話題になって、わいも何本か動画を作ったわ。まだ見てへんかったら、チェックしてみてな。
それで、ARCプライズがテストしたんや。ARCプライズは、AGI専用のベンチマークやって思い出してな。世界の他のベンチマークの多くは、人工知能にもう打ち負かされとんねんけど、ARCプライズはユニークなんや。
人間が見たら簡単に解けるけど、AIはめっちゃ苦戦するんや。新しい知識を獲得して、その新しい知識を使ってパズルを解く能力を特別にテストしとんねん。
o1はなかなかええ成績を収めたみたいやけど、モデルをテストするだけじゃ足りへんみたいやな。それがどういうことか、説明したるわ。
ここに見えとるのが、Gemini 1.5が8%、GPT-4が9%、o1ミニとo1プレビューが13%、Sonnet 3.5が21%の得点やな。
21%ってそんなにすごくないように聞こえるかもしれんけど、GPT-4の9%と比べたら、めっちゃ大きな進歩やねんで。
他の企業はもっとええ成績を出しとるんや。例えば、Mines AIなんかは、生のモデルだけやなくて、ファインチューニングや異なるエージェントフレームワークを使って、46%の得点を出しとんねん。
だから今、わいが思うんは、Mines AIみたいな企業がo1を取り込んで、46%を達成した既存のフレームワークに組み込んで、もっと高い得点を出すんちゃうかなってことや。
今のところ、生のモデルだけじゃ足りへんってことやな。
次は、ビデオゲームの未来をちょっと覗いてみよか。Tencentが「Game Gen O」っちゅうオープンワールドビデオゲーム生成を発表したんや。この動画を見てみ。
論文とGitHubページがあんねん。「Game Gen Oを紹介します。オープンワールドビデオゲームの生成に特化した最初の拡散トランスフォーマーモデルです。革新的なキャラクター、動的な環境、複雑なアクション、多様なイベントなど、幅広いゲームエンジン機能をシミュレートすることで、高品質なオープンドメイン生成を実現します」やて。
数週間前に、拡散モデルだけでDoomが作られたって話をしたばっかりやのに、もうこれや。
数年後にはビデオゲームが大きく変わると思わんかったら、めっちゃびっくりすることになるで。
実際の生成例をいくつか見てみよか。これがキャラクターの生成や。ここにリヴィアのゲラルトがおるな。これはRed Dead Redemptionによう似とるし、これは警備員で、メタルギアソリッドのスネークみたいやな。
環境生成もできるんや。これは綺麗な桜やし、これはヤシの木、これはピラミッドや。
アクションシーンも生成できるんや。これは運転しとるとこ、これは飛んどる、これは船に乗っとる、これはバイクやな。めっちゃええ感じやで。
ここにあるのは、現代のビデオゲームみたいな世界を歩いとるキャラクターやな。これはサイバーパンク風で、これはDestinyに似とるな。
ほんま、ビデオゲームの未来がどうなるか示しとる、めっちゃクールなプロジェクトやと思うわ。
今日の最後のニュースは、AIの母と呼ばれる人が新しい会社を立ち上げたんや。フェイ・リーが、World Labsを立ち上げて、2億3000万ドルの資金調達で10億ドルの評価額を得たんやて。
会社の焦点は、3D知覚を持つ人工知能の開発やねん。World Labsは、主力製品を「大規模世界モデル」って呼んどんねん。
会社設立を発表したブログ記事で、現在の生成AIモデルは、テキスト、音声、動画を通じてしか世界とやり取りできへんって指摘しとんねん。
これは、ヤン・ルカンがよう話しとることで、大規模言語モデルだけじゃ世界をモデル化するのに十分やないって言うとんねん。でも、それがWorld Labsがやろうとしとることなんや。
「空間人工知能：今日のモデルの能力を超えるには、世界をモデル化し、3D空間と時間の中でオブジェクト、場所、相互作用について推論できる空間的に知的なAIが必要です」やて。
これをやろうとしとる、あるいは少なくともデータを持っとる他の企業はテスラやな。テスラは、世界モデルの学習に使える現実世界の動画データをようけ持っとんねん。だから、テスラがすぐに何か出してくるんちゃうかなって、めっちゃ気になるわ。
今日はこれで終わりや。この動画が楽しめたら、高評価とチャンネル登録よろしくな。次の動画でまた会おな。

この記事が気に入ったらサポートをしてみませんか？