State of AI Report 2023が次に予測するもの

2023年10月13日 17:38

AIの現在地についてレポートするState of AIの2023年版が2023年10月12日に公開されていました。

よくまとまっていてめちゃめちゃ面白いのですが、163スライドもある力作で、なかなか読むのに体力が必要なんですよね・・・。というわけで、いくつか目に止まったスライドの和訳とメモを作成しましたので、読解の一助としていただければ幸いです。
（あくまでも私が気になったところに限ってメモしていますので、その点はご容赦ください）

エグゼクティブ・サマリ

研究分野に関するまとめ

GPT-4が登場し、次善のオープンソースの代替品との能力の差を示すとともに、強化学習による人間からのフィードバックの力を実証した。プロプライエタリモデルの性能を複製または上回るべく、より小さなモデル、より良いデータセット、長いコンテキストなどを用いた取り組みがLLaMa-1/2によって後押しされている。
人間が生成したデータでAIのスケーリング動向を維持できるのはどれくらいなのかは明らかではない。合成データの追加が及ぼす影響も不明である。動画や企業に閉じ込められたデータが次に注目されそうだ。
LLMと拡散モデルは、分子生物学と創薬の新たなブレークスルーをもたらす生命科学コミュニティへのギフトを提供し続けている。マルチモーダリティは新たなフロンティアとなり、あらゆる種類のエージェントへの期待が大幅に高まっている。

産業分野に関するまとめ

国家、スタートアップ、ビッグテック、研究者たちからの猛烈なGPU需要により、NVIDIAは1兆ドルの市場資本額クラブに飛び込んだ。
先進チップの対中国輸出規制があるものの、主要チップベンダーはそれを回避できる代替品を作り出した。
ChatGPTを筆頭に、GenAIアプリは画像、動画、コーディング、音声やすべての人のためのコパイロットなど、あらゆる分野で今年ブレークスルーを遂げ、180億ドルのVCと企業による投資を呼び起こした。

政治分野に関するまとめ

世界は明確な規制陣営に分かれつつあるが、グローバルガバナンスの進展はより遅いままだ。最大のAIラボがその空白を埋めようとしている。
チップ戦争は容赦なく続いているが、米国がその同盟国を動員する一方、中国の対応は不十分なままだ。
AIは選挙や雇用などのセンシティブな分野に影響を及ぼすと予測されているが、今のところ重大な影響は見られない。

安全性の分野に関するまとめ

存在リスクの議論がこれまでで初めて一般に広まり、大幅に高まった。多くの高性能モデルは簡単に「脱獄」できる。
強化学習による人間からのフィードバック(RLHF)への対策として、自己整列や人間の好みとの事前訓練などの代替手段が模索されている。
能力が進化するにつれ、SOTAモデルを一貫して評価することは困難になりつつある。「直感」だけでは足りない。

技術的なトピックに関するメモ

GPT-4の登場 - テキストと画像の両方を入力できるマルチモーダルな大規模言語モデルで、テキスト生成能力が飛躍的に向上。
長コンテキスト入力の実現 - FlashAttentionやALiBiなどの技術により、入力できるコンテキストの長さが格段に伸び、少数の例示で高精度な応答が可能に。
画像生成の向上 - Stable DiffusionやDALL-E 3に代表されるテキストから高精細画像への生成が実用水準に。
3D生成の進展 - NeRFをベースとしたテキストから3Dへの生成手法が登場。
ソフトウェアエージェントの出現 - Minecraftなどのゲームでコード生成やツール使用を行うテキストエージェントが実現。
科学分野での応用 - 生命科学や気象などでの知識ベースを利用した応用が進む。

産業へのインパクトに関するメモ

NVIDIAのGPU需要が急増し、データセンター関連製品の収益が前年比2倍以上に。AIモデルの大規模化で計算需要が高まる。
GenAIスタートアップへのVC投資が過去最高の180億ドルに達し、ChatGPTなど消費者向けサービスが登場。
言語・画像生成分野が最も投資が集中。テキストと画像の生成サービスが様々なアプリで利用され始める。
自動運転、ロボティクス、ヘルスケアなど他の分野でも注目度が高まり、実業務への適用が進む。
製薬、材料、気象などの科学分野でのAI活用が積極的になる。知識ベースを活用した課題解決が進む。
学習、コーディング、カスタマーサポートなどの分野で、AIが部分的に人間の作業を代替し始める兆候。
米中を中心とした各国でAI人材やインフラへの投資が活発化。企業間の技術競争が激化。

社会への影響に関するメモ

ChatGPTは歴史上最速のスピードで利用者数を伸ばし、教育やコーディング関連の既存サービスに影響を及ぼし始めている。
一部の専門職でAIによる代替の兆候がみられるが、大規模な失業へ直ちにつながる可能性は低い。むしろ人間とAIのコラボレーションが進むとの予想が主流。
AI生成コンテンツの著作権や真実性の確保が課題となり、規制強化の動きがある。一方で企業の自主規制も進展。
AIの能力向上に対する警戒感から、存在リスクを指摘する声が高まり、各国が安全対策に乗り出す兆候。
米中を中心にAI開発の地政学的競争が激化。先進国による途上国支援も模索されている。
AIの浸透スピードは加速度的に高まると予測され、10年で社会が一変する可能性が指摘されている。

2022年の予測と比較してどうだったか？

9項目中5項目が的中、3項目が外れ、1項目がイーブンという結果だったようです。結構当たってますね。

そして気になる2023年の予測は？

で、気になる次の12ヶ月における予測はこんな感じ。

ハリウッド級の作品が視覚効果にジェネレーティブAIを活用。
ジェネレーティブAIメディア企業が、2024年米国選挙サーキットでの悪用で調査される。
自己改善型AIエージェントは、複雑な環境（AAAゲーム、道具の使用、科学など）でSOTAを越える。
技術系IPO市場の雪解けが進み、AIに特化した企業（例：データブリックス）の大型上場が少なくとも1件見込まれる。
GenAIスケーリングの流行では、1つの大規模モデルを訓練するのに10億ドル以上を費やすグループもある。
米国のFTCや英国のCMAは、マイクロソフトとOpenAIの取引を競争上の理由で調査する。
グローバルなAIガバナンスについては、ハイレベルな自発的コミットメント以上の進展は限定的と見ている。
金融機関はGPUデットファンドを立ち上げ、VCのエクイティ資金に代わる計算機資金を調達する。
AIが作成した曲がビルボードホット100トップ10またはSpotifyトップヒッツ2024に入る。
推論ワークロードとコストが大幅に増加するにつれ、大手AI企業（OpenAIなど）が推論に特化したAIチップ企業を買収する。

AIエージェント推しの私としては、自己改善型AIエージェントの活躍が予測されているのが嬉しいなと感じました。レポート内ではめちゃめちゃサラっと流されていたので・・・。

Attention Is All You Needの著者はみんなGoogleを離れてスタートアップを立ち上げた

トランスフォーマーズマフィア😂

ChatGPTモデル変動の思い出の振り返り

ダウンストリームのタスクは、基礎となるLLMの性能に大きく依存する。しかし、GPTモデルは継続的に更新されているにもかかわらず、同じバージョンの変更はOpenAIからアナウンスされていない。同じLLMのバージョンでも、時間の経過とともに性能が大幅に異なることがユーザーから報告されている。誰もが継続的にパフォーマンスを監視するだけでなく、慎重にキュレーションされたプロンプトを更新しなければならなかった。

体感でもガラっとアウトプットが変わっていますよね。同じプロンプトで同様の成果を出し続けることは難しい。GPT-4のVerbosity（べらべら喋る度）が2023年6月モデルだと一気に落ちているところがウケますね。

コード生成と実行が可能なLLMは、オープンエンドな世界において強力なプランニング・エージェントになりうる

スライドではMinecraftでゲームを自動的に進行させるAIエージェントであるVoyagerの例が載っていますが、コード生成と実行が可能なLLMがパワフルなのはChatGPTのAdvanced Data Analysis（旧：Code Interpreter）やOpen Interpreterが話題になっているところからも推して知るべしって感じですね。

プランニングに関するスライドはこちらにも。LLMは私たちの世界に関する多くの情報を含んでいるため、プランを実行したときに起こりうる環境の変化もあわせてプランニングを検討するようなアルゴリズムを作ることもできる。高コストだけども、このプランニングアルゴリズムをLLaMA-33Bで実行した結果がGPT-4でChain of Thoughtした結果よりも良いパフォーマンスを示したのは面白いなーと思いました。

推論は伝統的に、可能な結果の空間を探索し、最良のものを選ぶと考えられてきた。LLMは世界に関する多くの情報を含んでいるため、計画アルゴリズムが探索できるこの空間（しばしば世界モデルと呼ばれる）を生成する機会を提供する。プランニングによる推論(RAP)は、モンテカルロ木探索を用いて、高報酬の推論経路を効率的に探索する。

GitHub Copilotによって開発者の生産性がめちゃ向上

2023年6月にGitHubは934,533人のCoPilotユーザーのデータを報告した。興味深いことに、Copilotユーザーがこのツールに慣れるにつれ、生産性は少し落ちてから大幅に上昇し、経験の浅いユーザーが最も恩恵を受けている（～32%の生産性向上）。

スライドでは触れられていないですが、スタックオーバーフローへのアクセス数は2021年から単調減少しているんですね。Q&Aの回答率などへの影響はないのだろうか。

ラベリングの会社がめっちゃ儲かっている

インストラクション・ファインチューニングとRLHFが言語モデルの微調整と整列のための既定の方法となったため、Scale AIやSurge HQのようなラベリング・サービスを提供する企業は、LLMの爆発的な人気から例外的な成長を記録する立場にある。両社は、AIスタートアップから大企業クライアント、LLM研究の主要ラボまで、印象的な顧客リストを強化している。Scale AIの最終評価額は、Stable DiffusionやChatGPT騒動以前の2021年に73億ドルだった。

出かける時間になったので、このあたりで！

この記事が気に入ったらサポートをしてみませんか？