スタンフォード大学による人工知能に関するレポート
先日、スタンフォード大学が人工知能に関するレポート「Artificial Intelligence Index Report 2023」を発表しました。
以下は、要点のトップ6になります。丸括弧の中は私の感想です。
産業界が学界よりも進んでいる(AIには金がかかりすぎ)
従来のベンチマークでの性能向上が飽和(AIが進歩しすぎ)
AI は環境を助けると同時に害も及ぼす(AIは二酸化炭素出しすぎ)
世界最高の新人科学者…AI?(AIは頭良すぎ)
AIの悪用が急速に増加(AIも人間次第で悲しすぎ)
AI関連の専門スキルに対する需要が世界中で増加(AIモテすぎ)
去年は、人工知能による影響が業界や学会はもちろん、ChatGPTなどの出現で一般人にも大きく浸透した年でした。
レポートの中からハイライトとして紹介されている人工知能のニュースを時系列順にいくつかピックアップしました。断りがない限り画像はレポートからの引用です。
2月2日 DeepMindの競技用のプログラミングAI
DeepMindのAlphaCodeが競技用のプログラミングでトップ54%にランクされました。以前のAIでは無理だった複雑な問題解決における進歩。
2月16日 DeepMindの強化学習が核融合をコントロール
クリーンでほぼ無限のエネルギー源となる可能性がある核融合。実験データが不足しているが、DeepMind は強化学習でシミュレーションに成功。AIが科学を加速させる例として期待される。
3月24日 Metaのシーン生成モデル
メタが文章から画像を生成するAIモデルであるMake-A-Sceneを発表。2022年はこのようなモデルが各社からたくさん発表された。
4月5日 GoogleのPaLM
Googleが5400億パラメータの言語モデルPaLMを発表。より多くのデータでトレーニングするだけで、大規模な言語モデルのパフォーマンスを向上できるというスケーリングの法則に対する研究者たちの信念をさらに強固にした。
4月13日 OpenAIのDALE-E2
DALE-E2もまた文章から画像を生成するAI。OpenAIによって公開され熱狂を生んだ。馬に乗る宇宙飛行士の画像が有名に。
5月12日 DeepMindのGato
Gatoは幅広いタスクを実行できる新しい強化学習エージェントです。
ロボットの操作
ゲームをプレイ
画像のキャプション
自然言語の生成
AI システムがなんでもできるようになってきた。
5月23日 GoogleのImagen
Imagenもまた文章から画像を生成できるモデル。かなり高度なフォトリアリズムの画像を生成。
6月9日 BIG-bench
大規模な言語モデルの能力がますます高まり新しいベンチマークとしてBIG-bench(Beyond the Imitation Game ベンチマーク)が立ち上げられた。132 の機関にまたがる442 人からなるチームによって、言語学、幼児期の発達、数学、常識的な推論、生物学、物理学、社会的偏見、ソフトウェア開発など、204 のタスクが含まれている。
6月21日 GitHub Copilot
GitHub(Microsoft)がCopilotのサブスクを始める。コメントとして自然言語のプロンプトを書くとコードを生成。背後にはOpenAIの技術が利用されている。多くの開発者にとって、なくてはならないもに。私も使っています。
7月8日 NVIDIAが強化学習でGPUのデザイン
NVIDIAは強化学習を使用してパフォーマンスの高いGPUを設計。GPUがAIの訓練に不可欠なことを踏まえると、AIがより優れたAIを開発する手助けが始まった一例でもある。
7月11日 Metaの多言語モデルNLLB
NLLB(No Language Left Behind、どの言語も置き去りなし) は、200の異なる言語を翻訳できるモデルのファミリーです。 Kamba や Lao など、リソースの少ない言語で適切に機能する初の試み。
8月4日 清華大学のGLM-130B
中国の清華大学の研究者が大規模な言語モデルであるGLM-130Bを発表。MetaのOPT、Hugging FaceのBLOOM、OpenAIのGPT-3を凌駕。
8月22日 Stability AIのStable Diffusion
Stability AIがStable Diffusionを発表。またまた、文章から画像を生成するモデル。オープンソースでユーザーはモデルの重みを自由に使用できる。既存の画像でトレーニングされており、クレジットや承認を与えず、画像生成モデルの倫理的な使用に関して未解決なのが課題。
9月21日 OpenAIのWhisper
Whisperは音声をテキストに変換する音声認識システム。約700,000時間の音声データでトレーニングされた大規模なモデル。
9月29日 Metaのビデオ生成モデル
Metaが文章からビデオを作成するMake-A-Videoを発表。品質が高いビデオのを生成できる。
10月5日 DeepMindのAlphaTensor
強化学習を利用したAlphaTensorは行列操作の効率的なアルゴリズムを発見できる。 研究者が何十年もの間、より効率的にしようとしてきたがAIによって可能に。行列演算はAIにとって重要でり、これもまたAIがAIを進化させる例。
10月20日 GoogleのPaLMがPaLMを改善する
Google の研究者は、言語モデルPaLMによって同じモデルの推論を改善。 これもまたAIが独自の知識を使用してAIを改善する例。
11月9日 ボランティアからなる国際チームによるBLOOM
世界中の100人以上の研究者が協力して言語モデルBLOOMを開発。
オープンアクセス言語モデルを開発しています。 企業による自然言語処理分野の支配の弊害を軽減し国際協力を促進する取り組み。
11月16日 StanfordのHELM
スタンフォード大学の研究者は、大規模な言語モデルに対する新しいベンチマークHELMを開発。HELMは「Holistic Evaluation of Language Models」(言語モデルの全体論的評価)の略。より統一された基準に従って新しい言語モデルを判断する試みの一環。
11月22日 MetaのCICERO
CICEROは戦略ボードゲームのDiplomacyで人間の参加者の上位10%の成績。人間を効果的に説得して目的に沿って進めるのは、AIシステムが伝統的に苦労してきた領域。
11月30日 ChatGPT
OpenAIによる会話AIのChatGPT はローンチからまもなく月間アクティブ ユーザー数が1 億人に達する。史上最も急速に成長している消費者向けアプリケーション。大学レベルのエッセイを書くことができる。生成AIが一般に広がった年を締めくくるにふさわしい衝撃的なデビュー。AI が人類の未来に与える影響について疑問を投げかけてもいる。
2022年を振り返った感想
2022年は忙しい年だったなあと思い出に浸る間もなく、2023年になるとさまざまな企業がこれでもかという勢いで新しい言語モデルやサービスを立て続けに発表したのは記憶に新しい。毎日のようにTwitterやYouTubeやテレビのニュースで話題となり、多くの人にちょっとした消化不良を起こしている。
改めて俯瞰してみると、DeepMind、Meta、Google、OpenAIの活躍が目まぐるしい。特にMetaとGoogleとOpenAIが言語モデルと画像生成において競争しているが、OpenAIがうまくやっている感がある。
さらに商売上手なのがMicrosoft。GitHubのCopilotなどでOpenAIを上手に組み込んでいる。2023年になってさらに新しいBingの登場やMicrosoft 365へのAI導入発表などでよりAI路線の戦略が明確になった。
なお、DeepMindは強化学習を適応して、いろんな分野で活躍している。強化学習といえば、OpenAIのChatGPTなどでも応用されており、その有用性の範囲が脈々と拡大しているのがわかる。
まとめると、トランスフォーマー、言語モデル、強化学習、画像生成あたりが大きく注目された年でした。
私のノートでもたくさんの解説をしています。
トランスフォーマーを理解する|澁谷直樹|note
巨大言語モデル(LLMs)の衝撃|澁谷直樹|note
強化学習を理解して実践する|澁谷直樹|note
画像生成系 AI|澁谷直樹|note
この記事が気に入ったらサポートをしてみませんか?