見出し画像

我々が見るものと価値を置くもの: 人間の視点を持つAI

24,734 文字

よろしゅうございますか、サロベイ学長はん、マルタ・モレットはん、同僚の皆はん、そしてお友達の皆はん。ホイットニー人文科学センター主催のタナー人間価値講座へようこそ。わたくしはアリス・カプランと申しまして、ホイットニーのセンター長を務めさせていただいております。
ホイットニーでの特権と喜びの1つは、タナー講師の選定について学長にアドバイスさせていただくことでございます。今年は人工知能の分野で活躍なさっておられる講師をお招きする素晴らしい機会に恵まれました。フェイフェイ・リーはんは、研究、教育、実践、そして政策において、人間中心の人工知能の枠組みを確立する国際的なリーダーでいらっしゃいます。
リーはんのイェール大学へのご来訪は、もちろんホイットニーにとってはパンデミック以来初めてのタナー講座であり、また人文科学の中庭での初めての講座という点で特別な意味がございます。しかし、それだけではございません。キャンパス全体の人工知能や関連分野で研究なさっておられる学者の皆さまとつながりを持つことができ、我々の使命である「知識の方法を融合すること」を深く追求することができたという点でも大変意義深いものでございます。
多くの皆さまにお伝えしてまいりましたが、我々は人工知能という新しい分野に足を踏み入れたばかりで、ここにいられることを大変嬉しく思っております。特に、芸術科学学部の学部長であるタマー・ゲンドラーはん、以前ホイットニーのセンター長を務められ、現在は音楽・人文科学のスターリング教授であるゲーリー・トムリンソンはん、そして政治学のスターリング教授であり、社会・公共政策研究所の所長、さらに経済学・統計学・データサイエンスの教授でもあるアラン・ガーバーはんには、この催しの計画にあたって知識とサポートをいただき、心から感謝しております。
はじめに、人間価値に関するタナー講座について少しお話しさせていただきます。この講座は、アメリカの学者であり実業家であり慈善家でもあるオバート・クラーク・タナーはんとその奥さまのグレース・タナーはんによって設立されました。
ユタ大学、スタンフォード大学、ハーバード大学で教育を受けたオバート・タナーはんは、その後ユタ大学で新約聖書学の学者・教授になられましたが、それだけではございません。教育費を払うために、まだ学部生のときに宝飾品会社を設立されたんです。O.C.タナーという、従業員の表彰賞を製造し、個人に合わせた従業員表彰を通じて職場文化の改善を目指す会社ですが、これが驚くほどの成功を収めました。そしてこの会社が、グレースはんとオバート・タナーはんの慈善活動の基盤となったんでございます。
イェール大学は、アメリカ、イギリス、そしてそれ以外の国々でタナー講座を主催している大学の1つでございます。タナー講師に選ばれることは、人間価値の分野で並外れた業績と優れた能力を持つ方々への認識でございます。講師の皆さまは、哲学、宗教、その他の人文科学、科学、創造芸術、専門職、あるいは公共・民間の業務におけるリーダーシップなど、様々な分野や人生の道から来られます。
この講座は国際的かつ異文化的であり、民族、国家、宗教、イデオロギーの違いを超えることを目的としております。先ほど申し上げましたように、イェール大学では、学長がホイットニー人文科学センターのセンター長と執行委員会と相談しながらタナー講師を選んでおります。
このように大勢の方々にお集まりいただき、驚きつつも嬉しく思っております。イェール大学が、サロベイ学長はんがフェイフェイ・リーはんをお招きしたことを大変喜んでおります。リーはんは、スタンフォード大学のコンピューターサイエンスのセコイア教授であり、スタンフォード大学人間中心AI研究所の共同所長でいらっしゃいます。リーはんの業績とその仕事の影響については、後ほど詳しくお聞きすることになります。
講演後の質疑応答の時間はございませんので、ご了承ください。講演の録画は数日中にイェール大学のYouTubeチャンネルにアップロードされる予定です。最新情報については、ホイットニー人文科学センターのウェブサイトをご確認いただくか、subscribe.yale.eduで週刊メールマガジンにご登録ください。
それでは、マーヴィン・チャン教授をご紹介させていただきます。チャン教授は心理学のリチャード・M・コルゲート教授であり、神経科学の教授でもいらっしゃいます。マーヴィンはん、学部長としてご一緒させていただいた後、今日は脳イメージングと人工知能の研究のリーダーとしてお迎えできること、大変嬉しゅうございます。
(会場拍手)
マーヴィン・チャン: みなさん、こんにちは。フェイフェイ・リー博士は、人工知能の歴史全体を通じて最も重要で影響力のある研究者のお一人でございます。みなさんが何千枚もの写真ライブラリーを言葉で検索できたり、テスラが他の車と一緒に高速道路を走りながらもレーンとスピードを維持できると信頼できるのは、リー博士のおかげなんです。
AIシステムは、それを訓練するデータの質によって決まります。リー博士の多くの業績の中でも特筆すべきは、ImageNetの開発です。これは、ラベル付けされた画像データベースで、過去10〜15年の間にコンピュータービジョンの革命的な進歩を可能にしました。
わたくしはコンピューターサイエンティストではありませんが、リー博士と共通の背景である認知神経科学、特にシーン知覚と分類の分野でリー博士が先駆的な貢献をされたことから、今回ご紹介させていただく機会を大変光栄に思っております。これは、ImageNetの開発以前からのことです。
リー博士の幅広い研究興味は、認知に基づいたAI、機械学習、ディープラーニング、コンピュータービジョン、そしてAIとヘルスケアの融合、特に医療提供のための環境インテリジェンスシステムにまで及んでおります。
リー博士は、一流の学術誌や会議録に200以上の科学論文を発表されております。さらに印象的なのは、総引用数が181,000回を超えるという、その測定可能な影響力です。リー博士の仕事は、多くの研究者が生涯で得る注目を1年で集めているんです。
当然のことながら、リー博士は数え切れないほどの栄誉と賞を受けておられます。全米工学アカデミー、全米医学アカデミー、アメリカ芸術科学アカデミーへの選出もその一部です。
わたくしは、リー博士の研究業績だけでなく、社会への貢献にも感銘を受けております。リー博士は、STEM分野とAI分野における多様性を提唱する全米をリードする声でもあります。スタンフォード大学のAI研究所の所長を務めた後、スタンフォード大学から休暇を取られ、Googleの副社長およびGoogle CloudのAI/機械学習部門のチーフサイエンティストを務められました。
現在、リー教授はスタンフォード大学人間中心AI研究所の共同所長を務めておられます。そして大学の外では、AIの教育における包括性と多様性を高めることを目的とした全国的な非営利団体「AI for All」の共同創設者および会長でいらっしゃいます。
2016年にカーネギー財団から「偉大な移民:アメリカの誇り」の一人として認められたリー博士を、過去の受賞者と比べると、人工知能界のアルバート・アインシュタインやヨーヨー・マのような存在だと言えるでしょう。
「我々が見るものと価値を置くもの: 人間の視点を持つAI」というテーマで、今年のホイットニー人文科学センターのタナー人間価値講師、フェイフェイ・リー博士の講演をお聞きできることを楽しみにしております。どうぞ、拍手でお迎えください。
(会場拍手)
フェイフェイ・リー: ありがとうございます。こうして講演させていただくのは大変光栄でございます。サロベイ学長はんとホイットニー人文科学センターの皆さまには本当に感謝しております。
そして、この機会に、イェール大学出身の素晴らしいコンピューターサイエンティストの一人、グレース・ホッパー博士のことも忘れるわけにはまいりません。特に、コンピューターサイエンスの分野で働く女性たちにとって、ほぼ90年経った今でも、私たちはホッパー博士の足跡を追い、彼女が築いた素晴らしいリーダーシップと先駆的なキャリアに恥じないよう努力し続けております。その道のりは長く、まだまだ続きます。彼女が私たち全員のために思い描いていた姿にはまだ到達していませんが、グレース・ホッパー博士の母校であるイェール大学に戻ってこられたことを大変光栄に思います。
今日は、AI分野における私自身の仕事の一部をみなさんと共有させていただきたいと思います。正直に申し上げますと、20年以上前にこの興奮すべき、でも決して新しくはないAI分野に足を踏み入れた科学者・技術者として、この分野が人類全体と社会の日常生活にこれほど深く関わるようになるとは、夢にも思っておりませんでした。
ですので、私たちが学んできたことをみなさんと共有し、建設的な対話ができることを本当に嬉しく思います。明日も対話の機会があると聞いておりますし、講演後にもみなさんとお会いできることを楽しみにしております。それでは、講演を始めさせていただきます。
アリスはんが仰ったように、今日の講演のテーマは「我々が見るものと価値を置くもの: 人間の視点を持つAI」です。まずは歴史をさかのぼって、5億4000万年前に戻りたいと思います。(笑) ほんの少し昔のことですね。
当時の地球上の生命は今とはまったく違っていました。すべてが水中にあり、動物たちは海の原始スープの中で生活していました。正直なところ、当時の動物の種類はそれほど多くありませんでした。生活はとてものんびりしていたんです。(聴衆笑)
そして、とても驚くべきことが起こりました。それは謎でした。地質学的にはごく短い期間、5億4000万年前から5億3000万年前までの1000万年の間に、化石の研究から動物の種類が爆発的に増えたことがわかっています。
何が起こったのでしょうか?気候変動から海水の化学組成の変化まで、さまざまな理論がありました。しかし、オーストラリアの動物学者アンドリュー・パーカーはんが提唱した影響力のある推測が注目を集めました。化石を研究することで、彼は、カンブリア爆発(この時期の動物種の爆発的増加をそう呼びます。進化のビッグバンとも言われます)は、実は視覚の突然の進化によって引き起こされたのではないかと推測したんです。これが進化の軍拡競争を引き起こし、動物たちは進化するか死ぬかの選択を迫られたわけです。
つまり、視覚、特に視覚と知覚の出現が、動物種の進化の原動力の1つだったんです。さらに言えば、これは私たちのような非常に知的な動物に至るまで、神経系の進化の原動力でもあったんです。
実際、今日の地球上では、ほとんどの動物が視覚的な知覚を主要な感覚システムとして使って、種の生存と繁栄を導いています。そして私たち人間も、非常に視覚的な動物です。視覚的な知能があるからこそ、お互いにコミュニケーションを取ったり、仕事をしたり、世界を探索したり、世界と関わったり、楽しんだりできるんです。視覚的な知能なしで生きていけるとは、想像しにくいですよね。
一方で、コンピューターサイエンスの分野でも、自然の進化に加えて知能の分野も進化し始めました。AIは進化と比べるとほんの若い分野です。多くの人が約60年の歴史だと言います。しかし、コンピュータービジョンの歴史とAIの歴史は深く絡み合っています。
AIのごく初期、約60年前に、非常に野心的なMITの夏季プロジェクトがありました。このプロジェクトを提案した教授は、「夏季の作業員を使って」(きっと優秀な作業員がいたんでしょうね)、「1つの夏で視覚システムの、つまり人工視覚システムの重要な部分を構築しよう」と言ったんです。
まぁ、それは実現しませんでしたが、都市伝説によると、これがコンピュータービジョン分野の始まりだったそうです。誰か、あるいは先駆的なコンピューターサイエンティストのグループが、いつか人間が享受しているような視覚的知能を持つ人工知能システムを作れると信じなければならなかったんです。
21世紀の2番目の10年、いや3番目の10年に飛びましょう。視覚の分野は長い道のりを歩んできました。マーヴィンはんが言及されたように、自動運転車や視覚的運転支援から画像分類、そして最近の生成アートの素晴らしい仕事まで、視覚は単に活気ある学問分野になっただけでなく、商業化や産業の原動力にもなっています。
残りの講演では、私自身の旅と、この分野に対する見方をみなさんと共有したいと思います。私たちはどこから来て、どこに向かっているのか。そして、コンピュータービジョンを開発する過程で、人間について何を学んだのか。
この聴衆の方々が様々な分野や領域から来られていると聞いて、本当に楽しみになりました。みなさん全員がコンピューターサイエンティストやAIの学生だとは思いませんので、ごく簡単な定義から始めましょう。AI、機械学習、ディープラーニング、コンピュータービジョン、NLPなどの言葉をよく耳にすると思いますが、これらは一体何なのでしょうか。
ここにカンニングペーパーがあります。(聴衆笑) すべてを説明するつもりはありませんし、テストもしませんから安心してください。ですが、基本的な定義だけ押さえておきましょう。
人工知能(AI)は、実はコンピューターサイエンティストで、スタンフォード大学の名誉教授のジョン・マッカーシーはんが1950年代後半から60年代初頭に作った言葉です。彼は、この分野を「知的な機械を作る科学と工学」と表現しました。自然界は5億4000万年かかりました。人類がシリコンベースの知的な機械を作るのにどれくらいかかるか、見てみましょう。
人工知能の分野が成長するにつれて、コンピュータービジョン、自然言語処理、音声認識、ロボット工学などの分野が現れ始めました。そして人工知能に関連する新しい分野がどんどん出てきています。
また、機械学習やディープラーニングという言葉も聞くと思います。これらは一体何なのでしょうか。機械学習は、今日のAIを行うための数学的言語だと考えてください。実際、AIの歴史の中で他の数学的言語も開発されてきましたが、この講演の目的のためには、機械学習はコンピューターサイエンスの比較的新しい分野で、統計学、応用数学、そして神経科学や心理学からのインスピレーションも組み合わせて、様々なAIタスクの目標を達成するために統計モデルに基づいたコンピュータープログラムを作成する分野だと理解してください。
そして機械学習の中で、最新の革命はニューラルネットワークと呼ばれるアルゴリズムの一族に基づいています。これについては後でもう少し詳しく説明しますが、最近のニュースでニューラルネットワークという言葉をよく耳にすると思います。また、ニューラルネットワークのより良い名前、あるいはあまりオタクっぽくない名前としてディープラーニングという言葉もあります。
これらが、私が使う言葉です。さて、本題に入りましょう。
私たちが行ってきた仕事の3つの部分をお話ししたいと思います。最初は、人間が見るものを見るAIを構築することです。
まず、これを認めましょう。人間は驚くべき視覚的な動物で、多くのものを見ることができます。実際、私たちの視覚システムはとても頑健です。これは1970年代にモリー・ポッターはんが同僚と行った画期的な研究で、みなさんにビデオをお見せします。みなさんは彼女の研究室の被験者だと想像してください。フレームの1つに人が映っていたら、うなずいてください。はい、みなさんうなずいていますね。視覚システムが正常だということがわかりました。
でも、これがどれほど驚くべきことか、ちょっと考えてみてください。ここの各フレームは、画面に100ミリ秒しか表示されていません。10ヘルツの周波数で更新されているんです。そして、人を検出してくださいと私が言った以外に、その人がどんな外見なのか、どんなポーズをしているのか、フレームのどこにいるのか、どんな服を着ているのかなど、何も知らされていません。
その人が男性なのか女性なのか、何も分かりません。それでも、あなたの視覚システムはこのオブジェクトを素早く認識し、検出することができるんです。
さらに、20世紀末、正確には世紀末の少し前に、サイモン・ソープはんとその同僚のような神経生理学者たちは、複雑な自然のシーンを分類する際の私たちの驚くべき視覚システムの処理速度も明らかにしました。
彼が行った実験では、人間の被験者をコンピューターの前に座らせ、動物や非動物の複雑な写真を瞬間的に見せました。ここにいくつか例があります。人間の課題は、「はい、動物が見えます」か「動物は見えません」と言うだけです。これらは本当に複雑な実際の写真だということを覚えておいてください。
どんな種類の動物が出てくるかわかりませんし、どんな妨害写真が出てくるかもわかりません。そして同時に、彼はEEGを通じてあなたの脳波を測定しています。視覚刺激の開始後、わずか150ミリ秒で、人間の脳に動物の写真と非動物の写真の違いを示す差異信号が見られました。
私たちのウェットウェア(生体の神経系)はトランジスタよりもずっと遅いことを考えると、これは視覚処理の瞬時の速さという点で驚くべき成果です。
時間的な能力に加えて、私たちは物体認識、例えば顔や場所、さらには体の一部に専念する脳の領域、つまり神経相関も発見しました。これは20世紀から21世紀への変わり目に行われた一連の研究で、このような脳の領域を示しています。
これらすべては、人間の視覚脳に何か驚くべきものがあることを示しています。そして最も驚くべきことの1つは、物体認識や物体を分類する能力です。実際、認知神経科学者や視覚心理学者は、物体認識が視覚的知能の基本的な構成要素だと考えています。
そして、私たちAIの分野で働く者、特に機械に見る能力を与えようとしている者にとって、これは北極星のような存在になっています。これは機械に与えるべき重要な能力なんです。
正式に言えば、物体認識のタスクは、例えば脳やコンピューターのような何らかのエージェントに物体の画像を見せ、そのエージェントがその画像に含まれるカテゴリーを出力できるというものです。この場合、とてもかわいいオーストラリアの動物、ウォンバットですね。
みなさんは、それがどれほど難しいのかと思うかもしれません。だって、みなさん全員ができるんですから。でも、数学的に言えば、世界のどんな3Dオブジェクトも、2Dのフレーム(カメラのフレームや網膜など)に無限の数の画像をレンダリングできます。なぜなら、光や外観の違い、背景のごちゃごちゃ、遮蔽、自己遮蔽、カメラの視角など、無限の可能性があるからです。
ですので、これは難しいタスクなんです。そして今、進化は私たちのためにこれを解決してくれました。では、コンピューターでどのように解決するか見てみましょう。
ここで、今日の機械学習とAIの最後のレッスンあるいは逸脱についてお話しします。それは一般化という概念です。この講演の残りの部分で、どんなプロジェクトについて話していても、AIについて話している限り、数学的には、AIの目標とAIアルゴリズムの開発の目標は一般化の問題を解決することです。
一般化の問題とは何でしょうか?一般化とは以下のようなものです。何かをできるアルゴリズムやシステムを開発するとき、この場合は物体やウォンバットの写真を認識するとき、実は私たちの目標は訓練誤差を最小にすることではありません。これは少し直感に反するかもしれません。なぜなら、もちろん訓練誤差を最小にしたいと思うでしょう?それが子供を学校に送る理由ですよね。
でも、子供たちはいつか学校を出て実社会に出ていくんです。だから本当に望むのは、アルゴリズムが訓練時ではなくテスト時や一般化の時に遭遇する例に対しても、うまく対処できることです。テスト誤差や一般化誤差をできるだけ小さくしたいんです。
実際、テスト誤差と訓練誤差の差をできるだけ小さくしたいんです。そしてこの目標を達成するプロセス、それが一般化です。AIや機械学習では、私たちの数学的な目標は常に可能な限り最高の一般化を達成することです。
はい、オタクっぽい話はこれで終わりです。では、私たちが気にかけている視覚タスク、つまり物体認識に話を戻しましょう。
初期の頃、つまり前世紀には、先駆的なコンピューターサイエンティストたちは、計算能力はほとんどなく、データもほとんどなく、数学的モデルについてもほとんど知りませんでした。そこで、複雑な物体をどのように認識するかを説明するために、手作りの特徴と手作りのモデルを設計しました。
それは美しい...一連の美しい概念的理論でしたが、実世界での一般化にはあまり役立ちませんでした。20世紀から21世紀への変わり目頃、新しいツールが登場し、それがAIの多くの分野、コンピュータービジョンを含む分野を根本的に変えました。それが機械学習、つまり統計的モデリングのツールです。
この時期、私たちは手作りの特徴や画像のパッチを使いながら、機械学習モデルを使ってこれらの特徴のパラメータを学習させる興味深い研究をたくさん見るようになりました。コンピューターサイエンスに詳しくない方にはちょっと難しいかもしれませんが、気にしないでください。
知っておく必要があるのは、私たちが機械学習と機械学習によるモデルのパラメータ化に向かい始めたということだけです。この時期にもう1つ重要なことが起こりました。それはデータの利用可能性です。インターネットが始まり、AIとコンピュータービジョンの分野でアルゴリズムの訓練に使える画像が利用できるようになったんです。
ヨーロッパの科学者グループによる画期的な初期の研究で、PASCAL VOCというデータセットが作られました。これにより、コンピュータービジョン分野のコミュニティ全体が、数千枚の画像と20種類のオブジェクトクラスを含むこのデータセットを使って、物体認識の問題に取り組み始めることができました。
それは私が博士課程を卒業して助教授になった頃でもありましたが、何かがどうしても気になりました。物体認識という究極の問題に取り組んでいるのはすごいことですが、20種類のオブジェクトだけを扱っているんです。認知心理学者たちは、人間が6歳という若さで3万以上のオブジェクトカテゴリーを認識する驚くべき能力を持っていると教えてくれました。
20種類と3万種類、これはちょっとピンときませんでした。そこで、私と学生たちは、色覚と物体認識に関する以前の研究を調べ始めました。そして、私たちが直面している最大の問題は、必ずしも手作りのモデルそのものではなく、実は訓練に使うデータだと気づいたんです。
3年間の努力の末、私と共同研究者、そして学生たちは少し狂ったようになりました。2006年から2007年にかけて、当時アクセスできるインターネット上のすべての画像、10億枚以上をダウンロードし、クラウドエンジニアリングの手法を使って手作業で整理しました。
2万2000のオブジェクトカテゴリーにわたって、1500万枚の...ごめんなさい。(笑) (聴衆笑) 1500万枚の丁寧に整理され、ラベル付けされた画像です。これがImageNetプロジェクトでした。ImageNetは、コンピュータービジョンと機械学習のアルゴリズムを根本的に、質的に異なる方法で推進するという野心を持って生まれたんです。
そして、驚いたわけではありませんが、それが実際に起こり始めたことに私たちはとても喜びました。特に、大量のデータが利用可能になったときに本当に良い結果を出したのが、ニューラルネットワークモデルやアルゴリズム、特にコンピュータービジョンにおける畳み込みニューラルネットワークでした。
畳み込みニューラルネットワークは、前世紀から開発されてきた統計モデルの1つで、特に新しいアルゴリズムではありません。畳み込みニューラルネットワークの歴史は60年代や70年代にまで遡り、ジェフ・ヒントンはんやヤン・ルカンはんのような人々によってさらに洗練されました。
このニューラルネットワークモデルをご存じない方のために説明しますと、これは実は脳、それも猫の脳とヒューベルとウィーゼルによる猫の視覚システムの研究からインスピレーションを得ています。
ニューラルネットワークの基本的な構成要素は、他のノードから入力を受け取り、出力を送るニューロンのようなノードです。そして、単に入力を受け取るだけでなく、階層的に層を成しているので、効率的に情報を伝達することができます。
10年前でさえ、ImageNetの利用可能性により、私たちは何百万ものノード、何億ものパラメーター、何十億もの接続を持つニューラルネットワークモデルを作っていました。
この数字は、今日のニューラルネットワークと比べるとごく小さなものです。今日のコンピューターサイエンスで見られるものより桁違いに小さいんです。
ImageNetとニューラルネットワークアルゴリズムの助けを借りて、コンピュータービジョンの分野は物体認識で成功を収め始めました。例えば、猫の写真を分類したり、より自然な日常の写真の中から猫を見つけたり、あるいはテディベアや女の子、男の子、さらには犬や凧のような小さな物体を認識したりできるようになりました。
そして、歴史的な瞬間が訪れました。ImageNetを構築してから3年後、私たちはこのデータセットをオープンソース化しました。これはコミュニティにとって重要な資産だと信じていたんです。オープンソース化しただけでなく、世界中の研究者に物体認識チャレンジへの参加を呼びかける国際的なコンテストも作りました。
そして、1000のオブジェクトクラスと何百万もの画像を含むImageNetオブジェクト分類タスクという特定のタスクを用意しました。2012年、ImageNetチャレンジの優勝アルゴリズムは、ジェフ・ヒントンはんとその学生による「深層畳み込みニューラルネットワークによるImageNet分類」でした。
この研究は、第一著者の名前をとってAlexNetと呼ばれていますが、AlexNetは前年のモデルと比べてエラー率、つまり一般化エラーを大幅に削減しました。多くの人々が、そして将来の歴史家たちもそう言うかもしれませんが、このImageNetチャレンジとAlexモデルの瞬間をディープラーニング革命の始まりだと考えています。
しかし、AlexNetはほんの始まりに過ぎませんでした。その後の数年間、ImageNetチャレンジの年間優勝者を通じて、コンピュータービジョンの分野には信じられないほどの進歩がありました。そしてその傾向は止まりませんでした。
ImageNetチャレンジとディープラーニング革命は世界を嵐のように席巻し、コンピュータービジョンの進歩はどんどん加速していきました。ImageNetがコンピューターサイエンスの歴史の中で最も引用された研究の1つとなったことを大変光栄に思います。
そして、その影響は広がりました。コンピュータービジョンやAIは、2012年以降、もはやニッチな学問分野ではなくなりました。産業の原動力となり、第4次産業革命やディープラーニング革命と呼ばれる変革の時代を引き起こしました。
市場調査を見ると、コンピュータービジョンの市場は今や数百億ドルに達すると予測されています。テルアビブからシリコンバレーまで、コンピュータービジョンのスタートアップが次々と生まれ、繁栄し続けているんです。
さて、研究室に戻りましょう。私と学生たちは、オブジェクトクラスを認識したりラベル付けしたりする能力が視覚的知能の終着点だとは考えていません。実際、ここに簡単な例があります。
2枚の写真があって、どちらもImageNetの分類器で「人」と「ラマ」とラベル付けされたとします。2枚目の写真は1枚目とほぼ同じ内容を伝えていると思うかもしれません。でも実際には、ピクセル空間にはもっと多くの情報があります。これは左の写真とはかなり違うシーンなんです。
心理学者や認知科学者たちは、コンピューターサイエンティストより先にこのことを知っていました。これは私の友人で、私の大好きな論文の1つです。ジェレミー・ウォルフの論文です。部分的に好きな理由は、論文がたった2ページしかないからです。(笑) 彼は、単に物体を認識するだけではシーンを理解し分類するには不十分だと推測しました。
物体間の関係も符号化されなければならないんです。確かに、シーンの中には物体の同一性を超えた豊かな関係性があります。そこで、私と学生たち、そして共同研究者たちは、シーングラフ表現と呼ばれる新しい研究を提案しました。
ここでは、ピンクの箱の中のオブジェクト、緑の箱の中のペアワイズの関係、そして紫の箱の中のオブジェクトを定義する属性を符号化しています。このような単純な写真でも、非常に豊かで密度の高い視覚的シーン表現があることがわかります。
このようなアノテーションされたデータの大規模なデータセットを作成することで、シーン内のオブジェクトの関係を予測することができます。この場合、「人が馬に乗っている」や「人が帽子をかぶっている」などです。
実際、シーングラフ表現は非常に構成的で、この構成的な性質を利用することで、ゼロショット学習のようなことができます。つまり、すべての関係を大量の画像で訓練する必要がありません。
この場合、私たちのアルゴリズムは、生活の中ではまれな「馬が帽子をかぶっている」や、それほどまれではない「人が消火栓の上に座っている」を認識することができました。そして一般的に、当時のシーングラフ表現を使った私たちのアルゴリズムは、当時の最先端のアルゴリズムよりも優れた性能を発揮しました。
もちろん、関係性を呼び出したりラベル付けしたりするだけが物語の終わりではありません。実際、私たち人間は、シーンを見せられたときに視覚的な物語を語ることができます。
数年前、ディープラーニングアルゴリズムを使って、私と学生たち、そして共同研究者たちは、物体を超えて、関係性の予測を超えて、ストーリーテリングやキャプション付けにまで視覚認識の境界を押し広げる一連の研究を行いました。
この場合、コンピューターにこの写真を見せると、コンピューターは自動的に「男性が馬車に乗って通りを走っている」というようなストーリーを生成します。さらに突き詰めると、より密度の高いキャプションや段落のキャプションさえ書くことができます。
さらに、視覚世界は静的ではなく、世界のほとんどは動いていて動的です。そこで、シーングラフ表現を時空間に拡張し、複数のオブジェクト、複数の行為者の活動や関係を認識する研究を始めました。
これは、単に卓球や卓球選手を認識するだけでなく、テーブル、ボール、審判などとの動きや関係も認識するアルゴリズムの例です。
これらはすべて、コンピュータービジョンの分野が本当に花開き、取り組むべき興味深いことがたくさんあることを示しています。私の研究室以外でも、3Dビジョン、ポーズ推定、インスタンスセグメンテーション、そして視覚の生成アートなどの分野で、私たちの分野は大きな進歩を遂げています。そしてこの旅は止まっていません。
コンピュータービジョンの発展の爆発は続いています。この部分では、データ、計算能力、そしてニューラルネットワークアルゴリズムがAIにディープラーニング革命をもたらしたことを観察しました。
しかし、私はAIの発展が脳科学や人間の認知科学からインスピレーションを受け、これからもそうあり続けるだろうと強く信じています。ここに、先ほど言及した研究に貢献してくれた共同研究者や学生、ポスドクの皆さんがいます。
さて、人間が見えるものを超えて見てみましょう。人間が見えるものをAIの着想源として使ってきましたが、人間には見えないものを見るAIを構築できるでしょうか?
まず、私たちは物体の世界についてすべてを知っているわけではありません。実際、ここにあるすべての恐竜の名前を言えますか?子供がいる人なら言えるかもしれませんが、子供がいても私はすべての恐竜の名前を言えません。そして、数万種の鳥がいて、数千種の車、まぁ車は「種」とは呼びませんが、車種がありますね。
これは細粒度オブジェクト分類と呼ばれるもので、正直なところ、ほとんどの人間、普通の人間はこのレベルの鳥の種や多くの車を認識することはできません。
ここで、コンピューターアルゴリズムが人間の視覚能力の境界を押し広げています。私たちの研究室や他の研究室では、数千種の鳥の種を認識するようなアルゴリズムを作っています。
これは私のお気に入りの研究の1つですが、クレイグスリストやケリーブルーブックをスクレイピングして、1970年代後半以降に製造された2,800種類の車を学習し、そしてこの車の検出器を使って、アメリカの200の都市のGoogleストリートビュー画像をスキャンし、近隣地域について学習しました。
社会学について学びました。車の認識と、近隣地域の教育レベルや収入、さらには投票パターンなどのセンサスデータとの相関関係を見出すことができました。
つまり、コンピュータービジョンは、人間の視覚と同じように、単に世界がどのようなものかを見るためだけでなく、私たち人間や人間社会を見て理解するためのレンズなんです。
これはオブジェクト分類の話でしたが、もう少し踏み込んでみましょう。なぜなら、私たち人間の視覚システムにも実は限界があるんです。
これは多くの方がご存じの有名な視覚錯覚テスト、ストループテストです。単語は読めますが、単語そのものではなく、単語の色を心の中で読むことができますか?左から右、上から下に、私なら「赤...あぁ、なんてこと」(笑)(聴衆笑)「赤、オレンジ、オレンジ、緑」と言うでしょう。難しいですよね?私たちはボトルネックを感じ、葛藤があります。
これに関連する視覚錯覚で、私たちの人間の注意力リソースが限られていることを示すものがあります。チェンジブラインドネスの例では、2枚の交互に切り替わる写真をお見せしますが、その2枚の間に1つの変化があります。変化が見えたらうなずいてください。おぉ、これはIQテストですね。(聴衆笑)
さっきのモリー・ポッターの人物検出ほど早くたくさんうなずいてはいませんね。ジェットエンジンですよ。もう一度やってみましょう。(聴衆がざわめく)そうですね?大きな部分ですよね?
さて、これは面白いですが、視覚的注意の限界は、人命を奪う場合には面白くありません。実際、医療ミスはアメリカの医療システムにおける死因の第3位です。医療の現場では、もっと視覚的な注意が必要な状況がたくさんあります。
例えば、手術器具の管理です。手術中には非常に多くの器具が使われ、今でも人間、つまり看護師や医師が手術の途中でそれらを数え上げなければなりません。これは手術の速度を遅くし、時には間違いの原因にもなります。
コンピューターの助けを借りることはできないでしょうか?2,800種類の車や鳥を認識できるなら、手術器具を数えることはできないでしょうか?これはスタンフォード病院の実際の手術室で行ったパイロット研究です。コンピュータービジョンアルゴリズムが自動的にシーン内のすべてのスポンジを数えています。
これをさらに発展させて、医師や看護師の助けになると想像できます。
人間には見えないものをコンピューターに見てもらえることはたくさんあります。でも、時には見えないことの方がより深遠な意味を持つこともあります。これは私の大好きな視覚錯覚の1つです。答えをここに示していますが、テストする時間もありませんでした。
上の画像を見てください。四角A
とBは、グレースケールの値が違うと誓って言えませんか?そして、この画像をコピーしてこの2つのグレーのバーを置くと、同じグレーの値なんです。すごいでしょう?コンテキスト、形や光に関する事前知識のために、この視覚情報を異なる方法で処理しているんです。
年配の方なら、この2人が誰かわかりますか?(聴衆笑) クリントンとゴアですよね?もちろんクリントンとゴアです。本当にそうでしょうか?本当にクリントンとゴアなんでしょうか?よく見てください。実は、これはクリントンとクリントンなんです。でも、あなたの事前知識、コンテキスト、髪型などのために、2人の異なる人物に見えるんです。
あなたは自分の人間的な視覚バイアスを持ち込んでいるんです。これは面白い例ですが、バイアスは面白いものではありません。バイアスは人を傷つけ、特に代表されていない、十分なサービスを受けていないコミュニティの人々を害する可能性があります。
コンピューターサイエンティストで詩人のジョイ・ブオラムウィニはんは、「AI、私は女性ではないのか?」という詩の中で、この問題を美しく表現しています。これは、AIアルゴリズム、この場合は顔認識アルゴリズムが、女性や有色人種の顔を認識できないことへの認識を高めるためのものです。
AIは人間のバイアスを増幅する可能性があります。特にデータにバイアスがあり、問題がある場合はそうです。しかし、良いニュースもあります。この問題に取り組もうとする研究が増えています。ここにいくつか例を示しましたが、今ではもっと多くのことが起こっており、認識レベルもずっと高くなっています。
バイアスや見えるバイアスについて話しましたが、見えないことにはもっと深遠な意味があり、それはとても重要です。見られたくない状況を考えてみてください。実際、プライバシーは人間の尊厳の一部であり、人権の一部です。
このような強力なコンピュータービジョンアルゴリズムを作る際に、プライバシーの問題にどう対処すればいいでしょうか?私は、技術が人間や社会の問題を解決する唯一の解決策だとは思いません。しかし、技術は問題を引き起こすのではなく、解決策の一部となるべく立ち上がり、参加しなければなりません。
実際、コンピュータービジョンにおけるプライバシーコンピューティングへの技術的アプローチは増えています。ここにいくつか挙げてみました。顔のぼかし、次元削減、体のマスキング、連合学習、準同型暗号化など。これらの言葉をすべて知らなくても大丈夫です。
コンピューターサイエンスやデータサイエンスを専攻している方には、これらは私の同僚と私が取り組んできた研究の一部です。1つの研究をお見せしたいと思います。これは実は私の研究ではなく、主に私の共同研究者のフアン・カルロス・ニーブルスはんとその学生たちの研究です。
これは、プライバシーを意識したコンピュータービジョンコンピューティングを行う本当に面白い研究です。彼らは、小売店や安全性、ガレージなど、多くのアプリケーションで人間のジェスチャーを認識するコンピュータービジョン技術のニーズがあることを認識しました。
でも、これをプライバシーを保護しながらどのように行えばいいでしょうか?彼らは入力を歪ませるレンズを考案しました。人間を見る代わりに、ぼかすんです。このレンズは、このような画像を与えます。
しかし、単にぼやけた画像を得るだけでは十分ではありません。なぜなら、何が起こっているかを認識したいからです。そこで彼らは、このハードウェアと結合した一連のアルゴリズムを開発しました。これにより、画像が歪んでいても、アルゴリズムは関連する人間の活動を認識することができます。
これは、何が起こっているかを認識する必要性とプライバシーをできるだけ保護することのバランスを取る方法です。もちろん、これらはすべて進行中の研究であり、長い旅路の一部に過ぎません。
この部分では、人間には見えないものを見るAIの構築について話しましたが、本当に学んだのは、バイアス、プライバシー、これらの問題をAIが増幅したり悪化させたりする可能性があるということです。人類が長年苦しんできた多くの深刻な問題です。
ですので、私たち技術者は、他のステークホルダーと共に、AIが人々と社会に与える影響を学際的なアプローチで研究し、予測し、導くことに取り組まなければなりません。これらは、この部分で話した研究に貢献してくれた主要な共同研究者、学生、ポスドクの皆さんです。
これで今日の最後のトピックに移ります。人間が見たいものを見るAIの構築です。正直に言いましょう。今日、AIについて話すとき、社会が最も懸念していることの1つは労働への脅威です。
自動化する機械を作ることで、トラック運転手や放射線科医、工場労働者など、人間の仕事を奪っているんです。このような見出しをいつも目にします。私自身、過去10年間、産業界で働いてきて、もしかしたら違う角度から、同じくらい、あるいはもっと深刻な問題が見えてきました。
それは、医療など多くの産業で現在直面している労働力不足の問題です。来年、つまり2ヶ月後には、アメリカでは100万人の看護師が不足します。そして現在の看護師たちは、働きすぎ、給料が低く、疲れ果てています。
これらは、私たちが直面している非常に人間的な問題です。AIの労働への脅威という懸念(これは現実のものであり、真剣に考える必要があります)と、現在の労働力不足や安全でない労働環境といった多くの問題のバランスをどのようにとればいいでしょうか?
私たちは、そして私自身も、置き換えるべき言葉があると信じています。それは「置き換える」という言葉そのものです。AIは人間の能力を置き換えるのではなく、増強すべきなんです。
AIの増強を主張する2つの研究を紹介したいと思います。1つは医療分野です。先ほど少し触れましたが、医療ミスはアメリカの医療システムにおける主要な死因の1つです。
実際、医療の現場では、品質を確保し、安全性を確保するために、十分な人間の目がない状況がたくさんあります。10年以上前、スタンフォード大学医学部の同僚と私は一緒に、この新しい機械学習やディープラーニングの波、そしてスマートセンサーの時代に、患者さんや医療従事者にとって重要な健康に関する洞察を得るためにこれらのスマートセンサーとMLアルゴリズムを使えないかと想像し始めました。
この技術を私たちは「医療のための環境インテリジェンス」と呼んでいます。数年前、10年間の研究成果を『Nature』誌のレビュー論文にまとめました。この論文の詳細には立ち入りませんが、2、3の要点をお話しします。
1つ目は手指衛生です。適切な手指衛生の実践は、院内感染を減らすために非常に重要です。院内感染は、アメリカの道路での交通事故の3倍もの命を奪っています。人間の監査員やRFIDのような技術は、実際にはほとんど効果がないか、時間と労力がかかりすぎるんです。
そこで私たちは、スタンフォード病院でパイロットプロジェクトを実施しました。ジェルディスペンサー、つまり消毒ステーションの上にスマートセンサーを設置し、これらのセンサーが深度画像を捉えます。それが青いビデオのように見えます。これはある程度、医療従事者のプライバシーを守りつつ、同時にバックエンドのアルゴリズムが24時間365日稼働して、適切な手指衛生活動を認識しています。
ここで緑の箱が見えれば、医療従事者が患者の部屋に入る前に適切に手を消毒していることを意味し、赤い箱は適切な手指衛生の動作が行われなかったことを示しています。私たちのアルゴリズムは、真の値と同等の性能を発揮し、1人、3人、さらには4人の人間の観察者よりもずっと優れています。
ICUでも研究を行いました。患者の移動は回復の改善につながりますが、患者が適切に移動されているかどうか、頻度やその他の指標の面でどうやって知ることができるでしょうか?これは難しい問題です。未だに人間の監査員に頼っていますが、ICUの医療従事者の仕事を知っている人なら、彼らがどれほど働きすぎで、やるべきことをカバーするのに十分な時間がないかわかるでしょう。
そこで再び、スタンフォード病院とユタ州の病院にこれらのスマートセンサーを設置し、医療従事者と協力してAIによる支援の可能性をプロトタイプ化し始めました。ここでは、私たちのAIアルゴリズムが病院内の4種類の活動や移動を認識しているのがわかります。ベッドから出る、ベッドに入る、椅子から立つ、椅子に座るです。
私たちのアルゴリズムが人間がラベル付けした真の値と比べてとても良い性能を発揮していることがわかります。
最後に、高齢者施設や在宅での高齢化において、この種の環境インテリジェンス技術を使用して、安全でない出来事を予測・防止したり、軽度の症状のある患者を監視したり、感染、移動性、睡眠パターン、食事などの慢性的な状態を管理したりする可能性がたくさんあります。
実際、私はこの高齢化の問題に特に注目しています。なぜなら、アメリカは高齢化し、世界は高齢化し、私たちは介護者の本当の労働力不足に直面しているからです。
では、高齢者のケアに関して、単に受動的なスマートセンサーを使って医師や家族にアラートを送るだけでなく、一歩進んで考えてみましょう。ここで少しSFっぽい話をしますが、介護者の利用可能性が減少しているため、いつかAIがロボットの形で高齢者や在宅での高齢化を支援することを想像できないでしょうか?
これは人間、人間のつながり、人間の感情に取って代わるものではありません。家族は重要です。しかし、ロボットにやってもらえるタスクはたくさんあると想像できます。また、現在のGDPには計上されていない184億時間の無償の在宅介護があることも忘れないでください。そして、これが最も影響を与えるのは誰でしょうか?女性と有色人種の人々です。
AIの科学者として、家庭で人々を助けるロボットの未来を想像することにとてもワクワクしています。でも、あまり早く興奮しないでください。今日のロボットの現状はこんな感じです。工場での設定でのロボットについてはよく耳にします。これらは非常に構造化され、事前にプログラムされた設定です。
しかし、このような非構造化の設定にロボットを置くと、かわいそうなやつは箱をカートに乗せるのがやっとです。これは...会場にロボット工学者の方がいたら失礼しました。ロボット工学にはまだまだ長い道のりがあることはわかっています。
実際、今日のロボット研究のほとんどは、何かを置いたり、引き出しやドアを開けたり、ペグを穴に挿入したりするような、短期的なタスクに限られています。さらに、ロボット研究や私たちが発表する論文を見ると、実験のほとんどが人工的に単純な環境で行われ、小規模で逸話的な、実験者が選んだタスクと設定で、標準的なベンチマークや評価指標が不足しています。
もし日常的なロボットという目標につなげたいなら、現実の世界ははるかに複雑で、動的で、不確実で、大きな変動があり、インタラクティブで社会的で、たくさんのタスクがあります。では、このギャップをどのように埋めればいいでしょうか?
過去数十年のディープラーニング革命から何かを学んだとすれば、データとベンチマークがコンピュータービジョンや自然言語処理など、他の関連分野で長い道のりを歩んできたということです。
実際、このようなインスピレーションを得て、私たちはロボット学習と具体化されたAIの新しい北極星を思い描くことはできないだろうかと自問しました。これが今日の講演で最後に紹介する研究です。スタンフォード大学のBEHAVIORプロジェクトが提案する、生態学的なロボット学習環境と大規模で多様な活動のセットです。
これは、仮想的な対話型生態学的環境における日常的な家庭の活動のベンチマークです。過去3年間、このプロジェクトに取り組むのはとても楽しかったです。認知心理学者とロボット工学者、そしてコンピューターサイエンティストが一緒に働いています。
前に「わぁ、これは仮想世界だ。何の話をしているんだ?」と言っていましたが、ちょっと立ち止まって考えてみましょう。結局のところ、どんなタスクについて話しているんでしょうか?ロボットに日常的な家庭の活動を手伝ってもらいたいんです。
日常的な家庭の活動って何でしょうか?ここで小さな実験をしてみましょう。ロボットに手伝ってもらいたい家庭の活動について聞いてみます。好きなら、うなずくか何か言ってください。キッチンの床を掃除するのはどうですか?はい、いいですね。
そうですね。コネチカット州の雪かきは?はい、いいですね。洗濯物をたたむのは?はい。家では洗濯物をたたむことが多いので、実はその時間が好きなんですが。まぁ、ロボットにもできますね。朝食を作るのは?ちょっと躊躇していますね。最後のこれが一番いいです。クリスマスプレゼントを開けるのは?(聴衆笑)
ところで、気づいたかどうかわかりませんが、これらの画像は1枚1枚すべてAIが生成したもので、人間のアーティストではありません。
さて、これは本当に重要です。私たちは非常に熱心な技術者ですが、プロジェクトを始める前に、人間と人々、そして人々のニーズに焦点を当てましょう。
BEHAVIORプロジェクトを始める前に、実際にAmazon Mechanical Turkの1,400人の参加者を対象に大規模なユーザー調査を行い、政府のデータが提案する2,000以上の日常的な活動をスクリーニングし、整理しました。そして、ロボットがこれらの活動をしたら、どれくらい利益があるかを人々に尋ねました。人間が何を必要としているかを知ることが重要だからです。
そして、スコアを得ました。ランク付けしました。さっき見せたように、(聴衆笑)掃除は、みんなが欲しがっています。でも、人々はロボットにクリスマスプレゼントを開けてもらったり、ダーツを投げてもらったりするのは好きではありません。ロボットが勝つのを心配しているんでしょうね。あるいは指輪を買ってもらうのも。
人々がロボットに手伝ってもらいたいと思うトップ1,000のタスクをまとめると、主に掃除のタスクや単純な料理のタスク、あるいは退屈な買い物のタスクに集中しています。
そうですね。そこで、私たちはロボット学習プロジェクトの基準として、あるいは目指すべき活動として、上位1,000位の家庭の活動を採用することにしました。しかし、それだけでは十分ではありません。どんな環境で?逸話的で小規模な、単純な研究室製の環境は使いたくありません。
そこで、実際にアパートからレストラン、オフィス、店舗まで50の実際の環境をスキャンし、これらをロボット訓練の世界を構築するための基礎として使用しました。また、1,200以上のオブジェクトカテゴリーにわたって5,000の3Dオブジェクトモデルを取得しました。これらのオブジェクトアセットモデルは、温度変化や関節、変形性など、30以上の異なる特性をカバーしています。
これらの材料がすべて揃ったところで、ロボット学習のための前例のない大規模なシミュレーション環境を作る準備が整いました。シミュレーション環境は非常に重要です。実際、高速で、実世界に転移でき、安全で、再現性が高く、シミュレーションを使ってより公平なデータセットを作ることができます。これまでにも良い取り組みがありました。
AI分野では、シミュレーション環境を作るための多くの努力がありました。これらは、世界中の同僚たちによる最先端のシミュレーション環境のいくつかです。BEHAVIORプロジェクトでは、NVIDIAのOmniverseチームと協力しました。これは商用グレードのシミュレーション環境で、物理、知覚、相互作用の面でロボットを訓練するための現実的な環境の作成を目指しました。
ここでは、現実的な物理の例をお見せしています。熱効果が見えます。照明や反射効果が見えます。流体、変形性、透明度が見えます。また、知覚のリアリズムについてもユーザー調査を行いました。BEHAVIORの環境やシミュレーション環境を他のシミュレーション環境と比較し、人々に知覚的なリアリズムのスコアを付けてもらいました。BEHAVIORはかなり良い結果を出しました。
また、物理的な相互作用のリアリズムを再現するために非常に努力しました。ここでは、ロボットが水や流体、変形可能な材料など、かなり複雑な材料を扱っているのが見えます。
これは非常に複雑で、オタクっぽいチャートですが、BEHAVIORと他のシミュレーション環境との定量的な比較を示し、BEHAVIORがいくつかの重要な次元でより多様で、より大規模で複雑であることを示しています。
もちろん、これらの日常的な家庭の活動のための新世代のロボットアルゴリズムを作るという目標を持って、今日のアルゴリズムがどのように機能するかという質問から始めたいと思います。
BEHAVIORの3つの活動、装飾の収納、ゴミの収集、テーブルの掃除を選び、今日の最先端のアルゴリズムとベンチマークを行いました。これは少し込み入っていますが、講演の最後の込み入った部分だと約束します。これら3つのタスクを使って、アルゴリズムの異なる条件を変更して、最先端のアルゴリズムがどのように機能するかを見ました。
簡単に言うと、今日の最先端のアルゴリズムに人為的に特権的な情報を与えなければ、性能はゼロです。まぁ、これは実際には励みになることだと学生たちに言いました。チャレンジングであることが望ましく、ここから進歩できるからです。
もちろん、いくつかの特権的な情報を与えて緩和すれば、例えばここでは「アクションプリミティブ」と呼ばれるものを与えています。ロボット工学の分野から来られた方なら、これはもう少し...単にプログラムされた動きだとわかるでしょう。そうすると性能は向上し始め、ここに人工的なメモリを加えるとさらに向上します。
このグラフが示しているのは、BEHAVIORが今日のロボット学習において最も挑戦的なベンチマークの1つであり、ロボット学習アルゴリズムのための1,000の家庭活動を訓練する肥沃な遊び場ができたことを非常に興奮させられるということです。
そして、ここで止まるつもりはありません。シミュレーションを実世界に持ち込み、Sim2Real(シミュレーションから現実への転移)の可能性も作っています。スタンフォードでは実際のアパートを作り、マーヴィンという実際のロボットがシミュレーション環境内の自身のデジタルツインと一緒に作業しているので、仮想エージェントと物理的なエージェントを同時に訓練しています。
これが実際のマーヴィンです。マーヴィンはとてもゆっくりですが、(聴衆笑)実際にはこのボトルをゴミ箱に入れるという目標を持って、うまくボトルを拾おうとしています。
では、マーヴィンがそれをできるか見てみましょう。少々お待ちください。この場合、マーヴィンは無事にゴミ箱まで移動し、ボトルを中に入れることができました、いいですね?でも、マーヴィンは多くの場合成功しません。
時には間違ったテーブルに移動したり、ボトルを拾えなかったり、カップを正しい場所に置けなかったりします。これをお見せしているのは、キッチンの床を掃除するようなことを実現するには、まだまだ長い道のりがあることを示すためです。
これは、BEHAVIORプロジェクトのティーザー動画で、この環境の多様性をもう少し感じていただけると思います。これらはすべて私たちのシミュレーション環境で、この動画を見ることで、BEHAVIORの複雑さ、環境の複雑さ、店舗からアパート、レストランまでの大規模なもの、さまざまな種類のオブジェクト、そしてもちろんBEHAVIORのウェブサイトをより良く理解できると思います。
さて、私たちはあのかわいそうなロボットから始まり、目標は将来的に家庭用ロボットを作ることです。それはまだ長い旅路ですが、BEHAVIORにとてもワクワクしています。なぜなら、それは人々を置き換えるのではなく、増強するという目標を持って生まれたからです。大規模で多様であり、現実的で生態学的であることを目指しています。
人間が見たいもの、やってほしいことを見たり行ったりするAIを構築するこれらの仕事を通じて、AIは個人や集団の人間の能力と幸福を置き換えるのではなく、増強することを目指さなければならないという価値を学びました。この部分の仕事に貢献してくれた多くの共同研究者、学生、ポスドクの皆さんがいます。
これで、この講演はほぼ終わりに近づいています。私たちの研究室で行ってきた3種類のAI研究について話してきました。最も重要なのは、AI構築の20年の旅を経て、実際に多くの人間的な教訓を学んだことです。
AIの開発は、その人間への影響への懸念によって導かれなければなりません。AIは人間を置き換えるのではなく、人間を増強し、強化することを目指すべきです。そしてAI技術は、人間の知能と脳科学からインスピレーションを受け続けなければなりません。
これら3つの基本的な人間の価値観を持って、スタンフォード大学は3年前に人間中心AI研究所を立ち上げました。当時は7つの学部、今では8つの学部にまたがる幅広い教授陣のリーダーシップの支援を受けています。法学部から経営学部、医学部、人文科学部、工学部、自然科学部まで。
HAIはとても若い研究所です。パンデミック中に行ったことをいくつか紹介します。デジタル経済研究所を立ち上げ、経済学者とコンピューターサイエンティスト、技術者を特に集めて、このデジタル時代における社会、労働市場、経済への影響を研究しています。
基盤モデル研究センターを立ち上げました。今日ニュースを生成しているAI、GPT-3やこのDALL-Eアートなどは、すべてこれらの大規模な基盤モデルによるものです。これらは私たちの産業やAIアプリケーションに深い影響を与えています。倫理的・社会的な観点からも、技術的な観点からも。
そこで、教授や教員、研究者が集まってこれを研究しています。また、政治学者、人文学者、コンピューターサイエンティストが主導する、人間を対象とするIRBレビューにインスピレーションを受けた、倫理と社会のレビューと呼ばれる新しいAI研究助成金のレビュー方法も先駆的に行っています。
また、コンピューターサイエンスの授業に倫理を組み込むことで、学部生や大学院生向けの教育プログラムも行っています。しかし、私たちの教育はスタンフォードの壁内にとどまりません。
スタンフォードの壁を越えて、ビジネスエグゼクティブ、ジャーナリスト、弁護士、裁判官、そして特にワシントンDCの政策立案者、州や地方レベルの政策立案者など、専門家向けにAI教育を拡大し始めました。
スタンフォードは、全国AI研究リソースと呼ばれる法案のロビー活動を主導したことを誇りに思っています。イェール大学もチームの一員だったと思います。ご協力ありがとうございました。バイデン政権は2年前に全国人工知能研究リソースタスクフォースを立ち上げました。
12人のタスクフォースの1人に選ばれたことを大変光栄に、そして謙虚に思っています。数週間後には、アメリカの公立・高等教育部門のAIにおけるイノベーションと教育能力を活性化する新しいアイデアを議会に提示する予定です。
要するに、機械に見る能力を与えるAIを作り、5億4000万年かけて進化が私たちに示してくれたように、シリコンで知的な機械を作るという大胆な野心を実現する旅は、興奮すると同時に謙虚にさせられるものでした。
しかし、この技術的な旅を通じて、機械学習の教訓よりも人間の教訓をより多く学び、人間の価値をより深く理解したことは驚くべきことです。そしてこれは続いています。これは旅のほんの始まりに過ぎません。
もちろん、この研究をサポートしてくれたすべての学生や共同研究者、そしてスポンサーの皆さんに感謝します。
ご清聴ありがとうございました。

この記事が気に入ったらサポートをしてみませんか?