見出し画像

『AI's Greatest Scientific Advances-AI の最大の科学的進歩』について翻訳&まとめ(個人的な解釈も含む)をしてみました。

こんにちは、moz(モズ)と申します。現在は高校3年生の17歳です。
今後世界的なスタートアップを立ち上げるために色々勉強したりしています。

今回は『AI's Greatest Scientific Advances』日本語に訳すと、『AI の最大の科学的進歩』と言う事でAIが如何にして昨今のような革新的なシステムに進化していったのかをJohn Coogan氏が解説すると言うような動画になっております。

そしてその動画を、翻訳し個人的な解釈も含めてまとめてみました。

TwitterのDMや引用RT等でフィードバックをお待ちしています。

本家の動画▼

AI(人口知能)の可能性

AI(人工知能)は科学に革命をもたらしたばかりですが、今日話したい主要な転換点は実際には数十年にわたって進化してきたものについてです。しかし、薬剤開発、環境シミュレーション、ゲノム配列決定の方法がどのように変化しているのかを正確に理解する前に、2011年にマーク・アンドリーセンが長い記事を書いたことを見ておく必要があります

※アンドリーセンは、ネットスケープ・ウェブブラウザの創設者であり、著名なテック投資家です。

2011年当時、株式市場は混乱しており、新興テック企業が上場することについては誰も正確な見方を持っていなかった。多くの人々が、10年前のドットコム時代と同様に、これは大きなバブルであると主張していた。しかし、アンドリーセンは事態を異なる視点から見ていた。彼は、ソフトウェアが世界を食いつくし、すぐにあらゆる産業が技術によって変革または破壊されるだろうと主張した

彼の主張は強かった。何しろ、現代のインターネットが台頭してから20年が経ち、現在は20億人以上がブロードバンドにアクセスできるようになっているのです。さらに重要なことは、新しいテクノロジー企業を設立するコストが数桁も低くなったことです。2000年に月額15万ドルの維持費がかかっていた基本的なインターネットアプリケーションでも、今ではわずか1,500ドルでAmazon Webサービスに展開できます。アンドリーセンが見る限り、ソフトウェアはあらゆるところで勢力を拡大していました。』と語っており

Amazonは書籍販売を革新し、Netflixは興行的に大きな成功を収めた作品を崩壊させているように、実際に”あらゆる産業が技術によって変革または破壊される”と言う事が起こっているんですね。

アンドリーセンはこのトレンドが続くと予測し、近い将来、国防やエネルギー生産などの資産重視産業もソフトウェアを最大限活用するだろうと述べました。そして、アンドリーセンの予測から10年が経ち、今ではその予測は驚くほど正確だと言えます。ソフトウェアは古い産業を革新するための強力力であり新興の企業のほとんどは、どこかしらソフトウェア革新に結びついています。しかし多くの科学分野はこれまでほとんど影響を受けていませんでした。しかし、コンピューティングの2つの主要な進展が相互に連携することで、科学の驚くべき可能性が開かれつつあります

と述べており、では2つの主要な進展とは何なのでしょうか。
結論から言うと
①計算能力
②膨大な量のデータ解析(ディープランニング)
の2つになり

計算能力が大幅に向上したことにより、以前は解決不能だった問題を解決できるようになりました。そして、人工知能が成熟し、それを利用することで、膨大な量のデータを解析し、洞察を得ることができるようになりました。この2つの進展により、科学者はこれまで想像できなかったような分野で進歩を遂げることができるようになりました。』と語っているようにこの2つの進展によって科学分野が大幅に進歩したと言うことです。

例えば、医薬品開発、環境シミュレーション、ゲノム解析などがその例です


科学の分野のどこで最も進歩が見られるのか

「最も進歩している分野はどこか」という質問に答えるためには、1950年代にバイオロジストたちが行った初期の研究を振り返る必要がある。1953年、ワトソンとクリックはDNAの二重螺旋構造を説明する論文を発表しました。DNAを視覚化できるようになると、私たちは常により深いレベルで理解できるようになりました。目標は常に、遺伝子コードの特定の部分と、そのコードから生じる細胞部位やプロセスとの関係を解明することでした。

と言うふうに”最も進歩している分野はどこか”と言う質問に答えるためには、このDNAに関する1950年代に行われた初期研究を振り返ることが必要であると。

DNAやRNAのソースコードだけを使用して完全な画像を把握することは常に失敗し続けてきました、生物学者たちは、未知のタンパク質の3次元形状を正確かつ効率的に予測できるようになりたかったのです。これは、構造と機能が生物学において直接関係していることがわかっているためです。タンパク質の形状は、細胞内で果たす役割を決定します。たとえば、膜受容体は中空の円柱状であることが多く、適切に接続するためです。人間のDNAはたった4つの単純な塩基でできていますが、最大で20,000種類の異なるタンパク質をコードできます。科学者がDNA配列からタンパク質の構造を予測できるようになれば、人間の疾患をよりよく理解し、さまざまな病気に対処するためのカスタムタンパク質を設計することもできます。』とのことで科学者達はタンパク質の三次元構造を予測したかったと言うことですね。

詳しく説明すると、タンパク質の三次元構造を予測する必要がある理由は、タンパク質が生物学的な機能を持つ上で重要な役割を果たすかららしく

タンパク質は、生物学的なプロセスに関与する様々な役割を持っており、例えば酵素として化学反応を触媒する、細胞膜を形成する、遺伝情報を伝える、免疫系の機能を担うなどです。これらの機能は、タンパク質が持つ特定の構造に基づいていることが知られているのでこの構造を予測できればタンパク質が関わる病気に対処ができるようになると言うことです。


ここ70年間、この分野での進展は小さかったため、科学者たちは遅い計算方法や時には直感に頼る必要があり、タンパク質の構造を解読するために苦労しました。これは、科学者たちがすでにタンパク質を構成するアミノ酸とDNA配列の間の翻訳を解決していたにもかかわらず、アミノ酸を最終的な構造に折り畳む問題がありました。この折り畳みが完了すると、タンパク質の真の構造が明らかになります。しかし、新しいディープラーニングのニューラルネットワークの登場により、この問題を解決するための方法が可能になりました。』と語ります。

つまり、タンパク質の構造の解読には成功したものの解読するためには多大な計算量が必要で解読に時間がかかっていたと。

しかし、”新しいディープラーニングのニューラルネットワークの登場により、この問題を解決するための方法が可能になりました”と言うように新たな膨大な量のデータ解析を行える、すなわちディープランニングのニューラルネットワークが登場したことによりこの問題が解決できるようになったと言うことですね。

それは、AIの研究者たちが現れ、すべてを変えたまででした。DeepMindは2010年9月に設立され、わずか数か月後にアンドリーセンが彼の有名な「ソフトウェアは世界を食いつぶす」という記事をウォールストリートジャーナルに投稿しました。テック業界で他の誰もが、すぐに消費者に提供できる製品を開発して利益を生み出すことに焦点を当てていたのとは異なり、DeepMindチームははるかに方法論的で、数年間にわたって先端的なAIを静かに開発していました。』と言うようにDeepMindの設立によってタンパク質の構造を解読する事に成功したり、その他の技術革新を成功させたと言うことです。

彼らは、様々なゲームをマスターすることで注目を集めることにより、ヘッドラインを作り出すことにより、より焦点を当てていたようでした。最初に彼らは世界チャンピオンの囲碁選手李世ドルを破り、数年後にはStarCraft 2でグランドマスターレベルに到達しました。DeepMindは、主に様々なゲームをマスターすることに焦点を当て、世間の注目を集めることに注力していました。しかし、これらのゲームから得た知見は、他の分野にも驚くべき形で応用できることが判明し、タンパク質の折り畳み問題はDeepMindの技術にとって明らかなターゲットでした。そして2020年、DeepMindチームは、AlphaFoldと呼ばれるアルゴリズムがタンパク質の折り畳み問題を解決したと発表しました。

と言うふうにDeepMindがAlphaFoldと呼ばれるタンパク質の折り畳み問題を解決するアルゴリズムの開発に至る前に、将棋やゲームなどの世間の注目が上がるようなプロジェクトから始めていたと言うことがこの文章から分かります。


これに関する全てのニュースは、最初は興奮と懐疑的な反応を呼びました。もしAlphaFoldがうまく機能するなら、科学者たちが研究室でかける時間とお金を大幅に節約できる可能性があります。しかし、ビデオゲームに重点を置いている会社が生物学界に実際に影響を与えることは奇妙に思われました。幸いなことに、さまざまなタンパク質折り畳み手法を評価するためのゴールドスタンダードの競技会がすでに存在しており、AlphaFoldがこの競技会に勝てば、懐疑論者たちは彼らが獲得した信用を認めざるを得なくなります。競技会が近づくにつれて、AlphaFoldは止まらなくなり、DeepMindチームは競争相手を打ち破り、タンパク質の最終形状を予測するスコアを公開しました。その予測の精度は1つの原子の幅内でした。しかし、学術競技会は現実世界での利用価値には限界がある場合があります。そのため、DeepMindはAlphaFoldを実践的に試す必要がありました。』と語っており

AlphaFoldは本当に機能するのかなどの懐疑的な意見が飛び交う中、このタンパク質折り畳み問題において様々な折り畳み手法を評価をする競技会が行われそこに勝つことで懐疑的な意見を持つ人はAlphaFoldを認めざるを得なくなったと言うことですね。

しかし、実践に使えなければ利用価値には限界がある場合があるので、そのため、DeepMindはAlphaFoldを実践的に試す必要がありました

DeepMindはAlphaFoldを実践的に試す必要がありました。コロナウイルスを研究しているときに、DeepMindチームはAlphaFoldを使用して、SARS-CoV-2スパイクタンパク質の正確な形状を予測することができました。このスパイクタンパク質は後にワクチンの標的になりました。これは人工知能と生物学の応用において驚異的なマイルストーンであり、ソフトウェアが科学界にも影響を与え始めたことを示しました。その後、AlphaFoldのオープンソース版はScience誌の今年のメソッドに選ばれました。編集長は、タンパク質折り畳みの突破口は、科学的な成果と将来の研究の両面において、史上最大のものの一つであると述べました。DeepMindはゲームに勝ち、タンパク質折り畳み問題を解決しました。これは、人工知能研究の数十年にわたる努力を検証するものであり、巨大な成果でした。しかし、科学研究においてタンパク質の折り畳みは、全体のパズルの中のほんの一部であり、小さい課題にすぎません。

と語っており”、DeepMindチームはAlphaFoldを使用して、SARS-CoV-2スパイクタンパク質の正確な形状を予測することができました。”と言うところからAlphaFoldは実践でも結果を出したと言うことが分かります

AlphaFoldのアルゴリズム

ではAlphaFoldのアルゴリズムは何なのでしょうか。
ここからはこの動画では語られていませんが、AlphaFoldが気になった方に向けて色々調べてまとめてみました。
▼参考記事

タンパク質は生物学的な機能を果たすために特定の形状を持っており、その形状はタンパク質の機能や相互作用に重要な役割を果たします。
従来の実験的手法では、タンパク質の構造を決定するには時間とコストがかかるため、高速かつ正確な予測手法の開発が求められていましたという事でした。

そこでAlphaFoldが登場します。

AlphaFoldのアルゴリズムは、タンパク質のアミノ酸配列情報を入力とし、その配列からタンパク質の三次元構造を予測することができます。

このアルゴリズムは、深層学習(ディープラーニング)と呼ばれる機械学習の手法を使用していると。

具体的には、AlphaFoldは2つの主要なステップから構成されています。まず、タンパク質のアミノ酸配列情報を入力とし、それに対して畳み込みニューラルネットワーク(Convolutional Neural Network, CNN)を使用して特徴量を抽出します。これにより、タンパク質内のアミノ酸の相対的な位置関係や化学的特性などの情報が抽出されます。

次に、得られた特徴量を元に、グラフニューラルネットワーク(Graph Neural Network, GNN)を使用してタンパク質の三次元構造を予測します。GNNは、タンパク質内のアミノ酸の相互作用や距離制約などの情報を考慮して、最適な三次元構造を推定します。

要は
第一段階ではCNNで 「アミノ酸配列 -> 物理情報(結合距離、結合角)」

第二段階では GNNで「物理情報(結合距離、結合角) -> 三次元構造」

と展開していく形で解析していきます。

AlphaFoldの大きな特徴は、学習データとして大量のタンパク質の構造情報を利用していることです。これにより、高い予測精度を達成することが可能となるということだと思います!

AIの進歩


研究分野に戻ると、タンパク質の折りたたみは科学的研究の一部に過ぎず、その分野にはまだ多くの課題があることが明らかになりました。そこで、AIコミュニティは自らの野心を拡大する時期に来ていました。

と述べており、タンパク質の折りたたみは、科学分野のほんの一部にしか過ぎず科学分野には更にAIの技術を必要とする課題があるという事で昨今のAIコミュニティは自らの野心を拡大すべくプログラマーや科学者たちが、非常に有望な結果を出しながら、世界で最も困難な問題に取り組み始めているようです。

その例として”最近、AIによる創薬の可能性に関する記事が発表されました”と述べています。

その前に
最近のAIの雑誌に掲載された記事「The Gradient」によると、AIが科学に与える影響が大きいとされる4つの主要な分野が明らかにされています。』と述べており

この”AIが科学に与える影響が大きい4つの主要な分野”と言う事で、この動画では明確に4つの分野を提示されていなかったので、動画の趣旨を読み取り先にこの4つを個人的に簡潔にまとめます。▼

①データ解析

AIは、大量のデータを高速かつ正確に分析することができます。このため、AIは、物理学、化学、生物学、天文学などの科学分野において、データの解析やパターンの発見に役立っています。

②精密なシミュレーション

AIは、複雑なシステムやプロセスをシミュレーションすることができます。例えば、天気予報、気候モデル、流体力学、原子・分子シミュレーション、などが挙げられます。このため、AIは、物理学、化学、生物学、天文学などの科学分野において、シミュレーションの精度を向上させることが期待されています。

③高度なロボット工学

AIは、ロボットに高度な知能を与えることができます。このため、AIは、自動車産業、航空宇宙産業、製造業、医療分野、などの分野で、ロボット工学の発展に貢献しています。

④新しい発見の加速化

AIは、科学研究において新しい発見を加速化することができます。例えば、AIは、新しい医薬品の設計や材料科学の発展に役立ちます。また、AIは、天文学、物理学、化学、生物学などの分野において、新しい発見を導くことが期待されています。


過去数年間にわたって、AIは大量のデータセットで繁栄してきました。OpenAIのGPT-3のようなプロジェクトは、大量のテキストデータを使用して質問に答えたり、テキストを翻訳したり、コンピュータコードを書いたりしています。AIが人間が最も苦労する分野で最も優れていることは非常に幸運です。個々の人間が出版されたすべての科学論文を読むことは不可能ですが、それは忙しい研究者でさえ不可能な完璧な問題です。しかし、AIはすべての利用可能な科学文献を迅速に読み、特定の科学分野の基本的なルール、データ、原則を作成することができます。そして、これは特定の分野に制限される必要はありません。有益な洞察が隠されている何百万もの科学論文がありますが、適切なタイミングで表面化できれば、有用な情報となるでしょう。』と語ります。

これは膨大な量のwebサイト、テキストをデータ解析している良い例だと思います。

そして、これは特定の分野に制限される必要はありません。有益な洞察が隠されている何百万もの科学論文がありますが、適切なタイミングで表面化できれば、有用な情報となるでしょう。医療データベースがGoogleやWebMDよりも優れた結果を提供することが容易に想像できますが、ここでの実際の応用は、おそらくはもっと技術的なものになるでしょう。』と言うことで

データ解析の特性を用いた分野は多岐に広がると言うことです。

例えば、Insilicoという企業があります。彼らはAIを使って、特定の疾患である特発性肺線維症(idiopathic pulmonary fibrosisまたはIPF)を治療する新しい薬を設計しました。Insilicoのアプローチで興味深いのは、薬剤自体を設計するためにアルゴリズムを使用しただけでなく、治療したい疾患を選ぶためにアルゴリズムを使用したことです。Insilicoチームは、医学の大量の文献を使って、治療したい疾患に関係する可能性のあるタンパク質、細胞、病原体を見つけることができました。』と述べており

これの詳しい説明をすると

このアプローチでは、最初に研究対象となる疾患を選びます。その後、疾患に関連する医学的文献から情報を抽出し、AIアルゴリズムを用いて、その疾患に対する有望なターゲット(治療や予防に向けた新しい薬剤の開発や、既存の薬剤の改良に役立つ、疾患の原因となるタンパク質や遺伝子などの分子)を選定します。

具体的には、疾患に関する文献データベースを検索し、データからターゲットを抽出します。その後、AIアルゴリズムによって、疾患に効果的なターゲットを見つけ出すために必要な機械学習やデータ解析が行われます。このプロセスによって、疾患に関する新しい知見が得られ、それを元に新しい治療法や薬剤が開発されることが期待されると言う事だと思います。まさに高度なロボット工学だと言えます。

もしAIのアプローチがうまくいけば、薬の開発プロセスを大幅に加速することができます。AIの利点は、人間が操作するプロセスを完全に置き換えることに制限されることはめったにありません。多くの場合、AIは単に人間がより良い意思決定をより速く行うのを助けるだけであり、ここで第2の領域が重要になります』と言う事でAIによって意思決定のスピードが上がり、すなわち新しい発見の加速化をしていると言えるでしょう。

更に専門的な科学的機器であっても、AIのアップグレードを受けることができるようになりました。電子顕微鏡は、通常の顕微鏡のようにレンズを通して可視光を使うのではなく、電子を使ってより詳細な解像度で自然界を調査できるようになりました。問題は、これらの電子顕微鏡によって生成されたデータがノイズが多く、解釈が困難であることです。』

つまり、従来の電子顕微鏡によって生成されたデータ(画像)にはノイズがあるため何が起こっているかの解釈が困難だと言う事です。しかし、ここにもAIの技術を用いることで解釈が容易になると言う事が実現しました。▼

サンプル(電子顕微鏡で観察するために調製された、物質や生物学的試料)の物理的および化学的特性に関する追加のデータを記録し、それをAIシステムに渡すことで、研究者は彼らの機器の能力と精度を向上させることができます。これらの基本的な科学ツールは、効率的な研究にとって重要です。

との事で、これを具体的に説明すると
電子顕微鏡で得られたデータには、サンプル(電子顕微鏡で観察するために調製された、物質や生物学的試料)の表面形状、構成物質、結晶性、化学的な反応性などが含まれます。AIシステムは、これらのデータを処理し、より高い解像度で画像を生成するための最適な条件を特定することができると言う事です。

要は得られたデータに対してAIが補足してくれると言う事ですね。

AIは、小規模な改善だけでなく、逆にスペクトルの反対端でも新しい能力を開示しています。それは広く複雑なシミュレーションと呼ばれ、基礎科学研究において標準的なツールに急速になりつつあります。我々は何度も何度も見てきたように、深層ニューラルネットワークは驚くほど広範な問題を解決できます。例えば、GPT-3は同時に質問に答え、コードを書き、翻訳することができ、DeepMindのGatoはAtariのゲームをプレイすることはもちろん、解析化学やバイオメカニクス、ロボティクスなどの分野での研究にも活用されています。これらの進歩は、科学と技術の新しい分野の探求を可能にし、大きなインパクトを生む可能性があるため、非常にエキサイティングなものです。

「deepmind」は、Atariゲームをプレイすることから、リアルなロボットアームでブロックを積み重ねることまで、あらゆることができるニューラルネットワークです。そして、その多様性は、科学的モデリングにも応用され始めています。このネットワークは、「dense」と呼ばれ、物理学や天文学、地質学、気候科学など10の異なる科学分野でシミュレーションを構築するために設計されました。1つのディープニューラルネットワークが10の別々のエミュレータを構築し、計算精度を維持しながら、最大10億倍高速化された計算を実行できました。

それぞれのエミュレータを分けて、精度を維持しながら計算を行うことができます。この重要な突破口は、これらのモデルが逆問題を解決するのに特に優れていることです。逆問題とは、研究者が特定の出力に至る可能性のある変数を把握したい場合の問題です。巨大なモデルのパラメータをランダムに調整するのではなく、AIは研究者が求めている答えのセットを容易に解決することができます。これらのAIによるシミュレーションは、研究者が探している解を求めるのに特に適しています。』と語っており

膨大なデータの解析に限らず、広く複雑なシミュレーション、すなわち精密なシミュレーションが可能になった事によりDeepMindのGatoと言う人工知能は解析化学やバイオメカニクス、ロボティクスなどの高度な分野に使用されるようになったと言う事ですね。
DeepMindのGatoについてはこちらの記事がおすすめです▼

”広く複雑なシミュレーション”について

『さらに、重要な進歩は、これらのモデルが逆問題の解決に特に優れている点です。逆問題とは、特定の出力を得るための可能な変数の組み合わせを見つけることを意味します』と述べており

これにより、従来の方法では、パラメータをランダムに調整して試行錯誤する必要がありましたが、AIによるシミュレーションでは、研究者が求めている答えを簡単に解決することができます。

研究者が特定の出力につながる可能性がある変数を求めたい場合、AIは簡単に研究者が求める答えのセットを解決できます』と言うように

逆問題は、与えられた出力を達成するために必要な変数の組み合わせを見つける問題であり、通常、科学や工学の分野でよく遭遇する問題で具体的な結果や効果を達成したいときに、どのような条件やパラメータを設定すればよいかを知りたいときに使用されるようです。

一般的な例としては、地震の発生源を特定することが挙げられます。地震の揺れや被害のデータが与えられた場合、地震の発生源の場所や深さを推定する必要がありますが、逆問題では、与えられた地震の揺れや被害データから、どのような地震源の条件(例えば、震源の位置や深さ)から地震が起こったのかを導く必要があると

そこでAIによるシミュレーションは、逆問題の解決に非常に優れているため、通常、逆問題の解決には試行錯誤が必要で膨大な数のパラメータを変更してシミュレーションを繰り返す必要があります。

しかし、AIを使用すると、多くのパラメータを同時に解析し、最適な結果を得るための変数の組み合わせを素早く特定できると言う事です。これにより、計算量が多い問題でも効率的に解くことができるようになったと言う事ですね。

そして広く複雑なシミュレーションとは、様々な要素や相互作用を含んだ現実世界の複雑な現象やシステムをコンピュータ上で模擬することを指します。通常、数学的なモデルや物理法則、データなどを基に、コンピュータプログラムやアルゴリズムを使用して、現実のシステムや現象を再現し、予測や解析を行いますが

広く複雑なシミュレーションは、科学研究や工学分野で広く活用されていて、例えば、気候モデルのシミュレーションでは、大気、海洋、陸地、生物の相互作用など、多くの要素を考慮して地球の気候変動を予測します。また、物理学や化学では、粒子の運動や反応、材料の性質などをモデル化し、物理現象や化学反応の解明や新しい材料の設計を支援します。

要は、従来の手法では困難で時間がかかる複雑な問題に対してもアプローチできるようになり、現実的なシミュレーション結果が得られるようになっていと言う事だと思います。

そして
これらのAIによるシミュレーションは既に現実世界に影響を与えており、COVIDパンデミックを見れば、2020年夏に日本の科学者グループが、世界中のウイルスの感染拡大をモデル化するためにディープニューラルネットワークを構築し始めました。彼らは、世界で最も強力なスーパーコンピュータでこのネットワークをトレーニングし、生成されたデータは、ウイルスが実際に空気中で伝播していることを示す重要な証拠を提供しました。それは直接公共政策に影響を与えました。

と述べている通り、これらのAIのシミュレーションは既に世の中に影響を与えています。

実際に、ウイルスが空中感染することが判明し、これは直接的に公共政策に影響を与えました。研究者はAIの新たな応用を科学分野で毎日見つけ続けていますが、まだ初期段階です。』

との事でこの動画はエンディングを迎えます。

まとめ

ここまで読んでいただきありがとうございました!

今回は『AI's Greatest Scientific Advances-AI の最大の科学的進歩』と言う事で、AIの歴史における原点の1950年代のDNAの研究から、Deepmindの登場。AIを応用したGPTの誕生と、COVIDパンデミックにおけるシミュレーションまでを解説する動画を翻訳&個人的な解釈を含めたまとめをしました。

まだまだAIの技術を必要とする分野があるとされているため今後更にAIの成長が見込めるなと思いましたし、10年後にはAI領域の企業がGAFAのように圧倒的地位を築くのだろうと思いました。

chat GPTの発展により、AI関連のニュースなどが増えたことが実感できますし、身近にAIを感じれるようになりました。これからどのようなAIを用いたサービスが誕生し、どのような方向に進むのかには目が離せません。

以上です。


















この記事が気に入ったらサポートをしてみませんか?