見出し画像

次世代の脳を模倣する AI

この回は、ブリリアントの提供でお送りします。
テック業界のAIへの執着が、最初の物理的な限界にぶつかり始めています。それは消費電力です。AIモデルのトレーニングと使用は、一般の人々が消費する計算プロセスの中で、最もエネルギー集約的なものの一つであることが証明されています。実際、GPT-4のテキスト要求1回で約30,000ワット時のエネルギーを消費すると推定されています。これは、iPhoneを60台充電するのに必要な量に相当します。これは、従来のAIを使用しないGoogleの検索要求を実行するのに必要なエネルギーの約1,000倍です。アムステルダム経営大学の研究によると、現在の軌道のまま推移すると、2027年までにグローバルなAI処理は、スウェーデンと同じくらいのエネルギー、つまり年間約131ギガワット時を消費すると予測しています。
人間の脳のエネルギー消費を調べると、現在のAIのアプローチが持続不可能で非常に非効率的であることは明らかです。激しい精神活動中、脳は1分間にたった1/4食品カロリーを消費します。これは、基本的なGPT-4リクエストとほぼ同じエネルギー消費量で約17時間の集中的な思考に相当します。生物学的な神経システムと現在のAIモデルのエネルギー効率の間にあるこの著しい対比は、次世代のAI開発への新たな競争を生み出しました。それは、より密接に私たちの生物学を模倣するものです。
AIの激しい電力消費は、大多数のAIシステムを構成する人工ニューラルネットワークの基本的なモデルの直接的な結果です。人工ニューラルネットワークは、問題解決へのアプローチにおいて生物学的システムを緩やかに模倣し、複雑な統計モデルを使用して解決策を最も適切に近似します。人工ニューラルネットワークの基本構造は、組織化された層に構造化された相互接続されたノードまたは人工ニューロンのネットワークで構成されています。データは入力層を通じてネットワークに供給されます。入力層の各ニューロンは入力特徴または変数を表します。この入力層の複雑さは、入力データの次元性とその複雑さ、忠実度に依存します。
人工ニューラルネットワークの機能性は、隠れ層として知られるネットワークの中核における情報の相互作用から生まれます。隠れ層は入力層と出力層の間に位置し、タスクの複雑さに応じて幅広い構成に構造化することができます。例えば、2つの一般的なアーキテクチャとして、画像などのグリッド状のデータ処理用に設計された畳み込みニューラルネットワークと、時間ベースの連続データの処理用に構造化された再帰型ニューラルネットワークがあります。ニューラル・アーキテクチャの選択や、層の数、層ごとのニューロンの数、活性化関数などのハイパーパラメータは、タスクの複雑さ、利用可能なトレーニングデータ、望ましいパフォーマンスに依存します。
各隠れ層内には、前の層から受け取ったデータを処理し変換する複数のニューロンがあります。これは、入力の重み付け和に活性化関数を適用することで行われます。多くの種類の活性化関数が存在しますが、最も一般的に使用される3つは、シグモイド関数、tanh関数、そして非常に好まれる正規化線形単位関数です。
隠れ層は、ネットワークの最終的な予測または結果を生成する出力層とインターフェースします。出力層のニューロンの数は、ネットワークが設計されたタスクと望ましい出力形式に依存します。隣接する層のニューロンは、それを通過する信号の強さと重要性を決定する関連する重みで接続されています。トレーニング中、重みは予測された出力と実際のターゲットの差を最小化するように調整されます。さらに、隠れ層と出力層の各ニューロンにはバイアス項も関連付けられています。バイアス項はニューロンへの追加入力として機能し、活性化関数をシフトさせ、ネットワークの学習プロセスに柔軟性を提供します。実際、重みとバイアスはネットワーク内に情報を格納し、その機能性を作り出します。
人工ニューラルネットワークにおける情報の流れは、通常、入力層から隠れ層を通って出力層へと前方に流れます。重みとバイアスが意図したタスクを実行する値を取るためには、ニューラルネットワークをトレーニングする必要があります。人工ニューラルネットワークアプリケーションの大多数では、ラベル付きデータセットを使用してネットワークをトレーニングします。このプロセスでは、既知のトレーニングデータがネットワークに供給され、その出力がトレーニングデータと比較されます。コスト関数を使用して、ネットワークモデルがどれだけ正確に機能するかを示す差を測定します。
このコスト関数から、バックプロパゲーションと呼ばれる技術を使用して、この誤差を出力から入力層へ逆に伝播させます。この誤差は、各重みとバイアスに関するコスト関数の勾配を計算するのに使用されます。これは、より正確な出力を生成するためにそれらをどれだけ変更する必要があるかを決定するのに役立ちます。その後、勾配降下と呼ばれるプロセスを使用して重みとバイアスを調整します。勾配降下は、コスト関数を最小化する重みとバイアスを見つけるために使用される最適化アルゴリズムで、トレーニングデータに基づいてより正確な出力に近づけます。
本質的に、人工ニューラルネットワークは、入力特徴を出力予測にマッピングする複雑な数学的関数です。ネットワークの重みとバイアスはこの関数のパラメータを表し、トレーニングの目標は、予測された出力と実際のターゲットの差を最小化する、これらのパラメータの最適値を見つけることです。
人工ニューラルネットワークのトレーニングと使用には、大量の数学的計算が含まれます。主に、ネットワーク内でのパラメータ効果の伝播のための行列乗算と、勾配降下を通じて重みとバイアスの更新が行われるバックプロパゲーションパスのための微積分です。行列乗算の数はネットワークの層とニューロンの数に応じて増加し、勾配計算の数は重みとバイアスの数に応じて増加します。
1,000個のニューロンを持つ入力層、500個のニューロンを持つ1つの隠れ層、そしてわずか10個のニューロンを持つ出力層からなる、非常に小さな単純なフィードフォワードニューラルネットワークを見てみましょう。前方パスの間、このネットワークは最初の層で500,000回の乗算と加算を、2番目の層で5,000回の乗算と加算を行います。ネットワークが大きくなり、より多くの層を利用するにつれて、必要な計算能力は急激に増加します。例えば、画像分類と物体検出において、その単純さと効果で有名な畳み込みニューラルネットワークであるVGG16アーキテクチャは、わずか16層しかありませんが、1億3800万以上のパラメータを含んでいます。ネットワークを通過する1回の前方パスに必要な浮動小数点演算の数は、数十億のオーダーです。
人工ニューラルネットワークが産業を変革する大規模言語モデルAIに必要なレベルまで成長すると、必要な計算能力は驚異的なものになります。大規模なニューラルネットワークに関わる計算の規模を示すために、2020年にOpenAIによって開発された、すでに時代遅れになったGPT-3モデルを考えてみましょう。GPT-3は、当時最大の言語モデルの1つとして登場し、この規模の人工ニューラルネットワークの信じられないほどの力に公衆の注目を集めました。
GPT-3の核心は、96層、各層12,288個のニューロンからなるTransformerと呼ばれる種類のニューラルネットワークアーキテクチャに基づいています。Transformerネットワークは自己注意メカニズムを使用して、シーケンス内の単語間の依存関係を捉え、予測のために異なる入力部分の重要性を重み付けします。すべてのサポートメカニズムを考慮すると、GPT-3は驚異的な1,750億のパラメータを持っており、これにはネットワークの重みとバイアスが含まれます。これを理解するために、各パラメータが32ビットの浮動小数点数として保存されたとすると、モデルは約700GBのメモリを必要とすることになります。
GPT-3のトレーニングには膨大な計算能力が必要でした。1,224台のNVIDIA A100 GPUのクラスターでトレーニングされ、合計で最大320ペタフロップスの混合精度性能を生み出しました。トレーニングプロセスでは、約45テラバイトの圧縮されたプレーンテキストからなる膨大なテキストデータコーパスをモデルに供給しました。トレーニング中、モデルは数千億の個別の単語またはサブワード(トークンとして知られる)を処理しました。トレーニングプロセスは数週間かかり、かなりの量のエネルギーと計算リソースを消費しました。トレーニングのエネルギー消費量は約220メガワット時、つまり平均的な米国の家庭20軒を1年間電力供給するのに十分な量と推定されています。
トレーニング後でも、GPT-3モデルを通る1回の前方パスには膨大な数の行列演算が含まれます。1,750億のパラメータと96層を持つGPT-3では、1回の前方パスに必要な浮動小数点演算の数は兆のオーダーと推定されています。例えば、1,000トークンのシーケンスを処理するために、GPT-3は約400テラフロップスを必要とします。
2024年には、すべての主要モデルがパラメータを大幅に超えて動作していると推定され、これは収益逓減の点に達するまで成長し続けると予想されています。エネルギー消費がこの限界の主要な要素となっています。
現在、ほとんどのAIは、深層学習を主な焦点とする人工ニューラルネットワーク開発の第2世代から派生しています。しかし、それに関連するエネルギー要件を超えるために、第3世代のネットワークに関する現在の研究は、スパイキングニューラルネットワークという、生物学的システムをはるかに近く模倣する概念に焦点を当てています。
生物学的ニューロンに触発されているものの、現在の人工ニューラルネットワークは、生物学的システムの複雑さを完全に捉えていない単純化されたモデルです。スパイキングニューラルネットワークは、離散的なスパイクまたはパルスを通じて通信することで、このギャップを埋めることを目指しています。これらのスパイクのタイミングが情報を伝達します。入力の重み付け和に基づいて出力を計算するために活性化関数を連続的に使用するのと比較して、スパイキング方式の情報伝達は生物学的ニューロンにより近いものです。離散的なイベントで動作し、特定の時点で発生します。
スパイキングニューラルネットワークは、入力としてスパイクの系列またはスパイク列を受け取り、出力としてスパイク列を生成します。このアプローチの最大の利点の1つは、エネルギー効率です。現在の人工ニューラルネットワークは、変更が発生するたびにネットワーク全体を常に再計算する必要があり、新しい情報への反応が非常にエネルギー集約的になっています。対照的に、スパイキングニューラルネットワークは、生物学的システムと同様に、必要な時にのみスパイクを生成し、疎な活動とエネルギーオーバーヘッドの大幅な削減につながります。
スパイキングニューラルネットワークは、従来の活性化関数ベースのモデルとは大きく異なる動作をします。その記憶と機能性は、生物学的ニューロンの膜電位メカニズムに類似しています。スパイキングニューラルネットワークには、入力段階での神経膜電位と出力段階での膜電位の関係を決定するためのいくつかのニューロンモデルが存在しますが、最も一般的に使用されているのは漏れ積分発火閾値モデルです。
このモデルでは、スパイキングニューラルネットワークにおける膜電位相当物は、興奮性スパイクによって増加し、抑制性スパイクによって減少します。また、時間とともに減衰を示し、生物学的ニューロンの電気的電荷の漏れをシミュレートします。ニューロンの膜電位が閾値を超えると、ニューロンは下流の接続された各ニューロンに単一のインパルスを送ります。スパイクを生成した後、ニューロンの膜電位は静止値にリセットされます。
スパイクを発射した後、ニューロンは不応期に入り、その間は別のスパイクを生成できません。不応期は、再び発火する前に回復時間を必要とする生物学的ニューロンの制約をシミュレートします。
イベント駆動型の性質により、スパイキングニューラルネットワークは、入力とネットワークの内部構造に動的に反応する、連続的な非同期駆動型の出力を生成します。これは、実数出力を生成する従来の人工ニューラルネットワークの大規模パラメータ関数モデルとは劇的に異なります。解決策への計算された勾配降下の代わりに、スパイキングニューラルネットワークは、時間とともにそのネットワーク内で動的に平衡に達することで目標にアプローチします。
スパイキングニューラルネットワークは、スパイキングプロセスのタイミング要素(時間的コーディングとして知られる)により、従来の人工ニューラルネットワークよりもはるかに多くの情報を伝達します。これらのスパイク列は、単純なパルスレートから精巧なタイミングパターン、さらには他のニューロングループとの多層的な協調パターンまで、幅広いエンコーディングで情報を表現できます。これらのニューロングループ間の時間的相互作用が、従来の人工ニューラルネットワークの数百個のニューロンに相当する機能性を潜在的に置き換えることができる、創発的な信号処理パターンを生み出すと理論化されています。
時間がスパイキングニューラルネットワークの情報フローのエンコードされたプロパティであるため、空間時間データや運動制御などの連続的な現実世界の感覚情報の処理に適しています。また、これを少ないネットワークの複雑さと信じられないほど低い処理遅延で達成でき、同時に従来の人工ニューラルネットワークに時間的認識を導入する再帰構造の必要性を排除します。
非常に強力で多用途であるにもかかわらず、スパイキングニューラルネットワークは現在の人工ニューラルネットワーク技術との本質的な非互換性を示しています。従来のデータをスパイキングニューラルネットワークを通してパルス列として確実にエンコードおよびデコードすることは困難であることが証明されています。実数をスパイク列としてコーディングするための様々な実験的方法(レートコードまたはスパイクの頻度、最初のスパイクまでの時間、スパイク間の間隔など)が存在しますが、神経生物学の領域でさえ、感覚情報がどのようにエンコード、処理、反応されるかについての研究はまだ進行中です。特に、基本的なコーディング方法では不可能な10ミリ秒という応答時間内でこれらのプロセスがどのように行われるかは不明です。
スパイキングニューラルネットワークは、現在の人工ニューラルネットワークのトレーニング技術とも根本的な非互換性に苦しんでいます。スパイキングニューラルネットワークの非同期な性質と、ネットワーク内でのスパイキング情報伝播の変化を数学的に定義することの難しさのため、スパイキングニューラルネットワークは、誤差逆伝播を実行する従来の人工ニューラルネットワークの勾配降下ベースのトレーニング方法に適していません。
情報コーディングの課題と組み合わさると、スパイキングニューラルネットワークは、ラベル付きデータを使用してネットワークに特定の機能を提供する教師あり方式でトレーニングすることが困難であることが証明されています。実際、現在までに、第2世代のネットワークよりも優れたパフォーマンスを提供するスパイキングニューラルネットワークに適した効果的な教師ありトレーニング方法は存在しません。しかし、一般化された予測、クラスタリング、情報の関連付けに最も適した、教師なしの生物学的に触発されたトレーニング方法の実行可能なオプションであることが実証されています。
従来の人工ニューラルネットワークは本質的に巨大な数学の問題であるため、古典的なコンピューティングアーキテクチャでうまく機能します。このアーキテクチャでは、システムがCPU、メモリ、ストレージ、I/Oのクロックされた相互接続を含み、計算を実行するためにデータと命令を順次やり取りします。行列への強い依存により、人工ニューラルネットワークは並列コンピューティングでうまくスケールアップできます。大規模な人工ニューラルネットワークでは、GPUや専用のGPUライクな並列コンピューティングプロセッサを使用して、数千から数百万のプロセッサコアを使用して実現されます。
しかし、スパイキングニューラルネットワークは従来のコンピューティングアーキテクチャでは同様に良好に機能せず、それらで容易にスケールアップすることができません。その非同期的な動作と局所的なタイミングの独立性への依存は、従来のコンピューティングアーキテクチャと比較して情報がどのように流れるかの根本的な非互換性によって生じるオーバーヘッドのため、ソフトウェアでその動作をエミュレートすることを計算上コストがかかるものにします。
現在、これは現在の人工ニューラルネットワーク能力に匹敵できる大規模での使用を妨げていますが、スパイキングニューラルネットワークに基づく全く新しいハードウェアコンピューティングアーキテクチャの分野である、ニューロモーフィックコンピューティングの研究開発につながっています。
ニューロモーフィックデバイスは、生物学的ニューロンのプロパティを物理的に再現する処理アーキテクチャに基づいています。このコンピューティングのパラダイムシフトは、別々のプロセッサとメモリ間のデータと命令の同期的で一体的な移動を、それぞれが独自のローカライズされたメモリと信号処理を持つ相互接続された人工ニューロン要素の大規模アレイに置き換えます。
ニューロモーフィックデバイスは、化学システムや流体システムなど幅広い媒体に基づくことができますが、半導体ベースの混合モードアナログ-デジタルICが現在の研究の焦点です。従来の完全デジタルコンピューティングをこの概念に適用することもできますが、研究者たちは、これらのデバイス内でニューロン様の機能性を作り出すためにヒステリシス(システムの状態がその履歴に依存すること)に基づくアナログコンピューティングに注目しています。
アナログ処理は、半導体コンポーネントの物理的特性から直接人工ニューロンの機能性を導き出すことで、デジタルアーキテクチャの複雑さと遅延を排除します。これにより、桁違いに少ない電力消費で極めて高速に反応するコンピューティング要素が生まれます。アナログコンピューティングは従来のコンピューティングにとってはノイズが多く一貫性に欠けていましたが、生物学的システムと同様に、時間コード化されたスパイキング信号は、ノイズの多い不規則な信号環境でもはるかに耐性があります。
現在、生物学的シナプスの挙動に似た方法で情報を格納および処理するいくつかの主要なアナログ半導体技術が、半導体ベースの人工ニューロン研究の最前線にあります。
メムリスタは、流れた電流の量に基づいて抵抗を変化させる2端子デバイスです。
相変化メモリは、2つの電極の間にカルコゲン材料をサンドイッチしたものです。電圧が印加されると、材料が加熱され、アモルファスから結晶へと相が変化し、電気抵抗が変化します。
強誘電体電界効果トランジスタは、ゲート誘電体として強誘電体材料を使用する3端子デバイスです。ゲートに電圧が印加されると、強誘電体材料が分極し、ソースとドレイン電極間のチャネルの導電性が変化します。
スピントロニクスデバイスは、電子のスピンを利用して情報を格納および処理します。通常、2つの非磁性電極の間に磁性材料をサンドイッチした構造になっています。デバイスに電流が流れると、電子のスピンが磁場に整列し、デバイスの抵抗が変化します。
2014年までに、TrueNorthと呼ばれる最初のニューロモーフィックチップが導入されました。TrueNorthは4,096個のコアで構成され、各コアには256個のプログラム可能なシミュレートされたニューロンが含まれており、合計で100万個以上のニューロンになります。各ニューロンには、それらの間で信号を伝達する256個のプログラム可能なシナプスがあり、2億6800万以上のプログラム可能なシナプスになります。
TrueNorthの設計により、各ニューロシナプティックコア内で効率的なメモリ、計算、通信の処理が可能になり、従来のコンピューティングアーキテクチャのボトルネックを回避します。これにより、70ミリワットという低消費電力と、従来のマイクロプロセッサの1000分の1の電力密度を実現しています。
2017年には、インテルがLoihiを導入しました。インテルの14ナノメートルプロセスで製造されたニューロモーフィックチップで、1,024個の人工ニューロンを持つ128のクラスターを特徴としており、合計131,072個のシミュレートされたニューロンと約1億3000万のシナプスを備えています。IBMのTrueNorthほど強力ではありませんが、はるかに高い柔軟性を提供し、エネルギー効率の高い現実世界のスパイキングニューラルネットワークベースの問題解決研究のための強力なツールとなりました。
2021年9月までに、Loihi 2がリリースされ、100万以上のシミュレートされたニューロンを備え、より高速な速度、より高帯域幅のチップ間通信、増加した容量、よりコンパクトなサイズ、前世代と比較して改善されたプログラム可能性を特徴としています。
Loihi 2チップは2024年に世界最大のニューロモーフィックシステムであるHalaporintの基礎となり、1,152個のLoihi 2プロセッサで構成されています。このシステムは、14,545個のニューロモーフィック処理コアにわたって最大11.5億個のニューロンと1,280億個のシナプスをサポートし、わずか2,600ワットの電力を消費します。また、補助的な計算のために2,300以上の組み込みx86プロセッサも含まれています。Halapointは、アカゲザルの脳またはカプチン猿の皮質とほぼ同等のニューロン容量を持つと推定されています。Loihi 2ベースのシステムは、既存のGPUベースのアーキテクチャと比較して、100倍少ないエネルギーで最大50倍速く推論と最適化を実行する能力を実証しています。
2024年現在、継続的な研究にもかかわらず、商業的に利用可能なアナログベースのAIチップはありません。ただし、研究ベースおよび小規模なICがいくつか開発されています。ニューロモーフィック開発は成熟したデジタルアーキテクチャで前進していますが、業界はハイブリッドアナログの未来へのブレークスルーに楽観的です。
研究が進むにつれて、より大きなニューロン容量、より高速な処理速度、改善されたエネルギー効率を持つニューロモーフィックシステムが、AIフィールドに革命をもたらすと予想できます。自己完結型AIが、ロボット工学や自律システムなどの分野で今後数年以内に劇的に進歩すると予想されます。
より深いモデルとより洗練されたハードウェアが、第3世代のニューラルネットワークの追求において進化するにつれて、予測アルゴリズムと真の知能との間の欠けている連鎖がまもなく現れ始める可能性があります。
この革命の理解のギャップを埋め、分野を前進させる画期的な進歩を理解する素晴らしい方法は、brilliant.orgです。Brilliantは、あなたが学習の興奮を発見し、数学、データ分析、プログラミング、AIの何千もの魅力的なインタラクティブレッスンを通じて、あなたの可能性を解き放ち、自信に満ちた問題解決者に変えるところです。
Brilliantは、第一原理アプローチを使用することで際立つ革新的な学習プラットフォームです。これにより、理解の堅固な基盤を構築することができます。各レッスンには、インタラクティブな問題解決演習が満載されており、概念に積極的に取り組むことができます。この技術は、単に講義ビデオを見るよりも6倍効果的であることが示されています。
さらに、Brilliantのすべてのコンテンツは、MIT、Caltech、Dukeなどの名門機関や、MicrosoftやGoogleなどの著名な企業から集められた受賞歴のある教育者、研究者、業界専門家の distinguished チームによって開発されています。
Brilliantは、アクティブな問題解決に没頭させます。なぜなら、概念を真に理解するには、単なる観察と暗記以上のものが必要だからです。体験する必要があるのです。ハンズオンの学習に取り組むことで、特定のトピックに関する実世界の知識を構築するだけでなく、あなたをより良い思考者にする批判的思考スキルも身につけることができます。
日々の学習は個人的および職業的な成長にとって最も重要であり、Brilliantはこれを便利で楽しいものにします。魅力的で消化しやすいレッスンを通じて、日常的な routine にシームレスに統合できます。毎日ほんの数分で本物の知識を構築できます。無目的なスクロールにさよならを告げ、自由な時間をより有意義に過ごす方法を受け入れましょう。
今日の最も人気のある大規模言語モデルがどのように機能し、その能力を理解するための堅実な理解を構築しながら、それらを作成する課題を理解するための素晴らしい入門として、Brilliantの「LLMの仕組み」コースがあります。
Brilliantが提供するすべてのものを30日間無料で試すには、brilliant.org/newmindにアクセスするか、説明欄のリンクをクリックしてください。また、年間プレミアムサブスクリプションが20%割引になります。

この記事が気に入ったらサポートをしてみませんか?