AIブームを科学史的にたどる~自然言語と知識システム~

自然言語についてのAI革命と言われるのはおそらく2017年のトランスフォーマーでしょう。

トランスフォーマーのアイディア自体は革命的かと言われるとさほどです。画期的だったのは単に性能です。

そこにはその後の人工知能の流れを決定づけた「脳筋でデータを学習させる」という身も蓋もない技術があります。

自然言語処理から深層学習までの流れ

自然言語処理はある意味もっとも人間のプリミティブな知能として認知されています。言葉を話すのは人間だけですからね。

その意味で自然言語をコンピュータで処理するということはコンピュータが産まれた直後から活発に研究されてきました。コンピュータへの入出力や変換も自然言語処理の一種ですし、検索エンジン、予測変換等も自然言語処理です。

これらを作るだけならまあ従来の手法でもなんとかなるんですが、言語を扱うにはその言葉そのもの意味や外界との関係性など「概念」の獲得が必要です。例えば苺という概念は人間なら「赤くて、つぶつぶで、甘い」食べ物ということを認識しますが、コンピュータはわざわざそれを「言葉」として連関を作らないといけない。

我々が言葉を話す時、それらの知識を動員しながら会話なりをしていると考えられます。すると「言葉を発する際にはその上位モデルとして概念の取り扱いが存在している」と考えられるわけで、それらを扱う機構として知識システムが生まれました。

つまりこちらの分野の人工知能は先のロボットと同じコンピュータの発展とともに生まれてきましたが、少々毛色が違います。

ロボットの目的は「労働や人間のサポート」です。計算機等もそうですがあくまで人間の諸行動の延長として語られます。一方で自然言語処理は元から人間とのインタラクションを志向し、より内省的な研究を目的として生まれてきた。つまりコンピュータを介して「人間はどう考えているのか」というある種の形而上学を志向していた。

それ故、基本的にアルゴリズムやエキスパートシステムのような「論理構造」をベースにしたシステムを作ることが基本方針として存在していました。
この流れで先の画像処理も発展していますし、自然言語処理も発展しています。

その意味においてこちらの分野も常に人工知能への興味があったのは言うまでもないですが、現在の人工知能からすると限定的でかっちりしたものに対して「人工知能」と称していた。冷静に考えると「猫の画像に猫とラベルを付ける」ことが知能を持っているかというとまあそこまで知性を感じませんよね笑

ロボット工学においては道具として人工知能に注目していたのに対して、画像処理、自然言語処理は機能としての人工知能に重きを置いていたといえます。

トランスフォーマーの仕組み

さて、トランスフォーマーを見ていきましょう。ほとんどの解説記事では2000年頃からneural modelが、、、とあるのですが、嘘です笑

確かにBenjioらの論文は2000年頃から出ていますが、それがメインストリームではありません。おそらくボルツマンマシンの改善をきっかけに単に自然言語処理においても使えるモデルを適応した程度です。

https://www.jstage.jst.go.jp/browse/jnlp/7/4/_contents/-char/ja

こちらのスライドに少しだけ機械学習への言及がありますが、2011年時点で深層学習はほとんど影も形もありません。

2014年に言語モデルのスライドがありますが、こちらも統計的言語モデルの枠を出ず深層学習ではありません。このころはベイズを使っており、おそらくその計算能力故になかなか難しかったであろうと思われます。

ただ、ベイズにする気持ちは確率過程による生成モデルという意味では非常によくわかります。こちらも機械学習の影はあれどニューラルネットワークの影はあまり濃くありません。

改めてトランスフォーマーの仕組みを見ていると

トランスフォーマーの解説はあちこちにあるので詳細を省きますが、結局のところそれまでに出てきたアイディアをてんこ盛りにしているだけではあります。

https://arxiv.org/pdf/1706.03762.pdf

まず、attentionによって時系列情報の代替とした。これによってReccurent構造が必要なくなったが、その代わりにパラメータが莫大になった。
encoder-decoder構造による潜在空間での操作。こちらは大元の技術は伝送技術等で使われているので、昔からテクニックとして知られている。

そして最も大きなのはMLPによる大規模ネットワークです。
おそらくこちらは2012年からの画像でのニューラルネット革命のインスパイアだと思われます。これにより大規模な学習が可能になった。

こうみていくと大規模な学習が可能なようにこれまでの知見をカスタマイズしたという印象が強い。つまりは大規模言語モデルの肝は「学習を可能にした環境」であったといえます。そしてそれを支えたのはやはり2012年の画像認識におけるAlextNetではあったのでしょう。

先の資料にもあったように機械学習を活用するアイディアはすでにありました。ただ、そのコストと性能に対しての懸念からアイディア段階止まりだった。
人工知能において最も金のかかる部分は「データのアノテーション」です。莫大な学習データを作るために莫大なコストが必要で、通常の研究では中々用意できません。

研究でも投資でもリターンが見込めないとお金をよくわからない技術にかけません。当時の機械学習も「手習いにやってなんとなくはうまくいくけど、これを増やしたところでうまくいくとは思えない」という感覚ですのであまり投資されることはない。

これを後押ししたのがおそらく画像認識での性能だったのだと思います。
こちらも「莫大な画像データセット」が用意されたからという理由があったと指摘しましたが、まさに「データが準備された」というのが大きい。

Transformerの大転換はこれまでの技術では言語学や思考をベースに言語処理を行うというのが主流だったわけですが、「マシンパワーとたくさんのデータがあればうまくいく」というフレームワークを作ったことです。

このある意味「脳筋」スタイルの解決方法がAI界隈の「スタンダード」になっていった大きな転換点でもあります。

今でも「モデルを小さく」、「データを少なく」という研究はあるのですが、世間を賑わせるようなインパクトのある結果はすべて「脳筋」スタイルによるものです。

そしてその「スタンダート」の影響は別の機会に議論したいと思います。

自然言語処理のインパクト

おそらく世間にAIが「使える技術」として認知されたのはこの辺りかと思われます。

自然言語処理の世間に与える影響は甚大です。何よりも「わかりやすい」というところにつきますし、人々の「日常」に最も溶け込む「知能」として認知されやすいからです。

冷静になってみると高度な積分や微分の方が使っている知能としては高レベルのですが笑、一般的には日常会話等に知識を感じやすい。

AI二大巨頭の画像系は多くの場合「業務」に使うことはほぼ不可能ですので「おもちゃ」程度にしか認識されていなかった。

https://arxiv.org/pdf/1606.03498.pdf

2016年における画像の生成AIではこの程度です。

2015年あたりのニュースを見ても画像が業務に使われる分野(=製造業、医療等)で「そろそろ動き始めるか」といった程度ですが、2018年のニュースを見ると

煽り記事が一気に増えているのが確認できます。

自然言語処理の改善によってビジネス的に「使える」という認識が一気に広がり、ニュースや解説記事が一気に増えた。それをきっかけにいたるところで「アーリーアダプター」のAI利用が始まった。

これが「真の意味での」AIの転換点かと思われます。

つまりロボットが人工知能のきっかけを与え、画像認識で専門家への興味を与え、自然言語処理で世間一般の興味を与えた。

これが、歴史をなぞったAIブームの起こりと言えます。

まとめますと、2010年頃までにはロボットが機械学習の下地をすでに作っていた。そしてGoogleが次期ビジネスとしてきっかけを与え、2012年に画像認識で専門家の興味を引き、2017年に自然言語処理で一般人とビジネスの興味を引いた。

というのが歴史をなぞって出てくる「AIブーム」になります。

最後にこれらのブームのまとめとAIが与えた影響を考えてみます。


この記事が気に入ったらサポートをしてみませんか?