今更聞けないLLM解説まとめ①LLMって何ぞ

それなニキ

2024年2月26日 17:25

雑談

どうも、それなニキです。
そろそろ卒論配属の時期が迫ってきており、気になっている研究室へ訪問して話を伺ったり、優先的に配属してもらえるよう自己PRをする機会が増えてきました。

かくいう私も生成AIのフレームワークを用いた物質・材料の研究開発に興味津々で、いくつか研究室を訪問しています。
(分かる人にはこれだけで具体的な研究室名が分かるかもしれません)

そこで、ここ半年ほど雑談ばかりしていましたが、本格的に本業に戻ったほうが良いかなと思い、今一度私がここ半年で学んできたLLMに関する基本的な情報をまとめておこうと思い立ちました。

主に私の脳内の情報整理を目的とするので駄文になること間違いなしですが、何かの参考にでもなれば幸いです。

また、知識が多少古い部分があるので、間違いなどございましたらご指摘いただけると幸いです。
自分でも気づき次第アップデートします。

好評なら(好評じゃなくても)生成AIつながりで画像生成系についても今後取り扱おうと思います。

1.LLMとは

最初に誤解を恐れずざっくばらんに言ってしまうと、LLMとは

「ある単語(トークン)の次にどんな単語が続くかを連続して推測するプログラム」

LM (言語モデル,Language Model)

の規模をめっちゃでかくした物(Large Language Model)です。

この時点で、世の中に出回った何種類かのバカげた迷信が誤りであることが分かると思います。

「LLMに意識はあるのでしょうか」
んなわけあるかい。
「LLMは常に正しいことを言うのでしょうか」
んなバカな。

基本的にはこの認識でいいと思います。
(LLMの意識については諸説ないこともないですが。)

2.LLMをめぐる基本的な技術革新

言語モデルというもの自体は結構昔からあったようですが、近年になって急に注目されるようになったきっかけがいくつかあります。

Ⅰ.Transformer

Googleを中心とする研究チームによって2017年に発表された"Attention is All You Need"という論文に掲載された、LLMのネットワーク構造です。

今後の投稿で詳しく解説しますが、要するに距離の遠い文章同士の関係性を把握できるようになったと考えてもらえばひとまず大丈夫です。
いままでは非現実的なレベルで大きな言語モデルを作らないと、文章の最初と最後の一貫性を保つのが難しかったのが、このTransformerネットワーク、特にその中に組み込まれたAttention機構(論文の題名ですね)によって現実的に可能になった、という話だったはずです。

いずれにせよ、この技術がもとになって、あるモデルが発表されます。それが

Ⅱ.GPT

はい出ました。皆さんおなじみChatGPTの根幹となるGPT(Generative Pretraining Transformer)です。

もう名前の一字一句がすべて重要な要素になっていて、ついに来たかという感じです。

Generative…生成。
Pretraining…事前学習。GPTはここにTransformerを使っている。
Transformer…前述のネットワーク。

という風になっています。

(時々ChatGPTをChatGTPとおっしゃる方がいますが、誤りです。)

これを発表したのがこれまたおなじみOpenAIです。
当時はまだ非営利色の強い組織だったそうです。

とりあえず、この2点を押さえておけば大丈夫だと思います。

3.LLMの大雑把な特徴

Ⅰ.でかいとつよい

すごく頭の悪そうな章立てですみませんが、実際そうです。
詳しい部分は後の章で解説しますが、LLMのいわゆる性能は、主に

計算資源
データセットサイズ
パラメータ数

の3つの変数に関するべき乗に従って上昇します。
いろいろあるものの、結局全部大きさです。でかいとつよい。

とはいえ、最近はより小型なLLMで大型のLLMと同等の性能を出すための研究がトレンドになっていると思います。
日本語LLM界隈は海外製のLLMにサイズで太刀打ちできない、というのも背景になっていると感じます。

ちなみに、LLMの説明でよく聞く「~B」というのはこのうち「パラメータ数」に該当します。BはBillionです。でっかいなぁ。

Ⅱ.いろいろつかえる

つまり汎用性が高いです。

実は旧来のLLMは前述した大きさの問題などから、特定のタスクに向けてモデルを作成していました。
しかし、現在主流となっているモデルのほとんどはかなり幅広い文脈に対応でき、いわゆるPromptingという技術で指示を変更する形で利用する形になっています。

くわえて、マルチモーダルと言って、文章だけでなく画像・音楽・ロボットの動作などのさまざまなタスクに対応できるモデルを作ることにも成功しつつあります。
余談ですが、私が卒論でやろうとしている分野もこっち方面に近くなります。
方法にはいろいろあり、そもそも文章以外で学習を行っているモデルを用意したり、特別な文字(トークン)を用意して外部のツールにアクセスできる機能を持たせたり(Tool-Integrated)しています。

余談

今回は章立てがそのまま要約のようになっているので、まとめは書きません。~~めんどいし。~~

それはそれとして、私のLLMの知識の多くが、某東大教授の開催したLLM勉強会をもとにしているので、参考文献に書きたいんですけど、非公開資料が多くてまともに参照できないという…うーん。困ったな。
場合によっては下書きに永遠に封印することにもなりかねません。

松尾研のHPに無償で公開されていました。ありがてぇ…

詳しく読みたい方はこちらをご参照ください。
~~(どうせ読まないだろうと考えないとこの文章が書けないのは言うまでもないですが。)~~
基本的にこの記事は松尾研のLLM講座での説明を元にしています。

元資料と同じく、クリエイティブコモンズのライセンス「CC BY-NC-SA 4.0 DEED (表示 – 非営利 – 継承 4.0 国際)」が適用されます。
詳細はダウンロードリンクでご覧いただけます。

この記事が参加している募集

#仕事について話そう

114,951件

この記事が気に入ったらサポートをしてみませんか？