大規模言語モデルとは？「ChatGPTに聞いてみた」

カケキクケコカコのメモの書はメモで書

2023年7月21日 16:31

大規模言語モデルと聞いて何か浮かぶでしょうか？全くわからない私はwikiを参照したうえで、GPTさんにその定義や特徴、応用例などについて解説してもらうことにしました。今回の記事ではこちらの単語の意味も知ることができます。

・パラメータ
・評価データ
・アーキテクチャ
・言語コーパス
・エルマンネットワーク
・リカレントネットワーク
・LSTM
・ゲート付き回帰型ユニット
・GRU
・アテンション機構
・Transformerアーキテクチャ
・入力シーケンス

それではGPTさん、解説お願いします！

大規模言語モデルとは？　　by GPT and me(one of them)

大規模言語モデルとは、多数のパラメータ（モデルの重みやバイアスなど、モデルの構成要素の値）を持つ人工ニューラルネットワークで構成されるコンピュータ言語モデルです。

言語モデルとは、自然言語（人間が話す言語）の文法や意味を数学的に表現するもので、単語や文の生成や予測などに利用されます。

大規模言語モデルは、インターネット上のウェブページや書籍など、大量のテキストデータを用いて訓練されます。そのため、一般的な知識や常識、文化的な背景などを含む豊富な情報を学習することができます。

大規模言語モデルの代表的な例としては、GPT-3やBERTなどがあります。これらのモデルは、テキスト生成や質問応答、自然言語理解など、さまざまな自然言語処理（NLP）のタスクにおいて高い性能を示しています。また、画像や音声など他のメディアと組み合わせて利用することも可能です。例えば、DALL-EはGPT-3を拡張したモデルで、テキストから画像を生成することができます。CLIPはBERTを拡張したモデルで、テキストと画像の関連性を評価することができます。

大規模言語モデルは、人工知能（AI）の分野において革新的な技術として注目されていますが、同時に様々な課題や問題も抱えています。例えば、訓練には膨大な計算資源や電力が必要であり、環境への影響やコスト面が懸念されます。また、訓練データに含まれる偏見や不正確さがモデルに反映される可能性があり、倫理的や社会的な問題を引き起こす恐れがあります。さらに、モデルの内部構造や動作原理が複雑であり、その振る舞いや判断根拠を理解することが困難です。これらの問題に対処するためには、大規模言語モデルの開発や利用において、技術的な改善だけでなく、倫理的なガイドラインや社会的な監視も必要です。

以上が、大規模言語モデルについての簡単な紹介です。大規模言語モデルは、自然言語処理の分野において多くの可能性を秘めていますが、同時に多くの責任も伴います。今後は、その利点とリスクをバランスよく考えながら、より良いAIを目指していきたいと思います。

関連用語解説編

今回は、以下の単語についてお話しします。

それでは、一つずつ見ていきましょう。

パラメータ

パラメータとは、人工知能や機械学習のモデルが持つ数値のことです。例えば、人間の身長や体重などは、人間のパラメータと言えます。パラメータは、モデルが学習することで変化します。パラメータがうまく調整されると、モデルは正しく予測や分類などができるようになります。

評価データ

評価データとは、モデルの性能を測るために使うデータのことです。例えば、英語のテストで、問題と答えがセットになっているものが評価データと言えます。評価データを使って、モデルがどれだけ正しく答えられるかを計算します。評価データは、学習に使わないデータでなければなりません。学習に使ったデータで評価すると、モデルはそのデータに覚えてしまっているだけで、本当の性能はわかりません。

アーキテクチャ

アーキテクチャとは、モデルの構造や形のことです。例えば、家を建てるときに設計図を書くように、モデルを作るときにも設計図が必要です。その設計図がアーキテクチャです。アーキテクチャによって、モデルの性能や特徴が変わります。アーキテクチャを工夫することで、より良いモデルを作ることができます。

言語コーパス

言語コーパスとは、言語のデータの集まりのことです。例えば、本や新聞やウェブサイトなどに書かれている文章が言語コーパスです。言語コーパスを使って、モデルは言語の規則やパターンを学習します。人間も幼い頃から順番に国語や本を学べば語彙力があがりますよね。それの∞バージョンというところでしょうか。人間の場合、学習要項で決められた最適な範囲を教科書などで学習していきますが、モデルは常に人間の脳を超えた最大で吸収記憶していくイメージですね。言語コーパスは、大きくて多様であればあるほど良いです。大きければ多くの情報が含まれているし、多様であれば色々な場面や話題に対応できるからです。

エルマンネットワーク

エルマンネットワークとは、過去の情報を記憶しておくことができるモデルの一種です。例えば、物語を読むときに、前のページで起こったことを覚えておく必要がありますよね。エルマンネットワークも同じように、前の入力を覚えておくことで、次の出力に影響させます。エルマンネットワークは、時間的なつながりがあるデータに対して有効です。例えば、音声や動画や文章などです。

リカレントネットワーク

リカレントネットワークとは、エルマンネットワークを改良したモデルの一種です。エルマンネットワークは、過去の情報をそのまま記憶しておくので、長い時間が経つと忘れてしまったり、混乱したりします。リカレントネットワークは、過去の情報を更新したり、重要な部分だけを残したりすることで、より長い時間の記憶を可能にします。いわゆる長期記憶の部分をつかさどっているのでしょうか。リカレントネットワークは、エルマンネットワークよりも高い性能を示します。

LSTM

LSTMとは、Long Short-Term Memoryの略で、リカレントネットワークの一種です。LSTMは、過去の情報をゲートと呼ばれる仕組みで管理します。ゲートとは、情報の流れを制御するためのスイッチのようなものです。LSTMは、ゲートを使って、記憶すべき情報と忘れるべき情報を区別します。LSTMは、リカレントネットワークよりもさらに長い時間の記憶を可能にします。何を記憶すべきかの区別をするんですね。

ゲート付き回帰型ユニット

ゲート付き回帰型ユニットとは、Gated Recurrent Unitの略で、GRUとも呼ばれます。GRUは、LSTMと同じくリカレントネットワークの一種です。GRUもゲートを使って過去の情報を管理しますが、LSTMよりもシンプルな構造になっています。GRUは、LSTMと同じくらいの性能を示すことがありますが、計算量が少ないという利点があります。

アテンション機構

アテンション機構とは、入力データの中から重要な部分に注目することで、出力データの質を向上させる仕組みです。例えば、英語から日本語に翻訳するときに、英語の文の中から日本語の文に対応する部分に注意深く見ることで、正確な翻訳ができるようになります。アテンション機構は、リカレントネットワークやTransformerアーキテクチャなどに組み込まれています。

Transformerアーキテクチャ

Transformerアーキテクチャとは、アテンション機構を多用した新しいタイプのモデルです。Transformerアーキテクチャは、リカレントネットワークやエルマンネットワークと違って、時間的な順序に関係なく入力データを処理します。Transformerアーキテクチャは、高速で高精度で大規模なデータに対応できるという特徴があります。

入力シーケンス

入力シーケンスとは、順番に並んだデータのことです。例えば、音声や動画や文章などは入力シーケンスです。入力シーケンスは、時間的なつながりや意味的なつながりがあることが多いです。入力シーケンスを処理するためには、そのつながりを考慮する必要があります。

人間にこれらの機能を備え付ければ、AI人間ができるのでしょうけれど、それは問屋が卸さないというところで、倫理問題はじめ技術、永続性などで脳にチップを埋め込むことで、機能することについてはありえないので、人間は新しい脳を作り始めたということで、今、これからは、その脳の部分だけが出来上がり、人間は自分の脳にプラスして、AI脳、つまり人口知能の恩恵を受けて社会はじめ、規模にかかわらず様々な多くの課題に挑み取り組むというイメージです。

【分かりやすい大規模言語モデル一覧表】

2018年から2023年までの大規模言語モデルの進化ツリー
ここ5年の進化が半端ない

■会社別LLMの数
※括弧内はオープンソース版の数

・Google：16（9）
・OpenAI：7（2）
・Meta：6（6）
・Microsoft：4（3）

Googleが強め

■GPT系列
→ GPT
→ GPT-2
→… pic.twitter.com/uHZc8j4hGN
— チャエン | 重要AIニュースを毎日発信⚡️ (@masahirochaen) July 21, 2023

無償で使い続けられる未来でないと廃れないだろうか？

こちらのTwitterではツリー構造でまとめられていました。まだまだこれから進化したGPT系列が台頭しそうですね。無料で使えるのか、有料でしか使えないのかによって、普及度、永続度合いは変わってきそうですが。今は最先端と言われているGPT4がエッジなどでは無償で使えているので、爆発的に普及し取り込まれていますが、もし今後有料でしか使えないとすれば、一部のコストを支払える企業や人々だけが恩恵をうけ、それはきっとAI格差みたいな新しい問題にもつながっていきはしないかの懸念もあります。そうすると、社会ってなんだ？ってなったとき、社会は個人の集合体だから、個人の課題について、AIを有効に使いまわせる人とそうでない人、今でいえば、スマホを持てる人と持ち合わせることが難しい人のような、さらに大きな格差となって、個人の情報の活用という課題が解決できなくなることになり、それは巡り巡れば個の問題が解決されにくいとなり、集合体になれば、社会問題が山積していることにつながらないだろうかとも。

一方、会社が利益を生むためには、有料にして、払える人からは有料で利益を得ることも、事業を運営していく上では必要なんだろう。なので、すべて無料にするというよりは、人間の脳力の●〇倍までは無償で誰でも使えるなどにし、それ以上、つまり大規模レベルでの活用の領域になれば有料としていくことでより社会に潤い、豊かさがAIの面で恩恵が受けられそうだなと。もちろん、canva,adobe,Openai、画像生成AIサイトはじめ多くのアプリでは、無料でかなり多くの機能が使えてかつ、求める人にはより多機能、高度な活用ができるスタイルにはなっています。つまり、無料部分の底上げ部分の領域が、開発の進行とともに大きくなっていくような進化の仕方だと、結果的に社会も高度に進化できているということになっていくので、無料と有料は7：3の割合（七三ワケスタイル？）でこの先も開発してもらえたらと妄想気味。これは例えば、有料版ばかり開発してリリースしている国と、そうでない国があったのなら、明石市に人口が増えるみたいに、無料で使えるツールが多い国のほうが人口流出が多くなるみたいな現象も起きたりして。（何百年後の話かもしれませんが）

今日は「大規模言語モデルとは？」について、GPTさんにサクッと聞いてみました！それでは。

この記事が気に入ったらサポートをしてみませんか？