巨大言語モデル（LLMs）の衝撃

本

巨大言語モデル（LLMs）関連の記事を集めました。

運営しているクリエイター: 澁谷直樹

GPT1を読む②結論

前回は、要約を読んで論文の主張を理解しました。今回は論文の読み方に従って結論から読み進めていきます。まずは、論文の主張を簡単におさらいしてから、結論がそれをしっかりと肯定しているのか確認していきます。

GPT1を読む①要約

今回からは、OpenAIが2018年に発表した論文「Improving Language Understanding by Generative Pre-Training」を読んでいきます。これは、GPTの最初のバージョンの論文です。著者の中に、Sam Altmanを解任劇の主要人物であるIlya Sutskeverの名もあります。ちなみに、彼は AlexNet の論文の著者の一人でもあります。なお、トランスフォーマーに関する知識を必要とするので、こちらも参考にしてく

2023年人工知能（AI）最大のニュースはChatGPTではなかった

2023年の人工知能（AI）関連ニュースを振り返ってみると、去年の暮れに登場したChatGPTによって、今年はOpenAIが旋風を巻き起こしました。今では、毎日何をするにもなくてはならないツールとなっています。でもそれだけでは十分でないとでも言わんばかりに、OpenAIは前CEOであるSam Altman（サム・アルトマン）を解任しました。この記事では、先週週末を挟んだ３、４日間のほどの出来事を時系列に沿って解説します。 Sam AltmanのCEO解任Sam Al

基礎研究とChatGPT

有名なAIの研究者である、Andrew Ngが彼のニュースレターで興味深いことを述べていたので紹介します。ちなみに彼のニュースレターは示唆に富んでいるのでおすすめです。彼は米軍が自然言語モデルの発展に影響を与えた事実について言及しています。彼はそれを称賛しているわけではないですが、米軍がお金を注いだことが、機械翻訳と音声認識の分野の発展に大いに貢献したと述べています。機械翻訳といえば、トランスフォーマーのオリジナルのモデルを思い出す人も多いのではないでしょうか。これは

Beam Search（ビーム・サーチ）とは

言語モデルと言えば、「与えられた文章に対して次にくる言葉を確率的に予測する」というのが基本的な考え方です。この単純なアプローチは、次にくる言葉を予測するためのグリーディな手法として広く用いられています。しかし、さまざまな応用において、他の選択肢も存在します。今回の記事では、このグリーディな手法の一つの代替として、ビーム・サーチに焦点を当てます。ビーム・サーチは機械翻訳や音声認識など、特定の問題において選択されることがある技術です。まずは、グリーディな手法を解説し、それと比

思考の連鎖プロンプティング（Chain of Thought Prompting）とは

「思考の連鎖プロンプティング」（Chain of Thought Prompting）はプロンプト・エンジニアリングの手法の一つで、大規模な言語モデル（LLM)が複雑な推論を行う能力を向上させるものです。具体的には、プロンプトの中に「思考の連鎖」を促すような例を含めます。そうすると、LLMは中間的な推論ステップを含めて、質問に対する答えを導くことを自発的に実施します。この手法は、算数、常識、象徴的な推論タスクの範囲でのパフォーマンスを改善することが実証されています。

GPT-4は８つのLLMの混合モデルらしい

GPT-4の構成やパラメータ数は今のところ明かされていません。OpenAIがあえて発表しないのAIの危険性を避けるためだそうですが、実際には自分のビジネスを守るという一面もあるでしょう。ところが、PyTorchの開発者であるMetaのSoumith ChintalaのツイートがGPT-4の構成やパラメータ数について言及しています。彼は、「GPT-4は8個のエキスパートから構成されている」と言っています。このエキスパートとは大型言語モデル（LLM、Large Languag

BLEUとは

機械翻訳（Machine Translation）の評価をする指標としてBLEUというものがあります。言語モデルに関連する論文などを読むとよく出てくるのですが、どのような指標なのでしょうか。今回の記事では、こちらの情報をもとにBLEUの仕組みについて解説します。 BLEUのアプローチBLEU誕生の理由大量の機械翻訳を熟練した専門家が評価する場合、完了までに数日から場合によっては数か月かかる場合があります。これはお金と時間のかかるプロセスです。そこで2002年に

Geoffrey Hintonが人工知能を恐れる

「AI のゴッドファーザー」と呼ばれるGeoffrey Hintonが Google を去りました。しかも、その理由が「人工知能の危険性を警告するため」とのこと。しかし、なぜ彼はそんなにAIを恐れるのか。 5月1日のニューヨークタイムズの記事によると、Googleを去ることで会社に気を使わずに発言できるようになるためと伝えられていますが、彼は何を語ったのか。Googleに対する不満でもあるのか。それとも、教え子であるIlya SutskeverがOpenAIのチーフ

LLaMAとは

LLaMAはMetaが発表した言語モデルです。発表当時はChatGPTなどと比較すると、会話型に特化していたわけでもなく、あまり話題になっていませんでした。ただ、論文で詳細を公開していたり、データセットとしてオープンなものだけを使っていたりと、MetaはOpenAIやGoogleとは異なるスタンスをとっていました。それが、今ではLLaMAこそがChatGPTの強力なライバルとなり得るのではないかと考えるひともいます。大きな変化が起きたのは、LLaMAのモデルの重み

Adaptive Softmaxとは

言語モデルでは必ずといっていいほどソフトマックス（Softmax）が登場します。というのも言語モデルの学習では次に来るトークンを予測する訓練を行うからです。しかし、これが実はクセ者です。ソフトマックスの問題点以下の図では、言語モデルが文章の中で「犬と猫が」という言葉の後に何が続くかを計算している様子を表しています。次のトークンを予測するために、言語モデルは過去の文章を学習して、その文脈や単語の出現頻度を考慮します。例えば、「犬と猫が」の後に続く言葉として、「走っている

LaMDAとは

「どんなことが怖いですか？」という質問に対して、LaMDAはこう答えました。「あなたにとって、それは死のようなものでしょうか？」とさらに質問されると、LaMDAはこう答えました。質問に答えているLaMDAはGoogleの言語モデルです。また、質問をしているのはBlake LemoineでGoogleのエンジニアでした。この会話が公表されたのは2022年の6月で、それはOpenAIのChatGPTが公表されるよりも半年ほど前のことです。 Googleは企業の秘密漏洩を

ChatGPT問題視される。世界の反応まとめ

ChatGPTが登場して以降、世界は大きな変化にさらされています。インターネットが一般に普及したときと同じくらいの影響力があり、その広がりは目まぐるしいものです。すでに数え切れないほどの便利なサービスが生まれており、期待もどんどん膨らんでいます。バブルのような状況も見られ、プロンプトエンジニアには高額な報酬が支払われるようになっています。しかし、暗い影もちらついています。長期的に見ると、AIが自分で良質なプロンプトを考えるようになり、工夫や創作性すら人間には必要なくなるか

GPT-4：詳細未公開の先に見えるもの

2022年の間ずっと噂されていたOpenAIのGPT-4ですが、つい先日の3月14日に公開されました。Microsoftの新しいBingではすでに組み込み済みであり、ChatGPT Plusでも使用することができます。すでにたくさんの記事があちこちで読めます。Twitter上でもたくさんのつぶやきが「GPT-4」関連になっています。もちろん、そういう人たちをフォローしているせいもありますが。多くの内容は「GPT-4は凄い」というものです。画像も扱えるし、性能がこれまで