マガジンのカバー画像

Data

51
運営しているクリエイター

#学習

LLMによる疑似学習データ生成

LLMによる疑似学習データ生成

はじめに横浜国立大学大学院 理工学府 修士2年の藤井巧朗です。8月から株式会社レトリバにインターンとして参加させていただいております。インターンでの成果の第一段として記事「日本語LLMの推論速度検証」を書かせていただきましたので、そちらもよろしければご覧ください。本記事ではインターンでの成果の第二段として「LLMによる疑似学習データ生成」について紹介します。本記事の内容は言語処理学会第30回年次大

もっとみる

大規模言語モデルの事前学習のためのデータセット、トークン数などの目安


はじめに大規模言語モデルをフルスクラッチで作るにあたり、どれくらいの計算リソースやデータセットが必要になるか、目安がよくわからなかったので、調べました。

参考になるサイト

諸々の整理

BLOOMのテック記事

LLMとGPUとネットワーク (GPU枚数の試算など)

パラメータ数と学習トークン数のバランスをどうするか学習時の最重要パラメータ(?)といえば、モデルサイズ(パラメータ数)と、学

もっとみる