Kan Hatakeyama

化学・大規模言語モデル・ロボットなど記事はメモ書きですのでご了承ください

1 フォロー 534 フォロワー

Sakana AIの「AI科学者」の読解メモ

はじめに最近､大規模言語モデルの開発が終わり､少し余裕が出てきたので､noteの投稿をちょくちょく再開していくかもしれません｡第一弾は､2024/8/13に公開されて話題にな…

Kan Hatakeyama

2日前

ネットの文章とChatBotの文章は「どれくらい離れているか」を可視化する

(下書きをclaudeが書き直した記事です) はじめにみなさん、こんにちは。今日は大規模言語モデル（LLM）の学習プロセスについて、少し深掘りしてみたいと思います。 LLMの…

Kan Hatakeyama

3週間前

Mixtral 8x22bとStockmark-100bの出力を比較する

はじめに2024年の4月以降､自由度の高いライセンス*で配布される100bクラスの大規模言語モデルが次々と登場しています｡この記事では､その代表格であるMixtral 8x22b (apac…

Kan Hatakeyama

3か月前

400GB程度の清掃済み日本語コーパスを作るまでのメモ書き

はじめに最近は大規模言語モデルを作っています。来週から始まる学習に向け、400GBほどの日本語コーパスをチームで作成しました。今後、きちんとした作業記録を書けれ…

Kan Hatakeyama

4か月前

Pythonで大量のテキストの類似度チェックを行うメモ

はじめに最近は大規模言語モデルのコーパスづくりに四苦八苦しています｡収集したテキストには､多くの重複データが含まれるためそれらを削除する作業が大切です｡重複削除…

Kan Hatakeyama

4か月前

ChatGPTのログをexportしてjsonlにするメモ (指示データセットに使いたい)

はじめに大規模言語モデルの構築にあたって､最も大切と言われるのは､モデルのファインチューニングとよばれる部分です｡ファインチューニングは､モデルが人間ときちんと対…

Kan Hatakeyama

4か月前

一部のGPT3.5系は､選択肢問題をきちんと解けないかも､という検証

はじめに最近は､大規模言語モデル(LLM)の理解力や制約をできるだけ正確に把握し､適切に訓練させるための手法を考えることにハマっています｡昨日の記事では､日本語を喋るL…

Kan Hatakeyama

4か月前

(10b程度の)大規模言語モデルが「種々のスキル」を身につけるために必要な要素や学習量を考えるメモ

はじめに最近は､10bクラスの大規模言語モデル(LLM)が特定のスキルを身につけるのに必要な要素を解明するタスクに取り組んでいます｡このサイズのモデルは､思ったよりも「…

Kan Hatakeyama

4か月前

10bクラスの大規模言語モデルが､ファインチューニングを経てタスクを解けるようになるメカニズムを探るメモ

追記・拡張版はこちらはじめに最近は大規模言語モデルのファインチューニングにハマっています｡ 10bクラスの言語モデルが､どのようなメカニズムを通してユーザーの質問…

Kan Hatakeyama

4か月前

ファインチューニング条件の検討による、10bクラスの大規模言語モデルの理解・回答能力についての検証と考察

(以下、時間の都合上、まだきちんと校正できておりません。ご了承ください) 4/1追記: こちらの記事の方が､きちっとした検証がなされています｡はじめに大規模言語モデル…

Kan Hatakeyama

4か月前

商用利用可能な130億パラメータの日本語LLM「Tanuki-ZeRo」を一般公開【代表的な日本語ベンチマークで世界6位: オープンモデル…

(前半はパロディ風のネタ記事です｡ご了承ください) 4/1追記: ページ下部に､記事へのご指摘に関するまじめなQ&Aを追加しました｡ 3/31追記:　一部、ご批判がありましたの…

Kan Hatakeyama

4か月前

10b程度のモデルをファインチューニングする日記 (逐次更新)

はじめに最近は大規模言語モデルを作っています｡主に2-3月はデータセット構築や事前学習に取り組んできました｡概ね､手応えがつかめてきたので､次はファインチューニン…

Kan Hatakeyama

5か月前

カスタムコードを含むTransformerモデルをHuggingFaceに登録する手順メモ

はじめに大規模言語モデルを作っていると､モデル内部のコードをいじることがあります｡そのようなカスタムコードを含むモデルをHuggingFaceのリポジトリに登録して利用す…

Kan Hatakeyama

5か月前

0.1bのtransformerのperplexityで文章フィルタリングができるかどうかの検証

はじめに最近は大規模言語モデルを作っています｡大規模言語モデルの学習において､事前学習データのフィルタリングは重要と言われています｡フィルタリングにはいくつも…

Kan Hatakeyama

5か月前

CommonCrawl PDFを漁る練習

はじめに最近は大規模言語モデルを作っています｡データソースとして､ネット上のhtmlデータを収集したCommonCrawlは有名です｡しかし､htmlから抜き出したテキストは､あ…

Kan Hatakeyama

5か月前

大規模言語モデルの学習に必要な計算量を試算する

はじめに最近は大規模言語モデルを作っています｡ 10B級のモデルを作れるリソースを使わせていただける予定なのですが､具体的なFLOPの推定が必要そうだったので､軽く試算…

Kan Hatakeyama

5か月前

Kan Hatakeyama

2024年8月22日 16:07

Sakana AIの「AI科学者」の読解メモ

はじめに最近､大規模言語モデルの開発が終わり､少し余裕が出てきたので､noteの投稿をちょくちょく再開していくかもしれません｡

第一弾は､2024/8/13に公開されて話題になった､「AIサイエンティスト」の読解記録です｡

こちらは､気にはなっていたのですが､手つかずの論文でした｡
そろそろ締切の科研費の申請書の参考になりそうなのと､某件で解説を頼まれたので､読むことにしました｡

本記事

もっとみる

Kan Hatakeyama

2024年7月29日 09:20

ネットの文章とChatBotの文章は「どれくらい離れているか」を可視化する

(下書きをclaudeが書き直した記事です)

はじめにみなさん、こんにちは。今日は大規模言語モデル（LLM）の学習プロセスについて、少し深掘りしてみたいと思います。

LLMの作成方法として、よく次の2段階のプロセスが紹介されています：

大量のインターネットデータや書籍などを使って事前学習を行う

その後、会話形式の指示データを使って微調整（ファインチューニング）を行う

この方法は、多くの研

もっとみる

Kan Hatakeyama

2024年5月17日 18:10

Mixtral 8x22bとStockmark-100bの出力を比較する

はじめに2024年の4月以降､自由度の高いライセンス*で配布される100bクラスの大規模言語モデルが次々と登場しています｡
この記事では､その代表格であるMixtral 8x22b (apache 2.0ライセンス)とStockmark-100b (MITライセンス)の出力を比較してみます｡
(Stockmark-100bは､本記事の執筆の前日に公開されました)

*補足: 自由度の高いライセン

もっとみる

Kan Hatakeyama

2024年4月20日 11:01

400GB程度の清掃済み日本語コーパスを作るまでのメモ書き

はじめに最近は大規模言語モデルを作っています。

来週から始まる学習に向け、400GBほどの日本語コーパスをチームで作成しました。今後、きちんとした作業記録を書ければと思いますので、直近では､かなり立て込んでおりますので、備忘録も含めて、構築経緯などを軽くメモしていきます。

スライド、コード、データなどスライドはこちら

コードはこちら(工事中の箇所がちょくちょくあります)

データは、プロ

もっとみる

Kan Hatakeyama

2024年4月12日 09:28

Pythonで大量のテキストの類似度チェックを行うメモ

はじめに最近は大規模言語モデルのコーパスづくりに四苦八苦しています｡
収集したテキストには､多くの重複データが含まれるためそれらを削除する作業が大切です｡

重複削除はCなどのコンパイル言語で高速にやるのが常套手段なのですが､今回はあえて､pythonライブラリで実行してみました｡

関連

例えばこちら

テキストwebから収集した､7万件ほどのテキストを使います｡

Hojicharに入ってい

もっとみる

Kan Hatakeyama

2024年4月6日 09:42

ChatGPTのログをexportしてjsonlにするメモ (指示データセットに使いたい)

はじめに大規模言語モデルの構築にあたって､最も大切と言われるのは､モデルのファインチューニングとよばれる部分です｡
ファインチューニングは､モデルが人間ときちんと対話できるようになるための訓練で､AIは､実際の対話データなどを学習することで､人間との関わり方を学びます｡

最近は指示データセットを作る取り組みを行っています｡

が､ゼロからデータセットを作るのはなかなか骨が折れます｡

そこで思い

もっとみる

Kan Hatakeyama

2024年4月3日 10:41

一部のGPT3.5系は､選択肢問題をきちんと解けないかも､という検証

はじめに最近は､大規模言語モデル(LLM)の理解力や制約をできるだけ正確に把握し､適切に訓練させるための手法を考えることにハマっています｡

昨日の記事では､日本語を喋るLLMの半数近くが､単純な選択肢問題にさえ､適切に回答できないことを記しました｡

本記事では､賢いと評判の商用モデルGPT3.5/4の､ユーザーに対する指示の遵守性能について､評価していきます｡

タスク解かせる問題

llm-

もっとみる

Kan Hatakeyama

2024年4月2日 14:38

(10b程度の)大規模言語モデルが「種々のスキル」を身につけるために必要な要素や学習量を考えるメモ

はじめに最近は､10bクラスの大規模言語モデル(LLM)が特定のスキルを身につけるのに必要な要素を解明するタスクに取り組んでいます｡
このサイズのモデルは､思ったよりも「おバカ」なため､例えば選択肢問題をきちんと解けるようになるためだけに､数百件以上の訓練(ファインチューニング)が必要な事例も出てきました｡

本記事では､LLMに身に着けさせる「タスク」の幅を､もう少し増やしながら､挙動を追っ

もっとみる

Kan Hatakeyama

2024年4月1日 15:42

10bクラスの大規模言語モデルが､ファインチューニングを経てタスクを解けるようになるメカニズムを探るメモ

追記・拡張版はこちら

はじめに最近は大規模言語モデルのファインチューニングにハマっています｡
10bクラスの言語モデルが､どのようなメカニズムを通してユーザーの質問に回答できるようになるかについて､調べています｡

最近の検討で生じた仮説は､「10bクラスのモデルは､実は質問文を殆ど理解できていない」というものです｡

本記事ではどのようなデータを学習したときに､llm-jp-evalという評

もっとみる

Kan Hatakeyama

2024年3月31日 18:00

ファインチューニング条件の検討による、10bクラスの大規模言語モデルの理解・回答能力についての検証と考察

(以下、時間の都合上、まだきちんと校正できておりません。ご了承ください)

4/1追記: こちらの記事の方が､きちっとした検証がなされています｡

はじめに大規模言語モデルは大きく、1)事前学習、2)ファインチューニングの二段階によって訓練されます。2)ファインチューニングは、ざっくり言えば、「人間と対話するための訓練」です。すなわち、人間の指示を理解し、期待される回答をするための練習をする作業

もっとみる

Kan Hatakeyama

2024年3月30日 12:05

商用利用可能な130億パラメータの日本語LLM「Tanuki-ZeRo」を一般公開【代表的な日本語ベンチマークで世界6位: オープンモデルで1位相当､GPT3.5やClaude v2を一部凌駕, 23/3/30時点】

(前半はパロディ風のネタ記事です｡ご了承ください)

4/1追記: ページ下部に､記事へのご指摘に関するまじめなQ&Aを追加しました｡

3/31追記:　一部、ご批判がありましたので、jaster特化のモデルを作った学術的(?)な経緯などについて、以下の(真面目な方の)記事で、まとめています。真面目な方は、こちらを先に読まれることを強くおすすめします。
10bクラスのLLMは未学習タスクに対して

もっとみる

Kan Hatakeyama

2024年3月27日 14:27

10b程度のモデルをファインチューニングする日記 (逐次更新)

はじめに最近は大規模言語モデルを作っています｡

主に2-3月はデータセット構築や事前学習に取り組んできました｡

概ね､手応えがつかめてきたので､次はファインチューニングの練習をしていきます｡本記事は､その日記です｡

3/26まで: システムのセットアップHuggingFace形式のモデルをinstruction tuningして､日本語のベンチマークで評価するためのパイプラインを作っていま

もっとみる

Kan Hatakeyama

2024年3月26日 17:47

カスタムコードを含むTransformerモデルをHuggingFaceに登録する手順メモ

はじめに大規模言語モデルを作っていると､モデル内部のコードをいじることがあります｡
そのようなカスタムコードを含むモデルをHuggingFaceのリポジトリに登録して利用するための手順を習得するのに苦戦したので､備忘録も込めて記載します｡

以下のサイトを参考にしました｡

デモコード本記事の実装コードはこちらです｡

Configとモデルを登録する今回は､Mixture of Experts

もっとみる

Kan Hatakeyama

2024年3月25日 14:34

0.1bのtransformerのperplexityで文章フィルタリングができるかどうかの検証

はじめに最近は大規模言語モデルを作っています｡

大規模言語モデルの学習において､事前学習データのフィルタリングは重要と言われています｡

フィルタリングにはいくつもの方法がありますが､ルールベースでノイズを取り除くのは､処理速度の面でも有利です｡

一方､最近は機械学習ベースのフィルタリングも注目されています｡

特に､処理速度と精度を両立した(?)手法として､言語モデルのperplexity

もっとみる

Kan Hatakeyama

2024年3月21日 11:41

CommonCrawl PDFを漁る練習

はじめに最近は大規模言語モデルを作っています｡

データソースとして､ネット上のhtmlデータを収集したCommonCrawlは有名です｡

しかし､htmlから抜き出したテキストは､あまり品質が高くないケースが多いです｡
また､html版は多くの方が取り組んでおり､意外と日本語のテキストは枯渇気味です｡

そこで今回は､CommonCrawlのPDF版を解析してみます｡

コード一式(3/21

もっとみる

Kan Hatakeyama

2024年3月13日 17:26

大規模言語モデルの学習に必要な計算量を試算する

はじめに最近は大規模言語モデルを作っています｡

10B級のモデルを作れるリソースを使わせていただける予定なのですが､具体的なFLOPの推定が必要そうだったので､軽く試算してみることにしました｡
計算が間違っていたらすみません｡

試算サイトを活用する以下のサイトを使うと､モデルサイズ・学習トークン数をもとに､学習に必要な計算量FLOPsやestimated lossを推定できます｡素晴らしいで

もっとみる

記事一覧

Sakana AIの「AI科学者」の読解メモ

ネットの文章とChatBotの文章は「どれくらい離れているか」を可視化する

Mixtral 8x22bとStockmark-100bの出力を比較する

400GB程度の清掃済み日本語コーパスを作るまでのメモ書き

Pythonで大量のテキストの類似度チェックを行うメモ

ChatGPTのログをexportしてjsonlにするメモ (指示データセットに使いたい)

一部のGPT3.5系は､選択肢問題をきちんと解けないかも､という検証

(10b程度の)大規模言語モデルが「種々のスキル」を身につけるために必要な要素や学習量を考えるメモ

10bクラスの大規模言語モデルが､ファインチューニングを経てタスクを解けるようになるメカニズムを探るメモ

ファインチューニング条件の検討による、10bクラスの大規模言語モデルの理解・回答能力についての検証と考察

商用利用可能な130億パラメータの日本語LLM「Tanuki-ZeRo」を一般公開 【代表的な日本語ベンチマークで世界6位: オープンモデル…

10b程度のモデルをファインチューニングする日記 (逐次更新)

カスタムコードを含むTransformerモデルをHuggingFaceに登録する手順メモ

0.1bのtransformerのperplexityで文章フィルタリングができるかどうかの検証

CommonCrawl PDFを漁る練習

大規模言語モデルの学習に必要な計算量を試算する

商用利用可能な130億パラメータの日本語LLM「Tanuki-ZeRo」を一般公開【代表的な日本語ベンチマークで世界6位: オープンモデル…