記事一覧
Sakana AIの「AI科学者」の読解メモ
はじめに最近、大規模言語モデルの開発が終わり、少し余裕が出てきたので、noteの投稿をちょくちょく再開していくかもしれません。
第一弾は、2024/8/13に公開されて話題になった、「AIサイエンティスト」の読解記録です。
こちらは、気にはなっていたのですが、手つかずの論文でした。
そろそろ締切の科研費の申請書の参考になりそうなのと、某件で解説を頼まれたので、読むことにしました。
本記事
Mixtral 8x22bとStockmark-100bの出力を比較する
はじめに2024年の4月以降、自由度の高いライセンス*で配布される100bクラスの大規模言語モデルが次々と登場しています。
この記事では、その代表格であるMixtral 8x22b (apache 2.0ライセンス)とStockmark-100b (MITライセンス)の出力を比較してみます。
(Stockmark-100bは、本記事の執筆の前日に公開されました)
*補足: 自由度の高いライセン
400GB程度の清掃済み日本語コーパスを作るまでのメモ書き
はじめに最近は大規模言語モデルを作っています。
来週から始まる学習に向け、400GBほどの日本語コーパスをチームで作成しました。今後、きちんとした作業記録を書ければと思いますので、直近では、かなり立て込んでおりますので、備忘録も含めて、構築経緯などを軽くメモしていきます。
スライド、コード、データなどスライドはこちら
コードはこちら(工事中の箇所がちょくちょくあります)
データは、プロ
ChatGPTのログをexportしてjsonlにするメモ (指示データセットに使いたい)
はじめに大規模言語モデルの構築にあたって、最も大切と言われるのは、モデルのファインチューニングとよばれる部分です。
ファインチューニングは、モデルが人間ときちんと対話できるようになるための訓練で、AIは、実際の対話データなどを学習することで、人間との関わり方を学びます。
最近は指示データセットを作る取り組みを行っています。
が、ゼロからデータセットを作るのはなかなか骨が折れます。
そこで思い
一部のGPT3.5系は、選択肢問題をきちんと解けないかも、という検証
はじめに最近は、大規模言語モデル(LLM)の理解力や制約をできるだけ正確に把握し、適切に訓練させるための手法を考えることにハマっています。
昨日の記事では、日本語を喋るLLMの半数近くが、単純な選択肢問題にさえ、適切に回答できないことを記しました。
本記事では、賢いと評判の商用モデルGPT3.5/4の、ユーザーに対する指示の遵守性能について、評価していきます。
タスク解かせる問題
llm-
(10b程度の)大規模言語モデルが「種々のスキル」を身につけるために必要な要素や学習量を考えるメモ
はじめに最近は、10bクラスの大規模言語モデル(LLM)が特定のスキルを身につけるのに必要な要素を解明するタスクに取り組んでいます。
このサイズのモデルは、思ったよりも「おバカ」なため、例えば選択肢問題をきちんと解けるようになるためだけに、数百件以上の訓練(ファインチューニング)が必要な事例も出てきました。
本記事では、LLMに身に着けさせる「タスク」の幅を、もう少し増やしながら、挙動を追っ
10bクラスの大規模言語モデルが、ファインチューニングを経てタスクを解けるようになるメカニズムを探るメモ
追記・拡張版はこちら
はじめに最近は大規模言語モデルのファインチューニングにハマっています。
10bクラスの言語モデルが、どのようなメカニズムを通してユーザーの質問に回答できるようになるかについて、調べています。
最近の検討で生じた仮説は、「10bクラスのモデルは、実は質問文を殆ど理解できていない」というものです。
本記事ではどのようなデータを学習したときに、llm-jp-evalという評
ファインチューニング条件の検討による、10bクラスの大規模言語モデルの理解・回答能力についての検証と考察
(以下、時間の都合上、まだきちんと校正できておりません。ご了承ください)
4/1追記: こちらの記事の方が、きちっとした検証がなされています。
はじめに大規模言語モデルは大きく、1)事前学習、2)ファインチューニングの二段階によって訓練されます。2)ファインチューニングは、ざっくり言えば、「人間と対話するための訓練」です。すなわち、人間の指示を理解し、期待される回答をするための練習をする作業
商用利用可能な130億パラメータの日本語LLM「Tanuki-ZeRo」を一般公開 【代表的な日本語ベンチマークで世界6位: オープンモデルで1位相当、GPT3.5やClaude v2を一部凌駕, 23/3/30時点】
(前半はパロディ風のネタ記事です。ご了承ください)
4/1追記: ページ下部に、記事へのご指摘に関するまじめなQ&Aを追加しました。
3/31追記: 一部、ご批判がありましたので、jaster特化のモデルを作った学術的(?)な経緯などについて、以下の(真面目な方の)記事で、まとめています。真面目な方は、こちらを先に読まれることを強くおすすめします。
10bクラスのLLMは未学習タスクに対して
10b程度のモデルをファインチューニングする日記 (逐次更新)
はじめに最近は大規模言語モデルを作っています。
主に2-3月はデータセット構築や事前学習に取り組んできました。
概ね、手応えがつかめてきたので、次はファインチューニングの練習をしていきます。本記事は、その日記です。
3/26まで: システムのセットアップHuggingFace形式のモデルをinstruction tuningして、日本語のベンチマークで評価するためのパイプラインを作っていま
カスタムコードを含むTransformerモデルをHuggingFaceに登録する手順メモ
はじめに大規模言語モデルを作っていると、モデル内部のコードをいじることがあります。
そのようなカスタムコードを含むモデルをHuggingFaceのリポジトリに登録して利用するための手順を習得するのに苦戦したので、備忘録も込めて記載します。
以下のサイトを参考にしました。
デモコード本記事の実装コードはこちらです。
Configとモデルを登録する今回は、Mixture of Experts
0.1bのtransformerのperplexityで文章フィルタリングができるかどうかの検証
はじめに最近は大規模言語モデルを作っています。
大規模言語モデルの学習において、事前学習データのフィルタリングは重要と言われています。
フィルタリングにはいくつもの方法がありますが、ルールベースでノイズを取り除くのは、処理速度の面でも有利です。
一方、最近は機械学習ベースのフィルタリングも注目されています。
特に、処理速度と精度を両立した(?)手法として、言語モデルのperplexity
CommonCrawl PDFを漁る練習
はじめに最近は大規模言語モデルを作っています。
データソースとして、ネット上のhtmlデータを収集したCommonCrawlは有名です。
しかし、htmlから抜き出したテキストは、あまり品質が高くないケースが多いです。
また、html版は多くの方が取り組んでおり、意外と日本語のテキストは枯渇気味です。
そこで今回は、CommonCrawlのPDF版を解析してみます。
コード一式(3/21
大規模言語モデルの学習に必要な計算量を試算する
はじめに最近は大規模言語モデルを作っています。
10B級のモデルを作れるリソースを使わせていただける予定なのですが、具体的なFLOPの推定が必要そうだったので、軽く試算してみることにしました。
計算が間違っていたらすみません。
試算サイトを活用する以下のサイトを使うと、モデルサイズ・学習トークン数をもとに、学習に必要な計算量FLOPsやestimated lossを推定できます。素晴らしいで