もっさん

データサイエンティスト/Elith株式会社/twitter: @oriki111

5 フォロー 2 フォロワー

Hugging Face Trainerによる効率的なFine-tuning: 検証実験を素早く回そう

はじめにHugging Faceで公開されているモデルをfine-tuningする際、皆さんはどのようにコードを書いていますか？僕は基本的にフルスクラッチでコードを書いていました。し…

もっさん

6か月前

mC4データを文章量でアノテーションしました

はじめにLLM（Large Language Models）の事前学習において、広く使われているデータセット「mC4」には、残念ながら多くの「ゴミデータ」が含まれています。実際のデータを…

もっさん

6か月前

LLMの事前学習で利用されるmC4のデータを確認

はじめにLLMの事前学習で広く使われるデータセットmC4の中身が気になったので確認し記事にしてみました！ダウンロード方法から一部データの確認までします。 mC4とは？mC…

もっさん

7か月前

もっさん

2024年1月13日 23:42

Hugging Face Trainerによる効率的なFine-tuning: 検証実験を素早く回そう

はじめにHugging Faceで公開されているモデルをfine-tuningする際、皆さんはどのようにコードを書いていますか？僕は基本的にフルスクラッチでコードを書いていました。
しかし、LLM（Large Language Models）をチューニングする際に、学習と評価の処理をラップするSFTTrainerを利用し、Hugging FaceのTrainerクラスの便利さを実感しました。
以来

もっとみる

もっさん

2024年1月2日 11:09

mC4データを文章量でアノテーションしました

はじめにLLM（Large Language Models）の事前学習において、広く使われているデータセット「mC4」には、残念ながら多くの「ゴミデータ」が含まれています。実際のデータを手軽にチェックしてみたい方は、私が別の記事で取り上げているので、そちらもぜひご覧ください！

実際にデータを確認してみたところ、前処理を頑張ってもゴミデータを取り除くのは困難だと感じました。そこで、mC4データをア

もっとみる

もっさん

2023年12月30日 17:08

LLMの事前学習で利用されるmC4のデータを確認

はじめにLLMの事前学習で広く使われるデータセットmC4の中身が気になったので確認し記事にしてみました！
ダウンロード方法から一部データの確認までします。

mC4とは？mC4は100以上の言語を含む大規模な言語データセットで、インターネットから収取された膨大なテキストデータセット「Common Crawl」を基にしています。Common Crawlから不要なノイズを取り除く処理はされているものの

もっとみる

記事一覧

Hugging Face Trainerによる効率的なFine-tuning: 検証実験を素早く回そう

mC4データを文章量でアノテーションしました

LLMの事前学習で利用されるmC4のデータを確認

Hugging Face Trainerによる効率的なFine-tuning: 検証実験を素早く回そう

mC4データを文章量でアノテーションしました

LLMの事前学習で利用されるmC4のデータを確認