もっさん

データサイエンティスト/Elith株式会社/twitter: @oriki111

もっさん

データサイエンティスト/Elith株式会社/twitter: @oriki111

記事一覧

Hugging Face Trainerによる効率的なFine-tuning: 検証実験を素早く回そう

はじめにHugging Faceで公開されているモデルをfine-tuningする際、皆さんはどのようにコードを書いていますか?僕は基本的にフルスクラッチでコードを書いていました。 し…

もっさん
6か月前

mC4データを文章量でアノテーションしました

はじめにLLM(Large Language Models)の事前学習において、広く使われているデータセット「mC4」には、残念ながら多くの「ゴミデータ」が含まれています。実際のデータを…

もっさん
6か月前
4

LLMの事前学習で利用されるmC4のデータを確認

はじめにLLMの事前学習で広く使われるデータセットmC4の中身が気になったので確認し記事にしてみました! ダウンロード方法から一部データの確認までします。 mC4とは?mC…

もっさん
7か月前
6
Hugging Face Trainerによる効率的なFine-tuning: 検証実験を素早く回そう

Hugging Face Trainerによる効率的なFine-tuning: 検証実験を素早く回そう

はじめにHugging Faceで公開されているモデルをfine-tuningする際、皆さんはどのようにコードを書いていますか?僕は基本的にフルスクラッチでコードを書いていました。
しかし、LLM(Large Language Models)をチューニングする際に、学習と評価の処理をラップするSFTTrainerを利用し、Hugging FaceのTrainerクラスの便利さを実感しました。
以来

もっとみる
mC4データを文章量でアノテーションしました

mC4データを文章量でアノテーションしました

はじめにLLM(Large Language Models)の事前学習において、広く使われているデータセット「mC4」には、残念ながら多くの「ゴミデータ」が含まれています。実際のデータを手軽にチェックしてみたい方は、私が別の記事で取り上げているので、そちらもぜひご覧ください!

実際にデータを確認してみたところ、前処理を頑張ってもゴミデータを取り除くのは困難だと感じました。そこで、mC4データをア

もっとみる
LLMの事前学習で利用されるmC4のデータを確認

LLMの事前学習で利用されるmC4のデータを確認

はじめにLLMの事前学習で広く使われるデータセットmC4の中身が気になったので確認し記事にしてみました!
ダウンロード方法から一部データの確認までします。

mC4とは?mC4は100以上の言語を含む大規模な言語データセットで、インターネットから収取された膨大なテキストデータセット「Common Crawl」を基にしています。Common Crawlから不要なノイズを取り除く処理はされているものの

もっとみる