マガジンのカバー画像

Data

54
運営しているクリエイター

#日本語

400GB程度の清掃済み日本語コーパスを作るまでのメモ書き



はじめに最近は大規模言語モデルを作っています。

来週から始まる学習に向け、400GBほどの日本語コーパスをチームで作成しました。今後、きちんとした作業記録を書ければと思いますので、直近では、かなり立て込んでおりますので、備忘録も含めて、構築経緯などを軽くメモしていきます。

スライド、コード、データなどスライドはこちら

コードはこちら(工事中の箇所がちょくちょくあります)

データは、プロ

もっとみる
Wikipedia日本語データセットの読み込み

Wikipedia日本語データセットの読み込み

日本語LLMの学習にWikipediaの日本語データセットがよく使われているので、使い方を調べてみました。

データセットgraelo/wikipediaを使用Hugging Faceにあるwikipediaデータセットは、なぜか日本語データセットがうまく読めませんでした。
graelo/wikipediaデータセットでは、日本語データセットが読めたので、こちらで確認しました。

データセットを読

もっとみる

日本語の事前学習データセット(OSCAR,mc4)を機械学習でクリーニングしてみる練習

はじめに日本語の事前学習データセットを最近は触っています。
Common Crawlから直接構築することも検討中ですが、まずは既存のデータセットをクリーニングしてみるところから始めてみます。

(ルールベースで真面目に清掃するスクリプトも存在します)

2/21追記 いくらか関連するコードをgithubにuploadしました。

データセットのダウンロードと内訳チェックhuggingfaceのda

もっとみる

大規模言語モデルの構築の事前学習に使えそうなデータセット(主に日本語系)の整理メモ


はじめに日本語データセットが含まれるものをまとめています。
情報があったら教えてください。

llm-jpの厳選リストも要参照

データセットのレビューなど

定番のものWikipedia

有名なやつ

mC4

Common Crawlから集めたデータ。要クリーニング

The Pile

英語がメイン

OSCAR

こちらもCommon Crawl

The Stack

GitHubか

もっとみる
MTbenchの質問データを日本語化しました

MTbenchの質問データを日本語化しました

npaka大先生が必要だということなので、MTbenchの質問データを日本語化しました。

なぜ必要なのかというと、海外の大規模言語モデルはChatbotArenaかMTbenchで性能を測られることが多いのに、日本語のベンチマークは生成系に関しては不十分なテストしかできないためです。

たとえばよく日本語モデルの評価に使われるJ-clueは「日本で一番高い山は?」と聞かれた時に「富士山」と答える

もっとみる