Data

はじめに最近は大規模言語モデルを作っています。

来週から始まる学習に向け、400GBほどの日本語コーパスをチームで作成しました。今後、きちんとした作業記録を書ければと思いますので、直近では､かなり立て込んでおりますので、備忘録も含めて、構築経緯などを軽くメモしていきます。

スライド、コード、データなどスライドはこちら

コードはこちら(工事中の箇所がちょくちょくあります)

データは、プロ

もっとみる

ウチダマサトシ

2024年2月20日 03:21

Wikipedia日本語データセットの読み込み

日本語LLMの学習にWikipediaの日本語データセットがよく使われているので、使い方を調べてみました。

データセットgraelo/wikipediaを使用Hugging Faceにあるwikipediaデータセットは、なぜか日本語データセットがうまく読めませんでした。
graelo/wikipediaデータセットでは、日本語データセットが読めたので、こちらで確認しました。

データセットを読

もっとみる

Kan Hatakeyama

2024年2月17日 17:14

日本語の事前学習データセット(OSCAR,mc4)を機械学習でクリーニングしてみる練習

はじめに日本語の事前学習データセットを最近は触っています。
Common Crawlから直接構築することも検討中ですが、まずは既存のデータセットをクリーニングしてみるところから始めてみます。

(ルールベースで真面目に清掃するスクリプトも存在します)

2/21追記いくらか関連するコードをgithubにuploadしました｡

データセットのダウンロードと内訳チェックhuggingfaceのda

もっとみる

Kan Hatakeyama

2024年2月12日 11:05

大規模言語モデルの構築の事前学習に使えそうなデータセット(主に日本語系)の整理メモ

はじめに日本語データセットが含まれるものをまとめています。
情報があったら教えてください。

llm-jpの厳選リストも要参照

データセットのレビューなど

定番のものWikipedia

有名なやつ

mC4

Common Crawlから集めたデータ。要クリーニング

The Pile

英語がメイン

OSCAR

こちらもCommon Crawl

The Stack

GitHubか

もっとみる

shi3z

2023年10月27日 17:48

MTbenchの質問データを日本語化しました

npaka大先生が必要だということなので、MTbenchの質問データを日本語化しました。

なぜ必要なのかというと、海外の大規模言語モデルはChatbotArenaかMTbenchで性能を測られることが多いのに、日本語のベンチマークは生成系に関しては不十分なテストしかできないためです。

たとえばよく日本語モデルの評価に使われるJ-clueは「日本で一番高い山は?」と聞かれた時に「富士山」と答える

もっとみる

フォローしませんか？

#日本語

400GB程度の清掃済み日本語コーパスを作るまでのメモ書き

Wikipedia日本語データセットの読み込み

日本語の事前学習データセット(OSCAR,mc4)を機械学習でクリーニングしてみる練習

大規模言語モデルの構築の事前学習に使えそうなデータセット(主に日本語系)の整理メモ

MTbenchの質問データを日本語化しました