マガジンのカバー画像

Data

51
運営しているクリエイター

#自然言語処理

Google AI Studio で つくよみちゃんの会話テキストデータセット による Gemini の チューニングを試す

Google AI Studio で つくよみちゃんの会話テキストデータセット による Gemini の チューニングを試す

「Google AI Studio」で「つくよみちゃんの会話テキストデータセット」による「Gemini」のチューニングを試したので、まとめました。

1. つくよみちゃん会話AI育成計画(会話テキストデータセット配布)今回は、「つくよみちゃん」の「会話テキストデータセット」を使わせてもらいました。「話しかけ」と、つくよみちゃんらしい「お返事」のペアのデータが470個ほど含まれています。

2. デ

もっとみる

CommonCrawlから有益な日本語の記事と文章を機械学習で抽出するスクリプトのプロトタイプ

はじめに大規模言語の事前学習には、Webデータを片っ端からダウンロードしたサイト(CommonCrawl, CC)が大活躍します。
普通はCCを使いやすい形で加工したコーパスを用いるのですが、意外と低品質だったり、最新の情報が含まれていなかったり、諸々の問題があります。

そこで、独自に日本語コーパスを作る動きも出ています。

本記事は、以下の記事の続きとして、CCからWebデータをダウンロードし

もっとみる
日本の官公庁にある「よくある質問」をデータセットにまとめました

日本の官公庁にある「よくある質問」をデータセットにまとめました

LLMをチューニングするにあたって、質の良い日本語のInstructionデータセットがあるといいなぁと思いました。そこで、日本の官公庁のWebサイトから「よくある質問」を手作業で抽出し、およそ22000件の質問と応答の形になっているデータセットとしてまとめました。

省庁の中でも、CC-BY-4.0(国際)互換のライセンスである「政府標準利用規約(第2.0版)」が明示されている組織からだけ取得し

もっとみる