Data

2024年4月18日 15:23

llm-jp-evalの中身を見てみる

llm-jp-evalが対応している8つのカテゴリ

自然言語推論（Natural Language Inference, NLI）
- Jamp, JaNLI, JNLI, JSeM, JSICK

質問応答（Question Answering, QA）
- JEMHopQA, NIILC

読解力（Reading Comprehension, RC）
- JSQuAD

多肢選択問題（Mul

もっとみる

npaka

2024年4月23日 08:18

JAT (Jack of All Trades) の概要

以下の記事が面白かったので、簡単にまとめました。

1. JAT (Jack of All Trades)「JAT」 (Jack of All Trades) は、ジェネラリストエージェントの推進を目的とするプロジェクトです。このプロジェクトは、視覚と言語 (vision-and-language) のタスクと意思決定 (decision-making) のタスクの両方を実行できるTransfor

もっとみる

npaka

2024年3月2日 11:54

Google AI Studio でつくよみちゃんの会話テキストデータセットによる Gemini のチューニングを試す

「Google AI Studio」で「つくよみちゃんの会話テキストデータセット」による「Gemini」のチューニングを試したので、まとめました。

1. つくよみちゃん会話AI育成計画（会話テキストデータセット配布）今回は、「つくよみちゃん」の「会話テキストデータセット」を使わせてもらいました。「話しかけ」と、つくよみちゃんらしい「お返事」のペアのデータが470個ほど含まれています。

2. デ

もっとみる

松note

2023年10月22日 23:11

相づちに特化した軽量なLLMを作ってみる #役に立たないLLM

会話するAIキャラクターを作ろうとすると、返答を生成する待ち時間が気になります。気になるはずです。GPT-4はサーバーが重いときはおよそ会話として成立しないほど待つこともあります。

そこで、軽量なローカルLLMにとりあえず相づちだけ打たせて、その間に、性能の良いLLMにちゃんとした返答を生成させれば良いのでは、なんてことを考えてみました。

データセットとして、以下のRosebleuデータセット

もっとみる

もっさん

2023年12月30日 17:08

LLMの事前学習で利用されるmC4のデータを確認

はじめにLLMの事前学習で広く使われるデータセットmC4の中身が気になったので確認し記事にしてみました！
ダウンロード方法から一部データの確認までします。

mC4とは？mC4は100以上の言語を含む大規模な言語データセットで、インターネットから収取された膨大なテキストデータセット「Common Crawl」を基にしています。Common Crawlから不要なノイズを取り除く処理はされているものの

もっとみる

Ghelia Tech Blog｜ギリア株式会社

2023年12月19日 12:04

COCOデータセットを可視化してみた

はじめに初めまして。
ギリアでインターン生としてデータ開発を行っている鍛原と申します。普段から様々なデータの可視化や分析を行っています。

本稿では、画像認識で広く用いられているCOCOデータセットとはどんなものか、統計情報とともに紹介します。
また、COCOデータセットを正しく使えるように、使い方やデータ構造、画像の特徴などを出来るだけ詳細にまとめました。
ぜひ、最後までお付き合いください。

もっとみる

NN-Nomad

2024年1月4日 16:47

日本語オープンコンテンツデータセット

キャラクター会話

お嬢様会話

などの日本語データを無償で公開してくれている神がかったプロジェクト。NPCとの会話AIなどに活用できそう。

下記は、本家サイトからの引用。

Yoshihiro Tanaka | taziku

2024年1月24日 22:16

AI開発のための日本人プロ声優の音声データセット「moe-speech」他 / Catch up on AI 2024.1.24

Pick up日本人プロ声優による高音質（スタジオ録音）でノイズ・BGM等無しのキャラクター演技セリフ発話音声データセット。1音声は2-15秒のモノラルwavファイル（ほぼ全て44.1kHz、いくつかは48kHz）。

キャラクターごとにフォルダ分けされており、現在は合計473キャラクター、約39万の音声ファイル、合計約622時間、368GBの音声が含まれるデータセット。

moe-speech

もっとみる

shi3z

2024年1月26日 05:53

ABCIでOrion14Bを使って10Kマルチターン日本語会話データセットを生成した

そろそろ年度末。
みなさんいかがお過ごしでしょうか。
年度末といえばABCIもそろそろ混み始めるお年頃。
ABCIのA100は960基しかないので奪い合いが続いています。

一方でMetaは年内に34万基のH100を導入するそうですが・・・

まさにB-29と竹槍。

とはいえ、前世代のV100ならまだ空きがあるので残ったポイントを今のうちに使ってしまおうかなと思い、Orion14B-ChatとW

もっとみる

もっさん

2024年1月2日 11:09

mC4データを文章量でアノテーションしました

はじめにLLM（Large Language Models）の事前学習において、広く使われているデータセット「mC4」には、残念ながら多くの「ゴミデータ」が含まれています。実際のデータを手軽にチェックしてみたい方は、私が別の記事で取り上げているので、そちらもぜひご覧ください！

実際にデータを確認してみたところ、前処理を頑張ってもゴミデータを取り除くのは困難だと感じました。そこで、mC4データをア

もっとみる

shi3z

2024年1月12日 16:28

社長(AI)に頼んで1万件(10K)の商用利用可能(llama2ライセンス)な日本語マルチターン会話データセットを作ってもらった

注意:llama2の派生モデルであるllama2Pro8Bで生成しているので商用利用可能な範囲に制限があります。詳しくはllama2ライセンスを確認してください

https://ai.meta.com/resources/models-and-libraries/llama-downloads/

「社長、ただいま出張から戻りました!」

「・・・」

「お願いしていた稟議の件、どうなりましたで

もっとみる

shi3z

2023年11月27日 09:17

日本語Wikipediaのマルチターン会話データセット10万個を作りました

GPT-3.5-Turboを使って、約一ヶ月かけて日本語のWikipediaの項目をもとに先生と生徒が会話するマルチターンデータセットを作りました。

GPT-3.5を使っているため取り扱いには注意が必要ですが、とりあえず「日本語の高性能LLM」を作ってみる実験はできるはずです。

GPT-4でもやってみようかなと思っていますが、GPT-3.5でも一ヶ月でかなりの出費があり、GPT-4で同じ分量の

もっとみる

松note

2023年10月1日 16:58

ゲームシナリオから作成した、学習用データセット公開プロジェクト

日本語オープンコンテンツデータセットプロジェクトというプロジェクトを始めました。

https://open_contents_datasets.gitlab.io/project_home/

LLM（大規模言語モデル）の学習をする上で、日本語のデータセットがまだまだ多くありません。特に、プロが作ったエンターテイメント作品のシナリオを、個人開発者や研究者が利用出来る場面は限られています。

そ

もっとみる

フォローしませんか？

#AI

llm-jp-evalの中身を見てみる

JAT (Jack of All Trades) の概要

Google AI Studio でつくよみちゃんの会話テキストデータセットによる Gemini のチューニングを試す

相づちに特化した軽量なLLMを作ってみる #役に立たないLLM

LLMの事前学習で利用されるmC4のデータを確認

COCOデータセットを可視化してみた

日本語オープンコンテンツデータセット

AI開発のための日本人プロ声優の音声データセット「moe-speech」他 / Catch up on AI 2024.1.24

ABCIでOrion14Bを使って10Kマルチターン日本語会話データセットを生成した

mC4データを文章量でアノテーションしました

社長(AI)に頼んで1万件(10K)の商用利用可能(llama2ライセンス)な日本語マルチターン会話データセットを作ってもらった

日本語Wikipediaのマルチターン会話データセット10万個を作りました

ゲームシナリオから作成した、学習用データセット公開プロジェクト