Data

2024年7月23日 18:00

【論文要約:自動運転関連】WTS: A Pedestrian-Centric Traffic Video Dataset for Fine-grained Spatial-Temporal Understanding

自動運転に関連する論文の要約をしています。
論文へのリンク：https://arxiv.org/abs/2407.15350

1. タイトル

原題: WTS: A Pedestrian-Centric Traffic Video Dataset for Fine-grained Spatial-Temporal Understanding
和訳: WTS: 詳細な時空間理解のための歩行者中心の

もっとみる

マーケットフィット観測所

2024年7月21日 19:31

Persona Hubについて

少し前に中国のTencentのチームが発表したPersona Hub（テクニカルレポート）について書いてみたいと思います。

Persona Hubは、ウェブデータを活用して膨大なペルソナ（「〇〇の専門家」みたいな人格・属性を表す短文）を生成したデータセットです。

具体的にどうやって生成しているかは示されていないようですが、ペルソナからさらに別のペルソナを生成することで、ペルソナの多様性を増やし

もっとみる

鐵火卷

2024年6月19日 21:34

LLMだけでデータセット生成してみよう！Magpie方式でのprompt生成

こんにちは、クロガネです。
タイトルの通り、完全にLLMのみを使用したデータセット作成を行います。

以下の論文に基づいて進め行きます。
[2406.08464] Magpie: Alignment Data Synthesis from Scratch by Prompting Aligned LLMs with Nothing (arxiv.org)
本当にそんなに簡単にデータセット生成ができ

もっとみる

はち

2024年5月28日 18:19

LLMによる合成データ(Synthetic Data)生成のテクニック

私は最近、LLMによるSynthetic data(合成データ)生成を試しています。手法について色々調べたり試したことをまとめておこうと思います。
個別の論文の詳細については他の方の記事や私の過去記事でまとめたりしてあるので、どちらかというと合成データ生成における方向性にどんなものがあるのかという観点で紹介したいと思います。

概要LLMによる合成データ生成には、その使い道から以下の2つの種類があ

もっとみる

はち

2024年5月22日 19:56

論文メモ: Self-Rewarding Language Models

私は最近、LLMによるSynthetic data(合成データ)生成を試しています。手法について色々調べているので論文等忘れないようにこの場にメモを残していきたいと思います。
基本的に、『Synthetic dataをどう作るか』によったメモとなるので、その論文中の結果等は書かなかったりすると思います。
また、内容には私、GPT、Claudeの見解を含みます。

1. 今回の論文今回は以下の論文を

もっとみる

はち

2024年5月21日 16:47

論文メモ: Beyond Human Data: Scaling Self-Training for Problem-Solving with Language Models

私は最近、LLMによるSynthetic data(合成データ)生成を試しています。手法について色々調べているので論文等忘れないようにこの場にメモを残していきたいと思います。
基本的に、『Synthetic dataをどう作るか』によったメモとなるので、その論文中の結果等は書かなかったりすると思います。
また、内容には私、GPT、Claudeの見解を含みます。

1. 今回の論文今回は以下の論文を

もっとみる

yutohub

2024年4月18日 15:23

llm-jp-evalの中身を見てみる

llm-jp-evalが対応している8つのカテゴリ

自然言語推論（Natural Language Inference, NLI）
- Jamp, JaNLI, JNLI, JSeM, JSICK

質問応答（Question Answering, QA）
- JEMHopQA, NIILC

読解力（Reading Comprehension, RC）
- JSQuAD

多肢選択問題（Mul

もっとみる

sharp_engineer

2024年4月10日 14:09

LLM評価データセット概観

研究開発本部　海老原樹

はじめにこのような記事を書くときは、最近では ChatGPT をはじめとした大規模言語モデル（Large Language Model: LLM) の力を大いに借りています。真面目な評価をしなくても、文章力において私はChatGPTに白旗を挙げています。。。
ただ、どのLLMを使うかを決めるときには、LLMの性能を調べる必要があります。特に自分でLLMを開発するときはLL

もっとみる

npaka

2024年3月2日 11:54

Google AI Studio でつくよみちゃんの会話テキストデータセットによる Gemini のチューニングを試す

「Google AI Studio」で「つくよみちゃんの会話テキストデータセット」による「Gemini」のチューニングを試したので、まとめました。

1. つくよみちゃん会話AI育成計画（会話テキストデータセット配布）今回は、「つくよみちゃん」の「会話テキストデータセット」を使わせてもらいました。「話しかけ」と、つくよみちゃんらしい「お返事」のペアのデータが470個ほど含まれています。

2. デ

もっとみる

株式会社レトリバ

2024年2月29日 11:00

LLMによる疑似学習データ生成

はじめに横浜国立大学大学院理工学府修士2年の藤井巧朗です。8月から株式会社レトリバにインターンとして参加させていただいております。インターンでの成果の第一段として記事「日本語LLMの推論速度検証」を書かせていただきましたので、そちらもよろしければご覧ください。本記事ではインターンでの成果の第二段として「LLMによる疑似学習データ生成」について紹介します。本記事の内容は言語処理学会第30回年次大

もっとみる

TranSynk

2024年2月24日 17:54

【22個掲載】機械学習に使えるスポーツ関連のデータセットまとめ

公開されているスポーツデータの不足は、近代的かつ再現可能な研究やスポーツのデータ分析の妨げにもなってしまいます。貴社のスポーツデータ解析にもお役に立てるよう、今回は機械学習に使える公開データセットをスポーツごとにまとめました。

サッカーのスポーツデータ

サッカーデータベース: サッカーに関する無料のパブリックドメインデータセットおよびスキーマ。どのプログラム言語でも利用可能。

FIFA 19

もっとみる

ウチダマサトシ

2024年2月20日 03:21

Wikipedia日本語データセットの読み込み

日本語LLMの学習にWikipediaの日本語データセットがよく使われているので、使い方を調べてみました。

データセットgraelo/wikipediaを使用Hugging Faceにあるwikipediaデータセットは、なぜか日本語データセットがうまく読めませんでした。
graelo/wikipediaデータセットでは、日本語データセットが読めたので、こちらで確認しました。

データセットを読

もっとみる

ウチダマサトシ

2024年2月19日 03:44

フルスクラッチ事前学習の日本語大規模言語モデルで使われているデータセット

主だったところで

LLM-jp-13B

weblab-10b

PLaMo-13B

Stockmark-13b

Japanese StabeleLM Alpha

の5種類で使われているデータセットについて、まとめました。
とりあえず、mc4とwikipediaはだいたい使われてるようですね。

疑問点wikipediaの日本語データつかってるという記述が、ちょいちょい見られがHuggin

もっとみる

松note

2023年10月22日 23:11

相づちに特化した軽量なLLMを作ってみる #役に立たないLLM

会話するAIキャラクターを作ろうとすると、返答を生成する待ち時間が気になります。気になるはずです。GPT-4はサーバーが重いときはおよそ会話として成立しないほど待つこともあります。

そこで、軽量なローカルLLMにとりあえず相づちだけ打たせて、その間に、性能の良いLLMにちゃんとした返答を生成させれば良いのでは、なんてことを考えてみました。

データセットとして、以下のRosebleuデータセット

もっとみる

フォローしませんか？

#LLM

【論文要約:自動運転関連】WTS: A Pedestrian-Centric Traffic Video Dataset for Fine-grained Spatial-Temporal Understanding

Persona Hubについて

LLMだけでデータセット生成してみよう！Magpie方式でのprompt生成

LLMによる合成データ(Synthetic Data)生成のテクニック

論文メモ: Self-Rewarding Language Models

論文メモ: Beyond Human Data: Scaling Self-Training for Problem-Solving with Language Models

llm-jp-evalの中身を見てみる

LLM評価データセット概観

Google AI Studio でつくよみちゃんの会話テキストデータセットによる Gemini のチューニングを試す

LLMによる疑似学習データ生成

【22個掲載】機械学習に使えるスポーツ関連のデータセットまとめ

Wikipedia日本語データセットの読み込み

フルスクラッチ事前学習の日本語大規模言語モデルで使われているデータセット

相づちに特化した軽量なLLMを作ってみる #役に立たないLLM