マガジンのカバー画像

Data

51
運営しているクリエイター

記事一覧

【論文要約:自動運転関連】WTS: A Pedestrian-Centric Traffic Video Dataset for Fine-grained Spatial-Temporal Understanding

【論文要約:自動運転関連】WTS: A Pedestrian-Centric Traffic Video Dataset for Fine-grained Spatial-Temporal Understanding

自動運転に関連する論文の要約をしています。
論文へのリンク:https://arxiv.org/abs/2407.15350

1. タイトル

原題: WTS: A Pedestrian-Centric Traffic Video Dataset for Fine-grained Spatial-Temporal Understanding
和訳: WTS: 詳細な時空間理解のための歩行者中心の

もっとみる
Persona Hubについて

Persona Hubについて

少し前に中国のTencentのチームが発表したPersona Hub(テクニカルレポート)について書いてみたいと思います。

Persona Hubは、ウェブデータを活用して膨大なペルソナ(「〇〇の専門家」みたいな人格・属性を表す短文)を生成したデータセットです。

具体的にどうやって生成しているかは示されていないようですが、ペルソナからさらに別のペルソナを生成することで、ペルソナの多様性を増やし

もっとみる
データがなくても大丈夫!無料で使える学習用データを活用しよう~国内版~

データがなくても大丈夫!無料で使える学習用データを活用しよう~国内版~

データの可視化やデータ分析を実際に挑戦してみたいけど、手元に使えるデータがない…とお悩みのあなたに朗報です。

実はインターネット上などに誰でも無料で使えるデータセットが公開されており、気軽に実践的な分析を行うことができます。

今回は、特にデータサイエンス初心者におすすめのデータセットをご紹介します。

scikit-learnのiris

まず始めに、Pythonのライブラリ「scikit-l

もっとみる

LLMだけでデータセット生成してみよう!Magpie方式でのprompt生成

こんにちは、クロガネです。
タイトルの通り、完全にLLMのみを使用したデータセット作成を行います。

以下の論文に基づいて進め行きます。
[2406.08464] Magpie: Alignment Data Synthesis from Scratch by Prompting Aligned LLMs with Nothing (arxiv.org)
本当にそんなに簡単にデータセット生成ができ

もっとみる

埋め込みモデル学習と評価ための4つのクラスタリングデータセットの公開

埋め込みモデルの学習と評価のために、有価証券報告書、法律、輸出入貨物の関税分類、医療機器の類別の4つの異なるドメインからデータを収集し、クラスタリングデータセットとして整形、公開しました。

背景私は主にRAG目的で埋め込みモデルを調べていたため、クラスタリングタスクは触っていませんでしたが、最近、SFR-Embeddingの記事にクラスタリングタスクの訓練で検索タスクも性能向上するという記述を目

もっとみる
デルタもんLoRAの正式版を公開します。

デルタもんLoRAの正式版を公開します。

こんにちは、BlendAI運営です。

デルタもんLoRAの正式版を公開しました。 以下からダウンロード可能です。

booth (学習データセット付き)
https://blendai.booth.pm/items/5801621

civitai (LoRAのみ)
https://civitai.com/models/492694

デルタもん公式LoRA version1.0の特徴についてご

もっとみる
LLMによる合成データ(Synthetic Data)生成のテクニック

LLMによる合成データ(Synthetic Data)生成のテクニック

私は最近、LLMによるSynthetic data(合成データ)生成を試しています。手法について色々調べたり試したことをまとめておこうと思います。
個別の論文の詳細については他の方の記事や私の過去記事でまとめたりしてあるので、どちらかというと合成データ生成における方向性にどんなものがあるのかという観点で紹介したいと思います。

概要LLMによる合成データ生成には、その使い道から以下の2つの種類があ

もっとみる
論文メモ: Self-Rewarding Language Models

論文メモ: Self-Rewarding Language Models

私は最近、LLMによるSynthetic data(合成データ)生成を試しています。手法について色々調べているので論文等忘れないようにこの場にメモを残していきたいと思います。
基本的に、『Synthetic dataをどう作るか』によったメモとなるので、その論文中の結果等は書かなかったりすると思います。
また、内容には私、GPT、Claudeの見解を含みます。

1. 今回の論文今回は以下の論文を

もっとみる
論文メモ: Beyond Human Data: Scaling Self-Training for Problem-Solving with Language Models

論文メモ: Beyond Human Data: Scaling Self-Training for Problem-Solving with Language Models

私は最近、LLMによるSynthetic data(合成データ)生成を試しています。手法について色々調べているので論文等忘れないようにこの場にメモを残していきたいと思います。
基本的に、『Synthetic dataをどう作るか』によったメモとなるので、その論文中の結果等は書かなかったりすると思います。
また、内容には私、GPT、Claudeの見解を含みます。

1. 今回の論文今回は以下の論文を

もっとみる
llm-jp-evalの中身を見てみる

llm-jp-evalの中身を見てみる

llm-jp-evalが対応している8つのカテゴリ

自然言語推論(Natural Language Inference, NLI)
- Jamp, JaNLI, JNLI, JSeM, JSICK

質問応答(Question Answering, QA)
- JEMHopQA, NIILC

読解力(Reading Comprehension, RC)
- JSQuAD

多肢選択問題(Mul

もっとみる
JAT (Jack of All Trades) の概要

JAT (Jack of All Trades) の概要

以下の記事が面白かったので、簡単にまとめました。

1. JAT (Jack of All Trades)「JAT」 (Jack of All Trades) は、ジェネラリストエージェントの推進を目的とするプロジェクトです。このプロジェクトは、視覚と言語 (vision-and-language) のタスクと意思決定 (decision-making) のタスクの両方を実行できるTransfor

もっとみる

400GB程度の清掃済み日本語コーパスを作るまでのメモ書き



はじめに最近は大規模言語モデルを作っています。

来週から始まる学習に向け、400GBほどの日本語コーパスをチームで作成しました。今後、きちんとした作業記録を書ければと思いますので、直近では、かなり立て込んでおりますので、備忘録も含めて、構築経緯などを軽くメモしていきます。

スライド、コード、データなどスライドはこちら

コードはこちら(工事中の箇所がちょくちょくあります)

データは、プロ

もっとみる
LLM評価データセット概観

LLM評価データセット概観

研究開発本部 海老原樹

はじめにこのような記事を書くときは、最近では ChatGPT をはじめとした大規模言語モデル(Large Language Model: LLM) の力を大いに借りています。真面目な評価をしなくても、文章力において私はChatGPTに白旗を挙げています。。。
ただ、どのLLMを使うかを決めるときには、LLMの性能を調べる必要があります。特に自分でLLMを開発するときはLL

もっとみる

CommonCrawl PDFを漁る練習


はじめに最近は大規模言語モデルを作っています。

データソースとして、ネット上のhtmlデータを収集したCommonCrawlは有名です。

しかし、htmlから抜き出したテキストは、あまり品質が高くないケースが多いです。
また、html版は多くの方が取り組んでおり、意外と日本語のテキストは枯渇気味です。

そこで今回は、CommonCrawlのPDF版を解析してみます。

コード一式(3/21

もっとみる