記事一覧
【論文要約:自動運転関連】WTS: A Pedestrian-Centric Traffic Video Dataset for Fine-grained Spatial-Temporal Understanding
自動運転に関連する論文の要約をしています。
論文へのリンク:https://arxiv.org/abs/2407.15350
1. タイトル
原題: WTS: A Pedestrian-Centric Traffic Video Dataset for Fine-grained Spatial-Temporal Understanding
和訳: WTS: 詳細な時空間理解のための歩行者中心の
Persona Hubについて
少し前に中国のTencentのチームが発表したPersona Hub(テクニカルレポート)について書いてみたいと思います。
Persona Hubは、ウェブデータを活用して膨大なペルソナ(「〇〇の専門家」みたいな人格・属性を表す短文)を生成したデータセットです。
具体的にどうやって生成しているかは示されていないようですが、ペルソナからさらに別のペルソナを生成することで、ペルソナの多様性を増やし
データがなくても大丈夫!無料で使える学習用データを活用しよう~国内版~
データの可視化やデータ分析を実際に挑戦してみたいけど、手元に使えるデータがない…とお悩みのあなたに朗報です。
実はインターネット上などに誰でも無料で使えるデータセットが公開されており、気軽に実践的な分析を行うことができます。
今回は、特にデータサイエンス初心者におすすめのデータセットをご紹介します。
scikit-learnのiris
まず始めに、Pythonのライブラリ「scikit-l
埋め込みモデル学習と評価ための4つのクラスタリングデータセットの公開
埋め込みモデルの学習と評価のために、有価証券報告書、法律、輸出入貨物の関税分類、医療機器の類別の4つの異なるドメインからデータを収集し、クラスタリングデータセットとして整形、公開しました。
背景私は主にRAG目的で埋め込みモデルを調べていたため、クラスタリングタスクは触っていませんでしたが、最近、SFR-Embeddingの記事にクラスタリングタスクの訓練で検索タスクも性能向上するという記述を目
デルタもんLoRAの正式版を公開します。
こんにちは、BlendAI運営です。
デルタもんLoRAの正式版を公開しました。 以下からダウンロード可能です。
booth (学習データセット付き)
https://blendai.booth.pm/items/5801621
civitai (LoRAのみ)
https://civitai.com/models/492694
デルタもん公式LoRA version1.0の特徴についてご
LLMによる合成データ(Synthetic Data)生成のテクニック
私は最近、LLMによるSynthetic data(合成データ)生成を試しています。手法について色々調べたり試したことをまとめておこうと思います。
個別の論文の詳細については他の方の記事や私の過去記事でまとめたりしてあるので、どちらかというと合成データ生成における方向性にどんなものがあるのかという観点で紹介したいと思います。
概要LLMによる合成データ生成には、その使い道から以下の2つの種類があ
論文メモ: Self-Rewarding Language Models
私は最近、LLMによるSynthetic data(合成データ)生成を試しています。手法について色々調べているので論文等忘れないようにこの場にメモを残していきたいと思います。
基本的に、『Synthetic dataをどう作るか』によったメモとなるので、その論文中の結果等は書かなかったりすると思います。
また、内容には私、GPT、Claudeの見解を含みます。
1. 今回の論文今回は以下の論文を
論文メモ: Beyond Human Data: Scaling Self-Training for Problem-Solving with Language Models
私は最近、LLMによるSynthetic data(合成データ)生成を試しています。手法について色々調べているので論文等忘れないようにこの場にメモを残していきたいと思います。
基本的に、『Synthetic dataをどう作るか』によったメモとなるので、その論文中の結果等は書かなかったりすると思います。
また、内容には私、GPT、Claudeの見解を含みます。
1. 今回の論文今回は以下の論文を
400GB程度の清掃済み日本語コーパスを作るまでのメモ書き
はじめに最近は大規模言語モデルを作っています。
来週から始まる学習に向け、400GBほどの日本語コーパスをチームで作成しました。今後、きちんとした作業記録を書ければと思いますので、直近では、かなり立て込んでおりますので、備忘録も含めて、構築経緯などを軽くメモしていきます。
スライド、コード、データなどスライドはこちら
コードはこちら(工事中の箇所がちょくちょくあります)
データは、プロ
LLM評価データセット概観
研究開発本部 海老原樹
はじめにこのような記事を書くときは、最近では ChatGPT をはじめとした大規模言語モデル(Large Language Model: LLM) の力を大いに借りています。真面目な評価をしなくても、文章力において私はChatGPTに白旗を挙げています。。。
ただ、どのLLMを使うかを決めるときには、LLMの性能を調べる必要があります。特に自分でLLMを開発するときはLL
CommonCrawl PDFを漁る練習
はじめに最近は大規模言語モデルを作っています。
データソースとして、ネット上のhtmlデータを収集したCommonCrawlは有名です。
しかし、htmlから抜き出したテキストは、あまり品質が高くないケースが多いです。
また、html版は多くの方が取り組んでおり、意外と日本語のテキストは枯渇気味です。
そこで今回は、CommonCrawlのPDF版を解析してみます。
コード一式(3/21