- 運営しているクリエイター
#データセット
データがなくても大丈夫!無料で使える学習用データを活用しよう~国内版~
データの可視化やデータ分析を実際に挑戦してみたいけど、手元に使えるデータがない…とお悩みのあなたに朗報です。
実はインターネット上などに誰でも無料で使えるデータセットが公開されており、気軽に実践的な分析を行うことができます。
今回は、特にデータサイエンス初心者におすすめのデータセットをご紹介します。
scikit-learnのiris
まず始めに、Pythonのライブラリ「scikit-l
LLM評価データセット概観
研究開発本部 海老原樹
はじめにこのような記事を書くときは、最近では ChatGPT をはじめとした大規模言語モデル(Large Language Model: LLM) の力を大いに借りています。真面目な評価をしなくても、文章力において私はChatGPTに白旗を挙げています。。。
ただ、どのLLMを使うかを決めるときには、LLMの性能を調べる必要があります。特に自分でLLMを開発するときはLL
誰でも自由に使える日本語の指示データセットを作っています
要点素敵な日本語を話せるAIを作るために、日本語のQ&A/会話データを収集しています。以下のフォームから、誰でも自由に利用できます。日頃生じる疑問や、AIに求める理想的な回答などを投稿ください。
(面倒であれば、「質問」のみを投稿するといった形でも問題ありません。後から誰かが「回答」を考えてくれるかもしれません)
ーーーー
以下、データセットの作り方のコツや、なぜデータを集めるのか?(投稿フォ
AIとARの未来を形作る: AEAデータセットの探索
Metaチームにより開発されたAEAデータセットは、Project Aria AR眼鏡から記録された第一人称の多様なモダリティを持つ開放データセットです。この革新的なリソースは、AIとARの研究に新たな地平を開きます。日常活動のリアルタイムデータを利用して、私たちの周りの世界とのやり取りを再定義する技術の開発を支援します。この記事では、AEAデータセットの潜在的な影響とその利用方法について深く掘り
もっとみる大規模言語モデルのための合成データセットcosmopediaの中身を確認する
はじめにCosmopediaは、2024年2月末に公開された、大規模言語モデル用の合成データセットです。
Mixtral-8x7B-Instruct-v0.1によって自動生成され、25 billion tokensを持つ大規模なソースです。さらに、商用利用も許可されているApache-2.0ライセンスです。
この合成データセットだけを学習した1Bモデルも公開されています。
本記事では、Cos
Hugging FaceのWikipedia英語データセットの比較
Hugging Faceにある次の2つのWikipediaデータセットで英語のWikipediaデータを読み込み比較します。
結論としては、graelo/wikipediaのほうがデータが新しくてデータ数が多いので良さそうです。
データセットを読み込むコードコア部分は次の2行
# データセットの保存先を外付けハードディスクにしているのでchache_dirを指定# wikipediaデータセッ
Wikipedia日本語データセットの読み込み
日本語LLMの学習にWikipediaの日本語データセットがよく使われているので、使い方を調べてみました。
データセットgraelo/wikipediaを使用Hugging Faceにあるwikipediaデータセットは、なぜか日本語データセットがうまく読めませんでした。
graelo/wikipediaデータセットでは、日本語データセットが読めたので、こちらで確認しました。
データセットを読
フルスクラッチ事前学習の日本語大規模言語モデルで使われているデータセット
主だったところで
LLM-jp-13B
weblab-10b
PLaMo-13B
Stockmark-13b
Japanese StabeleLM Alpha
の5種類で使われているデータセットについて、まとめました。
とりあえず、mc4とwikipediaはだいたい使われてるようですね。
疑問点wikipediaの日本語データつかってるという記述が、ちょいちょい見られがHuggin
相づちに特化した軽量なLLMを作ってみる #役に立たないLLM
会話するAIキャラクターを作ろうとすると、返答を生成する待ち時間が気になります。気になるはずです。GPT-4はサーバーが重いときはおよそ会話として成立しないほど待つこともあります。
そこで、軽量なローカルLLMにとりあえず相づちだけ打たせて、その間に、性能の良いLLMにちゃんとした返答を生成させれば良いのでは、なんてことを考えてみました。
データセットとして、以下のRosebleuデータセット
LLMの事前学習で利用されるmC4のデータを確認
はじめにLLMの事前学習で広く使われるデータセットmC4の中身が気になったので確認し記事にしてみました!
ダウンロード方法から一部データの確認までします。
mC4とは?mC4は100以上の言語を含む大規模な言語データセットで、インターネットから収取された膨大なテキストデータセット「Common Crawl」を基にしています。Common Crawlから不要なノイズを取り除く処理はされているものの