人気の記事一覧

誰でも自由に使える日本語の指示データセットを作っています

1か月前

軽量・高速・高性能と三拍子揃った日本語対応のAI(Orion-14B)で指示データセットを自動生成するメモ

2か月前

大規模言語モデルの構築の事前学習に使えそうなデータセット(主に日本語系)の整理メモ

2か月前

LLM評価データセット概観

2週間前

ローカルLLM : 最近作成したデータセットについての記録

3週間前

大規模言語モデルのための合成データセットcosmopediaの中身を確認する

2か月前

社長(AI)に頼んで1万件(10K)の商用利用可能(llama2ライセンス)な日本語マルチターン会話データセットを作ってもらった

3か月前

日本の官公庁にある「よくある質問」をデータセットにまとめました

3か月前

巨大なプログラミング言語データセットThe Stackを少しだけ読み込んで表示するPythonコード

GPTからChatGPTへ:OpenAIの言語モデルの進化の歴史

3日前

日本語Wikipediaのマルチターン会話データセット10万個を作りました

5か月前

データサイエンスの学習を始めるとぶち当たる人種問題の壁

Google Cloud Platformでデータを扱えるようにする(BigQuery)#06

いまさら聞けない!LLMを最適化する鍵、Scaling Law(スケーリング則)徹底解説【学習ソースあり】

大規模言語モデルの事前学習のためのデータセット、トークン数などの目安

2か月前

🌈Adobe、画像生成AIFireflyに他製品のAI生成画像がトレーニングに使われている? アメリカ経済紙のBloombergが報じたそうよ 学習データセットにMidjourneyとかの生成画像が含まれていると報じられているわ ちょっと書ききれないわね

キャリブレーションデータにもっと気を配ろうの話

3か月前

生成AIはなぜ嫌われるのか?

フルスクラッチ事前学習の日本語大規模言語モデルで使われているデータセット

【論文瞬読】マルチタスク言語理解ベンチマークMMLUの元論文を読んでみた

1か月前