日本語LLM の学習に関する技術記事まとめ
日本語LLM の学習に関する技術記事をまとめました。日本語LLMの開発元の技術記事およびプレゼン資料が中心になります。
2023年
5月9日 wandb - LLMをゼロからトレーニングするためのベストプラクティス
5月22日 LLM-jp - 第1回 LLM勉強会
6月19日 LLM-jp - 第2回 LLM勉強会
7月20日 LLM-jp - 第3回 LLM勉強会
7月23日 Rinna - Japanese MiniGPT-4: rinna 3.6bとBLIP-2を組み合わせてマルチモーダルチャットのモデルを作る
8月18日 LINE - Instruction Tuningにより対話性能を向上させた3.6B日本語言語モデルを公開します
9月4日 LLM-jp - 第4回 LLM勉強会
9月7日 Turing - Build and Play! Your Own V&L Model Equipped with LLM!
9月12日 ELYZA - ELYZAが公開した日本語LLM「ELYZA-japanese-Llama-2-7b」についての解説 : (1) 事前学習編
9月12日 Turing - Introducing “Heron”: A Multilingual, Multimodal Learning Library with 70 Billion LLM
9月20日 Stability AI - Stability AI Japanにおける大規模言語モデルの研究開発
9月26日 ELYZA - ELYZAが公開した日本語LLM「ELYZA-japanese-Llama-2-7b」についての解説 : (2) 評価編
9月28日 PFN - PLaMo-13Bを公開しました
10月3日 wandb - LLMファインチューニングとプロンプトエンジニアリングのベストプラクティス
10月17日 Turing - 完全自動運転にLLMは必要か?
10月18日 LLM-jp - 第5回 LLM勉強会
11月7日 PFN - 指示学習済み大規模言語モデル PLaMo-13B-Instruct を公開しました
11月10日 Stability AI - LLMの開発は難しい?簡単?Stability AIの現場から
11月29日 LLM-jp - 第6回 LLM勉強会
12月4日 Shisa - A Review of Public Japanese Training Sets
12月19日 Swallow: LLaMA-2 日本語継続事前学習モデル
2024年
1月16日 ELYZA - ELYZAが公開した日本語LLM「ELYZA-japanese-Llama-2-7b」についての解説 : (3) 英語での性能評価編
1月22日 LLM-jp - 第7回 LLM勉強会
1月25日 ELYZA - オープンなLLM (大規模言語モデル) の発展と、 それを活かした日本語LLMの開発について
2月2日 KARAKURI - KARAKURI LM の解説
2月8日 Swallow - 東工大Swallowプロジェクトにおける大規模日本語Webコーパスの構築
2月9日 LLM-jp v1.1 チューニング済みモデル・データ公開
2月22日 大規模言語モデルを作る、拡張する
2月25日 μTransfer: 小規模モデルでのハイパラ探索を大規模モデルに転移し学習を効率化する
3月6日 Turing - 日本語Vision Languageモデル heron-blip-v1の公開
3月11日 Swallow-MS: Mistral日本語継続事前学習モデル
3月11日 Swallow-MX: Mixtral日本語継続事前学習MoEモデル
3月11日 作って学ぶ日本語大規模言語モデル
3月12日 ELYZA - 700億パラメータの日本語LLM「ELYZA-japanese-Llama-2-70b」を開発し、デモを公開しました
3月12日 松尾研LLM開発プロジェクトのキックオフを開催しました。
3月21日 sakana.ai - 進化的アルゴリズムによる基盤モデルの構築
3月22日 Karasu - How to train a Karasu
3月26日 LLM-jp - 第8回 LLM勉強会
3月28日 大規模言語モデル開発のための日本語 Instruction データセット作成の取り組み
3月29日 Cotomo - おしゃべりAI「Cotomo」 自然な会話はどう実現? 創業者に聞く
3月29日 LLMの現在
4月1日 LOCAL AI HACKATHON #000
4月8日 Physics of Language Models: Part 3.3, Knowledge Capacity Scaling Laws
4月10日 wandb - 大規模言語モデル(LLM)評価のベストプラクティス
4月10日 日本語LLM 9種を量子化して回答内容を比較調査してみた
4月15日 Turing - Heron-Bench: 日本語Vision&Languageモデルの性能評価ベンチマークの公開
4月15日 饒舌な日本語ローカルLLM【Japanese-Starling-ChatV-7B】を公開しました
4月17日 Sakana AI - Evolutionary Optimization ofModel Merging Recipes
4月17日 ChatVectorで新モデル作って評価して遊ぶヤツ、自分もやりたい
4月20日 llama.cpp:iMatrix量子化は日本語性能にどう影響するか?
4月22日 LLMプロダクト開発における独自評価基準とデータセットの作り方の考察
4月24日 LEIA: 言語間転移学習でLLMを賢くする新しい方法
4月27日 Mergekit-Evolve登場!進化的アルゴリズムで手元のLLMを最強進化させよう!
5月1日 LOCAL AI HACKATHON #001
5月6日 LLMによるLLMの評価とその評価の評価について
5月7日 Common Crawlから作る大規模日本語コーパスとその前処理(Mixtral 8x7Bを語彙拡張継続事前学習 Part2)
5月13日 LLM評価の落とし穴~開発者目線で気をつけるポイント~
5月21日 KARAKURI - AWS TrainiumでMoEを学習する
5月22日 Tanuki - Team「たぬき」開発振り返りメモ
5月28日 LLM-jp - 第9回 LLM勉強会
5月28日 LLMによる合成データ(Synthetic Data)生成のテクニック
5月30日 ELYZA - ELYZA LLM for JP (デモ版)についての解説: (1) 70Bモデルの推論基盤
5月30日 Swallow - 大規模言語モデルの開発
5月31日 Team 甲(きのえ) そして、やり直しへ
6月6日 LLMにまつわる"評価"を整理する
6月14日 PFN - 1,000億パラメータ規模の独自LLM「PLaMo-100B」の事前学習
6月25日 LLM-jp - 第10回 LLM勉強会
6月26日 Sarashina - 大規模な日本語の事前学習言語モデルSarashina1・2の公開
7月1日 Swallow - Llama-3-Swallow: 日本語に強い継続事前学習モデル
7月2日 Google Cloud: HPC Toolkitにて大規模深層学習環境を整備する
7月6日 松尾研LLM開発 チームZoo(三内チーム)におけるコーパス構築
7月6日 LLM学習データのキュレーションに関する取り組みまとめ【松尾研 GENIAC Team天元突破】
7月7日 GENIAC: 172B 事前学習知見
7月8日 時間とリソースの制約下での前処理:事前学習用データセットの構築方法
7月8日 100万件超えデータセットでのInstruction-Tuning ~より良い出力を求めて~
7月8日 【Team 天元突破】モデルチームの活動内容について
7月17日 PFN - 医療・ヘルスケア領域における大規模言語モデルの構築に向けて
7月19日 PFN - PFEの開発したLLMのPLaMo-100Bを用いた金融ベンチマーク評価と結果の分析
7月25日 中国における生成AI業界の現状と展望
7月26日 GPU最適化
7月30日 LLM-jp - 第11回 LLM勉強会
7月31日 WizardLM-2の開発方法: Auto Evol-Instruct
8月7日 PFN - 1,000億パラメータの独自LLM「PLaMo-100B」の事後学習が完了
8月20日 PFN - 1兆 (1T) パラメータ規模のLLMの事前学習検証
8月22日 中国AI産業の最新動向及び日本企業への示唆
8月30日 LLM を現場で評価する
8月30日 Tanuki - 大規模言語モデルTanuki-8B, 8x8Bの位置づけや開発指針など
8月31日 - LLMに日本語テキストを学習させる意義
9月2日 ELYZA - 「ELYZA-japanese-Llama-2-70b」開発における、大規模モデル学習ノウハウの解説
9月2日 Tanuki - Team Tanuki Phase2 - Tanuki-8B, 8x8B 開発の経緯
9月4日 Tanuki - MoEモデルのアクティブパラメータ数の厳密な計算方法について
9月10日 Tanuki - 大規模言語モデル Tanuki-8x8Bの紹介と開発経緯など
この記事が気に入ったらサポートをしてみませんか?