日本語LLM の学習に関する技術記事まとめ

npaka

2024年2月23日 16:55

日本語LLM の学習に関する技術記事をまとめました。日本語LLMの開発元の技術記事およびプレゼン資料が中心になります。

2023年

5月9日 wandb - LLMをゼロからトレーニングするためのベストプラクティス

5月22日 LLM-jp - 第1回 LLM勉強会

6月19日 LLM-jp - 第2回 LLM勉強会

7月20日 LLM-jp - 第3回 LLM勉強会

7月23日 Rinna - Japanese MiniGPT-4: rinna 3.6bとBLIP-2を組み合わせてマルチモーダルチャットのモデルを作る

8月18日 LINE - Instruction Tuningにより対話性能を向上させた3.6B日本語言語モデルを公開します

9月4日 LLM-jp - 第4回 LLM勉強会

9月7日 Turing - Build and Play! Your Own V&L Model Equipped with LLM!

9月12日 ELYZA - ELYZAが公開した日本語LLM「ELYZA-japanese-Llama-2-7b」についての解説 : (1) 事前学習編

9月12日 Turing - Introducing “Heron”: A Multilingual, Multimodal Learning Library with 70 Billion LLM

9月20日 Stability AI - Stability AI Japanにおける大規模言語モデルの研究開発

・Stability AI Japanにおける大規模言語モデルの研究開発

9月26日 ELYZA - ELYZAが公開した日本語LLM「ELYZA-japanese-Llama-2-7b」についての解説 : (2) 評価編

9月28日 Preferred Networks - PLaMo-13Bを公開しました

10月3日 wandb - LLMファインチューニングとプロンプトエンジニアリングのベストプラクティス

10月17日 Turing - 完全自動運転にLLMは必要か？

10月18日 LLM-jp - 第5回 LLM勉強会

11月7日 Preferred Networks - 指示学習済み大規模言語モデル PLaMo-13B-Instruct を公開しました

11月10日 Stability AI - LLMの開発は難しい？簡単？Stability AIの現場から

・LLMの開発は難しい？簡単？Stability AIの現場から

11月29日 LLM-jp - 第6回 LLM勉強会

12月4日 Shisa - A Review of Public Japanese Training Sets

・A Review of Public Japanese Training Sets

12月19日 Swallow: LLaMA-2 日本語継続事前学習モデル

2024年

1月16日 ELYZA - ELYZAが公開した日本語LLM「ELYZA-japanese-Llama-2-7b」についての解説 : (3) 英語での性能評価編

1月22日 LLM-jp - 第7回 LLM勉強会

1月25日 ELYZA - オープンなLLM (大規模言語モデル) の発展と、それを活かした日本語LLMの開発について

・JAIST-SO_seminar_202403_2.pdf

2月2日 KARAKURI - KARAKURI LM の解説

2月8日 Swallow - 東工大Swallowプロジェクトにおける大規模日本語Webコーパスの構築

・東工大Swallowプロジェクトにおける大規模日本語Webコーパスの構築

2月9日 LLM-jp v1.1 チューニング済みモデル・データ公開

2月22日大規模言語モデルを作る、拡張する

・大規模言語モデルを作る、拡張する

2月25日 μTransfer: 小規模モデルでのハイパラ探索を大規模モデルに転移し学習を効率化する

3月6日 Turing - 日本語Vision Languageモデル heron-blip-v1の公開

3月11日 Swallow-MS: Mistral日本語継続事前学習モデル

3月11日 Swallow-MX: Mixtral日本語継続事前学習MoEモデル

3月11日作って学ぶ日本語大規模言語モデル

・作って学ぶ日本語大規模言語モデル

3月12日 ELYZA - 700億パラメータの日本語LLM「ELYZA-japanese-Llama-2-70b」を開発し、デモを公開しました

3月12日松尾研LLM開発プロジェクトのキックオフを開催しました。

3月21日 sakana.ai - 進化的アルゴリズムによる基盤モデルの構築

3月22日 Karasu - How to train a Karasu

3月26日 LLM-jp - 第8回 LLM勉強会

3月28日大規模言語モデル開発のための日本語 Instruction データセット作成の取り組み

・大規模言語モデル開発のための日本語 Instruction データセット作成の取り組み

3月29日 Cotomo - おしゃべりAI「Cotomo」　自然な会話はどう実現？　創業者に聞く

3月29日 LLMの現在

・LLMの現在

4月1日 LOCAL AI HACKATHON #000

・LOCAL AI HACKATHON #001

4月8日 Physics of Language Models: Part 3.3, Knowledge Capacity Scaling Laws

LLMはパラメータ一つあたり2bitの情報を様々な後続タスクに利用可能な形で格納できる。他の結果も含めべき乗則の論文以来の重要な結果と思う。人工的に三つ組（名前/属性/値）のデータを設計し様々な規模、アーキテクチャで検証。7Bモデルでもwikipediaと全教科書情報は全て覚えられる。…
— Daisuke Okanohara / 岡野原大輔 (@hillbig) April 14, 2024

4月10日 wandb - 大規模言語モデル（LLM）評価のベストプラクティス

4月10日日本語LLM 9種を量子化して回答内容を比較調査してみた

4月15日 Turing - Heron-Bench: 日本語Vision＆Languageモデルの性能評価ベンチマークの公開

4月15日饒舌な日本語ローカルLLM【Japanese-Starling-ChatV-7B】を公開しました

4月17日 Sakana AI - Evolutionary Optimization ofModel Merging Recipes

・Evolutionary Optimization ofModel Merging Recipes

4月17日 ChatVectorで新モデル作って評価して遊ぶヤツ、自分もやりたい

4月20日 llama.cpp：iMatrix量子化は日本語性能にどう影響するか？

4月22日 LLMプロダクト開発における独自評価基準とデータセットの作り方の考察

4月24日 LEIA: 言語間転移学習でLLMを賢くする新しい方法

4月27日 Mergekit-Evolve登場！進化的アルゴリズムで手元のLLMを最強進化させよう！

5月1日 LOCAL AI HACKATHON #001

・LOCAL AI HACKATHON #001

5月6日 LLMによるLLMの評価とその評価の評価について

5月7日 Common Crawlから作る大規模日本語コーパスとその前処理（Mixtral 8x7Bを語彙拡張継続事前学習 Part2）

5月13日 LLM評価の落とし穴~開発者目線で気をつけるポイント~

・LLM評価の落とし穴~開発者目線で気をつけるポイント~

5月21日 AWS TrainiumでMoEを学習する

5月22日 Team「たぬき」開発振り返りメモ

5月28日 LLM-jp - 第9回 LLM勉強会

5月28日 LLMによる合成データ(Synthetic Data)生成のテクニック

5月30日 ELYZA - ELYZA LLM for JP (デモ版)についての解説: (1) 70Bモデルの推論基盤

5月30日 Swallow - 大規模言語モデルの開発

・大規模言語モデルの開発

5月31日 Team 甲(きのえ) そして、やり直しへ

6月6日 LLMにまつわる"評価"を整理する

6月14日 PLaMo - 1,000億パラメータ規模の独自LLM「PLaMo-100B」の事前学習

6月26日 Sarashina - 大規模な日本語の事前学習言語モデルSarashina1・2の公開

7月1日 Swallow - Llama-3-Swallow: 日本語に強い継続事前学習モデル

7月2日 Google Cloud: HPC Toolkitにて大規模深層学習環境を整備する

7月6日松尾研LLM開発チームZoo(三内チーム)におけるコーパス構築

7月6日 LLM学習データのキュレーションに関する取り組みまとめ【松尾研 GENIAC Team天元突破】

7月7日 GENIAC: 172B 事前学習知見

7月8日時間とリソースの制約下での前処理：事前学習用データセットの構築方法

7月8日 100万件超えデータセットでのInstruction-Tuning ~より良い出力を求めて~

7月8日【Team 天元突破】モデルチームの活動内容について

この記事が気に入ったらサポートをしてみませんか？

日本語LLM の学習に関する技術記事まとめ

2023年

5月9日 wandb - LLMをゼロからトレーニングするためのベストプラクティス

5月22日 LLM-jp - 第1回 LLM勉強会

6月19日 LLM-jp - 第2回 LLM勉強会

7月20日 LLM-jp - 第3回 LLM勉強会

7月23日 Rinna - Japanese MiniGPT-4: rinna 3.6bとBLIP-2を組み合わせてマルチモーダルチャットのモデルを作る

8月18日 LINE - Instruction Tuningにより対話性能を向上させた3.6B日本語言語モデルを公開します

9月4日 LLM-jp - 第4回 LLM勉強会

9月7日 Turing - Build and Play! Your Own V&L Model Equipped with LLM!

9月12日 ELYZA - ELYZAが公開した日本語LLM「ELYZA-japanese-Llama-2-7b」についての解説 : (1) 事前学習編

9月12日 Turing - Introducing “Heron”: A Multilingual, Multimodal Learning Library with 70 Billion LLM

9月20日 Stability AI - Stability AI Japanにおける大規模言語モデルの研究開発

9月26日 ELYZA - ELYZAが公開した日本語LLM「ELYZA-japanese-Llama-2-7b」についての解説 : (2) 評価編

9月28日 Preferred Networks - PLaMo-13Bを公開しました

10月3日 wandb - LLMファインチューニングとプロンプトエンジニアリングのベストプラクティス

10月17日 Turing - 完全自動運転にLLMは必要か？

10月18日 LLM-jp - 第5回 LLM勉強会

11月7日 Preferred Networks - 指示学習済み大規模言語モデル PLaMo-13B-Instruct を公開しました

11月10日 Stability AI - LLMの開発は難しい？簡単？Stability AIの現場から

11月29日 LLM-jp - 第6回 LLM勉強会

12月4日 Shisa - A Review of Public Japanese Training Sets

12月19日 Swallow: LLaMA-2 日本語継続事前学習モデル

2024年

1月16日 ELYZA - ELYZAが公開した日本語LLM「ELYZA-japanese-Llama-2-7b」についての解説 : (3) 英語での性能評価編

1月22日 LLM-jp - 第7回 LLM勉強会

1月25日 ELYZA - オープンなLLM (大規模言語モデル) の発展と、 それを活かした日本語LLMの開発について

2月2日 KARAKURI - KARAKURI LM の解説

2月8日 Swallow - 東工大Swallowプロジェクトにおける大規模日本語Webコーパスの構築

2月9日 LLM-jp v1.1 チューニング済みモデル・データ公開

2月22日 大規模言語モデルを作る、拡張する

2月25日 μTransfer: 小規模モデルでのハイパラ探索を大規模モデルに転移し学習を効率化する

3月6日 Turing - 日本語Vision Languageモデル heron-blip-v1の公開

3月11日 Swallow-MS: Mistral日本語継続事前学習モデル

3月11日 Swallow-MX: Mixtral日本語継続事前学習MoEモデル

3月11日 作って学ぶ日本語大規模言語モデル

3月12日 ELYZA - 700億パラメータの日本語LLM「ELYZA-japanese-Llama-2-70b」を開発し、デモを公開しました

3月12日 松尾研LLM開発プロジェクトのキックオフを開催しました。

3月21日 sakana.ai - 進化的アルゴリズムによる基盤モデルの構築

3月22日 Karasu - How to train a Karasu

3月26日 LLM-jp - 第8回 LLM勉強会

3月28日 大規模言語モデル開発のための日本語 Instruction データセット作成の取り組み

3月29日 Cotomo - おしゃべりAI「Cotomo」 自然な会話はどう実現？ 創業者に聞く

3月29日 LLMの現在

4月1日 LOCAL AI HACKATHON #000

4月8日 Physics of Language Models: Part 3.3, Knowledge Capacity Scaling Laws

4月10日 wandb - 大規模言語モデル（LLM）評価のベストプラクティス

4月10日 日本語LLM 9種を量子化して回答内容を比較調査してみた

4月15日 Turing - Heron-Bench: 日本語Vision＆Languageモデルの性能評価ベンチマークの公開

4月15日 饒舌な日本語ローカルLLM【Japanese-Starling-ChatV-7B】を公開しました

4月17日 Sakana AI - Evolutionary Optimization ofModel Merging Recipes

4月17日 ChatVectorで新モデル作って評価して遊ぶヤツ、自分もやりたい

4月20日 llama.cpp：iMatrix量子化は日本語性能にどう影響するか？

4月22日 LLMプロダクト開発における独自評価基準とデータセットの作り方の考察

4月24日 LEIA: 言語間転移学習でLLMを賢くする新しい方法

4月27日 Mergekit-Evolve登場！進化的アルゴリズムで手元のLLMを最強進化させよう！

5月1日 LOCAL AI HACKATHON #001

5月6日 LLMによるLLMの評価とその評価の評価について

5月7日 Common Crawlから作る大規模日本語コーパスとその前処理（Mixtral 8x7Bを語彙拡張継続事前学習 Part2）

5月13日 LLM評価の落とし穴~開発者目線で気をつけるポイント~

5月21日 AWS TrainiumでMoEを学習する

5月22日 Team「たぬき」開発振り返りメモ

5月28日 LLM-jp - 第9回 LLM勉強会

5月28日 LLMによる合成データ(Synthetic Data)生成のテクニック

5月30日 ELYZA - ELYZA LLM for JP (デモ版)についての解説: (1) 70Bモデルの推論基盤

5月30日 Swallow - 大規模言語モデルの開発

5月31日 Team 甲(きのえ) そして、やり直しへ

6月6日 LLMにまつわる"評価"を整理する

6月14日 PLaMo - 1,000億パラメータ規模の独自LLM「PLaMo-100B」の事前学習

6月26日 Sarashina - 大規模な日本語の事前学習言語モデルSarashina1・2の公開

7月1日 Swallow - Llama-3-Swallow: 日本語に強い継続事前学習モデル

7月2日 Google Cloud: HPC Toolkitにて大規模深層学習環境を整備する

7月6日 松尾研LLM開発 チームZoo(三内チーム)におけるコーパス構築

7月6日 LLM学習データのキュレーションに関する取り組みまとめ【松尾研 GENIAC Team天元突破】

7月7日 GENIAC: 172B 事前学習知見

7月8日 100万件超えデータセットでのInstruction-Tuning ~より良い出力を求めて~

7月8日 【Team 天元突破】モデルチームの活動内容について

1月25日 ELYZA - オープンなLLM (大規模言語モデル) の発展と、それを活かした日本語LLMの開発について

2月22日大規模言語モデルを作る、拡張する

3月11日作って学ぶ日本語大規模言語モデル

3月12日松尾研LLM開発プロジェクトのキックオフを開催しました。

3月28日大規模言語モデル開発のための日本語 Instruction データセット作成の取り組み

3月29日 Cotomo - おしゃべりAI「Cotomo」　自然な会話はどう実現？　創業者に聞く

4月10日日本語LLM 9種を量子化して回答内容を比較調査してみた

4月15日饒舌な日本語ローカルLLM【Japanese-Starling-ChatV-7B】を公開しました

7月6日松尾研LLM開発チームZoo(三内チーム)におけるコーパス構築

7月8日【Team 天元突破】モデルチームの活動内容について