日本語LLM の学習に関する技術記事まとめ

npaka

2024年2月23日 16:55

日本語LLM の学習に関する技術記事をまとめました。日本語LLMの開発元の技術記事およびプレゼン資料が中心になります。

2023年

5月9日 wandb - LLMをゼロからトレーニングするためのベストプラクティス

5月22日 LLM-jp - 第1回 LLM勉強会

6月19日 LLM-jp - 第2回 LLM勉強会

7月20日 LLM-jp - 第3回 LLM勉強会

7月23日 Rinna - Japanese MiniGPT-4: rinna 3.6bとBLIP-2を組み合わせてマルチモーダルチャットのモデルを作る

8月18日 LINE - Instruction Tuningにより対話性能を向上させた3.6B日本語言語モデルを公開します

9月4日 LLM-jp - 第4回 LLM勉強会

9月7日 Turing - Build and Play! Your Own V&L Model Equipped with LLM!

9月12日 ELYZA - ELYZAが公開した日本語LLM「ELYZA-japanese-Llama-2-7b」についての解説 : (1) 事前学習編

9月12日 Turing - Introducing “Heron”: A Multilingual, Multimodal Learning Library with 70 Billion LLM

9月20日 Stability AI - Stability AI Japanにおける大規模言語モデルの研究開発

・Stability AI Japanにおける大規模言語モデルの研究開発

9月26日 ELYZA - ELYZAが公開した日本語LLM「ELYZA-japanese-Llama-2-7b」についての解説 : (2) 評価編

9月28日 PFN - PLaMo-13Bを公開しました

10月3日 wandb - LLMファインチューニングとプロンプトエンジニアリングのベストプラクティス

10月17日 Turing - 完全自動運転にLLMは必要か？

10月18日 LLM-jp - 第5回 LLM勉強会

11月7日 PFN - 指示学習済み大規模言語モデル PLaMo-13B-Instruct を公開しました

11月10日 Stability AI - LLMの開発は難しい？簡単？Stability AIの現場から

・LLMの開発は難しい？簡単？Stability AIの現場から

11月29日 LLM-jp - 第6回 LLM勉強会

12月4日 Shisa - A Review of Public Japanese Training Sets

・A Review of Public Japanese Training Sets

12月19日 Swallow: LLaMA-2 日本語継続事前学習モデル

2024年

1月16日 ELYZA - ELYZAが公開した日本語LLM「ELYZA-japanese-Llama-2-7b」についての解説 : (3) 英語での性能評価編

1月22日 LLM-jp - 第7回 LLM勉強会

1月25日 ELYZA - オープンなLLM (大規模言語モデル) の発展と、それを活かした日本語LLMの開発について

・JAIST-SO_seminar_202403_2.pdf

2月2日 KARAKURI - KARAKURI LM の解説

2月8日 Swallow - 東工大Swallowプロジェクトにおける大規模日本語Webコーパスの構築

・東工大Swallowプロジェクトにおける大規模日本語Webコーパスの構築

2月9日 LLM-jp v1.1 チューニング済みモデル・データ公開

2月22日大規模言語モデルを作る、拡張する

・大規模言語モデルを作る、拡張する

2月25日 μTransfer: 小規模モデルでのハイパラ探索を大規模モデルに転移し学習を効率化する

3月6日 Turing - 日本語Vision Languageモデル heron-blip-v1の公開

3月11日 Swallow-MS: Mistral日本語継続事前学習モデル

3月11日 Swallow-MX: Mixtral日本語継続事前学習MoEモデル

3月11日作って学ぶ日本語大規模言語モデル

・作って学ぶ日本語大規模言語モデル

3月12日 ELYZA - 700億パラメータの日本語LLM「ELYZA-japanese-Llama-2-70b」を開発し、デモを公開しました

3月12日松尾研LLM開発プロジェクトのキックオフを開催しました。

3月21日 sakana.ai - 進化的アルゴリズムによる基盤モデルの構築

3月22日 Karasu - How to train a Karasu

3月26日 LLM-jp - 第8回 LLM勉強会

3月28日大規模言語モデル開発のための日本語 Instruction データセット作成の取り組み

・大規模言語モデル開発のための日本語 Instruction データセット作成の取り組み

3月29日 Cotomo - おしゃべりAI「Cotomo」　自然な会話はどう実現？　創業者に聞く

3月29日 LLMの現在

・LLMの現在

4月1日 LOCAL AI HACKATHON #000

・LOCAL AI HACKATHON #001

4月8日 Physics of Language Models: Part 3.3, Knowledge Capacity Scaling Laws

LLMはパラメータ一つあたり2bitの情報を様々な後続タスクに利用可能な形で格納できる。他の結果も含めべき乗則の論文以来の重要な結果と思う。人工的に三つ組（名前/属性/値）のデータを設計し様々な規模、アーキテクチャで検証。7Bモデルでもwikipediaと全教科書情報は全て覚えられる。…
— Daisuke Okanohara / 岡野原大輔 (@hillbig) April 14, 2024

4月10日 wandb - 大規模言語モデル（LLM）評価のベストプラクティス

4月10日日本語LLM 9種を量子化して回答内容を比較調査してみた

4月15日 Turing - Heron-Bench: 日本語Vision＆Languageモデルの性能評価ベンチマークの公開

4月15日饒舌な日本語ローカルLLM【Japanese-Starling-ChatV-7B】を公開しました

4月17日 Sakana AI - Evolutionary Optimization ofModel Merging Recipes

・Evolutionary Optimization ofModel Merging Recipes

4月17日 ChatVectorで新モデル作って評価して遊ぶヤツ、自分もやりたい

4月20日 llama.cpp：iMatrix量子化は日本語性能にどう影響するか？

4月22日 LLMプロダクト開発における独自評価基準とデータセットの作り方の考察

4月24日 LEIA: 言語間転移学習でLLMを賢くする新しい方法

4月27日 Mergekit-Evolve登場！進化的アルゴリズムで手元のLLMを最強進化させよう！

5月1日 LOCAL AI HACKATHON #001

・LOCAL AI HACKATHON #001

5月6日 LLMによるLLMの評価とその評価の評価について

5月7日 Common Crawlから作る大規模日本語コーパスとその前処理（Mixtral 8x7Bを語彙拡張継続事前学習 Part2）

5月13日 LLM評価の落とし穴~開発者目線で気をつけるポイント~

・LLM評価の落とし穴~開発者目線で気をつけるポイント~

5月21日 KARAKURI - AWS TrainiumでMoEを学習する

5月22日 Tanuki - Team「たぬき」開発振り返りメモ

5月28日 LLM-jp - 第9回 LLM勉強会

5月28日 LLMによる合成データ(Synthetic Data)生成のテクニック

5月30日 ELYZA - ELYZA LLM for JP (デモ版)についての解説: (1) 70Bモデルの推論基盤

5月30日 Swallow - 大規模言語モデルの開発

・大規模言語モデルの開発

5月31日 Team 甲(きのえ) そして、やり直しへ

6月6日 LLMにまつわる"評価"を整理する

6月14日 PFN - 1,000億パラメータ規模の独自LLM「PLaMo-100B」の事前学習

6月25日 LLM-jp - 第10回 LLM勉強会

6月26日 Sarashina - 大規模な日本語の事前学習言語モデルSarashina1・2の公開

7月1日 Swallow - Llama-3-Swallow: 日本語に強い継続事前学習モデル

7月2日 Google Cloud: HPC Toolkitにて大規模深層学習環境を整備する

7月6日松尾研LLM開発チームZoo(三内チーム)におけるコーパス構築

7月6日 LLM学習データのキュレーションに関する取り組みまとめ【松尾研 GENIAC Team天元突破】

7月7日 GENIAC: 172B 事前学習知見

7月8日時間とリソースの制約下での前処理：事前学習用データセットの構築方法

7月8日 100万件超えデータセットでのInstruction-Tuning ~より良い出力を求めて~

7月8日【Team 天元突破】モデルチームの活動内容について

7月17日 PFN - 医療・ヘルスケア領域における大規模言語モデルの構築に向けて

7月19日 PFN - PFEの開発したLLMのPLaMo-100Bを用いた金融ベンチマーク評価と結果の分析

7月25日中国における生成AI業界の現状と展望

・中国における生成AI業界の現状と展望

7月26日 GPU最適化

7月30日 LLM-jp - 第11回 LLM勉強会

7月31日 WizardLM-2の開発方法: Auto Evol-Instruct

8月7日 PFN - 1,000億パラメータの独自LLM「PLaMo-100B」の事後学習が完了

8月20日 PFN - 1兆 (1T) パラメータ規模のLLMの事前学習検証

8月22日中国AI産業の最新動向及び日本企業への示唆

・中国AI産業の最新動向及び日本企業への示唆

8月30日 LLM を現場で評価する

・LLM を現場で評価する

8月30日 Tanuki - 大規模言語モデルTanuki-8B, 8x8Bの位置づけや開発指針など

8月31日 - LLMに日本語テキストを学習させる意義

・LLMに日本語テキストを学習させる意義

9月2日 ELYZA - 「ELYZA-japanese-Llama-2-70b」開発における、大規模モデル学習ノウハウの解説

9月2日 Tanuki - Team Tanuki Phase2 - Tanuki-8B, 8x8B 開発の経緯

9月4日 Tanuki - MoEモデルのアクティブパラメータ数の厳密な計算方法について

9月10日 Tanuki - 大規模言語モデル Tanuki-8x8Bの紹介と開発経緯など

・大規模言語モデル Tanuki-8x8Bの紹介と開発経緯など

この記事が気に入ったらサポートをしてみませんか？