y1111111

CoDeFについてメモ

処理について動画１つごとに一連のニューラルネットを１つ学習。学習するのはEmbedding(図中の左にある立方体群), 1つ目のMLP, x'y'のEmbedding, 2つ目のMLP (x', y')を…

10か月前

LLMメモ

日本語モデルABEJA CyberAgent rinna SHS retrieva-jp (T5) NICT (未公開？) NEC（未公開） Brainpad （※MPT-7BのFine-tuning） Lightblue（※MPT-7BのFine-tunin…

y1111111

10か月前

Hiera 論文メモ

WIP Multiscale Vision Transformers手法概要 MViTの考え方はネットワークの入力から出力までの解像度をpoolingしながら、channel capacityを徐々にexpandすること。従…

y1111111

1年前

大規模言語モデルの性能比較メモ

WIP Chain-of-Thought Hub: A Continuous Effort to Measure Large Language Models’ Reasoning Performance

y1111111

1年前

大規模言語モデルの比較メモ

WIP 比較するモデルChinchilla [2203.15556] Training Compute-Optimal Large Language Models (arxiv.org) PaLM [2204.02311] PaLM: Scaling Language Modeling with Pa…

y1111111

1年前

【論文紹介】GPT4All: Training an Assistant-style Chatbot with Large Scale Data Distillation from GPT-3.5-Turbo

この記事は，GPT4ALLというモデルについてのテクニカルレポートについての紹介記事． GPT4ALLの学習コードなどを含むプロジェクトURLはこちら． Data Collection and Cura…

y1111111

1年前

y1111111

2023年9月13日 20:33

CoDeFについてメモ

処理について動画１つごとに一連のニューラルネットを１つ学習。

学習するのはEmbedding(図中の左にある立方体群), 1つ目のMLP, x'y'のEmbedding, 2つ目のMLP

(x', y')を取得するまでの処理に対応するコード deform_pts()

https://github.com/qiuyu96/CoDeF/blob/137f16c5423d4848468573275

もっとみる

y1111111

2023年9月13日 20:33

LLMメモ

日本語モデルABEJA

CyberAgent

rinna

SHS

retrieva-jp (T5)

NICT (未公開？)

NEC（未公開）

Brainpad （※MPT-7BのFine-tuning）

Lightblue（※MPT-7BのFine-tuning）

stockmark

LINE

Stability AI (JP)

BLIP

松尾研

ELYZZA

Tur

もっとみる

y1111111

2023年6月10日 22:00

Hiera 論文メモ

WIP

Multiscale Vision Transformers手法概要

MViTの考え方はネットワークの入力から出力までの解像度をpoolingしながら、channel capacityを徐々にexpandすること。
従来のTransformer
ネットワーク全体でchannel capactyとresolutionを維持。
Multiscale Vision Transformer
複

もっとみる

y1111111

2023年6月9日 11:34

大規模言語モデルの性能比較メモ

WIP

Chain-of-Thought Hub: A Continuous Effort to Measure Large Language Models’ Reasoning Performance

y1111111

2023年5月17日 21:59

大規模言語モデルの比較メモ

WIP

比較するモデルChinchilla [2203.15556] Training Compute-Optimal Large Language Models (arxiv.org)

PaLM [2204.02311] PaLM: Scaling Language Modeling with Pathways (arxiv.org)

LLaMA [2302.13971] LLaMA: O

もっとみる

y1111111

2023年3月30日 16:52

【論文紹介】GPT4All: Training an Assistant-style Chatbot with Large Scale Data Distillation from GPT-3.5-Turbo

この記事は，GPT4ALLというモデルについてのテクニカルレポートについての紹介記事．
GPT4ALLの学習コードなどを含むプロジェクトURLはこちら．

Data Collection and Curation2023年3月20日～2023年3月26日に，GPT-3.5-Turbo(OpenAI API)を使用して約１００万件のプロンプトとレスポンスのペアを収集した．
使用したデータセット
-

もっとみる

記事一覧

CoDeFについてメモ

LLMメモ

Hiera 論文メモ

大規模言語モデルの性能比較メモ

大規模言語モデルの比較メモ

【論文紹介】GPT4All: Training an Assistant-style Chatbot with Large Scale Data Distillation from GPT-3.5-Turbo

CoDeFについてメモ

LLMメモ

Hiera 論文メモ

大規模言語モデルの性能比較メモ

大規模言語モデルの比較メモ

【論文紹介】GPT4All: Training an Assistant-style Chatbot with Large Scale Data Distillation from GPT-3.5-Turbo