記事一覧

CoDeFについてメモ

処理について動画1つごとに一連のニューラルネットを1つ学習。 学習するのはEmbedding(図中の左にある立方体群), 1つ目のMLP, x'y'のEmbedding, 2つ目のMLP (x', y')を…

y1111111
9か月前
1

LLMメモ

日本語モデルABEJA CyberAgent rinna SHS retrieva-jp (T5) NICT (未公開?) NEC(未公開) Brainpad (※MPT-7BのFine-tuning) Lightblue(※MPT-7BのFine-tunin…

y1111111
9か月前

Hiera 論文メモ

WIP Multiscale Vision Transformers手法概要 MViTの考え方はネットワークの入力から出力までの解像度をpoolingしながら、channel capacityを徐々にexpandすること。 従…

y1111111
1年前
1

大規模言語モデルの性能比較メモ

WIP Chain-of-Thought Hub: A Continuous Effort to Measure Large Language Models’ Reasoning Performance

y1111111
1年前

大規模言語モデルの比較メモ

WIP 比較するモデルChinchilla [2203.15556] Training Compute-Optimal Large Language Models (arxiv.org) PaLM [2204.02311] PaLM: Scaling Language Modeling with Pa…

y1111111
1年前
1

【論文紹介】GPT4All: Training an Assistant-style Chatbot with Large Scale Data Distillation from GPT-3.5-Turbo

この記事は,GPT4ALLというモデルについてのテクニカルレポートについての紹介記事. GPT4ALLの学習コードなどを含むプロジェクトURLはこちら. Data Collection and Cura…

y1111111
1年前
6

CoDeFについてメモ

処理について動画1つごとに一連のニューラルネットを1つ学習。

学習するのはEmbedding(図中の左にある立方体群), 1つ目のMLP, x'y'のEmbedding, 2つ目のMLP

(x', y')を取得するまでの処理に対応するコード deform_pts()

https://github.com/qiuyu96/CoDeF/blob/137f16c5423d4848468573275

もっとみる

LLMメモ

日本語モデルABEJA

CyberAgent

rinna

SHS

retrieva-jp (T5)

NICT (未公開?)

NEC(未公開)

Brainpad (※MPT-7BのFine-tuning)

Lightblue(※MPT-7BのFine-tuning)

stockmark

LINE

Stability AI (JP)

BLIP

松尾研

ELYZZA

Tur

もっとみる

Hiera 論文メモ

WIP

Multiscale Vision Transformers手法概要

MViTの考え方はネットワークの入力から出力までの解像度をpoolingしながら、channel capacityを徐々にexpandすること。
従来のTransformer
ネットワーク全体でchannel capactyとresolutionを維持。
Multiscale Vision Transformer

もっとみる

大規模言語モデルの性能比較メモ

WIP

Chain-of-Thought Hub: A Continuous Effort to Measure Large Language Models’ Reasoning Performance

大規模言語モデルの比較メモ

WIP

比較するモデルChinchilla [2203.15556] Training Compute-Optimal Large Language Models (arxiv.org)

PaLM [2204.02311] PaLM: Scaling Language Modeling with Pathways (arxiv.org)

LLaMA [2302.13971] LLaMA: O

もっとみる

【論文紹介】GPT4All: Training an Assistant-style Chatbot with Large Scale Data Distillation from GPT-3.5-Turbo

この記事は,GPT4ALLというモデルについてのテクニカルレポートについての紹介記事.
GPT4ALLの学習コードなどを含むプロジェクトURLはこちら.

Data Collection and Curation2023年3月20日~2023年3月26日に,GPT-3.5-Turbo(OpenAI API)を使用して約100万件のプロンプトとレスポンスのペアを収集した.
使用したデータセット
-

もっとみる