大規模言語モデル（LLM）｜はまち

claude.aiのアーティファクト機能でさくっとテトリス風ゲームをつくる

Claude 3.5 Sonnetにあわせて発表された、Claude.ai のアーティファクトという機能を早速ためしてみました。アーティファクトという言葉は、「人とLLMが協力して生成した成果物」というニュアンスで使ってるのかなぁ。サポートされているアーティファクトには、プログラムコードのほか、マークダウン文書などがあり、それらアーティファクトをLLMと対話しながらブラッシュアップしていく感じです。JavaScriptとかならチャット画面の隣で実際の動作を確認しながら作

【論文紹介】複数トークン予測によるLLMの精度向上と高速化

Meta社の研究チーム（Fabian Gloeckle, Badr Youbi Idrissi, Baptiste Rozière, David Lopez-Paz, Gabriel Synnaeve）が発表した論文がXで話題になっていたので、ざっと眺めてみました。理解不足も多々あると思いますので、詳細は原文を参照願います。複数トークン予測モデルの概要トレーニング：従来のTransformerベースのLLMでは、次の１トークンを予測する単純なタスクで学習が行われますが、今

【論文紹介】TDB: トランスフォーマーデバッガを使ったGPTの内部メカニズムの解析例

Transformerベースの言語モデルの内部動作を確認するためのツールを用いて各層の役割について解析する取り組みを行っている以下論文（Interpretability in the Wild: a Circuit for Indirect Object Identification in GPT-2 small。うまく訳せませんが、「GPT-2 smallにおける間接目的語識別の解明：（学習から）自然発生するタスク処理の内部メカニズム」という感じでしょうか…）がとても面白か

1(.58)ビット量子化LLMs(BitNet b1.58）について

Microsoft Researchが発表した以下論文がXで話題になっていました。少々出遅れた感がありますが、さっそく眺めてみました。 BitNet b1.58全パラメータ（重み）を三項{-1, 0, 1}で量子化。{-1, 0, 1}の3つの値を表現するために必要なビット数は$${log_2(3)}$$であるため、1パラメータあたり約1.58bitで表現できる。同じモデルサイズとトレーニングトークンを持つ全精度（FP16またはBF16）のTransformer LL

日本語を含む多様な音声入力に対応したLLM: Qwen-Audio-Chatを試す

アリババクラウドが、音声入力に対応したLLMであるQwen-Audioを公開していたので早速デモを試してみました。 Qwen-Audioの概要Qwen-Audioは、異なる種類のオーディオ入力やタスクに対応するユニバーサルオーディオ理解モデルを目指して開発されています。主な目的は、既存の音声モデルが持つ限定的なインタラクション能力の問題を解決し、人間の発話、自然音、音楽、歌などを含む幅広いオーディオタイプに対応することです。このモデルは、複数のタスクにわたる知識共有と協調学

GPT4-Vision APIを使ったアプリ　draw-a-uiを試す

gpt4-vison API を使った作例として公開してされている、ポンチ絵をhtmlに変換するアプリdraw-a-uiを試してみました。アプリの機能まずはgithubの説明にしたがってアプリを起動してみます。 $ git clone https://github.com/SawyerHood/draw-a-ui$ cd araw-a-ui $ npm install$ npm run dev あとは、ブラウザでhttp://localhost:3000を開くとアプ

画像分析機能を持つオープンソースLLM『LLaVA-1.5』を試す

gpt-4vのような画像分析機能を持つオープンソースLLM『LLaVA-1.5』が公開されていたのでローカルPC環境（RTX3090 24GB）で試してみました。 LLaVAの特徴ビジョンおよび言語の理解のためのビジョンエンコーダとLLMを接続する、エンドツーエンドで訓練された大規模なマルチモーダルモデルマルチモーダル指示に従うデータセットでGPT-4と比較して85.1%の相対スコアを達成、11 のベンチマークでSoTA性能を達成オープンソース。ヴィジョン指示チュー

【論文紹介】アテンション・シンクを用いた効率的なストリーミング言語モデル

興味深い論文を見つけたので、ざっとまとめました。私の理解不足は多々ありますので、興味を持たれた方はぜひ原文をご参照ください。 Guangxuan Xiao, Yuandong Tian, Beidi Chen, Song Han, Mike Lewis 概要この研究では、大規模な言語モデルを実行するための新しいフレームワークであるStreamingLLMを提案しています。これは、従来のアプローチであるWindow attentionがテキストの長さがキャッシュサイズを超

GPT-4Vの画像認識の機能を試す

ChatGPTの画像認識の機能が、やっと今朝見たら使えるようになっていたので、遅ればせながら私も試してみました。ブロック図の解説数式画像のLaTeX化宿泊記録の読み取り災害の要因分析台風進路図の読み取り以上、取り急ぎためして、一通り驚いてみました。😄 フェーズが変わった感じです。gpt-4vのAPIが公開されれば応用分野も相当広がりそうですね。

【論文紹介】大規模言語モデルにおけるニューロンの挙動について

大規模言語モデルにおける人工ニューロンの挙動をテーマにした以下論文が面白かったので、ざっくり目についたキーワードを抜き出してみました。理解不足など多分にあると思いますので、興味を持たれた方は、ぜひ原文をご確認ください。概要LLMの内部構造を理解するため、パラメータの異なる125Mから66BまでのMeta社のOPTファミリーのモデル内部の人工ニューロンの挙動を分析したキーワード活性化しないニューロン（Dead Neurons）ネットワークの入力部付近の層では、多

ビジョン認識マルチモーダルLM: Qwen-VLを試す

Alibaba Cloudが公開したLLMに画像認識を加えたマルチモーダルで、かつ英語と中国語のマルチリンガルLVLM(large Vision Language Model)、Qwen-VL(Qwen Large Vision Language Model)を簡単に試してみました。お試し環境Windows11(WSL2) ローカルPC RTX3090(24GB) 私は試していませんが、int4量子化モデルもリリースされておりGoogle Colabの無料枠でも動くか

最近の情報も学習に用いた14億パラメータ日本語LLM stockmark/gpt-neox-japanese-1.4b

モデル概要ストックマーク社が作成した、Common Crawl由来のデータだけでなく、独自のWebデータも学習に使用した14億パラメータの日本語のLLM データカバー期間：2023年6月までのデータを使用。使用データセット： CC100の日本語サブセット Wikipediaの日本語版ストックマーク社独自の日本語Webデータコーパス全体のデータ量：約200億トークン。そのうち独自のWebデータの量は約90億トークンライセンス：MITライセンスとりあえず

Function calling に対応したLlama API(llama2)

OpenAI互換のAPIでllama2モデルをホストする、LLamaAPIが公開されていたので、さっそく試してみました。 Llama API のページでユーザー登録してAPIキーを取得します。 OpenAIのFunction Callingのサンプルを入力してみます。 !pip install llamaapi -q from llamaapi import LlamaAPI# Replace 'Your_API_Token' with your actual API

東大×生成AIシンポジウム第１部「生成AIが切り拓く未来」

先日2023年7月4日に開催された、東大×生成AIシンポジウム第１部のパネルディスカッション「生成AIが切り拓く未来と日本の展望」が面白かったので、個人的に興味をひいた論点を抜き出して要約してみました。１時間弱ですが、とても興味深い議論もありましたので、お時間があるかたはぜひリンク先をご確認ください。 https://www.t.u-tokyo.ac.jp/ev2023-07-04 テーマ１: 生成AIで世界はどう変わるのか水晶玉に未来を聞くかようなAGIの世界が1

大規模言語モデル（LLM）

フォローしませんか？

記事一覧