マガジンのカバー画像

AIもろもろ

34
運営しているクリエイター

#LLM

大規模言語モデルDeep Learning応用講座2024|Fall

LLMは日常的に利用していますが、LLMを体系的に学んだことがなかったところ、社会人枠で申し込んでいた東大松尾・岩澤研のLLM2024講座を受講できることになりました。 応募時の条件には、 最低でも毎回3時間程度の自習時間が確保できること 大学レベルの線形代数、微分積分、確率論・統計学に関する知識を有すること 機械学習の基礎知識を備え、基礎的な実装が自身でできること (PytorchTensorFlow,JAXなどのフレームワークを使ってモデルの構築・訓練・評価を行っ

【論文紹介】TDB: トランスフォーマーデバッガを使ったGPTの内部メカニズムの解析例

Transformerベースの言語モデルの内部動作を確認するためのツールを用いて各層の役割について解析する取り組みを行っている以下論文(Interpretability in the Wild: a Circuit for Indirect Object Identification in GPT-2 small。うまく訳せませんが、「GPT-2 smallにおける間接目的語識別の解明:(学習から)自然発生するタスク処理の内部メカニズム」という感じでしょうか…)がとても面白か

画像分析機能を持つオープンソースLLM『LLaVA-1.5』を試す

gpt-4vのような画像分析機能を持つオープンソースLLM『LLaVA-1.5』が公開されていたのでローカルPC環境(RTX3090 24GB)で試してみました。 LLaVAの特徴ビジョンおよび言語の理解のためのビジョンエンコーダとLLMを接続する、エンドツーエンドで訓練された大規模なマルチモーダルモデル マルチモーダル指示に従うデータセットでGPT-4と比較して85.1%の相対スコアを達成、11 のベンチマークでSoTA性能を達成 オープンソース。ヴィジョン指示チュー

ビジョン認識マルチモーダルLM: Qwen-VLを試す

Alibaba Cloudが公開したLLMに画像認識を加えたマルチモーダルで、かつ英語と中国語のマルチリンガルLVLM(large Vision Language Model)、Qwen-VL(Qwen Large Vision Language Model)を簡単に試してみました。 お試し環境Windows11(WSL2) ローカルPC RTX3090(24GB) 私は試していませんが、int4量子化モデルもリリースされておりGoogle Colabの無料枠でも動くか