大規模言語モデル（LLM）

本

運営しているクリエイター: はまち

【論文紹介】大規模言語モデルにおけるニューロンの挙動について

大規模言語モデルにおける人工ニューロンの挙動をテーマにした以下論文が面白かったので、ざっくり目についたキーワードを抜き出してみました。理解不足など多分にあると思いますので、興味を持たれた方は、ぜひ原文をご確認ください。概要LLMの内部構造を理解するため、パラメータの異なる125Mから66BまでのMeta社のOPTファミリーのモデル内部の人工ニューロンの挙動を分析したキーワード活性化しないニューロン（Dead Neurons）ネットワークの入力部付近の層では、多

ビジョン認識マルチモーダルLM: Qwen-VLを試す

Alibaba Cloudが公開したLLMに画像認識を加えたマルチモーダルで、かつ英語と中国語のマルチリンガルLVLM(large Vision Language Model)、Qwen-VL(Qwen Large Vision Language Model)を簡単に試してみました。お試し環境Windows11(WSL2) ローカルPC RTX3090(24GB) 私は試していませんが、int4量子化モデルもリリースされておりGoogle Colabの無料枠でも動くか

大規模言語モデル（LLM）

フォローしませんか？

2023年9月の記事一覧

【論文紹介】大規模言語モデルにおけるニューロンの挙動について

ビジョン認識マルチモーダルLM: Qwen-VLを試す