マガジンのカバー画像

大規模言語モデル(LLM)

37
運営しているクリエイター

2023年9月の記事一覧

【論文紹介】大規模言語モデルにおけるニューロンの挙動について

大規模言語モデルにおける人工ニューロンの挙動をテーマにした以下論文が面白かったので、ざっくり目についたキーワードを抜き出してみました。 理解不足など多分にあると思いますので、興味を持たれた方は、ぜひ原文をご確認ください。 概要LLMの内部構造を理解するため、パラメータの異なる125Mから66BまでのMeta社のOPTファミリーのモデル内部の人工ニューロンの挙動を分析した キーワード活性化しないニューロン(Dead Neurons) ネットワークの入力部付近の層では、多

ビジョン認識マルチモーダルLM: Qwen-VLを試す

Alibaba Cloudが公開したLLMに画像認識を加えたマルチモーダルで、かつ英語と中国語のマルチリンガルLVLM(large Vision Language Model)、Qwen-VL(Qwen Large Vision Language Model)を簡単に試してみました。 お試し環境Windows11(WSL2) ローカルPC RTX3090(24GB) 私は試していませんが、int4量子化モデルもリリースされておりGoogle Colabの無料枠でも動くか