マガジンのカバー画像

大規模言語モデル(LLM)

34
運営しているクリエイター

2023年10月の記事一覧

画像分析機能を持つオープンソースLLM『LLaVA-1.5』を試す

gpt-4vのような画像分析機能を持つオープンソースLLM『LLaVA-1.5』が公開されていたのでローカルPC環境(RTX3090 24GB)で試してみました。 LLaVAの特徴ビジョンおよび言語の理解のためのビジョンエンコーダとLLMを接続する、エンドツーエンドで訓練された大規模なマルチモーダルモデル マルチモーダル指示に従うデータセットでGPT-4と比較して85.1%の相対スコアを達成、11 のベンチマークでSoTA性能を達成 オープンソース。ヴィジョン指示チュー

【論文紹介】アテンション・シンクを用いた効率的なストリーミング言語モデル

興味深い論文を見つけたので、ざっとまとめました。 私の理解不足は多々ありますので、興味を持たれた方はぜひ原文をご参照ください。 Guangxuan Xiao, Yuandong Tian, Beidi Chen, Song Han, Mike Lewis 概要この研究では、大規模な言語モデルを実行するための新しいフレームワークであるStreamingLLMを提案しています。これは、従来のアプローチであるWindow attentionがテキストの長さがキャッシュサイズを超

GPT-4Vの画像認識の機能を試す

ChatGPTの画像認識の機能が、やっと今朝見たら使えるようになっていたので、遅ればせながら私も試してみました。 ブロック図の解説 数式画像のLaTeX化 宿泊記録の読み取り 災害の要因分析 台風進路図の読み取り 以上、取り急ぎためして、一通り驚いてみました。😄 フェーズが変わった感じです。gpt-4vのAPIが公開されれば応用分野も相当広がりそうですね。