LLMの活用

日本語を含む多様な音声入力に対応したLLM: Qwen-Audio-Chatを試す

アリババクラウドが、音声入力に対応したLLMであるQwen-Audioを公開していたので早速デモを試してみました。 Qwen-Audioの概要Qwen-Audioは、異なる種類のオーディオ入力やタスクに対応するユニバーサルオーディオ理解モデルを目指して開発されています。主な目的は、既存の音声モデルが持つ限定的なインタラクション能力の問題を解決し、人間の発話、自然音、音楽、歌などを含む幅広いオーディオタイプに対応することです。このモデルは、複数のタスクにわたる知識共有と協調学

【論文紹介】アテンション・シンクを用いた効率的なストリーミング言語モデル

興味深い論文を見つけたので、ざっとまとめました。私の理解不足は多々ありますので、興味を持たれた方はぜひ原文をご参照ください。 Guangxuan Xiao, Yuandong Tian, Beidi Chen, Song Han, Mike Lewis 概要この研究では、大規模な言語モデルを実行するための新しいフレームワークであるStreamingLLMを提案しています。これは、従来のアプローチであるWindow attentionがテキストの長さがキャッシュサイズを超

kani: 軽量LLMフレームワーク

kani (カニ) は、ツールの使用/関数呼び出しを備えたチャットベースの言語モデルのための軽量でハッキング可能なフレームワークです。 LLM用のフレームワークとしてはLangchainが圧倒的にメジャーですが、若干肥大化した印象もありますよね。というわけで、ざっと試食してみます。 kaniの主な特徴軽量設計　最小限のフットプリントで高レベル機能モデル非依存　OpenAIモデルのほか、LLaMA v2、Vicunaなど関数呼び出し　ロバストなFunction Cal

Function calling に対応したLlama API(llama2)

OpenAI互換のAPIでllama2モデルをホストする、LLamaAPIが公開されていたので、さっそく試してみました。 Llama API のページでユーザー登録してAPIキーを取得します。 OpenAIのFunction Callingのサンプルを入力してみます。 !pip install llamaapi -q from llamaapi import LlamaAPI# Replace 'Your_API_Token' with your actual API

#LLM

日本語を含む多様な音声入力に対応したLLM: Qwen-Audio-Chatを試す

【論文紹介】アテンション・シンクを用いた効率的なストリーミング言語モデル

kani: 軽量LLMフレームワーク

Function calling に対応したLlama API(llama2)