マガジンのカバー画像

大規模言語モデル(LLM)

34
運営しているクリエイター

2023年11月の記事一覧

日本語を含む多様な音声入力に対応したLLM: Qwen-Audio-Chatを試す

アリババクラウドが、音声入力に対応したLLMであるQwen-Audioを公開していたので早速デモを試してみました。 Qwen-Audioの概要Qwen-Audioは、異なる種類のオーディオ入力やタスクに対応するユニバーサルオーディオ理解モデルを目指して開発されています。主な目的は、既存の音声モデルが持つ限定的なインタラクション能力の問題を解決し、人間の発話、自然音、音楽、歌などを含む幅広いオーディオタイプに対応することです。このモデルは、複数のタスクにわたる知識共有と協調学

GPT4-Vision APIを使ったアプリ draw-a-uiを試す

gpt4-vison API を使った作例として公開してされている、ポンチ絵をhtmlに変換するアプリdraw-a-uiを試してみました。 アプリの機能まずはgithubの説明にしたがってアプリを起動してみます。 $ git clone https://github.com/SawyerHood/draw-a-ui$ cd araw-a-ui $ npm install$ npm run dev あとは、ブラウザでhttp://localhost:3000を開くとアプ