マガジンのカバー画像

AIもろもろ

33
運営しているクリエイター

2023年9月の記事一覧

オーディオ超解像技術 AudioSR を試す

低解像度の音声データを超解像化をする拡散ベースの生成モデル AudioSR が公表されていました。リンク先に変換サンプルなどもあり、音声や自然音、音楽など幅広いジャンルの例が示されています。高い再現度であるようなので、さっそく試してみました。 早速ためしてみます。以下サンプルコードを試してみます。 インストール !pip install git+https://github.com/haoheliu/versatile_audio_super_resolution 実

Stable Diffusionモデルを応用した超解像技術 DiffBIRを試す

テキストから画像への生成モデルであるStable Diffusionの事前学習モデルを活用して、劣化画像のブラインド画像復元タスク(超解像タスク)を行うDiffBIRというフレームワークが提案されています。サンプルコートも公開されているので早速試してみました。 DiffBIRはBSR(Blind Image Super-Resolution ブラインド画像復元)、およびBFR(Blind Face Restoration 顔画像の復元)の先行研究と比較して優れた結果を示して

ローカルPCのターミナル上でLLM生成コードを実行できるOpen Interpreterを試す

ChatGPTのコードインタープリター(Advanced Data Analysis)と同様な機能をローカル環境で実行可能な Open Interpreter が公開されていました。ターミナル上で、チャットインターフェイスを介して、LLMがPython、JavaScript、Shellなどのコードを実行できるもののようです。 Google Colabでの実行デモも公開されています。 ローカル環境で試す対話環境の起動はターミナルで以下を入力します。  $ interpre

ビジョン認識マルチモーダルLM: Qwen-VLを試す

Alibaba Cloudが公開したLLMに画像認識を加えたマルチモーダルで、かつ英語と中国語のマルチリンガルLVLM(large Vision Language Model)、Qwen-VL(Qwen Large Vision Language Model)を簡単に試してみました。 お試し環境Windows11(WSL2) ローカルPC RTX3090(24GB) 私は試していませんが、int4量子化モデルもリリースされておりGoogle Colabの無料枠でも動くか