マガジンのカバー画像

AIもろもろ

32
運営しているクリエイター

2023年11月の記事一覧

PyTorchとJAXに対応したKeras3でMNISTを試す

バックボーンのフレームワークを、従来のTensorFlowから、デファクトスタンダードになりつつあるPyTorchと、実行効率に優れたJAXも選べるようになったKeras3.0が公開されていたので、さっそくバックボーンをPyTorchやJAXに設定して、手書きアルファベット画像のクラス分け課題のMNISTを試してみました。 23.11.29追記 公式の紹介ページも公開されていました。 https://keras.io/keras_3/ Keras3のインストール、インポー

GPT4-Vision APIを使ったアプリ draw-a-uiを試す

gpt4-vison API を使った作例として公開してされている、ポンチ絵をhtmlに変換するアプリdraw-a-uiを試してみました。 アプリの機能まずはgithubの説明にしたがってアプリを起動してみます。 $ git clone https://github.com/SawyerHood/draw-a-ui$ cd araw-a-ui $ npm install$ npm run dev あとは、ブラウザでhttp://localhost:3000を開くとアプ

ステレオ音声生成 MusicGen-stereo を試す

meta社からテキストの説明や音声プロンプトに基づいて高品質の音楽サンプルを生成できるテキスト音楽モデルMusicGen のステレオのモデルセットがリリースされていましたので、さっそく試してみました。 モデルはモノラルと同様、musicgen-stereo-large、musicgen-stereo-midium、musicgen-stereo-largeの3種類と、メロディーを入力して生成するmusicgen-stereo-melody、musicgen-stereo-m

OpenAIの音声テキスト変換whisperの新モデル"large-v3"を試す

先日OpenAIから音声テキスト変換whisperの新モデル"large-v3"が公開されました。近くAPIも公開されるとのことですが、とりいそぎ google colab の無料GPU(T4)で軽く試してみました。 どの言語もlarge-v2にくらべて全体的にエラー率が下がって性能が向上しているようです。 ともかく試してみます。google colabの無料GPU(T4)で試してみます。 ライブラリーのインストール !pip install -U openai-wh