Google GeminiのDemo PVをOpenAIのAPIで実現したコードを実行してみた
Google GeminiのDemo PVについて色々と言われていますが、OpenAIのgpt-4-vision-previewモデルのAPIを使って実現しているコードがありましたので紹介します。
実行方法は、下記の通りとなります。
python -m venv venv
venv\Scripts\Activate.bat
git clone https://github.com/gregsadetsky/sagittarius.git
cd sagittarius
rename .env.example .env
次に、.envファイルを開き、OpenAIのAPIキーを記載します。
VITE_OPENAI_KEY="sk-xxxxxxxxxxxxxxxxxxxxxxx"
次に、以下を実行します。
npm install
npm run dev
次に、Google Chromeで、http://localhost:5173を開きます。
Startを押すと開始されます。マイクとUSBカメラの許可が求められます。
上記の画面に映っているものに対して、これは何ですか?と聞くと英語でキーボードですやモニターですなどと答えてくれます。
使用してみた所感は、カメラ、マイク、スピーカーの設定がいまいちだったのかそんなに回数を試すことはできませんでした。音声が平読みで何か物足りなかったです。今後もう少し性能の良いものが出てきそうな予感はします。
この記事が気に入ったらサポートをしてみませんか?