記事一覧
KingJoeBot(AI チャットボット)
私の趣味として始めたこのプロジェクトは、GPT-4を使ったLINEチャットボットの開発です。当初はただの興味本位からスタートしたものの、徐々にGPT-4を含むAIの実験プラットフォームとして愛用するようになりました。
経緯GPT-4の発見
OpenAIによるGPT-4の発表後、そのAPIを利用して何か面白いことができないかと考え始めました。
LINEを利用した理由
GPT-4の機能を探るた
今後のGPT-4oの音声機能に備えて通話可能なDiscordへ移植!
GPT-4oの特徴としては、音声認識機能だと思うのでリアルタイムに通話できるようなプラットフォームにしないと新機能が楽しめないのでは?
ということで、息子から教えてもらったDiscordのボットに移植してみた。
LINE版 KingjoeBotと比較すると、AIはGPTのみだし、画像生成はDALL-E3のみ。
プラットフォーム選び
これまでGoogle Cloud Functionsを使ってL
画像生成AIのプロンプト入力をテキスト生成AIにアシストさせてみた。
テキストチャットでURLを入力したい。DALL-Eの入力プロンプトを簡単したい。と、ほしい機能を実装していたら面白いことができた。
上記の記事では単純に一からプロンプトを考えるよりは、コンテキストでStable Diffusion 3用のプロンプトを作成する役割を与えることで、平易な言葉でStable Diffusion 3が読み込みやすい英文プロンプトが生成できたので、そのテキストを利用して画
Stable Diffusion 3.0にもAPIがあったのね。
GPTと組み合わせることで画像生成のプロンプトを対話形式で作れるようになりました。
まずは、検証用に
「白いノートパソコンの上に可愛い妖精がいる画像を作成して下さい。」
と入力してみた。
そこで、次に
「年齢を20代前半の女性にしてください。」
とメッセージを投入すると。
と、少し年齢が上がった感じになった。
次に
「背景を渋谷のスクランブル交差点にしてください。」
とメッセージすると。
GPT-4-Turbo、Claude 3、Geminiのマルチモーダルで複数画像を入力できるようにしてみた。
KingJoeBot(LINE Chat Bot)でマルチモーダル機能を実装していて、複数の画像を入れられそうだったので、ついでに複数画像入力に対応させてみた。
サンプル画像は、以下のサイトのものを利用しました。
https://www.gmo-jisedai.com/wp-content/uploads/T_REX_1-1024x768.jpeg
https://www.gmo-jiseda
GPT-4-TurboとGemini 1.5 ProとClaude3 Opusのマルチモーダル機能を使ってみた。
KingJoeBot(LINE Chat Bot)で複数のAIを実験中です。今回、Claude3のAPIを組み込めたので、三大AI(私の勝手な評価)でマルチモーダル機能を試してみた。
読み込ませた画像がこちら。照明が微妙なので肉眼でもちょっと見づらいなと思えるようなソースに対して、
「この写真について、解説を簡潔にお願いします。」
と同じプロンプトを入力してみた。
GPT-4-Turboの回答
gpt-4-turbo、gemini-1.5-pro-latest、 chat-bison-32k llama3-70b-8192とで記事要約を試してみた。
要約力比較とある新聞記事の内容をテキストにして、要約するようにプロンプトした際の回答が以下の通り。
50文字程度にまとめてという指示に対して、一番近い値を示しているのはgeminiだった。llama3は一項目目は59文字と少しオーバー気味。(中身まではまだ添削しきれていない。)
記事本文(要約指示のプロンプト)以下のテキストファイルを用意して、KingjoeBotを用いて各AIに要約文を作成させ
LINEチャットボットでマルチモーダルAIを試す
GPTやGeminiなどのAIチャットをLINEをインターフェースとして使っていますが、LINEだと1回のメッセージに複数のデータを入れられないので、マルチモーダル機能(1回のプロンプトで複数の情報源"テキスト、画像、音声、映像"を組み合わせる機能)を試すにはWebhook側で実装した。
使い方は、下の図の通りで、同時にプロンプトに入力したい画像または音声をアップロードします。チャットボットが保
Gemini Pro 1.5をPythonから呼び出す
Gemini 1.5 Pro Now Availableとのこと。
vertexai.preview.generative_modelsを使って、Vertex経由でGeminiを呼び出していたが、Pro 1.5になりAPI開発がしやすくなったので、直接GeminiのAPIを呼び出すことにした。
修正後、マルチモーダルにて動作することを確認した。人の目でも判別しづらい画像も「新宿の」などのヒントを