KingJoe

最近、話題になってるので、開設してみた。 メモ代わりになるのかな?

KingJoe

最近、話題になってるので、開設してみた。 メモ代わりになるのかな?

記事一覧

固定された記事

KingJoeBot(AI チャットボット)

私の趣味として始めたこのプロジェクトは、GPT-4を使ったLINEチャットボットの開発です。当初はただの興味本位からスタートしたものの、徐々にGPT-4を含むAIの実験プラット…

KingJoe
5か月前
2

今後のGPT-4oの音声機能に備えて通話可能なDiscordへ移植!

GPT-4oの特徴としては、音声認識機能だと思うのでリアルタイムに通話できるようなプラットフォームにしないと新機能が楽しめないのでは? ということで、息子から教えても…

KingJoe
1か月前
7

LINEのチャットボットからTelegramのチャットボットに移植を試してみた。

LINEのチャットボットとして育ててきたKINGJOEBOTだけれど、あまりLINE固有になりすぎるのは個人的に気に入らないので、Telegramにも移植してみた。メッセージのやり取りの…

KingJoe
1か月前

GPT-4oが優秀なので回答がLINEのメッセージサイズ上限を超える

先日、OpenAIが発表したGPT-4oを早速、自身のLINEボットに取り込みました。が、反応がない。。。ログを確認したら、なんとLINE Message APIのサイズ上限である5000文字を超…

KingJoe
1か月前

画像生成AIのプロンプト入力をテキスト生成AIにアシストさせてみた。

テキストチャットでURLを入力したい。DALL-Eの入力プロンプトを簡単したい。と、ほしい機能を実装していたら面白いことができた。 上記の記事では単純に一からプロンプト…

KingJoe
1か月前
3

Stable Diffusion 3.0にもAPIがあったのね。

GPTと組み合わせることで画像生成のプロンプトを対話形式で作れるようになりました。 まずは、検証用に 「白いノートパソコンの上に可愛い妖精がいる画像を作成して下さい…

KingJoe
1か月前
5

PDFを添付してその文章を質問に含める

昨日、URL先の情報を入力に加える機能を追加しました。が、最近は開いた先でJavaScriptなどを動かしてテキストを表示する方式をとっているサイトも多く、うまく情報が抽出…

KingJoe
1か月前

GPT APIだけでChatGPT Plusみたいに画像を生成させたい。

GPT API の「Image generation」で指定できるプロンプトは一つなんですよね。ChatGPT Plusでは、チャット上で画像生成を指示して、生成された画像に対して、追加のメッセー…

KingJoe
1か月前
2

KingJoeBotのGPT、Gemini、ClaudeにURL参照機能を追加した。

入力プロンプトにURLを入れるとその文章をもとに回答してくれると思ったらダメだった。参照してくれてると思いきや全く内容の異なる回答を出してきた。URLの文字列パターン…

KingJoe
1か月前

GPT-4-Turbo、Claude 3、Geminiのマルチモーダルで複数画像を入力できるようにしてみた。

KingJoeBot(LINE Chat Bot)でマルチモーダル機能を実装していて、複数の画像を入れられそうだったので、ついでに複数画像入力に対応させてみた。 サンプル画像は、以下のサ…

KingJoe
1か月前
1

GPT-4-TurboとGemini 1.5 ProとClaude3 Opusのマルチモーダル機能を使ってみた。

KingJoeBot(LINE Chat Bot)で複数のAIを実験中です。今回、Claude3のAPIを組み込めたので、三大AI(私の勝手な評価)でマルチモーダル機能を試してみた。 読み込ませた…

KingJoe
1か月前
5

gpt-4-turbo、gemini-1.5-pro-latest、 chat-bison-32k llama3-70b-8192とで記事要約を試してみた。

要約力比較とある新聞記事の内容をテキストにして、要約するようにプロンプトした際の回答が以下の通り。 50文字程度にまとめてという指示に対して、一番近い値を示してい…

KingJoe
1か月前
2

LINEチャットボットでマルチモーダルAIを試す

GPTやGeminiなどのAIチャットをLINEをインターフェースとして使っていますが、LINEだと1回のメッセージに複数のデータを入れられないので、マルチモーダル機能(1回のプロ…

KingJoe
1か月前

Gemini Pro 1.5をPythonから呼び出す

Gemini 1.5 Pro Now Availableとのこと。 vertexai.preview.generative_modelsを使って、Vertex経由でGeminiを呼び出していたが、Pro 1.5になりAPI開発がしやすくなったの…

200
KingJoe
1か月前

英語論文の翻訳

自作チャットボットを日頃どういう風に使ってるかを残してみた。 画像にある英文を翻訳するときのオペレーション。 まずはocrモードにして、画像を投稿すると、Google Clo…

KingJoe
4か月前
1
KingJoeBot(AI チャットボット)

KingJoeBot(AI チャットボット)

私の趣味として始めたこのプロジェクトは、GPT-4を使ったLINEチャットボットの開発です。当初はただの興味本位からスタートしたものの、徐々にGPT-4を含むAIの実験プラットフォームとして愛用するようになりました。

経緯GPT-4の発見

OpenAIによるGPT-4の発表後、そのAPIを利用して何か面白いことができないかと考え始めました。

LINEを利用した理由

GPT-4の機能を探るた

もっとみる
今後のGPT-4oの音声機能に備えて通話可能なDiscordへ移植!

今後のGPT-4oの音声機能に備えて通話可能なDiscordへ移植!

GPT-4oの特徴としては、音声認識機能だと思うのでリアルタイムに通話できるようなプラットフォームにしないと新機能が楽しめないのでは?
ということで、息子から教えてもらったDiscordのボットに移植してみた。
LINE版 KingjoeBotと比較すると、AIはGPTのみだし、画像生成はDALL-E3のみ。

プラットフォーム選び

これまでGoogle Cloud Functionsを使ってL

もっとみる
LINEのチャットボットからTelegramのチャットボットに移植を試してみた。

LINEのチャットボットからTelegramのチャットボットに移植を試してみた。

LINEのチャットボットとして育ててきたKINGJOEBOTだけれど、あまりLINE固有になりすぎるのは個人的に気に入らないので、Telegramにも移植してみた。メッセージのやり取りの部分は、プラットフォーム依存が高いけれど、GPTなどのAI呼び出し部分はクラス化してあるので、ほぼ弄ることなく移植できた。

まだTelegramを使い慣れていないけれど、画面はLINEより読み取りやすい。応答文字

もっとみる
GPT-4oが優秀なので回答がLINEのメッセージサイズ上限を超える

GPT-4oが優秀なので回答がLINEのメッセージサイズ上限を超える

先日、OpenAIが発表したGPT-4oを早速、自身のLINEボットに取り込みました。が、反応がない。。。ログを確認したら、なんとLINE Message APIのサイズ上限である5000文字を超えていることが判明。
まー、これまでそれなりに丁寧な回答をしてくれていたGPT-4-Turboでしたが、これまで以上に丁寧な回答になってました。
せっかく回答してくれているのに落とすのも勿体ないので、上限

もっとみる
画像生成AIのプロンプト入力をテキスト生成AIにアシストさせてみた。

画像生成AIのプロンプト入力をテキスト生成AIにアシストさせてみた。

テキストチャットでURLを入力したい。DALL-Eの入力プロンプトを簡単したい。と、ほしい機能を実装していたら面白いことができた。

上記の記事では単純に一からプロンプトを考えるよりは、コンテキストでStable Diffusion 3用のプロンプトを作成する役割を与えることで、平易な言葉でStable Diffusion 3が読み込みやすい英文プロンプトが生成できたので、そのテキストを利用して画

もっとみる
Stable Diffusion 3.0にもAPIがあったのね。

Stable Diffusion 3.0にもAPIがあったのね。

GPTと組み合わせることで画像生成のプロンプトを対話形式で作れるようになりました。

まずは、検証用に
「白いノートパソコンの上に可愛い妖精がいる画像を作成して下さい。」
と入力してみた。

そこで、次に
「年齢を20代前半の女性にしてください。」
とメッセージを投入すると。

と、少し年齢が上がった感じになった。
次に
「背景を渋谷のスクランブル交差点にしてください。」
とメッセージすると。

もっとみる
PDFを添付してその文章を質問に含める

PDFを添付してその文章を質問に含める

昨日、URL先の情報を入力に加える機能を追加しました。が、最近は開いた先でJavaScriptなどを動かしてテキストを表示する方式をとっているサイトも多く、うまく情報が抽出できない場合があります。

その場合、仮想プリンタなどを使えばWebページをPDF化できるので、それを使えるようにすれば少しは改善できるかと思いPDFを添付して使えるように改善した。

スマホ(iPhone)からだと「印刷」から

もっとみる
GPT APIだけでChatGPT Plusみたいに画像を生成させたい。

GPT APIだけでChatGPT Plusみたいに画像を生成させたい。

GPT API の「Image generation」で指定できるプロンプトは一つなんですよね。ChatGPT Plusでは、チャット上で画像生成を指示して、生成された画像に対して、追加のメッセージで調整ができる。
一つのプロンプトだと都度、生成指示を入力しなきゃいけないので面倒くさい。
なので、チャット機能+履歴を利用して、DALL-Eのプロンプトエンジニアという"役割"を与えて、指示メッセージ

もっとみる
KingJoeBotのGPT、Gemini、ClaudeにURL参照機能を追加した。

KingJoeBotのGPT、Gemini、ClaudeにURL参照機能を追加した。

入力プロンプトにURLを入れるとその文章をもとに回答してくれると思ったらダメだった。参照してくれてると思いきや全く内容の異なる回答を出してきた。URLの文字列パターンから推察される文章なんだろうね。。。

ChatGPT有料版なんかはプラグインを入れるとできるらしいけれど、APIで安く済ませたいので実装してみた。(GPTに聞きながら実装)

強引な質問だったので、回答もなかなか強引ですが目的として

もっとみる
GPT-4-Turbo、Claude 3、Geminiのマルチモーダルで複数画像を入力できるようにしてみた。

GPT-4-Turbo、Claude 3、Geminiのマルチモーダルで複数画像を入力できるようにしてみた。

KingJoeBot(LINE Chat Bot)でマルチモーダル機能を実装していて、複数の画像を入れられそうだったので、ついでに複数画像入力に対応させてみた。
サンプル画像は、以下のサイトのものを利用しました。

https://www.gmo-jisedai.com/wp-content/uploads/T_REX_1-1024x768.jpeg

https://www.gmo-jiseda

もっとみる
GPT-4-TurboとGemini 1.5 ProとClaude3 Opusのマルチモーダル機能を使ってみた。

GPT-4-TurboとGemini 1.5 ProとClaude3 Opusのマルチモーダル機能を使ってみた。

KingJoeBot(LINE Chat Bot)で複数のAIを実験中です。今回、Claude3のAPIを組み込めたので、三大AI(私の勝手な評価)でマルチモーダル機能を試してみた。

読み込ませた画像がこちら。照明が微妙なので肉眼でもちょっと見づらいなと思えるようなソースに対して、
「この写真について、解説を簡潔にお願いします。」
と同じプロンプトを入力してみた。

GPT-4-Turboの回答

もっとみる
gpt-4-turbo、gemini-1.5-pro-latest、	chat-bison-32k	llama3-70b-8192とで記事要約を試してみた。

gpt-4-turbo、gemini-1.5-pro-latest、 chat-bison-32k llama3-70b-8192とで記事要約を試してみた。

要約力比較とある新聞記事の内容をテキストにして、要約するようにプロンプトした際の回答が以下の通り。
50文字程度にまとめてという指示に対して、一番近い値を示しているのはgeminiだった。llama3は一項目目は59文字と少しオーバー気味。(中身まではまだ添削しきれていない。)

記事本文(要約指示のプロンプト)以下のテキストファイルを用意して、KingjoeBotを用いて各AIに要約文を作成させ

もっとみる
LINEチャットボットでマルチモーダルAIを試す

LINEチャットボットでマルチモーダルAIを試す

GPTやGeminiなどのAIチャットをLINEをインターフェースとして使っていますが、LINEだと1回のメッセージに複数のデータを入れられないので、マルチモーダル機能(1回のプロンプトで複数の情報源"テキスト、画像、音声、映像"を組み合わせる機能)を試すにはWebhook側で実装した。

使い方は、下の図の通りで、同時にプロンプトに入力したい画像または音声をアップロードします。チャットボットが保

もっとみる
Gemini Pro 1.5をPythonから呼び出す

Gemini Pro 1.5をPythonから呼び出す

Gemini 1.5 Pro Now Availableとのこと。
vertexai.preview.generative_modelsを使って、Vertex経由でGeminiを呼び出していたが、Pro 1.5になりAPI開発がしやすくなったので、直接GeminiのAPIを呼び出すことにした。

修正後、マルチモーダルにて動作することを確認した。人の目でも判別しづらい画像も「新宿の」などのヒントを

もっとみる

英語論文の翻訳

自作チャットボットを日頃どういう風に使ってるかを残してみた。

画像にある英文を翻訳するときのオペレーション。
まずはocrモードにして、画像を投稿すると、Google Cloud Visionで文字起こしをさせる。。

文字起こしした回答を、AIをDeeplに切り替えて、言語を選択して、翻訳実行。