見出し画像

GPT-4 Turbo with VisionでAPIが使えるようになった!

GPT-4 Turbo with Vision が API で一般提供されるようになりました。 Vision リクエストでは、JSON モードと関数呼び出しも使用できるようになりました。
特に突出した機能としては、Vision機能を搭載したGPT-4 Turboでは画像の内容を理解してその情報を基に質問に答えたり内容を分析したりできるため、PDFの内容を解析して理解するのに適しています。GPT-4の素の状態では、日本語のPDFを解析するのは難しいうえ、特に省庁発行のパワポ曼荼羅のような複雑な画像を張り付けたPDFも難なく解析できるようになりました。

この事は、OpenAI社長であるグレッグ・ブロックマンがXで公式のポストをリポストして告知しています。

GPT-4 Turbo に対する大幅な改良が開始されました。

OpenAI Developersが紹介する使い方

Xのポストで動画付きで様々なGPT-4 Turbo with VisionのAPIを使ったwebサービスやアプリを紹介しています。

コードのバグを自律的に見つけて修正

Devin は独自の AI モデルをトレーニングし、微調整することができます。
‍ Devin は GitHub 上のリサーチ リポジトリへのリンクのみを与えられた大規模な言語モデルの微調整をセットアップします。

デビンが建てた@cognition_labsは、GPT-4 Turbo を搭載した AI ソフトウェア エンジニアリング アシスタントであり、ビジョンを使用してさまざまなコーディング タスクを実行します。

下記のサイトからこのサービスを利用する事が出来ます。

世界初の 食事に関するAI コーチ

@healthifyチームはヘルスケアとワークアウトのアプリを提供しています。その中でGPT-4 Turbo with VisionのAPIを利用した食事をユーザーのアップした写真からマンツーマンで指導できるアプリを開発しました。

@healthifyチームは、GPT-4 Turbo with Vision を使用して Snap を構築し、世界中の食品の写真認識を通じてユーザーに栄養に関する洞察を提供しました。

@healthifyチームのアプリはこちらからダウンロードできます。

認定栄養士、ワークアウト コーチ、ヨガ インストラクターによるマンツーマンのコーチングとダイエット プランを提供します。また、Smart Coach Ria から、即時かつ個別にカスタマイズされたヒントを 24 時間受け取ることができます。 Ria は、2 億件を超える食事とワークアウトのログをもとに開発された、世界初の AI を活用したコーチです

ブレストに便利なホワイトボード

ブレスト時に共有するのにもってこいの画像もはれ、システムフォントでタイピングでき、手描きのお絵描きもできる便利なwebサービスです。

Make Real、によって構築されました@tldrawを使用すると、ユーザーはホワイトボードに UI を描画し、Vision を備えた GPT-4 Turbo を使用して、実際のコードを活用した機能する Web サイトを生成できます。

ご本人も下記のポストで紹介しています。

遊んでみました。なんと、QRコードで共有できる機能迄揃っています。下記リンクから共有しています。自由に上書きしちゃってください。

こんな感じで遊んでみました。


WebGPT がビジョンを使用して、ノーコードで自然言語プロンプトのみを使用してゲーム全体を構築する優れた方法の 1 つを次に示します。
@gdb (現在、ChatGPT ストアで入手可能です)。ゲームは以下のスレッドでプレイ可能です。

AI エクスペリエンス向上のためのさまざまな機能を提供

なんかwebサービス全部のせ見たいなGPTを開発した人もいます。

下記のGPTサイトから利用できます。

何ができるのか説明して貰ったら、下記の様な色んな事ができるようです。

WebGPT🤖 は、Web ブラウジング、API 呼び出しの実行、画像やアートの作成、プレイグラウンドでのコーディングなど、AI エクスペリエンスを向上させるために設計されたさまざまな機能を提供します。 WebGPT🤖 でできることの詳細な概要は次のとおりです。

  • ウェブの閲覧:WebGPT🤖 にタスクや調査のために Web を閲覧するよう依頼できます。これにより、情報収集、データ分析、最新のイベントの維持が可能になります。

  • API呼び出し:WebGPT🤖 は REST API 呼び出しを実行でき、データの取得や投稿のためのさまざまなオンライン サービスやプラットフォームとの対話を可能にします。

  • 画像とアートの生成:AI が生成した画像を使用すると、テキスト プロンプトをビジュアル アートに変換し、クリエイティブなプロジェクトやビジュアル コンテンツのニーズをサポートできます。

  • 遊び場でのコーディング:WebGPT🤖 は、ゲーム、アプリ、アートを構築するためのコーディング プレイグラウンドを提供し、プログラミング プロジェクトをコーディングして実行するためのスペースを提供します。

  • PDF の読み取りと要約:PDF ドキュメントを読んで要約することもできるので、長い形式のコンテンツをすばやく理解して消化するのに役立ちます。

  • プロ版機能:WebGPT🤖 Pro は、月額サブスクリプションの場合、無制限のリクエスト、優先検索エンジン リクエスト、より多くの画像生成、およびよりカスタマイズ可能で自律的な AI エージェント エクスペリエンスを実現するプレイグラウンドのプロ モードへのアクセスを提供します。

機能には、共同作業用 ChatGPT、ビデオ生成と編集、AI ライティング アシスタント、AI 画像編集などが含まれます。1 日あたり 1 つの無料イメージ生成が可能で、必要に応じて追加のイメージを購入できるそうです。

試しに日本語のPDFを解析して貰ったら、すらりと物の10秒足らずで解析してしまい大変有能でした。プレーンなGPT-4では日本語の解析ができない場合が多いです。以下のリンクからその様子が確認できます。


この記事が気に入ったらサポートをしてみませんか?