GPT-4-vision : LLMで車の自動運転を実現する
※投稿者は自動車や自動運転技術に関する専門知識を持っておらず、記事の内容に誤りが含まれている可能性があります。ご了承ください。
初めに
ビッグテック企業、例えばTeslaや華為(Huawei)は、LLM(Large Language Models)を利用した自動運転技術の開発と市場投入に向けて、その取り組みを強化しています。この流れの中で、GPT-4-visionという、高精度で容易にアクセス可能なVisionモデルの1つを用いて、リアルタイムで路上状況を分析することを考えました。
実装
基本的な実装方法は、前回の記事に基づいています。ただし、今回の主な変更点は、プロンプトを自動車用に修正したことです。
まず、特定の文脈(context)と現在のタイムスタンプ(timestamp)を用いて、以前の予測が現在の運転状況と一致するかを評価します。その後、現在の運転状況を20語以内で説明し、続いて次の運転状況や行動を20語以内で予測します。このプロンプトは、現在と次の運転シナリオのみを出力するように指定されています。
prompt_message = f"Context: {context}. Now: {timestamp}, Assess if the previous prediction matches the current driving situation. Current: Describe the current driving situation in 20 words or less. Next: Predict the next driving situation or action in 20 words or less. Only output Current and Next"
車の前方にWebカメラを設置し、毎秒フレームを取り出してエンコードし、その後APIに送信しています。運転を考慮して、APIからのレスポンスはテキスト読み上げ(TTS)で行うようにしています。残念ながら速度や方向指示器の情報などは与えられていません。
以下は実行結果の一部です。理想的には街中のような複雑な環境でテストするべきですが、プライバシーの懸念から高速道路上での結果のみを紹介します。現在の天候、路上の状況、周囲の車両との関係を正確に把握し、次の状況を的確に予測しているようです。
コンテキストを提供することで、ロケーションの変化も認識しています。
最後に
信号機の認識や、高速道路ではなく市街地のような複雑な状況でのテストが必要でしたが、全体としては路上状況の認識は成功しているようです。現行のGPT-4-vision-previewにはシステムメッセージがないため、自動運転のAIとしての役割をプロンプトで明示する必要があり、パフォーマンスや精度の改善の余地があります。また、機能呼び出し(function calling)がないため、画像解析結果に基づいてアクションを設定することはできません。さらに、APIの呼び出しには数秒のレイテンシーが生じるため、本格的な自動運転を実現するには、Teslaのように自動車に専用のAIコンピュータを搭載し、ハードウェアとLLMを最適化して応答速度を向上させる必要があると思われます。
この記事が参加している募集
この記事が気に入ったらサポートをしてみませんか?