深津式プロンプトを超える、ロングコンテキスト時代のテクニック指南

2024年7月22日 16:50

本 note は、Google が深津貴之さんにインタビューした内容を編集して掲載しています。深津さんには、Gemini の改善や活用のための知見をいただくため、アドバイザーに就任いただいています。また、Gemini を含む生成 AI の利用に関する説明は例示を目的としています。実際の回答結果については、ご自身で正確性をご確認いただくようお願いいたします。

こんにちは。Google の AI「Gemini（ジェミニ）」の公式 note 編集部です。

今回は、Gemini のアドバイザーのおひとり、深津貴之さんのインタビューをお届けします。

2023 年初頭、日本で生成 AI ブームが広まり始めた頃、クリエイティブファーム・THE GUILD 代表であり note の CXO である深津貴之さんは「深津式プロンプト」を公開しました。命令や制約条件、入出力などの要素を構造化したプロンプトを入力することで、クオリティの高い回答を得られるようにするテクニックです。

初期の生成 AI は口語でだらだらと入力していると、思った回答が得られにくかったのですが、深津式プロンプトを利用すると狙った出力をしてくれました。そのため、このプロンプトエンジニアリング手法は瞬く間に多くの人に使われるようになったのです。

今回は、Google の生成 AI、Gemini を初期から使っているユーザーでもある深津貴之さんに、2024 年現在の実践的な活用法をお聞きしました。

これから必要なのは「プロンプトの暗記」ではない

－本日はお時間いただき、ありがとうございます。今日は生成 AI について、いろいろとお話を聞かせてください。早速ですが、新しい「深津式プロンプト」の可能性についてもぜひ。

深津貴之さん（以下深津）：こんにちは。株式会社THE GUILDの深津貴之です。今日はよろしくお願いします。自作の「深津式プロンプト」は便利ですが、細かいプロンプトの暗記は、徐々に役割を終えつつあるとも感じています。

－具体的には、どういった部分でそう感じていらっしゃいますか？

深津：生成 AI を使いこなすのに、質問力が必要と言われています。でも時間が経つにつれ、生成 AI の解釈力や、基本性能が上がっています。たしかに構造化されたプロンプトは高度な命令のためには重要です。ですがそう遠くない未来に、一般的な用途では、プロンプトエンジニアリング（最適化）を暗記するよりも、よりシンプルなプロンプトだけで足りてしまうことになるかもしれません。

例えば現在でも、「ユーザーは質問力がありません。ユーザーの雑な命令に対して、足りない情報があれば質問をし、より良い結果を出せる高品質なプロンプトを考えて出力し、そのプロンプトに従って処理を行ってください」

このような簡単な指示でも、ユーザーのあいまいなリクエストを精緻化してくれて、高品質な出力を期待できます。

AI使いこなすのに質問力がいる問題。

最初にAIへ、「質問者は質問能力がないから、雑な質問に色々察して問を引き出したあとに、最高のプロンプトを生成して、それを実行してくれや」

って言えば、質問力ないユーザーもニッコリ。
— 深津貴之 / THE GUILD (@fladdict) June 13, 2024

－X での、深津さんの投稿、とても話題になってましたよね！

深津：こう入れておけば、足りない情報がある場合は生成 AI のほうから積極的に質問をし、十分な質問を集めてから作業に取り組んでくれるので、使い勝手がよくなっているのではと感じています。

－望んでいる出力を得るために、プロンプト構築のコツはあるんでしょうか？

深津：考え方としては大きく 2 種類あります。ひとつが、問題の適正なフレームを作ること。適正なフレームを作るとは、この問題はこういう範囲で、こういう問いなので、こう解決してください、としっかり指示することです。例えば「生成 AI について説明する」場合なら、どういう説明が欲しいのか具体的に書く…といった行為です。

もうひとつが、問題を簡単に解決できるであろう方法を指定することです。生成 AI について説明するという同じ目的だったとしても、頭のいいコンサルになりきって説明してもらえば、いい感じの出力が得られるだろう、といった具合です。

－プロンプト・エンジニアリングの細かなテクニックが今はあまり重要ではないとすると、深津さんご自身が今、生成 AI について気になるトピックは何ですか？

深津：そうですね…今、僕が生成 AI に求めているものは、「コンテキスト量（入出力データ量）」と「レスポンスの速さ」の 2 つです。その次点が「マルチモーダル」です。

Gemini はプロンプトエンジニアリング入門書生成もお手のもの

－深津さんが挙げられた 3 つのポイント、どれも重要な要素ですよね。このなかからまずは、コンテキスト量の影響についてお聞きしたいです。コンテキスト量で言えば、最上位モデルの 1.5 Pro にアクセスできる Gemini Advanced だと 100 万トークンあるので、長時間の動画、音声、ボリュームのあるコードもごっそり入力して処理できますよね。こうしたロングコンテキストによって、どのような変化がありましたか？

深津：ロングコンテキストを使えるようになり、以前よりも長い文章に対応できている印象です。書籍のような長い文章でも、一貫性のある内容を生成することが可能になりました。

例えば、プロンプトエンジニアリング入門の教科書を作りたいときに、まずは箇条書きで、「第一章：xxx　第二章：xxx　第三章：xxx」くらいのラフな構成を考えてもらいます。

後は、構成の通りに、各章の本文を出力させればいいだけです。原稿が途中で途切れてしまったら「続けて」と入れて続きを書かせ、問題ないなら「次のセクションへ」で次の章の原稿を書くようにプロンプトを構築します。ロングコンテキストが使えるようになる前からこうした文章作成は可能でしたが、出力の途中で内容が破綻したり重複したりすることがあったように思います。

それが、ロングコンテキストになったことにより、かなり長い文章にも対応できていきます。これは 100 万トークンを扱えるので以前出力した内容を途中で忘れにくい、という Gemini ならではの強みだと思います。

さらに、一貫性のある長い文章を生成できると、「対談」を作って何かをわかりやすく学ぶこともできます。

例えば、プロンプトエンジニアリング入門の内容を、シャーロック・ホームズとジョン・ワトソンの対談形式で教えてもらうとか。

※あらかじめ別のタブで、「2 人の性格や口調がよく表れた、多様性のある会話データセット」を Gemini に作ってもらうのもおすすめ、とのこと（深津さんによるサンプルはこちら）。これを元のプロンプトの続きに入れると、よりクオリティの高い、ホームズとワトソンの会話が生成されます。

ただし、注意点がひとつ。

生成 AI のハルシネーションは完全には避けられません。一定確率で、間違った内容を出力してしまうため、正確性 / 専門性が完全に求められる分野、例えば医療分野などでは、生成 AI に頼りきったテキスト生成はリスクになります。生成されたテキストの最終チェックはできる限り人間が行うのが望ましく、また、結婚式のスピーチやワークショップの進行プログラムなど、多少のゆらぎやミスがあっても全体として成果の出るような分野から着手するのがよいでしょう。ハルシネーションを減らしたい場合には、検索をするよう指示したり、人間が積極的に資料を渡すようにすることで対処も可能です。

100 万トークンの真価は要約よりも収集・分析

－ロングコンテキストが使えるようになる前から可能だった文章作成が、2024 年にアップグレードした、というお話でしたが、ロングコンテキスト時代に初めて実現することもあるのでしょうか？

深津：プロンプトに膨大な前提知識を与えられるようになるのは、ロングコンテキストの大きなメリットです。

これはちょっとエンジニアさん向けの話になりますが、例えばプログラミングを行う場合。生成 AI は、学習時期によって最新のライブラリやバージョンを知らないこともあるのですが、プロンプトに、ライブラリのドキュメントやサンプルコードを入れたり、ドキュメントの重要ページの URL などを入れたりしていくと、新しいライブラリを用いたコーディングなどでも、安定動作を期待しやすくなります。

－すごいことですね！

深津：今、やってみましょうか。

－ここで今、プロンプトを書いて見せてくれるんですか！？

深津：はい。ここでは最新のライブラリの例として、LangGraph を使ってみましょう。LangGraph は、複数の大規模言語モデルやツールを組み合わせて協調動作させることで、複雑な課題を効率的に解決するためのフレームワークです。この LangGraph を Gemini との最初の会話でまず覚えてもらいます。そうして覚えたフレームワークを Gemini が活用して、新たに与えられたタスクをこなすのです。例えば今日の市況情報を取得し、流通金額トップ 3 の企業の株価情報を調べて、その結果を出力する流れを LangGraph を活用しながら雛形として作ってもらいましょう。

しっかりとした設計が出力されましたね。サンプルコードも入れているので、それを基に、コードも生成してくれています。

深津：ロングコンテキストの活用法というと大量の情報の要約と言われがちでそれももちろんなのですが、でもそれだけでなく、ビジネスデータの分析、対話履歴の分析、コード生成など、幅広い活用が可能です。僕的には特に分析力を活用することで、新たな価値を生み出すことができると考えているんです。

Gemini が凄腕の営業コンサルタントになる日も遠くない

－ほかにも、深津さんが最近注目しているロングコンテキストの活用法はありますか？

深津：これは、セキュリティやコンプライアンスの課題などを含んでいて、まだ実用のテクニックには至っていない話になりますが、構わないですか。

－Gemini の未来の可能性に触れる話題ですね。ぜひ聞かせてください。

深津：営業担当の会話履歴を Gemini に分析してもらうと面白いことがありそうだと考えています。扱えるトークン数が少ないと、1 日分の会話履歴くらいしか入れられないので、日報のためのサマリー作成などにしか使えません。

その点、Gemini の 100 万トークンなら、相当量の会話履歴を入れることができます。扱えるファイル数は一度に 10 ファイルまでですが、各ファイルの最大サイズは 100MB です。複数の履歴をファイルにまとめてから入れればいいのです。

会話の癖を分析して、好感度を上げるためにはトークをどのように改善すればいいのか、営業がクロージングできたときに発生している共通の会話パターンは何か、といった高度な解析が可能になってくるように思いました。

複数メンバーの会話をテキスト化して丸ごと入れ、それぞれの人を成長させるカリキュラムについて包括的なレポートを作ってもらう、といったこともおそらくできるようになるでしょう。とはいえ、これは最初にも言った通り、慎重に考える必要があります。分析を行う際の個人情報保護への配慮や、分析した結果をどのように利用するのかについても、事前に明確にしておくことが重要ですよね。

それでも単体コンテンツではなく、連続する複数コンテンツの共通事項を分析することで、より高度なビジネス提案あるいはビジネス設計に踏み込むことができるのではないでしょうか。

僕はシークエンス全体の特徴を分析できるようになるので、業務改革が根本から変わるのではないかと考えているんです。