見出し画像

【Genspark Autopilot Agent】リサーチ業務での活用法徹底解説+弱点を補完するテキスト出力用Chrome拡張機能


はじめに:Gensparkとは

検索AIのGenspark。
同じ検索AIのPerplexityより、出力結果の情報量が多く重宝し、場面によって両方を使い分けています。

調べたいことを検索窓に入力するだけの簡単操作。

(Genspark) https://www.genspark.ai/

一言で言えば、単語ではなく文章で検索できるサービスです。

Autopilot Agentとは

新しくAutopilot Agentという、検索というよりは、調査AIとも呼べるサービスが始まりました。

どんなサービスかというと、AIエージエントが、ユーザーの問い合わせ(プロンプト)を解釈し、複数(時には150以上)のウェブサイトを同時並行でクローリングし、調査結果を大規模言語モデルによってまとめてくれるという、未来的なサービスです。

これの出現によって、世の中のWebリサーチ業務自体が再構築されるでしょう。
そのぐらいのインパクトのあるサービスです。

公式の説明を日本語でわかりやすく要約した文章

Gensparkの新しいAutopilot Agentは、非同期に作業を進める世界初のAIエージェントです。非同期とは、指示を出した後にすぐ結果を待たず、他の作業を続けられることを意味します。このエージェントは、人間のアシスタントのように、調査やデータ収集、情報のクロスチェックなど、時間のかかる作業を自動で行います。ユーザーは他の重要な作業に集中している間に、エージェントが調査を行い、信頼性の高い情報を提供します。

従来の検索エンジンは、何度もキーワードを変えて検索し、リンクを確認しなければならないことが多いですが、Genspark Autopilot Agentなら、最初に1つの指示を出すだけで、複数の信頼できるソースを調べて結果をまとめてくれます。たとえば、「全てのジェームズ・ボンド役者がシェイクスピア作品に出演しているか?」という質問に対して、エージェントは複数のデータベースをチェックし、「完全には確認できない」という答えとともに根拠を示してくれます。

このエージェントの特長は、結果を待たずに他の作業に集中できること、信頼できる結果が短時間で得られること、さらに引用元が透明であることです。タスクが完了するとメールで通知が届くため、結果を気にせず他のことができます。

操作方法

では、操作方法を見ていきます。

(Autopilot Agent) https://www.genspark.ai/autopilotagent

右上の「+新しい」ボタンを押すと、プロンプトを入力できるウィンドウが立ち上がります。

すると、以下のウィンドウが立ち上がります。

この枠内に、質問事項を書き込みます。
質問事項は、Aとは何か?と聞くオープンクエスチョンではなく、AIがYes/Noで答えられるクローズドクエスチョンにした方が良いそうです。

今回は、質問形式ではなく、命題形式(AはBである)にしてみました。
命題とは、客観的に真偽が決まる文のことです。

プロンプト例:Yes/Noで回答できる命題

LLM(大規模言語モデル)は、構造上、演繹的推論を行えない。

入力したら、「ファクトチェック」ボタンを押すと、リサーチが開始します。

しばらく経つと、Gensparkアカウント開設の際に登録したEメールアドレス宛に、以下のような知らせが送られてきます。

Vew Reportを押すと、ブラウザが開き、以下のような結果表示画面に遷移します。

上のスクショのように、最初は全てのアコーディオンタブが閉じた状態ですが、下向きの矢印ボタンを押すと各項目のアコーディオンが開きます。
全て手動で開かねばならず、ユーザーにとって大変手間がかかります。
この点は、ユーザーにとって無駄なアクションになりますのでGenspark側の要改善事項です。
Gensparkはベンチャー企業なので、プロダクトリリースのスピードを重視しており、QA(Quality Assurerance:品質評価、品質保証)部門の人員が少ないためと推測します。

で、全部開いてみるとこの大ボリュームになります。
文字数は57,745字です。
各言語が混在しています。
ご参考までにスクリーンショットを貼りますが、長いので内容に興味のない方は飛ばしてください。

各項目の説明

項目説明のため、スクショを再掲

いかんせん、公式の説明が見当たらないので、提示された項目について私の推測を交えた説明です:

声明

  • ある主張や結論を明示する段階。

  • 通常は、その後のプロセスで検証や分析が行われる前提となる事実や意見を提示。

声明を分解する

  • 声明を細かく分解し、関連する要素やコンセプトを個別に分析するプロセス。

  • 特に複雑な声明に対して、どの部分がどのような影響を持つかを理解する。

情報をファクトチェックする

  • 声明や主張に対する正確性を確認し、信頼できる情報源に基づいてその真偽を評価する。

  • 検証のために多くの情報源を利用するプロセス。

予備的な要約

  • 初期段階で得られた情報や分析結果を簡潔にまとめ、全体像を理解するための要約を提供。

  • 詳細な分析に進む前の概要として機能。

反省

  • 分析や検証結果に対して再評価を行い、新たな視点や改善点を見つけ出すプロセス。

  • 追加の調査や改善策を考慮するために、最初の結論を見直す。

最終要約

  • すべての情報を基に、最終的な結論や洞察を簡潔にまとめた要約。

  • これにより、プロセス全体の結果や次のステップに向けた提案が明示される。

興味深い事実

  • 分析やファクトチェックの過程で発見された予期しないが重要な情報や新しい知識。

  • 追加の洞察や理解を深めるために注目すべき要素。

上記のうち、「情報をファクトチェックする」→「予備的な要約」→「反省」が3回繰り返されます。その他の項目は、1回だけ登場します。

これらの各項目とその処理順序は、Autopilot Agentの推論能力を上げる目的と、検証プロセスを定型化する目的で設計されたものと推測します。

「興味深い事実」とは?:AIエージェントの能力を人力との差分で定量的にアピールする目的の項目

Autopilot Agentは、わざわざ「興味深い事実」という興味深い項目名の分析結果をレポートの末尾に置いています。

これは一体なんでしょうか?
熟読すると面白いです。

興味深い事実
Autopilotエージェントが調査した156の情報源の総語数は、78,000から124,800語と推定されています。平均読書速度が1分間に200〜250語の場合、読むのに約312〜624分、つまりほぼ10時間かかります。
しかし、その時間を費やす必要はありません。 Autopilotエージェントがすべての重労働—読書、分析、処理—を行うので、あなたは本当に重要なことに集中できます。Autopilotエージェントが努力を引き受け、最も価値のある洞察だけをあなたに残します。

AIエージェントの能力を人力との差分で定量的にアピールする目的の項目です。要は宣伝文句です。Gensparkが一番主張したい内容がここに集約して表現されています。
我々ユーザーは、このメッセージをしっかり受け止めましょう。

私はこれでも控えめな表現だと思います。なぜならば、テーマに沿った内容の文書を検索して探す時間のほうが長くかかり、その時間をカウントしていないからです。同じ内容を人力で行うには、専門家でも1週間かかるでしょう。

成果物をエクスポートできない弱点の解消法:Chrome拡張機能を利用

このサービスの最大の弱点は、出力した内容を外部に持ち出せない点です。
少なくとも現在は、エクスポート機能は存在しないようです。

そこで、Webページのテキスト文章だけを1クリックで抽出し、テキストファイルとして保存するChrome拡張機能を開発し、ChromeWebストアでリリースしました(無料)。
Chromeブラウザにインストールしご利用いただけます。

これを使えば、Autopilot Agentで出力した結果を、テキストファイルとして保存し、その他のアプリケーションで編集して活用できます。
(ちなみにGensparkだけではなくどのWebページでも使えます。)

テキストファイルの抽出結果の実例

レポートが長すぎて、結論がわからない→要約

英語と日本語と中国語が混在した50,000字を超えるレポートを読むのは骨が折れます。
そんな時は、いつものChatGPTやClaude、Geminiにこのテキストファイルをアップロードして、要約レポートを作成してもらいましょう。
ご存知の通り、大規模言語モデルにとって大得意の作業です。

ChatGPT o1-previewによる要約結果

はじめに

大規模言語モデル(LLM)は、近年の人工知能研究において大きな注目を集めています。これらのモデルは、膨大なテキストデータから学習し、人間の言語理解や生成において驚異的な性能を示しています。しかし、その構造上、演繹的推論を行うことができないのではないかという指摘があります。この問題は、LLMの限界と可能性を理解する上で非常に重要です。

演繹的推論とは

演繹的推論は、一般的な法則や前提から必然的な結論を導き出す論理的なプロセスです。例えば、「すべての人間は死ぬ」という一般的な前提と「ソクラテスは人間である」という個別の前提から、「ソクラテスは死ぬ」という結論を導くことができます。このような推論は、前提が真であれば結論も必ず真となるため、科学や数学において重要な役割を果たします。

LLMの構造と学習方法

LLMは主にTransformerアーキテクチャに基づいており、大量のテキストデータを用いて次の単語や文を予測するタスクで訓練されています。この「次の単語予測」というタスクは、言語の統計的パターンを学習することを目的としており、言語の意味や文脈を捉える能力を持つ一方で、明示的な論理規則や推論ルールを内部に組み込んでいるわけではありません。

LLMの演繹的推論能力の限界

  1. 統計的パターンへの依存: LLMは、学習データ中の頻出パターンや関連性を利用して応答を生成します。そのため、新しい論理的な問題や見たことのない推論タスクに対しては、正確な演繹的推論を行うことが難しいとされています。

  2. 反事実的推論の困難さ: LLMは、現実と異なる仮定や条件下での推論、いわゆる反事実的推論を苦手とします。これは、演繹的推論において重要な要素である「もし〜ならば」という条件付きの推論が難しいことを意味します。

  3. 推論過程の不安定性: 前提の順序や表現の仕方によって、LLMの出力が大きく変わることがあります。本来、演繹的推論は前提の順序に依存しないはずですが、LLMはテキストのパターンに敏感であるため、このような不安定性が生じます。

研究事例と評価

  • 思考の連鎖(Chain-of-Thought)プロンプト: Weiら(2022)は、LLMに推論過程を明示的に示させることで、複雑な問題に対する性能を向上させる方法を提案しました。しかし、これはモデルが内部で演繹的推論を行っているというよりは、学習データ中の類似パターンを再利用している可能性が高いとされています。

  • Tree-of-Thought(ToT)フレームワーク: Yaoら(2023)は、思考の木構造を用いてLLMが複数の推論パスを探索できるようにする手法を提案しました。これにより、一部の問題で性能向上が見られましたが、LLMが自律的に論理規則を適用しているわけではないと考えられます。

  • 記号論理との統合: 一部の研究では、LLMと記号論理システムを組み合わせることで、論理推論能力を補完する試みも行われています。しかし、これはLLM自体の構造的限界を克服するものではなく、外部システムの力を借りたアプローチです。

LLMと人間の推論の比較

人間の推論は、演繹法、帰納法、アブダクション(仮説形成)など多様な方法を組み合わせて行われます。人間は抽象的な概念や原理を理解し、新しい状況にも適応して推論を展開できます。一方、LLMは統計的パターン認識に基づいており、明示的な論理構造を持たないため、人間のような柔軟で創造的な演繹的推論を行うことは困難です。

結論と展望

以上の分析から、LLMはその構造上、明確な演繹的推論を行うことが難しいと結論付けられます。LLMは膨大なデータから学習した統計的関連性を利用して言語生成を行いますが、論理規則や推論ルールを内部に保持しているわけではありません。

しかし、LLMの性能は急速に向上しており、研究者たちは以下のような方法でその限界を克服しようとしています。

  1. 外部モジュールとの連携: 論理推論を専門とする外部システムやツールとLLMを組み合わせることで、より正確な推論を実現する。

  2. 訓練データの工夫: 論理推論を含むデータセットでLLMを再訓練することで、モデルに推論能力を付与する試み。

  3. 新しいモデルアーキテクチャの開発: Transformerに代わる、新しい推論能力を持つモデル構造の研究。

最終的な見解

現時点では、LLMがその構造上、純粋な演繹的推論を行うことは困難であると言えます。しかし、研究の進展により、この限界が将来的に克服される可能性もあります。LLMの能力を正しく理解し、その特性に合わせた活用法を模索することが重要です。

参考文献

  • Wei, J., et al. (2022). Chain-of-thought prompting elicits reasoning in large language models. arXiv preprint arXiv:2201.11903.

  • Yao, S., et al. (2023). Tree of thoughts: Deliberate problem solving with large language models. arXiv preprint arXiv:2305.10601.

  • Dasgupta, I., et al. (2022). Language models show human-like content effects on reasoning. arXiv preprint arXiv:2207.07051.

  • Bubeck, S., et al. (2023). Sparks of Artificial General Intelligence: Early experiments with GPT-4. arXiv preprint arXiv:2303.12712.

付記

LLMの発展は急速であり、新しい手法やモデルが次々と提案されています。演繹的推論能力の限界を認識しつつ、その強みを活かした応用を検討することが求められます。また、LLMの倫理的な側面や社会的影響についても慎重な議論が必要です。

内容の大筋を図解で理解したい→マインドマップ

リサーチ内容の大筋を図解で理解したい、という場合はマインドマップが便利です。
ChatGPTのカスタマイズアプリ、Whimsical Diagramsを起動して、内容を解釈してもらったマインドマップを眺めると良いでしょう。

(参考)Whimsical Diagramsの使い方

プレゼンテーション資料の作成

最後に、必要に応じてGammaとNapkin.AIを使って、プレゼン資料に仕上げます。

https://gamma.app/

まとめ:リサーチ業界の再構築

以上見てきたように、①アコーディオンタブの開け閉めをユーザーに強いる点と、②出力結果をエクスポートして外部活用できない点を除いては、リサーチに有用なサービスになっています。
動きの速いGensparkですから、この2点は、早晩解消されるでしょう。
それまでは、②については、ご紹介したテキスト抽出Chrome拡張機能をご活用ください。

リサーチ業務は比較的複雑な意思決定を必要としない人海戦術的業務でありつつも、物事の出発点となる特Aランクの超重要業務です。
だからこそ、クライアントは調査会社に対し、莫大なコストをかけて調査業務を依頼します。

今回のようにAIエージェントでリサーチ業務を完結できるようになったので、今後の実務への導入が進むのは確実ですし、リサーチ業務の再構築が行われるでしょう。
具体的な予想としては、アンケートなどの統計調査のような物理的・定量的な調査はAIではできませんので残りますが、今回のようなインターネット上の情報空間を探索する定性的な調査は、今後AIエージェントに置き換わっていくでしょう。

先に書いたように、人間であれば、レポート作成まで含めると、このような調査に1週間程度かかると思います。
見ていただいたように、調査内容には論文検索も含まれるので、外部委託するとしたら専門家に依頼する必要もあることから、どんなに安くても50万円はかかる仕事です。
それが、10分で無料で終わるわけです。

リサーチ業界が変わりますね。これは。

【重版決定】AIアプリをプログラミング不要で開発する書籍

AIアプリを作って仕事で使いたい方と世界に公開したい方へ!

この記事が気に入ったらサポートをしてみませんか?