AI系の専門家の誰に聞いても次に来るのは「生成AIエージェント」と「音声認識」と言っている件について

2024年8月10日 15:24

「生成AIエージェント」と「音声認識」というキーワード

たまたまちょっとしたテクノロジーをよく使うクリエイター集団の中にいるため、周りにAI系の専門家が多かったりするわたしですが、それぞれ個別に雑談したり話を聞いたりしていて最近必ず出てくる２つのキーワードがあります。
それが題名でも書いた「生成AIエージェント」と「音声認識」。
ほんと意識合わせをしたかのように四方八方から口を揃えてみんな言っているので、ほぼこれらが来るのは間違いなさそうだな〜と思い記事にしました。

生成AIエージェントとは

生成AIエージェントは、AIの新たな可能性を広げる存在として今年はじめくらいから注目されていました。
ざっくりいうと、これまでのAIよりも多様な大規模言語モデル（LLM）を駆使して複雑なタスクを自律的に解決してくれる超すごいAIって感じでしょうか。
従来のツールが「支援」するだけであったのに対し、生成AIエージェントはタスクの「完了」を目指します。
この違いが企業の業務効率や生産性に大きな影響を与える可能性があるとのことで、去年くらいからいろんな人々が開発をはじめていました。
前はLLMマルチエージェントとか言われることもありましたが、最近は"生成AIエージェント"もしくは"AIエージェント"という感じに呼び名が統一されてきた感覚があります。

具体的になにができるの？

みんなが使い慣れているチャット型AIは基本的に質問をするとそれに対する返答をしてくれるという大変親切なAIです。

一方、AIエージェントで今までと何が違うかというと、質問を返す〜ではなく「これがしたい」とお願いするといろんな役のAIがそれぞれを補完して完了まで頑張ってくれるというものです。

なので、たとえば"旅行の計画"なんかを頼んだとき、対話型AIだったら候補を出しや行き方を考えたりしてくれますが、AIエージェントではそれに加え目的地の選定から宿泊施設の予約、移動手段の手配、そして観光スポットのリストアップまでを一手に引き受けてくれちゃうような感じです。
旅行中のスケジュール管理や、現地でのおすすめレストランの検索などもリアルタイムで行えるようになったりするかもです。

RAGと生成AIエージェントの違いは？

ここでよく出てくるのが最近便利に使われているRAGとの違いです。
RAG(Retrieval-Augmented Generation)は、特定の質問に対して事前に登録しておいた関連する情報を検索し、その情報を基に回答を生成する技術です。
内容は大規模言語モデル（LLM）によるテキスト生成に、外部情報の検索を組み合わせることで、回答精度を向上させたものです。

この手法は特定のデータや文書から情報を抽出する際にとても有効。
しかし、RAGは単純な質問応答に強みを持つ一方で、複雑なタスクや長期的な文脈の理解、複数の要素が絡むプロジェクト管理には向いていないのがちょっとだけ残念なところ。それでも超便利なのは代わりないのでよく使われています。
具体的にRAGで一番皆さんが身近なのはGPTsでしょうか。

もっとしっかりカスタマイズして自分専用のRAGを作りたいと思ったとき、前にわたしはDifyを試しました。Difyは簡単でしかもローカルでやれば全部無料でRAGを構築できるのでおすすめ。

一方、生成AIエージェントはRAGを超えてタスクの計画、実行、評価までを一貫して自律的に行ってくれます。
単に情報を提供するだけでなく、複雑な問題解決にも対応できる点で優れていて、たとえばマーケティングキャンペーンを全体的に管理し、進行状況をリアルタイムで監視し、必要に応じて計画を修正することなどが可能に。
場合によってはエージェントは複数のツールや外部システムと連携し、これらを組み合わせて複雑な業務を効率化していくところまでを目指すようです。

ここに「音声認識」が絡んでくる

LLMの進化と同時に音声認識もだいぶ精度が良くなってきた昨今。
すでに大手テクノロジー企業が提供する音声アシスタント（例えば、AppleのSiri、GoogleのGoogle Assistant、AmazonのAlexaなど）は、日常の音声コマンドに対してかなり高い精度で応答することができてますね。
最近はディープラーニングの進化や自然言語処理（NLP）との組み合わせで、音声認識の精度や速度が大幅に向上し、多言語対応や方言の認識も進んでより人間らしい対話ができるようになってきました。

音声認識が生成AIエージェントにもたらす変化

生成AIエージェントに音声認識機能が加わることで、その可能性が無限に広がるのはみんな想像つくと思います。
そう、音声認識の導入はやり取りをより直感的で自然なものにしてくれるのでUXが爆上がりです。
だって、会話しただけで全部まるっとお願いできちゃううんですよ。
やばくないです？？

具体的に音声認識×AIエージェントでどうなる？

ということで、ざっくり具体例をあげてみました。

ハンズフリー操作

どこにいても声だけでAIエージェントを操作可能。家事をしながらとか、運転中でも手を使わずに指示を出せるため、忙しい社会人にとっても大きな助けに。

リアルタイム対応

会議中にリアルタイムで議事録を作成したりスケジュール変更を即座に反映したりと、音声でのやり取りが即時に結果として現れるため業務効率がさらに向上！

パーソナライズサポート

ユーザーの声のトーンや言葉遣いを学習し、個々のニーズに合わせた対応が可能に。AIエージェントはまるで専属秘書のように、ユーザーに合わせたサポートを提供してくれる。

あれ、これってどこかで…
そう！わたしたちが夢にまで見た、なんでもやってくれるメイドロボットのようなものが目の前に迫ってきているのです!!!!🥳

…とそこまで急にロボット感が出るのはまだまだですが、スマホでも簡単に専属秘書のようなAIに指示を出せるみたいなのは近い将来なりそうですよね〜たのしみ！

生成AIエージェントが切り開く未来の世界

夢のような技術にも感じるAIエージェント。でも実はひっそりもうすぐそこに来ています。
今後、企業や個人がこの技術をどう活用していくかで働き方やコミュニケーションの形が大きく変わっていくんじゃないでしょうか。
なんでも叶えてくれる自分専用ロボットのようになるのはまだまだ先の話かもしれないけれど、パーソナルAIとして生活に溶け込んでくるのはそう遠くないように感じます。
これからの時代、AIエージェントが私たちの生活の中でどのように活躍していくのか、とても楽しみです✨