ChatGPTの活用ガイド(仮)の草案_入門パート_背景理解編(ChatGPT部、大城)

2024年6月29日 19:45

こんにちは、ChatGPT部、部長の大城です。前回のコチラの記事での目次の中身を具体的に書いていこうと思います(随時update)

生成AIとChatGPT・LLM(大規模言語モデル)の関係性

生成AI (Generative AI：ジェネレーティブAI)は様々なコンテンツを「確率的に」生み出す事ができるAIです。生成AIには以下のようなものがあります

・言語系生成AI (ChatGPT等)
・画像系生成AI (DALL・EやStable Diffusion等)
・動画系生成AI (Sora(未公開)やLuma AI Dream Machine等)
・音楽系生成AI (Suno AI等)
・音声生成系AI
など。

ChatGPTは言語系生成AIのリーダー的存在であり、大規模言語モデル(Large Language Models、LLM) とも呼ばれます。なお、ChatGPTは当初のChatGPT-3.5と呼ばれた時代はテキストでのやり取りのみの機能でしたが、最近のモデルでは画像生成のDALL・EをChatGPTから呼び出したり、最新のChatGPT-4o(オムニ)のデモでは音声生成をしたりと、ChatGPTがテキスト以外の情報のやり取りもできるようになってきました(マルチモーダル化、と呼ばれています)

生成AIという大枠の中で、言語系生成AIとして誕生したChatGPTが、テキスト以外のコミュニケーション方法を獲得しつつある(ように開発が進められている)、というのが本原稿を書いている時点での現状です。(2024年6末現在)

生成AIの利用はChatGPTから始める事をお勧めする理由

前述の記事でも述べましたが、生成AIにはさまざまな種類があります。
私が個人的にお勧めしている生成AI活用の学習方法は、「まずChatGPT、可能なら有料版のChatGPT Plusを活用する」という方法です。

生成AIを使うためには、多くの場合「言語」での指示が必要です。
(プロンプト、と呼ばれる指示文です)
(画像系生成AIの場合は、画像から画像を作る、という方法もありますが多くの場合はプロンプトも併用します)

サムアルトマンCEO率いるOpenAI社のChatGPTは、2022年11月末にChatGPT-3.5を発表して以来、大規模言語モデル開発の分野では最先端を走り続けており、筆者の個人的な意見としてはまずここを押さえておけば他の生成AIの活用や他社の生成AIについても６〜７割くらいはカバーできるはず、という体感値を持っております。

また先日、OpenAI社は無料ユーザー向けにも高性能なChatGPT-4o(オムニ)が一部試せる(現時点では10回/5時間、の利用制限あり)ようにサービスの改善を行いましたので、入門のツールとしては王道の１つ、とも言えます。
( もちろん、GoogleのGeminiやMicrosoftのCopilot、AnthropicのClaudeなどから入門する事も可能ですが、Copilotの裏側はChatGPTがベースであったり、GoogleやAnthropic社などはChatGPTを超える、という事を目指して開発が進められていますので、まだOpenAI社に一日の長があるかな、というのが個人的な印象です )

ChatGPTでできること(概要)

ChatGPTには以下のような機能があります。それらを組み合わせて、さまざまな業務の支援などを行なってもらう方法を各社・各自が試行錯誤しながら考えている、というのが現状です。

ChatGPTが実行可能な主な機能

・対話形式での会話
・検索の実行(昔はMS Bingを呼び出して検索してました)
・プログラミングの実行
・画像生成(DALL・Eと呼ばれる画像系生成AIの利用)
・マルチモーダル形式でのやりとり(別記事)
　・音声でのやり取りや、画像の認識などが可能です

なお、ChatGPTは「あたかも画面の向こうに人がいる」かのように振る舞います。
ですので、「あなたはこのような役割を演じてください」という依頼や、「私はこういう立場です」という情報、「創作活動をしてください」などの依頼にもテキストを通じて回答してくれます。

また、多言語への対応だけでなく、「プログラミング言語」にも精通しているのがポイントです。「こういう処理をするプログラムを〇〇言語で書いて」という指示や、Pythonなど一部の言語は実行も可能です。
( HTML言語でWebサイトを作成して、なども依頼可能です )

活用についてはアイディア次第、といった部分が多いですが、「課題を見極め、適切に指示を出せる力」が問われることになります。生成系AI時代には、これらのスキルは必須のものになる可能性があります。

なおこの記事は入門編ですが、業種別での利用方法については別途まとめる予定ですので、業務への活用アイディアについてはそちらもご参考にされてください。

マルチモーダルとは

マルチモーダル(AI) とは、異なる種類のデータを扱えるAIの事です。ChatGPTの場合、通常はテキストでのやりとりを行いますが、そこに画像をinput / outputとして利用したり、音声をinput / outputしたり、といった機能です。またこの記事を書いている現在の最新のデモでは動画に写った相手の表情やPCの画面をChatGPT-4o(オムニ)がリアルタイムで判断しながら人間とやりとりをする、といった事も実現していました。

個人的には「より人間と自然なコミュニケーションを可能にする技術」という文脈でマルチモーダル(対応、化)という表現がされている、という印象です。

個人的予想：マルチモーダル化の生成AIにとっての恩恵

マルチモーダル化は人間にとってもメリットがありますが、何より「人間の世界を理解しようとしているChatGPT」の学習にとってもメリットがあります。

朝目が覚めてからの1日を思い起こしてみると分かるのですが、現実世界の出来事は通常視覚や聴覚を中心に情報が入り、音声での会話を通じてコミュニケーションを行います( 手話や身振り手振りなどの非言語のやりとりも含まれるでしょう )。それらの経験を元に1日の振り返りの文章を作成したり、写真を撮ってSNS等で画像を共有したりします。

現時点でのChatGPTの学習データの多くはWeb上に存在するテキスト(Webサイトや掲示板等)や画像、動画、と言われていますがこれらの多くは前述の例の後者、「一度加工・整理された情報」であり、現実の世界にはまだまだChatGPTが学習しようと思っても手に入れられないデータが沢山あります。

これらのデータがどこまで未来のChatGPTや生成AIの性能向上に繋がるのかは現時点では未知数ですが、少なからず「人間が感じている・観測している世界」についてのデータは開発元であるOpenAI社やその他生成AIを開発している企業にとっては必要なデータでしょう。

一方でまた、味覚や嗅覚、触覚、感覚(圧力、温度や湿度)といった部分はまだChatGPT単体では認識することができません。将来的にはロボットとの融合、という文脈で触覚や感覚情報も認識できるようになる可能性は高いと筆者は考えていますが、味覚・嗅覚が求められる分野については最後まで仕事が残るのでは、とも考えています。

この記事が気に入ったらサポートをしてみませんか？