見出し画像

Ghelia Tech Talk ChatGPTについて

前置き

初めまして、Ghelia Tech Talk 運営委員です。
ギリア株式会社(以下「ギリア」と表記)では、社内の技術者が技術的なテーマについて語る社内イベント『Ghelia Tech Talk』を実施しています。先月のGhelia Tech Talkでは、ChatGPTを主題として取り上げました。ギリアの中の人はChatGPTについてどんなことを話し、どう捉え、どう向き合って行こうと考えているのか、Ghelia Tech Blogを通して紹介させていただきます。

すでに語り尽くされているChatGPTをなぜ取り上げるのか?

私たちはいま、ChatGPTに関する無数の解説動画や記事を目にするようになりました。それは「ChatGPT」の文字を見ない日がないほどです。
しかし、残念ながら、中には事実と意見を混同しているものも少なくありません。例えば、ChatGPTに実装されている言語モデルであるGPT-4のパラメータ数は100兆であると、一部のメディアやSNSから発信されています。ですが、ChatGPTを開発したOpenAI社のCEOはこれを否定しています(*1)。このように、私たちはChatGPTのようなAIのみならず、SNSのような情報ソースの確からしさにも対処しなければなりません。
そこで、ギリアでは社内の自然言語処理のエキスパートに話を聞く機会を設けました。ChatGPTが生まれるまでの歴史や技術について事実のシェアと、その事実をもとに巨視的な動向や未来を推し量るという試みです。すると、OpenAI社が「ChatGPTはあらゆるアプリのハブになる」という興味深いアイデアを持っていることがわかりました。この記事ではギリア社内で出たChatGPTについてのアイデアや議論の美味しいところを読者の皆さんへお伝えします。
ChatGPTとはなにか、なにがすごいのか、今後どうなるのか。
読者である皆さんにインスピレーションを与えることがこの記事のゴールです。

ChatGPTとはなにか?

最先端の技術が実装されたサービスが、急速に普及しビジネス環境に大きな影響を与えている

ChatGPTと聞いて多くの人が脳裏に思い浮かべるのはWebサービスとしてのチャットボットでしょう。このWebサービスはエンジニアのみならず、ノンデベロッパーも使っており、2022年11月のリリースからわずか2ヶ月で月間アクティブユーザー数は1億人を超えたと推計されています。この成長スピードはInstagramやTikTokを上回っています(*2)。
この市場に浸透する速度は驚異的です。一般に、新製品が市場に浸透する過程では一定の時間を要します。新製品の初期のユーザーというのは、新しいアイデアや新しい技術を好む人たちです。マーケティング分野ではこのような人たちをイノベーターと呼びます。イノベーターは新製品についての情報を収集し、製品の価値や利益を評価します。その評価と口コミによって市場における信頼性と信用性が確立されていきます。次いで、新しい技術の導入に対して慎重な人たちが徐々にユーザーになる段階を迎えます。新製品が市場に普及するプロセスはこのようにモデル化されており、一定の時間が必要だと考えられています。
ChatGPTはキャズム(製品やサービスを市場に浸透させる際に発生する障害)を超えたのか、超えたとすればなぜ驚異的な速度で超えられたのかという問いは興味深いです。
ChatGPTは公開以降、個人のユーザーのみならず、企業や公官庁の間でも利用が増えているようです。企業内では業務の効率化であったり、自社サービスにChatGPTを取り入れる事例が見受けられます。官公庁ではマニュアルの改定や議事録の要約といった作業の効率化や、初期の相談相手としてChatGPTの導入を進めているようです。
このようにChatGPTは最先端の技術であるにもかかわらず、ビジネス環境へ急速に浸透し大きなインパクトを与えていると言っていいでしょう。

ChatGPTの裏側には、膨大な情報から適切な情報を引き出す大規模言語モデルがある

ChatGPTのチャットボットは、これまでのものと比べて人の指示に対して自然な応答を返すようになりました。自然な回答を返すChatGPTの内部では次のことばを推論する処理をしています。ChatGPTではこの処理に大規模言語モデル(LLM:Large Language Model)であるGPT-3.5やlarge multimodal modelであるGPT-4を使用しています。
GPTはGenerative Pre-trained Transformerの略であり、OpenAI社が開発する主に言語モデルを指します。GPTはTransformerと呼ばれるアーキテクチャをベースにしており、大規模なテキストデータセットを使って、自己教師あり学習を行うことが特徴です。はじめのGPT-1は2018年にリリースされた言語モデルで、複雑なタスクでは性能を発揮しませんでした。そこからパラメータ数や学習データ数、学習量の増加に伴ってより複雑なタスクにも対応できるようになりました。

図1 ChatGPTの主なファミリー

ChatGPTではGPT-3.5やGPT-4を使うことで膨大な情報の中から適切な情報を選択し、それらしい文章を生成できるようになりました。

ChatGPTがなぜ生まれたのか?

ChatGPTは技術的には連続的な進化である

WebサービスとしてのChatGPTには言語モデルとしてGPT-3.5、GPT-4が使用されています。GPT-3.5、GPT-4は以下の図2に示す関係にあり、数ある大規模言語モデル(LLM)の中の1つです。GPT-3.5やGPT-4は様々なタスクで従前のGPTモデルを上回る性能を発揮します(*3)(*4)。

図2 技術における言語モデルの関係

GPT-3.5やGPT-4の登場に至るまでの系譜を紐解くと、RNN(Recurrent Neural Network)とTransformserの存在があります。GPT-3.5やGPT-4の技術的なジャンプはRNNやTransformerほどではないと私たちは捉えています。RNNは過去の情報を状態ベクトルとして保持するため、文脈を考慮するタスクに適用できるようになりました。また、Transformerは文章中で遠く離れたことばの関係性をRNNよりも効率的にモデル化することができるため、より自然なことばを生成できるようになりました。このようにChatGPTに使われている技術はTransformerまでに概ね形になっていると言えます。

ChatGPTはどう使えるのか?

ChatGPTを利用する経路は主に2つのパターンがある

ChatGPTはWebサービス(チャットボット)の印象が強いですが、ユーザーは主に2つの経路からChatGPTを利用できます。

  • Webサービス(チャットボット)

    • OpenAI社はChatGPTをチャットボットとしてWebサービスを提供しています。さらにプラグインによって機能を拡張することができます

  • API

    • ChatGPTの機能をAPIとして提供されており、開発者はChatGPTを利用したアプリケーションやサービスを開発することができます。

ChatGPTそのものは汎用的なので、あらゆる人が新しい用途を日々開拓しています。

図3 ChatGPTの利用パターンの概念図

ChatGPTを実装する上でケアが必要な課題

ChatGPTがあらゆる場面で使えることがわかってくる一方で、使う上での課題も見えてきました。企業には知的財産権の保護や機密情報の漏洩リスクへの備えが求められます(*5)(*6)。また、技術上の課題としては大きく分けてハルシネーションとAPIとしての利用における不確実性の2つが挙げられます。
ハルシネーションはChatGPTが人工的に生成した文章には存在しない情報や事実を含むことを指します。ハルシネーションが起きる理由は、いくつかの可能性があります(*7)。1つはChatGPTが大量の文章を学習しており、その中に誤った情報が含まれている場合には事実と異なる結果を出します。他にもモデルの学習に原因があったり、推論するテキストが長いとハルシネーションを引き起こす可能性が高まったりします。
 この課題に対応する手段の1つとして、ChatGPTが参照する知識のデータベースの信頼性を高めることがあります。例えばBing検索のような外部ツールと合わせて利用することで、ChatGPTが生成する文章のハルシネーションを抑えることが期待できます。

もう1つの課題として挙げた、APIとしてChatGPTを利用する際の不確実性とは、ChatGPTが生成するテキストやその出力形式がユーザーの求めるものと一致せず、その時々によって出力が揺らぐことです。ユーザーが期待する動作と異なる結果を返すことは、ユーザーからの信頼が得られず、他のサービスにスイッチするというビジネス上のリスクを高めてしまいます。
この不確実性は出力を厳密に定義することで軽減できますが、完全になくすことは難しいと考えています。むしろ、このような振る舞いの幅はChatGPTのような大規模言語モデルの非常に汎用的な能力の源泉になっています。

では、どうするべきか?
ChatGPTのような技術は目的ではなく手段です。無理に使おうとするのではなく、ChatGPTのできることを理解し、効果を発揮できるところへ適用するという発想の転換が必要です。

ChatGPTは今後どうなっていくのか?

性能の改善に加え、進化の方向性としてマルチモーダルが発展する

ChatGPTは現在でも優れた性能を発揮していますが、改善の余地もあります。先程挙げたハルシネーションの対処や、より自然かつ適切な応答を生成するモデルの改善は大規模言語モデル分野で進められていくと思われます。

また、現在のChatGPTのWebサービスはテキストベースの対話に特化していますが、現実のコミュニケーションはテキスト以外のモダリティが存在します。例えば、音声、画像、動画などです。これらに対応したマルチモーダルなモデルの発展によってより自然なコミュニケーションを実現することができます。実際、GPT-4はマルチモーダルなモデルであり、テキストと画像を処理できるようになりました。マルチモーダル領域の研究開発が進むことで多様なモダリティを扱えるようになると期待しています。

ChatGPTをコアとしたサービスがあらゆるところで生まれる

ChatGPTのアウトプットは不確実性があるため、ビジネス利用を慎重にならざるを得ないところがあります。
一方で、他のツールのハブとしての利用に向いていると私たちは考えています。ChatGPTはAPIやプラグインを通じて、他のツールやサービスとの連携を可能にします。私たちユーザーはいくつかの指示をChatGPTへ与えるだけで、他のツールを使って出力をより良いものにしてくれるようになります。

ここから見えてくるビジョンはChatGPTのようなAIが中心にいるプラットフォームの誕生です。プラットフォームビジネスはユーザー、サプライヤーなど複数の利害関係者を結びつけるビジネスモデルです。プラットフォームビジネスではユーザーが増えるほど、プラットフォーム上の価値が増大し、ネットワーク効果が生まれます。ChatGPTをコアとしたプラットフォームは、プラットフォーム上の無数の外部ツールと連携し、ユーザのニーズに合わせたサービスを提供することができます。

今回、OpenAI社はChatGPTのAPIを破格の価格で提供しています。ChatGPT(GPT-3.5-turbo)は以前の最良モデル(GPT-3-davinci)よりも安価に使うことができ、その価格差は約10分の1です。

より低い価格を設定するこのようなプライシングは、多くのユーザーを獲得し、市場シェアを拡大するためのプライシング戦略として捉えられます。このプライシング戦略によって、ChatGPTと連携するサービスやアプリケーション開発の初期投資を抑えることが可能になりました。また、LLM自体はOpenAI社以外でも開発できるため、ビッグ・テックのような企業がChatGPTの競合となるサービスを展開することが想像できます。このような展開に備えて、OpenAI社は先行者優位を築こうとしているのかもしれません。

ChatGPTは自然言語処理を中心とした分野で、新しいビジネスの可能性を示しました。その高い汎用性と、広く一般のユーザーや開発者にも利用しやすいUIがあり、多言語にも対応しているため、多くの人々にとって利用のハードルが低い技術となっています。今後もChatGPTやその他のLLMなどの技術と、それらから生まれる様々なビジネスチャンスは注目を集めることでしょう。

最後に

最後まで読んでいただきありがとうございました。今後もGhelia Tech Blogを通して、ギリアの技術への向き合い方や捉え方について発信していければと思います。


*1: ザ・ヴァージ OpenAI CEO Sam Altman on GPT-4: ‘people are begging to be disappointed and they will be’ https://www.theverge.com/23560328/openai-gpt-4-rumor-release-date-sam-altman-interview
*2: ロイター チャットGPT、ユーザー数の伸びが史上最速=UBSアナリスト https://jp.reuters.com/article/idJPKBN2UC04M
*3: OpenAI Inc. Aligning language models to follow instructions https://openai.com/research/instruction-following
*4: OpenAI Inc. GPT-4 https://openai.com/research/gpt-4
*5: STORIA法律事務所 大規模言語モデル(LLM)に関連するビジネスを展開する際に留意すべき法規制・知的財産権・契約 https://storialaw.jp/blog/9239
*6: Cyberhaven 11% of data employees paste into ChatGPT is confidential https://www.cyberhaven.com/blog/4-2-of-workers-have-pasted-company-data-into-chatgpt/
*7: arXiv Survey of Hallucination in Natural Language Generation https://arxiv.org/abs/2202.03629


この記事が気に入ったらサポートをしてみませんか?