見出し画像

AIと教育と本

こんにちは、とうこう・あい代表の鐘ケ江です。

当社は「出版×広告×技術で未来を創る。」を合言葉としており、広告会社ではありますが、特に情報技術の研究開発に力を入れています。

2023年も年の瀬となりましたが、今年を振り返り、最も印象的だったトピックについて書きたいと思います。それは、AIの劇的な進展です。

これまで研究段階にあったものが、「ChatGPT」というツールの公開で一気に実用的になり、この一年でとても身近なものになりました。

先日Googleが公開した「Gemini」のデモを見て、これまで私たちがSF作品の空想の中で親しんできた人工知能が、ほぼ現実のものになってしまったと驚愕しました。

急速に進化を始めた彼らですが、今後はAIそのものを開発する技術と同じかそれ以上に、彼らをどのように教育するかが重要な課題となります。

そして、人間の教育と同様、彼らの教育にも「本」の果たす役割は大きく、その活用方法の確立や仕組み作りに、これから積極的に取り組んでいく必要があると私は考えます。

AIと教育

ここまでAIが実用的になってきた要因として、その仕組みの進化は当然のことながら、AIの教育が進んだことが大きいです。

以前に、基礎的なディープラーニングの自分でプログラムを組んで、動かしてみたことがあります。その時に使った参考書がこちらです。

↑当時の私の感想です。(ちょうど6年前)

それこそ、数学やプログラミングが得意でない自分でも、手元のPCで小さな人工知能を作れた、というのはとても貴重な体験でした。この本は本当に素晴らしいと思います!

この体験から私が得たAIに関する一番の示唆は、優れた頭脳(プログラム)があっても、相応の教育(学習データ)がなければ真価を発揮しない、ということです。

この本では、課題を順番にクリアしていくと、最終的には画像認識のディープラーニングプログラムを完成させることができます。

ただし、作ったそのプログラムを実際に知能として機能させるには、どの画像が何を示しているのかという知識を、まずはしっかり教え込む必要があります。教育しなければ、それはツルツルでシワが一本もない脳みそのようなもので(イメージ)、人工知能として全く働きません。

そしてその教育には、教材として膨大な学習データが必要になります。ここではそれがサンプルとして既に用意されていて、すぐにプログラムを動かすことができます。

プログラムが実際に機能することに感激した傍らで、私が思ったのは、むしろ実はこのデータを準備するのが大変なのではないか…ということでした。そして、もしこのデータに間違った内容が含まれていたなら、この人工知能も誤った判断をしてしまう、ということです。

どのような内容の学習データをどれだけの規模で用意し学習させるか、これがAIの性能に決定的に影響を与えることをその時に実感しました。

ChatGPTの教育の変化

では、いま世の中を席巻しているChatGPTはどのように教育され、その学習方法はバージョンごとのにどのように変わっていったのでしょうか?

本人のことは本人に聞くのが一番早い!ということで、まずはChatGPTにどのような教育を受けているのか聞いてみました。

ChatGPTは、大規模なデータセットに基づいて教育されています。このプロセスは、以下のステップを含みます:

1. **データ収集**: ChatGPTは、インターネット上で利用可能なテキストデータの広範なコレクションから学習します。このデータには、書籍、ウェブサイト、ニュース記事、フォーラムの投稿などが含まれています。

2. **事前学習**: このステージでは、モデルは言語の基本的な理解を学びます。事前学習では、テキストを予測するタスクを使用して、大量のテキストデータからパターンを学習します。たとえば、与えられた文の次の単語を予測するように訓練されます。

3. **微調整**: 事前学習の後、モデルは特定のタスクやアプリケーションに合わせてさらに学習します。これはしばしば「微調整」と呼ばれ、モデルに特定の種類の応答や情報を生成する方法を教えるために使用されます。

4. **継続的な学習**: OpenAIは継続的にモデルを更新し、新しい情報を統合し、パフォーマンスを向上させるために追加のデータで学習を続けています。

5. **人間のフィードバック**: ユーザーからのフィードバックや専門家による評価も、モデルの学習プロセスに含まれます。これにより、モデルの応答がより正確で有用になるように調整されます。

この教育プロセスを通じて、ChatGPTは多様なトピックについての知識を得て、様々な質問やタスクに対応する能力を持ちます。ただし、モデルは完璧ではなく、常に改善の余地があることに留意することが重要です。

https://chat.openai.com/share/77905b5e-82db-4571-883e-522eb66679eb

ChatGPTはインターネット上にある膨大な情報を知識の下地として学習し、人間による調整やフィードバックを受けながら、その性能を進化させてきたことがわかります。

次に、ChatGPTが3→ 3.5→ 4とバージョンを上げるごとに、なぜ性能を向上させることができたのか、その理由を尋ねてみました。

ChatGPTの各バージョン間での性能の違いは主にモデルのサイズ、トレーニングに使用されたデータ、そしてアルゴリズムの改善に基づいています。ここでは、ChatGPT 3, 3.5, そして 4 の主な違いを概説します。

ChatGPT 3 
モデルサイズと能力
: GPT-3は約1750億のパラメータを持ち、その当時では最大級の言語モデルの一つでした。この大規模なモデルにより、より多様な言語タスクにおいて高い性能を発揮することができました。
トレーニングデータ: 2019年までのインターネットからの広範なデータセットを使用してトレーニングされました。
用途: 広範な一般知識と文章生成能力が特徴で、多くの言語タスクにおいて優れたパフォーマンスを示しました。

ChatGPT 3.5
改善されたアルゴリズム
: GPT-3.5はGPT-3と同じパラメータサイズを持っているものの、トレーニングアルゴリズムとデータセットの改良により、より精確で関連性の高い応答を生成する能力が向上しました。
更新されたトレーニングデータ: 2021年中ごろまでのデータを含む、より最新のデータセットを使用してトレーニングされました。
性能の向上: 特に文脈理解や長い対話における一貫性が向上しました。

ChatGPT 4
モデルサイズの増加
: GPT-4は約600億のパラメータを持ち、これによりより複雑な言語理解と生成が可能になりました。
高度なトレーニング技術: より洗練されたトレーニング手法と最新のデータセットを使用しています。これにより、前のバージョンよりも正確性と文脈理解が向上しています。
多言語対応と柔軟性: 多言語対応が強化され、より多くの言語で高品質な応答が可能になりました。また、複雑なタスクやクリエイティブな問いに対する対応能力も向上しています。

各バージョンのアップグレードは、技術の進歩、データの質と量、およびユーザーからのフィードバックに基づいています。これにより、より自然で正確、かつ多様な応答を生成する能力が向上しています。

https://chat.openai.com/share/3a939498-7e48-4d4e-aa6b-1d914fbff7d9

モデルサイズと能力、アルゴリズム、に当たる部分がAIそのもののプログラムの性能だとすると、それ以外の部分では、やはりトレーニング用のデータセットやトレーニング方法が大きなポイントになっています。

つまり、AIそのものの性能向上もさることながら、どのような知識(学習データ)を与え教育するかが、AIの進化にとって決定的に重要である、という事実が、このChatGPTの進化のプロセスからも分かります。

AIと教育と本

さて、ここからAIと教育と本の関係、及びAIの教育に本を使う場合に生じる課題について考えてみます。

いまいちど、ChatGPTに与えられた知識について確認すると、

ChatGPTは、インターネット上で利用可能なテキストデータの広範なコレクションから学習します。このデータには、書籍、ウェブサイト、ニュース記事、フォーラムの投稿などが含まれています。

https://chat.openai.com/share/77905b5e-82db-4571-883e-522eb66679eb

とあり、書籍(本)も学習データの一部として取り込まれていることが分かります。

言わずもがな、人間の教育にとって本は知識をインプットするための主力ツールであり、AIに教育を施す際にも欠かせない資産であると言えるでしょう。

書籍を次々にスキャニングしデータとして取り込んで行ったGoogleBooksのプロジェクトは、当然このような状況を見越して行われてきたものだと想像できます。

しかし、AIが本を読む、というこれまでになかった状況に対応するためには、いくつかの大きな課題があり、法律や規制の制定に関わる各国政府や公共機関、本の生産・流通を支える出版業界は、積極的にその解決に取り組んでいく必要があると考えます。

以下、特に重要と思われる課題を挙げます。

1.著作権法の整備
著作権で保護された書籍をAIが利用する際の扱いを、著作権法で考慮していく必要があると考えられます。例えば、AIがある著作物を学習した上で、それをフェアユースの範囲を超えて引用したり、もしくはオリジナル作品の重要な部分を利用して新たな作品を生成した場合、元の作品の著作権を侵害したと見做される可能性が高いです。

2.許諾管理システムの開発
AIに書籍の利用を許諾するとして、誰が(著者、もしくは出版社が)誰に(どのAIに)どのように利用することを許諾したのか、記録するシステムが必要になります。また、その許諾内容を元に、実際にコンテンツが正しく利用されているかを監視・制御する仕組みも必要になります。

3.新たなビジネスモデルの導入
今後の出版ビジネスを見越した上では、AIが書籍を利用した際に、著者や出版社に対してその対価を還元するモデルが必要になります。APIの開発といったAIが使いやすい形での書籍の提供(サービス形態)や、どのような形で利用した場合にいくらの対価を発生させるか(値付け)、料金をどのように計測し請求するか(課金方法)、などが具体的な課題になります。

これらの課題をクリアしていくことで、本はAIという新たな読者を得ることができ、出版ビジネスの可能性がまたひとつ広がっていくことになると思います。

この記事が気に入ったらサポートをしてみませんか?