今月(2022年11月)29日、OpenAIから大規模自然言語処理モデルGPT-3の新しいモデル「text-davinci-003」が発表されました。
text-davinci-003は、これまでのモデルよりも高品質で長い文章を生成することができ、より複雑な指示にも対応することができます。
今回も色々と質問して、以前のモデルと比較してみました。
1.GPT-3の新しいモデルの概要
GPT-3は、2020年6月にOpenAIが発表した1,750億のパラメーターを持つ巨大自然言語処理モデルで、約45テラバイトの大量のテキストデータで事前学習しています。
GPT-3は、ファインチューニング無しでも、高精度な自然言語処理が行えることが特徴で、人間の書いた文章と見分けのつかない自然な文章を生成できるとして、話題になりました。
GPT-3で作成した偽ブログ記事がニュースサイトで1位になったり、GPT-3を使用したチャットボットが掲示板で誰にも気づかれずに会話を続けたという事例も報告されています。
なお、今年の秋以降、さらに高性能のGPT-4がリリースされると話題ですが、現在のところ、まだ発表はありません。
OpenAIは、今年(2022年)1月に、差別的な表現や暴力的な表現が含まれないように配慮し、従来よりもユーザーの意図に従った対応をするInstructGPTという新しい言語モデルを発表しており、今回発表されたtext-davinci-003は、このInstructGPTを土台として、開発者にとって重要な数々の動作を改善したものとなっています。
text-davinci-003の特徴は、以下の3点です。
より明確で説得力のある質の高い文章を生成できる。
より複雑なユーザーの指示にも対応できる。
より長い文章を生成することができる。
それでは、実際にtext-davinci-003を使ってみましょう!
2.GPT-3の利用方法
GPT-3は、以下のOpenAIのサイトにアクセスし、「GET STARTED」か「SIGN UP」をクリックして、アカウントを作成するだけで簡単に利用することができます。
GPT-3の利用は基本的に有料で、text-davinci-003の利用料金は、1000トークン(英文で約750ワード)で0.02ドル(約2.8円)です。
2022年11月時点では、アカウント登録時に18ドル分の無料クレジット(有効期限3か月)がもらえますので、気軽に試してみてください。
ログイン後に、画面左上の「Playground」をクリックすると、広大なテキスト入力画面が現れます。ここに指示する文章を入力して、左下の「Submit」をクリックすると、GPT-3が回答を返します。
なお、使用したトークン数は、画面右端の数字で見ることができます。
GPT-3の使用する言語モデルは、右端のModelのところで切り替えられますので、「text-davinci-003」にセットしてください。
ここで、「Show more models」をクリックすると、以前のバージョンの「text-davinci-002」などに切り替えることもできます。
また、これまでの使用料や使用期限は、右上のアカウント名をクリックして、プルダウンメニューから「Manage account」を選択して、確認することができます。
3.英語解答と日本語回答の比較
GPT-3は、日本語の質問にも回答してくれますので、text-davinci-003モデルに同じ内容の質問をして、英語の回答と日本語の回答を比較してみました。
日本語の質問に対しても、それらしい回答を返しますが、正確さなどの点で英語の質問への回答よりもかなり劣っているようです。
4.旧モデルとの回答の比較
英語の質問への回答の方が正確で適切な回答を返してくるので、この後は、英語で質問し、text-davinci-003モデルの回答(答①)と旧モデルのtext-davinci-002の回答(答②)を比較することにします。
(1) 簡単な質問
簡単な質問については、新モデルと旧モデルであまり差は出ませんが、新モデルの方が内容が新しくなっているようです。
(2) 歴史的な質問
世界史上の有名な事件について、ここに記載した以外にもいろいろ質問してみましたが、新しいモデルは、ほぼ正しく詳しい説明を返してきました。長い文章を生成できる新しいモデルの性能が十分発揮されていると思います。
ただ、英語の文献が少ないせいか、さすがに日本史の細かい事件まではフォローできていないようです。
また、GPT-3も他のAIと同じように、正確な答えが分からないときに、適当にそれらしい答えを作ってしまうところがあり、その点は危険だと感じました。
(3) 科学的な質問
基本的な知識の説明はできても、その知識を理解して応用することは、AIには、まだ難しいようです。
(4) 算数の質問
公式に数値を代入するだけの問題は、特に問題なく解けるようです。
筋道立てて考えることも、相当できるようになってきていますが、いくつかのステップが必要な複雑な文章問題はまだ難しいようです。
中学受験をしない平均的な小学生レベルの思考は、できるようになってきたように思います。
(5) 難しい質問
正解が一つではなく、答えにくい問題についても、差別や偏見に配慮したInstructGPTモデルを土台にしているせいか、偏りのない無難な回答を返すのが上手いと感じます。強い主義主張はなく、面白みはないのですが、合格点ではないでしょうか。
(6) 架空の出来事についての質問
架空の出来事について質問した場合に、どう答えるのかについて試してみました。
オスタニアもウェスタリスも、アニメで有名な存在しない架空の国ですが、それらしい回答を返してきます。これが架空の出来事だと見破るのは難しいのではないでしょうか。
5.まとめ
以前、GoogleのFlan-T5モデルなどに質問したときに比べても、全体的にだいぶレベルが上がっているようです。
また、以前のGPT-3は、まだ不自然な文章も多かったのですが、今回は、本当に人間が書いたような自然な文章になっている回答が多いです。
特に、歴史的事件や科学用語の解説のような知識の説明は、非常に正確で、理解しやすいようによく整理されており、十分、レポートなどの実用に耐えるものになっています。
解答の内容も高度で専門的であり、長い文章を生成できるようになったtext-davinci-003の特長が生かされていると感じました。
知識の応用についても、算数の問題について、ステップに分けて考えていくなど、かなりの進化が見られました。
この分野は、汎用AIの実現に向けて重要な部分であり、今後、さらに研究開発が進んでいくでしょう。
一方、回答が分からない質問に対して、適当にそれらしい回答を作成してしまうというAI特有のクセが残っており、この点は、意図せずにフェイクニュースを拡散してしまう恐れもあり、かなり問題だと感じました。
分からないものは、分からないと答えることができるような仕組みが必要になると思います。回答の信頼度を評価して、一定の信頼度に達しないものは分からないと答えるようにするなど、何か方法はあるのではないでしょうか。
Stable Diffusionが公開されてからの最近の画像生成AIの成長は凄まじいものがありますが、筆者は、自然言語処理AIこそシンギュラリティ実現の要であると考えており、この分野には非常に期待しています。GPT-4は一体、どのようなものになるのでしょうか。
そして、人間と同じように対話できるAIが出現したら、もうシンギュラリティが到来したと認めてもよいのではないかと思っています。
それが近いうちに実現することを期待して止みません。