G検定 OpenAIとGPT-3 #2

株式会社リュディアです。今回は GPT についてまとめてみます。2020年に GPT-3 が発表され話題になりました。開発元のOpenAIについてまとめた前回の記事は以下です。

もともと自然言語処理統計的言語処理をベースにした機械学習モデルが主流でしたが、この10年で ディープラーニングディープニューラルネットワークへの移行が進みました。

その中の革新的なモデルとして文書内の単語間、文章間の関係を利用するトランスフォーマーモデルが発表されました。2017年のことです。トランスフォーマーモデルの発表以降、自然言語処理の研究は大きく進化しました。これらを利用して進化してきたものの1つが GPT です。Generative Pretrained Transformer の略です。無理に日本語にすると生成的事前トレーニングによるトランスフォーマーとでも訳すのですかね?

当初の GPT-11億1千万個のパラメータでしたが、その後の GPT-2 では16億のパラメータを用いました。またあまりに高度な文章を作成可能になったため当初モデルをすべて公開せず徐々に大きなモデルを公開していきました。学習は Reddit でユーザ評価の高い 800万ぺーじを人手で選択して行ったそうです。結果としては GPT-2 も凄まじい性能を示しました。

最新のGPT-3 は2020年5月に発表され最大で1,750億のパラメータを扱うことができます。また資本参加している Microsoft が独占的ライセンスを取得したことも話題になりました。

どうもさまざまな報道を見ていると GPT-3 で生成されたブログは人間が書いたのか GPT-3 が生成したのか区別できないレベルになっているようです。もうすでに Note の記事を GPT-3 で生成している方もおられるかもしれないですね。

ただ逆に言えば最大で1,750億のパラメータを扱うということは大きいモデルを生成ために膨大な時間を含むコストが必要ということになります。簡単に使ってみるというレベルのものではなく、チャンピオンデータとして世の中に示したという可能性もあります。

またGPT-3の開発を主導した Sam Altman は Twitter で以下のようなことを述べています。

まとめて和訳すると以下のような内容です。

評価されるのは嬉しいけど過大に評価されていると思う。深刻な弱点があり時々非常に愚かなミスをする。AIは世界を変えようとしているが、GPT-3はごく初期の断片にすぎない。まだまだ解明しなければならないことがたくさんある。

まだまだできることがあるから謙虚であるべきと考えているのか、実際まだまだ高いレベルを目指しているのかわかりませんが、これからも楽しみな分野ではあります。

では、ごきげんよう。



この記事が気に入ったらサポートをしてみませんか?