OpenAIのAPIでGPT-3をサイズ別で試してみた
GPT-3とは?
2020年7月に最先端AIの研究団体であるOpenAIが発表したうテキスト生成のための機械学習モデルです。人間が書いたものと遜色がつかないレベルの文章がかけてすごいとリリース時にニュースになりました
GPT-3は過去のものと比較してどれくらいすごいか?
単純化して言えば、モデルの性能 = パラメーターの数(生き物の脳細胞の数みたいなイメージが近いかもしれません)です。
前バージョンのGPT-2のパラメーター数は15億程度でしたが、GPT-3は1750億パラメーターという圧倒的な数値です。2022年末時点では、単一のマシン(普通のインフラ)で動かすことができるのは多くとも100億パラメーター程度だと思います。
今回試してみたこと
GPT-3は一般人にはまず動かすことができない巨大モデルかつ、そもそも公開されていないので、OpenAIが提供している有料のAPI経由で利用することになります。
今回は試したことは以下です。4種類のベースのGPT-3モデルがあるのでそれぞれを使って試してみています。
平均300文字のテキスト100個でのFine-tuning(学習済みのモデルに対して小規模データで追加学習)
Fine-tuningしたモデルでの文章生成
費用
費用の前提
まず基本となるモデルはAda、Babbage、Curie、Davinciの4種類があります。
一番大きいDavinciが1750億パラメーター、次に大きいCurieでも67億なのでオリジナルのGPT-3の性能を期待して使うならDavinci一択となります。
今回の文章は全部で37469文字、5.5万トークンでした。決済ページを見ると22万トークンでしたが、同じデータで学習を4周しているので、おそらく5.5万の数字の方が正しいと思われます。
トークンは文を細かく区切った要素のことで、テキスト生成のモデルはトークン単位で課金が行われます。
Fine-tuningにかかった費用
デフォルトの4エポックで学習し、費用はそれぞれ以下です。Davinciがやはり圧倒的に高かったです。
Ada:$0.09
Babbage:$0.13
Curie:$0.66
Davinci:$6.64
生成にかかる費用
Davinciで1時間くらい生成を行いながら、テキスト系作業を動かしていたのですが、だいたい$4くらいでした。残りの$7は学習とその他の検証で使っています。
モデルサイズごとの費用はこちらです。やはりDavinciが圧倒的に高いです。
生成の所感
プライベートなデータで試したので実例はなしとさせてください。
公開されている10億パラメーターのモデルで遊ぶことはよくあるのですが、一番小さいAdaはそれよりも生成される文章の質が低いと感じました。
自分で実行環境を準備できる人であれば、お金を払って使う意味は正直薄いです。
最もサイズが大きいdavinciは1〜2割くらいですごいと感じられる生成文章を作ってくれる印象です。元データにはないが、文章としてしっかり成立していて元データと近い雰囲気の内容が出てきます。
GPT-3はすごいという記事を一昔前によく見ましたが、試行錯誤と入力内容の工夫があれば、記事に出ているようなすごい結果は引き出せます。
残り2つのBabbageとCurieはあまり試せていないのですが、DavinciよりはAdaよりの結果でした。
パラメーター数を考えると性能差は妥当かと思います。
まとめ
Davinciはテキストの執筆補助としてかなり便利でした。数とある程度の質が求められるライティングであれば効果はかなり大きいです。
機械的に作った書き出しで文章生成を何回かやる⇨使えそうな文の要素を切り出して、そこから文章として組み立てていくという運用がよさそうです。
文章生成は1時間フルで使っても1000円いかないくらいなので、適切なFine-tuningと運用体制は前提とすれば、ポテンシャルは大きいと思います。
もし試してみる方がいるとしたらCurie以下は試してみる程度にして、Davinciを使うことを強くおすすめします。
余談:gpt-{x}のオオカミが来たぞ問題
最新モデルは常に危険に見えるようです。GPT-3は状況を選んで10回くらい試行錯誤できるならかなりすごい有用だとは思うので、いつか本当に危険なモデルが来そうです。
GPT-2
2019年2月:1.2億パラメーターモデル公開
2019年5月:3.5億パラメーターモデル公開
2019年8月:7.7億パラメーターモデル公開
2019年11月:15億パラメーターモデル公開
GPT-3
2020年6月:1750億パラメーターモデル公開
この記事が気に入ったらサポートをしてみませんか?