超低価格で長文要約が可能に:GPT-3 「16k」が登場(簡単な使い方は?)
OpenAIのGPT-3、GPT-4もいろいろとアップデートがありました。注目点の1つはGPT-3で扱える文字数が大きく増加したことです。GPT-4より精度は落ちますが、英語の長文要約などでは実用的かもしれません。
これまでのGPT-3は「4k」でしたので、「16k」になり一度に送信できる文章の量が大きく増加しました。GPT-4なら32kもありますが、ほとんどの人はまだ8kしか使えるようになっていないかと思います。
というわけで、実際どれくらいの文章をどれくらいの値段で取り込めるのかざっくり計算してみたいとおもます。
トークン数と文字数
こちらのOpenAIのサイトで実際に文章を入力してトークン数を数えることができます。あまり長いと数えてくれないようですが。
1kトークンあたりだいたい何文字送れる?
日本語ですと1kトークン(1024トークン)でだいたい600〜700文字くらいです。だいたいトークン数の2/3くらいの文字数が送れると考えています。たしかひらがなだとだいたい1文字1トークン、漢字だと1文字1〜2トークンだった気がします。
英語ですと1kトークン(1024トークン)で4500文字くらい送れます。ざっくりトークン数の4.5倍の文字数が送れると考えています。英語は文字数ではなくだいたい1ワードあたり1トークンとなります。そういうわけで同じトークン数でも日本語よりも多くの文字数を送れます。(現状日本語で送るのは損)
これまでの「4k」のGPT-3はどれくらいの文章を送れる?
4kで4096トークンらしいので、おおまかに
・日本語:2700文字くらい
・英語:18432文字、4000ワードくらい
ちなみにChatGPTの中で使えるGPT-3もこれまでのAPIの最大のトークン数と同じ4kトークンまで送れるようですね。
あたらしい「16k」のGPT-3ではどれくらいの文書を送れる?
16kで16385トークンなので、おおまかに
・日本語:11000文字くらい
・英語:75000文字、16000ワードくらい
※ちなみに16384トークンかと思っていたが16385だった
これなら例えば、だいぶ取り込める論文が増えるのではないでしょうか?自分がよく見る論文だと10000ワード以内のものが多いです。
値段は?
4kのGPT-3の値段
従来の4kのGPT-3は値段が安くなりました。
入力:1kトークンあたり$0.0015
出力:1kトークンあたり$0.002
16kのGPT-3の値段
入力:1kトークンあたり$0.003
出力:1kトークンあたり$0.004
ということで、およそ10000ワードの論文を入力して、500ワードつまりおよそ0.5kトークンに要約して出力と仮定して計算してみます。
1つの論文まるまるを入力して要約してもらう場合の値段
およそ10000ワードの英語論文を入力:10kトークンとして$0.03
500ワードに要約して出力:0.5kトークンとして$0.002
合計で$0.032です。日本円だと1論文あたり4 ~ 5円くらいですね。
使用料金の確認
過去に使用した分の料金は以下のページから確認できます。たしか使いすぎないように限度額を事前に設定できたと思います。
簡単な使い方
OpenAIのPlaygroundを使う
最初は気づかずにPythonでコードを書いてAPIを呼び出して使っていましたが、OpenAIが提供しているPlaygroundで簡単に使えるようになっていることに気がつきました。もちろんAPI使用料はかかりますがコードを書かずに楽に使えます。
設定方法はPlaygroundで
・Mode:Chat
・Model:gpt-3.5-turbo-16k
にします。そうすることで「16k」のGPT-3が使えるようになります。
Playgroundだと出力が2kトークンまでなので注意
ただし、Playgroundでの出力は最大で2048トークンとChatGPTの半分程度までしかできないようです。入力は16kまでできると思います。より長い文章を出力したいときはコードを書いてAPIを呼び出すなどするしかありません。(たとえば、長い英文をすべて日本語にしてもらうときなど)
もしこの記事に需要があればですが、コピペだけで使える自分のPythonのコードを載せた記事を書こうかと思います。
使い方の例・やってみてどうだった?
やってみた
例としてWikipediaの「デジタルトランスフォーメーション」の要約をしてみます。
文字数は9749、トークン数は13101でした。ChatGPTに送ったり、以前の「4k」のGPT-3に一発で取り込むのは無理な文字数(トークン数)です。
今回は要約ということで出力のトークン数が小さいのでPlaygroundで実行します。「SYSTEM」に指示(プロンプト)を、USERにWikipediaの文章をコピペします。
Submitすると返事が返ってきます。
こんな感じで、別のことを頼みたいときはSYSTEMに別の指示を出します。GPT-3なのでもっと明確に細かく指示を出した方がいいかもしれません。
感想:ChatGPTのように途中で止まらないのは便利
ChatGPTだと何度も途中で出力が止まって「continue generating」を押さないといけないときがありますが、API呼び出しだとそれがないので楽です。
感想:用途によってはまだまだトークン数が足りない!
内容が整っていない日本語のPDF資料から目次を作ってもらおうとして全文を入れてみましたが、ふつうに長すぎてオーバーしました。送るまで5万文字以上あるPDFだというこに気づきませんでした…
実際のところGPTに長文を読み込ませる意味はあるのか?
現状
まずGPT-3なので何かお願いするとしても精度が劣ります。ふだん自分はGPT-4しか使っていないので、いつもの調子でプロンプトを書いているとうまく行かない感じがします。特に英語以外の言語はきついかもしれません。
とりあえず現時点でぱっと思いつくものとして、YouTubeの字幕の要約には役立つかなと思います。また、あまり内容が整理されていないそこそこ長い文章のPDFなどから目次を作ったり、確認したいことのみを抜き出したりするのには役立ちそうです。
今後に期待していること・やってみたいこと
・GPT-4に本や資料をまるまる1冊読み込ませて「これこれについて書かれれている箇所を表にしてください」とかやってみたいですね。以下のツイートのようにトークン数的にはもっと伸びてもらわないと無理ですが。
・数千本の論文や書籍を読み込ませて、先行研究のまとめやイントロダクションをプロンプトだけで書かせてみたいです。「〜について書かれている論文とその箇所を表にしてまとめて」とかもやってみたいですね。
・GPT-4のAPIを安く使いたいです。GPT-4 32kをGPT-3 16kと同じくらいの価格で使いたいですね。現状、GPT-4のAPIは気軽にバンバン試せる金額ではないです。
・毎日会話していることを覚えてもらって、本人に合わせたサポートや会話をしてほしいです。これができると「自分のことを一番よくわかってくれるのは人よりもAI」みたいなことが起きるかもしれません。人の一生を記憶してもらうにはどれくらいのトークン数が必要なんですかね、、、
まとめ(with ChatGPT)
OpenAIのGPT-3は、扱える文字数が「4k」から「16k」に増加し、より多くの文章を一度に取り扱うことが可能になりました。
同じトークン数で、英語は日本語よりも多くの文字数を送れます。具体的には、日本語は約600~700文字、英語は約4500文字となります。
「16k」のGPT-3では、日本語では約11000文字、英語では約75000文字または16000ワードが送信可能となります。
GPT-3の料金は、入力が1kトークンあたり$0.003、出力が1kトークンあたり$0.004となっております。
OpenAIが提供するPlaygroundでは、簡単にAIを使用することができますが、出力は最大2048トークンまでとなっております。
GPT-3の精度はGPT-4に比べて劣るため、英語以外の言語の使用にはあまり向いていないかもしれません。
今後の期待としては、GPT-4による本や資料の全文の読み込みや、大量の論文や書籍の整理などが挙げられています。
最後まで読んでいただき、ありがとうございます!もし気に入っていただけたら、ぜひスキとフォローをお願いします。みなさまからの反応は、わたしが質の高い記事を書き続けるためのモチベーションにつながります。(新しい記事はTwitterでお知らせしています。)
この記事を読んだ方が興味を持ちそうな記事
いつも読んでくださりありがとうございます!サポートは、お勉強代として活用させていただいております。