見出し画像

[GPT-API]Tokenシステム~gptの世界では言葉がトークン単位に分けられる~

パルパルと相棒のGPT、合わせてパルPTです!
以前のnoteでchatGPTだけでなくAPI(Playground)を使ってより高度にGPTを使用する話をしました。
そのAPIをより使いこなすためにトークン(token)を意識したプロンプトやセットアップは大事です!

今回はGPTの世界での"文字数"にあたるトークン(token)について紹介します。

トークンシステムの基本

GPTでは、文章を小さな単位"トークン"に分けて処理します。
例えば、

「ここではきものを脱いで下さい」→17token 14文字

このようなトークンに分けることで、コンピュータが理解しやすくなります。そして、それぞれのトークンに数字のようなIDを割り当てています。

Point: トークンシステムは、文章を小さな単位に分けてコンピュータが理解しやすくする方法です。

トークンの上限とその影響

GPT-3.5やChat GPTのようなAIモデルは、一度に処理できるトークンの数に限りがあります。
例えば、GPT-3.5は一度に最大4096トークンまで、GPT-4は8192トークンまで処理できます。このため、文章を入力するときには、トークンの数を意識して収まるように書くことが重要です。

Point: トークンの上限を意識して、入力することが重要です。

トークン数を削減する~英語編~

日本語の方が英語よりトークン数が多くかかります。
例えば、

日本語「私は生徒です。」→10トークン 7文字
英語「I am a student.」→5トークン 15文字

なぜでしょうか。

I am a studenのトークンを数える(Tokenizer)

トークン区切りごとに色分けされている箇所を見ると、"student"が1トークン換算になっているように、単語でトークンが区切られることが多くなっています。

一方日本語では、

私は生徒です。のトークンを数える(Tokenizer)

一字ごとに分けるどころか、読み仮名換算しているような部分も見られます。(私→わたし)
なので長い文書でトークン数が足りない時は、DeepLなどで英語に機械翻訳してから入れると良いです。

Point: 英語の方が日本語よりもトークン数が節約できる。

トークンを数えるopenAI公式サイト(Tokenizer)

文章を入力すると、GPTでは何トークンなのかを教えてくれます!

まとめ

トークンシステムは、文章を小さな単位に分けて処理します。英語の場合、日本語よりもトークン数が節約できることがあります。トークンの上限を意識して、良いchatGPTライフを…!

トークン数の上限がchatGPTより高いPlaygroundの活用法

プロンプトのコツ


この記事が気に入ったらサポートをしてみませんか?