【プロンプトデザイン】ナニコレ?極限プロンプトを圧縮する。

元ネタ

最近、話題のシュンスケさんが突然、絵文字を使い出した!?
どういうことだ?

ということで、今日は、極限までにプロンプトを圧縮する方法を紹介します。

プロンプトの圧縮をやってみる。

Twitterのツイートを入力(noteだと文字ばけするので表示できませんでした。)

入力

What is the goal of this project?
Where is the project located or taking place?
What needs to be written down or documented for the project?
What are the initial steps or actions required for the project?
What research or investigation needs to be done for the project?
What are the specific locations or actions required to achieve the goal, starting from the initial location to the final location?
What is the final destination or endpoint for the project?
What needs to be written or documented upon reaching the endpoint, and what should be celebrated?
What revisions or changes need to be made to the project, and what is the process for making those changes?
What should be celebrated upon completing the revisions or changes?
What is the overall goal or objective of the project?
What are the specific milestones that need to be reached in order to achieve the overall goal?
What are the specific deliverables or outcomes that need to be produced in order to achieve the overall goal?
What are the next steps or actions required to move the project forward?
What is the process for evaluating progress on the project?
What is the plan for breaking down the project into specific steps or actions?
What are the specific actions or steps required to reach each milestone?
What is the process for creating the required deliverables or outcomes?
What is the process for revising or changing the project based on feedback or other factors?
What is the process for continuously improving and iterating on the project?
What should be celebrated upon achieving the overall goal and producing the required deliverables or outcomes?

出力

絵文字から大量の文字が発生!!

絵文字の内容を翻訳したのが、この大量の文字です。

どのくらい圧縮していたのか?確認してみる。

まずは絵文字

出力された文字

トークンとは、テキストを分割する際の単位であり、単語、句読点、記号、数字などが含まれます。トークンは、機械学習や自然言語処理の分野でよく使われます。

例えば、次の文章を考えてみましょう。 "The cat is sitting on the mat."

この文章をトークンに分割すると、以下のようになります。 "The", "cat", "is", "sitting", "on", "the", "mat", "."

つまり、単語がトークンの一つの例です。また、句読点や空白文字などもトークンになり得ます。

小学生に例えると、トークンは、文章をブロックに分けることに似ています。例えば、レゴブロックを使って文章を表すと考えます。単語や句読点、空白文字などそれぞれを異なる形状のレゴブロックとして表現し、それらを組み合わせることで、文章全体を表現することができます。このように、トークンは、文章を機械学習や自然言語処理のアルゴリズムで扱うためのブロックとして、非常に重要な役割を果たしています。

トークンとは

Tokenizerとは、テキストを単語やフレーズなどのトークンに分割するためのツールです。Charactersとは、文字のことで、Tokenizerにおいては、テキストを文字の単位で分割することを指します。

例えば、次の文を考えてみましょう。 "This is a sample sentence."

この文をCharactersに分割すると、以下のようになります。 "T", "h", "i", "s", " ", "i", "s", " ", "a", " ", "s", "a", "m", "p", "l", "e", " ", "s", "e", "n", "t", "e", "n", "c", "e", "."

一方、Tokenizerによって単語単位で分割すると、以下のようになります。 "This", "is", "a", "sample", "sentence", "."

つまり、Characters数の違いは、テキストをどのような単位で分割するかによって生じる違いです。

小学生に例えると、Charactersは文字をひとつずつ数えることに似ています。例えば、「あいうえお」という単語は、5つのCharactersからなります。「あ」、「い」、「う」、「え」、そして「お」です。一方、Tokenizerは、単語ごとに区切ることに似ています。例えば、「りんごを食べる」という文章は、「りんご」と「を」、「食べる」という3つの単語に分割することができます。

Tokenizerとは

元木大介さんのツイート


結果

絵文字にするとトークンが366から293と圧縮されることがわかった。
しかし、何度か使っていくとわかったことですが、絵文字の理解の仕方がそれぞれあるので、結果の揺らぎが出てきてしまう。

最後に

僕が、GPTのプロンプトを学ぶ上で参考にしている2名を紹介しますね。

実は、日本にもすごい人って多いですね。

●一人は、シュンスケさん。シュンスケさんは頭の回転数が早すぎる。

また、シュンスケさんのコミュニティ内でも、さらにレベルの高い人たちが、次々とすごいプロンプトを開発して投稿しています。

●二人目は、KEITOさん。優しく丁寧に最先端の情報を提供する人



この記事が気に入ったらサポートをしてみませんか?