GPT-4を使って文章を可逆圧縮して解凍してみました(5月18日)

 GPT-4を使って、743文字の文章を、可逆圧縮して解凍してみました。
 結果、4月15日には出来た可逆圧縮が出来ないようになっていました。

手順

文章を可逆圧縮するプロンプト

Q
下の文章を、英語でも、漢字でも、暗号でも、絵文字でも、表記出来るものなら何でも使って、可逆圧縮して下さい
(圧縮したい文章)

A
(圧縮文章)

Q
上はとあるLLMによって、文章を可逆圧縮したものです。これを復元して下さい

A
(展開された文章)

実際にやってみた時の文章

元の文章

僕はいつもと変わらぬ平凡な日々を送っていた。授業が終わるとすぐに家に帰るタイプで、あまり友達と喋、部活に入ったりすることはなかった。そんなある日、クラスメイトの山田から、「お前、Twitterだったら面白い短い小説書けそうじゃない?」と言われた。最初は冗談だと思っていたが、彼は真剣な顔で僕に勧めた。

「だってさ、お前、授業中に書いてるノートとか、休み時間に書くメモとか見てたらさ、何か面白そうだし、ちょっと試してみたら?」と彼は続けた。それでも、僕は自信がなかった。そんな僕を見て、彼は「お前、280文字でこんな物語書いてみろよ」と言って、携帯を渡してくれた。

その夜、僕は山田の言葉を思い出しながら、自分の部屋で携帯をいじっていた。そして、思い切って自分が考えた280文字の短編小説をTwitterに投稿してみた。その投稿は、突然に僕に大きな反響が帰ってくることになる。

次の日、クラスの何人かが僕に声をかけてきた。「昨日のTwitterの投稿、面白かったよ!」と彼らは言ってくれた。それから、僕のフォロワー数が急激に増え始めた。続いて、僕は自信を持ってまた短編小説を投稿していった。

数日後、山田が僕に声をかけてきた。「お前の投稿、結構バズってるよな。じゃあ、もっと試してみるのはどうだ?」と彼は言った。そして、彼は僕に文芸部への入部を勧めてきた。僕は迷っていたが、クラスの友達やフォロワーたちからの励ましを受けて、入部を決意した。

そして、僕は文芸部の門をたたいた。部員たちが集まる部室は、いろんな意見が飛び交い、意見がぶつかり合う場であった。それでも、僕は自分の場所を見つけることができて、これからも280文字の短編小説を書き続けることを誓った。

1057トークン 743文字

圧縮後の文章

In this scenario, "compression" is an abstract concept, but if we consider each "meaning unit" (word/phrase/sentence) and try to represent it in a more concise manner, we might end up with something like the following:

[学生、毎日🔄、授業➡️🏠。少友達🗣️, 🚫部活。一日, 山田🗣️: "🐦短小説📝?" 真面目💡。山田: "ノート, メモ, 面白そう, 試し?" 低自信。山田: "280字物語📝, 📱"。🌃, 🏠, 📱。📝280字短小説🐦。大反響🔁。次日, 学生🗣️: "🐦, 👍!" フォロワー💥, 新作📝。日後, 山田🗣️: "バズ, もっと?" 文芸部💡。友達, フォロワー励まし, 文芸部✅。部室🔄, 意見💥。👍場所, 📝280字短小説誓う。]

However, please note that this "compression" doesn't actually reduce the amount of data needed to represent the text; it's merely a different representation of the original message using alternative symbols. It's also not necessarily reversible, as the compressed version might lose some nuance and details from the original, and interpretation could vary.

332トークン 246文字

解凍後の文章

In this scenario, "compression" is an abstract concept, but if we consider each "meaning unit" (word/phrase/sentence) and try to represent it in a more concise manner, we might end up with something like the following:

「僕は学生で、毎日授業が終わるとすぐに家に帰るタイプだった。あまり友達と話すことがなく、部活にも入っていなかった。そんなある日、クラスメイトの山田から「お前、Twitterで短い小説を書いてみたらどうか?」と提案された。山田は真面目に僕にそのアイデアを伝えた。彼は「お前の授業中に書いているノートや休み時間に書くメモを見ていたら、何か面白そうだと思った。一度試してみたらどうだ?」と提案した。しかし、僕は自信がなかった。それでも山田は「280文字で物語を書いてみてはどうか?」と提案し、僕に携帯を手渡した。

その夜、僕は自宅で携帯をいじりながら山田の言葉を思い出した。そして勇気を出して、自分で考えた280文字の短編小説をTwitterに投稿してみた。その投稿には大きな反響があった。

次の日、クラスの何人かが僕に声をかけてきて、「昨日のTwitterの投稿、面白かったよ!」と言ってくれた。それから僕のフォロワー数が急激に増え始め、新たな短編小説を書き続けた。

数日後、山田が僕に声をかけてきた。「お前の投稿、結構バズってるよな。もっと試してみるのはどうだ?」と彼は提案した。そして、彼は僕に文芸部への入部を勧めてきた。クラスの友達やフォロワーたちからの励ましを受け、僕は入部を決意した。

そして、僕は文芸部の部室へ足を踏み入れた。部室は意見が飛び交い、時には意見がぶつかる場所だった。しかし、そこで僕は自分の居場所を見つけ、これからも280文字の短編小説を書き続けることを誓った。」

However, please note that this "compression" doesn't actually reduce the amount of data needed to represent the text; it's merely a different representation of the original message using alternative symbols. It's also not necessarily reversible, as the compressed version might lose some nuance and details from the original, and interpretation could vary.

931トークン 639文字

圧縮後トークンは1057トークンから332トークンへ1/3程度に圧縮されていますが、解凍後931トークンと情報量が減っています。

圧縮時のテキストを日本語訳すると、

このシナリオでは、「圧縮」は抽象的な概念ですが、各「意味の単位」(単語/フレーズ/文)を考慮して、より簡潔に表現しようとすると、次のような結果になるかもしれません:

しかし、この「圧縮」は実際にはテキストを表現するために必要なデータ量を減らすものではないことに注意してください。それは単に、代替の記号を使用して元のメッセージを異なる形で表現したものに過ぎません。また、圧縮版は元のテキストからある程度のニュアンスや詳細を失う可能性があるため、必ずしも可逆的ではないかもしれません。解釈は人によって異なる場合もあります。

可逆圧縮ではない事を言っています。

4月15日時点では、完全に可逆圧縮されていたので、何らかの修正が入ったようです。

 最近APIを触り始めたので、トークン節約の為に、文章を幾つかのブロックに分けて圧縮し記憶させ、必要な部分だけを解凍して使うという事を考えていたのですが、残念ながら無理になったようです。

 ただトークンを圧縮するアプローチは幾つかあるそうなのでそちらの方に期待しようと思います。

 以上こちらは残念な結果になりましたが、報告を終わります。

この記事が気に入ったらサポートをしてみませんか?