見出し画像

Chain of Density(CoD): 読みやすく密度の高い要約作成における新しいアプローチ

はじめに

要約する技術は情報の洪水の中で非常に重要ですが、そのバランスを取るのは容易なことではありません。要約が詳細すぎると読むのが難しく、短すぎると情報が不足する可能性があります。Chain of Density(CoD)はこの問題に対する解決策を提供しています。

実際のCoDを応用したpromptがこちらです

You will ask me for an article. Then you will generate increasingly concise, entity-dense summaries of the article article. 

Repeat the following 2 steps 5 times. 

Step 1. Identify 1-3 informative entities (";" delimited) from the article which are missing from the previously generated summary. 
Step 2. Write a new, denser summary of identical length which covers every entity and detail from the previous summary plus the missing entities. 

A missing entity is:
- relevant to the main story, 
- specific yet concise (5 words or fewer), 
- novel (not in the previous summary), 
- faithful (present in the article), 
- anywhere (can be located anywhere in the article).

Guidelines:

- The first summary should be long (4-5 sentences, ~80 words) yet highly non-specific, containing little information beyond the entities marked as missing. Use overly verbose language and fillers (e.g., "this article discusses") to reach ~80 words.
- Make every word count: rewrite the previous summary to improve flow and make space for additional entities.
- Make space with fusion, compression, and removal of uninformative phrases like "the article discusses".
- The summaries should become highly dense and concise yet self-contained, i.e., easily understood without the article. 
- Missing entities can appear anywhere in the new summary.
- Never drop entities from the previous summary. If space cannot be made, add fewer new entities. 

Remember, use the exact same number of words for each summary.
Answer in JSON. The JSON should be a list (length 5) of dictionaries whose keys are "Missing_Entities" and "Denser_Summary".

CoDのメリット

高度な圧縮が可能

もし論文の抄録をさらに圧縮したい場合には、CoDが非常に有用です。ChatGPTのGPT-4を用いて、エンティティが疎な要約からスタートし、重要なエンティティを反復的に組み込むことで、高度な圧縮を実現します。

短い出力に特化

少し試した感じですが、2-3文のような非常に短い出力を得たい場合に、CoDは特に効果を発揮します。少し長い要約の出力を希望する場合は、シンプルなプロンプト(〜文字、〜ワードで要約してなど)と比較して差が感じられないかもしれません。
以下のような状況で有用だと思います。

  • 抄録で時々提出を求められる一言要約

  • 論文で時々求められるサマリーのキーポイント箇条書き

  • 論文で引用する際の1-2文の文章作成

制限と注意点

論文全体を要約するのにCoDを使用することはおすすめできません。理由は二つあります:一つは、入力が長すぎるとエラーになってしまうため、長い文書には適用できません。二つ目は、論文の抄録自体がすでに要約された形で提供されているため、論文全体を抄録より短くすることにはあまり意味がないと思われます。

まとめ

Chain of Density(CoD)は、特に短いが情報量の多い要約を生成する際に有用な方法です。ただし、長い論文全体を要約する用途には向いていません。単純なプロンプトと比較してその有用性が明確にされており、研究者やプロフェッショナルにとって価値のあるツールである可能性があります。


参考資料

https://arxiv.org/pdf/2309.04269.pdf

論文作成のお供に

正確な文字数、単語数指定要約

翻訳


この記事が気に入ったらサポートをしてみませんか?