Leveraging Large Language Models and Weak Supervision for Social Media data annotation: an evaluation using COVID-19 self-reported vaccination tweets

Ikemen Mas Kot

2023年9月19日 11:31

https://arxiv.org/abs/2309.06503

この研究の学術的問いは、COVID-19のパンデミックにより生じた健康業界や社会全体への大きな問題に対して、ソーシャルメディアの情報分析がどれだけの貢献を果たすかということです。具体的には、ツイートの分析を通じて公衆衛生の研究者が豊富な洞察を把握し、それが政策立案に役立つのかどうかという核心をなす問いです。
この研究は、大規模言語モデル（この場合はGPT-4）と弱い監督を使用して、手動で大量のツイートを注釈する代わりに、COVID-19ワクチン関連のツイートを特定することが目的です。これにより、人間の注釈者のパフォーマンスと比較し、人間とAIの注釈の質を比較評価します。このアプローチは、人間が行う注釈よりも効率的で、大量のツイートを処理するための新たな可能性を開拓する創造的な視点を示しています。
研究の着想は、COVID-19パンデミックの結果として、社会全体でのワクチンに対する議論がSNSを通じて行われている現状から来ています。また、大量のツイートを注釈するためのコストと時間を削減することへのニーズからも着想を得ています。この研究は、大規模言語モデルを活用した新しい公衆衛生研究として、これまでの研究とは違った位置づけとなっています。
本研究では、COVID-19ワクチンに関するツイートを特定するために、大規模言語モデルGPT-4と弱い監督をどのように使用し、その結果、人間の注釈者と比較してどの程度のパフォーマンスを発揮するかを明らかにしました。
本研究の有効性は、手動でキュレーションされたゴールドスタンダードのデータセットを用いて検証しました。GPT-4が提供するラベルを使って、その結果と人間の注釈者の結果とを比較しました。

この記事が気に入ったらサポートをしてみませんか？