見出し画像

文章のクオリティを測る研究メモ

インターネットの発展によって、膨大な文字情報に簡単にアクセスできるようになった。もちろん、何らかの情報を探している場合は関連する文章を探し出したい。しかし、それでも検索でヒットする文章が多かったり、そもそも何らかの目的を持たずにただ暇つぶしとして読み物を探している場合はどの記事を読めばいいか迷ってしまうだろう。そうすると文章を読む前にこの文章が面白いのか、知らなかったことを知れるのかといった記事のクオリティがわかる指標があると嬉しい。ここではそういった文章のクオリティを予測する研究について書かれた論文をメモ書き程度に載せておこうと思う。

Linguistic Benchmarks of Online News Article Quality

こちらの研究ではYahoo! Newsからあつめられたニュース記事をExportたちが5段階で記事のクオリティとクオリティに関連しそうな14つの項目について5段階で評価し、それらの項目と記事クオリティの関連性を調査している。この研究では最終的に
・fluency: 文章がロジカルに組み立てられているか
・completeness: 読み手が満足できるレベルで情報が記載されているか
・richness: 表現が面白いか、凡庸でないか
といった点が記事のクオリティと強い相関を持っていると記述されている。

Quality-biased ranking of web documents

こちらの研究では情報検索において既存のranking scoreを算出するアルゴリズムに記事のクオリティとして代替できる指標を加えたものを提案している。よって、厳密には記事のクオリティに関する研究ではないが、自動的に算出できる記事クオリティの指標に関して言及されているためここで紹介させてもらう。この研究ではTREC(Text REtrieval Conference)によって集められたWeb上のページを使用して評価を行っている。集められたデータセットは3つ存在し、2つは.govドメインのページ、1つはより広くWeb上のページを集めている。手法の評価自体はnDCGを用いて行われており、記事クオリティを考慮した結果のほうがnDCGが高かったとのことである。これはspamや低いクオリティのページが存在しないであろう.govドメインのデータセットでも同様である。記事のクオリティ指標としては
・stopCover/fracStops: ページに含まれるストップワードの割合
・numVisTerms: ページの文章の単語数(長さ)
・entropy: ページのentropy(厳密な定義は論文を参照)
が重要度が高く算出されている。entropyに関してはページ中のユニークな単語数と正の相関があると考えられている。

Automated Essay Scoring: A Survey of the State of the Art

こちらの論文はAutomated Essay Scoring(AES)という分野のサーベイ論文である。AESはエッセイの自動採点を目的とした研究分野で、SATやGREといったテストの自動採点や学校、語学学習スクールでの適性テストでのフィードバック等が応用分野として想定されている。ここでいうエッセイとは”xxxについて意見を述べよ”のような出題(promptと呼ばれる)に沿って書いた文章のことを指している。どちらかというと小論文のようなものを想定していただくと良いと考える。したがって、記事のクオリティという点とは少しずれるが、3.3節に記載されているFeatureという項目が記事のクオリティを予測する研究でもよく使われており、非常にまとまっているのでここで紹介させてもらう。ちなみに日本語訳されているのでそちらのリンクも合わせて貼っておく。

Generative Models are Unsupervised Predictors of Page Quality: A Colossal-Scale Study

こちらの研究ではGPT-2のような言語モデルを使用して生成した架空のWebページの文章と実際のWebページの文章を分類するような機械学習のモデルを作成し、人手で作成したクオリティ指標で評価を行っている。人手で作成されたクオリティ指標と学習したモデルの相関係数を測ってみると0.7程度と非常に高く、ベースラインとして作成されたspam判定器より高い値となっていた。このモデルによって低クオリティと算出された記事を見てみると
・Machine Translated Text: 機械翻訳されたサイト
・Essay Farms: エッセイのライティングサービスのサイト
・Attempts at Search Engine Optimization (SEO): SEO対策しているサイト
・NSFW (Not-Safe-for-Work): 職場で見るには不適切なサイト(アダルト等)
といったサイトのページが多く存在していたとのこと。ここから、低クオリティなWebページを判定することは自動的にできそうだといえる。

おわりに

最近だとニューラルネットを使用したものも存在したが、記事のクオリティという曖昧な数値がアノテーションされているデータセットを手に入れるのは難しそうであり、活用しづらそうだという観点から今回は省かせてもらった。文章中から計算できる指標であればいくつかの指標を組み合わせることで記事のクオリティの指標として使えそうなものを表現できるのではないかという考えのもとである。最後の研究に関しては手動のアノテーションが不必要なので紹介させてもらった。自分自身のためのメモ書き程度であるが何かの役に立てれば幸いである。

感想等も合わせて送られてくると嬉しいです!