見出し画像

AIで新聞の個性を可視化する「タイトル編(下)」(新聞書評の研究2019-2021)

はじめに

筆者は2017年11月にツイッターアカウント「新聞書評速報 汗牛充棟」を開設しました。全国紙5紙(読売、朝日、日経、毎日、産経=部数順)の書評に取り上げられた本を1冊ずつ、ひたすら呟いています。本稿では、2019年から2021年までに新聞掲載された総計約9300タイトルのデータを分析しています

なんでそんなことを始めたのかは総論をご覧ください。

過去の連載はこちらをご覧ください。

差異を思いっきり強調してみる

前回は各新聞の書評に掲載された書籍の傾向が、新聞ごとにどの程度違っていて、どの程度同じかを調べてみました。タイトルに頻出する単語のイメージ(ワードクラウド)はとてもよく似ていて、一見するとどの新聞がどのイメージか、判断しにくいものでした。

どの新聞も大してイメージは変わらない

そこで、新聞社ごとの差異が際立つように、ワードクラウド化するに当たっての手法を少し変えてみます。どう変えたのかの説明は後にして、まずは手法を変えた後のワードクラウドを見てみましょう。

まったく違う印象となった

手法を変えるとがらりと変わる

がらりと印象が違うと思います。

対象となったデータは前回同様、2019年から2021年の3年間に書評で取り上げられた約9300タイトル、重複紹介も含めると約12500の書評です。タイトルに出現した名詞のうち、頻度上位の8414ワードを選びました。前回(1000)よりも大幅に増やしています。

なお、ノイズと考えられる以下の22ワードはストップワードとしてクラウドに反映させていません。南、音、ろ、店、巻、田中、貝、連続、極小、看板、バック、宮、そこ、静か、丼、Day、東、安和、房、忠、「<、アリス、伊藤

ノイズと判断した理由は大別して、共通の意味は見いだせない言葉(例:東、南、田中、伊藤、巻など)と、一冊のタイトルに同じ言葉が頻発した言葉(例:安和、丼など)です。例えば、

というタイトルは1冊で5回も丼がでてきます。AIはそれほど賢くないので、放っておくと日経新聞の書評は「丼」が大好きという結果になりかねないのです。ですからこのような単語は最初から削ってしまうというわけです。

では、各紙ごとに改めて特徴を探りましょう。それぞれのワードクラウドの中で大きく目立つ単語を箇条書きにしてみます。

読売新聞のキーワード

秘蔵、太宰、戦禍、人魚、近世、琉球、国語、漱石、神戸、復刻

朝日新聞のキーワード

ピカソ、フェミニズム、キリスト、琉球、読本、大切、原子力、アナキズム

日経新聞のキーワード

マクロ、経営、構築、投資、評価、値段、原論、強国

毎日新聞のキーワード

漱石、大江、歌集、医師、日没、パチンコ

産経新聞

李、FIRE、反日、絆、大丈夫、偽善、軍、不安、偉人、敗戦

かなり違ったワードがピックアップされました。しかも、各紙「らしい」単語が並んでいます。特に朝日、日経、産経はなるほどそんな感じがします。

書評も新聞の論調や主張を反映していることが読み取れるのではないでしょうか。


ワードクラウドがこんなに違う理由

前回作ったワードクラウドと今回のものが全く違って見えるのは、途中の計算式を一か所だけ変えているからです。何を行ったかというと、

5紙すべてに出てくる単語はすべてないものと考えて計算した

点です。これで、「史」、「日本」、「世界」といった各紙に頻発する単語だけでなく、どの新聞にも一回でも顔を出した単語は、頻度にかかわらず完全に無視されます。かなり荒っぽいやり方といえますが、差異だけを極端にデフォルメするには都合がいいわけです。

前回に試算したように、恐らく新聞ごとの特徴が出ている部分は全体の1割程度だと思っています。その1割を極端に拡大してみたと思っていただけるとバランスのいい見方ができると思います。

次回以降は、このキーワードに沿って、AIが選んだ各紙の「らしい」タイトルを紹介していきます。

この記事が気に入ったらサポートをしてみませんか?