見出し画像

総理大臣って誰に会ってるの? 朝日新聞の「首相動静」を分析してみた

こんにちは。ICTRADの尾崎です。

ICTRADは研究開発チームですが、記者や編集者とタッグを組んでデータに基づいたコンテンツづくりにも取り組んでいます。今回は、朝日新聞に掲載している「首相動静」のデータ分析を担当したときの話をしたいと思います。

▼まずは結果をどうぞ

「首相動静」とは?

「首相動静」とは首相の訪問先や面会相手など、1日の動きを伝える記録の蓄積です。他社でも同様の報道が日々行われており、弊社では「総理番」と呼ばれる担当記者が取材しています。

話が持ち上がったのは、折しも安倍晋三前首相が辞任を発表し、新首相に菅義偉氏が就任するという時期。菅氏はどんな動きを見せるのか、面会回数や活動時間をベースに、2000年以降に就任した歴代の首相の「就任1カ月」と比較してみようと、データ分析を担当することになりました。こうした時、新聞社には大量の記事の蓄積があるのが強みです。

データとしての「首相動静」

さて、朝日新聞の「首相動静」記事をご覧になったことがあるでしょうか。

とある日の首相動静を引用してみると、テキストで以下のように書かれています。

【午前】6時41分、官邸。敷地内を散歩。7時29分、東京・虎ノ門のホテル「The Okura Tokyo」。レストラン「オーキッド」で秘書官と朝食。8時41分、官邸。50分、迫井正深厚生労働省医政局長。9時20分、国家安全保障会議。36分、国土強靱(きょうじん)化推進本部。10時、閣議。12分、麻生太郎副総理兼財務相、財務省の太田充事務次官、矢野康治主計局長、住沢整主税局長。29分、麻生副総理兼財務相。36分、山崎重孝内閣府事務次官。11時13分、東京・紀尾井町のホテルニューオータニ。宴会場「鶴の間」で故松田昌士JR東日本元社長のお別れの会に出席。24分、衆院第2議員会館。43分、官邸。
  ―――2020年12月12日朝日新聞デジタル「首相動静」より引用―――

基本的に(時刻、首相の動向)というフォーマットで書かれてはいますが、ベタテキストで書かれていますし、2回目の「8時」は省略されていたり、数字も全角で書かれていたりして、分析するにはやりづらい形式です。

まずは時間を数値として扱えるよう、以下のように前処理を行い変換することにしました。

0641,官邸。敷地内を散歩。
0729,東京・虎ノ門のホテル「The Okura Tokyo」。レストラン「オーキッド」で秘書官と朝食。
0841,官邸。
0850,迫井正深厚生労働省医政局長。
0920,国家安全保障会議。
0936,国土強靱(きょうじん)化推進本部。
1000,閣議。
・・・・

すこし扱いやすくなりました。ここから「誰と一番会ったのか(人物)」とか、「どこによく行っていたのか(場所)」を分析するために、日本語の自然言語処理ライブラリのGiNZAを使って固有表現を抽出します。

[[('Dish','官邸')],
[('Theater','東京・虎ノ門'),('Product_Other','The Okura Tokyo'),('Product_Other','レストラン「オーキッド」'),('Position_Vocation','秘書官')],
[('Dish','官邸')],
[('Position_Vocation','正深厚生労働省医政局長')],
[],
[('Organization_Other','化推進本部')],
[('Show_Organization','閣議']],
・・・・

しかし、世の中に出回っている自然言語処理ツールをただ使うだけでは、うまい具合に人物、場所など抽出してくれないんですよね……。上の例では、「官邸」は「Dish:料理名」としてタグがついちゃっていますし、「Position_Vocation:地位職業名」も名前の一部が入ってしまい、おかしな場所で分割されてしまっています。

それ以外にもこんな表現もありました。

4時56分、麻生副総理。5時4分、麻生氏出る。 

同じ人なのに2回目は役職が省略されていたり、退出しただけの記述があったり。あるいは、加わるだけの記述があったり。こういう表現があると、人物を機械的にカウントしただけでは、正しい回数は数えられません。

このような理由からある程度は「自動的」に分析できたものの、正確性を担保するのに、最終的にはやはり人手の確認が必要でした。

加工しやすいデータを持つって大事

本音を言えば、「誰と何回会った」だけではなく、「どのくらいの時間会っているか」ということもランキング形式にすることをしてみたかったです。ただ、面会開始の時刻はわかるのですが、記事の分量の問題や慣例からも、必ずしも「いつ終了した」という時刻が書かれるとは限りません。他社のデータだと、終了の日時含め、構造化されたデータとして公開もされていて、分析しやすいデータだなと思ったりします……。

ということで、記事由来のデータに対する苦労はありましたが、記者たちの筆力が注がれた「首相動静」分析の記事が配信されています。ご興味を持たれましたら、ぜひ朝日新聞デジタルも覗いてみてください。このnoteのフォローもよかったらよろしくお願いします!

(ICTRAD・尾崎正典)