見出し画像

「ひぐらしのなく頃」はいつか?~Twitterで調べてみた

ヒグラシが鳴く時期っていつ頃だと思いますか?
夕方に遠くから「カナカナカナ…」と聞こえてくると夏の終わりを感じる――そんな晩夏という印象が強いのではないかと思うのですが、実際、歳時記でも秋の季語とされている例外的なセミが「蜩(ひぐらし)」と「法師蝉/蛁蟟(=ツクツクボウシ)」だそうです。
そこで今回は、人々がいつ頃セミの鳴き声を聞いているのか、Twitterで調べてみることにしました。

科学的な観測データとソーシャルセンサ

セミの鳴いている時期について、厳密な調査を行うのなら科学的な方法論に則った定点観測を全国各地で実施する必要がありますが、実は「初鳴日」は気象庁がデータを公開しています(公共事業ばんざい!)。が、セミでいうと2020年の全国データがあるのはアブラゼミのみで、件のヒグラシやツクツクボウシ、あるいはミンミンゼミは全国にあるほとんどの観測地点でうん十年前に記録が途絶えたようです(嗚呼、公共事業…)。
ちなみに、先のリンク先「生物季節観測の情報」というページでは、おなじみの桜前線の他にも季語になっていそうな動植物の観測情報が公開されていて、なかなか興味深いです。が、2021年1月よりそのほとんどの観測事業を廃止してしまうようで、アブラゼミの初鳴日の観測もこれにておしまいのようです(存続する6種目はいずれも植物)。周知されず利用されず予算がつかず、公的機関による公開データがまた一つ人知れず絶えていくのです…。

そんなわけで通説や図鑑での定説はあっても、「ヒグラシがいつ頃鳴いていたのか」に答えてくれる新しい公開データはなかなかないので、今回は「ソーシャルセンサ」という捉え方に基づいて、Twitterに寄せられる「声」を代わりに観測してみます。ソーシャルセンサというのは、端的にいうと市井の私たちがソーシャルメディアを通して何らかの観測情報を投稿することが、粗くても集合的な観測装置となっている――という考え方です。実際に、地震や台風などの自然災害のtweetが、観測所での厳密な物理センサと似たような反応をする場合があることがわかっているようです(榊・松尾, 2012)。これは、この記事を読んでいるような方には実感としてよくわかるかと思います。

データ取得と前処理

さて、まずはtweetの取得です。
これにはTwitterのAPI(Application Programming Interface)を用いて、機械的にごっそりとデータを表形式で保存します(←スクレイピング)。具体的には、統計処理向けのプログラミング言語Rの「rtweet」というパッケージを使うことになります(具体的なやり方はたとえばこちら)。
Twitter APIの制限により、特定の文字列を含むtweetの取得はだいたい7日前までしか遡れません。したがって、何らかのキーワードについてのtweetをそれ以上の期間追いかける場合は、ちまちまと定期的に取得を繰り返すことになります(買うこともできるってさ)。今回の場合では、7/1~9/30の間に〈特定のセミのカナ名〉(ヒグラシ+5種類・後述)と〈鳴き声〉(異表記含む)を同時に含む公開tweetを取得しました。セミの種類としては、ヒグラシに加えて、族の分類を参考に代表的な比較対象として、アブラゼミ、クマゼミ、ツクツクボウシ、ニイニイゼミ、ミンミンゼミ――の全6種類を対象としました。ただし、APIの制限によって条件に当てはまる投稿全てを悉皆的に取得できたわけではありません。
さてこうした単語の組み合わせ検索で、「ヒグラシの鳴き声が聞こえた」みたいなtweetが引っかかるはずです。もちろんその精度は粗くて、「そろそろ鳴き声を聞きたいなあ」のようなノイズはかなりあるはずです。とはいえ、tweetの量の推移をみてみることで、おおよその推測が成立するかもしれません(そういう海外の論文がいくつもあるそうですが、今回は省略)。

次に前処理です。
今回はセミの鳴き声を間接的に観測することが目的なので、取得したtweetからリツイート(RT)は単なる重複にあたるとして除外しました。また、2020年特有の現象かもしれませんが、任天堂のゲーム「あつまれどうぶつの森」の中でのセミの鳴き声に言及するtweetがちらほら見られたので、「あつ森」や「どうぶつの森」を含むtweetも除外しました。

セミ+鳴き声tweetの3ヶ月間の推移

いよいよ集計ですが、ここで対象としたセミのうちニイニイゼミがtweet不足のため脱落しました(8月の終わり頃から早くもtweetがない日が出だして、9月の半ばからほぼ皆無)。まあ、たしかに「あ、ニイニイゼミが鳴いてる!」てあんまり思わないですよね?
下図が残り5種+鳴き声のtweetの時間推移です。

画像1

何だかごちゃっとしてしまいましたが、ヒグラシの山がちょっと目立ちます。また、後半ではツクツクボウシが遅れて単独の山を作っています。そして、9月に入るとどの種類も退潮していき、月末には0に近づいていきます。
では、ヒグラシとツクツクボウシを取り出してみてみましょう。

画像2

ピークが対照的ですね。ヒグラシは7月中旬から8月初旬にかけて3個尖った山(スパイク)がある一方で(7/19、8/2、8/9いずれも日曜日)、ツクツクボウシは8月下旬に1個です(8/24月曜日)。あれ、どっちも秋のセミじゃなかったけ?
残りの3種もみてみましょう。

画像3

おお、とても似ている。7月下旬の「暑くなってきたなー」と多くの人が思う頃に、いずれもピークが来ていますね。ミンミンゼミで少しだけ他の2種を上回っているのは、鳴き声がより特徴的だからでしょうか。傾向がそっくりなアブラゼミとクマゼミ、聞き分けられます?

ついでですが、前述の気象庁によるアブラゼミの初鳴日のデータ(全国48ヶ所の観測点)との比較もやっておきましょう。
どれどれ。

画像4

6月中はtweetの取得がなかったので比較不能ですが、7/20の初鳴き(棒グラフ・縦軸左)のピークはtweet(折れ線グラフ・縦軸右)でもスパイクになっていて、初鳴きが出そろってくるにつれてtweetも増えているようにも見えます。きちんと統計的な検証をする…かは本プロジェクト(日本財団-京都大学共同事業 RE:CONNECT)の他の方の反応をみて考えます。はい。

セミ+鳴き声tweetの時間帯推移(24h)

続いて、tweetの時間帯もみてみます。
1日のうち何時ごろによく鳴いていたのか、果たして推測する材料になるでしょうか。

画像9

うーん、ヒグラシが突出していて他のはよくわからないですね。
では、それぞれ頻度が最大の時間帯を100として比率で表現し直してみます。

画像9

おお、爆弾処理班を惑わす配線のような図になりました。
今度もヒグラシとそれに対照的なものを取り出して眺めてみましょう。

画像9

ヒグラシが18時台に圧倒的なピークがあるのに対して、クマゼミは8時頃にピークがきてその後12時台に小さいスパイクがあります。前者は夕方、後者は朝に鳴くセミってことでしょうか。実態に即している気もします。
では残りの3種ではどうでしょうか。

画像9

似ている。どれも日中通して一定のtweet比率を保っていますが、ミンミンゼミは午前中、そして残り2種は夕方にピークがあります。それから、12時台に小さいスパイクは共通していますね。

画像9

最後に全体だけをこうやってみると、8~9時、12時、18時台にそれぞれスパイクが立っています。これって要するに、通勤・通学、昼休憩、帰宅の時間帯にTwitterを開いて、「あ、鳴いてんな」ととりあえずtweetされたものが反映されているのかもしれません(多くの職場・学校はこの時期にもう再開していたはず…ただし大学を除く!)。とはいえ、ヒグラシとクマゼミの比較でみたように、その種類のよく鳴いている時間帯が午前中優位なのか午後優位なのかはみて取れそうです。そうみると、筆者はソーシャルセンサとして結構実感に合っているような気がしました。いかがでしょうか?

むすび

今回は、ソーシャルセンサとしてのTwitterを利用して、ヒグラシなどのセミが今夏どんな時期・時間帯に鳴いていたのかを擬似的に「観測」してみました。冒頭の問いの答えとしては、tweetによれば2020年の「ひぐらしのなく頃」は7月中旬から8月下旬にかけてだった、といったところでしょうか。
…題名で引用したので「ひぐらし」ネタで締めるのがまっとうな気がしますが、実は筆者はこの作品について題名と猟奇的な殺人事件の話ということ以外何も知らないので、代わりに俳句でも載せときます。

かなかなないてひとりである 山頭火

ではまた次回。

この記事が気に入ったらサポートをしてみませんか?