2023/12/05(火)のゾンビ論文 ゾンビなテキストクラスタ

ゾンビについて書かれた論文を収集すべく、Googleスカラーのアラート機能を使っている。アラート設定ごとに、得られた論文を以下にまとめる。

アラートの条件は次の通り。

  1. 「zombie -firm -philosophical -DDoS -xylazine -biolegend -gender -narrative -Netflix -network

  2. 「zombie -firm -philosophical -DDoS -xylazine -biolegend -gender

  3. 「zombie -firm -xylazine -biolegend -DDoS」(取りこぼし確認用)

検索条件は次の意図をもって設定してある。

  • 「zombie」:ゾンビ論文を探す

  • 「-firm」:ゾンビ企業を扱う経済学の論文を排除する

  • 「-philosophical」:哲学的ゾンビを扱う哲学の論文を排除する

  • 「-DDoS」:ゾンビPCを扱う情報科学の論文を排除する

  • 「-xylazine」:ゾンビドラッグに関する論文を排除する

  • 「-biolegend」:細胞の生死を確認するゾンビ試薬を使う医学の論文を排除する

  • 「-gender」:ジェンダー学の論文を排除する

  • 「-narrative」:ゾンビ映画・小説などを評論する論文を排除する

  • 「-Netflix」:ネトフリ限定ゾンビドラマなどを引用する論文を排除する

  • 「-network」:とにかく情報科学の論文を排除したい

検索条件2は、最後の三つの検索キーワードがないため、これらが排除した論文がねらい通りかどうか確かめる目的がある。また、検索条件3では「-philosophical」と「-gender」という一般性の高い検索キーワードで不必要にゾンビ論文を排除していないかを確かめる。

今回、それぞれのヒット数は以下の通り。

  1. 「zombie -firm -philosophical -DDoS -xylazine -biolegend -gender -narrative -Netflix -network」二件

  2. 「zombie -firm -philosophical -DDoS -xylazine -biolegend -gender」二件(差分ゼロ件)

  3. 「zombie -firm -xylazine -biolegend -DDoS」二件(差分はゼロ件)

検索条件1は医学、情報科学が一件ずつだった。


検索条件1「zombie -firm -philosophical -DDoS -xylazine -biolegend -gender -narrative -Netflix -network」


重症新型コロナウイルス感染症(COVID-19)患者における免疫学的バイオマーカー

一件目。

原題:Immunological Biomarkers among patients with Severe COVID-19
掲載: School of Bio-Medical Sciences (Bio-Medical) Collections
著者:Patricia Kankundiye
ジャンル:医学

ゾンビ試薬を扱う論文。使われたのはZombie aqua。

バイオマーカーという単語が気になったので調べた。もしかして私がゾンビ試薬と呼んでいるものがバイオマーカーなのか?と疑問に思ったので。違ったようだが。

バイオマーカー(biomarker)とは、ある疾患の有無、病状の変化や治療の効果の指標となる項目・生体内の物質を指します。バイオマーカーとして使用されるものは、主に血圧、心拍数や心電図、血液中に測定されるタンパク質等の物質といった生体由来のデータとなります。

東レ『バイオマーカーとは?医療を支える生物学的指標の種類や用途』より

アブストラクトを呼んだが、この論文で扱っているバイオマーカーが何なのかはわからなかった。

ジャンルは医学。


大規模システムにおける言語を越えたテキストのクラスタリング

二件目。

原題:Cross-lingual text clustering in a large system
掲載:2023 7th International Conference on Natural Language Processing and Information Retrieval
著者:Nicole R. Schneider と Jagan Sankaranarayanan、 Hanan Sametの三名
ジャンル:情報科学

「クラスタリング」という情報処理の手法があるらしい。

クラスタリングは、データセットを特定のルールに基づいていくつかのグループ(クラスタ)に分類することを指します。特にデータ間の類似度に基づいて、似たものを集めたグループに分ける手法が代表的です。機械学習における「教師なし学習」の一つであり、「クラスタ分析」や「クラスタ解析」と呼ばれることもあります。

Exawizards『機械学習におけるクラスタリング~その仕組みや種類、注意点を解説~』より

この論文では言語を越えてテキスト(文章か単語か文字列か…)を分類するクラスタリングの手法を提案する。

zombieの単語は"zombie cluster"(ゾンビクラスタ)という文字列で出てくる。たとえば、次の文章。

However, in most cases, these very large clusters are what we term zombie clusters, or clusters containing a large number of documents with a very small number of different important terms relating those documents to each other. In essence, zombie clusters are very large clusters that grow by picking up articles that are only tangentially related to the existing articles in the cluster.
(ただし、ほとんどの場合、これらの非常に大規模なクラスタは、いわゆるゾンビクラスタ、つまり、文書を互いに関連付ける非常に少数の異なる重要な用語を含む多数の文書を含むクラスターです。本質的に、ゾンビクラスタは、クラスタ内の既存の記事と接線方向にのみ関連する記事を選択することによって成長する非常に大きなクラスタです。)

ゾンビクラスタの説明部分が日本語としても意味不明だが、まずクラスタがある。そのクラスタは多数の文書を含む。その文書には少数の異なる重要な用語を含む。どう重要かというと、クラスタ内の多数の文書を関連付けるような特徴があるのである。

日本語としては意味が分かるようになったと思うが、内容はわかるようなわからないようなままである。なぜzombieを冠するのかも不明だ。Googleで"zombie cluster"を検索しても別の意味のゾンビクラスタがいくつも出てくる始末だ。

こういうのを勉強すると、ゾンビ論文の検索キーワードをうまく選定できるようになるはずだ。「テキストクラスタリング」という言葉も覚えたし、勉強してみようか。

ジャンルは情報科学。



検索条件2「zombie -firm -philosophical -DDoS -xylazine -biolegend -gender」(差分なし)

「-narrative」「-Netflix」「-network」が排除した論文がねらい通りだったか調べる。

今回は差分がなかった。



検索条件3「zombie -firm -xylazine -biolegend」(差分なし)

上記の条件で誤ってねらいのゾンビ論文を取りこぼしていないかチェックするために、こちらの検索結果もチェックしておく。ただし、ゾンビ企業とゾンビドラッグ、ゾンビ試薬、ゾンビPCは排除されるように設定してある。

今回は差分がなかった。



まとめ

検索条件1は医学、情報科学が一件ずつだった。

"zombie clusters"でGoogleスカラーを検索してみたが七件しかヒットしなかった。しかもゾンビPCの群れという意味のゾンビクラスタがほとんどで、今回の論文の著者が何をもってクラスタリングの結果にゾンビを冠したのか全く分からない。

やはり情報科学分野でも好き勝手に研究者がゾンビゾンビとうれしがっているのだろうか。タイトルもアブストラクトもわかったためしがないため、情報科学のゾンビを一番排除したいのだが…。

今回はねらいの論文がなかった。


この記事が気に入ったらサポートをしてみませんか?