見出し画像

Entity Typeの選定と集約 1

ent_typeはトークンのカテゴリーのようなものらしい。
単語検索だけでなくカテゴリー検索ができるようになったり、発言者がどのようなカテゴリーの発言が多いかを可視化できるかもしれない。可能性を感じる。

形態素解析したデータ例

今回は、ent_typeを選定か集約し、より単語表を見やすくしたい。
選定、集約は目検討で行う。

categoryDict = {
    # 土地
    'Land': [
        'Province',
        'Country',
        'City',
    ],
    # 自然
    'Nature': [
        'Mountain',
        'River',
        'Lake',
        'Sea',
        'Island',
    ],
    # 交通機関
    'Transport': [
        'Airport',
        'Station',
        'Road',  # Note that 'Road' is duplicated in 'Nature' and 'Transport'
    ],
    # 団体
    'Organization': [
        'Corporation_Other',
        'Company',
        'Product_Other',
    ],
    # 衣類
    'Clothing': [
        'Clothing',
    ],
    # 科学技術
    'Science': [
        'Compound',
        'Material',
        'Mineral',
        'Element',
    ],
    # 教育
    'Education': [
        'School_Age',
        'Academic',
    ],
    # 肉体
    'Physical': [
        'Animal_Disease',
        'Animal_Part',
        'Drug'
    ],
    # 動植物
    'Flora&Fauna': [
        'Mammal',
        'Mollusc_Arthropod',
        'Bird',
        'Flora',
        'Flora_Part',
        'Fish',
    ],
    # 食べ物
    'Food': [
        'Food',
        'Food_Other',
    ],
    # 法律と政治
    'Political': [
        'Offense',
        'GOE_Other',
        'Treaty',
        'Law',
    ],
    'Doctrine': [
        'Doctrine_Method_Other'
    ],
    # 軍事
    'Military': [
        'Military',
    ],
    # 時代
    'Era': [
        'Era'
    ],
}
集約選定したent_typeで頻出単語表を作成
思ったより良い感じ
2024-03-22
農林水産委員会 2024-03-22
より生活に近い話題が豊富なのではないか
既存メディアにただ触れるだけでは、裏金以外の情報はあまり得られなかった。ここに会議録を直接見ることの意義がある

この単語表をみて、気になる単語を選択、要約や会議録中の該当箇所の表示、という風にいければいいんだけども。

Science 2024-03-22 単語表
Transport 2024-03-22 単語表
交通の話題など特定のカテゴリーに絞って調べたい場合などに有用


おわり
ent_typeもっと調べる
https://liat-aip.sakura.ne.jp/ene/ene8/definition_jp/html/enedetail.html


この記事が気に入ったらサポートをしてみませんか?