【コーパスメモ】イディオムの頻度とMIスコア

イディオムの頻度とMIスコアの算出方法

頻度の算出方法

①COCA の List に品詞を指定してレマで検索

 例:[bang].[v*] the [drum].[nn*] 
・[ ]で囲むとレマ(bang, banged , banging など、すべての動詞活用)で 
検できる
・.[v*] をつけると動詞のみを検索
・.[nn*] を付けると、普通名詞のみを検索
※必要な形式だけで検索するよりも、レマで出して後からいるものを選別したほうが楽です。COCAであれば、1つずつ検索することになるので。

②以下のような結果が出るので、エクセルにはりつける

③ Bang a drum 等、ほかの形式の可能性があるのであれば、a をいれる場合と、冠詞はなしのパターンを検索して結果をコピペしてエクセルに貼り付ける

MIスコアの算出方法

①イディオムを構成する単語を、List で品詞を指定してレマで検索する
例:[bang].[v*] で検索。[drum].[nn*] で検索
※品詞を指定しないと、頻度が過剰に大きくなりすぎてしまう可能性

②頻度をコピペしてエクセルに貼り付ける

③以下の式で計算する
log2 ((イディオムの頻度×コーパスの総語数) / (構成語Aの頻度×構成語Bの頻度))

以上、自分用メモでした。

この記事が気に入ったらサポートをしてみませんか?