Rの授業②

昨日に引き続き、R授業のメモを行っていきます !

今回はとうとうRのコマンドを書いていくとこ。

#コーパスでの表記
sort(table(maji$キー), decreasing = T) #書字形出現形
 #語形 sort(table(maji$語形), decreasing = T) #語形は片仮名表記。「まじ」の場合は一種類
#実際の発音
sort(table(maji$発音), decreasing = T) #発音は片仮名表記

Codeという編集機能があることに感動。そして、コーパスをいじくり回すために必要な知識が、おそらく「語彙素」「語形」「書字形」(「発音」)の知識かもしれない。 実際に上記コマンドもそれが理解できれば解決しそう。あと、majiのあとに$キーってなってるのも、理解したほうがいいかも! (マジの出現頻度調べてます) 

> sort(table(maji$キー), decreasing = T) #書字形出現形
まじ 
 285 
>  #語形 > sort(table(maji$語形), decreasing = T) #語形は片仮名表記。「まじ」の場合は一種類
マジ 
 285 
> #実際の発音
> sort(table(maji$発音), decreasing = T) #発音は片仮名表記

  マジ マージ マジー     マ   マシ 

   263     12      8      1      1

結果がこのように表示されている。書字系は、語彙素よりも厳しく分類したときの語句。そして語形はカタカナ表記。語彙素をカタカナ読みしたとき…ってことかな??

とりあえず進めてみよう。

あー、なるほど。「語彙素>語形>書字系>発音」って感じかな!まじの場合は、上のコード結果にあるように、5つのマジの言い方が出てきている。

ちょっとググってそれぞれの意味を調べてみるか。

語彙素は、「異なる形態であるが同じ語であると考えられるもの」だって。英語で考えるとわかりやすいんだけど、(child-children)とかが語彙素として同じになる。そして、みんな聞き慣れているだろう「語彙」は、「語彙素の集合」のことらしい ! 語彙素のレパートリー数が、語彙力ということだね。またの名をvocabulary。

そしてまたまじに戻ると、まじの語彙素はまじだけ。

そして語形は?というと…「語の形」だって。単純!

childとchildrenとかに変化することを、語形変化と呼ぶ。

だから、語彙素でchildと検索したら、childrenも出てくるけど、語形childと検索したらchildrenは出てこない、ということだね。

書字系は、なんとなくわかった。語系までは学校で勉強するような文法の話だったけど、書字系になると口語の一気に近くなる。例えば、授業で出ていた例で「大きい」を挙げさせてもらうと、大きい、おっきい、おおきいとかが書字系の分類として挙げられている。発音よりはまだ文字に表す範囲の言語かな、という感じ。だから、もし大きいを書字系を選択して検索すると、「おっきい」とかが出てこなくなる。そういうことでございます。

書字系の先に、発音があることは言うまでもありません! 「大きい」で例を出すなら、発音には「オーキー」や「オッキイナ」など、まさに口語をそのまま文字にしてみた!結果が出てくるということでした。これで、

「語彙素>語形>書字系>発音」のメカニズムがわかりましたとさ。そして、最初のコマンドに戻ってみよう。ちなみに、$キーって書いてあったけど、キーは検索キーのことだと思われる。(怪しいんかい)検索エンジンのところに入力した値がキーであろう。

というかまずね、コードをもう一度見てみたんだけど

sort(table(表の名前$行の名前), decreasing = T)

この関数の意味自体があやしんご。いや、自分で公式を書いていたら理解したぞ! 確かね、表の名前$行の名前で、行の値をすべて抽出できる。ここで授業を見直してみたんだけど、✗表の名前◯データフレームでした。しかも、またトンチンカンが出ちゃったんだけど、✗行◯列でした、てへぺろでし。

そいで、decreasing = Tは、照準にしましょう、ってことだね。コマンドの上記2つは要素が1つしかないからわかりにくいけど、3つ目のコマンドでは昇順に表示されていることが一目瞭然である。

よく見てみたら、前回の授業のコマンドにもsortという同じようなコマンド出てきてた。sortは、データフレームの一部を抽出しようというものなのだろう。

でもこの機能は便利だね。語彙素とかの数がわかるだけではなく、性別とか年代別とか、いろいろな数値をバッと集計して出してくれるというイメージだ。Excelでちょこまかやるよりsmartです。✨

65~69歳の人が、2回使っているということにぷち驚き。私のおばあちゃんが使ってるの想像できんな~

table関数は、クロス集計もできるそうな。

ここまでの理解で少し疲れてしまった。

ということで、次のnoteに続きを書きたいと思います。

きっちりきっちりやりすぎているけど、それくらい捗っているということで、良き!




この記事が気に入ったらサポートをしてみませんか?