Rの授業②
昨日に引き続き、R授業のメモを行っていきます !
今回はとうとうRのコマンドを書いていくとこ。
#コーパスでの表記
sort(table(maji$キー), decreasing = T) #書字形出現形
#語形 sort(table(maji$語形), decreasing = T) #語形は片仮名表記。「まじ」の場合は一種類
#実際の発音
sort(table(maji$発音), decreasing = T) #発音は片仮名表記
Codeという編集機能があることに感動。そして、コーパスをいじくり回すために必要な知識が、おそらく「語彙素」「語形」「書字形」(「発音」)の知識かもしれない。 実際に上記コマンドもそれが理解できれば解決しそう。あと、majiのあとに$キーってなってるのも、理解したほうがいいかも! (マジの出現頻度調べてます)
> sort(table(maji$キー), decreasing = T) #書字形出現形
まじ
285
> #語形 > sort(table(maji$語形), decreasing = T) #語形は片仮名表記。「まじ」の場合は一種類
マジ
285
> #実際の発音
> sort(table(maji$発音), decreasing = T) #発音は片仮名表記
マジ マージ マジー マ マシ
263 12 8 1 1
結果がこのように表示されている。書字系は、語彙素よりも厳しく分類したときの語句。そして語形はカタカナ表記。語彙素をカタカナ読みしたとき…ってことかな??
とりあえず進めてみよう。
あー、なるほど。「語彙素>語形>書字系>発音」って感じかな!まじの場合は、上のコード結果にあるように、5つのマジの言い方が出てきている。
ちょっとググってそれぞれの意味を調べてみるか。
語彙素は、「異なる形態であるが同じ語であると考えられるもの」だって。英語で考えるとわかりやすいんだけど、(child-children)とかが語彙素として同じになる。そして、みんな聞き慣れているだろう「語彙」は、「語彙素の集合」のことらしい ! 語彙素のレパートリー数が、語彙力ということだね。またの名をvocabulary。
そしてまたまじに戻ると、まじの語彙素はまじだけ。
そして語形は?というと…「語の形」だって。単純!
childとchildrenとかに変化することを、語形変化と呼ぶ。
だから、語彙素でchildと検索したら、childrenも出てくるけど、語形childと検索したらchildrenは出てこない、ということだね。
書字系は、なんとなくわかった。語系までは学校で勉強するような文法の話だったけど、書字系になると口語の一気に近くなる。例えば、授業で出ていた例で「大きい」を挙げさせてもらうと、大きい、おっきい、おおきいとかが書字系の分類として挙げられている。発音よりはまだ文字に表す範囲の言語かな、という感じ。だから、もし大きいを書字系を選択して検索すると、「おっきい」とかが出てこなくなる。そういうことでございます。
書字系の先に、発音があることは言うまでもありません! 「大きい」で例を出すなら、発音には「オーキー」や「オッキイナ」など、まさに口語をそのまま文字にしてみた!結果が出てくるということでした。これで、
「語彙素>語形>書字系>発音」のメカニズムがわかりましたとさ。そして、最初のコマンドに戻ってみよう。ちなみに、$キーって書いてあったけど、キーは検索キーのことだと思われる。(怪しいんかい)検索エンジンのところに入力した値がキーであろう。
というかまずね、コードをもう一度見てみたんだけど
sort(table(表の名前$行の名前), decreasing = T)
この関数の意味自体があやしんご。いや、自分で公式を書いていたら理解したぞ! 確かね、表の名前$行の名前で、行の値をすべて抽出できる。ここで授業を見直してみたんだけど、✗表の名前◯データフレームでした。しかも、またトンチンカンが出ちゃったんだけど、✗行◯列でした、てへぺろでし。
そいで、decreasing = Tは、照準にしましょう、ってことだね。コマンドの上記2つは要素が1つしかないからわかりにくいけど、3つ目のコマンドでは昇順に表示されていることが一目瞭然である。
よく見てみたら、前回の授業のコマンドにもsortという同じようなコマンド出てきてた。sortは、データフレームの一部を抽出しようというものなのだろう。
でもこの機能は便利だね。語彙素とかの数がわかるだけではなく、性別とか年代別とか、いろいろな数値をバッと集計して出してくれるというイメージだ。Excelでちょこまかやるよりsmartです。✨
65~69歳の人が、2回使っているということにぷち驚き。私のおばあちゃんが使ってるの想像できんな~
table関数は、クロス集計もできるそうな。
ここまでの理解で少し疲れてしまった。
ということで、次のnoteに続きを書きたいと思います。
きっちりきっちりやりすぎているけど、それくらい捗っているということで、良き!
この記事が気に入ったらサポートをしてみませんか?