【初投稿】Rの授業 ①

note初投稿。

さくらインターネット使っていたけど、なんかブログの運営とか向いていないようなので、ここにつらつら書いていく方式にします!

いつもさくらインターネットで書いていたのは、ほぼプログラミングの勉強でした ! 今回も、授業で今Rを学んでいるので、メモをnoteにて取りながらRを勉強していきたい、そんなふうに思います。

今回勉強するのは、コーパス検索アプリケーションだって。コーパスってなんだっけてなったけど…「テキストや発話を大規模に集めてデータベース化した言語資料。」のことだそうな。 そして、今回使うシステムは、前回のWeb茶豆ならぬ、大納言 ! なんか両方面白そうな名前。

ということで、大納言&R、どんなことができるのでしょうか。あ、大納言じゃなくて中納言でした。失礼しました。

※著作権に関わるから、できるだけ授業内容は赤裸々にしないで、自分のメモメインでやりたいと思います!

そこから「日本語日常会話コーパス(モニター公開版)」を選択すると、なんとびっくり、20代~60代の方の日常会話100時間分が収録されているそうな。おもしろい。

中納言もおもしろいけど、「言葉を集めた資料体」というコーパス自体がおもしろいね。

それで、現在の喋り言葉とかが形態素分析できるし、コミュニケーションのやる方、変容とかが明らかにできそう。

このコーパスによって、日本が「ニホン」と言われているか「ニッポン」と言われているかがわかる。実際でコーパス検索してみると、ニホンが97.5%ぐらいらしいぞ。おもしろい~おはよう日本とか、がんばれニッポンとかでしかあまり使わないもんね。放送局は、ニッポンって言おうと決めているらしい。

まあ、言語を学ぶ人は必ずコーパスは通るべき道だな!ということがわかった。私はプログラミングを学ぶ人だけど。

翻訳アプリとか作るときは、コーパスじゃんじゃんに使っていくんだろうね。

おっと、もう10時半なので、この記事は一度終わりにして、また第2弾を明日書いていきたいと思います。

さくらインターネットじゃなくても、noteの使い心地が思った以上に良い!という高評価を記して、おやすみなさい(-_-)zzz


この記事が気に入ったらサポートをしてみませんか?