コーパスの魅力

コーパスって面白いよ~ってちゃんと文章を書こうと思ったんですが、それを真剣にやろうとするといつまで経っても公開できなさそうなので…
後にリンクを貼るのでぜひ一度ご使用ください。

ちょっとだけ説明をしますと、コーパスとは言葉のデータベースです。英語コーパスが有名ですが、日本語コーパスも立派なものが国立国語研究所によって作られています。書き言葉コーパスと話し言葉コーパスがあるのですが、私はもっぱら書き言葉コーパスを使っています。テキストとして本や白書、知恵袋など一般に公開された文章から採集された日本語を検索できます。

シンプルが一番!少納言

こちらは、「現代日本語書き言葉均衡コーパス」のデータを登録なしで検索できるサイトです。サンプルは約1億語!すごい!
シンプルに、書字形出現形(入力した表現そのまま)で検索ができます(「話す」で検索すると、「話す~」が出てくる)。
メディア(書籍、新聞、白書、ブログなど)、期間(年代)、前後文脈を指定できます。
結果は最大500件まで表示されます。
私は、用例としてどのくらいあるかを調べて、一般的な表現か、オリジナリティーのある表現かなどの判断材料として用います。

いろんな検索ができる!中納言

こちらは、登録(無料)が必要です。
「現代日本語書き言葉」だけでなく、「話し言葉」や「歴史コーパス」(奈良時代~)「方言コーパス」などさまざまなデータベースから検索ができます。(それぞれのデータベースについて登録が必要です。)
書字形出現形だけでなく、語彙素での検索などもできます(例「話す」で、「話し~」も結果として出てくる)。
500件まで表示されますが、全件のデータをダウンロードすることができます。
前後文脈の語数、形態論情報や出典情報(執筆者、生年代、性別、書名など)も指定できます。
私は卒論の実験の予備調査で、この中納言を使って取り出したデータをエクセルでひたすら分類し、先行研究とあわせて仮説を立てました。コツはいりますが、用例採集に最適です。
マニュアルも公開されています。

視覚的にわかりやすい!NINJAL-LWP for BCCWJ

大納言、ではなく、NINJAL-LWP for BCCWJです。
こちらは、少納言と同様に登録不要で「現代日本語書き言葉均衡コーパス」のデータを検索できるサイトです。
こちらの特徴は、検索すると、どんな言葉とよく結びつくかが一目瞭然にわかることです。
たとえば、「話す」の後に続く名詞、助動詞や、「話す」の前にくる助詞などで分類されているので、検索語がどんな特徴のある語かがわかりやすいです。
また、私はよく、これはどちらの助詞のほうがいいかな?と迷うことがあるのですが、こちらで調べると、より多く使われている助詞が一目でわかるので、重宝しています。

言葉を扱うみなさまなら、きっとこれらのサイトの魅力にお気づきになるのではないでしょうか。創作にも、日常生活にもぜひ役立てて、また、楽しんで使ってみてくださいね。

サポートしてくださる方、ありがとうございます! いただいたサポートは大切に使わせていただき、私の糧といたします。