人気の記事一覧

ウェブの日本語テキストをクリーニングするための基本的な処理コードと課題

1か月前

日本語の事前学習データセット(OSCAR,mc4)を機械学習でクリーニングしてみる練習

1か月前

ルールベースでWebページから日本語のテキストを清掃する

1か月前

教師なし学習で事前学習用のWebテキストを分類する

1か月前

「半分ずっこ」は誰が使っているのか?

CommonCrawlから有益な日本語の記事と文章を機械学習で抽出するスクリプトのプロトタイプ

1か月前

日本語教師にも使える!現代日本語書き言葉コーパス

0.1bのtransformerのperplexityで文章フィルタリングができるかどうかの検証

ドイツ語コーパス10/もっとも頻繁に使われる動詞の意味を列挙

「肌感覚」って何よ。―コーパスや医学部図書館を使って言葉を再構築した話―

2か月前

MYCOEIROINKで声優さんに依頼するときの収録方法の説明について

この単語ってみんなどうやって使っている?

1か月前

1月19日#963コーパスとは何か?今後のために整理してみた。

2か月前

合成音声を作ってみよう!〜その2〜

2か月前

「よい」「良い」は「いい」か?

別冊・謎のコトバ解読ノート・その1

コーパス言語学サマースクール&学会参加報告

2023年9月9日 英語コーパス学会 松井スライド (2023年10月21日修正版)

6か月前

日本語の起源は解明された Part3

日本語は6割が輸入モノ