人気の記事一覧
400GB程度の清掃済み日本語コーパスを作るまでのメモ書き
ウェブの日本語テキストをクリーニングするための基本的な処理コードと課題
日本語の事前学習データセット(OSCAR,mc4)を機械学習でクリーニングしてみる練習
ルールベースでWebページから日本語のテキストを清掃する
教師なし学習で事前学習用のWebテキストを分類する
0.1bのtransformerのperplexityで文章フィルタリングができるかどうかの検証
CommonCrawlから有益な日本語の記事と文章を機械学習で抽出するスクリプトのプロトタイプ
「肌感覚」って何よ。―コーパスや医学部図書館を使って言葉を再構築した話―
ドイツ語コーパス10/もっとも頻繁に使われる動詞の意味を列挙
MYCOEIROINKで声優さんに依頼するときの収録方法の説明について
動画・生放送文化が「初見」という言葉の用法に与えた影響について推測する
〜ぽい・〜がち・〜気味 意味・使い方【例文付き】 <忘れっぽい? 忘れがち? 忘れ気味?>
#161-2 英語のコーパスEnglish-Corpora.orgの会員登録がうまくいかないときに読むブログ