テキスト (text / teksto) を文 (sentence / frazo) に分割する関数 sents() が NLTK には用意されています。ただし、この関数はあまり精度がよくないようです。 >>> fein…
分析対象テキスト 'LaFeino.txt' をNLTKで単語(トークン)単位に分割する方法は2種類あるようです。テキストファイルをraw ファイルとして取り込んで、それに word_tokeni…
「入門 自然言語処理」(2010年初版、オライリー・ジャパン)は Python2 に基づいていますが、NLTK version3.6.5 はPython3 に基づいています。そのため「入門」に書かれた…
しばらく積ん読状態だった「入門 自然言語処理」(オライリー・ジャパン)をこの数日かけてようやく第2章第1節まで読み進めることができた。目標はNLTK (Natural Languag…
ひろたか
2021年11月21日 15:18
テキスト (text / teksto) を文 (sentence / frazo) に分割する関数 sents() が NLTK には用意されています。ただし、この関数はあまり精度がよくないようです。>>> feino_sents = tekstaro.sents('LaFeino.txt')>>> type(feino_sents)<class 'nltk.corpus.reader.ut
2021年11月18日 23:05
分析対象テキスト 'LaFeino.txt' をNLTKで単語(トークン)単位に分割する方法は2種類あるようです。テキストファイルをraw ファイルとして取り込んで、それに word_tokenize() 関数を適用する方法と、テキストファイルに直接 words() 関数を適用する方法です。>>> # 生ファイルのトークン化>>> feino_tokens = nltk.word_tokeni
2021年11月16日 11:01
「入門 自然言語処理」(2010年初版、オライリー・ジャパン)は Python2 に基づいていますが、NLTK version3.6.5 はPython3 に基づいています。そのため「入門」に書かれたコードを実行すると時々エラーになることあります。その場合は、NLTK book サイト(英文)を参照すると必要な情報が得られることが多いです。このサイトは原書の Python3 & NLTK3 対応版
2021年10月21日 14:14
しばらく積ん読状態だった「入門 自然言語処理」(オライリー・ジャパン)をこの数日かけてようやく第2章第1節まで読み進めることができた。目標はNLTK (Natural Language Toolkit / Ilaro por naturlingva prilaborado) をエスペラント語の分析に利用することだ。まだまだ先は長いが、これまでにできたことを覚え書きとしてまとめておく。まず、実行