ひろたか

プログラミングとSFが好き。エスペラント話者。

「入門自然言語処理」入門 (4) －文

テキスト (text / teksto) を文 (sentence / frazo) に分割する関数 sents() が NLTK には用意されています。ただし、この関数はあまり精度がよくないようです。 >>> feino_sents = tekstaro.sents('LaFeino.txt')>>> type(feino_sents)<class 'nltk.corpus.reader.util.StreamBackedCorpusView'>>>> len(feino

「入門自然言語処理」入門 (3) －単語

分析対象テキスト 'LaFeino.txt' をNLTKで単語（トークン）単位に分割する方法は2種類あるようです。テキストファイルをraw ファイルとして取り込んで、それに word_tokenize() 関数を適用する方法と、テキストファイルに直接 words() 関数を適用する方法です。 >>> # 生ファイルのトークン化>>> feino_tokens = nltk.word_tokenize(tekstaro.raw('LaFeino.txt'))>>> type(

ひろたか

2年前

2
「入門自然言語処理」入門 (2) －文字

「入門自然言語処理」（2010年初版、オライリー・ジャパン）は Python2 に基づいていますが、NLTK version3.6.5 はPython3 に基づいています。そのため「入門」に書かれたコードを実行すると時々エラーになることあります。その場合は、NLTK book サイト（英文）を参照すると必要な情報が得られることが多いです。このサイトは原書の Python3 & NLTK3 対応版です。さて、本書 p.53 の表2-3には NLTKで定義されている基本的な

ひろたか

2年前

1
「入門自然言語処理」入門

しばらく積ん読状態だった「入門自然言語処理」（オライリー・ジャパン）をこの数日かけてようやく第２章第１節まで読み進めることができた。目標はNLTK (Natural Language Toolkit / Ilaro por naturlingva prilaborado) をエスペラント語の分析に利用することだ。まだまだ先は長いが、これまでにできたことを覚え書きとしてまとめておく。まず、実行環境の整備：・Windows10 64bit ・VSCode 1.61 ・Gi

ひろたか

3年前

4