ひろたか

プログラミングとSFが好き。エスペラント話者。

ひろたか

プログラミングとSFが好き。エスペラント話者。

記事一覧

「入門 自然言語処理」 入門 (4) - 文

テキスト (text / teksto) を文 (sentence / frazo) に分割する関数 sents() が NLTK には用意されています。ただし、この関数はあまり精度がよくないようです。 >>> fein…

ひろたか
2年前

「入門 自然言語処理」 入門 (3) - 単語

分析対象テキスト 'LaFeino.txt' をNLTKで単語(トークン)単位に分割する方法は2種類あるようです。テキストファイルをraw ファイルとして取り込んで、それに word_tokeni…

ひろたか
2年前
2

「入門 自然言語処理」 入門 (2) - 文字

「入門 自然言語処理」(2010年初版、オライリー・ジャパン)は Python2 に基づいていますが、NLTK version3.6.5 はPython3 に基づいています。そのため「入門」に書かれた…

ひろたか
2年前
1

「入門 自然言語処理」 入門

しばらく積ん読状態だった「入門 自然言語処理」(オライリー・ジャパン)をこの数日かけてようやく第2章第1節まで読み進めることができた。目標はNLTK (Natural Languag…

ひろたか
2年前
4
「入門 自然言語処理」 入門 (4) - 文

「入門 自然言語処理」 入門 (4) - 文

テキスト (text / teksto) を文 (sentence / frazo) に分割する関数 sents() が NLTK には用意されています。ただし、この関数はあまり精度がよくないようです。

>>> feino_sents = tekstaro.sents('LaFeino.txt')>>> type(feino_sents)<class 'nltk.corpus.reader.ut

もっとみる
「入門 自然言語処理」 入門 (3) - 単語

「入門 自然言語処理」 入門 (3) - 単語

分析対象テキスト 'LaFeino.txt' をNLTKで単語(トークン)単位に分割する方法は2種類あるようです。テキストファイルをraw ファイルとして取り込んで、それに word_tokenize() 関数を適用する方法と、テキストファイルに直接 words() 関数を適用する方法です。

>>> # 生ファイルのトークン化>>> feino_tokens = nltk.word_tokeni

もっとみる
「入門 自然言語処理」 入門 (2) - 文字

「入門 自然言語処理」 入門 (2) - 文字

「入門 自然言語処理」(2010年初版、オライリー・ジャパン)は Python2 に基づいていますが、NLTK version3.6.5 はPython3 に基づいています。そのため「入門」に書かれたコードを実行すると時々エラーになることあります。その場合は、NLTK book サイト(英文)を参照すると必要な情報が得られることが多いです。このサイトは原書の Python3 & NLTK3 対応版

もっとみる
「入門 自然言語処理」 入門

「入門 自然言語処理」 入門

しばらく積ん読状態だった「入門 自然言語処理」(オライリー・ジャパン)をこの数日かけてようやく第2章第1節まで読み進めることができた。目標はNLTK (Natural Language Toolkit / Ilaro por naturlingva prilaborado) をエスペラント語の分析に利用することだ。まだまだ先は長いが、これまでにできたことを覚え書きとしてまとめておく。

まず、実行

もっとみる