ひろたか

プログラミングとSFが好き。エスペラント話者。

8 フォロー 5 フォロワー

「入門自然言語処理」入門 (4) －文

テキスト (text / teksto) を文 (sentence / frazo) に分割する関数 sents() が NLTK には用意されています。ただし、この関数はあまり精度がよくないようです。 >>> fein…

ひろたか

2年前

「入門自然言語処理」入門 (3) －単語

分析対象テキスト 'LaFeino.txt' をNLTKで単語（トークン）単位に分割する方法は2種類あるようです。テキストファイルをraw ファイルとして取り込んで、それに word_tokeni…

ひろたか

2年前

「入門自然言語処理」入門 (2) －文字

「入門自然言語処理」（2010年初版、オライリー・ジャパン）は Python2 に基づいていますが、NLTK version3.6.5 はPython3 に基づいています。そのため「入門」に書かれた…

ひろたか

2年前

「入門自然言語処理」入門

しばらく積ん読状態だった「入門自然言語処理」（オライリー・ジャパン）をこの数日かけてようやく第２章第１節まで読み進めることができた。目標はNLTK (Natural Languag…

ひろたか

2年前

ひろたか

2021年11月21日 15:18

「入門自然言語処理」入門 (4) －文

テキスト (text / teksto) を文 (sentence / frazo) に分割する関数 sents() が NLTK には用意されています。ただし、この関数はあまり精度がよくないようです。

>>> feino_sents = tekstaro.sents('LaFeino.txt')>>> type(feino_sents)<class 'nltk.corpus.reader.ut

もっとみる

ひろたか

2021年11月18日 23:05

「入門自然言語処理」入門 (3) －単語

分析対象テキスト 'LaFeino.txt' をNLTKで単語（トークン）単位に分割する方法は2種類あるようです。テキストファイルをraw ファイルとして取り込んで、それに word_tokenize() 関数を適用する方法と、テキストファイルに直接 words() 関数を適用する方法です。

>>> # 生ファイルのトークン化>>> feino_tokens = nltk.word_tokeni

もっとみる

ひろたか

2021年11月16日 11:01

「入門自然言語処理」入門 (2) －文字

「入門自然言語処理」（2010年初版、オライリー・ジャパン）は Python2 に基づいていますが、NLTK version3.6.5 はPython3 に基づいています。そのため「入門」に書かれたコードを実行すると時々エラーになることあります。その場合は、NLTK book サイト（英文）を参照すると必要な情報が得られることが多いです。このサイトは原書の Python3 & NLTK3 対応版

もっとみる

ひろたか

2021年10月21日 14:14

「入門自然言語処理」入門

しばらく積ん読状態だった「入門自然言語処理」（オライリー・ジャパン）をこの数日かけてようやく第２章第１節まで読み進めることができた。目標はNLTK (Natural Language Toolkit / Ilaro por naturlingva prilaborado) をエスペラント語の分析に利用することだ。まだまだ先は長いが、これまでにできたことを覚え書きとしてまとめておく。

まず、実行

もっとみる

記事一覧

「入門 自然言語処理」 入門 (4) － 文

「入門 自然言語処理」 入門 (3) － 単語

「入門 自然言語処理」 入門 (2) － 文字

「入門 自然言語処理」 入門

「入門 自然言語処理」 入門 (4) － 文

「入門 自然言語処理」 入門 (3) － 単語

「入門 自然言語処理」 入門 (2) － 文字

「入門 自然言語処理」 入門

「入門自然言語処理」入門 (4) －文

「入門自然言語処理」入門 (3) －単語

「入門自然言語処理」入門 (2) －文字

「入門自然言語処理」入門

「入門自然言語処理」入門 (4) －文

「入門自然言語処理」入門 (3) －単語

「入門自然言語処理」入門 (2) －文字

「入門自然言語処理」入門