ひろたか

プログラミングとSFが好き。エスペラント話者。

ひろたか

プログラミングとSFが好き。エスペラント話者。

最近の記事

「入門 自然言語処理」 入門 (4) - 文

テキスト (text / teksto) を文 (sentence / frazo) に分割する関数 sents() が NLTK には用意されています。ただし、この関数はあまり精度がよくないようです。 >>> feino_sents = tekstaro.sents('LaFeino.txt')>>> type(feino_sents)<class 'nltk.corpus.reader.util.StreamBackedCorpusView'>>>> len(feino

    • 「入門 自然言語処理」 入門 (3) - 単語

      分析対象テキスト 'LaFeino.txt' をNLTKで単語(トークン)単位に分割する方法は2種類あるようです。テキストファイルをraw ファイルとして取り込んで、それに word_tokenize() 関数を適用する方法と、テキストファイルに直接 words() 関数を適用する方法です。 >>> # 生ファイルのトークン化>>> feino_tokens = nltk.word_tokenize(tekstaro.raw('LaFeino.txt'))>>> type(

      • 「入門 自然言語処理」 入門 (2) - 文字

        「入門 自然言語処理」(2010年初版、オライリー・ジャパン)は Python2 に基づいていますが、NLTK version3.6.5 はPython3 に基づいています。そのため「入門」に書かれたコードを実行すると時々エラーになることあります。その場合は、NLTK book サイト(英文)を参照すると必要な情報が得られることが多いです。このサイトは原書の Python3 & NLTK3 対応版です。 さて、本書 p.53 の表2-3には NLTKで定義されている基本的な

        • 「入門 自然言語処理」 入門

          しばらく積ん読状態だった「入門 自然言語処理」(オライリー・ジャパン)をこの数日かけてようやく第2章第1節まで読み進めることができた。目標はNLTK (Natural Language Toolkit / Ilaro por naturlingva prilaborado) をエスペラント語の分析に利用することだ。まだまだ先は長いが、これまでにできたことを覚え書きとしてまとめておく。 まず、実行環境の整備: ・Windows10 64bit ・VSCode 1.61 ・Gi

        「入門 自然言語処理」 入門 (4) - 文