見出し画像

自然言語処理のライブラリ まとめ

1. 基本

◎ NLTK
「NLTK」(Natural Language Toolkit)は、英語の自然言語処理ライブラリです。Pythonで開発されています。
主なタスクは次のとおり。

・テキスト分類
・トークン化
・ステミング
・品詞(POS)タグ付け
・テキスト構文解析
・意味論的推論

◎ spaCy
「spaCy」は、自然言語処理を利用する製品の多くで採用されている自然言語処理ライブラリです。PythonとCythonで開発されています。「spacy」の言語モデルは深層学習を使用して学習されています。
主なタスクは次のとおり。

・NLTK機能をカバー
・深層学習のワークフロー
・多言語サポート
・処理パイプライン
・ビジュアライザー

◎ Huggingface
最先端の汎用アーキテクチャ(BERT、GPT-2など)と、100以上の言語で何千もの事前学習済みモデルを提供する自然言語処理ライブラリです。

・テキスト分類 (カテゴライズ・感情解析)
・質問応答
・言語モデル
・テキスト生成
・要約
・固有表現抽出
・翻訳

◎ AllenNLP

◎ Fairseq

◎ Fast.ai

◎ TorchText

2. 日本語対応

◎ GiNZA
「GiNZA」は、オープンソースな日本語の自然言語処理ライブラリです。最先端の機械学習技術を取り入れた自然言語処理ライブラリ「spaCy」をフレームワークとして利用しており、トークン化処理に形態素解析器「SudachiPy」が使われています。

◎ MeCab
「MeCab」は、形態素解析でテキストを「単語」に分割するツールです。

◎ Janome

◎ SudachiPy

◎ nagisa

◎ SentencePiece
「SentencePiece」は、テキストを「サブワード」に分割するツールです。

3. 特定タスク

◎ Gensim

◎ OpenNMT

◎ ParlAI

◎ DeepPavlov

4. Google

◎ Cloud AutoML

◎ MLKit

◎ TensorFlow Lite Model Maker

5. Apple

◎ CreateML

◎ TuriCreate


この記事が気に入ったらサポートをしてみませんか?