見出し画像

MLサービス用の自然言語データの前処理ツール Unstructured を試す

1. Unstructured

「Unstructured」は、MLサービス用の自然言語データの前処理ツールです。HTML、PDF、Wordなどの自然言語データをMLサービス用に変換することができます。

以下のような処理を行います。

・ドキュメントを要素に分割。
・ドキュメントから不要なテキストを削除。
・データラベル付けなどの下流タスク用の書式調整。

対応ドキュメントは、次のとおりです。

・txt
・docx
・pptx
・jpg
・png
・eml
・html
・pdf

2. Colabでの実行

Google Colabでの実行手順は、次のとおりです。

(1) Colabで新規ノートブックを開く。
(2) パッケージのインストール。

# パッケージのインストール
!pip install unstructured
!apt-get install -y libmagic-dev

(3) 左端のフォルダアイコンからファイル一覧を表示し、ドキュメントをアップロード。
今回は、マンガペディアのHTMLで試してみました。

(4) ドキュメントのパース。

from unstructured.partition.auto import partition

# ドキュメントのパース
elements = partition("bocchi.html")
print("\n\n".join([str(el) for el in elements[:5]]))
あらすじ

結束バンド

後藤ひとりは友達を作れない陰キャでいつも一人で過ごしていたが、中学時代にテレビのインタビューを見て、...

文化祭ライブ

夏休みに入り、後藤ひとりは知り合いも増えていたが、自分から遊びに誘うことができずに夏休みも終わり、...

HTMLからタグなどの不要な情報は削除され、まとまり単位できれいに分割されていることがわかります。

関連



この記事が気に入ったらサポートをしてみませんか?