見出し画像

勉強会しました。要約ツールによる長文の読み返し対策。

分析屋の下滝です。

ミニ勉強会の5回目しました! 15分の勉強会です! 発表は10分で終わりますが、質問も含めていつも40分くらいになっています! ミニは無理なのかもしれません!

今回は、Kさんの発表です!

内容は、pysummarizationというpythonで書かれた要約ツールを使ってみた、という内容です!

Kさんがこのテーマを選んだ理由です!

読み力を高めたいみたいな感じでしょうか!?

そこで試してみたツールが、pythonのようやくツールのpysummarizationです!

公式サイトによると、pysummarizationは次のように説明されています!

本ライブラリは、自然言語処理とニューラルネットワーク言語モデルの一種を用いた自動要約機能です。本ライブラリを使用すると、テキストクラスタリングによってフィルタリングされたオリジナル文書やウェブスクレイプテキストの主要なポイントを含む要約を作成することができます。また、本ライブラリは、Accel-Brain-baseを利用して、LSTMに基づくエンコーダ/デコーダを実装し、Sequence-to-Sequence (Seq2Seq) 学習によって要約の精度を向上させています。

https://pypi.org/project/pysummarization/

ここから試してみた、みたいなスライドが続きます! 一部のみ紹介!

使ってみた所感はこんな感じのようです。

続いて他のツールと比べてみよう、という内容。

最後にまとめ!


ついでに、公式ページより、サンプルコードはこんな感じのようです! 比較的簡単に試せそうですね!

from pysummarization.nlpbase.auto_abstractor import AutoAbstractor
from pysummarization.tokenizabledoc.mecab_tokenizer import MeCabTokenizer
from pysummarization.abstractabledoc.top_n_rank_abstractor import TopNRankAbstractor

document = "自然言語処理(しぜんげんごしょり、英語: natural language processing、略称:NLP)は、人間が日常的に使っている自然言語をコンピュータに処理させる一連の技術であり、人工知能と言語学の一分野である。「計算言語学」(computational linguistics)との類似もあるが、自然言語処理は工学的な視点からの言語処理をさすのに対して、計算言語学は言語学的視点を重視する手法をさす事が多い[1]。データベース内の情報を自然言語に変換したり、自然言語の文章をより形式的な(コンピュータが理解しやすい)表現に変換するといった処理が含まれる。応用例としては予測変換、IMEなどの文字変換が挙げられる。"

auto_abstractor = AutoAbstractor()

auto_abstractor.tokenizable_doc = MeCabTokenizer()
auto_abstractor.delimiter_list = ["。", "\n"]
abstractable_doc = TopNRankAbstractor()
result_dict = auto_abstractor.summarize(document, abstractable_doc)

for sentence in result_dict["summarize_result"]:
    print(sentence)


分析屋では、このようなテキストデータを扱う、自然言語処理のお仕事の依頼も受け付けております!

過去には、製品の使い方等に関する問い合わせ内容が多く溜まっていて、そこからFAQに使えそうな問い合わせの多いものを自動抽出して欲しい、などの相談もありました! 一つ一つの問い合わせが似ているもの探して計算するという方法で試したことがあります!

株式会社分析屋について

ホームページはこちら。

noteでの会社紹介記事はこちら。

【データ分析で日本を豊かに】
分析屋はシステム分野・ライフサイエンス分野・マーケティング分野の知見を生かし、多種多様な分野の企業様のデータ分析のご支援をさせていただいております。 「あなたの問題解決をする」をモットーに、お客様の抱える課題にあわせた解析・分析手法を用いて、問題解決へのお手伝いをいたします!
【マーケティング】
マーケティング戦略上の目的に向けて、各種のデータ統合及び加工ならびにPDCAサイクル運用全般を支援や高度なデータ分析技術により複雑な課題解決に向けての分析サービスを提供いたします。
【システム】
アプリケーション開発やデータベース構築、WEBサイト構築、運用保守業務などお客様の問題やご要望に沿ってご支援いたします。
【ライフサイエンス】
機械学習や各種アルゴリズムなどの解析アルゴリズム開発サービスを提供いたします。過去には医療系のバイタルデータを扱った解析が主でしたが、今後はそれらで培った経験・技術を工業など他の分野の企業様の問題解決にも役立てていく方針です。
【SES】
SESサービスも行っております。