hsake

自然言語処理に歩み寄る#3

前回の記事では、コンピュータに文章を理解させるためのベクトル化（＝文字を数値化）する2つの方法のうち、カウントベースの手法を説明し、サンプルデータを使って、コードを動かしてみました。カウントベースの手法では"計算量の増大"（=$${O(n^3)}$$）や、文書内における"単語の順序などの関連性を考慮できない"という課題があります。今回は、この課題を解決する「推論ベース」の手法について説明します。推論ベースの手法推論ベースとは、周囲の単語が与えられたときに対象となる箇所

便利なPythonライブラリ②～データ前処理編～

前回の記事では、「探索的データ解析（EDA）」に関するライブラリを紹介しました。今回は、EDAでデータの特徴を把握した後に行う、「データ前処理」機能のあるライブラリについて記事にします。 ※本記事で紹介しているライブラリのインストールについては、自己責任でお願いします。データ準備を簡単にする「dataprep」（ライブラリ：github, 公式ドキュメント）今回も、titanicのデータセットを利用します。実行環境は、次の通りです。 Python 3.9.1（Go

hsake

2年前

8
自然言語処理に歩み寄る#2

前回の記事では、形態素解析とそれらを行うツールについて紹介しました。今回の記事では、形態素解析を行った後の話を記事にします。文章を形態素解析した後、コンピュータに理解させるためには"数値化"する必要があります。（以降、ベクトル化と表現します）自然言語をベクトル化する方法は、主に2通りあります。 ①カウントベース　文章中の単語の出現回数をカウントする ②推論ベース　周辺の単語から、適切な単語を推論する今回は、「カウントベース」の方法について、いくつか例を交えて解説

hsake

2年前

9
便利なPythonライブラリ①～可視化編～

本記事は、Pythonライブラリを取り上げ、簡単な使用例と共に紹介する連載シリーズ（予定）です。 numpyやpandasなど、書籍やWeb上に情報が広がっている一般的なライブラリではなく、マイナーだけど意外と便利かも！というライブラリを発掘することが目的です。 ※本記事で紹介しているライブラリのインストールについては、自己責任でお願いします。今回は、「探索的データ解析（EDA）」に関するライブラリを簡単な使用例と共に紹介します。 ① pandas-profiling

hsake

3年前

13

自然言語処理に歩み寄る#3

7

hsake

2年前
便利なPythonライブラリ②～データ前処理編～

8

hsake

2年前
自然言語処理に歩み寄る#2

9

hsake

2年前
便利なPythonライブラリ①～可視化編～

13

hsake

3年前

マガジン

エンジニアブログ

12本

記事

自然言語処理に歩み寄る#1

はじめにTransformerやBERTの登場により、ビジネスの現場でも自然言語処理の活用が検討、実証されています。今回から複数回にわたって、"自然言語処理の基礎"となる内容から記事にしていきます。自然言語処理とは？自然言語（日本語や英語など私たちが普段使っている言葉）をコンピュータに理解させるための処理です。自然ではない言語というのは、JavaやPythonといったプログラミング言語などを指します。身近なところで例を挙げると、文字変換や機械翻訳、検索エンジン（Go

hsake

3年前

6
自然言語処理に歩み寄る#1

6

hsake

3年前

マガジン

エンジニアブログ

最近の記事

自然言語処理に歩み寄る#3

便利なPythonライブラリ②～データ前処理編～

自然言語処理に歩み寄る#2

便利なPythonライブラリ①～可視化編～

自然言語処理に歩み寄る#3

便利なPythonライブラリ②～データ前処理編～

自然言語処理に歩み寄る#2

便利なPythonライブラリ①～可視化編～

自然言語処理に歩み寄る#1

自然言語処理に歩み寄る#1