AI分野の技術記事です。
前回の記事では、コンピュータに文章を理解させるためのベクトル化(=文字を数値化)する2つの方法のうち、カウントベースの手法を説明し、サンプルデータを使って、コー…
前回の記事では、「探索的データ解析(EDA)」に関するライブラリを紹介しました。 今回は、EDAでデータの特徴を把握した後に行う、「データ前処理」機能のあるライブラリ…
前回の記事では、形態素解析とそれらを行うツールについて紹介しました。今回の記事では、形態素解析を行った後の話を記事にします。 文章を形態素解析した後、コンピュー…
本記事は、Pythonライブラリを取り上げ、簡単な使用例と共に紹介する連載シリーズ(予定)です。 numpyやpandasなど、書籍やWeb上に情報が広がっている一般的なライブラリ…
はじめにTransformerやBERTの登場により、ビジネスの現場でも自然言語処理の活用が検討、実証されています。今回から複数回にわたって、"自然言語処理の基礎"となる内容か…
hsake
2022年2月25日 13:33
前回の記事では、コンピュータに文章を理解させるためのベクトル化(=文字を数値化)する2つの方法のうち、カウントベースの手法を説明し、サンプルデータを使って、コードを動かしてみました。カウントベースの手法では"計算量の増大"(=$${O(n^3)}$$)や、文書内における"単語の順序などの関連性を考慮できない"という課題があります。今回は、この課題を解決する「推論ベース」の手法について説明します
2022年1月25日 12:11
前回の記事では、「探索的データ解析(EDA)」に関するライブラリを紹介しました。今回は、EDAでデータの特徴を把握した後に行う、「データ前処理」機能のあるライブラリについて記事にします。※本記事で紹介しているライブラリのインストールについては、自己責任でお願いします。データ準備を簡単にする「dataprep」(ライブラリ:github, 公式ドキュメント)今回も、titanicのデータセ
2021年12月24日 12:12
前回の記事では、形態素解析とそれらを行うツールについて紹介しました。今回の記事では、形態素解析を行った後の話を記事にします。文章を形態素解析した後、コンピュータに理解させるためには"数値化"する必要があります。(以降、ベクトル化と表現します)自然言語をベクトル化する方法は、主に2通りあります。①カウントベース 文章中の単語の出現回数をカウントする②推論ベース 周辺の単語から、適切な
2021年11月29日 14:08
本記事は、Pythonライブラリを取り上げ、簡単な使用例と共に紹介する連載シリーズ(予定)です。numpyやpandasなど、書籍やWeb上に情報が広がっている一般的なライブラリではなく、マイナーだけど意外と便利かも!というライブラリを発掘することが目的です。※本記事で紹介しているライブラリのインストールについては、自己責任でお願いします。今回は、「探索的データ解析(EDA)」に関するラ
2021年10月22日 15:20
はじめにTransformerやBERTの登場により、ビジネスの現場でも自然言語処理の活用が検討、実証されています。今回から複数回にわたって、"自然言語処理の基礎"となる内容から記事にしていきます。自然言語処理とは?自然言語(日本語や英語など私たちが普段使っている言葉)をコンピュータに理解させるための処理です。自然ではない言語というのは、JavaやPythonといったプログラミング言語などを