初心者向け!KHcoderで特許マップを描いてみよう(1)
こんにちは! 特許調査の仕事をしてます、酒井と申します。
今日は「KHcoderに特許データを読ませる手順」について書きます。
「KHcoderに特許データを読ませる・・・?」
そうだ! KHcoderを知らない方の方が 多いかもしれないですよね。
KHcoderというのは 「テキストマイニングによる頻出単語と関連度」のマップを描くツールです。
下図はKHcoderに「ビールに関連する公開公報」約1100件分の
要約テキストを読ませて、特徴語をマップ化したものです。
「確かにビールっぽいけど、ここから何が言えるのかな・・・?」
ですよね・・・
では、これならどうでしょう?
特許要約に現れる特徴語は、上から時計回りに
キリン:ホップと香気、泡もち
サッポロ:キレ
サントリー:遺伝子
アサヒ:麦芽
などです。よく「明細書には企業の個性が出る」と言いますが、
単語抽出をしてみると、確かに特徴語に個性が表れていますよね。
この記事と次回の記事、2回に分けて「上記のような特徴語マップの作り方」を書きます。 この記事では「一番基本的な操作手順」、次回の記事(12/18更新予定)で「マップを描く時のデータ準備のコツ」を取り上げます。
準備するもの
準備するものは ふたつだけです。
① KHcoder
立命館大学社会学部・樋口先生によるテキストマイニングソフトです。基本機能は無料で使えます。
② 特許データベースから出力したCSVファイル
KHcoder自体は色々なデータを扱えるようなのですが、この記事では日本語の文章からなる項目(たとえば「要約」や「独立請求項」など)を含むCSVファイルを前提に説明します。
上記ふたつ、準備できたらスタートです。
「プロジェクト」にCSVファイルを読ませる
KHcoderを起動したら、メニューから
プロジェクト ⇒ 新規プロジェクト でCSVファイルを読ませます。
分析対象ファイルの「参照」からCSVファイルを指定
分析対象とする列 で、対象にしたい日本語項目(ここでは「要約」)を指定し、[OK] でファイルを読み込みます。
テキストのチェック ~ 前処理の実行
ファイル読み込みが完了したら
① メニュー:前処理 ⇒ テキストのチェック を実施。
もしエラーが出たら、適当に「自動修正」をかけます。
② ①でテキストがきれいになったら
メニュー:前処理 ⇒ 前処理の実行 をします。
・・・と、簡単そうに書いてしまいましたが、
KHcoderを使うポイントは 前処理の段階で、分析には邪魔になる不要語や、逆にしっかり分析して欲しい技術用語を指定する事、だと思ってます。こちらは次回の記事で説明します。 少々お待ちください。
前処理が終わりましたら
「共起ネットワーク」の描画
メニュー:ツール ⇒ 抽出語 ⇒ 共起ネットワーク を選び
適当にオプション設定して 「OK」を押すと
シンプルな出現語分析や
出願人別の特徴語
出願時期ごと(図では5年毎)の特徴語の違いなども描けます。
年代による変化もわりと面白いんですよー!
2015-2010は「ビールテイスト飲料」がすごく多い、とかわかります。
また、ビールテイストの近くに「増強」ってあるんですけど・・・
これだけでは何を増強しているかわかりませんよね。
そういう時は「増強」の文字をクリックすると、前後を含めた文章が出てくるので、一体何を増強しているか?が簡単にわかります。
炭酸刺激やビールらしい風味、ホップの香味などを増強してるんですね。
更に「炭酸刺激を増強しているのは誰・・・?」となったら
そう!炭酸刺激の増強について書いている行をクリックしてください。
この文章を含むデータが表示されて「アサヒビールだ!」とわかります。
と、いう感じで、
数千件程度の特許から特徴抽出して、
気になったら個別の特許も確認できるKHcoder。割とおすすめです。
次回予告(12/18)
繰り返しになりますが、このKHcoder 「テキストの前処理」に割とポイントがある気がしています。
ということで次回は「前処理のコツ」のお話。
下記URLは予約投稿です。12/18になると見れます。
https://note.com/sakaimisato/n/nde5044e5809a
そして、今年も「知財系もっとアドベントカレンダー2021」に
参加させて頂いてます。
すこーし早いクリスマスプレゼント? ということで、
次回記事「KHcoderに特許データを読ませる用の、前処理の話」を
アドベントカレンダーにも予約投稿しました。
次回記事を読む前に
・知財系アドベントカレンダーに毎日投稿される 素敵な記事を読んだり
・前もってKHcoderをインストールしたり、
・KHcoderに適当なデータを読ませて、ちょっと練習したり
しながらお待ちくださいませ。
それではまた!