見出し画像

自然言語処理を行う前の下準備

前回のおさらい

看護記録システムのチェック式項目を選定していくために、過去の看護記録からよく使われるキーワードを見つける必要があります。その頻出ワードをみつけるために「自然言語処理」という処理技術、その中でも「形態素解析」を行うことになりました。今回からは実際に行った方法などを詳しく書いてみたいと思います。


形態素解析を行う流れ

前回にも記載したのですが、形態素解析を行うにあたり手順を書くと主に以下のような流れで行っていくことになります。
なので、解析していく大まかな流れとしては
①たくさんのテキストデータを集める
→(1.5)用意したテキストデータを解析するその前の準備

②たくさんのテキストデータすべてをそれぞれ単語に分割する
③分割された単語の品詞を判別する
④品詞ごとにカテゴリ分けする
⑤すべての列ごとの単語を結合する
⑥使わなそうな単語を削除する
⑦単語を品詞別にカウントする
⑧単語を品詞別に多い順並び替える
⑨品詞別に何に関連した単語かを判別する
⑩すべての品詞で関連ごとに単語を整理する
そして最終的には看護記録に必要な関連ごとの頻出の単語一覧の作成まで行っていきました。今回は太字のところをお話しようと思います。

①たくさんのテキストデータを集める

まずは形態素解析を行うにあたり分析するもととなるデータをたくさん用意しなければなりません。今回は看護師の書いた記録のみで1000件ほど集めました。この約1000件のデータを集める作業は手作業で行いました。
本当は、看護師さんが記載している看護記録アプリからCSV出力などができれば嬉しかったのですが、残忍ながら使用している看護記録アプリでは、看護記録に関しては出力する手段がなかったため、1つ1つ看護記録を開き、記録のテキスト部分をコピーしてExcelに貼り付けていきました。なので、1000件の看護記録を載せたExcelデータを用意した形になります。

テキストデータ収集


(1.5)用意したテキストデータを解析するその前の準備

解析するもととなるたくさんのデータが用意できたら次は解析です。この解析には「python」というプログラミング言語で行う必要がありました。この「python」で解析を行っていくには使っているパソコンにpythonを使えるようにするための環境構築をしていかなければいけないイメージがあったのですが、最近は便利なもので、複雑な環境構築をしなくてもすぐに解析をスタートできるものがあることを知りました。

そんな便利なものの名前は「Google Colaboratory」といいます。名前にgoogleとあるとおり、googleが提供している機械学習・深層学習の環境を整えることが出来る無料のサービスです。googleアカウントを持っている人であれば無料ですぐにpythonで解析を行うことができます。
Google Colaboratoryはセルと呼ばれるところにコードを書き、セルを分けることでコードを分けて書くことができます。そして分けたコードごとにプログラムを実行することができるのが特徴です。この特徴によって、ある程度の行いたいプログラムごとにコードを分けることができ、かつ、分けたコードのまとまりごとにプログラムを実行・結果の確認することができたので、エラーの確認もしやすく、とても使いやすかったです。
(下記画像はgoogle colaboratoryの画面イメージです。赤枠で囲ったようにコードを分けることができます。下記画像はgoogle colaboratory公式からの画像引用しています。)
画像引用:https://colab.research.google.com/?hl=ja#scrollTo=gJr_9dXGpJ05

google colaboratoryの画面イメージ

あとがき

解析に用いるデータを収集し、解析を行う環境もできました。
次回は実際にGoogle Colaboratoryでpythonにてテキスト解析を行ったところを書いていきたいと思います。

みなさんの「スキ」がとても励みになります。
本当にありがとうございます。
また良かったら次回もみてくれるとうれしいです。