自然言語処理への挑戦

2023年2月21日 17:56

前回のおさらい

情報提供書を作成し、看護記録の開発を担当していただける方も
決まり、6月から開発がスタートしました。
今回開発する訪問看護記録システムの大きなポイントはチェック式で
大部分の記載を行えるようにすることです。
チェック式で記録をできるようにするためには、チェック項目や
選択肢を考える必要があります。
その選択肢を決める業務を私が担当することになりました。

どうやって選択肢を決めていく？

選択肢を決めていくにあたりどのような方法があるかを考えたところ、
「看護師さんが過去に書いた看護記録からよく使われていそうな単語を
抽出していく」という方法を考えました。
やはりよく使用する単語は選択肢に必須ですし、多くの看護記録を見ることで、チェック式の看護記録に組み込む項目がおのずと分かると思いました。
そうすると、今度は、よく使われている単語をどうやって集計するかが
問題となってきます。
1つずつ過去の看護記録を確認して、手作業で集計？とも一瞬思った
のですが、それだと多くの看護記録を確認することができないので、
現実的ではないと判断しました。
それよりも、たくさんのテキストデータから頻出で使われている単語を
抽出するのは、プログラミングを活用することで行えるのではないかと
思いました。

自然言語処理でテキストデータ解析

多くのテキストデータから頻出単語を抽出する方法を探すと、
「自然言語処理」という処理技術を使うことでできそうなことが
分かりました。
「自然言語処理」とは、人間の言語を機械で処理し、内容を抽出する
処理技術とのことのようです（※1）。
そのなかでも、「形態素解析」というものがあり、形態素解析を行うと、
自然言語（人間の言語）で書かれた文章を、言語上で意味を持つ最小単位に分け、それぞれの品詞などを判別することが可能になるとのことでした（※2）。

例：　「庭には二羽ニワトリがいる」
↓形態素解析をすると
庭（名詞）/に（助詞）/は（助詞）/二（数詞）/羽（助数詞）/ニワトリ（名詞）/が（助詞）/いる（動詞）
と分解し種類を判別してくれる（※2）。

この「形態素解析」でテキストで書かれた過去の看護記録を解析していく
ことに方針を決めました。
なので、解析していく大まかな流れとしては
①たくさんのテキストデータを集める
②たくさんのテキストデータすべてをそれぞれ単語に分割する
③分割された単語の品詞を判別する
④品詞ごとにカテゴリ分けする
⑤すべての列ごとの単語を結合する
⑥使わなそうな単語を削除する
⑦単語を品詞別にカウントする
⑧単語を品詞別に多い順並び替える
⑨品詞別に何に関連した単語かを判別する
⑩すべての品詞で関連ごとに単語を整理する
の流れで進めていき、最終的には看護記録に必要な関連ごとの
頻出の単語一覧を作成することを目標としました。

※1：https://ledge.ai/nlp/参照
※2：https://ledge.ai/morpho_analysis_japan/参照

あとがき

看護記録の頻出単語の抽出は形態素解析で行うことが決まりました。
次回はこの形態素解析をどのように行ったか、どの環境を使用したか
などを書いていこうと思います。

みなさんの「スキ」がとても励みになります。
本当にありがとうございます。
また良かったら次回もみてくれるとうれしいです。