自然言語を扱う難しさ

私事ですが「ゆる言語学ラジオ」にドはまりしています。
堀本さん、水野さんというお二人が言語学について、ゆるく(?)楽しく軽快なトークを繰り広げるラジオなのですが、お手軽に知識の奔流に飲み込まれることできるので非常におすすめです。
そんなゆる言語学ラジオさんで【徹底討論】プログラミング言語は言語なの?【ゆるコンピュータ科学ラジオ4】という回があります。
さて、ここでこの回の内容をさらってみても縮小再生産にしかなりませんので、「自然言語には曖昧性がある」というセンテンスから、最近私が感じている自然言語を扱う難しさについて書いてみます。

さて、私たちが提供しているHR pentestというサービスではイグジットインタビュー(退職時面談)から離職につながる原因をみつけることが可能です。
このため、標準機能として退職時面談をデータ化するための文字起こし機能とそのテキストデータを扱いやすくするための自然言語解析機能があります。
特に前者では、文字起こし品質および解析品質の向上に向けヒューマンチェックによる修正と一部校正を行っています。
この校正で難しいのが、「自然言語には曖昧性がある」という点です。(なお、ここでの曖昧性についてはゆる言語学ラジオさんの内容とは異なります。)
まず、相互のコミュニケーション・会話であることから単語の欠落なんてことは頻繁に起こります。指示代名詞については文字だけ見ると何が何だかわからないこともあります。
さらにいえば、言葉を教科書通りに使う能力にも差がありますので、単語の誤用であったり、文法がめちゃめちゃになったりもよく起こります。
方言なんかが入ってきたり企業特殊的な言葉が入ったりしてきたときにはヒューマンチェック担当者は頭を抱えるでしょう。
こ最終的に自然言語解析をかけることを想定すると、前述を考慮しながら、「退職者が本当に意図していた文章をニュアンスを変えずに構成する」必要があるのですが、なんとも難しい作業です。
(HR pentestはたくさんの工夫から品質を高めていますが、それでも難しい作業ではあります)

さて、文字起こしの文脈ではございましたが、対面コミュニケーションでもこれって難しいのではないでしょうか。ましてや、これを議事録にまとめて記録するのであれば、情報の欠損や曲解は避けられないでしょう。

というわけで、最後にCMです。
退職事由書の作成が大変/難しい、退職事由書のデータを活用できていない、そもそもイグジットインタビューってどうすればいいの・・・
そんなお悩みがありましたらぜひHR pentestを!

(編集:鈴木)

この記事が参加している募集

この記事が気に入ったらサポートをしてみませんか?