Task-Oriented Word Segmentation
2021年度研究会推薦博士論文速報
[自然言語処理研究会]
平岡 達也
(富士通(株)富士通研究所 研究員)
邦訳:タスクに応じた単語分割
【背景】AIにテキストを入力するときは短い単位に区切る
【問題】AIがタスクを解きやすいようなテキストの区切り方は不明
【貢献】AIに扱いやすいことばの単位を発見できる
日本語や英語のように,わたしたちが普段使う言語のことを自然言語と呼ぶ.そして,自然言語をコンピュータで処理し,作業を効率化したり有益な知見を発見したりする技術を自然言語処理と呼ぶ.たとえば,メールやコメントがスパムであるかを分類する技術や,日本語のテキストを英語に自動で翻訳する技術などが,一般的に馴染み深い自然言語処理の応用例である.
近年の自然言語処理では,ニューラルネットワークで構築したAIにテキストを入力し,分類や翻訳などの結果を出力させる.たとえば,メールのテキストをAIに入力してスパムメールであるかの分類結果を出力させたり,日本語のテキストをAIに入力して英訳テキストを出力させたりといった具合である.本記事では,テキストの分類や翻訳のように,特定のタスクを解くための仕組みをまとめて「AI」と呼ぶことにする.
多くの自然言語処理のシステムでは,テキストを適当な単位に区切ってからAIに入力する.たとえば「外国人参政権」というテキストを「外国人/参政/権」のような小さい単位(トークン)に区切ってからAIへと入力する.テキストの区切り方は1つではなく,「外国/人/参政/権」や「外国人/参政権」のようなパターンもあり得る.どのようにテキストを区切るかによってAIの性能は変わるため,区切り方は慎重に選択する必要がある.特に日本語のように,スペース記号で単語の境界を明示しない自然言語では,区切り方のパターンが膨大になるため,区切り方の選択は重要な研究テーマになる.
テキストの適切な区切り方は,AIが解くタスクによって異なる.たとえば,テキストの内容が政治的であるかを分類するようなタスクを解くのであれば,政治にかかわる「外国」や「参政権」といったトークンにアクセスしやすい「外国/人/参政権」という区切り方が適切かもしれない.一方で,食物の名前を含むテキストを検索したいという場合は,「外国/人参/政権」のような区切り方が適切かもしれない.「かもしれない」とことばを濁しているのは,実際にこれらの区切り方を使ってAIを学習し,性能を評価してみるまで,その区切り方が適切かどうか分からないためである.
これまでの自然言語処理では,「新聞記事を扱うときは辞書に収録されたトークンを優先して使うとよい」というように,テキストの性質に応じた適切な区切り方の傾向が分かっている.しかし,大まかな傾向が分かっているだけであり,実際にテキストの区切り方を決める際には経験や職人の勘が必要である.
そこで本研究では,テキストやタスクの性質に応じて,AIがタスクを解きやすい適切なテキストの区切り方を自動で発見する手法を開発した.本研究によって,職人の勘がなくとも適切なテキストの区切り方を発見でき,AIの分類性能や翻訳性能の向上が得られる.たとえば日本語の分類タスクを解くときは,英語の場合よりも細かくテキストを区切ることでAIの性能が向上する.また,翻訳タスクを解くときは,翻訳される側の言語(日英翻訳の場合は日本語側)のテキストを細かく区切ることで性能の向上が得られることが分かった.このように本研究内容は,AIがタスクを解く上で扱いやすいことばの単位を調べることができる.そのため,本研究はAIの性能向上に寄与するだけでなく,AIがどのような単位でテキストを認識しているか(AIがどのように文字の世界を見ているのか)を知るための手がかりにもなる.
なお本論文の内容は英語で記述されているが,以下の国内学会論文および論文誌では日本語で詳細を確認できる.
平岡達也,高瀬 翔,内海 慶,欅 惇志,岡崎直観:後段モデルの損失値を用いた単語分割のタスクへの最適化,言語処理学会第27回年次大会 (NLP2021), pp.486–491 (2021年3月).
平岡達也,高瀬 翔,内海 慶,欅 惇志,岡崎直観:テキストベクトルの重みづけを用いたタスクに対する単語分割の最適化,自然言語処理,28(2):479–507 (2021年6月).
平岡達也,高瀬 翔,内海 慶,欅 惇志,岡崎直観:単語分割と後段モデルの損失値を用いた同時最適化,自然言語処理,29(1):112–143 (2022年3月).
(2022年5月30日受付)
(2022年8月15日note公開)
ー ー ー ー ー ー ー ー ー ー ー ー ー ー ー ー ー ー
取得年月日:2022年3月
学位種別:博士(工学)
大学:東京工業大学
ー ー ー ー ー ー ー ー ー ー ー ー ー ー ー ー ー ー
研究生活 研究を進めていく上で最も重要なことは,研究仲間との会話だと思っています.多くの先輩方が書かれているように,博士課程での研究は自分自身との戦いになります.そのため,(研究を応援してくれる人が周りにいるにもかかわらず)研究がソロプレイであると錯覚し,行き詰まったときに誰にもSOSを出せなくなってしまいがちです.他者にSOSを出すというのは勇気が必要な行動であるため,日頃から研究仲間と会話を重ねることで,SOSを出す心理的ハードルを下げておくことが大切です.また,研究仲間の幅を広げておくことで,新しい視点からのアドバイスが得られます.実際に,分野外からの斬新なコメントが本研究のピンチを何度も救ってくれました.同期や指導教員だけではなく,研究室の先輩や後輩,学会や勉強会で出会った他所属の仲間,授業で出会った他分野の仲間など,より広い範囲の仲間と関係を築くことで,あなたの研究はより楽しく,魅力的なものになると思います.