見出し画像

医学分野の論文から日本語言語モデルを構築する

mdxを利用した研究の紹介3
医学分野の論文から日本語言語モデルを構築する


国立情報学研究所コンテンツ科学研究系 教授 相澤彰子

言語モデルとは

 言語モデルは、膨大な量の文書に含まれている情報をなるべく効率よく圧縮して、いろいろな処理で活用できるようにしたものです。最近、文書の自動要約、対話システム、機械翻訳などの性能が格段に向上していますが、その背景にはここ数年で言語モデルが急激に発展したことがあります。
 実際、最近の巨大言語モデルには、文脈を考慮した単語の意味、文法、単語と単語の関係(日本の首都は東京)など、さまざまな知識が埋め込まれています。ただし、そのような巨大言語モデルをつくるには、莫大な計算資源を使って大量の文書を学習させる必要があるため、誰もが簡単に構築できるわけではありません。

なぜ日本語言語モデルをつくるのか

 巨大言語モデルが1つあれば、他の言語モデルはいらないのではないかと思われるかもしれませんが、やはり日本語には日本語の文書で学習させたモデルが必要です。しかし、英語では新しい巨大言語モデルが続々と発表されるのに対して、日本語のモデルは手薄だという現状があります。さらに、例えば門外漢である私が医学論文を読んでも知らない単語ばかりで意味がわからないのと同じで、モデルも学習していない新しい分野は得意ではなく、その分野に合ったモデルを構築する必要があります。
 こうした背景から、私はmdxのプロジェクトで、日本語の医学分野の言語モデルを一からつくることに取り組んでいます。実は、カルテを教材とした日本語の言語モデルはすでに存在し、診療データから病名を抽出するといった用途が考えられています。しかし、論文を対象とした言語モデルはまだありません。日本語の症例報告論文は知識として価値が高いのにこれは残念なことです。このため、私の言語モデルは、日本語の医学論文を教材として学習させることにしました。論文で学習させたモデルがあれば、論文を医学の分野ごとに分類したり、論文から病名を抽出したりすることが可能になり、医学研究に役立つと考えたのです。

今回作成した言語モデルのテスト結果の例
言語モデルが単語を病気の種類の違いで分類した結果を可視化したもの。点は単語を表し、色の違いは病気の違いを表す。同じ色の点が集まっているかどうかで、言語モデルの性能がわかる。

mdxの利用でスムーズに研究が進んだ

 学習に用いたのは、おもに論文の抄録で分量は約1160万文です。学習させる前の単語列の処理の仕方や、専門用語の辞書の組み込み方を変えて学習させ、最終的に8個のモデルができあがりました。しかし、言語モデルは「つくれば終わり」ではなく、公開して使ってもらう前に性能をテストしなければなりません。
 テストをするには、解きたい問題の「正解データ」を用意しておき、モデルに問題を解かせて正答率を見ます。しかも、タイプの異なる複数の問題を用いる必要があります(日本語のモデルを発展させるには、こうしたリソースづくりも重要なのです)。現在はそのデータを使ってモデルをテストしており、成績がよかったものを2022年度中に公開できればと思っています。
 言語モデルを一から構築するには、大量の文書を学習させるプロセスを、条件を変えて何度も繰り返す必要があるため、割り当てられた計算資源を自由に使えるmdxがとても有効でした。まだテストの途中ですが、医学論文の解析に適したモデルができたのではと手応えを感じています。
 また、ここでは私の研究だけをご紹介しましたが、同じプロジェクト内では早稲田大学の河原大輔教授もmdxを使って汎用型日本語モデルの構築を進めていますし、他のグループもmdxの利用に意欲を示しています。メンバーがmdx上に集うことで、ノウハウや、モデルの構築・評価に必要なリソースの情報の共有が進むことも、mdxの効果として期待しています。

(取材・構成 青山聖子)

相澤彰子/専門はテキスト・言語メディア。東京大学大学院工学系研究科博士課程修了、工学博士。大学共同利用機関学術情報センター助手、助教授などを経て、2003年より現職。東京大学大学院情報理工学系研究科教授、総合研究大学院大学複合科学研究系教授も併任。

深く学ぶには
情報処理学会研究報告「学術分野に特化した事前学習済み日本語言語モデルの構築」https://bit.ly/3KrMpNO

Contents
巻頭言
特集 データ活用社会創成プラットフォームmdx 始動
  ゼロカーボンを目指す地域と技術をつなぐ情報基盤の構築
  オープンデータから日本全国の人流をつくりだす
  医学分野の論文から日本語言語モデルを構築する
連載 nodesの光明
  情報システム利用者の「困った!」を解決
   ──教育のオンライン化に貢献する学生サポーターたち
連載 飛翔するnodes
  大型データから解き明かす土星衛星の大気環境
nodesのひろがり
  
プロジェクト md“X”
  スパコン導入の舞台裏
  0と1で超巨大システムを操る
  モノとその繋がりの科学

この記事が気に入ったらサポートをしてみませんか?