見出し画像

【社員インタビュー vol.3】先進情報学研究所 大﨑 敏郎さん

VALUENEXメンバーのインタビューシリーズ

VALUENEX社員インタビューvol.3は、2015年よりVALUENEXに入社し、自然言語処理やトピックモデルに情熱を注ぐ先進情報学研究所部の大﨑敏郎さんです。社内では専門家ポジションですが、実は機械学習を学び始めたのは入社後とのこと。記事の最後では、勉強熱心な大崎さんオススメの、初心者でも読みやすい大規模言語モデルや生成AIの本も紹介しています。


◆業務内容と入社の経緯

最近はトピックモデルというのをやっています。
前の会社では、自然言語処理をしない知財分析をやっていたのですが、言語処理をしないとダメだなと思っていたところ、それができる会社ということでVALUENEXを知って入社したので、それまでは自然言語処理は基礎知識があるかないかくらいでした。
入社後にVALUENEX Radar、当時の「TechRadar」、「DocRadar」を見て、なるほどなと。言葉の関係が距離や位置関係で表現できるっていうのは面白いなと思いました。

◆トピックモデルを始めたきっかけ

AI系のディープランニングの調査をしていたときに、「トピックモデル」という領域ができていて、件数がすごく伸びており、俯瞰解析でも魅力的な技術だと判定できました。
その当時、実はトピックモデルをあまり知らなかったのですが、これは面白そうだなと思って触ってみたのがきっかけです。
最初は自分の勉強のためにプログラムしていたのですが、意外とそのまま使えそうで、今のところはトピックモデルを使うといくつかの分析でちょっと詳しいことができるのかなと。

◆トピックモデルとは

たとえば、論文と特許を混ぜて分析するとき、同じ分野でも少しずつ専門用語が違ったりするので、言葉そのものを類似性で見てしまうと、同じ技術でも論文と特許がバラバラになってしまう。
そこで、「トピック」という形で、同じ技術のトピックとして論文や特許の言葉を、一つのグループにして、それらの言葉のうちどれかを持っていたらその技術を持っていると見做すことにしましょう、というものです。
 
違う言葉でも同じグループにすることができるのがメリットですね。

他にもわかってきたメリットがあります。発明は大抵、ある機能を実現するために複数の技術を組み合わせて目的の機能を実現するのですが、どれがメインの技術で、どれがサブの技術なのかを調べたいと思ったときに、トピックのウェイトの高いものや、2番目・3番目と組み合わせが選べるところです。

また、コンピュータの容量の効率化にもなります。そのままのキーワードだと、何万・何十万の言葉を使うことになり、その次元の類似度計算って大変なんですよ。でも、何十万ワードの中からトピックを100とか1,000程度作った場合、その後は同じく100または1,000の次元で類似計算をするだけです。そうすると計算が速くなるので、それもメリットだと思います。

◆技術面から見たVALUENEXの強みとは

VALUENEXの強みは、機械の力と人間の力の両方を持ってるところだと思ってます。別のソフトウェア会社だと、計算は得意でも実際の技術の中身とかがわからないからそこから先はできなかったり、逆に昔ながらのコンサル会社だと技術のことはわかっても、機械処理が苦手だったりなど。
 
VALUENEXはそんなに大きな会社ではありませんが、機械的な処理もある程度できるし、それを技術的に読み込む専門知識を持った人間がいます。
将来的には、少しずつ人間のウェイトが減っていって、最後は全部機械化するのかなと思ってますが、僕がこの会社にいる間にそこまでできるかできないか、気になってます。
 
自分が引退するまでに、全部機械ができる時代が出来ていたらおもしろいなと思ってますが、意外とそうなっちゃうかもしれないっていうのがいまの感覚ですかね。

◆自然言語処理は仕事で初めて知ったのですか?

そうですね。僕の学生時代は機械学習っていうのはほとんどなかったんですよ。社会人になってから存在を知って、勉強し始めたのが46〜47歳かな。
自然言語処理とかをするのに大事だと思い、機械学習を少し覚え始めた48〜49歳の頃に入社したのがこの会社でした。その2〜3年後にディープランニングが出てきたのですが、それも面白いなと思って勉強し始めました。たぶん前の会社だと許してくれなかったので、勉強ができる環境に移れてラッキーだったなと思ってます。
 
鼓舞するつもりはないですけど、「私はこれしかできない」とか思わないで、ぜひいろんなことにチャレンジしてほしいです。自分が面白いと思うことなら続けられるので。逆に自分がやりたくないことにチャレンジしようと思っても、モチベーションが続かないんですよね。自分が面白いと思ったものは向いているんです。
自分が面白いと思えば、他人から見て進むのが遅かろうが、楽しいから全然苦にならない。そうするといつのまにか上の方のレベルになってることも多いので、自分の興味に忠実に従って生きていけたら幸せなのかなって思ってます。

◆学生時代の研究分野は?

本当は心理学がやりたかったんですよ。でも心理学科は文学部に設置されていて。僕は国語と英語がすごく苦手だったので、絶対合格できないと思って諦めたんですね。
その次に何が好きなのかを考えたとき、1980年代当時すごく進んでいた科学がいいかなと。その中でも物理を選びました。
その当時は宇宙とか素粒子などが流行っていて、それができたらおもしろいなと思って。

◆現在も業務に活かされている研究室での経験

研究室を選ぶとき、人気があるのが素粒子・宇宙だったんですよね。
素粒子・宇宙や原子核の中でも、「理論」と「実験」があって、頭良い人が「理論」、ちょっと苦手な人が実験に行くっていう風潮があったんですよ。で、私は「理論」に行ったら死んでしまうと思ったんです(笑)
かと言って素粒子・宇宙の「実験」もだめだなと。原子核の「理論」もやばいので、実験ならいけるんじゃないかと、かなり打算的な発想で「原子核」の「実験」を選びました。

「理論」は意外とシンプルなものしか解けないんです。たとえば二体問題なら厳密に解けるけど三体になったら解けないとか。あるいは統計力学みたいな形で、ものすごい数のものが集まってくるとそれの平均的な動きってのがまた正確にわかるんですが、ものすごく少ないか、ものすごく多いところしか正確に解けない。でも世の中のほとんどはその中間なんですよ。

原子核もそれに近いんです。たとえば水素だと原子核1個、ウランだと300個、鉄だと50個とか、いまの科学では厳密には解けないものだったんですね。いろんな近似モデルが考えられているけども、ちょっと守備範囲外れると全く当たらなくてすごく汚い科学だったんですよ、当時は。
 
でもそれを選んだのは意外とよかったかなと思ってて。物理のモデルの中でも、一番モデルに依存できない、あるいはいろんなモデルを組み合わせてどうにかこうにか解いてやるぞっていう分野なんですよ。それが意外と、経済活動とか人間の活動の対象の数と似ていて、応用が効くんです。

「原子核」を選んで良かったことがもう一つ。今言ったみたいに原子核のモデルってすごく汚くて不完全なんですよ。実験も全部の実験パターンを尽くすことができなくてわからないところだらけなんですが、たとえば原子炉を作るってなると、わかんなくても作んなきゃいけないんですよ。実験もない、理論も計算できない、ではどうするかのというと、実は「核データ」っていう部門ができてたんですね。
 
わからない中でも、原子炉の設計時に何かしら参考になる値が必要で、経験則で作っていったのが「核データ」です。現在「データサイエンティスト」という言葉が出てきていますが、当時の核データの仕事と似ています。
 
ハンドブックレベルで経験則集というのがあって、その内容は核実験の実験データを解釈するためのノウハウだったんですが、そのノウハウが意外にも特許のデータとかにも役立ちました。前の会社であるモデルを作ったんですが、それは核実験のハンドブックにある経験則を核データじゃなく特許データに当てはめたんですよ。
 
VALUENEX入社後も役立っていて、これはノイズだなとかいうのが経験則でわかって、使うべきデータ、捨てるべきデータへの迷いが少ないです。

◆現社員・これから入社する人におすすめの学問

「誤差論」を勉強するのが大事だと思います。最近、統計が大事だなんて言われてるじゃないですか。でもそれではちょっと足りなくて、昔言ってた「統計誤差論」の「誤差」が最近捨てられちゃってるんですよ。誤差論を勉強するとデータの扱いが少し上手になると思います。

◆VALUENEX入社後に上達したスキルはありますか?

 前職でやっていたのは計算とか研究っぽいことだったので、コンサルや技術のトレンドを追うっていうのは全然やったことがなかったんですね。
入った頃はまずコンサルっていうものは何だろうということを理解するのに時間がかかり、ある程度分かってきてから今度は、自分が今まで培ってきたノウハウや技術と結びつけられるようになった気がします。そこまでに入社から2〜3年かかった気がしますね。
 
48歳くらいで入ったので、こんな歳でできるのかっていう不安もありました。だけど自然言語処理をやってみたいなという気持ちで来たし、せっかくなので何年間か頑張ってみようと思って。

◆最近何か新しい本を読んだり、勉強したりしてますか?

仕事関連で言うと、大規模言語モデルの本を数冊読みました。2冊は一般啓蒙書でもう2冊はプログラミングかな。
 それと、資本主義がちょっと無茶かなと思っていて、そういった内容の本を2冊ぐらい読みました。
仕事で必要ってのもあるけども面白いなって思えるのが大事と思ってて。
最悪、役立たなくてもいいと思ってるんです。本に書いてあることが間違ってるかもしれませんし。

◆素人でも読めますか?

読めます。専門家でなくても読めるのが良い本だと思ってます。

◆おすすめの「良い本」を教えてください

  1. 大規模言語モデルは新たな知能か/岡野原 大輔 (著)

  2.  生成AI 「ChatGPT」を支える技術はどのようにビジネスを変え、人間の創造性を揺るがすのか?/小林 雅一 (著)

  3.  大規模言語モデル入門/山田 育矢 (監修), 鈴木 正敏 (著), 山田 康輔 (著), 李 凌寒 (著)

  4.  機械学習エンジニアのためのTransformers ―最先端の自然言語処理ライブラリによるモデル開発/Lewis Tunstall (著), Leandro von Werra (著), Thomas Wolf (著), 中山 光樹 (翻訳)

  5.  資本主義の次に来る世界/ジェイソン・ヒッケル (著), 野中 香方子 (翻訳)

VALUENEXに興味のある方はこちらもご覧ください!

カジュアル面談も随時受け付けてます!


この記事が気に入ったらサポートをしてみませんか?