見出し画像

企業分析における自然言語処理を学ぼう参加録

はじめに

以下の勉強会に参加したので、その備忘録を簡単に書きたいと思う。

私の自然言語処理学習歴は浅い。以下の本で勉強しただけ。。。。。

自分としては新鮮な内容が多く参加してよかった。それでは、簡単に発表内容をまとめる。

CAREについて by @icoxfog417 様

○Care Analysis Re-Engineering(CARE(今回の勉強会のこと))の活動について
 自然言語処理を企業分析に適用した研究/事例を中心に発表を行うとのこと。現場のエンジニアの方からノウハウを共有するだけでなく、現場の課題を共有したいよねとのこと。

○非財務情報に着目する
非財務情報とは、財務情報(例えば、決算書)とは異なり、例えば、企業のCO2排出量、女性雇用数など財務とは離れた(損益とは離れた)意味合いのものである。非財務情報は企業情報全体の8割ほど占めるが、活用が進んでいない。正規性がないからだと思われる。この情報を数値化できれば、信頼格付けやESG評価などができ、企業分析に役に立つとされる。

→目からウロコだった。化学系企業で働いている私は、社内でこんなことすら聞いたことなかった。もっと広く知られるべきだ。

○8割の情報を活用する
現代の企業の非財務情報はほぼ企業の無形資産と言える。例えば、特許、商標など。これらは、資産評価、運用評価に使うことが可能。これらの情報は以下のような形で利用することで、例えば、融資自動化システムに貢献できる。

→ここで話された、上のシステムは儲けるためではなく、既存の予測アルゴリズムによるミスリードを防ぎ、市場全体の乱れを抑えるためにあるという内容は壮大さを感じた。私はこの発表でここに惹かれた。

「Form 10-Kの外観と分析の下ごしらえ」 by @gepuro様

UZABASEで働かれている方の発表。Form 10-Kから正規表現でひたすらパースをかける。UZABASEが提供しているFORCASの開発技術について触れた。

「企業データ分析における教師データ集めと能動学習」 by @takeshi_osoekawa様

○MLのつかいどころ
企業データ分析においてMLの使い所の一つに要素間の紐付け、ラベル集めがある。しかし、このタスクは深いドメイン知識が必要で、内製化せざるおえない。しかし、内製化は信頼性を担保でできる。

→これが考えられるだけでも、企業の将来は明るいと思う。自分のことは多く語れない。

○能動学習
能動学習とは、少量のデータにラベルつけて学習し、ラベルの無いデータのうちスコアが高いものにラベルをつける作業を繰り返すもの。これがラベル集めに有効そうとのこと。しかし、recallがよくない?

感想

かなり濃い内容であった。次回もCAREの勉強会に参加したいと思う。自分でも何か形にしてみたいと思った。ハンズオンとか企画されないかな?


参考


財務・非財務一体型の企業分析に向けて

この記事が気に入ったらサポートをしてみませんか?