見出し画像

金融テキストを処理したいので読んだ本


専門ではないのですが、エンジニアの端くれとして金融情報を分析して何か役に立つことはできないかと考え、それについてのヒントを教えてくれる本はないかとチェックしたのが2021年。和泉先生達著(有名な先生)の本を見つけ、読んだのがこれ。

こんなことができるんだと感心する事例があったり、当時あちこちですごいすごいといわれていたBERTも紹介されていて満足感はあったものの、エンジニアにとって残念ポイントが

ソースコードがない

勉強の常套手段として、動いているサンプルプログラムをいじって壊して直して学習、というのを普段しているので物足りない。多分教科書だから仕方ないのかな、と。
ただ、その翌年、”Pythonによる金融テキストマイニング”という本が出るというのを知り「やった!続編だ!Pythonだ!」。予約購入。

読んだ、確かにPython、インストールについて書いてあったり、深層学習的なこともあったした。今回はソースコードも載っている。でも、なんかすごいモヤモヤする。

  1. ソースコードはあるけど写経スタイル

    1. Githubに本のコードがまとめて公開されていないみたい

    2. 紙の本を買ったので、自分で見ながら打ち込むのかな

  2. 既視感のある内容が多い

    1. 続編かと思ったけど改訂?

    2. 目次とかを見ても違う見出しだぞ、でも同じ表があった気がする

  3. 深層学習あるけど、文章扱っていない

    1. LSTMとかの更に先にTransformerがある気はするけど、ほかの話題に時間使ってほしかった

もやもやしたままにしていたのですが、この連休にもう一度読み直して、何が似ていて違うのか、確認してみました。以下に、出版社ページの目次を並べて、各章のキーワードも書いて、どの辺が同じようなことを言っているかチェック。両方通して2度読んだ程度なので正確ではないとは思いますが、大体以下のようになっていると思ってます。

  • 赤:2022年の本ではなくなった

  • 緑:2022年の本で新たに導入

  • 黄色:トピックは似ているけどアプローチ・やり方が違う

  • それ以外:同じような内容と、個人的に判断

こうしてみると、ほとんど違う

2021年の第5章と2022年の第4章に同じ表があったりして既視感があったのだとおもいます。

また、気づいた違いとしては、2021年の本の第3・4章は、時系列データについて金融でどう扱われているかを知る上で役立つ内容だと思っていましたが、なくなって残念でした。Pythonに関しては、先にも書きましたがGithubで公開して欲しかったです。2021年の第6・7章にあった因果分析などは、2022年ではBERTを使用した内容に書き換えられており、非常に印象的です。この辺りは最近の進歩がすごいので、次に出る時には大きく変わっていると思います。個人的にはダニエル・カーネマンの「ファスト&スロー」は皆さんに読んでもらいたいので、このシステム1・2の内容は異なる形で残って欲しかったです。

総じて、この本がより魅力的になるためには、以下の点が改善されればいいと思います。

  1. 2021年の第3・4章、金融時系列データの話は残しておいてほしい

  2. ソースコードはGitHub で公開してほしい

    1. あるいは、写経したものを公開しても大丈夫と本で言ってほしい

  3. 2022年の深層学習で価格予想の章はなくても良いかも

    1. テキストマイニングと深層学習のつながりをいうのであれば、Transformer・Attention周りのデモプログラムがあったほうが個人的にはうれしい

  4. BERT以降のLLM周りの話も簡単にあると嬉しい。とくに金融テキストに使えそうなものを中心に

  5. 2021年の極性指標についての話がなくなってしまったけど、これがBERT以降のLLMでどうなったかも知りたい

最後に

少し長くなってしまいましたが、連休中に読み直した本のメモを公開することにしました。この2冊の本についていろいろ言いましたが、両方買ってよかったと思っています。どちらかでしか得られない情報があるので、いずれもまた読み直したり、コード打ち込んでみたりする予定です。



この記事が気に入ったらサポートをしてみませんか?