【番外編】ザイマニ開発実況2024❷財務データセット構築プロセス
ザイマニは財務指標百科や財務分析図鑑のデータ更新を中心とした大型アップデートを毎年4月に実施しています。
「ザイマニ開発実況」はそんな毎年のメンテナンス&アップデートの裏話や開発秘話をこっそりシェアするシリーズです。ザイマニが実装予定の新機能や管理人の本音に興味がある方はぜひご覧下さいませ。
ちなみに、本記事執筆時点(2024年4月25日)でPythonコードの刷新が一段落。各指標の最新版の平均値や中央値グラフを描画するところまで辿り着きました。例えば2023年決算データによる流動比率のグラフがこちら▼
さてさて、本題です。
今回の開発実況では「EDINETから各社のデータを取得し、ザイマニ上や財務分析ゼミで提供中のデータがどのように作られていくのか?」そのプロセスを初めて共有します。
虎の子のPythonコードは共有できませんが「データセットを作るまでの具体的なプロセス」や「ザイマニがどのような点に注意してデータセットを構築しているのか」などに興味がある方はぜひご覧くださいませ▼
財務データセット構築プロセス
❶EDINET APIで財務データを取得
まずは前回の開発実況でも登場したEDINET APIを活用します。
今月のアップデート完了後、ザイマニ上の掲載データは2019年〜2023年となるため、2019年から2024年3月31日までに提出された有価証券報告書の情報を取得します(2023年12月決算企業の有報提出は2024年3月となるため)。
ただ、特別な設定を施さずにEDINET APIからデータを取得しようとすると、有価証券報告書内の莫大なデータを取得することになります。例えば2023年の任天堂のデータを取得した例がこちら。画像は途中で切り取っていますが、合計806行ありました▼
ただ、中にはザイマニ(Web)やゼミのデータセットに不必要なデータもあるため、次のステップではデータの厳選を行います。
❷必要な財務データの厳選、調整
「データの厳選」と聞くと、既存のデータ集から必要なデータだけを抽出する工程なので簡単かと思いきや、このステップが一番の鬼門でした。
なぜなら、各データ値は各社の勘定科目名(日本語)を基準に厳選する設計にしているのですが、同様の勘定科目にも関わらず、各社によって勘定科目の名前が異なるパターンが少なくないからです。例えば、売上債権を構成する勘定科目の一つ"受取手形"の情報を取得したい場合、以下のような項目を考慮する必要があります▼
つまり、ザイマニやゼミのデータセットで"受取手形"という情報を扱いたい場合、上記のような勘定科目をリストアップ&精査する必要があるのです…
この工程(個人的に"辞書作り"と呼んでいます)が最も大変でしたが、来年以降は今年の辞書をベースにできるため手間は大幅に削減できる見込みです。
ちなみに、前回お伝えしたEDINETのバージョンが上がるまでは上記のようなリストアップ&精査を英語の勘定科目で分類していました(あの時と比べるととても楽になりましたね…!!)
その他、データ厳選時に注意している点がこちら。
これでデータの厳選については以上です。この時点でひとつの大きなデータセットが構築されていますが、流動比率などの指標群はまだ存在していません。最後に、細かい調整や財務指標の算出などを行います▼
❸微調整及び財務指標の算出
ここからはデータセットの微調整です。代表的なものがこちら▼
特に売上債権や棚卸資産など上位項目の算出は骨が折れました。これは、各社で異なる下位項目を合算して上位項目を計算する工程です。
例えば棚卸資産。こちらの下位項目に当たる勘定科目は、商品及び製品・商品・製品・仕掛品・半製品・原材料及び貯蔵品・原材料・貯蔵品・棚卸不動産….この辺りでやめておきましょう笑
要するに、データ厳選時にも登場した「勘定科目名が各社で異なる項目」の調整にとにかく手間がかかるのです(将来的にはもう少し統一されると嬉しいですね)。
この辺りの微調整が終わると、ようやく財務指標の計算になります。各社の値を計算し、平均値や中央値、四分位数を算出。そして各種グラフの描画を行います。この工程は計算式にミスがない限りほとんど調整の必要がありません。
このような過程を経て、ザイマニ上のデータや冒頭で登場したグラフが制作されています。今年もようやくここまで辿り着きました▼
あとは各企業の財務を100点満点で評価する工程や、ザイマニ上へのデータの流し込みなどを予定しています。4月末までにデータ更新を完了できるよう、全力で取り組みます。お楽しみに🐈
まとめ
ザイマニ上のデータやゼミのデータセットがどのように構築されているのか、そのプロセスを共有させていただきました。
想像以上に地味で面倒くさいステップばかりなので「あなたも挑戦してみてね」とは絶対に言えません笑
そんなデータセット作りはザイマニにお任せしていただき、あなたの分析や意思決定にザイマニ(Web)やゼミのデータセットをたくさんご活用いただけると嬉しいです。ぜひご利用くださいませ。
この記事が気に入ったらサポートをしてみませんか?