見出し画像

【番外編】ザイマニ開発実況2024❷財務データセット構築プロセス

ザイマニ財務指標百科財務分析図鑑データ更新を中心とした大型アップデートを毎年4月に実施しています。

ザイマニ開発実況」はそんな毎年のメンテナンス&アップデートの裏話や開発秘話をこっそりシェアするシリーズです。ザイマニが実装予定の新機能や管理人の本音に興味がある方はぜひご覧下さいませ。

ザイマニ開発実況シリーズは…
4月末までザイマニ財務分析ゼミのメンバーのみ閲覧可(追加料金0円)
5月1日から→誰でも閲覧可&有料化(1記事500円)

ちなみに、本記事執筆時点(2024年4月25日)でPythonコードの刷新が一段落。各指標の最新版の平均値中央値グラフを描画するところまで辿り着きました。例えば2023年決算データによる流動比率のグラフがこちら▼

上場企業約3,700社の流動比率ヒストグラム 今後ザイマニ上に掲載予定
上場企業約3,700社の流動比率 中央値グラフ 今後ザイマニ上に掲載予定

さてさて、本題です。

今回の開発実況では「EDINETから各社のデータを取得し、ザイマニ上や財務分析ゼミで提供中のデータがどのように作られていくのか?」そのプロセスを初めて共有します。

虎の子のPythonコードは共有できませんが「データセットを作るまでの具体的なプロセス」や「ザイマニがどのような点に注意してデータセットを構築しているのか」などに興味がある方はぜひご覧くださいませ▼


財務データセット構築プロセス

❶EDINET APIで財務データを取得

まずは前回の開発実況でも登場したEDINET APIを活用します。

今月のアップデート完了後、ザイマニ上の掲載データは2019年〜2023年となるため、2019年から2024年3月31日までに提出された有価証券報告書の情報を取得します(2023年12月決算企業の有報提出は2024年3月となるため)。

今まで把握していなかったのですが、2023年12月決算にも関わらず、2024年4月1日提出の企業が数社ほど存在しました。最終的な平均値や中央値にも影響を与えるため、4月20日ごろにデータセットを再構築。早めに気づけてよかった…!

ただ、特別な設定を施さずにEDINET APIからデータを取得しようとすると、有価証券報告書内の莫大なデータを取得することになります。例えば2023年の任天堂のデータを取得した例がこちら。画像は途中で切り取っていますが、合計806行ありました▼

合計約800行のデータを取得。これを約3,700社分×5年分取得しました。

ただ、中にはザイマニ(Web)やゼミのデータセットに不必要なデータもあるため、次のステップではデータの厳選を行います。


❷必要な財務データの厳選、調整

「データの厳選」と聞くと、既存のデータ集から必要なデータだけを抽出する工程なので簡単かと思いきや、このステップが一番の鬼門でした。

なぜなら、各データ値は各社の勘定科目名(日本語)を基準に厳選する設計にしているのですが、同様の勘定科目にも関わらず、各社によって勘定科目の名前が異なるパターンが少なくないからです。例えば、売上債権を構成する勘定科目の一つ"受取手形"の情報を取得したい場合、以下のような項目を考慮する必要があります▼

受取手形に関する勘定科目例
・受取手形及び売掛金
・受取手形、売掛金及び契約資産
・受取手形及び売掛金(純額)
・貸倒引当金、受取手形及び売掛金
・受取手形及び営業未収入金、流動資産
・受取手形、売掛金及び契約資産(純額)
・貸倒引当金、受取手形、売掛金及び契約資産
・受取手形
・受取手形(純額)
etc…….

つまり、ザイマニやゼミのデータセットで"受取手形"という情報を扱いたい場合、上記のような勘定科目をリストアップ&精査する必要があるのです…

この工程(個人的に"辞書作り"と呼んでいます)が最も大変でしたが、来年以降は今年の辞書をベースにできるため手間は大幅に削減できる見込みです。

ちなみに、前回お伝えしたEDINETのバージョンが上がるまでは上記のようなリストアップ&精査を英語の勘定科目で分類していました(あの時と比べるととても楽になりましたね…!!)

その他、データ厳選時に注意している点がこちら。

データ厳選時の注意事項
・連結と単体の区分(誤って単体の値を取得していないか?)
・会計基準の差分調整(日本・米国・IFRS)
・建設業や海運業など、業種特有の勘定科目を補填

これでデータの厳選については以上です。この時点でひとつの大きなデータセットが構築されていますが、流動比率などの指標群はまだ存在していません。最後に、細かい調整や財務指標の算出などを行います▼


❸微調整及び財務指標の算出

ここからはデータセットの微調整です。代表的なものがこちら▼

データセットの調整項目
・米国会計基準採用企業のデータ入力(EDINET APIで取得できないため)
・特殊な勘定科目の調整(営業費用、経常費用など)
・売上債権や棚卸資産など上位項目の算出🔥
・決算月を変更した企業への対応
・株式分割、併合の対応
etc….

特に売上債権や棚卸資産など上位項目の算出は骨が折れました。これは、各社で異なる下位項目を合算して上位項目を計算する工程です。

例えば棚卸資産。こちらの下位項目に当たる勘定科目は、商品及び製品・商品・製品・仕掛品・半製品・原材料及び貯蔵品・原材料・貯蔵品・棚卸不動産….この辺りでやめておきましょう笑

要するに、データ厳選時にも登場した「勘定科目名が各社で異なる項目」の調整にとにかく手間がかかるのです(将来的にはもう少し統一されると嬉しいですね)。

この辺りの微調整が終わると、ようやく財務指標の計算になります。各社の値を計算し、平均値や中央値、四分位数を算出。そして各種グラフの描画を行います。この工程は計算式にミスがない限りほとんど調整の必要がありません。

このような過程を経て、ザイマニ上のデータや冒頭で登場したグラフが制作されています。今年もようやくここまで辿り着きました▼

あとは各企業の財務を100点満点で評価する工程や、ザイマニ上へのデータの流し込みなどを予定しています。4月末までにデータ更新を完了できるよう、全力で取り組みます。お楽しみに🐈

まとめ

ザイマニ上のデータやゼミのデータセットがどのように構築されているのか、そのプロセスを共有させていただきました。

想像以上に地味で面倒くさいステップばかりなので「あなたも挑戦してみてね」とは絶対に言えません笑

そんなデータセット作りはザイマニにお任せしていただき、あなたの分析や意思決定にザイマニ(Web)やゼミのデータセットをたくさんご活用いただけると嬉しいです。ぜひご利用くださいませ。


ザイマニのnote記事一覧はこちら


この記事が気に入ったらサポートをしてみませんか?