見出し画像

日経業種分類・中分類コードを業種名に変換

日経NEEDSで取得した日経業種分類コードは6桁の数字で構成されている。最初の1桁が大分類であり,1なら製造業,2なら非製造業を表している。

次の2桁が中分類であり,

画像1

となっている。実証分析では産業固有の特徴をコントロールするために,産業ダミーを分析モデルに組み込んだり,産業ごとに回帰係数の推定を行ったりする。しかし,分析時に上記の産業と数字の組み合わせが頭に入っていないと,結果の解釈を行う際に一手間多くかかってしまう。そこで最初からコードではなく,産業名に変換しておく。

手順は次の通りである。
1.6桁の日経産業分類コードをas.character()で文字列に変換
2.文字列の先頭から2文字目と3文字目をsubstr(2,3)で抽出
3.factor()で文字列をfactor型に変換する。このとき,labelとlevelの引数で,各コードに業種名を割り当てる。

具体的なコードは次の通りである。

df |> 
  mutate(
    chu <- as.character(日経業種コード) |> 
           substr(2,3) |> 
           factor(
             labels= c("水産","鉱業","建設","食品","繊維","パルプ・紙","化学工業","医薬品","石油","ゴム","窯業","鉄鉱業","非金属及び金属製品","機械","電気機器","造船","自動車・自動車部品","その他輸送用機器","精密機器","その他製造業","商社","小売業","銀行","証券","保険","その他金融業","不動産","鉄道・バス","陸運","海運","空輸","倉庫・運輸関連","通信","電力","ガス","サービス業"),
             levels = c(35,37,41,01,03,05,07,09,11,13,15,17,19,21,23,25,27,29,31,33,43,45,47,49,51,52,53,55,57,59,61,63,65,67,69,71)
   )

これで中分類コードが産業名を表すfactor型になりました。

おしまい。