怖いのは幽霊じゃない。世の理だ。

あ

2020年9月14日 19:58

昨日、真夜中に目が覚めてしまって、お手洗いに行っている時に思った話。

今では幽霊が全く怖くなくて、なんなら存在しないのではないかとすら思っている。

だけど、確かに子供の時は幽霊が怖かったし、トイレになんか怖くて行けなかった。

じゃあどうして今は行けるようになったんだ。幽霊のことを信じなくなったからだ。(厳密には信じているかもしれないけど、軽視するようになった)

じゃあどうして軽視するようになったのか。子供の時に理解できなかったものが理解できるようになったからである。

じゃあそれは何か。端的に言うと世の理なんじゃないかって思ってる。

長々と言うと、それは夜を深くまで過ごすことが増えて、真夜中が危ないものでも怖いものでもないことに気づいたって言うこと。

でも、それって、要は子供の時に理解してないことを大人になった今では理解したってことだよね。じゃあ、それって世の理を理解できるようになったことをアナロジーにして考えた例の1つなのでは？って思う。

もちろん、完全に世の理がわかっている訳なんてなくて、そんなことは当然わかっているのだけれども、昔そうは思わなかった花鳥風月を今はそうと思えるようになったり、周りの大人を見ながら栄枯盛衰を思い耽ることができるようになったりして、少しは成長したよね。って言う話。

そういえば、今日勉強したことです。下記について本当に知識がないので厳密には間違っている&自分の備忘録用に書いているのでその辺りはご容赦ください。

LightGBMについて

アンサンブル学習にはバギングとブースティングが存在する。
バギングは、データを複数に分けてそれぞれにモデルを用いて、分析すること。ブースティングとは、データに対して一度モデルを用いた後にその誤差に対して複数回モデルを用いること。(イメージで、バギングは並列回路でブースティングは直列回路だと認識している。)

バギングを用いた手法のことをランダムフォレスト、ブースティングを用いた手法のことを勾配ブースティングと言う。さらに後者に関して、Level-WiseとLeaf-Wiseの2種類がある。決定木のイメージで考えるとわかりやすいが、Level-Wiseは枝分かれの階層を増やすイメージ、Leaf-Wiseは枝分かれの枝をどんどん深くしていくイメージである。Leaf-Wiseの方が短く探索できるので、おすすめ。LightGBMはこれを使っている。

LightGBMは昨今のデータコンペで本当によく使われている手法。

サポートベクターマシン

線形分離が可能であると言う前提、つまり2つのクラス(組み分け)を持つデータであることが前提である。
2つのクラス同士が一番近い点を2つずつ選んでそれぞれの点から等距離になるように直線を引くこと。

target encoding

Greedy TS、Leave-one-out TS、Holdout TS、Ordered TSの4種類ある。

前者二つは特にリークを発生させてしまうので、(=目的変数のデータに関わるものが加わってしまうので、)使わない。Ordered TSの方がリークを起こしづらい。CatBoostEncoderはOrdered TS。

EDA

探索的データ解析のこと。データ分析の最初にやることで、データに触れて特微量について理解したり、データのパターンについて理解したりすること。

この記事が気に入ったらサポートをしてみませんか？