行動履歴(11月24日)

行動履歴

今日は午前中からデータ分析をしていました。午後からは学校で授業を受けて帰宅後はまたデータ分析をしていました。

具体的に言うと昨日までにcsvに溜め込んだデータを分析していました。実は今日の朝では10件程度しかなかったため少しコードを改善し簡単に人数を動的に変更できるようにしてから100人分のデータを取得、csvにした後はpandasを使いデータ分析をしていました。どうしても数値だけでは実感が湧かずmatplotlibを使いデータを可視化してみていました。みてみて改めて実感したのですが自分が期待している値よりかけ離れた外れ値が多いです。外れ値が多い→そもそも期待している値が間違っているといった感じではあると思うのですがその外れ値というのがGitHubのアカウントを作るだけ作ってパブリックリポジトリやコミット数が0の人なんですよね。これらのデータを無視するべきなのかを今考えています。もう少しデータを集めどの程度の値になりそうか、無視した場合の値はどのようになるかといったことを集めようと思います。

無視することについて

今のところ自分が定義した外れ値を無視するべきか検討しています。今のところパブリックリポジトリやコミット数が0の人を外れ値として定義しているのですが数学的に見ると全データを集めてもほとんどがその外れ値に当てはまっていしまいます。なので数学的に見るとそれらの値が0でない方が外れ値といった感じになってしまいます。無視することになるとデータ収集がものすごく大変になるのはもちろんそうなのですがそもそも無視していいのかといった討論も必要になってくると感じています。

それらの値が0になっている理由として考えられる理由は複数あると思うのですが例えば

・アカウントを作るだけ作ったが全く使っていない

・全てプライベート上で作業をしている

・プルリクやフォークしての作業を中心にしている

といった要因が考えられます。なのでそれらの値が0=エンジニアとしての実力が0とは限らないんですよね。むしろ作っていない人もいるので作っているだけでそこそこの意欲はあると考えられます。なので作っているだけでもエンジニアとして一定数の点数を与えるべきなのかといったことが難しいです。

明日ももう少しデータを分析してみて考えてみます。

この記事が気に入ったらサポートをしてみませんか?