見出し画像

行動履歴(11月19日)

今日は朝から授業を受け午後からも授業を受けた後就活の講座を受けていました。帰宅した頃にはもう6時で今日記を書いています。

少し標本の話

今欲しいデータがあって具体的に言うとGitHub上の全ユーザーのコミット数やリポジトリ数といった情報の平均や標準偏差、中央値が欲しいです。少し調べていたのですがapiであっても平均が出るようなものは見当たらなかったので自分で作成する必要がありそうです。

具体的な取得方法ですがランダムでユーザーを取得し欲しい情報を受け取るといった方法しかなさそうです。ランダムなユーザーというのも適当にidを生成してapiでそのidのユーザーを取るといった方法しかなさそうです。何度か試してみたのですがどうしてもほとんど使われていないようなアカウントにばかり当たってしまいます。データとしてはそれは無視するべきではないと思うのですがこの場合多くのデータを取得することにより解決するしかなさそうです。

具体的にいくつデータを取得すれば良いかなどは検証が必要になりデータの扱いは数学の力が必要になってくるとは思うのですがそもそも他の方法とかないですかね?いい感じにできる方法。

実はGithubからその人のエンジニアとしての点数をつけるようなサービスは他にもあるみたいでそれもみていたのですがそちらはaiを使っているみたいです。どうやら言語ごとの偏差値のようなものも測れるみたいです。aiにn点のコードはこういったものといった学習データでも作っているんですかね?流石にaiに手をつけだすとWebに戻っていけないのでやめておきます。apiを叩いてある程度の基準を作りたいと思っています。

この記事が気に入ったらサポートをしてみませんか?