見出し画像

23年4月13日 Coursera google data analyst 日誌21日目

①Coursera data analyst講座
進捗管理>ステップ1-8
現状>
ステップ1-5/1-5 4月9日まで 3月23日完了!
ステップ2-4/2-4 4月14日まで 4月6日完了!
(ただし、ステップ2>一部演習が未完了)
ステップ3-2完了 3-3-1始める/3-5 5月14日まで

実施内容

動画視聴(復習含む)
解説読む
クイズ
テスト3-2

学習内容

Les préjugés ont évolué pour devenir une préférence en faveur ou contre une personne, un groupe de personnes ou une chose. Il peut être conscient ou inconscient.  La bonne nouvelle est qu'une fois que nous savons et acceptons que nous avons des préjugés, nous pouvons commencer à reconnaître nos propres schémas de pensée et apprendre à les gérer.

La partialité des données est un type d'erreur qui fausse systématiquement les résultats dans une certaine direction.

On parle de préjugé d'échantillonnage lorsqu'un échantillon n'est pas représentatif de la population dans son ensemble. Vous pouvez l'éviter en vous assurant que l'échantillon est choisi au hasard, afin que toutes les parties de la population aient une chance égale d'être incluses.

L'échantillonnage impartial permet d'obtenir un échantillon représentatif de la population mesurée. Un autre bon moyen de découvrir si vous travaillez avec des données impartiales est de donner vie aux résultats à l'aide de visualisations.
================================

ROCCC R-O-C-C-C.
Reliable
Original
Comprehensive
Current
Cited

Le coup d'envoi est donné par R pour fiable (reliable en anglais).
Comme un bon ami, les bonnes sources de données sont fiables. Avec ces données, vous pouvez être sûr d’obtenir des informations exactes, complètes et impartiales qui ont été vérifiées et prouvées aptes à être utilisées.

D’accord. Passons à O. O correspond à originales. Il y a de fortes chances que vous découvriez des données par le biais d'une source secondaire ou tierce. Pour vous assurer que vous avez affaire à de bonnes données, veillez à les valider auprès de la source originale.

Ensuite vient le premier C. C correspond à complètes. Les meilleures sources de données contiennent toutes les informations critiques nécessaires pour répondre à la question ou trouver la solution. Pensez-y de cette manière.
Vous ne voudriez pas travailler pour une entreprise simplement parce que vous avez trouvé un excellent avis en ligne à son sujet. Vous feriez des recherches sur tous les aspects de l'organisation pour vous assurer qu'elle vous convient. Il est important de faire de même pour votre analyse de données.

Le prochain C correspond à actuelles (current en anglais). L'utilité des données diminue avec le temps. Si vous vouliez inviter tous les clients actuels à un événement commercial, vous n'utiliseriez pas une liste de clients vieille de 10 ans. Il en va de même pour les données. Les meilleures sources de données sont actuelles et pertinentes pour la tâche à accomplir.

Le dernier C correspond à citées. Si vous avez déjà dit à un ami où avez entendu dire qu'une nouvelle suite de film était en préparation, vous avez cité une source. La citation rend les informations que vous fournissez plus crédibles.

Lorsque vous choisissez une source de données, pensez à trois choses.
Qui a créé le jeu de données ?
Fait-il partie d'une organisation crédible ?
Quand les données ont-elles été actualisées pour la dernière fois ?
Si vous avez des données originales provenant d'une organisation fiable et qu'elles sont complètes, à jour et citées, elles sont ROCCC !

Les mauvaises sources de données qui ne sont pas ROCCC.
Elles ne sont pas fiables, originales, complètes, actuelles ou citées. Pire encore, elles peuvent être carrément fausses ou remplies d'erreurs humaines.

振返り

この数日間と今日で3-2を全て完了させたのだが、学習内容のアウトプットとしては追いついていない。この回は、データの信憑性や信頼性、データソースなどについて、何を基準に、良いデータ、悪いデータといえるのか、というような内容。また、個人情報につながるデータについて、どのように分からなくするようにするか、などについてもまとめてある。

学習内容を復習するつもりでアウトプットしていきたいと思う。

この記事が気に入ったらサポートをしてみませんか?