見出し画像

23年5月9日 Coursera google data analyst 日誌34日目

①Coursera data analyst講座
進捗管理>ステップ1~8
現状>
ステップ1-5/1-5 4月9日まで 3月23日完了!
ステップ2-4/2-4 4月14日まで 4月6日完了!
(ただし、ステップ2>一部演習が未完了)
ステップ3-5/3-5(一部スキップ)4月27日完了!
ステップ4-2-1+2/4-6 6月11日まで

③OP Statistique 学習 →Open stax statistics (english)学習に変更

実施内容

動画視聴
解説読む
クイズ

学習内容①

Les données sales sont des données incomplètes, erronées ou non pertinentes pour le problème que vous essayez de résoudre.

Les données propres sont des données complètes, correctes et pertinentes pour le problème que vous essayez de résoudre.

Les ingénieurs de données transforment les données dans un format utile pour l'analyse et leur donnent une infrastructure fiable. Cela signifie qu'ils développent, gèrent et testent des bases de données, des processeurs de données et des systèmes connexes. =Données internes.

Le nettoyage des données devient encore plus important lorsque vous travaillez avec des données externes, surtout si elles proviennent de plusieurs sources.

Les types de données sales
Données en double
Données obsolètes
Données incomplètes
Données incorrectes/inexactes
Données incohérentes

Vous avez appris précédemment qu'un champ est un élément d'information unique provenant d'une ligne ou d'une colonne d'une feuille de calcul.
La longueur de champ est un outil permettant de déterminer le nombre de caractères pouvant être saisis dans un champ.

La validation des données est un outil permettant de vérifier l'exactitude et la qualité des données avant de les ajouter ou de les importer. La validation des données est une forme de nettoyage de données.
---------------

Une valeur Null indique qu'une valeur n'existe pas.
Un zéro est une réponse numérique.

Les ingénieurs de données transforment les données dans un format utile pour l'analyse ; leur donnent une infrastructure fiable ; et développent, gèrent et testent des bases de données et des systèmes connexes.

Les spécialistes de l'entreposage de données sont chargés de veiller à ce que les données soient disponibles, sécurisées et sauvegardées pour éviter toute perte.

===================================
Ici, nous allons voir
-comment supprimer les données sales,
-nettoyer le texte pour supprimer les espaces et les blancs superflus,
-corriger les fautes de frappe et
-rendre la mise en forme cohérente.

Toutefois, avant de supprimer des données indésirables, il est toujours bon de faire une copie du jeu de données. Ainsi, si vous supprimez un élément dont vous pourriez avoir besoin plus tard, vous pourrez facilement y accéder et le remettre dans le jeu de données.

Les pièges courants du nettoyage de données à éviter
Ne pas vérifier les fautes d'orthographe 
Oublier de documenter les erreurs
Ne pas vérifier les valeurs mal placées
Omettre des valeurs manquantes
Examiner uniquement un sous-ensemble des données
Perdre le fil des objectifs commerciaux
Ne pas corriger la source de l'erreur
Ne pas analyser le système avant le nettoyage de données
Ne pas sauvegarder vos données avant le nettoyage de données
Ne pas tenir compte du nettoyage de données dans vos délais/processus

学習内容③

Open staxの無料教科書での学習に変更
(OPのものは基礎でなく、レベルが1つ高いため)
1-1 イントロのみ

この記事が気に入ったらサポートをしてみませんか?