Data Cleaning คือ อะไร

Data Cleaning คือ อะไร
Photo by cottonbro studio

เป็นขั้นตอนสำคัญก่อนทำการวิเคราะห์ข้อมูล (Data Analysis) หรือ การนำข้อมูลไปสร้างเป็น Model (Build / Train a Model) เป็นการทำข้อมูลให้สะอาด ถูกต้อง และ อยู่ในรูปแบบที่เหมาะสม เพื่อนำไปหา Insights หรือ วิเคราะห์ อันจะเป็นประโยชน์ในการสนับสนุนการตัดสินใจได้อย่างมีประสิทธิภาพ

Identify Duplicates - ระบุว่ามีข้อมูลใดซ้ำซ้อนกันหรือไม่ ต้องทำการ Exclude ออก ให้ได้ข้อมูลที่ถูกต้อง และ ไม่ทำให้ผลการวิเคราะห์ Bias เนื่องจากข้อมูลที่ซ้ำซ้อนกัน

Handle Missing Values - การจัดการกับข้อมูลที่ขาดหายไป อาจลบข้อมูล Row นั้นๆ ออกจากการพิจารณา หรือ การทำ Imputation เพื่อเติมเต็มข้อมูล อาจใช้วิธีการทางสถิติ เช่น การแทนที่ด้วยค่า Mean, Median หรือ Mode ทั้งนี้ การเลือกค่าใดไปเติมเต็ม จะขึ้นกับคุณลักษณะของข้อมูลชุดนั้นๆ

Correct Errors - การแก้ไขข้อมูลที่ผิดพลาด เช่น ข้อมูลอายุของลูกค้าติดลบ ข้อมูลรหัสไปรษณีย์ไม่ครบจำนวน Digit รวมไปถึงการพิจารณาข้อมูลที่เป็น Outliers และจำเป็นต้อง Exclude ออก เพื่อให้ผลลัพธ์ของวิเคราะห์ถูกต้องและเชื่อถือได้

Photo by Ann H

Normalize Data (or Standardize Data) - เป็นการปรับข้อมูลให้อยู่ใน Common Scale เพื่อให้สามารถเปรียบเทียบกันได้อย่างถูกต้องและมีประสิทธิภาพในการวิเคราะห์ โดยเฉพาะการนำไปใช้ Train Machine Learning Model มี Algorithms หลายๆ อัน ต้องการข้อมูลที่ถูกทำ Normalization แล้ว

การทำ Normalize หรือ Standardize Data เป็นเรื่องที่แตกต่างกัน ดูรายละเอียดเพิ่มเติมได้ที่ -> ความแตกต่างระหว่าง Normalization และ Standardization

Data Formating - ต้องแน่ใจว่ารูปแบบของข้อมูลเป็นไปอย่างถูกต้อง เช่น วันที่, เวลา, ข้อมูล Categorical, ข้อมูล Numerical เพื่อให้การวิเคราะห์ในลำดับต่อไปทำได้อย่างถูกต้อง

Validate Quality - มีการ Validate หรือ ตรวจสอบความถูกต้องของข้อมูลอย่างสม่ำเสมอ เพื่อให้แน่ใจว่าข้อมูลที่จะถูกนำมาวิเคราะห์ยังคงมีประสิทธิภาพเมื่อเวลาผ่านไป

Filtering & Sorting - การกรองข้อมูล (Filtering) หรือ การจัดเรียงข้อมูล (Sorting) ทำให้สามารถเลือกข้อมูลที่เกี่ยวข้อง และ มี Impact ต่อการวิเคราะห์มาใช้งาน ทำให้กระบวนการวิเคราะห์ข้อมูล สามารถถูกจัดการได้อย่างมีประสิทธิภาพ

Automation Tools - การใช้เครื่องมือเพื่อให้การทำ Data Cleaning เป็นไปแบบอัตโนมัติ ลดความผิดพลาดจากการทำงานแบบ Manual และ ลดเวลาในการทำงาน

Photo by fauxels

******

ข้อมูลอ้างอิง - Data Cleaning by BERZIGOU Hamza