ความแตกต่างระหว่าง Normalization และ Standardization
โดยปกติ เราจะทำงานกับ Features ที่หลากหลาย ใน Scale ที่แตกต่างกัน ซึ่งต้องมีการทำ Data Processing ใน Blog นี้ จะพูดถึง เทคนิคในการทำ Feature Scaling คือ Normalization และ Standardization
Data Normalization คือ อะไร
- วิธีการทำ Data Preparation ที่นิยมวิธีหนึ่ง คือ Normalization ซึ่งช่วยเปลี่ยนค่าของ Numeric Columns ในชุดข้อมูลเป็น Standard Scale ได้
- Normalization เป็นวิธีการที่ใช้ในการจัดการกับข้อมูล เป็น Scaling Method ที่ปรับ Scale ให้อยู่ระหว่าง 0 ถึง 1
- วิธีการนี้ จะไม่สามารถจัดการกับค่า Outliers ได้ จำเป็นที่จะต้องจัดการกับค่า Outliers ก่อน (ถ้ามี)
- สูตรการทำ Min-Max Scaling
Data Standardization คือ อะไร
- Standardization หรือ เรียกว่า Z-score Normalization บางครั้งเป็น Scaling Method ซึ่งเหมาะกับคุณลักษณะของ ข้อมูลที่เป็น Standard Normal Distribution หรือ Gaussian Distribution
- ค่า Z-scores คำนวณได้ ดังนี้
เปรียบเทียบความแตกต่างระหว่าง Normalization และ Standardization
Normalization | Standardization |
---|---|
วิธีการจะใช้ ค่า Min และ Max | วิธีการจะใช้ ค่า Mean และ Standard Deviation |
ใช้ได้ เมื่อ Feature อยู่ใน Scale ต่าง ๆ | ใช้ได้ เมื่อเป็น Gaussian Distribution |
ค่าที่ถูก Scale จะอยู่ระหว่าง [0,1] และ [-1,1] | ค่าที่ถูก Scaled ไม่ได้ถูกจำกัดไว้เฉพาะช่วงใดช่วงหนึ่ง |
เรียกว่า Scaling Normalization | เรียกว่า Z-score Normalization |
เป็นประโยชน์ เมื่อ Feature Distribution ไม่ชัดเจน | เป็นประโยชน์ เมื่อ Feature Distribution เป็นแบบ Gaussian |
******
ข้อมูลอ้างอิง - Normalization vs Standardization - What’s The Difference? https://www.simplilearn.com/normalization-vs-standardization-article