ความแตกต่างระหว่าง Normalization และ Standardization

ความแตกต่างระหว่าง Normalization และ Standardization
Photo by Mikael Blomkvist: https://www.pexels.com/photo/person-drawing-on-a-notebook-6476806/

โดยปกติ เราจะทำงานกับ Features ที่หลากหลาย ใน Scale ที่แตกต่างกัน ซึ่งต้องมีการทำ Data Processing ใน Blog นี้ จะพูดถึง เทคนิคในการทำ Feature Scaling คือ Normalization และ Standardization

https://www.simplilearn.com/normalization-vs-standardization-article

Data Normalization คือ อะไร

  • วิธีการทำ Data Preparation ที่นิยมวิธีหนึ่ง คือ Normalization ซึ่งช่วยเปลี่ยนค่าของ Numeric Columns ในชุดข้อมูลเป็น Standard Scale ได้
  • Normalization เป็นวิธีการที่ใช้ในการจัดการกับข้อมูล เป็น Scaling Method ที่ปรับ Scale ให้อยู่ระหว่าง 0 ถึง 1
  • วิธีการนี้ จะไม่สามารถจัดการกับค่า Outliers ได้ จำเป็นที่จะต้องจัดการกับค่า Outliers ก่อน (ถ้ามี)
  • สูตรการทำ Min-Max Scaling

Data Standardization คือ อะไร

  • Standardization หรือ เรียกว่า Z-score Normalization บางครั้งเป็น Scaling Method ซึ่งเหมาะกับคุณลักษณะของ ข้อมูลที่เป็น Standard Normal Distribution หรือ Gaussian Distribution
  • ค่า Z-scores คำนวณได้ ดังนี้

เปรียบเทียบความแตกต่างระหว่าง Normalization และ Standardization

Normalization Standardization
วิธีการจะใช้ ค่า Min และ Max วิธีการจะใช้ ค่า Mean และ Standard Deviation
ใช้ได้ เมื่อ Feature อยู่ใน Scale ต่าง ๆ ใช้ได้ เมื่อเป็น Gaussian Distribution
ค่าที่ถูก Scale จะอยู่ระหว่าง [0,1] และ [-1,1] ค่าที่ถูก Scaled ไม่ได้ถูกจำกัดไว้เฉพาะช่วงใดช่วงหนึ่ง
เรียกว่า Scaling Normalization เรียกว่า Z-score Normalization
เป็นประโยชน์ เมื่อ Feature Distribution ไม่ชัดเจน เป็นประโยชน์ เมื่อ Feature Distribution เป็นแบบ Gaussian

******

ข้อมูลอ้างอิง - Normalization vs Standardization - What’s The Difference? https://www.simplilearn.com/normalization-vs-standardization-article