Dimensionality Reduction คือ อะไร
เป็นเทคนิคหนึ่งในทาง Data Science และ Machine Learning ที่ใช้ในการลด Input Features ของ Dataset
นิยาม ทำ Dataset ที่มีความซับซ้อนให้ง่ายขึ้น โดยลดจำนวน Features (Dimensions) ลง และมีการสูญเสีย Information น้อยที่สุด
เป้าหมาย เพื่อหลีกเลี่ยง Curse of Dimensionality (คำสาปแห่งมิติ) ทำให้ประสิทธิภาพของ Model ดีขึ้น หลีกเลี่ยงการเกิด Overfitting และ ลดความซับซ้อนในการคำนวณ
Feature Selection
- Filtering Methods ใช้วิธีการทางสถิติในการเลือก Features ที่มีค่า Correlation กับ Target Variable สูง
- Wrapper Methods ใช้ Algorithms ในการหาว่า Subset ของ Data แบบใด ที่ใช้ในการ Predict Result ได้ดีที่สุด
- Embedded Methods ทำการเลือก Features ในระหว่างกระบวนการ Train Model เช่น LASSO
Feature Extraction
- Principal Component Analysis (PCA) แปลง Data ไปยัง New Coordinate System จากนั้นทำการลด Dimensions โดยเลือกเฉพาะ Feature ที่สำคัญ
- Linear Discriminant Analysis (LDA) ถูกใช้กับปัญหา Classification โดยทำการหา Linear Combination ที่ใช้ในการแยก Classes ได้ดีที่สุด
- t-distributed Stochastic Neighbor Embedding (t-SNE) ลด Dimensions โดยยังคงรักษา Instances ที่เหมือนกัน อยู่ด้วยกัน และ Instances ที่ไม่เหมือนกัน แยกจากกัน
เมื่อใดที่ใช้ Dimensionality Reduction
- เมื่อเผชิญกับข้อมูลที่มี Dimensions จำนวนมาก
- เมื่อเจอปัญหาเรื่อง Overfitting เนื่องจากมีจำนวน Features (Dimensions) ที่มากเกินไป
- เมื่อต้องการทำ Data Visualization ใน 2D หรือ 3D
✅ ข้อดี
- เพิ่มประสิทธิภาพของ Model – ทำให้ Model มีความง่าย หรือ General มากขึ้น ลดโอกาสในการเกิด Overfitting ได้
- ลดเวลาในการคำนวณ - หากมีข้อมูลจำนวน Dimensions ที่น้อยกว่าย่อมสามารถทำการคำนวณได้เร็วกว่า
- Data Visualization หรือ แสดงผลข้อมูลด้วยภาพ - ลด Dimensions เพื่อให้สามารถแสดงผลได้ง่ายต่อการทำความเข้าใจ หรือ ระบุรูปแบบ Patterns ได้
❌ ข้อเสีย
- สูญเสียข้อมูล - เป็นการ Trade-off ระหว่างจำนวน Dimensions ที่ลดลงไป และ ข้อมูลที่สูญเสียไป
- การเลือกเทคนิคที่เหมาะสม – เนื่องจากแต่ละเทคนิค จะมีความเหมาะสมกับ Dataset และ ปัญหาที่แตกต่างกัน
แนวทางปฏิบัติ
- ทำการ Scale และ Normalize Data ก่นที่จะทำ Dimensionality Reduction
- พิจารณาวิธีการที่เหมาะสมกับปัญหาและคุณลักษณะของ Data
- ใช้ Data Visualization ในการประเมินว่าข้อมูล (Dimensions) ที่ถูกลดลงไป มีประสิทธิภาพดีเพียงใด
ข้อมูลอ้างอิง - Analytics Vidhya