การทำ Data Science Project
1) Project Setup (เริ่มต้นโครงการ)
- กำหนด Use case ที่จะทำ Data Science
- ร่วมกับผู้มีส่วนได้ส่วนเสีย (Stakeholders) ในการกำหนดเป้าหมายทางธุรกิจ เช่น ทีมการตลาดการขาย
- ระบุประเภทของ Analytics เช่น Predictive Analytics
- ระบุวิธีการในการวัดประสิทธิภาพของโมเดล
2) Data Collection (การรวบรวมข้อมูล)
- รวบรวมข้อมูลจากแหล่งข้อมูลต่างๆ ที่จำเป็นต้องใช้
- ระบุประเภทของข้อมูล เช่น 1st Party Data, ข้อมูลเป็นแบบ Structured Data
- ระบุคุณภาพของข้อมูล เช่น Accuracy, Completeness, Reliability, Relevant, Timeliness
3) Data Cleaning (การทำความสะอาดข้อมูล)
- จัดการกับข้อมูลที่ขาดหายไป (Missing value) เช่น การแทนที่ด้วยค่าเฉลี่ย
- จัดการกับข้อมูลที่เป็น Outliers
4) EDA: Exploratory Data Analysis (การวิเคราะห์ข้อมูลเชิงสำรวจ)
- เพื่อให้ได้ Insights ในเชิงธุรกิจ ทราบว่า Features ใด ที่ส่งผลกระทบต่อการทำนาย
- Feature Engineering สร้าง Features ใหม่ๆ ที่มีประโยชน์ในการทำนาย
5) Model Development (การพัฒนาโมเดล)
- การทำ Standardization หรือ Normalization
- การลดจำนวน Features
- การเลือก Features ที่สำคัญมาใช้งาน
- Algorithm Selection ทดลองกับหลายๆ Algorithms และเลือก Algorithm ที่ให้ผลลัพธ์ดีที่สุด
- Model Evaluation การประเมินประสิทธิภาพของโมเดล ที่ข้อมูล Test
6) Model Deployment (การนำโมเดลไปใช้งานจริง)
- ติดตามและประเมินประสิทธิภาพโมเดลอย่างสม่ำเสมอ เพื่อให้แน่ใจว่าโมเดลยังใช้งานได้
- ปรับปรุงให้ดีขึ้น โดยนำข้อมูลล่าสุดเข้ามาเพื่อให้โมเดลเรียนรู้ แบ่งได้เป็น 2 ประเภทหลัก คือ On the fly Learning (เรียนรู้ทันทีเมื่อมีข้อมูลใหม่เข้ามา) และ Batch Learning (เรียนรู้เป็นรอบๆ เช่น รายเดือน)