การทำ Data Science Project

การทำ Data Science Project
Photo by Myriam Jessier / Unsplash


1) Project Setup (เริ่มต้นโครงการ)

  • กำหนด Use case ที่จะทำ Data Science 
  • ร่วมกับผู้มีส่วนได้ส่วนเสีย (Stakeholders) ในการกำหนดเป้าหมายทางธุรกิจ เช่น ทีมการตลาดการขาย 
  • ระบุประเภทของ Analytics เช่น Predictive Analytics 
  • ระบุวิธีการในการวัดประสิทธิภาพของโมเดล

2) Data Collection (การรวบรวมข้อมูล)

  • รวบรวมข้อมูลจากแหล่งข้อมูลต่างๆ ที่จำเป็นต้องใช้ 
  • ระบุประเภทของข้อมูล เช่น 1st Party Data, ข้อมูลเป็นแบบ Structured Data
  • ระบุคุณภาพของข้อมูล เช่น Accuracy, Completeness, Reliability, Relevant, Timeliness

3) Data Cleaning (การทำความสะอาดข้อมูล)

  • จัดการกับข้อมูลที่ขาดหายไป (Missing value) เช่น การแทนที่ด้วยค่าเฉลี่ย
  • จัดการกับข้อมูลที่เป็น Outliers

4) EDA: Exploratory Data Analysis (การวิเคราะห์ข้อมูลเชิงสำรวจ)

  • เพื่อให้ได้ Insights ในเชิงธุรกิจ ทราบว่า Features ใด ที่ส่งผลกระทบต่อการทำนาย
  • Feature Engineering สร้าง Features ใหม่ๆ ที่มีประโยชน์ในการทำนาย


5) Model Development (การพัฒนาโมเดล)

  • การทำ Standardization หรือ Normalization
  • การลดจำนวน Features
  • การเลือก Features ที่สำคัญมาใช้งาน
  • Algorithm Selection ทดลองกับหลายๆ Algorithms และเลือก Algorithm ที่ให้ผลลัพธ์ดีที่สุด
  • Model Evaluation การประเมินประสิทธิภาพของโมเดล ที่ข้อมูล Test 

6) Model Deployment (การนำโมเดลไปใช้งานจริง)

  • ติดตามและประเมินประสิทธิภาพโมเดลอย่างสม่ำเสมอ เพื่อให้แน่ใจว่าโมเดลยังใช้งานได้
  • ปรับปรุงให้ดีขึ้น โดยนำข้อมูลล่าสุดเข้ามาเพื่อให้โมเดลเรียนรู้ แบ่งได้เป็น 2 ประเภทหลัก คือ On the fly Learning (เรียนรู้ทันทีเมื่อมีข้อมูลใหม่เข้ามา) และ Batch Learning (เรียนรู้เป็นรอบๆ เช่น รายเดือน)