Data Scientist ทำงานอย่างไร?

Data Scientist ทำงานอย่างไร?
Photo by Tima Miroshnichenko: https://www.pexels.com/photo/focused-professional-man-using-laptop-7567529/

เพื่อที่จะรู้ว่า Data Scientist ทำงานอย่างไร? สามารถทำความเข้าใจได้จาก Data Science Workflow ดังนี้

  1. กำหนดปัญหา (Problem Statement)
  2. รวบรวมข้อมูล (Data Collection)
  3. ทำความสะอาดข้อมูล (Data Cleaning)
  4. วิเคราะห์ข้อมูลเชิงสำรวจ (Exploratory Data Analysis, EDA)
  5. สร้าง Model (Modeling)
  6. การประเมิน (Evaluation)
  7. การสื่อสาร (Communication/Presentation)
Photo by Miguel Á. Padriñán: https://www.pexels.com/photo/yellow-orange-and-green-3x3-rubik-s-cube-19677/
การกำหนดปัญหา (Problem Statement)

เราจำเป็นต้องเข้าใจวัตถุประสงค์ทางธุรกิจ ปัญหาที่ต้องการแก้ไข และกำหนด Metrics หลัก สำหรับการวัดผล ในกรณี Customer Retention มีเป้าหมายเพื่อทำให้ลูกค้าเปลี่ยนใจ และ พัฒนากลยุทธ์เพื่อลดอัตราการ Churn ในการวัดผลอาจใช้ Metrics เช่น Churn Rate, Customer Lifetime Value (CLV), Repeat Purchase Rate หรือ Customer Satisfaction Score (คะแนนความพึงพอใจของลูกค้า) โดยการกำหนด Metrics เหล่านี้ ทำให้เราสามารถสร้างวิธีในการติดตามและประเมินประสิทธิภาพของกลยุทธ์ที่ใช้ในการทำ Customer Retention

รวบรวมข้อมูล (Data Collection)

จากแหล่งข้อมูลที่เกี่ยวข้อง เช่น ประวัติการซื้อของลูกค้า Demographic data การมี Interaction กับเว็บไซต์ และคำติชมของลูกค้า ข้อมูลเหล่านี้ อาจได้จาก Database, API หรือ 3rd Party Data

ทำความสะอาดข้อมูล (Data Cleaning)

ข้อมูลที่รวบรวมมา อาจมีค่าที่ขาดหายไป (Missing Value) ค่าผิดปกติ (Outliers) หรือไม่สอดคล้องกัน (Inconsistencies) ในขั้นตอนนี้ จะทำการ Pre-process และ Clean ข้อมูล โดยจัดการค่าที่ขาดหายไป ลบรายการที่ซ้ำกัน ระบุค่า Outliers และ ตรวจสอบความสมบูรณ์ของข้อมูล

Photo by cottonbro studio: https://www.pexels.com/photo/a-woman-looking-through-a-magnifying-glass-6491787/
วิเคราะห์ข้อมูลเชิงสำรวจ (EDA)

ทำความเข้าใจลักษณะเฉพาะของข้อมูลโดยใช้เทคนิคต่างๆ เช่น Visualization, Summary Statistics, Correlation, Patterns หรือ Anomalies Detection เช่น อาจพบว่าลูกค้าที่ซื้อบ่อยมักจะมี Customer Retention Rate สูงกว่า

สร้าง Predictive Model

เพื่อวิเคราะห์ความสัมพันธ์ระหว่างตัวแปรต่างๆ ที่ส่งผลต่อ Customer Retention อาจสร้าง Machine Learning Models เช่น Logistic Regression หรือ Random Forest เพื่อทำนายแนวโน้มที่ลูกค้าจะเปลี่ยนใจตามปัจจัยต่างๆ เช่น ความถี่ในการซื้อ Demographicsหรือ Engagement กับ Website

การประเมินผล (Evaluation)

ประสิทธิภาพของ Model โดยใช้ Metrics เช่น Accuracy, Precision, Recall หรือ พื้นที่ใต้ ROC Curve ทำการตรวจสอบความถูกต้องของ Model โดยใช้เทคนิคต่างๆ เช่น Cross-Validation หรือ Train-Test Splits เพื่อให้ผลการประเมินมีความน่าเชื่อถือ

Photo by Christina Morillo: https://www.pexels.com/photo/two-women-sitting-on-chairs-beside-window-1181719/
การสื่อสาร (Communication)

เราต้องสามารถสื่อสารสิ่งที่ค้นพบในเรื่อง Customer Retention ได้ ในบริบทของธุรกิจและทำให้คนสนใจ สามารถอธิบายว่าเหตุใดการค้นพบนี้จึงมีความสำคัญ และสิ่งที่ควรทำ เช่น หลังจากวิเคราะห์เรื่อง Customer Churn Rate อาจพบความสัมพันธ์ที่มีนัยสำคัญระหว่างคะแนนความพึงพอใจของลูกค้าและอัตราการเลิกใช้งาน เมื่อสื่อสารกับทีมการตลาดหรือผู้บริหารระดับสูง ต้องสื่อความหมายและข้อมูลเชิงลึกที่นำไปปฏิบัติได้อย่างมีประสิทธิภาพ โดยการมุ่งเน้นที่การเพิ่มความพึงพอใจของลูกค้าผ่านการเพิ่มประสิทธิภาพในเรื่อง Customer Support, Personalized Experiences หรือ Targeted Promotions ที่จะทำให้บริษัทฯ สามารถลด Churn รักษาลูกค้าได้มากขึ้น (Retention) และเพิ่มรายได้ในท้ายสุด หรือ อาจจะปรับบริบทให้อยู่ในขอบเขตของธุรกิจที่กว้างขึ้น โดยเปรียบเทียบ Churn Rate ของบริษัทเรากับคู่แข่ง

ถือเป็นการเปลี่ยนจาก Data ไปสู่คุณค่าทางธุรกิจอย่างแท้จริง

******

ข้อมูลอ้างอิง - https://www.kdnuggets.com/2023/07/introduction-data-science-beginner-guide.html