อยากเป็น Data Scientist (1/2)

อยากเป็น Data Scientist (1/2)
Photo by Liza Summer: https://www.pexels.com/photo/crop-ethnic-trader-with-smartphone-and-laptop-on-bench-indoors-6347720/

7 Hard Skills ที่ Data Scientist ต้องรู้

1. Programming Language

Data Scientist จำเป็นต้องรู้ Programming Language หากยังไม่รู้ภาษาใดเลย ภาษา Python ถือเป็นตัวเลือกที่น่าสนใจ และ เป็นภาษาที่ได้รับความนิยมอันหนึ่งที่ Data Scientist ใช้งาน นอกเหนือไปจากนั้น อาจเป็น R, SQL ฯลฯ

Note: สำหรับ Python หรือ R สามารถเลือกภาษาใดภาษาหนึ่งในการเริ่มต้น และ เรียนเรียนรู้ SQL สำหรับการ Query ข้อมูล

IDE (Integrated Development Environments) คือ Software Application ซึ่งเป็นสภาพแวดล้อม ที่มีเครื่องมือและ Features ต่างๆ สำหรับการพัฒนา Softwareโดยเฉพาะ Data Scientist สามารถเลือก IDE ได้ตามความต้องการ เช่น

Note: Jupyter Notebook เป็น IDE ที่ได้รับความนิยม สำหรับผู้ใช้งาน Python

Libraries (หรือ Packages) การเขียนโค้ดทำได้ง่ายขึ้นมากในช่วงหลายปีที่ผ่านมา เนื่องจากมี Libraries จำนวนมากที่ช่วยอำนวยความสะดวก สามารถใช้ วิเคราะห์ข้อมูล Data Visualization และงานที่เกี่ยวกับ Machine Learning สำหรับผู้ใช้ Python มี Libraries แนะนำ ดังนี้

2. Mathematics

คณิตศาสตร์ที่จำเป็นสำหรับ Data Science ได้แก่ Linear Algebra (พีชคณิตเชิงเส้น) Linear Regression (การถดถอยเชิงเส้น) Probability (ความน่าจะเป็น) และ Statistics (สถิติ) การเรียนรู้คณิตศาสตร์เบื้องหลังวิทยาศาสตร์ข้อมูลจะเป็นประโยชน์อย่างมาก

Note: การเรียนรู้คณิตศาสตร์แม้จะดูยุ่งยาก แต่ก็คุ้มค่า เพราะเป็นทฤษฏีที่ไม่เปลี่ยนแปลง ต่างกับ เทคโนโลยีหรือเครื่องมือต่างๆ ที่มีการเปลี่ยนแปลงอย่างรวดเร็ว

3. Business Knowledge & Projects

ความรู้ทางธุรกิจ ถือเป็นสิ่งที่จำเป็น อาจได้จากการเรียนรู้จากผู้เชี่ยวชาญ หรือ ด้วยตนเอง โดยทั่วไปการทำ Data Science Projects จะเป็นการช่วยสนับสนุนธุรกิจใน 2 เรื่องหลักๆ  

  • การเพิ่มรายได้ (Revenue Increasing) สนับสนุน Sales & Marketing Team เช่น Recommendation System, Propensity Model ฯลฯ
  • การลดค่าใช้จ่าย (Cost Reduction) สนับสนุน Operations Team เช่น Chatbot สำหรับช่วยงาน Call Center

สำหรับ ผู้เริ่มต้น อาจเรียนรู้และทำความเข้าใจในธุรกิจ ไปพร้อมๆ กับการฝึกทำ Data Science Projects ไปด้วย เพื่อฝึกทำความเข้าใจเป้าหมายของแต่ละโครงการ ซึ่งเป็นประโยชน์ในการสัมภาษณ์งาน ความเข้าใจในเชิงลึก การทราบถึงข้อดีและข้อเสียของวิธีการที่ใช้ โดยผู้เริ่มต้นสามารถศึกษาได้จาก

4. Cloud Computing

เป็นองค์ประกอบที่สำคัญของ Data Science เพราะโครงการและงานทั้งหมดที่เราดำเนินการจะกลายเป็น Products การใช้บริการ Cloud Computing ช่วยให้สามารถจัดเก็บข้อมูลที่สามารถ Scale ได้ รวมไปถึงพลังในการประมวลผล และสามารถเข้าถึงเครื่องมือต่างๆ ได้ง่าย

ตัวอย่าง Cloud Computing Platforms ที่นิยมใช้ ได้แก่  Amazon Web Service, Microsoft Azure, และ Google Cloud Platform

ผู้เริ่มต้นสามารถศึกษาได้จาก

5. Big Data Tools

การมีความรู้ในเครื่องมือบางอย่าง สามารถยกระดับอาชีพ Data Scientist ของเราได้ มีเครื่องมือและเทคโนโลยีมากมายที่เป็นประโยชน์สำหรับคนที่ทำงานกับข้อมูล ตัวอย่างเครื่องมือที่ได้รับความนิยม เช่น Apache Spark, TensorFlow, PyTorch, Hadoop, Tableau, Git ฯลฯ

6. Machine Learning (ML)

สามารถเริ่มทำความเข้าใจจาก ประเภทของ Machine Learning (Types of ML)

จากนั้นเริ่มศึกษา Machine Learning Algorithms ต่างๆ เริ่มจากอันที่นิยมใช้ ผู้สนใจสามารถดูเพิ่มเติมได้ที่

7. Data Visualization

เป็นส่วนสำคัญของ Data Science เนื่องจากเราจำเป็นต้องสื่อสารสิ่งที่ค้นพบให้กับ Stakeholders ที่อาจไม่ได้มีความรู้ในเชิงเทคนิคได้ ดังนั้นการนำเสนอข้อมูลด้วยภาพ (Data Visualization) จะช่วยในเรื่องนี้และยังนำไปสู่กระบวนการตัดสินใจได้ด้วย สามารถอ่านเพิ่มเติมได้ที่

******

ตอนที่ 2 อยากเป็น Data Scientist (2/2) : 7 Soft Skills ที่ Data Scientist ต้องรู้

******

ข้อมูลอ้างอิง - https://www.kdnuggets.com/want-to-become-a-data-scientist-part-1-10-hard-skills-you-need