อยากเป็น Data Scientist (1/2)

7 Hard Skills ที่ Data Scientist ต้องรู้
1. Programming Language
Data Scientist จำเป็นต้องรู้ Programming Language หากยังไม่รู้ภาษาใดเลย ภาษา Python ถือเป็นตัวเลือกที่น่าสนใจ และ เป็นภาษาที่ได้รับความนิยมอันหนึ่งที่ Data Scientist ใช้งาน นอกเหนือไปจากนั้น อาจเป็น R, SQL ฯลฯ
Note: สำหรับ Python หรือ R สามารถเลือกภาษาใดภาษาหนึ่งในการเริ่มต้น และ เรียนเรียนรู้ SQL สำหรับการ Query ข้อมูล
IDE (Integrated Development Environments) คือ Software Application ซึ่งเป็นสภาพแวดล้อม ที่มีเครื่องมือและ Features ต่างๆ สำหรับการพัฒนา Softwareโดยเฉพาะ Data Scientist สามารถเลือก IDE ได้ตามความต้องการ เช่น
Note: Jupyter Notebook เป็น IDE ที่ได้รับความนิยม สำหรับผู้ใช้งาน Python
Libraries (หรือ Packages) การเขียนโค้ดทำได้ง่ายขึ้นมากในช่วงหลายปีที่ผ่านมา เนื่องจากมี Libraries จำนวนมากที่ช่วยอำนวยความสะดวก สามารถใช้ วิเคราะห์ข้อมูล Data Visualization และงานที่เกี่ยวกับ Machine Learning สำหรับผู้ใช้ Python มี Libraries แนะนำ ดังนี้
- NumPy
- Pandas
- Matplotlib
- Seaborn
- Scikit-Learn
- TensorFlow
- PyTorch
- NLTK (Natural Language Toolkit)
- Beautiful Soup
- Scrapy
2. Mathematics
คณิตศาสตร์ที่จำเป็นสำหรับ Data Science ได้แก่ Linear Algebra (พีชคณิตเชิงเส้น) Linear Regression (การถดถอยเชิงเส้น) Probability (ความน่าจะเป็น) และ Statistics (สถิติ) การเรียนรู้คณิตศาสตร์เบื้องหลังวิทยาศาสตร์ข้อมูลจะเป็นประโยชน์อย่างมาก
Note: การเรียนรู้คณิตศาสตร์แม้จะดูยุ่งยาก แต่ก็คุ้มค่า เพราะเป็นทฤษฏีที่ไม่เปลี่ยนแปลง ต่างกับ เทคโนโลยีหรือเครื่องมือต่างๆ ที่มีการเปลี่ยนแปลงอย่างรวดเร็ว
3. Business Knowledge & Projects
ความรู้ทางธุรกิจ ถือเป็นสิ่งที่จำเป็น อาจได้จากการเรียนรู้จากผู้เชี่ยวชาญ หรือ ด้วยตนเอง โดยทั่วไปการทำ Data Science Projects จะเป็นการช่วยสนับสนุนธุรกิจใน 2 เรื่องหลักๆ
- การเพิ่มรายได้ (Revenue Increasing) สนับสนุน Sales & Marketing Team เช่น Recommendation System, Propensity Model ฯลฯ
- การลดค่าใช้จ่าย (Cost Reduction) สนับสนุน Operations Team เช่น Chatbot สำหรับช่วยงาน Call Center
สำหรับ ผู้เริ่มต้น อาจเรียนรู้และทำความเข้าใจในธุรกิจ ไปพร้อมๆ กับการฝึกทำ Data Science Projects ไปด้วย เพื่อฝึกทำความเข้าใจเป้าหมายของแต่ละโครงการ ซึ่งเป็นประโยชน์ในการสัมภาษณ์งาน ความเข้าใจในเชิงลึก การทราบถึงข้อดีและข้อเสียของวิธีการที่ใช้ โดยผู้เริ่มต้นสามารถศึกษาได้จาก
4. Cloud Computing
เป็นองค์ประกอบที่สำคัญของ Data Science เพราะโครงการและงานทั้งหมดที่เราดำเนินการจะกลายเป็น Products การใช้บริการ Cloud Computing ช่วยให้สามารถจัดเก็บข้อมูลที่สามารถ Scale ได้ รวมไปถึงพลังในการประมวลผล และสามารถเข้าถึงเครื่องมือต่างๆ ได้ง่าย
ตัวอย่าง Cloud Computing Platforms ที่นิยมใช้ ได้แก่ Amazon Web Service, Microsoft Azure, และ Google Cloud Platform
ผู้เริ่มต้นสามารถศึกษาได้จาก
- Beginner’s Guide to Cloud Computing
- How to Efficiently Scale Data Science Projects with Cloud Computing
5. Big Data Tools
การมีความรู้ในเครื่องมือบางอย่าง สามารถยกระดับอาชีพ Data Scientist ของเราได้ มีเครื่องมือและเทคโนโลยีมากมายที่เป็นประโยชน์สำหรับคนที่ทำงานกับข้อมูล ตัวอย่างเครื่องมือที่ได้รับความนิยม เช่น Apache Spark, TensorFlow, PyTorch, Hadoop, Tableau, Git ฯลฯ
6. Machine Learning (ML)
สามารถเริ่มทำความเข้าใจจาก ประเภทของ Machine Learning (Types of ML)

จากนั้นเริ่มศึกษา Machine Learning Algorithms ต่างๆ เริ่มจากอันที่นิยมใช้ ผู้สนใจสามารถดูเพิ่มเติมได้ที่
7. Data Visualization
เป็นส่วนสำคัญของ Data Science เนื่องจากเราจำเป็นต้องสื่อสารสิ่งที่ค้นพบให้กับ Stakeholders ที่อาจไม่ได้มีความรู้ในเชิงเทคนิคได้ ดังนั้นการนำเสนอข้อมูลด้วยภาพ (Data Visualization) จะช่วยในเรื่องนี้และยังนำไปสู่กระบวนการตัดสินใจได้ด้วย สามารถอ่านเพิ่มเติมได้ที่
- Data Visualization Best Practices & Resources for Effective Communication
- Communication Skill สำหรับ Data Scientist
******
ตอนที่ 2 อยากเป็น Data Scientist (2/2) : 7 Soft Skills ที่ Data Scientist ต้องรู้
******
ข้อมูลอ้างอิง - https://www.kdnuggets.com/want-to-become-a-data-scientist-part-1-10-hard-skills-you-need