ชุดข้อมูล สำหรับผู้เริ่มต้น

ในการเรียนรู้การวิเคราะห์ข้อมูล ชุดข้อมูลใดบ้างที่เหมาะสำหรับผู้เริ่มต้น
สำหรับผู้เริ่มต้นควรเรียนรู้จากชุดข้อมูลที่มีลักษณะดังนี้
- มีขนาดเล็กและจัดการได้ง่าย: เพื่อให้สามารถเข้าใจข้อมูลและจัดการได้อย่างสะดวก
- สะอาดและมีโครงสร้างที่ดี: มีค่าสูญหายหรือความไม่สอดคล้องกันน้อยที่สุด ทำให้มุ่งเน้นไปที่การวิเคราะห์มากกว่าการทำความสะอาดข้อมูล
- เรื่องที่คุ้นเคยและเข้าใจง่าย: ชุดข้อมูลในหัวข้อที่คุ้นเคยจะทำให้กระบวนการเรียนรู้มีความน่าสนใจยิ่งขึ้น
- มีเอกสารประกอบที่ดี: คำอธิบายตัวแปรต่างๆ อย่างชัดเจน
ชุดข้อมูล ซึ่งมักจะแนะนำในบทเรียนและหลักสูตรต่างๆ
ชุดข้อมูล Classic และเรียบง่าย
- ชุดข้อมูล Iris: เป็นชุดข้อมูลที่รู้จักกันเป็นอย่างดี ในการทำ Machine Learning และ สถิติ ประกอบด้วยการวัดความยาวและความกว้างของกลีบเลี้ยงและความยาวและความกว้างของกลีบดอกของดอกไอริสสามสายพันธุ์ (setosa, versicolor, virginica) เหมาะสำหรับการเรียนรู้เรื่อง การสำรวจข้อมูลเบื้องต้น การแสดงภาพ (แผนภาพกระจาย, ฮิสโทแกรม) และแนวคิดการทำ Classification ขั้นพื้นฐาน สามารถค้นหาได้จาก Library ในการวิเคราะห์ข้อมูล เช่น Pandas ใน Python หรือดาวน์โหลดจากแหล่งต่างๆ เช่น UCI Machine Learning Repository หรือ Kaggle
- ชุดข้อมูล Titanic: เป็นอีกชุดข้อมูลที่ได้รับความนิยมอย่างมาก โดยเฉพาะอย่างยิ่งสำหรับผู้เริ่มต้น ประกอบด้วยข้อมูลเกี่ยวกับผู้โดยสารบนเรือไททานิก รวมถึงว่าพวกเขารอดชีวิตหรือไม่ พร้อมด้วยคุณสมบัติต่างๆ เช่น อายุ ชั้น เพศ ฯลฯ เหมาะสำหรับการเรียนรู้การทำความสะอาดข้อมูล การสำรวจข้อมูลเบื้องต้น (การหาความสัมพันธ์ระหว่าง Features และการรอดชีวิต) และการสร้าง Predictive Model ขั้นพื้นฐาน มีอยู่ใน Kaggle และแหล่งเก็บข้อมูลอื่นๆ
- ชุดข้อมูลคุณภาพไวน์: ชุดข้อมูลนี้ประกอบด้วยคุณสมบัติทางเคมีต่างๆ ของไวน์ที่แตกต่างกันและการให้คะแนนคุณภาพ เหมาะสำหรับการทำ Regression (การทำนายคะแนนคุณภาพ) หรือการทำ Classification (คุณภาพสูง vs. คุณภาพต่ำ) และการสำรวจความสัมพันธ์ระหว่างลักษณะของไวน์และคุณภาพ มีอยู่ใน UCI Machine Learning Repository และ Kaggle
- ชุดข้อมูลบ้านในบอสตัน: ชุดข้อมูลนี้ประกอบด้วยข้อมูลเกี่ยวกับมูลค่าบ้านในเขตชานเมืองของบอสตัน พร้อมด้วยคุณสมบัติต่างๆ เช่น อัตราการเกิดอาชญากรรม จำนวนห้อง ฯลฯ เป็นชุดข้อมูล Classic สำหรับการเรียนรู้การทำ Linear Regression และการทำความเข้าใจความสัมพันธ์ระหว่างคุณสมบัติต่างๆ และราคาบ้าน
ชุดข้อมูลอื่นๆ ที่เหมาะสำหรับผู้เริ่มต้น
- ชุดข้อมูลยอดขาย Superstore: ชุดข้อมูลนี้โดยทั่วไปประกอบด้วยข้อมูลจำลองการขายสำหรับบริษัทค้าปลีก รวมถึงข้อมูลเกี่ยวกับผลิตภัณฑ์ คำสั่งซื้อ ลูกค้า และรายละเอียดการจัดส่ง เหมาะสำหรับการฝึกการสำรวจข้อมูลเบื้องต้น การวิเคราะห์อนุกรมเวลา (หากมีข้อมูลวันที่) และการระบุแนวโน้มการขาย มักพบในรูปแบบ Excel หรือ CSV บนแพลตฟอร์มต่างๆ เช่น Kaggle
- ชุดข้อมูลซีเรียล 80 ชนิด: ประกอบด้วยข้อมูลทางโภชนาการเกี่ยวกับผลิตภัณฑ์ซีเรียล 80 ชนิด เหมาะสำหรับการฝึกสถิติเชิงพรรณนา การเปรียบเทียบระหว่างซีเรียลประเภทต่างๆ และการแสดงภาพพื้นฐาน มีอยู่ใน Kaggle
- ข้อมูลวิเคราะห์สถานสงเคราะห์สัตว์: ชุดข้อมูลนี้มักประกอบด้วยข้อมูลเกี่ยวกับสัตว์ในสถานสงเคราะห์ ลักษณะของพวกมัน และผลลัพธ์ของพวกมัน (การรับเลี้ยง ฯลฯ) สามารถใช้สำหรับการฝึกการวิเคราะห์ข้อมูลเชิงหมวดหมู่ การทำความเข้าใจปัจจัยที่มีอิทธิพลต่อผลลัพธ์ และการแสดงภาพ มีอยู่ในแพลตฟอร์มต่างๆ เช่น Kaggle
- ภาพยนตร์ Netflix Original และคะแนน IMDB: ชุดข้อมูลนี้แสดงรายชื่อภาพยนตร์ต้นฉบับของ Netflix และคะแนน IMDB ที่เกี่ยวข้อง เป็นชุดข้อมูลสำหรับผู้เริ่มต้นในการสำรวจความสัมพันธ์ระหว่างลักษณะต่างๆ ของภาพยนตร์และคะแนนที่ได้ มีอยู่ใน Kaggle
แหล่งค้นหาชุดข้อมูลเหล่านี้
- Kaggle: แพลตฟอร์มยอดนิยมที่มีชุดข้อมูลหลากหลาย มากมาย นอกจากนี้ยังมี Chat ที่สามารถดูได้ว่าคนอื่นๆ วิเคราะห์ข้อมูลเหล่านี้อย่างไร
- UCI Machine Learning Repository: แหล่งข้อมูล Classic สำหรับการวิจัยและการศึกษาด้าน Machine Learning
- Library การวิเคราะห์ข้อมูล (เช่น Pandas ใน Python, datasets ใน R): บางอันมาพร้อมกับการเข้าถึงชุดข้อมูลยอดนิยม เช่น Iris
- Portal ข้อมูลเปิดของรัฐบาลและองค์กร: รัฐบาลและองค์กรหลายแห่งเผยแพร่ข้อมูลที่อาจเหมาะสมสำหรับการวิเคราะห์ แม้ว่าความซับซ้อนอาจแตกต่างกันไป ตัวอย่างเช่น data.gov
- Maven Analytics Data Playground: นำเสนอชุดข้อมูลที่คัดสรรมาโดยเฉพาะสำหรับการฝึกทักษะการวิเคราะห์และการแสดงภาพข้อมูล
เคล็ดลับในการทำงานกับชุดข้อมูลสำหรับผู้เริ่มต้น
- เริ่มต้นด้วยคำถามพื้นฐาน: คิดเกี่ยวกับสิ่งที่เราต้องการเรียนรู้จากข้อมูลก่อนที่จะลงมือวิเคราะห์
- มุ่งเน้นไปที่เทคนิคการวิเคราะห์หนึ่งหรือสองอย่างในแต่ละครั้ง: อย่าพยายามเรียนรู้ทุกอย่างพร้อมกัน
- แสดงผลข้อมูลด้วยภาพ: ใช้แผนภูมิและกราฟเพื่อทำความเข้าใจรูปแบบและความสัมพันธ์
- บันทึกขั้นตอนต่างๆ: การ Code และการวิเคราะห์ที่เราได้ดำเนินการ
- ดูตัวอย่าง: ดูว่าคนอื่นๆ วิเคราะห์ชุดข้อมูลเดียวกันอย่างไรเพื่อเป็นแรงบันดาลใจและเรียนรู้
การทำงานกับชุดข้อมูลประเภทนี้จะช่วยให้สร้างรากฐานที่แข็งแกร่งในเทคนิคการวิเคราะห์ข้อมูลและเพิ่มความมั่นใจมากยิ่งขึ้น
Blog นี้ ✍🏼 เขียนร่วมกับ Gemini โดยใช้ Prompt
To learn data analysis, what will be the datasets for beginner?