Team Members
- 19127353 - Lê Tấn Đạt
- 19127518 - Lê Hoàng Thịnh Phước
- 19127593 - Lê Tiến Trí
Chi tiết:
Trước khi khám phá dữ liệu, hãy viết ra danh sách ngắn về những gì bạn mong đợi sẽ thấy trong dữ liệu: sự phân bố của các biến chính, mối quan hệ / tương quan giữa các cặp biến,... Danh sách này về cơ bản là một dự đoán dựa trên hiểu biết hiện tại của bạn về dữ liệu.
Trong bước phân tích dữ liệu, lập bảng, tóm tắt, bất cứ điều gì cần thiết để xem nó có phù hợp với mong đợi của bạn không.
● Danh sách kiểm tra phân tích dữ liệu: Danh sách kiểm tra này có thể được sử dụng như một hướng dẫn trong quá trình phân tích dữ liệu hoặc như một cách để đánh giá chất lượng của một phân tích dữ liệu được báo cáo.
● Trả lời những câu hỏi về bộ dữ liệu:
- Bạn đã xác định số liệu trước khi bắt đầu?
- Bạn đã hiểu ngữ cảnh cho câu hỏi và ứng dụng?
- Bạn đã xem xét liệu câu hỏi có thể được trả lời với dữ liệu có sẵn không?
● Xóa dữ liệu:
- Dữ liệu có bị thiếu không?
- Mỗi bảng có các kiểu dữ liệu khác nhau? Có kiểu dữ liệu nào chưa phù hợp?
- Kiểm tra các ngoại lệ
● Phân tích khám phá:
- Trực quan hoá mối quan hệ đơn biến (histogram, distplot, boxplot)
- Trực quan hoá các tương quan đa biến (scatterplot, jointplot, kde plot, correlation matrix)
● Trình bày:
- Bạn đã dẫn dắt một cách ngắn gọn, dễ hiểu cho mọi người về vấn đề của bạn?
- Bạn đã giải thích dữ liệu, mô tả câu hỏi cần quan tâm?