Skip to content
Merged
Show file tree
Hide file tree
Changes from all commits
Commits
File filter

Filter by extension

Filter by extension

Conversations
Failed to load comments.
Loading
Jump to
Jump to file
Failed to load files.
Loading
Diff view
Diff view
57 changes: 57 additions & 0 deletions anime_rating_classification.ipynb
Original file line number Diff line number Diff line change
Expand Up @@ -16,6 +16,8 @@
" - Chuẩn hóa các cột phân loại\n",
" - Xử lý dữ liệu bất cân bằng\n",
" - Xây dựng mô hình\n",
" - Suy nghĩ và đánh giá\n",
" - Tài liệu tham khảo\n",
"</details>"
]
},
Expand Down Expand Up @@ -5338,6 +5340,61 @@
"for i in range(20):\n",
" print('Predicted: {:.2f};\\n Real: {};\\n'.format(y_pred[i], y_test.iloc[i]))"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"<h2 style=\"color: #EFD1B4\">Suy nghĩ và đánh giá</h2>\n",
"\n",
"---"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"**Khó khăn**\n",
"- Phải xử lý văn bản cho thuộc tính Genres đồng thời dữ liệu bị mất cân bằng khá nặng nên phải xử lý để đảm bảo hiệu quả cho mô hình\n",
"\n",
"**Kiến thức học được**\n",
"- Học được cách xử lý các thuộc tính dạng văn bản để mô hình sử dụng\n",
"- Học được cách sử dụng thư viện nltk\n",
"- Học được cách xử lý dữ liệu mất cân bằng\n",
"- Học được cách đọc biểu đồ ma trận confusion\n",
"\n",
"**Nếu có thêm thời gian**\n",
"- Xử lý các cột thuộc tính dạng văn bản chuẩn hơn\n",
"- Sử dụng thêm các mô hình khác để tiến hành phân tích so sánh\n",
"\n",
"---"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"<h2 style=\"color: #EFD1B4\">Tài liệu tham khảo</h2>\n",
"\n",
"---"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"1. [Trích chọn thuộc tính trong đoạn văn bản với TF-IDF](https://viblo.asia/p/trich-chon-thuoc-tinh-trong-doan-van-ban-voi-tf-idf-Az45bAOqlxY) - Viblo.\n",
"2. [How to store a TfidfVectorizer for future use in scikit-learn?](https://www.geeksforgeeks.org/how-to-store-a-tfidfvectorizer-for-future-use-in-scikit-learn/) - GeeksforGeeks.\n",
"3. [Understanding TF-IDF (Term Frequency-Inverse Document Frequency)](https://www.geeksforgeeks.org/understanding-tf-idf-term-frequency-inverse-document-frequency/) - GeeksforGeeks.\n",
"4. [Tiền xử lí dữ liệu văn bản với NLTK](https://viblo.asia/p/tien-xu-li-du-lieu-van-ban-voi-nltk-Az45b0LgZxY) - Viblo.\n",
"5. [Introduction to NLTK: Tokenization, Stemming, Lemmatization, POS Tagging](https://www.geeksforgeeks.org/introduction-to-nltk-tokenization-stemming-lemmatization-pos-tagging/) - GeeksforGeeks.\n",
"6. [NLTK :: Natural Language Toolkit](https://www.nltk.org/) - nltk.\n",
"7. [SMOTEENN](https://imbalanced-learn.org/stable/references/generated/imblearn.combine.SMOTEENN.html) - Imbalanced learn.\n",
"8. [Imbalanced Classification in Python: SMOTE-ENN Method](https://towardsdatascience.com/imbalanced-classification-in-python-smote-enn-method-db5db06b8d50) - Raden Aurelius Andhika Viadinugroho.\n",
"9. [ExtraTreesClassifier](https://scikit-learn.org/1.5/modules/generated/sklearn.ensemble.ExtraTreesClassifier.html) - Scikit learn.\n",
"9. [ML | Extra Tree Classifier for Feature Selection](https://www.geeksforgeeks.org/ml-extra-tree-classifier-for-feature-selection/) - GeeksforGeeks.\n",
"\n"
]
}
],
"metadata": {
Expand Down
77 changes: 75 additions & 2 deletions optimal_production_balance.ipynb
Original file line number Diff line number Diff line change
Expand Up @@ -19,6 +19,24 @@
"cell_type": "markdown",
"metadata": {},
"source": [
"<div class=\"list-group\" id=\"list-tab\" role=\"tablist\">\n",
" \n",
"## MỤC LỤC:\n",
"- [CÀI ĐẶT CÁC THƯ VIỆN](#1)\n",
"- [ĐỌC DỮ LIỆU TỪ FILE](#2)\n",
"- [TIỀN XỬ LÝ DỮ LIỆU](#3)\n",
"- [TRẢ LỜI CÂU HỎI](#4)\n",
"- [SUY NGHĨ VÀ ĐÁNH GIÁ](#5)\n",
"- [NGUỒN THAM KHẢO](#6)\n",
"\n",
"---"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"<a id=\"1\"></a>\n",
"<h3 style=\"color: pink\">Cài đặt các thư viện</h3>\n",
"\n",
"---"
Expand Down Expand Up @@ -74,6 +92,7 @@
"cell_type": "markdown",
"metadata": {},
"source": [
"<a id=\"2\"></a>\n",
"<h3 style=\"color: pink\">Đọc dữ liệu từ file</h3>\n",
"\n",
"---"
Expand Down Expand Up @@ -471,6 +490,7 @@
"cell_type": "markdown",
"metadata": {},
"source": [
"<a id=\"3\"></a>\n",
"<h3 style=\"color: pink\">Tiền xử lý dữ liệu</h3>\n",
"\n",
"---"
Expand Down Expand Up @@ -995,7 +1015,8 @@
"cell_type": "markdown",
"metadata": {},
"source": [
"<h3 style=\"color: pink\">Khám phá dữ liệu</h3>\n",
"<a id=\"4\"></a>\n",
"<h3 style=\"color: pink\">Trả lời câu hỏi</h3>\n",
"\n",
"---"
]
Expand Down Expand Up @@ -1305,7 +1326,59 @@
"\n",
"- Thời gian mỗi tập phần lớn dưới 30 phút (phân vị 75% là 26 phút), với một số tập cực kỳ ngắn (như chỉ 3 phút). Điều này cho thấy người xem có xu hướng thích các nội dung ngắn gọn, dễ tiêu thụ.\n",
"\n",
"-> **Để phù hợp với thói quen người dùng ngày nay, đặc biệt với sự phổ biến của các video trên mạng xã hội và các nền tảng phát trực tuyến, các anime có thời gian mỗi tập từ 10 đến 30 phút sẽ là lựa chọn lý tưởng. Điều này cho phép người xem dễ dàng theo dõi mà không mất quá nhiều thời gian.**"
"-> **Để phù hợp với thói quen người dùng ngày nay, đặc biệt với sự phổ biến của các video trên mạng xã hội và các nền tảng phát trực tuyến, các anime có thời gian mỗi tập từ 10 đến 30 phút sẽ là lựa chọn lý tưởng. Điều này cho phép người xem dễ dàng theo dõi mà không mất quá nhiều thời gian.**\n",
"\n",
"---\n"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"<a id=\"5\"></a>\n",
"<h3 style=\"color: pink\">Suy nghĩ và đánh giá</h3>\n",
"\n",
"---"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"**Khó khăn**\n",
"- Số tập và độ dài mỗi tập có range khá rộng và phụ thuộc vào nhiều tiêu chí\n",
"- `Popularity` và `Score` tương quan ngược với nhau\n",
"\n",
"**Kiến thức học được**\n",
"- Học được cách đọc biểu đồ ma trận tương quan\n",
"- Rút ra kết luận sơ khảo từ các biểu đồ phân tán\n",
"- Học được cách sử dụng thuật toán KMeans cho bài toán phân loại\n",
"\n",
"**Nếu có thêm thời gian**\n",
"- Thu thập thêm dữ liệu\n",
"- Sử dụng thêm các thuật toán phân loại khác\n",
"\n",
"---"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"<a id=\"6\"></a>\n",
"<h3 style=\"color: pink\">Nguồn tham khảo</h3>\n",
"\n",
"---"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"1. [KMeans - scikit-learn](https://scikit-learn.org/1.5/modules/generated/sklearn.cluster.KMeans.html) - Scikit learn.\n",
"2. [Elbow Method for optimal value of k in KMeans](https://www.geeksforgeeks.org/elbow-method-for-optimal-value-of-k-in-kmeans/) - GeeksforGeeks.\n",
"3. [Analyze the Results of a K-means Clustering](https://openclassrooms.com/en/courses/5869986-perform-an-exploratory-data-analysis/6177861-analyze-the-results-of-a-k-means-clustering) - OpenClassroom.\n",
"3. [Principal Component Analysis(PCA)](https://www.geeksforgeeks.org/principal-component-analysis-pca/) - GeeksforGeeks.\n"
]
}
],
Expand Down
61 changes: 60 additions & 1 deletion producer_studio_collaborations_analysis.ipynb
Original file line number Diff line number Diff line change
Expand Up @@ -19,6 +19,24 @@
"cell_type": "markdown",
"metadata": {},
"source": [
"<div class=\"list-group\" id=\"list-tab\" role=\"tablist\">\n",
" \n",
"## MỤC LỤC:\n",
"- [CÀI ĐẶT CÁC THƯ VIỆN](#1)\n",
"- [ĐỌC DỮ LIỆU TỪ FILE](#2)\n",
"- [TIỀN XỬ LÝ DỮ LIỆU](#3)\n",
"- [TRẢ LỜI CÂU HỎI](#4)\n",
"- [SUY NGHĨ VÀ ĐÁNH GIÁ](#5)\n",
"- [NGUỒN THAM KHẢO](#6)\n",
"\n",
"---"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"<a id=\"1\"></a>\n",
"<h3 style=\"color: pink\">Cài đặt các thư viện</h3>\n",
"\n",
"---"
Expand Down Expand Up @@ -72,6 +90,7 @@
"cell_type": "markdown",
"metadata": {},
"source": [
"<a id=\"2\"></a>\n",
"<h3 style=\"color: pink\">Đọc dữ liệu từ file</h3>\n",
"\n",
"---"
Expand Down Expand Up @@ -500,6 +519,7 @@
"cell_type": "markdown",
"metadata": {},
"source": [
"<a id=\"3\"></a>\n",
"<h3 style=\"color: pink\">Tiền xử lý dữ liệu</h3>\n",
"\n",
"---"
Expand Down Expand Up @@ -847,7 +867,8 @@
"cell_type": "markdown",
"metadata": {},
"source": [
"<h3 style=\"color: pink\">Khám phá dữ liệu - Trả lời câu hỏi</h3>\n",
"<a id=\"4\"></a>\n",
"<h3 style=\"color: pink\">Trả lời câu hỏi</h3>\n",
"\n",
"---"
]
Expand Down Expand Up @@ -937,6 +958,44 @@
"- Thể loại `TV` là thể loại có nhiều bộ anime thuộc top nhất\n",
"- Đa số sự kết hợp của `Aniplex, TV Tokyo - Sunrise` mang lại nhiều hiệu quả nhất\n"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"<a id=\"5\"></a>\n",
"<h3 style=\"color: pink\">Suy nghĩ và đánh giá</h3>\n",
"\n",
"---"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"**Khó khăn**\n",
"- Số lượng các nhà sản xuất và studio rất nhiều khiến khó nắm bắt được quan hệ giữa các cặp\n",
"\n",
"**Kiến thức học được**\n",
"- Học được cách đọc biểu đồ ma trận tương quan\n",
"- Rút ra kết luận các biểu đồ cột\n",
"\n",
"**Nếu có thêm thời gian**\n",
"- Thu thập thêm dữ liệu\n",
"- Sử dụng thêm các thuật toán khác để tiến hành phân tích so sánh\n",
"\n",
"---"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"<a id=\"6\"></a>\n",
"<h3 style=\"color: pink\">Nguồn tham khảo</h3>\n",
"\n",
"---"
]
}
],
"metadata": {
Expand Down