
Module 1: Nhập môn Machine Learning
- Bài 1: Machine Learning là gì? Phân biệt với rule-based programming
- Bài 2: 3 loại ML — Supervised, Unsupervised, Reinforcement Learning
- Bài 3: Quy trình build model ML — từ raw data tới deploy
- Bài 4: Scikit-Learn (sklearn) — thư viện chuẩn ngành cho ML cổ điển
- Bài 5: Dataset đầu tiên — load_iris và làm quen với feature / label
Module 2: Chuẩn bị dữ liệu
- Bài 6: Train / Validation / Test Split — vì sao phải chia 3 phần
- Bài 7: Feature scaling: Min-Max Normalization
- Bài 8: Feature scaling: Standardization (Z-score)
- Bài 9: Khi nào dùng Normalization, khi nào dùng Standardization
- Bài 10: One-Hot Encoding cho biến phân loại
- Bài 11: Label Encoding và Ordinal Encoding
- Bài 12: Xử lý outlier — IQR và Z-score
- Bài 13: Feature Engineering cơ bản — tạo feature mới từ feature cũ
- Bài 14: Sklearn Pipeline — đóng gói chuỗi preprocessing
Module 3: Supervised — Regression
- Bài 15: Linear Regression — phương trình đường thẳng và ý nghĩa
- Bài 16: Train Linear Regression với sklearn — code đầu tiên
- Bài 17: MSE và RMSE — đo lường sai số dự đoán
- Bài 18: R-Squared (R²) — đo lường mức độ giải thích phương sai
- Bài 19: Multiple Linear Regression — nhiều feature
- Bài 20: Polynomial Regression — model quan hệ phi tuyến
- Bài 21: Ridge và Lasso Regression — regularization để chống overfitting
Module 4: Supervised — Classification
- Bài 22: Logistic Regression — dự đoán xác suất nhị phân
- Bài 23: Confusion Matrix — ma trận nhầm lẫn
- Bài 24: Accuracy, Precision, Recall — chọn metric nào?
- Bài 25: F1-Score và trade-off Precision/Recall
- Bài 26: ROC Curve và AUC
- Bài 27: K-Nearest Neighbors (KNN) — phân loại theo láng giềng
- Bài 28: Decision Tree — cây quyết định và entropy/gini
- Bài 29: Random Forest — ensemble nhiều decision tree
- Bài 30: Gradient Boosting và XGBoost — bá chủ Kaggle
- Bài 31: Support Vector Machine (SVM) — margin tối ưu
Module 5: Unsupervised Learning
- Bài 32: K-Means Clustering — gom nhóm tự động
- Bài 33: Đánh giá clustering — Elbow Method và Silhouette Score
- Bài 34: Hierarchical Clustering — phân cụm phân cấp
- Bài 35: DBSCAN — clustering dựa trên mật độ, phát hiện anomaly
- Bài 36: PCA — giảm chiều dữ liệu để visualize và tăng tốc
Module 6: Tối ưu và Đánh giá
- Bài 37: Overfitting và Underfitting — nhận diện qua learning curve
- Bài 38: Bias-Variance Tradeoff
- Bài 39: Cross-Validation — K-Fold để đánh giá ổn định
- Bài 40: Grid Search — quét hyperparameter có hệ thống
- Bài 41: Random Search và Bayesian Optimization sơ lược
- Bài 42: Class Imbalance — SMOTE và class_weight
