Blog Series Roadmap

Danh sách bài viết

Machine Learning Foundations

Hiểu cách model Machine Learning hoạt động và tự train được model đầu tiên.

23/05/2026

10-12 tuần đọc

5 lượt xem

Machine Learning Foundations

Module 1: Nhập môn Machine Learning

Bài 1: Machine Learning là gì? Phân biệt với rule-based programming
Bài 2: 3 loại ML — Supervised, Unsupervised, Reinforcement Learning
Bài 3: Quy trình build model ML — từ raw data tới deploy
Bài 4: Scikit-Learn (sklearn) — thư viện chuẩn ngành cho ML cổ điển
Bài 5: Dataset đầu tiên — load_iris và làm quen với feature / label

Module 2: Chuẩn bị dữ liệu

Bài 6: Train / Validation / Test Split — vì sao phải chia 3 phần
Bài 7: Feature scaling: Min-Max Normalization
Bài 8: Feature scaling: Standardization (Z-score)
Bài 9: Khi nào dùng Normalization, khi nào dùng Standardization
Bài 10: One-Hot Encoding cho biến phân loại
Bài 11: Label Encoding và Ordinal Encoding
Bài 12: Xử lý outlier — IQR và Z-score
Bài 13: Feature Engineering cơ bản — tạo feature mới từ feature cũ
Bài 14: Sklearn Pipeline — đóng gói chuỗi preprocessing

Module 3: Supervised — Regression

Bài 15: Linear Regression — phương trình đường thẳng và ý nghĩa
Bài 16: Train Linear Regression với sklearn — code đầu tiên
Bài 17: MSE và RMSE — đo lường sai số dự đoán
Bài 18: R-Squared (R²) — đo lường mức độ giải thích phương sai
Bài 19: Multiple Linear Regression — nhiều feature
Bài 20: Polynomial Regression — model quan hệ phi tuyến
Bài 21: Ridge và Lasso Regression — regularization để chống overfitting

Module 4: Supervised — Classification

Bài 22: Logistic Regression — dự đoán xác suất nhị phân
Bài 23: Confusion Matrix — ma trận nhầm lẫn
Bài 24: Accuracy, Precision, Recall — chọn metric nào?
Bài 25: F1-Score và trade-off Precision/Recall
Bài 26: ROC Curve và AUC
Bài 27: K-Nearest Neighbors (KNN) — phân loại theo láng giềng
Bài 28: Decision Tree — cây quyết định và entropy/gini
Bài 29: Random Forest — ensemble nhiều decision tree
Bài 30: Gradient Boosting và XGBoost — bá chủ Kaggle
Bài 31: Support Vector Machine (SVM) — margin tối ưu

Module 5: Unsupervised Learning

Bài 32: K-Means Clustering — gom nhóm tự động
Bài 33: Đánh giá clustering — Elbow Method và Silhouette Score
Bài 34: Hierarchical Clustering — phân cụm phân cấp
Bài 35: DBSCAN — clustering dựa trên mật độ, phát hiện anomaly
Bài 36: PCA — giảm chiều dữ liệu để visualize và tăng tốc

Module 6: Tối ưu và Đánh giá

Bài 37: Overfitting và Underfitting — nhận diện qua learning curve
Bài 38: Bias-Variance Tradeoff
Bài 39: Cross-Validation — K-Fold để đánh giá ổn định
Bài 40: Grid Search — quét hyperparameter có hệ thống
Bài 41: Random Search và Bayesian Optimization sơ lược
Bài 42: Class Imbalance — SMOTE và class_weight

ai-engineer series