Danh sách bài viết

Machine Learning Foundations

Hiểu cách model Machine Learning hoạt động và tự train được model đầu tiên.

23/05/2026
10-12 tuần đọc
0 lượt xem
Machine Learning Foundations

Module 1: Nhập môn Machine Learning

  • Bài 1: Machine Learning là gì? Phân biệt với rule-based programming
  • Bài 2: 3 loại ML — Supervised, Unsupervised, Reinforcement Learning
  • Bài 3: Quy trình build model ML — từ raw data tới deploy
  • Bài 4: Scikit-Learn (sklearn) — thư viện chuẩn ngành cho ML cổ điển
  • Bài 5: Dataset đầu tiên — load_iris và làm quen với feature / label

Module 2: Chuẩn bị dữ liệu

  • Bài 6: Train / Validation / Test Split — vì sao phải chia 3 phần
  • Bài 7: Feature scaling: Min-Max Normalization
  • Bài 8: Feature scaling: Standardization (Z-score)
  • Bài 9: Khi nào dùng Normalization, khi nào dùng Standardization
  • Bài 10: One-Hot Encoding cho biến phân loại
  • Bài 11: Label Encoding và Ordinal Encoding
  • Bài 12: Xử lý outlier — IQR và Z-score
  • Bài 13: Feature Engineering cơ bản — tạo feature mới từ feature cũ
  • Bài 14: Sklearn Pipeline — đóng gói chuỗi preprocessing

Module 3: Supervised — Regression

  • Bài 15: Linear Regression — phương trình đường thẳng và ý nghĩa
  • Bài 16: Train Linear Regression với sklearn — code đầu tiên
  • Bài 17: MSE và RMSE — đo lường sai số dự đoán
  • Bài 18: R-Squared (R²) — đo lường mức độ giải thích phương sai
  • Bài 19: Multiple Linear Regression — nhiều feature
  • Bài 20: Polynomial Regression — model quan hệ phi tuyến
  • Bài 21: Ridge và Lasso Regression — regularization để chống overfitting

Module 4: Supervised — Classification

  • Bài 22: Logistic Regression — dự đoán xác suất nhị phân
  • Bài 23: Confusion Matrix — ma trận nhầm lẫn
  • Bài 24: Accuracy, Precision, Recall — chọn metric nào?
  • Bài 25: F1-Score và trade-off Precision/Recall
  • Bài 26: ROC Curve và AUC
  • Bài 27: K-Nearest Neighbors (KNN) — phân loại theo láng giềng
  • Bài 28: Decision Tree — cây quyết định và entropy/gini
  • Bài 29: Random Forest — ensemble nhiều decision tree
  • Bài 30: Gradient Boosting và XGBoost — bá chủ Kaggle
  • Bài 31: Support Vector Machine (SVM) — margin tối ưu

Module 5: Unsupervised Learning

  • Bài 32: K-Means Clustering — gom nhóm tự động
  • Bài 33: Đánh giá clustering — Elbow Method và Silhouette Score
  • Bài 34: Hierarchical Clustering — phân cụm phân cấp
  • Bài 35: DBSCAN — clustering dựa trên mật độ, phát hiện anomaly
  • Bài 36: PCA — giảm chiều dữ liệu để visualize và tăng tốc

Module 6: Tối ưu và Đánh giá

  • Bài 37: Overfitting và Underfitting — nhận diện qua learning curve
  • Bài 38: Bias-Variance Tradeoff
  • Bài 39: Cross-Validation — K-Fold để đánh giá ổn định
  • Bài 40: Grid Search — quét hyperparameter có hệ thống
  • Bài 41: Random Search và Bayesian Optimization sơ lược
  • Bài 42: Class Imbalance — SMOTE và class_weight