Bài 2: Lộ trình series Python, Data & Math — học để chuẩn bị cho 5 series sau

1

Mục tiêu bài học

Sau khi hoàn thành bài này, bạn sẽ:

Hiểu Series 1 nằm ở vị trí nào trong lộ trình 6 series AI Engineer.
Biết 5 module của Series 1 dạy gì và theo thứ tự nào.
Biết vì sao Module Math đặt trước Module NumPy/Pandas (khác cách bố trí phổ biến).
Biết mỗi module phục vụ series tiếp theo nào (ML, DL, LLM, Deployment, Job).
Đặt được expectation đúng: Series 1 KHÔNG train model, KHÔNG làm project lớn.

2

Series 1 trong bức tranh 6 series

Lộ trình AI Engineer trên blogcode.vn gồm 6 series chạy theo thứ tự:

Series 1 — Python, Data & Math Foundations (bạn đang ở đây).
Series 2 — Machine Learning cổ điển: supervised / unsupervised, feature engineering, scikit-learn.
Series 3 — Deep Learning: neural network, CNN, RNN, Transformer, PyTorch / TensorFlow.
Series 4 — LLM & Generative AI: prompt engineering, RAG, fine-tuning, agent.
Series 5 — Deployment & MLOps: serving, monitoring, scaling model trong production.
Series 6 — Capstone Projects & Job: portfolio, phỏng vấn, lộ trình tìm việc.

Series 1 không dạy AI. Series 1 chuẩn bị 3 thứ mà 5 series sau coi là tiền đề:

Python — ngôn ngữ để đọc, viết, sửa code model. Mọi tutorial AI bạn gặp sau này đều bằng Python.
Toán intuition — đủ để hiểu vector, ma trận, đạo hàm, gradient descent, phân phối xác suất.
NumPy + Pandas — hai thư viện để biểu diễn dữ liệu dưới dạng array / table mà toàn bộ ML/DL framework đều build trên.

Nếu bỏ qua Series 1, vào thẳng Series 2 bạn vẫn copy được code chạy được, nhưng không hiểu vì sao X.shape phải là (n_samples, n_features), không hiểu tại sao loss giảm dần, không hiểu vì sao .fit() mất thời gian. Series 1 lấp những khoảng trống đó.

3

Tổng quan 5 module của Series 1

Series 1 có 41 bài, chia thành 5 module:

Module 1: Định hướng & Môi trường (Bài 1–4)

Trả lời câu hỏi "AI Engineer làm gì?" và dựng môi trường code. Sau module này bạn có Google Colab để chạy notebook và biết quy trình làm việc theo cell. Đây là module bạn đang đọc.

Module 2: Python Cơ bản cho AI (Bài 5–17)

Cú pháp Python ở mức đủ dùng cho AI: biến, kiểu dữ liệu, điều khiển luồng, hàm, list / tuple / dict / set, list comprehension, xử lý lỗi, đọc / ghi file. Không đi sâu vào OOP, decorator, metaclass, async — những thứ này không cần cho 90% công việc AI Engineer ban đầu.

Module 3: Toán nền tảng cho AI (Bài 18–27)

Intuition về vector, ma trận, tensor (đại số tuyến tính); mean / variance / phân phối chuẩn / xác suất có điều kiện (thống kê và xác suất); đạo hàm, loss function, gradient descent (giải tích). Cách trình bày: trực quan trước, công thức sau, kèm code Python (matplotlib) để vẽ ra.

Module 4: NumPy (Bài 28–33)

ndarray, indexing, slicing, vectorization, reshape, broadcasting. Module này biến lý thuyết Module 3 thành thao tác cụ thể trên array nhiều chiều.

Module 5: Pandas (Bài 34–41)

Series / DataFrame, đọc CSV / JSON / Excel, lọc bằng boolean mask, loc / iloc, sort, xử lý missing data, groupby. Đây là phần "data wrangling" — chiếm phần lớn thời gian thực tế của AI Engineer trước khi đưa dữ liệu vào model.

4

Vì sao Math đặt TRƯỚC NumPy/Pandas

Nhiều khóa học bố trí: Python → NumPy → Pandas → Math. Series này chọn ngược lại: Python → Math → NumPy → Pandas. Lý do:

NumPy thao tác trên vector, ma trận, tensor. Ngay bài đầu của Module NumPy đã có những thao tác như:

import numpy as np

# Ma trận 3x4 — 3 hàng, 4 cột
X = np.array([[1, 2, 3, 4],
              [5, 6, 7, 8],
              [9, 10, 11, 12]])

print(X.shape)        # (3, 4)
print(X.reshape(2, 6))  # đổi shape thành 2x6
print(X.T)            # ma trận chuyển vị 4x3

Nếu reader chưa có intuition về "ma trận là gì", "chuyển vị (transpose) đổi hàng thành cột", "shape (3, 4) nghĩa là gì" — thì những thao tác như reshape, X.T, hay broadcasting trở thành phép thuật cú pháp. Học thuộc được, nhưng không hiểu.

Đặt Module Math trước cho phép Module NumPy nói: "Bài 19 bạn đã biết phép nhân ma trận. Bài này dùng np.dot(A, B) để làm chính phép đó trên array." Reader nối được lý thuyết với cú pháp ngay khi học, không phải đoán.

Pandas dựa trên NumPy (cột của DataFrame là ndarray), nên Pandas đặt sau NumPy là tự nhiên.

Trade-off của thứ tự này: reader phải tạm "tin" rằng các khái niệm toán sẽ được dùng đến — chưa thấy chúng làm việc ngay. Module 4 và 5 sẽ trả lại tính ứng dụng đó.

5

Mỗi module phục vụ series nào tiếp theo

Python Cơ bản (Module 2) → tất cả series sau

Đây là module có scope rộng nhất. Mọi việc làm sau này — đọc code mẫu trên GitHub, gọi API model qua thư viện openai / anthropic, viết script tiền xử lý dữ liệu, viết test cho pipeline — đều cần Python. Không có Python thì không vào được series nào.

Toán nền tảng (Module 3) → Series 2, 3, 4

Series 2 (ML) sẽ dùng đến gradient descent ở bài về linear regression và logistic regression. Loss function (MSE, cross-entropy) là khái niệm trung tâm. Không có Bài 26–27 thì model.fit() trong scikit-learn chỉ là hộp đen.
Series 3 (DL) sẽ dùng đến backpropagation — bản chất là chain rule của đạo hàm (Bài 25) áp dụng lên đồ thị tính toán. Không có intuition đạo hàm + gradient descent, neural network không "học" được trong đầu bạn.
Series 4 (LLM) sẽ dùng đến attention — công thức softmax(QK^T/√d)V là phép nhân ma trận + softmax (chuẩn hóa thành xác suất). Bài 19 (ma trận) + Bài 23–24 (phân phối, xác suất) là tiền đề.

NumPy (Module 4) → Series 2, 3

Series 2 (ML) biểu diễn dữ liệu dưới dạng feature matrix X shape (n_samples, n_features) và vector nhãn y shape (n_samples,). Đây chính xác là ndarray của NumPy.
Series 3 (DL) làm việc với tensor — phần lớn API của PyTorch / TensorFlow mô phỏng API của NumPy (reshape, transpose, broadcasting, indexing). Học NumPy xong, học PyTorch nhanh hơn nhiều vì cú pháp lặp lại.

Pandas (Module 5) → Series 2, 6

Series 2 (ML) trước khi fit model, gần như luôn có bước preprocessing: load CSV, xử lý missing data, encode categorical column, normalize giá trị số. Tất cả làm bằng Pandas.
Series 6 (Projects / Job) các capstone project thường bắt đầu từ dataset thật (CSV, parquet, JSON). Pandas là cầu vào dữ liệu.

Định hướng & Môi trường (Module 1) → tất cả series sau

Google Colab và notebook (.ipynb) là môi trường mặc định của 5 series sau. Mọi code mẫu sẽ chạy trên Colab. Không quen với notebook, mỗi bài sẽ tốn thêm thời gian setup.

Bảng tổng hợp:

Module        | Phục vụ trực tiếp cho
--------------|-----------------------------------
M1 Môi trường | Mọi series (notebook là môi trường mặc định)
M2 Python     | Mọi series (ngôn ngữ làm việc)
M3 Math       | S2 (gradient descent), S3 (backprop), S4 (attention)
M4 NumPy      | S2 (feature matrix), S3 (tensor)
M5 Pandas     | S2 (preprocessing), S6 (project data handling)

6

Cách học: đặt expectation đúng

Vài nguyên tắc khi đọc Series 1:

Mỗi bài 1 chủ đề. Bài "List comprehension" chỉ nói về list comprehension. Không trộn nhiều khái niệm vào 1 bài để dễ quay lại tra cứu.
Bài ngắn, đọc trong 1 lượt. Mục tiêu là intuition + đủ cú pháp để viết được ví dụ tiếp theo, không phải reference đầy đủ.
Không cần học thuộc. Series 1 là quyển sổ tay. Bạn đọc qua 1 lần để biết "thứ này tồn tại, làm được việc gì", rồi khi đến Series 2/3/4 gặp lại thì quay lại tra. Không ai nhớ hết 41 bài sau lần đọc đầu tiên — cũng không cần.
Gõ code, đừng copy. Mỗi snippet trong bài đều ngắn (5–15 dòng) để gõ được trong Colab. Gõ lại giúp nhớ cú pháp; chạy thử giúp nhớ output thật.
Đừng cố hiểu hết toán ngay lần đầu. Module 3 có những khái niệm (gradient descent, phân phối chuẩn) mà phải đến lúc dùng trong Series 2/3 mới "thấm". Lần đầu chỉ cần hiểu định nghĩa và ví dụ.

Thứ tự khuyến nghị: đi tuần tự Bài 1 → Bài 41. Nếu bạn đã biết Python rồi, có thể skim Module 2 (đọc lướt, làm bài tập cuối bài để xác nhận); Module 3, 4, 5 thì nên đọc kỹ vì hầu hết người non-tech chưa quen với vector / ndarray / DataFrame.

7

Series 1 KHÔNG dạy điều gì

Để tránh kỳ vọng sai, Series 1 KHÔNG có những thứ sau (chúng nằm ở series khác):

Không train model thực tế. Không có model.fit(), không có accuracy, không có confusion matrix. Đó là Series 2 trở đi.
Không có project end-to-end. Không có "xây chatbot", "phân loại ảnh", "dự đoán giá nhà". Capstone project nằm ở Series 6.
Không dạy chứng minh toán. Module 3 nói về intuition và cách dùng — không chứng minh định lý, không suy luận epsilon-delta. Mục tiêu là đủ hiểu để đọc được paper / docs sau này, không phải thay thế giáo trình đại học.
Không sâu về OOP Python. Class, decorator, metaclass, async / await không có ở đây. AI Engineer cần dùng class chủ yếu khi viết custom nn.Module trong PyTorch — sẽ học khi đến Series 3.
Không dạy SQL, dataviz nâng cao, big data tools (Spark, Dask). Pandas đủ cho dataset cỡ vài trăm MB; lớn hơn là chuyện của Series 5 (Deployment).

Nếu sau khi đọc Series 1 bạn vẫn chưa "làm được AI" — đó là đúng kế hoạch. Series 1 mở ra cánh cửa; bước qua cánh cửa là việc của Series 2.

8

Bài tiếp theo

Bài 3: Thiết lập Google Colab — môi trường code AI không cần cài đặt — Sau khi đã hiểu bản đồ Series 1, bài tiếp theo dựng môi trường để bắt đầu gõ code: tạo Colab notebook đầu tiên, kết nối Google Drive, chạy cell Python.

Danh sách bài viết