Danh sách bài viết

Bài 24: Xác suất cơ bản và xác suất có điều kiện

Định nghĩa xác suất qua sample space và event, các tính chất cơ bản, công thức cộng / nhân. Independent events, conditional probability, Bayes' theorem qua ví dụ medical test. Joint / marginal / conditional, random variable preview, expected value. Use case AI: Naive Bayes, softmax, language model, RLHF. Code Monte Carlo ước lượng \( \pi \).

24/05/2026
15 phút đọc
0 lượt xem
1

Mục tiêu bài học

Sau bài học, bạn sẽ:

  • Định nghĩa xác suất \( P(A) \in [0, 1] \), sample space \( \Omega \), event \( A \subseteq \Omega \).
  • Áp dụng các tính chất: \( P(A^c) = 1 - P(A) \), \( P(A \cup B) = P(A) + P(B) - P(A \cap B) \).
  • Phân biệt independentconditional probability.
  • Đọc và áp dụng được Bayes' theorem, hiểu vì sao test y khoa hay gây "false positive paradox".
  • Đọc bảng joint / marginal / conditional, hiểu các quan hệ giữa chúng.
  • Biết expected value của random variable rời rạc là gì.
  • Viết code Monte Carlo ước lượng \( \pi \) bằng module random.

Bài 23 (Phân phối chuẩn) đã đặt nền cho khái niệm phân phối. Bài này tập trung vào cơ học xác suất — cách kết hợp, cập nhật xác suất theo bằng chứng. Bài 25 sẽ chuyển sang đạo hàm.

2

Xác suất là gì

Xác suất là thước đo khả năng xảy ra của một sự kiện. Với mỗi sự kiện \( A \), ta gán cho nó một số \( P(A) \) thoả mãn:

\[ 0 \le P(A) \le 1 \]

Cách hiểu:

  • \( P(A) = 0 \): \( A \) chắc chắn không xảy ra.
  • \( P(A) = 1 \): \( A \) chắc chắn xảy ra.
  • \( P(A) = 0.5 \): khả năng xảy ra và không xảy ra ngang nhau.

Hai cách diễn giải thường gặp:

  • Frequentist: nếu lặp lại thí nghiệm \( N \) lần, \( P(A) \approx \frac{\text{số lần } A \text{ xảy ra}}{N} \) khi \( N \to \infty \). Tung đồng xu công bằng 1 triệu lần → tỉ lệ mặt ngửa tiến về \( 0.5 \).
  • Bayesian: \( P(A) \) là mức độ tin tưởng (degree of belief) của ta vào việc \( A \) xảy ra, cập nhật khi có bằng chứng mới. Phần Bayes' theorem ở mục 7 là chính cơ chế cập nhật này.

Trong thực hành ML, ta linh hoạt: tính tần suất khi có nhiều data (frequentist), còn dùng prior và posterior khi data ít hoặc cần kết hợp domain knowledge (Bayesian).

3

Sample space và event

Một thí nghiệm xác suất luôn đi kèm 2 khái niệm:

  • Sample space \( \Omega \): tập hợp tất cả kết quả có thể xảy ra.
  • Event \( A \): một tập con của sample space, \( A \subseteq \Omega \).

Ví dụ — tung 1 con xúc xắc 6 mặt:

  • \( \Omega = \{1, 2, 3, 4, 5, 6\} \).
  • Event "ra số chẵn": \( A = \{2, 4, 6\} \).
  • Event "ra số > 4": \( B = \{5, 6\} \).

Với xúc xắc công bằng, mỗi kết quả có xác suất \( \frac{1}{6} \). Khi đó:

\[ P(A) = \frac{|A|}{|\Omega|} = \frac{3}{6} = \frac{1}{2}, \quad P(B) = \frac{2}{6} = \frac{1}{3} \]

Công thức \( P(A) = \frac{|A|}{|\Omega|} \) chỉ đúng khi các kết quả trong \( \Omega \) đồng khả năng (equally likely). Với xúc xắc thiên vị (loaded die), phải gán xác suất riêng cho từng mặt.

Một số phép toán trên event:

  • Giao \( A \cap B \): cả hai cùng xảy ra. Với ví dụ trên: \( A \cap B = \{6\} \).
  • Hợp \( A \cup B \): ít nhất một trong hai xảy ra. \( A \cup B = \{2, 4, 5, 6\} \).
  • Phần bù \( A^c = \Omega \setminus A \): \( A \) không xảy ra. \( A^c = \{1, 3, 5\} \).
  • Mutually exclusive (xung khắc): \( A \cap B = \emptyset \). Không thể xảy ra đồng thời.
4

Tính chất cơ bản của xác suất

Ba tính chất gốc (axiom của Kolmogorov, 1933):

  1. \( P(A) \ge 0 \) với mọi event \( A \).
  2. \( P(\Omega) = 1 \). Toàn bộ sample space chắc chắn xảy ra.
  3. Nếu \( A_1, A_2, \ldots \) đôi một xung khắc thì \( P(A_1 \cup A_2 \cup \ldots) = P(A_1) + P(A_2) + \ldots \) (countable additivity).

Từ 3 axiom trên suy ra các công thức thường dùng:

Xác suất của tập rỗng và phần bù

\[ P(\emptyset) = 0, \quad P(A^c) = 1 - P(A) \]

Nếu xác suất trời mưa hôm nay là 0.3, xác suất không mưa là 0.7. Quy tắc này hay được dùng để "lật ngược" bài toán — đôi khi tính \( P(A^c) \) dễ hơn tính \( P(A) \).

Inclusion-exclusion cho 2 event

\[ P(A \cup B) = P(A) + P(B) - P(A \cap B) \]

Hình dung bằng giản đồ Venn: cộng diện tích 2 vòng tròn rồi trừ đi phần giao đã bị đếm 2 lần. Khi \( A, B \) xung khắc, \( P(A \cap B) = 0 \) nên công thức rút về \( P(A) + P(B) \).

Ví dụ: lớp có 60% biết Python, 40% biết SQL, 25% biết cả hai. Tỉ lệ biết ít nhất 1 ngôn ngữ:

\[ P(\text{Python} \cup \text{SQL}) = 0.6 + 0.4 - 0.25 = 0.75 \]

Monotonicity

Nếu \( A \subseteq B \) thì \( P(A) \le P(B) \). Tập con không thể có xác suất lớn hơn tập chứa nó.

5

Independent events — hai sự kiện độc lập

Hai event \( A \) và \( B \) gọi là độc lập nếu biết \( B \) xảy ra không thay đổi xác suất của \( A \), và ngược lại. Định nghĩa hình thức:

\[ P(A \cap B) = P(A) \cdot P(B) \]

Ví dụ độc lập: tung 2 đồng xu khác nhau. Xác suất cả hai cùng ra mặt ngửa:

\[ P(\text{H}_1 \cap \text{H}_2) = 0.5 \cdot 0.5 = 0.25 \]

Ví dụ không độc lập: rút lần lượt 2 lá bài từ bộ 52 lá mà không trả lại. Xác suất lá thứ 2 là át phụ thuộc vào lá thứ nhất đã rút gì.

Một lưu ý hay gây nhầm lẫn:

  • Xung khắc (mutually exclusive): \( A \cap B = \emptyset \) — không thể cùng xảy ra.
  • Độc lập (independent): \( P(A \cap B) = P(A) P(B) \) — biết cái này không nói gì về cái kia.

Hai khái niệm này khác nhau. Hai event xung khắc với xác suất dương không bao giờ độc lập: nếu bạn biết \( A \) xảy ra, thì chắc chắn \( B \) không xảy ra — đó là phụ thuộc cực mạnh.

Mở rộng: \( n \) event độc lập đôi một (pairwise independent) chưa chắc cùng độc lập (mutually independent). Cần kiểm tra mọi tổ hợp giao. Trong ML giả định conditional independence giữa các feature là nền của Naive Bayes (mục 11).

6

Conditional probability — xác suất có điều kiện

Conditional probability đo lường xác suất \( A \) xảy ra biết rằng \( B \) đã xảy ra, ký hiệu \( P(A \mid B) \). Công thức:

\[ P(A \mid B) = \frac{P(A \cap B)}{P(B)}, \quad \text{với } P(B) > 0 \]

Trực giác: khi biết \( B \) xảy ra, sample space ban đầu \( \Omega \) co lại còn \( B \). Trong sample space mới này, "phần thuộc về \( A \)" chính là \( A \cap B \), và xác suất là tỉ lệ diện tích \( \frac{|A \cap B|}{|B|} \) — đúng nội dung công thức.

Ví dụ xúc xắc: \( A = \{2, 4, 6\} \) (số chẵn), \( B = \{4, 5, 6\} \) (số > 3). Biết đã ra số > 3, xác suất ra số chẵn là?

\[ P(A \mid B) = \frac{P(A \cap B)}{P(B)} = \frac{|\{4, 6\}| / 6}{|\{4, 5, 6\}| / 6} = \frac{2}{3} \]

So sánh với \( P(A) = 0.5 \): biết thêm \( B \) làm xác suất \( A \) tăng lên \( \frac{2}{3} \). Đây là cách bằng chứng cập nhật niềm tin.

Khi \( A \) và \( B \) độc lập, định nghĩa độc lập \( P(A \cap B) = P(A) P(B) \) cho ta:

\[ P(A \mid B) = \frac{P(A) P(B)}{P(B)} = P(A) \]

Biết \( B \) xảy ra không thay đổi xác suất \( A \) — đúng nghĩa "độc lập".

Chain rule (quy tắc nhân): rút từ công thức conditional, ta có \( P(A \cap B) = P(A \mid B) P(B) = P(B \mid A) P(A) \). Mở rộng cho \( n \) event:

\[ P(A_1 \cap A_2 \cap \ldots \cap A_n) = P(A_1) \cdot P(A_2 \mid A_1) \cdot P(A_3 \mid A_1, A_2) \cdots P(A_n \mid A_1, \ldots, A_{n-1}) \]

Chain rule là viên gạch của language model (mục 11): xác suất một câu = tích các \( P(w_t \mid w_{1:t-1}) \).

7

Bayes' theorem

Bayes' theorem cho phép đảo chiều conditional probability:

\[ P(A \mid B) = \frac{P(B \mid A) \cdot P(A)}{P(B)} \]

Tên các thành phần (gắn với inference):

  • \( P(A) \) — prior: niềm tin trước khi có bằng chứng.
  • \( P(B \mid A) \) — likelihood: xác suất quan sát \( B \) nếu \( A \) đúng.
  • \( P(B) \) — evidence (marginal likelihood): xác suất quan sát \( B \) nói chung.
  • \( P(A \mid B) \) — posterior: niềm tin sau khi đã thấy \( B \).

\( P(B) \) thường được khai triển qua law of total probability:

\[ P(B) = P(B \mid A) P(A) + P(B \mid A^c) P(A^c) \]

Ví dụ — test y khoa và "false positive paradox"

Một bệnh có tỉ lệ mắc trong dân số là \( P(D) = 0.001 \) (1 trên 1000 người). Test phát hiện bệnh có:

  • Sensitivity (true positive rate): \( P(+ \mid D) = 0.99 \).
  • Specificity: \( P(- \mid D^c) = 0.99 \), tức false positive rate \( P(+ \mid D^c) = 0.01 \).

Một người ngẫu nhiên đi test và kết quả dương tính. Xác suất họ thật sự mắc bệnh là bao nhiêu?

Tính evidence:

\[ P(+) = P(+ \mid D) P(D) + P(+ \mid D^c) P(D^c) \] \[ = 0.99 \cdot 0.001 + 0.01 \cdot 0.999 = 0.00099 + 0.00999 = 0.01098 \]

Áp Bayes:

\[ P(D \mid +) = \frac{P(+ \mid D) P(D)}{P(+)} = \frac{0.99 \cdot 0.001}{0.01098} \approx 0.0902 \]

Chỉ ~9%. Test "99% chính xác" cho kết quả dương tính, nhưng do bệnh hiếm (prior thấp), khả năng thực sự mắc bệnh vẫn dưới 1/10. Nguồn của hiểu lầm phổ biến: trong 100,000 người, khoảng 100 người mắc bệnh, ~99 trong số đó test dương; 99,900 người khoẻ, ~999 trong số đó test dương "nhầm". Tổng dương tính ~1098, chỉ 99 thật → ~9%.

Bài học: prior nhỏ thì kết quả test, dù chính xác cao, vẫn cần được diễn giải cẩn thận. Đây là lý do bác sĩ thường yêu cầu test xác nhận (confirmatory test) sau test sàng lọc đầu tiên — mỗi lần test cập nhật posterior.

8

Joint, marginal, conditional — bảng minh hoạ

Khi xét nhiều biến cùng lúc, ta có 3 loại xác suất:

  • Joint: \( P(A, B) = P(A \cap B) \) — xác suất cả hai cùng xảy ra.
  • Marginal: \( P(A) \) — xác suất \( A \), bất kể \( B \). Tính bằng tổng theo hàng / cột bảng joint.
  • Conditional: \( P(A \mid B) = \frac{P(A, B)}{P(B)} \).

Ví dụ — dataset 1000 email phân loại theo "có chứa từ free" và "spam / không spam". Bảng joint:

                     | spam   | not spam |  marginal (free)
---------------------|--------|----------|----------------
chứa "free"          | 0.200  | 0.050    |  0.250
không chứa "free"    | 0.100  | 0.650    |  0.750
---------------------|--------|----------|----------------
marginal (spam)      | 0.300  | 0.700    |  1.000

Đọc bảng:

  • Joint: \( P(\text{free}, \text{spam}) = 0.200 \). Trong 1000 email, 200 email vừa có "free" vừa là spam.
  • Marginal: \( P(\text{spam}) = 0.300 \) (cộng cột spam), \( P(\text{free}) = 0.250 \) (cộng hàng free).
  • Conditional — biết email chứa "free", xác suất là spam: \[ P(\text{spam} \mid \text{free}) = \frac{0.200}{0.250} = 0.80 \]
  • Conditional theo chiều ngược lại — biết email là spam, xác suất chứa "free": \[ P(\text{free} \mid \text{spam}) = \frac{0.200}{0.300} \approx 0.667 \]

Hai conditional này khác nhau, và sự khác biệt giữa chúng chính là nội dung Bayes' theorem. Một classifier spam ngây thơ có thể nhân nhiều likelihood kiểu \( P(\text{free} \mid \text{spam}) \cdot P(\text{win} \mid \text{spam}) \cdots \) với prior \( P(\text{spam}) \) — đó là Naive Bayes (mục 11).

9

Random variable — preview

Một random variable (biến ngẫu nhiên) là một hàm gán mỗi kết quả trong \( \Omega \) một số thực:

\[ X : \Omega \to \mathbb{R} \]

Ví dụ — tung 2 đồng xu, đếm số mặt ngửa. \( X(\text{HH}) = 2, X(\text{HT}) = 1, X(\text{TH}) = 1, X(\text{TT}) = 0 \). Phân phối của \( X \):

x    : 0     1     2
P(X) : 0.25  0.50  0.25

Có 2 loại random variable:

  • Discrete: nhận giá trị trong một tập đếm được, vd 0, 1, 2, ... Mô tả bằng probability mass function (PMF): \( p(x) = P(X = x) \). Tổng PMF \( = 1 \).
  • Continuous: nhận giá trị trong một khoảng liên tục (ví dụ chiều cao, thời gian). Mô tả bằng probability density function (PDF) \( f(x) \). Tích phân của PDF \( = 1 \). \( P(X = x) = 0 \) cho mọi điểm; chỉ \( P(a \le X \le b) = \int_a^b f(x) dx \) có nghĩa.

Phân phối chuẩn ở Bài 23 là một continuous distribution với PDF dạng hình chuông. Phân phối Bernoulli (1 phép tung đồng xu) là discrete đơn giản nhất.

10

Expected value — preview

Expected value (kỳ vọng) là "trung bình theo trọng số xác suất" của random variable. Với discrete:

\[ E[X] = \sum_{i} x_i \, P(X = x_i) \]

Với continuous: \( E[X] = \int_{-\infty}^{\infty} x f(x) dx \) (sẽ dùng ở các bài tích phân sau).

Ví dụ với \( X \) = số mặt ngửa khi tung 2 đồng xu:

\[ E[X] = 0 \cdot 0.25 + 1 \cdot 0.50 + 2 \cdot 0.25 = 1 \]

Trung bình ra 1 mặt ngửa mỗi lần tung 2 đồng xu — khớp trực giác.

Vì sao expected value quan trọng cho ML:

  • Loss function trên dataset thực chất là empirical expectation: \( \frac{1}{N} \sum_i L(y_i, \hat{y}_i) \approx E[L] \).
  • Trong reinforcement learning, mục tiêu là tối đa expected return \( E[\sum_t r_t] \).
  • Variance ở Bài 22 cũng định nghĩa qua expectation: \( \text{Var}(X) = E[(X - E[X])^2] \).

Tính chất hay dùng: linearity of expectation:

\[ E[aX + bY] = a E[X] + b E[Y] \]

Đúng cả khi \( X \) và \( Y \) phụ thuộc — đây là điều ít người nhớ và sẽ gặp lại nhiều ở các chứng minh ML.

11

Use case trong AI / ML

Naive Bayes classifier

Dự đoán class \( C \) từ vector feature \( \mathbf{x} = (x_1, \ldots, x_n) \) bằng Bayes:

\[ P(C \mid \mathbf{x}) = \frac{P(\mathbf{x} \mid C) P(C)}{P(\mathbf{x})} \]

Giả định "naive": các feature độc lập có điều kiện với class, nên \( P(\mathbf{x} \mid C) = \prod_i P(x_i \mid C) \). Mẫu spam filter, sentiment classifier kinh điển dùng cách này. Khi prior \( P(\mathbf{x}) \) bằng nhau cho mọi class, ta chỉ cần so sánh tử số. Implementation tại sklearn.naive_bayes.MultinomialNB trong scikit-learn 1.x.

Softmax — phân phối xác suất trên các class

Lớp cuối của classifier neural network thường là softmax: cho vector logits \( \mathbf{z} = (z_1, \ldots, z_K) \), output là phân phối xác suất trên \( K \) class:

\[ P(y = k \mid \mathbf{x}) = \frac{e^{z_k}}{\sum_{j=1}^{K} e^{z_j}} \]

Tổng các \( P(y = k) = 1 \), thoả tính chất của xác suất. Cross-entropy loss đo "khoảng cách" giữa phân phối dự đoán và phân phối ground truth (one-hot).

Language model — conditional probability trên token

Một autoregressive language model (GPT, Llama) học hàm xác suất:

\[ P(w_t \mid w_1, w_2, \ldots, w_{t-1}) \]

Xác suất một câu là tích các conditional theo chain rule (mục 6):

\[ P(w_1, \ldots, w_T) = \prod_{t=1}^{T} P(w_t \mid w_{1:t-1}) \]

Khi generate, mô hình lấy mẫu từ \( P(w_t \mid \cdot) \) — đó là lý do temperature, top-k, top-p sampling đều thao tác trên cùng một phân phối xác suất.

Bayesian deep learning (mention)

Thay vì học một bộ weight cố định, Bayesian neural network học một phân phối trên weight, dùng Bayes để cập nhật. Ưu điểm: cho ra uncertainty kèm prediction. Nhược điểm: tốn tài nguyên hơn. Đại diện hiện nay là MC Dropout (Gal & Ghahramani, 2016, arXiv:1506.02142) và variational inference.

RLHF — sample từ policy distribution

Trong RLHF (Reinforcement Learning from Human Feedback), policy của LLM là một phân phối xác suất trên token (chính là softmax ở trên). Quá trình PPO (Schulman et al., 2017, arXiv:1707.06347) tối ưu kỳ vọng reward \( E_{\pi}[r] \) — kỳ vọng lấy theo phân phối \( \pi \) sinh ra từ model. Cốt lõi là expected value ở mục 10.

12

Code Python — Monte Carlo ước lượng pi

Monte Carlo là họ phương pháp ước lượng đại lượng bằng cách lấy mẫu ngẫu nhiên và đếm. Khi không có công thức kín, ta dựa vào luật số lớn: tần suất xấp xỉ xác suất khi \( N \) đủ lớn.

Bài toán: ước lượng \( \pi \). Xét hình vuông \( [-1, 1] \times [-1, 1] \) (diện tích 4) và hình tròn đơn vị nội tiếp (diện tích \( \pi \)). Tỉ lệ:

\[ \frac{\text{diện tích hình tròn}}{\text{diện tích hình vuông}} = \frac{\pi}{4} \]

Nếu lấy mẫu \( N \) điểm đều trong hình vuông, gọi \( M \) là số điểm rơi vào hình tròn (\( x^2 + y^2 \le 1 \)), thì:

\[ \frac{M}{N} \to \frac{\pi}{4} \quad \Rightarrow \quad \pi \approx 4 \cdot \frac{M}{N} \]

import random


def estimate_pi(n_samples: int, seed: int = 42) -> float:
    rng = random.Random(seed)
    inside = 0
    for _ in range(n_samples):
        x = rng.uniform(-1.0, 1.0)
        y = rng.uniform(-1.0, 1.0)
        if x * x + y * y <= 1.0:
            inside += 1
    return 4.0 * inside / n_samples


for n in [1_000, 10_000, 100_000, 1_000_000]:
    pi_hat = estimate_pi(n)
    print(f"N = {n:>9_}  →  pi ≈ {pi_hat:.5f}")

Một lần chạy mẫu:

N =     1_000  →  pi ≈ 3.18400
N =    10_000  →  pi ≈ 3.14920
N =   100_000  →  pi ≈ 3.14216
N = 1_000_000  →  pi ≈ 3.14154

Sai số giảm theo \( O(1/\sqrt{N}) \) — đặc trưng của Monte Carlo. Tăng độ chính xác thêm 1 chữ số cần tăng \( N \) lên 100 lần.

Cùng ý tưởng dùng để:

  • Tính tích phân khó \( \int f(x) dx \) (Monte Carlo integration).
  • Sampling từ phân phối phức tạp trong Bayesian inference (MCMC: Metropolis-Hastings, Gibbs).
  • Mô phỏng đánh giá rủi ro tài chính, vật lý hạt.

Lưu ý: random.Random(seed) cho phép tái lập kết quả. Cùng seed → cùng dãy số → cùng output. Trong NumPy có numpy.random.default_rng(seed), nhanh hơn nhiều cho \( N \) lớn (Bài 31 sẽ chuyển sang).

13

Bài tập

  1. Medical test (Bayes). Một bệnh có prior \( P(D) = 0.02 \). Test có sensitivity \( P(+ \mid D) = 0.95 \) và specificity \( P(- \mid D^c) = 0.90 \). Một người test dương tính. Tính \( P(D \mid +) \).
  2. Rút bài. Rút lần lượt 2 lá từ bộ 52 lá (không trả lại). Tính xác suất cả 2 lá đều là át bằng:
    • Cách dùng conditional: \( P(A_2 \mid A_1) P(A_1) \).
    • Cách đếm: \( \frac{C(4, 2)}{C(52, 2)} \). So sánh hai kết quả.
  3. Inclusion-exclusion. Trong lớp 50 sinh viên: 30 thích PyTorch, 25 thích TensorFlow, 10 thích cả hai. Có bao nhiêu sinh viên không thích cả hai?
  4. Conditional bằng tay. Tung 2 xúc xắc. Cho \( S \) = tổng 2 mặt. Tính \( P(S = 7 \mid \text{xúc xắc thứ nhất ra 3}) \) và so sánh với \( P(S = 7) \) không điều kiện. Hai giá trị có bằng nhau không, vì sao?
  5. Expected value. Một xổ số: vé giá 10k, xác suất trúng 100k là 0.05, xác suất trúng 50k là 0.10, còn lại không trúng. Expected return mỗi vé là bao nhiêu? Có nên mua không?
  6. Code Monte Carlo. Sửa hàm estimate_pi để chỉ lấy mẫu trong góc phần tư thứ nhất \( [0, 1]^2 \). Tỉ số diện tích thay đổi thế nào? Công thức ước lượng \( \pi \) cập nhật ra sao?
Đáp án ngắn
  1. \( P(+) = 0.95 \cdot 0.02 + 0.10 \cdot 0.98 = 0.019 + 0.098 = 0.117 \). \( P(D \mid +) = 0.019 / 0.117 \approx 0.162 \). Chỉ ~16% — false positive paradox vẫn xảy ra dù prior cao hơn ví dụ trong bài.
  2. \( P(A_1) = 4/52 \), \( P(A_2 \mid A_1) = 3/51 \) → tích \( = 12/2652 = 1/221 \). \( C(4,2)/C(52,2) = 6/1326 = 1/221 \). Khớp.
  3. \( |P \cup T| = 30 + 25 - 10 = 45 \). Không thích cả hai: \( 50 - 45 = 5 \) sinh viên.
  4. Biết xúc xắc 1 ra 3, để tổng = 7 thì xúc xắc 2 phải ra 4. \( P = 1/6 \). \( P(S=7) \) không điều kiện cũng \( = 6/36 = 1/6 \). Bằng nhau — biết kết quả xúc xắc thứ nhất không thay đổi xác suất tổng = 7 (đặc điểm riêng của số 7, không đúng với tổng khác).
  5. \( E[\text{thu}] = 0.05 \cdot 100 + 0.10 \cdot 50 + 0.85 \cdot 0 = 10 \) (nghìn). Giá vé cũng 10k → expected net = 0. Game fair (về kỳ vọng); thực tế xổ số luôn có rake nên expected net < 0.
  6. Góc phần tư thứ nhất: hình vuông diện tích 1, phần tư hình tròn diện tích \( \pi/4 \). Tỉ số vẫn \( \pi / 4 \), nên công thức không đổi: \( \pi \approx 4 M / N \). Chỉ thay uniform(-1, 1) thành uniform(0, 1).
14

Tóm tắt

  • Xác suất \( P(A) \in [0, 1] \) gắn với sample space \( \Omega \) và event \( A \subseteq \Omega \).
  • Tính chất gốc: \( P(\Omega) = 1 \), \( P(\emptyset) = 0 \), \( P(A^c) = 1 - P(A) \), \( P(A \cup B) = P(A) + P(B) - P(A \cap B) \).
  • Independent: \( P(A \cap B) = P(A) P(B) \). Khác xung khắc (\( A \cap B = \emptyset \)).
  • Conditional: \( P(A \mid B) = \frac{P(A \cap B)}{P(B)} \). Là cơ sở của chain rule và language model.
  • Bayes: \( P(A \mid B) = \frac{P(B \mid A) P(A)}{P(B)} \). Prior + likelihood → posterior. Cẩn trọng với prior thấp (false positive paradox).
  • Joint / marginal / conditional liên hệ qua \( P(A, B) \), \( P(A) = \sum_B P(A, B) \), \( P(A \mid B) = P(A, B) / P(B) \).
  • Random variable discrete có PMF, continuous có PDF. Expected value \( E[X] = \sum x_i P(X = x_i) \).
  • Use case: Naive Bayes, softmax output, language model autoregressive, Bayesian deep learning, RLHF.
  • Monte Carlo: ước lượng đại lượng bằng tần suất, sai số \( O(1/\sqrt{N}) \).