MAT2323 - Xác suất - Thống kê - Ôn tập (Chương 2)
Sách: Mở đầu về lí thuyết Xác suất và Các ứng dụng
Tác giả: Đặng Hùng Thắng
Mục lục
Chương II: Đại lượng ngẫu nhiên rời rạc
Ta nói một đại lượng ngẫu nhiên là rời rạc nếu như ta có thể đếm được tập giá trị của nó. Tập giá trị của ĐLNN $ X $ được kí hiệu $ X(\Omega) $. Ví dụ: xúc xắc, đồng xu, bộ bài.
Bài 1: Phân bố xác suất và hàm phân bố (tr. 42)
Phân bố xác suất:
Phân bố xác xuất của $ X $ có thể là một bảng:
$X$ | $x_1$ | $x_2$ | $ \ldots $ | $x_n$ |
---|---|---|---|---|
$P$ | $p_1$ | $p_2$ | $ \ldots $ | $p_n$ |
Mà $ p_i = P(X = x_i) $. Lưu ý: $ \sum_{i=1}^n p_i = 1 $.
Có được phân bố xác suất của $ X $ thì coi như ta có toàn bộ thông tin về $ X $.
Hàm phân bố:
Hàm phân bố của $X$ được xác định bởi:
\[F(x) = P(X < x)\]Lưu ý rằng:
- $F(x)$ là xác suất tích lũy, tức là tổng các xác suất $P(X = x_i)$ của tất cả các giá trị nhỏ hơn $x$.
- $F(x)$ là một hàm bậc thang, chỉ tăng tại các điểm mà $X$ có thể nhận giá trị.
Cụ thể, ta có:
\[F(x) = \begin{cases} 0, & \text{nếu } x \le x_1 \\ p_1 + p_2 + \dots + p_{k-1}, & \text{nếu } x_{k-1} < x \leq x_k \\ 1, & \text{nếu } x > x_k \end{cases}\]
Trong đó:
- Khi $x \leq x_1$, không có giá trị nào của $X$ nhỏ hơn $x$, nên $F(x) = 0$.
- Khi $x_{k-1} < x \leq x_k$, hàm phân bố bằng tổng xác suất của tất cả các giá trị trước đó.
- Khi $x > x_k$, tất cả các giá trị có thể của $X$ đã được tính hết, nên $F(x) = 1$.
Hàm này giúp ta nhanh chóng tính các xác suất dạng $P(a < X \leq b) = F(b) - F(a)$.
Bài 2: Kì vọng, phương sai và các đặc trưng của đại lượng ngẫu nhiên (tr. 46)
Ta xét các tham số đặc trưng của một ĐLNN:
1. Kỳ vọng (Expectation) $E(X)$:
Kỳ vọng của một biến ngẫu nhiên $ X $ là giá trị trung bình mà ta mong đợi từ $ X $ nếu thực hiện nhiều lần thí nghiệm.
- Với biến ngẫu nhiên rời rạc có các giá trị $ x_i $ với xác suất tương ứng $ P(X = x_i) $:
\(E(X) = \sum x_i P(X = x_i)\) - Với biến ngẫu nhiên liên tục có hàm mật độ xác suất $ f(x) $:
\(E(X) = \int_{-\infty}^{\infty} x f(x) dx\)
Kỳ vọng có thể xem là trung bình lý thuyết của biến ngẫu nhiên $ X $.
Ví dụ: Nếu gieo một con xúc xắc cân đối, ta có:
\(E(X) = \sum_{i=1}^{6} i \cdot \frac{1}{6} = \frac{1+2+3+4+5+6}{6} = 3.5.\)
2. Mode (Chế độ - Giá trị xuất hiện nhiều nhất):
Mode của một phân phối xác suất là giá trị xuất hiện với xác suất cao nhất.
- Với dữ liệu rời rạc: Mode là giá trị có tần suất cao nhất.
- Với dữ liệu liên tục: Mode là điểm cực đại của hàm mật độ xác suất $ f(x) $.
Ví dụ: Trong bộ số ${2, 3, 3, 4, 4, 4, 5, 6}$, Mode = 4 vì 4 xuất hiện nhiều nhất.
3. Phương sai (Variance) $ \text{Var}(X) $:
Phương sai đo lường mức độ phân tán của dữ liệu quanh giá trị kỳ vọng.
- Định nghĩa:
\(\text{Var}(X) = E[(X - E(X))^2] \\\) Công thức triển khai: \(\text{Var}(X) = E(X^2) - [E(X)]^2.\) - Nếu $ \text{Var}(X) $ lớn → dữ liệu phân tán rộng.
- Nếu $ \text{Var}(X) $ nhỏ → dữ liệu tập trung gần giá trị trung bình.
Ví dụ: Nếu $ X $ là giá trị xúc xắc, ta có: \(E(X^2) = \sum_{i=1}^{6} i^2 \cdot \frac{1}{6} = \frac{1+4+9+16+25+36}{6} = \frac{91}{6}.\) \(\text{Var}(X) = \frac{91}{6} - (3.5)^2 = \frac{35}{12} \approx 2.92.\)
4. Moment (Momen thống kê):
Moment là một đại lượng giúp mô tả hình dạng của phân bố xác suất.
- Moment cấp $ k $ của $ X $ quanh gốc (Moment tuyệt đối):
\(E(X^k)\) - Moment cấp $ k $ quanh giá trị kỳ vọng (Moment trung tâm):
\(E[(X - E(X))^k]\)
Các moment quan trọng:
- Moment cấp 1: $ E(X) $ (kỳ vọng).
- Moment cấp 2: $ E[(X - E(X))^2] = \text{Var}(X) $ (phương sai).
- Moment cấp 3, 4 được dùng để tính hệ số bất đối xứng và hệ số nhọn.
5. Hệ số bất đối xứng (Skewness) $ S $:
Hệ số bất đối xứng đo lường mức độ lệch của phân phối so với trung tâm.
\[S = \frac{E[(X - E(X))^3]}{\text{Var}(X)^{3/2}}\]- $ S = 0 $: Phân phối đối xứng.
- $ S > 0 $: Phân phối lệch phải (đuôi phải dài hơn).
- $ S < 0 $: Phân phối lệch trái (đuôi trái dài hơn).
Ví dụ:
- Thu nhập của dân số thường có skewness dương (nhiều người thu nhập thấp, một số rất giàu).
- Điểm thi có thể có skewness âm nếu nhiều người điểm cao hơn trung bình.
6. Hệ số nhọn (Kurtosis) $ K $:
Hệ số nhọn đo độ bẹt hay nhọn của phân phối so với phân phối chuẩn.
\[K = \frac{E[(X - E(X))^4]}{\text{Var}(X)^2}\]- $ K = 3 $: Phân phối chuẩn.
- $ K > 3 $: Phân phối nhọn hơn chuẩn (leptokurtic - có đỉnh cao và đuôi dài).
- $ K < 3 $: Phân phối bẹt hơn chuẩn (platykurtic - có đỉnh thấp và đuôi ngắn).
Ví dụ:
- Phân phối chuẩn có $ K = 3 $.
- Phân phối của giá cổ phiếu có thể có kurtosis cao do có nhiều biến động lớn.
Bài 3: Phân bố đồng thời và hệ số tương quan (tr. 50)
Biểu đồ phân bố đồng thời của hai xúc xắc
XX1 \ XX2 | 1 | 2 | 3 | 4 | 5 | 6 |
---|---|---|---|---|---|---|
1 | 1,1 | 1,2 | 1,3 | 1,4 | 1,5 | 1,6 |
2 | 2,1 | 2,2 | 2,3 | 2,4 | 2,5 | 2,6 |
3 | 3,1 | 3,2 | 3,3 | 3,4 | 3,5 | 3,6 |
4 | 4,1 | 4,2 | 4,3 | 4,4 | 4,5 | 4,6 |
5 | 5,1 | 5,2 | 5,3 | 5,4 | 5,5 | 5,6 |
6 | 6,1 | 6,2 | 6,3 | 6,4 | 6,5 | 6,6 |
Công thức lý thuyết
-
Kỳ vọng của hai biến ngẫu nhiên $X, Y$:
\(E[X] = \sum_{i} x_i P(X = x_i), \quad E[Y] = \sum_{j} y_j P(Y = y_j)\) -
Hiệp phương sai (Covariance):
\(\text{Cov}(X, Y) = E[(X - E[X])(Y - E[Y])]\) \(= E[XY] - E[X]E[Y]\) -
Hệ số tương quan (Correlation coefficient):
\(\rho_{X,Y} = \frac{\text{Cov}(X,Y)}{\sigma_X \sigma_Y}\)
với
\(\sigma_X = \sqrt{E[X^2] - (E[X])^2}, \quad \sigma_Y = \sqrt{E[Y^2] - (E[Y])^2}\)
Tính toán trên bảng phân bố đồng thời của hai xúc xắc
- Biến ngẫu nhiên $X, Y$ có phân phối đồng đều trên $\{1,2,3,4,5,6\}$
- Mỗi giá trị xảy ra với xác suất $\frac{1}{6}$ độc lập
- Tính kỳ vọng:
\(E[X] = E[Y] = \sum_{i=1}^{6} i \times \frac{1}{6} = \frac{1+2+3+4+5+6}{6} = 3.5\) - Tính kỳ vọng tích:
\(E[XY] = \sum_{i=1}^{6} \sum_{j=1}^{6} (i \cdot j) P(X = i, Y = j)\)
\(= \sum_{i=1}^{6} \sum_{j=1}^{6} (i \cdot j) \times \frac{1}{36}\)
\(= \frac{1}{36} \sum_{i=1}^{6} i \sum_{j=1}^{6} j\)
\(= \frac{1}{36} \times \left( \frac{6(7)}{2} \times \frac{6(7)}{2} \right) = \frac{1225}{36} \approx 12.25\) - Tính hiệp phương sai:
\(\text{Cov}(X, Y) = E[XY] - E[X]E[Y] = 12.25 - (3.5 \times 3.5) = 0\) - Tính độ lệch chuẩn:
\(\sigma_X = \sigma_Y = \sqrt{\frac{1}{6} \sum_{i=1}^{6} i^2 - 3.5^2}\)
\(= \sqrt{\frac{1}{6} \times \frac{6(7)(13)}{6} - 3.5^2}\)
\(= \sqrt{\frac{91}{6} - 12.25} = \sqrt{2.9167} \approx 1.71\) - Hệ số tương quan:
\(\rho_{X,Y} = \frac{\text{Cov}(X,Y)}{\sigma_X \sigma_Y} = \frac{0}{1.71 \times 1.71} = 0\)
Kết luận
Hai xúc xắc tung độc lập nên covariance bằng 0, chứng tỏ chúng không có sự phụ thuộc tuyến tính.
Bài 4: Hàm của hai đại lượng ngẫu nhiên (tr. 56)
Hàm của hai đại lượng ngẫu nhiên:
\[X(\Omega) = \{ x_1, x_2, \ldots, x_m \} \\ Y(\Omega) = \{ y_1, y_2, \ldots, y_n \} \\ \text{Khi đó:} \\ Z(\Omega) = \{ \phi(x_i, y_j) \}_{i=1,\ldots,m ; j=1,\ldots, n}\]
Bài 5: Phân bố có điều kiện và kì vọng có điều kiện (tr. 59)
Phân bố có điều kiện:
-
Nếu $X$ và $Y$ là các biến ngẫu nhiên rời rạc, phân bố có điều kiện của $Y$ khi biết $X = x$ bao gồm toàn bộ các giá trị $y$ có thể có, với xác suất được xác định bởi:
\[P(Y = y \mid X = x) = \frac{P(X = x, Y = y)}{P(X = x)}\]với điều kiện $P(X = x) > 0$.
-
Nếu $X$ và $Y$ là các biến liên tục có hàm mật độ xác suất chung $f_{X,Y}(x,y)$, thì phân bố có điều kiện của $Y$ khi biết $X = x$ có mật độ:
\[f_{Y \mid X}(y \mid x) = \frac{f_{X,Y}(x,y)}{f_X(x)}\]với $f_X(x)$ là hàm mật độ biên của $X$.
Kỳ vọng có điều kiện:
Kỳ vọng có điều kiện của $ Y $ khi biết $ X $ (kí hiệu: $ E[Y \mid X] $) là giá trị trung bình của $ Y $ với một giá trị cố định của $ X $.
-
Với $ X, Y $ rời rạc:
\(E[Y \mid X = x] = \sum_{y} y P(Y = y \mid X = x)\) -
Với $ X, Y $ liên tục:
\(E[Y \mid X = x] = \int_{-\infty}^{\infty} y f_{Y \mid X}(y \mid x) \, dy\)