Tài liệu Không gian xác suất: 1không gian xác suất
A.- Biến cố ngẫu nhiên
1.- Khái niệm: Trong vô số các hiện t−ợng xảy ra chung quanh, ta có thể phân biệt
thành hai loại:
a) Hiện t−ợng tất yếu: là hiện t−ợng mà nếu đ−ợc thực hiện trong cùng một điều kiện
nh− nhau thì chúng cho các kết quả giống nhau.
b) Hiện t−ợng ngẫu nhiên: là hiện t−ợng mà dù đ−ợc thực hiện trong cùng một điều
kiện chúng vẫn cho các kết quả khác nhau.
Ví dụ:
• Gieo một đồng xu, kết quả sấp hay ngữa là hiện t−ợng ngẫu nhiên,
• Khi gieo một con xúc sắc, số nốt xuất hiện ở mặt trên của nó là một hiện
t−ợng ngẫu nhiên.
Đối t−ợng nghiên cứu của lý thuyết xác suất là các biến cố ngẫu nhiên, do vậy
ta cần trang bị cho chúng một cấu trúc toán học thích hợp. Đó là đại số các biến
cố ngẫu nhiên.
Ta sẽ luôn coi rằng các biến cố trong một đại số các biến cố đều có liên quan
tới kết quả của một "phép thử" nào đó. ở đây "phép thử" đ−ợc hiểu là sự thực hiện
một số điều kiện nhất định.
Mỗi phép thử gắn với một tập hợp các kết quả có thể xảy r...
86 trang |
Chia sẻ: honghanh66 | Lượt xem: 1340 | Lượt tải: 0
Bạn đang xem trước 20 trang mẫu tài liệu Không gian xác suất, để tải tài liệu gốc về máy bạn click vào nút DOWNLOAD ở trên
1không gian xác suất
A.- Biến cố ngẫu nhiên
1.- Khái niệm: Trong vô số các hiện t−ợng xảy ra chung quanh, ta có thể phân biệt
thành hai loại:
a) Hiện t−ợng tất yếu: là hiện t−ợng mà nếu đ−ợc thực hiện trong cùng một điều kiện
nh− nhau thì chúng cho các kết quả giống nhau.
b) Hiện t−ợng ngẫu nhiên: là hiện t−ợng mà dù đ−ợc thực hiện trong cùng một điều
kiện chúng vẫn cho các kết quả khác nhau.
Ví dụ:
• Gieo một đồng xu, kết quả sấp hay ngữa là hiện t−ợng ngẫu nhiên,
• Khi gieo một con xúc sắc, số nốt xuất hiện ở mặt trên của nó là một hiện
t−ợng ngẫu nhiên.
Đối t−ợng nghiên cứu của lý thuyết xác suất là các biến cố ngẫu nhiên, do vậy
ta cần trang bị cho chúng một cấu trúc toán học thích hợp. Đó là đại số các biến
cố ngẫu nhiên.
Ta sẽ luôn coi rằng các biến cố trong một đại số các biến cố đều có liên quan
tới kết quả của một "phép thử" nào đó. ở đây "phép thử" đ−ợc hiểu là sự thực hiện
một số điều kiện nhất định.
Mỗi phép thử gắn với một tập hợp các kết quả có thể xảy ra. với mỗi biến cố
thuộc đại số các biến cố ta phải khẳng định đ−ợc rằng: khi một kết quả nào đó của
phép thử đ−ợc thực hiện nó xảy ra hay không xảy ra.
Giả Sử A,B,C, ... là các biến cố ngẫu nhiên có liên quan tới kết quả của một
phép thử F nào đó.
• Ta nói A,B là đồng nhất, và viết A = B, nếu với mỗi kết quả có thể của phép
thử chúng cùng xảy ra hoặc cùng không xảy ra.
• Sự không xuất hiện của A đ−ợc xem là sự xuất hiện của biến cố đối A, ký
hiệu Ac, hay A.
• Sự xuất hiện đồng thời hai biến cố A,B đ−ợc coi là sự xuất hiện của biến cố
giao A giao B, ký hiệu A ∩B hay A.B.
• Sự không thể xuất hiện đ−ợc coi là một biến cố, gọi là biến cố không thể có
hay không, ký hiệu là ∅ hay V .
• A,B gọi là xung khắc nếu AB = ∅.
• Sự xuất hiện ít nhất một trong hai biến cố A,B đ−ợc coi là sự xuất hiện của
biến cố hợp A hợp B, ký hiệu A ∪B. Khi A.B = ∅ ta viết A+B thay A ∪B .
• Sự chắc chắn xuất hiện đ−ợc coi là một biến cố, gọi là biến cố chắc chắn, ký
hiệu Ω.
This lesson was typed by pdfLATEX
2• Ta định nghĩa A \B = A.Bc.
• Nếu sự xuất hiện của A kéo theo sự xuất hiện của B thì ta nói A kéo theo B,
ký hiệu A ⊂ B.
• Ta nói họ biến cố {B1, B2, ..., Bn} là đầy đủ nếu chúng từng đôi một xung
khắc và
n∑
i=1
Bi = Ω.
2.- Một số tính chất:
1. Nếu A = B thì B = A; A.A = A
2. (Ac)c = A;A.Ac = ∅
3. A.B = B.A; (A.B).C = A(B.C)
4. A ∪B = B ∪ A; (A ∪B) ∪ C = A ∪ (B ∪ C)
5. A+ Ac = Ω, do đó Ac = Ω \ A
6. A = B ⇐⇒ A ⊂ B và B ⊂ A
7. A ⊂ B ⇐⇒ Bc ⊂ Ac
8. A ∪ (B.C) = (A ∪B).(A ∪ C)
9. A.(B ∪ C) = A.B ∪ A.C
10. (A.B)c = Ac ∪Bc; (A ∪B)c = Ac.Bc
11. A ∪B = A+B.Ac
...
Việc chứng minh các tính chất trên đơn giản, chỉ cần áp dụng định nghĩa và các
qui tắc lôgic.
Chú ý: Từ các tính chất 3. 4. suy ra các phép toán lấy giao, hợp có thể mở rộng
cho họ hữu hạn các biến cố ngẫu nhiên. Các hệ thức trong 10. có thể mở rộng
thành: (
n⋂
i=1
Ai
)c
=
n⋃
i=1
Ai
c;
(
n⋃
i=1
Ai
)c
=
n⋂
i=1
Ai
c
Ví dụ: Xét phép thử F: gieo đồng thời hai xúc sắc đều, đồng chất. Gọi A,B,C,D,E
là các biến cố ngẫu nhiên liên quan đ−ợc xác định nh− sau:
A: "Tổng số nốt xuất hiện trên hai xúc sắc là số chẵn"
B: "Tổng số nốt xuất hiện trên hai xúc sắc là số lẻ"
C: "Số nốt xuất hiện trên mỗi xúc sắc là số lẻ"
D: "Số nốt xuất hiện trên mỗi xúc sắc là số chẵn"
E: "Số nốt xuất hiện trên hai xúc sắc cùng lẻ hoặc cùng chẵn".
Khi đó ta có các hệ thức (dễ dàng kiểm tra đ−ợc): A = E;Ac = B;A.B =
∅;A = C +D;D ⊂ A; ...
3.- Định nghĩa đại số và σ đại số:
This lesson was typed by pdfLATEX
3Tập A các phần tử tùy ý A,B,C, ... đ−ợc gọi là một đại số Boole hay một
tr−ờng khi các điều kiện sau đ−ợc thực hiện:
1. Ω ∈A.
2. A ∈A =⇒ Ac ∈A.
3. Ak ∈A =⇒ n⋃
k=1
Ak ∈A.
Nhận xét: Trong đại số, các phép toán lấy giao (tích), hợp thực hiện đ−ợc với một
số hữu hạn phần tử.
• Đại số Boole đ−ợc gọi là σ đại số (σ tr−ờng) nếu nó đóng kín với phép lấy
hợp đếm đ−ợc hay với phép giao đếm đ−ợc.
• Giả sử C là một đại số, σ đại số nhỏ nhất chứa C đ−ợc gọi là σ đại số sinh
bởi C, ký hiệu σ(C).
Ví dụ:
1) Tập hợp các kết quả có thể có liên quan tới một phép thử với cách xác định
biến cố đối, giao các biến cố, hợp các biến cố, biến cố không thể có, biến cố chắc
chắn nh− trên, lập nên một đại số Boole (dễ dàng kiểm tra). Nó đ−ợc gọi là đại số
các biến cố.
2) Giả sử Ω là tập khác rỗng, ký hiệu C(Ω) là lớp mọi tập con của Ω. Với các
phép toán tập hợp đã biết (lấy giao, hợp, phần bù) cùng với tập rỗng, C(Ω) lập nên
một đại số Boole.
3) Giả sử A ⊂ Ω,Ω 6= ∅. Xét lớp CA = {∅,Ω, A,Ac} với các phép toán tập hợp
thông th−ờng CA tạo nên một σ- đại số.
4.- Liên hệ giữa đại số các biến cố và đại số các tập hợp:
Mối liên hệ nầy đ−ợc thể hiện qua định lý Stone d−ới đây:
Định lý: Mỗi đại số các biến cố có một đại số các tập hợp đẳng cấu với nó.
• Một biến cố A đ−ợc gọi là phức hợp nếu nó có thể biểu diễn d−ới dạng hợp
hai biến cố không đồng nhất với nó.
• Một biến cố A không phải là phức hợp đ−ợc gọi là biến cố sơ cấp.
Từ các kết quả trên ta suy ra: một biến cố phức hợp có thể xuất hiện theo nhiều
cách khác nhau. Một biến cố sơ cấp chỉ xuất hiện theo một cách duy nhất. Các
biến cố sơ cấp thì xung khắc nhau.
Trong đại số các biến cố, mỗi biến cố ngẫu nhiên biểu diễn đ−ợc d−ới dạng
tổng một số hữu hạn các biến cố sơ cấp một cách duy nhất. Nh− vậy một biến cố
A ứng với một tập các biến cố sơ cấp mà sự xuất hiện của mỗi biến cố nầy kéo
theo sự xuất hiện của A. Chúng đ−ợc gọi là các biến cố thích hợp với A. T−ơng
ứng nầy bảo tồn các phép toán trongA; biến cố "không thể có" ứng với tập rỗng
∅. Biến cố "chắc chắn" Ω ứng với tập tất cả các biến cố sơ cấp của phép thử vì vậy
Ω đ−ợc đồng nhất với không gian biến cố sơ cấp.
This lesson was typed by pdfLATEX
4B.- Xác suất
Quan sát các hiện t−ợng ngẫu nhiên ta thấy có những hiện t−ợng th−ờng xảy
ra, có những hiện t−ợng ít xảy ra. Xác suất là một đại l−ợng thể hiện mức độ xảy
ra (th−ờng xuyên hay ít khi) của một biến cố. trong lịch sử toán học đã có nhiều
định nghĩa cho khái niệm xác suất. ở giáo trình nầy ta sẽ tiếp xúc với một số định
nghĩa tiêu biểu
1.- Định nghĩa cổ điển của xác suất:
Nếu A là biến cố có n(A) biến cố sơ cấp thích hợp với nó trong một không gian
biến cố sơ cấp gồm n(Ω) biến cố cùng khả năng xuất hiện thì tỉ số P (A) =
n(A)
n(Ω)
đ−ợc gọi là xác suất của A.
Nh− vậy điều kiện để áp dụng định nghĩa nầy là:
∗ n(Ω) <∞
∗ Các biến cố sơ cấp phải có cùng khả năng xuất hiện.
Ví dụ:
1) Gieo một hạt xúc sắc cân đối đồng chất một cách ngẫu nhiên. Tìm xác suất
để mặt có số nốt chẵn xuất hiện.
2) Từ một hộp có 13 bi đỏ và 7 bi trắng có kích th−ớc nh− nhau, rút ngẫu nhiên
một bi. Khi đó:
Xác suất để rút đ−ợc bi đỏ là: P (Đ) =
13
20
.
Xác suất để rút đ−ợc bi trắng là: P (T ) =
7
20
.
Chú ý: Để tính xác suất theo định nghĩa cổ điển ta phải tìm n(Ω) và n(A). một
công cụ đ−ợc sử dụng nhiều là giải tích tổ hợp đã đ−ợc chuẩn bị ở trung học.
2.- Định nghĩa xác suất theo quan điểm hình học:
Khi n(Ω) vô hạn, ta không thể áp dụng định nghĩa cổ điển để tính xác suất.
trong nhiều tr−ờng hợp ta có thể sử dụng định nghĩa xác suất theo quan điểm hình
học nh− sau:
Giả sử một điểm đ−ợc rơi ngẫu nhiên vào miền D, A là một miền con của D.
Khi đó xác suất để điểm rơi ngẫu nhiên vào miền A đ−ợc xác định bởi công thức:
P (A) =
số đo miềnA
số đo miềnD
(Số đo ở đây có thể là độ dài, diện tích hay thể tích tùy thuộc vào miền xét trên
đ−ờng thẳng, mặt phẳng hay không gian ba chiều)
Một ví dụ điển hình là "bài toán gặp gỡ":
Hai ng−ời hẹn gặp nhau tại một địa điểm vào khoảng từ 11 giờ đến 12 giờ. Họ
qui −ớc rằng ng−ời đến tr−ớc sẽ chỉ đợi 20 phút, nếu không gặp sẽ đi. Giả sử việc
This lesson was typed by pdfLATEX
5đến điểm hẹn của hai ng−ời là ngẫu nhiên. tìm xác suất để hai ng−ời gặp nhau?
3.- Định nghĩa xác suất theo quan điểm thống kê:
Tiến hành n phép thử độc lập, nh− nhau và theo dõi sự xuất hiện biến cố A có
liên quan. Gọi n là số phép thử đã tiến hành, n(A) là số phép thử có A xuất hiện,
tỉ số
n(A)
n
đ−ợc gọi là tần suất xuất hiện A.
Khi số phép thử n đủ lớn ta có thể lấy tần suất của A thay cho xác suất P (A)
(mà ta ch−a biết). Nếu tồn tại lim
n→∞
n(A)
n
thì giới hạn nầy là P (A).
4.- Định nghĩa tiên đề của xác suất:
Cho Ω là một không gian; gọiA là σ - đại số các tập con của Ω. P (.) là hàm
tập xác định trênA. Ta gọi P là hàm xác suất nếu các tiên đề sau đây đ−ợc thỏa
mãn:
(i) P (A) ≥ 0,∀A ∈A
(ii) P
( ∞∑
n=1
An
)
=
∞∑
n=1
P (An)
(iii) P (Ω) = 1.
Bộ ba (Ω;A;P ) đ−ợc gọi là không gian xác suất.
Từ hệ tiên đề trên ng−ời ta chứng minh đ−ợc các tính chất của xác suất sau đây
(ta chấp nhận không chứng minh để sử dụng tính toán xác suất):
Mệnh đề 1: Trên không gian xác suất (Ω;A;P ) ta có:
a) P (∅) = 0
b) Nếu {A1, A2, ..., An} là họ hữu hạn các biến cố ngẫu nhiên từng đôi xung
khắc thì P
(
n∑
k=1
Ak
)
=
n∑
k=1
P (Ak).
Mệnh đề 2: Giả sử A,B là là các biến cố ngẫu nhiên bất kỳ. Khi đó:
a) P (A ∪B) = P (A) + P (B)− P (A.B)
b) chulucNếu A ⊂ B thì P (A) ≤ P (B).
c) ∀A ∈A, có 0 ≤ P (A) ≤ 1 và P (Ac) = 1− P (A).
Ví dụ: Một hộp chứa 5 cầu trắng, 3 cầu xanh và 4 cầu đen cùng kích th−ớc. Chọn
ngẫu nhiên cùng lúc 3 cầu. Tìm xác suất để:
a) Cả ba cầu cùng màu.
b) Có đúng hai cầu cùng màu.
c) Có ít nhất hai cầu cùng màu.
d) Cả ba cầu khác màu.
C.- Xác suất điều kiện
This lesson was typed by pdfLATEX
6Trong mục nầy ta sẽ xây dựng một đại l−ợng để biểu thị khả năng xuất hiện
một biến cố A khi có một biên cố B đã xuất hiện với xác suất nào đó.
1.- Định nghĩa:
Xét không gian xác suất (Ω;A, P ).
Giả sử B là biến cố ngẫu nhiên có P (B) > 0, A ∈A. Đại l−ợng P (A/B) =
P (A ∩B)
P (B)
đ−ợc gọi là xác suất của A với điều kiện B.
Có tài liệu dùng ký hiệu: PB(A), PB(A).
Nhận xét:
• Trong định nghĩa xác suất cổ điển ta có: P (A/B) = n(A ∩B)
n(B)
, nghĩa là xác
suất điều kiện P (A/B) có thể xem nh− xác suất của A xét trong không gian B.
• Với B ∈A, P (B) > 0, ánh xạ P (./B) từA vào R+ là một hàm xác suất.
Ta có các mệnh đề sau:
Mệnh đề 1: (công thức nhân xác suất)
Giả sử {A1, A2, ..., An} là họ các biến cố ngẫu nhiên sao cho P (A1.A2...An) > 0,
khi đó:
P (A1.A2...An) = P (A1).P (A2/A1).P (A3/A1A2)...P (An/A1A2...An−1)
Mệnh đề nầy có thể chứng minh đ−ợc bằng ph−ơng pháp qui nạp.
Ví dụ: (Sơ đồ hộp Polia). Một hộp lúc đầu chứa a cầu trắng, b cầu đỏ. Sau mỗi
lần chọn ngẫu nhiên một cầu, ta trả cầu đó vào hộp cùng với c cầu cùng màu với
cầu đã chọn. Tìm xác suất để cầu trắng đ−ợc chọn ở ba lần đầu.
Đặt Ai: "cầu trắng đ−ợc chọn ở lần i' (i = 1, 2, 3). Ta cần tính P (A1A2A3).
Theo công thức nhân xác suất:
P (A1A2A3) = P (A1).P (A2/A1).P (A3/A1.A2) =
=
a
a+ b
.
a+ c
a+ b+ c
.
a+ 2c
a+ b+ 2c
Mệnh đề 2: (công thức xác suất toàn phần )
Giả sử {B1, B2, ..., Bn} là họ đầy đủ các biến cố ngẫu nhiên có xác suất d−ơng.
Khi đó với ∀A ∈A ta có:
P (A) =
n∑
i=1
P (Bi).P (A/Bi)
Ví dụ: Một nông tr−ờng có 4 đội sản xuất. Đội 1 sản
1
3
tổng sản l−ợng nông
sản của nông tr−ờng. Đội 2 sản xuất
1
4
tổng sản l−ợng. Đội 3 sản xuất
1
4
tổng sản
This lesson was typed by pdfLATEX
7l−ợng. Đội 4 sản xuất
1
6
tổng sản l−ợng. Tỉ lệ phế phẩm t−ơng ứng với các đội sản
xuất là 0, 15; 0, 08; 0, 05; 0, 01. Lấy ngẫu nhiên một sản phẩm trong kho của nông
tr−ờng. Tìm xác suất để lấy phải một phế phẩm.
Mệnh đề 3: (công thức Bayès )
Nếu A là biến cố có xác suất d−ơng, {B1, B2, ..., Bn} là họ đầy đủ các biến cố
ngẫu nhiên có xác suất d−ơng. Khi đó với mỗi j(j = 1, n), ta có:
P (Bj/A) =
P (Bj).P (A/Bj)
n∑
i=1
P (Bi).P (A/Bi)
Ví dụ: Hai nhà máy cùng sản x uất một loại sản phẩm. Nhà máy số 1 sản xuất
gấp k lần nhà máy số 2. Tỉ lệ thứ phẩm của hai nhà máy là p1, p2. Lấy ngẫu nhiên
một sản phẩm trong kho chung của hai nhà máy để kiểm tra thì gặp phải thứ phẩm.
Tìm xác suất để thứ phẩm đó do nhà máy thứ hai sản xuất.
D.- Sự độc lập ngẫu nhiên
Xét không gian xác suất (Ω,A, P )
1.- Định nghĩa:
Giả sử B là lớp nào đó các biến cố ngẫu nhiên (B ⊂A). Ta nói lớp B độc
lập nếu xác suất của một giao hữu hạn bất kỳ các biến cố trong B bằng tích của
các xác suất của các biến cố đó.
Ví dụ: B1 = {A,B} độc lập ⇐⇒ P (A.B) = P (A).P (B)B2 = {A,B,C} độc lập ⇐⇒ P (A.B) = P (A).P (B)P (A.C) = P (A).P (C)P (B.C) = P (B).P (C)P (A.B.C) = P (A).P (B).P (C)
Chú ý:
1) Khi B có hơn hai biến cố thì rõ ràng nếu B độc lập lúc đó xác suất của
giao hai biến cố bất kỳ trong B cũng bằng tích các xác suất của các biến cố đó.
Ta nói có sự độc lập từng đôi. Nh−ng sự độc lập từng đôi trong B không đủ suy
ra B độc lập.
Xét thí dụ sau: Một khối tứ diện đều, đồng chất có ba mặt sơn t−ơng ứng các
màu trắng, xanh, đỏ. Mặt thứ t− sơn cả ba màu trắng, xanh, đỏ. Gieo ngẫu nhiên
các khối đó lên mặt phẳng. Nếu gọi A,B,C t−ơng ứng là: "mặt có màu trắng
(xanh, đỏ) của tứ diện đó tiếp với mặt phẳng". Khi đó ta thấyB = {A,B,C} độc
This lesson was typed by pdfLATEX
8lập từng đôi.
2) Dễ thấy rằng nếu P (B) > 0 thì {A,B} độc lập khi và chỉ khi P (A/B) =
P (A). Thật vậy:
• Giả sử A,B độc lập, do P (B) > 0 có
P (A/B) =
P (A.B)
P (B)
=
P (A).P (B)
P (B)
= P (A).
• Ng−ợc lại, nếu P (A/B) = P (B) thì từ xác suất có điều kiện suy ra
P (A) = P (A/B) =
P (A.B)
P (B)
=⇒ P (A.B) = P (A).P (B), nghĩa là {A,B} độc lập.
Điều khẳng định trên có ý nghĩa: khi {A,B} độc lập (theo định nghĩa) thì sự
xuất hiện của B không ảnh h−ởng đến sự xuất hiện của A (vì P (A/B) = P (A)) và
ng−ợc lại. Nh− vậy ta có thể nhận biết sự độc lập bằng trực giác, hay kinh nghiệm
quan sát. Điều đó rất có ý nghĩa thực tiễn.
Mệnh đề 1:
Nếu {A,B} độc lập thì {A,Bc} độc lập.
Chú ý:
Bằng qui nạp hữu hạn ta dễ dàng chứng minh đ−ợc: Nếu {A1, A2, ..., An} độc
lập thì {A1, A2, ..., An−1, Acn} cũng độc lập. nếu áp dụng nhiều lần kết quả nầy ta
đ−ợc mệnh đề sau:
Mệnh đề 2:
Nếu {A1, A2, ..., An} là họ các biến cố độc lập, (j1, j2, ..., jn) là một hoán vị bất
kỳ của {1, 2, ..., n}. Khi đó họ {A′j1, A′j2, ..., A′jn}, ở đây A′ji = Aji hoặc Acji cũng
là họ độc lập.
Ví dụ: Bắn ba viên đạn độc lập vào một mục tiêu. Xác suất trích đích của mỗi
viên t−ơng ứng là 0, 3; 0, 4; 0, 5. Nếu chỉ một viên trúng thì mục tiêu bị phá hủy
với xác suất 0, 2. Nếu ít nhất hai viên trúng thì mục tiêu chắc chắn bị phá hủy. Hãy
tìm xác suất để mục tiêu bị phá hủy khi bắn ba viên đạn nh− trên.
This lesson was typed by pdfLATEX
1đại l−ợng ngẫu nhiên
A.- Đại l−ợng ngẫu nhiên
1.- Định nghĩa:
Giả sử Ω là không gian mẫu ứng với phép thử G.
ánh xạ:
X : Ω −→ R
ω 7−→ X(ω)
sao cho ∀x ∈ R, {ω ∈ Ω/X(ω) < x} ⊂ Ω (là một biến cố) đ−ợc gọi là một đại
l−ợng ngẫu nhiên.
Có thể hiểu đại l−ợng ngẫu nhiên là một đại l−ợng mà giá trị của nó là ngẫu
nhiên, tùy thuộc vào kết quả của phép thử.
Đại l−ợng ngẫu nhiên th−ờng đ−ợc ký hiệu bằng các mẫu tự la tinh in hoa:
X,T, ã ã ã . Các giá trị của chúng th−ờng đ−ợc ký hiệu bởi các mẫu tự la tinh th−ờng
x, y, ã ã ã
Ng−ời ta phân biệt hai đại l−ợng ngẫu nhiên (ĐLNN) là ĐLNN rời rạc và ĐLNN
liên tục.
2.- Đại l−ợng ngẫu nhiên rời rạc:
a) Định nghĩa: Một ĐLNN đ−ợc gọi là ĐLNN rời nếu tập giá trị của nó là tập
con hữu hạn hay vô hạn đếm đ−ợc của tập số thực R.
Ví dụ 1:
1) Gieo một con xúc sắc cân xứng và đồng chất. Gọi X là số chấm xuất hiện ở
mặt trên con xúc sắc. Khi đó X là ĐLNN rời có tập giá trị X(Ω) = {1, 2, 3, 4, 5, 6}.
2) Chọn ngẫu nhiên 3 đứa trẻ từ một nhóm gồm 6 bé trai và 4 bé gái. Gọi X là
số bé gái trong nhóm chọn đ−ợc. X là một đại l−ợng ngẫu nhiên rời có tập giá trị
X(Ω) = {0, 1, 2, 3}.
3) Bắn liên tiếp từng phát một vào bia cho đến khi nào trúng bia thì dừng lại.
Gọi X là số viên đạn cần bắn. Khi đó X là ĐLNN rời có tập giá trị X(Ω) =
{1, 2, 3, ã ã ã , n, ã ã ã }.
b) Bảng phân phối xác suất:
Ngoài việc xác định tập giá trị của ĐLNN rời, một điều quan trọng nữa là ta
phải biết đ−ợc xác suất để ĐLNN đó nhận các giá trị ấy là bao nhiêu. Bảng phân
phối xác suất của một ĐLNN rời là bảng trên đó ghi các giá trị mà X có thể nhận,
kèm theo các xác suất để nó nhận các giá trị ấy.
This lesson was typed by pdfLATEX
2X(Ω) x1 x2 ... xn ...
pk p1 p2 ... pn
trong đó pk = P ({X = xk});
n∑
k=1
pk = 1 nếu X(Ω) hữu hạn
∞∑
k=1
pk = 1 nếu X(Ω) vô hạn đếm đ−ợc.
Ví dụ 2:
ở ví dụ 1) mục 1.2.1, ta có:
X(Ω) = {0, 1, 2, 3}
ta có:
P ({X = 0}) = C
3
6
C310
=
120
720
=
5
30
; P ({X = 2}) = C
2
4 .C
1
6
C310
=
9
30
P ({X = 1}) = C
1
4 .C
2
6
C310
=
15
10
; P ({X = 3}) = C
3
4
C310
=
1
30
Vậy bảng phân phối xác suất của X là:
X 0 1 2 3
p 530
15
30
9
30
1
30
Ví dụ 3:
Một túi chứa 3 tấm thẻ đ−ợc đánh số 1, 2, 3 và túi thứ hai chứa 4 tấm thẻ đ−ợc
đánh số 4, 5, 6, 8. Chọn ngẫu nhiên từ mỗi túi 1 tấm thẻ rồi cộng hai số ghi trên
hai tấm thẻ lại. Gọi X là kết quả, hãy lập bảng phân phối xác suất của X .
Giải: Có 12 kết quả có thể:
(1, 4); (1, 5); (1, 6); (1, 8)
(2, 4); (2, 5); (2, 6); (2, 8)
(3, 4); (3, 5); (3, 6); (3, 8)
Các kết quả nầy đồng khả năng, với xác suất xuất hiện của chúng là 112 .
X(Ω) = {5, 6, 7, 8, 9, 10, 11}
P ({X = 5}) = P ({1, 4}) = 1
12
; P ({X = 8}) = P ({(2, 6), (3, 5)}) = 2
12
This lesson was typed by pdfLATEX
3P ({X = 6}) = P ({(1, 5), (2, 4)}) = 2
12
; P ({X = 9}) = P ({(1, 8), (3, 6)}) =
2
12
P ({X = 7}) = P ({(1, 6), (3, 4)}) = 3
12
; P ({X = 10}) = P (2, 8) = 1
12
;
P ({X = 11}) = P (3, 8) = 1
12
Bảng phân phối xác suất của X là:
X(Ω) 5 6 7 8 9 10 11
p 112
2
12
3
12
2
12
2
12
1
12
1
12
b) Hàm phân bố xác suất:
Là hàm đ−ợc xác định bởi:
F : R −→ R
x 7→ F (x) =
∑
xi<x
pi
Ví dụ 4:
ĐLNN X ở ví dụ 1 trên đây có hàm phân bố xác suất nh− sau:
F (X) =
0 khi x < 0
5
30 khi 0 < x ≤ 1
20
30 khi 1 < x ≤ 2
29
30 khi 2 < x ≤ 3
1 khi x > 3
Hàm phân bố xác suất của ĐLNN rời có các tính chất:
(i) 0 ≤ F (x) ≤ 1,∀x
(ii) liên tục bên trái
(iii) không giảm
(iv) lim
x→+∞F (x) = 1; limx→−∞F (x) = 0.
3.- Đại l−ợng ngẫu nhiên liên tục:
a) Định nghĩa: Một ĐLNN nhiên X đ−ợc gọi là ĐLNN liên tục nếu:
i) Tập các giá trị của X lấp đầy một hay hợp của một số khoảng của trục số,
thậm chí lấp đầy cả toàn bộ trục số.
ii) Với mọi a ∈ R, P ({X = a}) = 0
Ví dụ 1:
This lesson was typed by pdfLATEX
41) L−ợng m−a hàng năm ở một địa ph−ơng là một ĐLNN liên tục có X(Ω) =
(0,+∞)
2) Trọng l−ợng của đứa trẻ sơ sinh là một ĐLNN liên tục.
b) Hàm mật độ xác suất:
Đối với ĐLNN liên tục X , xác suất để X nhận một giá trị cụ thể nào đó luôn
luôn bằng 0: P ({X = a}) = 0, ∀a ∈ X(Ω). Vì vậy ta quan tâm đến xác suất để
X rơi vào một khoảng (a, b) nào đó chứ không quan tâm đến xác suất để X nhận
một giá trị cụ thể nh− trong tr−ờng hợp ĐLNN rời.
Phân phối xác suất của X đ−ợc xác định bởi một hàm f(x) gọi là hàm mật độ
xác suất.
Định nghĩa: Hàm số f(x) xác định trên toàn trục số đ−ợc gọi là hàm mật độ của
ĐLNN liên tục X nếu:
i) f(x) ≥ 0,∀x ∈ R
ii)
+∞∫
−∞
f(x)dx = 1
iii) ∀a, b : a < b =⇒ P ({a < X < b}) =
b∫
a
f(x)dx
ở đây chú ý: P ({X = a}) = P ({X = b}) = 0 nên P (a ≤ X ≤ b) =
b∫
a
f(x)dx
Ví dụ 2:
Cho X là ĐLNN liên tục có hàm mật độ f(x) nh− sau:
f(x) =
{
0; x < 1
c
x2
; x ≥ 1
Hãy tính hằng số c và tính P (2 < x < 3)
Giải:
(f(x) là hàm mật độ) ⇐⇒
f(x) ≥ 0
+∞∫
−∞
f(x)dx = 1
f(x) ≥ 0⇐⇒ c ≥ 0
+∞∫
−∞
f(x)dx = 1⇐⇒
+∞∫
1
cdx
x2
= 1 = − c
x
]+∞
1
= 1⇐⇒ c = 1
Vậy c = 1
This lesson was typed by pdfLATEX
5P (2 < X < 3) =
3∫
2
f(x)dx =
3∫
2
dx
x2
=
1
6
.
Ví dụ 3:
Cho hàm p(x) = a sin 2x. Xác định hằng số a để p(x) trở thành hàm mật độ
của ĐLNN X nhận giá trị tập trung trong đoạn [0, pi2 ].
Giải:
p(x) =
{
0 nếu x pi2
a sin 2x nếu 0 ≤ x ≤ pi2
p(x) ≥ 0⇐⇒ a sin 2x ≥ 0,∀x ∈ [0, pi2 ]⇐⇒ a ≥ 0.
+∞∫
−∞
p(x)dx = 1⇐⇒
pi
2∫
0
a sin 2xdx = 1⇐⇒ −a
2
cos 2x
]pi
2
0
= 1⇔ a = 1.
Vậy a = 1
Ví dụ 4:
Cho X là ĐLNN có hàm mật độ f(x):
f(x) =
1 + x nếu − 1 ≤ x ≤ 0
1− x nếu 0 < x ≤ 1
0 nếu |x| > 1
Tính P (−12 < X < 1)
Giải:
P (−12 < X < 1) =
1∫
− 12
f(x)dx =
0∫
− 12
(1 + x)dx+
1∫
0
(1− x)dx = 7
8
.
b) Hàm phân bố xác suất:
Định nghĩa: Hàm phân bố xác suất của ĐLNN liên tục X , ký hiệu bởi F (x), là
hàm xác định với mọi số thực x theo công thức sau:
F (x) = P (X < x)
Tính chất: Hàm phân bố xác suất của ĐLNN liên tục F (x) có các tính chất sau:
i) 0 ≤ F (x) ≤ 1.
ii) F (x) là hàm không giảm.
iii) F (x) là hàm liên tục bên trái.
iv) lim
x→+∞F (x) = 1; limx→−∞F (x) = 0.
v) Quan hệ giữa hàm mật độ và hàm phân phối:
Nếu f(x) và F (x) t−ơng ứng là hàm mật độ và hàm phân phối của ĐLNN X
thì:
This lesson was typed by pdfLATEX
6f(x) = F ′(x); F (x) =
x∫
−∞
f(t)dt.
Ví dụ 1:
Cho X là ĐLNN có hàm mật độ: f(x) =
a
1 + x2
. Hãy tìm hệ số a và hàm phân
phối F (x).
Giải:
f(x) ≥ 0⇐⇒ a ≥ 0.
+∞∫
−∞
f(x)dx = 1⇐⇒
+∞∫
−∞
adx
1 + x2
= 1⇐⇒ 2a( arctg x
]+∞
0
) = 1
⇐⇒ api = 1⇐⇒ a = 1
pi
Vậy: f(x) =
1
pi(1 + x2)
.
Theo iv): F (x) =
x∫
−∞
f(t)dt =
x∫
−∞
dt
pi(1 + t2)
=
1
pi
arctg t
]x
−∞
=
1
pi
arctg x +
1
2
.
Ví dụ 2:
Cho X là ĐLNN có hàm phân phối:
F (x) =
0 nếu x ≤ 0
ax3 nếu 0 < x < 2
1 nếu x ≥ 2
Hãy tìm hệ số a, hàm mật độ của X và P (0 < X < 1).
Giải:
Do hàm phân phối liên tục trái nên:
lim
x→2−
F (x) = lim
x→2−
ax3 = 8a = F (2) = 1. Vậy a =
1
8
.
Mặt khác F ′(x) = f(x), nên hàm mật độ của ĐLNN X là:
f(x) =
0 nếu x ≤ 0 hoặc x ≥ 23
8
x2 nếu 0 < x < 2
P (0 < x < 1) =
1∫
0
f(x)dx =
1∫
0
3
8
x2dx =
1
8
.
Ví dụ 3:
Cho X là ĐLNN có hàm phân phối:
This lesson was typed by pdfLATEX
7F (x) = a+ b arctg
x
c
trong đó a, b, c là các hằng số. Tìm a, b, c và hàm mật độ xác suất f(x).
Giải:
lim
x→+∞F (x) = 1⇐⇒ a+ b
pi
2
= 1 (1)
lim
x→+∞F (x) = 0⇐⇒ a−
b
2
pi = 0 (2)
⇐⇒ b ≤ 1
Giải hệ (1), (2) đ−ợc a =
1
2
; b =
1
pi
.
Nh− vậy:
F (x) =
1
2
+
1
pi
arctg
x
c
f(x) = F ′(x) =
1
pi
.
c
x2 + c2
Vì f(x) là hàm mật độ nên f(x) > 0, tức là c > 0.
Vậy a =
1
2
; b =
1
pi
, c > 0 (tùy ý).
3.- Đại l−ợng ngẫu nhiên nhiều chiều:
a) Khái niệm ĐLNN nhiều chiều:
ở phần trên, ta đã xét các ĐLNN mà các giá trị của nó đ−ợc biểu diễn bằng
một số. Các ĐLNN nh− vậy đ−ợc gọi là ĐLNN một chiều. Ngoài các ĐLNN một
chiều, trong thực tế ta còn gặp các ĐLNN mà giá trị của nó đ−ợc xác định bằng 2,
3, .. n số. Những đại l−ợng nầy đ−ợc gọi một cách t−ơng ứng là ĐLNN 2, 3, ..., n
chiều. Ta ký hiệu ĐLNN hai chiều là (X, Y ) (vectơ ngẫu nhiên hai chiều). Trong
đó X và Y đ−ợc gọi là các thành phần của ĐLNN hai chiều. Cả hai đại l−ợng X
và Y đ−ợc xét một cách đồng thời tạo nên hệ hai ĐLNN. T−ơng tự nh− vậy ĐLNN
n chiều có thể xem nh− hệ của n ĐLNN.
Ví dụ 1:
Một máy sản xuất một loại sản phẩm. Nếu kích th−ớc của sản phẩm đ−ợc đo
bằng chiều dài X và chiều rộng Y , thì ta có ĐLNN hai chiều (X, Y ); còn nếu tính
thêm cả chiều cao Z nữa thì ta có ĐLNN ba chiều (X, Y, Z).
Trong thực tế ng−ời ta cũng phân chia các ĐLNN nhiều chiều thành hai loại:
rời rạc và liên tục.
Các ĐLNN nhiều chiều đ−ợc gọi là rời rạc nếu các thành phần của nó là ĐLNN
rời rạc.
This lesson was typed by pdfLATEX
8Các ĐLNN nhiều chiều đ−ợc gọi là liên tục nếu các thành phần của nó là ĐLNN
liên tục.
Sau đây ta chỉ xét các ĐLNN hai chiều.
b) Qui luật phân phối xác suất của ĐLNN hai chiều:
Đối với các vectơ ngẫu nhiên hai chiều ng−ời ta cũng dùng bảng phân phối xác
suất, hàm phân phối xác suất, hàm mật độ xác suất để thiết lập bảng phân phối
xác suất của chúng.
(i) Bảng phân phối xác suất của vectơ ngẫu nhiên (VTNN) hai chiều:
Bảng phân phối xác suất của vectơ ngẫu nhiên hai chiều rời rạc là bảng liệt kê
tất cả các giá trị có thể có của nó và các xác suất t−ơng ứng. Nó có dạng sau:
X\Y y1 y2 ... yj ... ym
x1 p(x1, y1) P (x1, y2) ã ã ã P (x1, yj) ã ã ã P (x1, ym)
x2 P (x2, y1) P (x2, y2) ã ã ã P (x2, yj) ã ã ã P (x2, ym)
...
...
... ã ã ã ... ã ã ã ...
xi P (xi, y1) P (xi, y2) ã ã ã P (xi, yj) ã ã ã P (xi, ym)
...
...
... ã ã ã ... ã ã ã ...
xn P (xn, y1) P (xn, y2) ã ã ã P (xn, yj) ã ã ã P (xn, ym)
Trong đó xi, i = 1, n là các giá trị có thể có của X; yj; j = 1,m là các giá
trị có thể có của Y. p(xi, yj) là xác suất để VTNN hai chiều (X, Y ) nhận giá trị
(xi, yj).
Để tạo nên một qui luật phân phối xác suất thì các xác suất p(xi, yj) phải thỏa
mãn điều kiện:
- p(xi, yj) ≥ 0.
-
n∑
i=1
m∑
j=1
p(xi, yj) = 1.
Biết đ−ợc bảng phân phối xác suất của VTNN hai chiều bao giờ cũng tìm đ−ợc
bảng phân phối xác suất của mỗi thành phần.
Bảng phân phối xác suất của thành phần X có dạng:
X x1 x2 ã ã ã xi ã ã ã xn
p p(x1) p(x2) ã ã ã p(xi) ã ã ã p(xn)
trong đó: p(xi) =
m∑
j=1
p(xi, yj)
This lesson was typed by pdfLATEX
9Rõ ràng là:
n∑
i=1
p(xi) = 1.
Bảng phân phối xác suất của thành phần Y có dạng:
X y1 y2 ã ã ã yj ã ã ã ym
p p(y1) p(y2) ã ã ã p(yj) ã ã ã p(ym)
trong đó: p(yj) =
n∑
i=1
p(xi, yj)
rõ ràng là:
m∑
j=1
p(yj) = 1.
Ví dụ 2:
Tìm bảng phân phối xác suất của các thành phần của VTNN hai chiều có bảng
phân phối xác suất nh− sau:
X \ Y y1 y2
x1 0, 1 0, 06
x2 0, 3 0, 18
x3 0, 2 0, 16
Giải: Cộng các xác suất theo hàng ta thu đ−ợc các xác suất t−ơng ứng với các
giá trị của thành phần X.
p(x1) = 0, 1 + 0, 06 = 0, 16
p(x2) = 0, 3 + 0, 18 = 0, 48
p(x3) = 0, 2 + 0, 16 = 0, 36
Ta có bảng phân phối xác suất của thành phần X
X x1 x2 x3
p 0, 16 0, 48 0, 36
Cộng các giá trị theo cột ta có các xác suất t−ơng ứng với các giá trị của thành
phần Y :
p(y1) = 0, 1 + 0, 3 + 0, 2 = 0, 6
p(y2) = 0, 06 + 0, 18 + 0, 16 = 0, 4
Ta có bảng phân phối xác suất của thành phần Y nh− sau:
Y y1 y2
p 0, 6 0, 4
This lesson was typed by pdfLATEX
10
(ii) Hàm phân phối xác suất của VTNN hai chiều:
Xét VTNN hai chiều (X, Y ) có thể rời rạc hoặc liên tục. Giả sử (x, y) là một
cặp số thực bất kỳ. Xét biến cố (X < x; Y < y) là biến cố để X nhận giá trị nhỏ
hơn x, và Y nhận giá trị nhỏ hơn y. Khi x, y thay đổi thì xác suất của biến cố trên
cũng thay đổi theo, nó là một hàm số của x và y.
Hàm phân phối xác suất của VTNN hai chiều (X, Y ); ký hiệu F (x, y) là xác
suất để thành phần X nhận giá trị nhỏ hơn x và thành phần Y nhận giá trị nhỏ
hơn y với x, y là các số thực tùy ý.
F (x, y) = P (X < x, Y < y)
Ví dụ 3:
Tìm xác suất để trong kết quả của phép thử thành phần X của VTNN hai chiều
(X,Y ) nhận giá trị X < 2 và Y nhận giá trị Y < 3 nếu biết hàm phân phối xác
suất của nó có dạng:
F (x, y) = (
1
pi
arctg
x
2
+
1
2
)(
1
pi
arctg
y
3
+
1
2
)
Giải:
Theo định nghĩa hàm phân phối xác suất của VTNN hai chiều ta có:
P (X < 2, Y < 3) = F (2, 3) = (
1
pi
arctg
2
2
+
1
2
).(
1
pi
arctg
3
3
+
1
2
)
= (
1
pi
.
pi
4
+
1
2
).(
1
pi
.
pi
4
+
1
2
) =
3
4
.
3
4
=
9
16
(iii) Hàm mật độ xác suất của VTNN hai chiều:
Đối với VTNN liên tục (X, Y ) ngoài hàm phân phối xác suất ra còn có thể dùng
hàm mật độ xác suất biểu diễn phân phối xác suất của nó.
Hàm mật độ xác suất của VTNN hai chiều liên tục (X,Y ); ký hiệu f(x, y) là
đạo hàm riêng hỗn hợp cấp hai của hàm phân phối xác suất
f(x, y) =
∂2F (x, y)
∂x∂y
Ví dụ 4:
Tìm hàm mật độ xác suất của VTNN hai chiều liên tục (X, Y ) nếu biết hàm
phân phối xác suất của nó.
F (x, y) = sinx. sin y; 0 ≤ x ≤ pi
2
; 0 ≤ y ≤ pi
2
Giải:
Theo định nghĩa hàm mật độ xác suất, tr−ớc hết ta tìm đạo hàm riêng của hàm
phân phối xác suất theo x:
∂F (x, y)
∂x
= cos x sin y
This lesson was typed by pdfLATEX
11
Suy ra: f(x, y) =
∂2F (x, y)
∂x∂y
= cos x cos y; x ∈ [0, pi
2
], y ∈ [0, pi
2
].
This lesson was typed by pdfLATEX
12
B.- Kỳ vọng, ph−ơng sai và một số đặc tr−ng của đại l−ợng ngẫu nhiên
1.- Kỳ vọng và ph−ơng sai:
a) Kỳ vọng:
Định nghĩa 1:
Giả sử X là ĐLNN rời có bảng phân phối xác suất nh− sau:
X(Ω) x1 x2 ã ã ã xn ã ã ã
p p1 p2 ã ã ã pn ã ã ã
Nếu
∞∑
k=1
|xk|.pk < +∞ thì ta gọi tổng
∞∑
k=1
xkpk là kỳ vọng của ĐLNN X và ký
hiệu là EX:
EX =
∞∑
k=1
xkpk
Trong tr−ờng hợp X(Ω) = {x1, x2, ã ã ã , xn} (hữu hạn) thì:
EX =
n∑
k=1
xkpk.
Định nghĩa 2:
Giả sử X là ĐLNN liên tục có hàm mật độ f(x).
Nếu
+∞∫
−∞
|x|f(x)dx < +∞ thì ta gọi
+∞∫
−∞
xf(x)dx là kỳ vọng của ĐLNN X và
ký hiệu EX:
EX =
+∞∫
−∞
xf(x)dx.
Ví dụ 1:
Cho X là ĐLNN có phân phối xác suất:
X(Ω) −2 −1 0 1 4
p 0, 1 0, 2 0, 15 0, 25 0, 3
Tìm kỳ vọng của X .
Giải:
EX = (−2).(0, 1) + (−1).(0, 2) + 0.(0, 15) + 1.(0, 25) + 4.(0, 3) = 1, 05
This lesson was typed by pdfLATEX
13
Ví dụ 2:
Cho ĐLNN có hàm mật độ:
f(x) =
{
cx3 với 0 ≤ x ≤ 3
0 với x /∈ [0, 3]
Tính c và EX
Giải:
f(x) ≥ 0⇐⇒ c ≥ 0
+∞∫
−∞
f(x)dx = 1⇐⇒
3∫
0
cx3dx = 1⇐⇒ c = 4
81
EX =
+∞∫
−∞
xf(x)dx =
3∫
0
x.
4
81
x3dx =
4
81
(
x5
5
)
]3
0
= 2, 4
Ví dụ 3:
X là ĐLNN có hàm mật độ f(x) =
{
0 nếu x 1
1 nếu 0 ≤ x ≤ 1
Tính EX.
Giải:
+∞∫
−∞
xf(x)dx =
0∫
−∞
x.0.dx+
1∫
0
x.1.dx+
+∞∫
1
x.0.dx =
1
2
.
b) Ph−ơng sai:
Định nghĩa: Ph−ơng sai của ĐLNN X , ký hiệu DX , đ−ợc xác định bởi:
DX = E(X − EX)2
Nếu X là ĐLNN liên tục thì:
DX =
+∞∫
−∞
(x− EX)2f(x)dx
c) Độ lệch chuẩn: Độ lệch chuẩn của ĐLNN X là σX =
√
DX.
Ví dụ 1:
ĐLNN X có bảng phân phối xác suất:
X(Ω) 0 1 2 3
p
5
30
15
30
9
30
1
30
This lesson was typed by pdfLATEX
14
Ta có EX = 0.
5
30
+ 1.
15
30
+ 2.
9
30
+ 3.
1
30
= 1, 2
DX = (0− 1, 2)2. 5
30
+ (1− 1, 2)2.15
30
+ (2− 1, 2)2. 9
30
+ (3− 1, 2)2. 1
30
= 0, 56
σX =
√
DX =
√
0, 56 = 0, 74.
Ví dụ 2:
Với ĐLNN liên tục ở ví dụ 2 trên:
DX =
+∞∫
−∞
(x− 2, 4)2.f(x)dx = 4
8
3∫
0
(x− 2, 4)2.x3dx = 0, 24
σX =
√
DX = 0, 48.
Chú ý: Có thể chứng minh đ−ợc
DX = E(X2)− (EX)2.
d) Tính chất của kỳ vọng toán và ph−ơng sai:
Kỳ vọng: Kỳ vọng có các tính chất sau:
i) ĐLNN X = C: hằng có EC = C
ii) Một hằng số có thể đ−a ra ngoài dấu kỳ vọng
E(aX) = aEX.
iii) Kỳ vọng của tổng các ĐLNN bằng tổng các kỳ vọng:
E(X1 +X2 + ã ã ã+Xn) = EX1 + EX2 + ã ã ã+ EXn.
iv) Nếu g(x) là hàm liên tục thì g(X) là một ĐLNN và nếu g(X) có kỳ vọng
thì:
• Nếu X là ĐLNN rời với P (X = xk) = pk; k = 1, 2, ã ã ã thì E(g(X)) =∞∑
k=1
g(xk).pk.
• Nếu X là ĐLNN liên tục với hàm mật độ f(x) thì:
E(g(X)) =
+∞∫
−∞
g(x).f(x)dx.
Đặc biệt:
•Khi X là ĐLNN rời: E(X2) =
∞∑
k=1
x2k.pk.
This lesson was typed by pdfLATEX
15
•Khi X là ĐLNN liên tục: E(X2) =
+∞∫
−∞
x2.f(x)dx.
Ph−ơng sai:
i) C là ĐLNN hằng thì DC = 0
ii) a là hằng thì D(aX) = a2DX
iii) Nếu X1, X2, ã ã ã , Xn là các ĐLNN độc lập thì:
D(X1 +X2 + ã ã ã+Xn) = DX1 +DX2 + ã ã ã+DXn
ở đây X1, X2, ã ã ã , Xn độc lập khi và chỉ khi:
P (X1 = x1, X2 = x2, ã ã ã , Xn = xn)
= P (X1 = x1).P (X2 = x2) ã ã ãP (Xn = xn)
d) ý nghĩa của kỳ vọng và ph−ơng sai:
Kỳ vọng:
Kỳ vọng của ĐLNN X là một số đặc tr−ng cho giá trị trung bình của X . Trong
thực tế nếu ta tiến hành "đo" một ĐLNN X thì ng−ời ta đo ĐLNN đó n lần độc
lập, các kết quả là X1, X2, ã ã ã , Xn và có thể coi X = 1
n
(X1 +X2 + ã ã ã+Xn) là
giá trị của ĐLNN cần đo (với n đủ lớn).
Ph−ơng sai: Ph−ơng sai của ĐLNN đặc tr−ng cho độ phân tán của các giá trị của
X xung quanh giá trị kỳ vọng của nó. Về mặt toán học ph−ơng sai DX là độ lệch
bình ph−ơng trung bình của các giá trị của X so với kỳ vọng EX.
Ví dụ 2:
Tính ph−ơng sai của ĐLNN ở ví dụ 1:
Ta có: E(X2) =
n∑
k=1
x2kpk = 5, 65
DX = E(X2)− (EX)2 = 5, 65− (1, 05)2 = 4, 54.
Ví dụ 3:
Cho X là ĐLNN có phân phối nhị thức với 2 tham số n, p; nghĩa là:
P (X = k) = Ckn.p
kqn−k; k = 0, n; q = 1− p.
Tìm kỳ vọng và ph−ơng sai.
Ta có: EX =
n∑
k=0
k.Cknp
kqn−k
Với k ≥ 1 ta có:
kCkn = k.
n!
k!(n− k)! = n.
(n− 1)!
(k − 1)!(n− k)! = nC
k−1
n−1.
This lesson was typed by pdfLATEX
16
Suy ra:
EX = np
n∑
k=1
Ck−1n−1p
k−1qn−k
đặt i = k − 1, ta có:
EX = np
n−1∑
i=0
Cin−1p
iqn−1−i = np(p+ q)n−1
vì p+ q = 1 nên: EX = np.
E(X2) =
n∑
k=0
k2.Ckn.p
kqn−k =
n∑
k=0
[k(k − 1) + k]Cknpkqn−k =
=
n∑
k=0
k(k − 1)Ckn.pkqn−k +
n∑
k=0
kCknp
kqn−k
mặt khác:
k(k − 1)Ckn = k.(k − 1).
n!
k!(n− k)! =
= n(n− 1). (n− 2)!
(k − 2)!(n− k)! = n(n− 1)C
k−2
n−2
nh− vậy:
n∑
k=0
k(k − 1)Cknpkqn−k = n(n− 1)p2
n∑
k=2
Ck−2n−2p
k−2qn−k =
= n(n− 1)p2(p+ q)n−2 = n(n− 1)p2.
Vậy:
DX = EX2 − (EX)2 = n(n− 1)p2 + np− (np)2 = np− np2 =
np(1− p) = npq.
Ví dụ 4:
Cho X là ĐLNN có phân phối Poison với tham số λ > 0 nghĩa là:
P (X = k) =
λk.e−λ
k!
; k = 0, 1, 2, ã ã ã
This lesson was typed by pdfLATEX
17
Tìm kỳ vọng và ph−ơng sai của X .
EX =
∞∑
k=0
k.
e−λ.λk
k!
= λe−λ
∞∑
k=1
λk−1
(k − 1)!
đặt i = k − 1, ta có: EX = λe−λ.
∞∑
i=0
.
λi
i!
= λe−λeλ = λ.
(Chú ý:
∞∑
i=1
λi
i!
= eλ)
Ta có:
E(X2) =
∞∑
k=0
k2.
λk.e−λ
k!
= e−λ.λ
∞∑
k=1
k.
λk−1
(k − 1)! =
λe−λ.
∞∑
i=0
(i+ 1).
λi
i!
= λe−λ
∞∑
i=0
i.
λi
i!
+ λe−λ
∞∑
k=0
λi
i!
=
λ
( ∞∑
i=0
i.
λie−λ
i!
)
+ λe−λeλ = λ2 + λ.
(Chú ý:
∞∑
i=0
i.
λi.e−λ
i!
= EX = λ)
Vậy DX = E(X2)− (EX)2 = (λ2 + λ)− λ2 = λ.
Ví dụ 5:
Giả sử X là ĐLNN liên tục có hàm mật độ:
f(x) =
{
0 nếu x 1
1 nếu 0 ≤ x ≤ 1
Tính kỳ vọng và ph−ơng sai.
EX =
+∞∫
−∞
xf(x)dx =
0∫
−∞
x.0.dx+
1∫
0
x.1.dx+
1∫
+∞
x.0.dx
=
1∫
0
xdx =
1
2
E(X2) =
+∞∫
−∞
x2f(x)dx =
1∫
0
x2dx =
1
3
.
Vậy DX =
1
12
2 Covarian và hệ số t−ơng quan:
a) Covarian: Covarian của hai ĐLNN X và Y là đại l−ợng ký hiệu cov (X, Y )
This lesson was typed by pdfLATEX
18
cov (X, Y ) = E{(X − EX)(Y − EY )}
Dựa vào tính chất của kỳ vọng, ta có:
cov (X, Y ) = E(X.Y )− EX.EY.
Từ định nghĩa, ta có : cov (X,X) = E{(X − EX)2} = DX.
Định lý:
Giả sử X1, X2, ã ã ã , Xn là các ĐLNN và C1, C2, ã ã ã , Cm là các hằng số.
Khi đó:
D
( n∑
i=1
CiXi
)
=
n∑
i,j=1
CiCj cov (Xi, Xj)
b) Hệ số t−ơng quan: Hệ số t−ơng quan của hai ĐLNN X, Y Ký hiệu là RXY ,
đ−ợc xác định bởi công thức:
RXY =
cov (X, Y )√
D(X).
√
D(Y )
• Nếu DX hoặc DY bằng 0 thì qui −ớc RXY = 0.
• Nếu RXY = 0 thì ta nói hai ĐLNN X và Y là không t−ơng quan.
• Từ định nghĩa ta có:
RXY =
E(XY )− EX.EY√
DX.
√
DY
Do đó nếu hai ĐLNN độc lập thì chúng không t−ơng quan, điều ng−ợc lại ch−a
chắc đúng.
• Hệ số t−ơng quan đo mức độ phụ thuộc giữa hai ĐLNN X và Y .
Định lý:
Giả sử X, Y là hai ĐLNN. Khi đó:
−1 ≤ RXY ≤ 1
Và |RXY | = 1 khi và chỉ khi X và Y phụ thuộc tuyến tính (nghĩa là tồn tại các
hằng số a, b sao cho Y = aX + b. Hơn nữa RXY = 1 nếu a > 0; RXY = −1 nếu
a < 0.
This lesson was typed by pdfLATEX
19
C.- Một số dạng phân phối th−ờng dùng
1.- Phân phối nhị thức:
a) Định nghĩa 1:
ĐLNN X đ−ợc gọi là có phân phối nhị thức với hai tham số n và p (n là số
nguyên d−ơng, 0 < p < 1) nếu tập giá trị của X là {0, 1, ã ã ã , n} và với mọi
k; 0 ≤ k ≤ n thì:
P (X = k) = Cknp
kqn−k; q = 1− p
ở các ví dụ trên ta có:
EX = np
DX = npq
2.- Phân phối Poisson:
a) Định nghĩa 2:
ĐLNN X đ−ợc gọi là có phân phối Poisson với tham số λ > 0 nếu tập giá trị
của X là {0, 1, 2, ã ã ã } và với mọi k = 0, 1, 2, ã ã ã ta có:
P (X = k) =
λke−λ
k!
ở các ví dụ trên, ta có: EX = DX = λ
3.- Phân phối đều:
a) Định nghĩa 3:
ĐLNN X đ−ợc gọi là có phân phối đều trên [a, b] nếu hàm mật độ của nó có
dạng:
f(x) =
0 nếu x < a
1
b− a nếu a ≤ x ≤ b
0 nếu x > b
Hàm phân phối của ĐLNN X có dạng:
F (x) =
0 nếu x < a
x− a
b− a nếu a ≤ x ≤ b
1 nếu x > b
EX =
a+ b
2
; DX =
(b− a)2
12
This lesson was typed by pdfLATEX
20
4.- Phân phối mũ:
a) Định nghĩa 4:
ĐLNN X đ−ợc gọi là có phân phối mũ với tham số λ > 0 nếu hàm mật độ của
nó có dạng:
f(x) =
{
0 nếu x ≤ 0
λe−λx nếu x > 0
ở ví dụ trên, ta có: EX =
1
λ
; DX =
1
λ2
.
5.- Phân phối chuẩn:
a) Định nghĩa 5:
ĐLNN X đ−ợc gọi là có phân phối chuẩn với hai tham số a và σ2 nếu hàm mật
độ của nó có dạng
f(x) =
1
σ
√
2pi
e
−
(x− a)2
2σ2 ; x ∈ R
Ký hiệu: X ∼ N(a;σ2)
Hàm phân phối của X là:
F (x) =
1
σ
√
2pi
x∫
−∞
e
−
(t− a)2
2σ2 dt
ta có: EX = a, DX = σ2; σ =
√
DX
+ ĐLNN X đ−ợc gọi là có phân phối chuẩn tắc, ký hiệu X ∼ N(0, 1) nếu nó
có phân phối chuẩn với a = 0 và σ2 = 1, tức là là hàm mật độ f(x) và hàm phân
phối F (x) có dạng
f(x) =
1√
2pi
e
−
x2
2
F (x) =
1√
2pi
x∫
−∞
e
−
t2
2 dt.
Nếu X ∼ N(0, 1) thì EX = 0; DX = 1
This lesson was typed by pdfLATEX
21
Quan sát đồ thị hàm mật độ của các ĐLNN có cùng tham số a (a = 0) và
ph−ơng sai khác nhau. Ta nhận thấy nếu σ tăng thì hàm mật độ "co" gần với trục
Ox và nếu σ giảm hàm mật độ "dãn" dọc theo trục Oy (h.a).
(h.b) mô tả hàm mật độ với ph−ơng sai bằng nhau và kỳ vọng a khác nhau.
b) Định lý:
Nếu X ∼ N(a, σ2) thì Y = X − a
σ
∼ N(0; 1).
Trong các giáo trình XSTK ng−ời ta lập sẵn các bảng giá trị của hàm mật độ
và hàm phân phối của ĐLNN có phân phối chuẩn tắc.
Hàm mật độ chuẩn chính tắc th−ờng đ−ợc ký hiệu là:
ϕ(x) =
1√
2pi
e
−
x2
2
Ta có ngay ϕ(−x) = ϕ(x); lim
x→∞ϕ(x) = 0. Do đó bảng giá trị của ϕ(x) chỉ đ−ợc
lập với x > 0; ϕ(x) ≈ ϕ(5) ≈ 0, 5, với x ≥ 5
Để thuận tiện, ng−ời ta sử dụng hàm:
Φ(x) =
1√
2pi
x∫
0
e
−
t2
2 dt
Ta có: Φ(x) là hàm lẻ và lim
x→+∞Φ(x) =
1
2
. Do đó bảng giá trị của Φ(x) chỉ đ−ợc
lập với x > 0, Φ(x) ' Φ(4) ∼ 1
2
; x ≥ 4.
Nếu F (x) là hàm phân phối của ĐLNN có phân phối chuẩn tắc thì:
F (x) = Φ(x) +
1
2
; x ≥ 0
c) Định lý:
This lesson was typed by pdfLATEX
22
Nếu X ∼ N(a, σ2) thì:
i) Nếu Z ∼ N(0, 1) thì: P (Z < α) =
Φ(α) +
1
2
nếu α > 0
−Φ(α) + 1
2
nếu α < 0
ii) Nếu X ∼ N(a, σ2) thì: P (α ≤ X ≤ β) = P (α− a
σ
< Z <
β − a
σ
), với
Z =
X − a
σ
iii) P (
|X − a|
σ
≤ ) = 2Φ(
σ
)
d) Qui tắc 3σ:
Theo Định lý trên (iii) nếu đặt ≤ σt thì:
P (|X − a| ≤ σt) = 2Φ(t)
Cho t = 1 ta có:
P (|X − a| ≤ σ) = 2Φ(1) = 0, 6827
Cho t = 2 ta có:
P (|X − a| ≤ 2σ) = 2Φ(1) = 0, 9545
Cho t = 3 ta có:
P (|X − a| ≤ 3σ) = 2Φ(3) = 0, 9973
Nh− vậy, xác suất để độ lệch giữa các giá trị ĐLNN X có phân phối chuẩn với
kỳ vọng của nó về giá trị tuyệt đối không v−ợt quá 3σ bằng 0, 9973. Điều đó nghĩa
là, hầu hết các giá trị của ĐLNN X rơi vào khoảng (a− 3σ; a+3σ). Qui tắc nầy
gọi là qui tắc 3σ và nó th−ờng đ−ợc sử dụng trong thống kê.
Ví dụ:
Hãy tìm xác suất để ĐLNN X có phân phối chuẩn với kỳ vọng bằng 3, ph−ơng
sai bằng 4 nhận giá trị:
1) Trong khoảng (−1, 5)
2) Không quá 8
3) Không bé hơn 5
4) Trong khoảng (−3; 9)
Giải:
Ta có X ∼ N(3, 4); a = 3 và σ = √4 = 2, đặt Z = X − 3
2
1) Ta có:
This lesson was typed by pdfLATEX
23
P (−1 < X < 5) = P (X < 5) − P (X < −1) = P (Z < 1) − P (Z < −2) =
Φ(1) + Φ(2) = 0, 3413 + 0, 4772 = 0, 8185.
2) P (X ≤ 8) = P (Z < 2, 5) = Φ(2, 5) + 0, 5 = 0, 4938 + 0, 5 = 0, 9938.
3) P (X ≥ 5) = 1− P (Z ≤ 1)) = 1
2
− Φ(1) = 0, 5− 0, 3413 = 0, 1587.
4) P (−3 ≤ X ≤ 9) = P (−6 ≤ X − 3 ≤ 6) = P (|X − a| ≤ 3σ) = 0, 9973
6.- Phân phối Student:
a) Định nghĩa 6:
ĐLNN X đ−ợc gọi là có phân phối T (gọi là phân phối Student) với n bậc tự
do nếu hàm mật độ của nó có dạng:
f(x) =
1√
npi
.
Γ(
n+ 1
2
)
Γ(
n
2
)
.
(
1 +
x2
n
)−n+12
Ta có: EX = 0 nếu n > 1; DX =
n
n− 2 nếu n > 2.
Phân phối Student không có kỳ vọng khi n ≤ 1 và không có ph−ơng sai khi
n ≤ 2.
Phân phối Student đóng vai trò quan trọng trong thống kê.
Với n = 1 thì phân phối Student đ−ợc gọi là phân phối Cauchy.
7.- Phân phối χ2 (khi bình ph−ơng):
a) Định nghĩa 7:
ĐLNN X đ−ợc gọi là phân phối khi bình ph−ơng với n bậc tự do, ký hiệu là
χ2(n), nếu hàm mật độ của nó có dạng:
f(x) =
0 nếu x ≤ 0
1
Γ(
n
2
).2
n
2
.x
n
2−1.e−
x
2 nếu x > 0
Ta có:
E(χ2(n)) = n; D(χ2(n)) = 2n.
This lesson was typed by pdfLATEX
24
b) Định lý:
Giả sử X1, X2, ã ã ã , Xn là các ĐLNN độc lập và có phân phối chuẩn chính tắc.
Khi đó:
χ2 = X21 +X
2
2 + ã ã ã+X2n
có phân phối χ2 với n bậc tự do.
8.- Phân phối F (phân phối Fisher):
a) Định nghĩa 8:
ĐLNN X đ−ợc gọi là có phân phối F (phân phối Fiher) với (m,n) bậc tự do
nếu hàm mật độ của nó có dạng:
f(x) =
0 nếu n ≤ 0
(
m
n
)
m
2 .
Γ(
m+ n
2
)
Γ(m2 ).Γ(
n
2 )
.x
m
2 −1(1 +
m
n
x)−
m+1
2 nếu x > 0
ta có: EX =
n
n− 2 với n > 2
DX =
2n2(m+ n− 2)
m(n− 2)2(n− 4) với n > 4.
Với n ≤ 2 thì phân phối F không có kỳ vọng; với n ≤ 4 phân phối F không
có ph−ơng sai.
b) Định lý:
Giả sử X1, X2, ã ã ã , Xm; Xm+1, ã ã ã , Xm+n là m+n ĐLNN độc lập và có cùng
phân phối chuẩn tắc. Khi đó:
F =
1
m
m∑
k=1
X2k
1
n
n∑
k=1
X2m+k
có phân phối F với (m,n) bậc tự do.
c) Hệ quả:
Nếu X và Y là hai ĐLNN độc lập có có phân phối χ2 với m và n bậc tự do
t−ơng ứng thì ĐLNN
1
mX
1
nY
có phân phối F với (m,n) bậc tự do.
This lesson was typed by pdfLATEX
25
D.- Một số định lý giới hạn
Trong dãy n phép thử Bernouilli chúng ta đã xay dựng công thức tính xác suất
để biến cố A xuất hiện đúng k lần là:
Pn(k) = C
k
np
kqn−1; q = 1− p.
Tuy nhiên với với n lớn thì việc tính xác suất nầy gặp nhiều khó khăn. Trong
mục nầy chúng ta sẽ đ−a ra một công thức dùng để tính gần đúng xác suất nói
trên.
1.- Định lý giới hạn Poisson:
Định lý 1 :
Giả sử trong dãy n phép thử Bernouilli, xác suất xuất hiện biến cố A trong mỗi
phép thử là p phụ thuộc vào n và dần tới 0 khi n → ∞ sao cho lim
x→∞np = λ(0 <
λ < +∞)
Khi đó : lim
x→∞Pn(k) =
λke−λ
k!
; k = 0, 1, 2, ã ã ã
Do đó với n đủ lớn, ta có công thức gần đúng:
Pn(k) =
λke−λ
k!
; λ = np (1)
Công thức (1) dùng để tính gần đúng xác suất Pn(k) trong tr−ờng hợp xác suất
p gần bằng 0 hoặc gần bằng 1.
Ví dụ 1:
Bắn các viên đạn vào mục tiêu một cách độc lập, xác suất trúng đích của mỗi
viên đạn bằng 0, 001. Để diệt mục tiêu cần ít nhất hai viên đạn trúng mục tiêu.
Tính xác suất để mục tiêu bị diệt khi bắn 5000 viên đạn.
Giải:
Gọi X là số đạn trúng mục tiêu, ta cần phải tính xác suất:
P (X ≥ 2) = 1− P (X < 1) = 1− P5000(0)− P5000(1)
áp dụng công thức (1) với P = 0, 001; n = 5000, ta có:
λ = np = (5000).(0, 001) = 5.
Vậy P (X ≥ 2) = 1− e−5 − 5.e−5 = 1− 6.e−5 ' 1− 6.(0, 00674) ' 0, 9596.
Chú ý: Ng−ời ta lập sẵn bảng tính các giá trị của phân phối Poisson với các giá
trị khác nhau của tham số λ.
2.- Định lý giới hạn địa ph−ơng (định lý Moivre):
This lesson was typed by pdfLATEX
26
Định lý 2 :
Nếu xác suất p của biến cố A thỏa mãn điều kiện 0 < p < 1 thì với n đủ lớn
ta có:
Pn(k) =
1√
npq
ϕ(x) (2)
ở đó: ϕ(x) =
1√
2pi
e−
x2
2 và x =
k − np√
npq
.
Chú ý: Nếu xác suất p gần bằng 0 hoặc gần bằng 1 thì khi tính xác suất Pn(k)
mà áp dụng công thức (2) thì sai số chỉ nhỏ khi số l−ợng phép thử lớn.
Ví dụ 2:
Xác suất để một sản phẩm bị hỏng là p = 0, 005. Hãy tính xác suất để tổng số
10.000 sản phẩm đ−ợc lấy ngẫu nhiên có đúng 40 sản phẩm hỏng.
Giải:
Ta có dãy n = 10.000 phép thử Bernouili với p = 0, 005.
Ta cần phải tính: P10.000(40) = C4010.000.(0, 995)
9960.
Ta có: √
npq =
√
10.000(0, 005).(0, 995) ' 7, 05
x =
40− np√
npq
= −1, 42.
ϕ(−1, 41) = ϕ(1, 42) = 0, 1456.
Vậy P10.000(40) ' 0, 1456
7, 05
' 0, 0207.
Chú ý: Nếu tính đúng theo công thức Bernouilli thì xác suất P10.000(4) = 0, 0197.
Sai số của công thức (2) ở đây là 0, 001.
3.- Định lý giới hạn tích phân (định lý Laplace):
Định lý 3:
Nếu xác suất p của biến cố A thỏa mãn 0 < p < 1 thì với n đủ lớn ta có xác
suất để biến cố A xuất hiện k lần (a ≤ k ≤ b) đ−ợc tính gần đúng theo công thức:
P [a ≤ k ≤ b] ≈ ϕ(β)− ϕ(α). (3)
ở đây β =
b− np√
npq
; α =
a− np√
npq
Φ(x) =
1√
2pi
x∫
0
e−
t2
2 dt
This lesson was typed by pdfLATEX
27
Ví dụ 3:
Xác suất để một trẻ sơ sinh là con trai bằng p = 0, 515. Tính xác suất để trong
1.200 trẻ sơ sinh có từ 550 đến 650 con trai.
Giải:
Ta có: n = 1200; p = 0, 515; q = 0, 485; a = 550; b = 650
np = 1200(0, 515) = 618.√
npq =
√
618.(0, 485) ' 17, 32.
α =
a− np√
npq
=
550− 618
17, 32
' −3, 85.
β =
b− np√
npq
=
650− 618
17, 32
' 1, 85.
Φ(β) = Φ(1, 85) = 0, 4680; Φ(α) = Φ(−3, 35) = −Φ(3, 35) = −0, 4995.
Vậy theo công thức (3) ta có:
p[550 ≤ k ≤ 650] ≈ 0, 4680− (−0, 4995) ' 0, 9675.
Ví dụ 4:
Xác suất để một sản phẩm là loại I bằng 0, 6. Tính xác suất để trong 1000 sản
phẩm thì độ lệch giữa tần suất
k
n
để một sản phẩm là loại I so với xác suất 0, 6
không v−ợt quá 0, 05.
Giải:
Ta phải tínhh P [|k
n
− p| ≤ ε].
Vì
P
[
|k
n
− p| ≤ ε
]
= P
[
np− nε ≤ k ≤ np+ nε]
' Φ( nε√
npq
)− Φ( −nε√
npq
) = 2Φ
( ε√
pq
n
)
Vậy P
[
|k
n
− p| ≤ ε
]
≈ 2Φ
( ε√
pq
n
)
. (4)
Để tính xác suất trong ví dụ 4 ta áp dụng công thức (4) với n = 1000; p =
0, 6; q = 0, 4; ε = 0, 05.
Đặt t =
ε√
pq
n
=
ε
√
n√
np
=
0, 05.
√
1000√
0, 6.0, 4
≈ 3, 23.
2Φ(3, 23) = 0, 9988.
Vậy P
[| k
1000
− 0, 6|] ≤ 0, 05 ≈ 0, 9988.
This lesson was typed by pdfLATEX
1PHầN II:
THốNG Kê ToáN Học
CH−ơNG III:
THốNG Kê Mô tả
1. MẫU NGẫU NHIêN
1.1. Tổng thể và mẫu
1.1.1. Tổng thể
Tổng thể (còn đ−ợc gọi là tập hợp chính), là tập hợp tất cả các phần tử do mục
đích và phạm vi vấn đề cần nghiên cứu qui định.
Đối với tổng thể, ta sử dụng một số khái niệm và ký hiệu sau:
i) N : Số phần tử của tổng thể và đ−ợc gọi là kích th−ớc (cỡ) của tổng thể.
ii) H: Dấu hiệu mà ta khảo sát (trong kinh tế đ−ợc gọi là chỉ tiêu, trong vật
lý gọi là đại l−ợng). Cần nhấn mạnh rằng, ta không nghiên cứu trực tiếp bản thân
tổng thể mà chỉ nghiên cứu dấu hiệu H của nó .
iii) xi, i = 1, k: là những giá trị của dấu hiệu H đo đ−ợc trên các phần tử của
tổng thể , xi là thông tin mà ta cần đến, còn phần tử của tổng thể là vật mang
thông tin.
iv) Ni, i = 1, k: tần số của xi là số phần tử của tổng thể có chung giá trị xi ấy.
v) pi, i = 1, k: tần suất của xi là tỷ số giữa tần số của xi và kích th−ớc của
tổng thể
pi =
Ni
N
Biểu diễn sự t−ơng ứng của các giá trị xi và tần suất pi đ−ợc gọi là bảng cơ cấu
của tổng thể theo dấu hiệu H.
Bảng nầy có dạng:
Giá trị
của H
x1 x2 ã ã ã xi ã ã ã xk
Tần suất
pi
p1 p2 ã ã ã pi ã ã ã pk
(Bảng 1)
2Bảng này mô tả đầy đủ dấu hiệu H, nh−ng phải sử dụng nhiều số liệu. Vì vậy
để phân tích dấu hiệu H ng−ời ta th−ờng tóm tắt bảng trên bằng các số đặc tr−ng
sau đây:
a) Trung bình của dấu hiệu H hay trung bình của tổng thể, ký hiệu là m và đ−ợc
xác định bởi:
m =
k∑
i=1
pixi. (3.1)
b) Ph−ơng sai của dấu hiệu H hay ph−ơng sai tổng thể ký hiệu σ2 đ−ợc xác định
bởi công thức:
σ2 =
k∑
i=1
(xi −m)2pi. (3.2)
với m là trung bình tổng thể .
c) Độ lệch tiêu chuẩn của dấu hiệu H hay độ lệch tiêu chuẩn của tổng thể, ký hiệu
σ, đ−ợc xác định bởi công thức:
σ =
√
σ2 =
√√√√ k∑
i=1
(xi −m)2pi. (3.3)
1.1.2. Khái niệm mẫu
Khi nghiên cứu một đặc điểm, tính chất nào đó của tổng thể ta có thể tiến hành
theo hai ph−ơng pháp sau:
a) Ph−ơng pháp điều tra toàn bộ: Mọi phần tử của tổng thể đều đ−ợc khảo sát.
Ưu điểm:
các kết luận rút ra phản ánh đúng bản chất của tổng thể.
Nh−ợc điểm:
- Chi phí lớn về tiền của, thời gian, nhân lực, ph−ơng tiện ã ã ã
- Quá trình điều tra cũng chính là quá trình phá hủy các phần tử đ−ợc điều tra,
- Có những tr−ờng hợp ta không xác định đ−ợc toàn bộ N phần tử của tổng thể
...
Chính vì lý do trên nên ph−ơng pháp điều tra toàn bộ ít đ−ợc thực hiện.
b) Ph−ơng pháp điều tra mẫu:
• Từ tổng thể ta lấy ra n phần tử (tập con của tổng thể) n << N
và đo l−ờng giá trị của dấu hiệu H trên chúng.
• Từ đó rút ra các kết luận khoa học trên mẫu rồi suy rộng cho toàn bộ tổng
thể.
Ưu điểm:
- Thu thập, xử lý và khai thác nhanh,
3- Toàn diện.
• Yêu cầu: Mẫu phải đại diện đ−ợc cho tổng thể do đó khi lấy mẫu phải đảm
bảo tính ngẫu nhiên của mẫu, không chọn mẫu theo một tiêu chuẩn chủ quan định
tr−ớc.
1.2. Ph−ơng pháp lấy mẫu:
1.2.1. Mẫu có hoàn lại (có lặp):
Trong tổng thể gồm N phần tử ta chọn một phần tử khảo sát và ghi lại kết quả
X1. Trả lại phần tử đó vào tổng thể tr−ớc khi chọn phần tử tiếp theo để khảo sát
ã ã ã , cứ lặp lại nh− thế đến lần thứ n ta nhận đ−ợc một mẫu với số liệu về dấu hiệu
đang khảo sát là (X1, X2, ã ã ã , Xn). Mẫu này đ−ợc gọi là mẫu ngẫu nhiên hoàn lại
(có lặp).
1.2.2. Mẫu ngẫu nhiên không hoàn lại (không lặp):
Từ tổng thể gồm N phần tử, ta chọn ra một phần tử, khảo sát và ghi lại kết quả
X1. Bỏ phần tử đó sang một bên tr−ớc khi chọn phần tử tiếp theo để khảo sát tiếp,
ã ã ã cứ lặp lại nh− thế cho đến lần thứ n ta đ−ợc mẫu với số liệu về dấu hiệu đang
khảo sát là (X1, X2, ã ã ã , Xn). Mẫu này đ−ợc gọi là mẫu ngẫu nhiên không hoàn
lại (không lặp).
Chú ý: Hai mẫu nói trên đ−ợc gọi là mẫu ngẫu nhiên đơn giản. Nhờ các định lý
giới hạn trong lý thuyết xác suất ng−ời ta đã chứng minh đ−ợc rằng khi số phần tử
tổng thể vừa đủ lớn thì có thể coi hai mẫu có lặp và không lặp là nh− nhau.
Có thể kể thêm một số ph−ơng pháp sau:
1.3. Mẫu đ−ợc chọn theo ph−ơng pháp cơ học:
1.4. Ph−ơng pháp điển hình:
1.5. Ph−ơng pháp phân dãy:
1.6. Sắp xếp các số liệu thực nghiệm theo nhóm:
Trên thực tế có nhiều bài toán liên quan đến việc xử lý số liệu thực nghiệm giải
đ−ợc nhờ việc phân chia nhóm. Các bài toán này th−ờng đ−ợc chia làm 3 loại sau:
- Chia toàn bộ tập mẫu thành các tập con gồm các phần tử có đặc tính thuần
nhất nh− nhau.
- Nghiên cứu từng phần của tập mẫu theo dấu hiệu này hay dấu hiệu khác.
- Nghiên cứu sự thay đổi phụ thuộc giữa các dấu hiệu trong phạm vi tập này
hay tập khác.
1.7. Sắp xếp các số liệu thực nghiệm theo dãy các giá trị
khác nhau của biến:
Có hai loại số liệu: số liệu cho d−ới dạng giá trị rời rạc của X hoặc số liệu các
giá trị trong một khoảng liên tục của X .
4Ví dụ sau đây là một tr−ờng hợp số liệu cho d−ới dạng rời:
Ví dụ 1: Điểm thi chứng chỉ XSTK của một nhóm sinh viên ĐHKH đ−ợc thu thập
nh− sau:
5 2 2 5 4 3 4 4 3 3 2 2 1 1 4 4 2 2 5
Ta sắp xếp các giá trị theo thứ tự tăng dần:
Và thấy dấu hiệu X có 5 giá trị khác nhau.
Ta lập bảng phân phối tần số sau:
X 1 2 3 4 5
ni 2 6 3 5 3
tần số của giá trị 1 là 2, tần số của giá trị 2 là 6, ã ã ã
Xi ni pi =
ni
n
Σpi
1 2 0, 0105 0, 105
2 6 0, 316 0, 421
3 3 0, 158 0, 579
4 5 0, 263 0, 842
5 3 0, 158 1, 000
Σ 1
Bảng này cho một xấp xỉ luật phân bố của ĐLNN X .
Ví dụ 2: Xét năng suất của công nhân x−ởng cơ khí trong một năm tính ra phần
trăm. Kết quả điều tra 117 công nhân nh− sau:
113 85 85 91 101 109 86 102 111 98
105 185 112 98 112 113 87 109 115 99
105 111 94 107 99 107 89 104 113 96
103 145 104 105 88 103 97 115 109 108
107 97 106 107 96 109 116 109 117 108
109 119 116 117 103 127 119 118 125 105
116 117 106 101 113 107 105 119 107 119
111 112 129 113 106 104 104 106 106 98
123 108 93 105 106 139 108 109 93 107
117 107 118 99 108 108 119 98 108 109
109 128 128 127 121 118 122 116 124 125
126 131 141 143 125 89 101
5Ph−ơng pháp chia khoảng:
Việc chia khoảng có thể đ−ợc tiến hành theo nhiều cách khác nhau.
Số khoảng: từ 6 đến 12 khoảng, xấp xỉ k = 1 + 3, 322 lg n
Độ dài khoảng: h =
x∗ − x∗
k
Với x∗ ≤ xmin, x∗ ≥ xmax
Nếu gọi ai là đầu mút trái của khoảng thứ i thì:
a1 = x∗ − h
2
; a2 = a1 + h; a3 = a2 + h, ã ã ã
tiếp tục làm cho tới lúc mút đầu của khoảng bằng hoặc bé hơn xmax.
Số liệu ở ví dụ 2 có thể biểu thị bởi bảng sau:
1.8. Các loại bảng:
Sau khi sắp xếp số liệu quan sát (mẫu) ở 1.4 ta th−ờng trình bày trên một bảng
số liệu để xử lý cho thuận lợi. Vậy bảng là gì ? Cơ sở để hình thành bảng số, các
loại bảng sẽ đ−ợc trình bày lần l−ợt ở d−ới đây.
Bảng là hình chữ nhật gồm nhiều dòng kẻ ngang, kẻ dọc tạo thành c ác ô nhỏ.
Trong các ô nhỏ trống dùng để điền các chữ hoặc số (dữ liệu) cần thiết. Cơ sở toán
học để hình thành các loại bảng là ma trận.
Đơn giản nhất là ma trận một hàng hay một cột, còn phần lớn là ma trận chữ
nhật, các phần tử của nó là những con số hoặc những chữ. Trong
Ví dụ với số liệu trong bài toán phân tích ph−ơng sai hai yếu tố, ta phải dùng
đến ma trận khối để mô tả biến hai chiều.
Ví dụ 3: Xét tác dụng của hai loại phân A và B đến năng suất cà chua. Kết quả
quan sát đ−ợc cho ở bảng d−ới đây (bảng 3)
6AB p.m B1 p.m. B2
p.m. A1 120 123 125 140 118 117 100 200
p.m. A2 125 123 130 135 110 120 125 130
p.m. A3 115 140 130 135 120 115 130 140
Ví dụ 4: Phân bố sinh viên ở ba hệ trong 3 năm ở một n−ớc X (đầu năm học )
nh− sau: (Bảng 4)
s.viên đ. vị n.ng−ời tổng qui ra p.trăm
hệ 73-74 74-75 75-76 73-74 74-75 75-76
c.qui 2463 2538 2628 53 54 54
b.ch. 627 632 644 13 13 13
t.chức 1581 1581 1582 34 33 33
tổng 4671 4751 4854 100 100 100
Có hai loại bảng: Bảng đơn giản và bảng phức hợp.
Bảng đơn giản là bảng không chứa nhóm; Bảng phức hợp là bảng chứa từ 1
nhóm trở lên. Loại bảng này có thể tách ra làm hai loại : Bảng nhóm và bảng tổ
hợp.
Bảng nhóm là bảng thống kê mà trong bảng này ta nghiên cứu các đối t−ợng
đ−ợc phân chia vào từng nhóm theo dấu hiệu này hay dấu hiệu khác .
Bảng tổ hợp là bảng mô tả nhóm tổ hợp. Bảng nhiều chiều (ví dụ 3) mô tả nhóm
nhiều chiều.
Các loại bảng đó trình bày các dữ liệu cần thiết giúp ta rút ra đ−ợc các qui luật
ngẫu nhiên của hệ thống các hiện t−ợng ngẫu nhiên, phát hiện đ−ợc sự tác động
của các yếu tố bên ngoài đến tính chất của cá thể trong tập các đối t−ợng nghiên
cứu, phát hiện đ−ợc các yếu tố bị mất đi hoặc mới đ−ợc nẩy sinh trong các đối
t−ợng đ−ợc nghiên cứu khi chịu những tác động bên ngoài, tìm ra đ−ợc mối quan
hệ phụ thuộc giữa các dấu hiệu.
Mỗi loại bảng cho phép ta khai thác đ−ợc những vấn đề khác nhau. Ví dụ 3 cho
phép khai thác đ−ợc sự ảnh h−ởng của loại phân A,B đến sản l−ợng cà chua và sự
ảnh h−ởng t−ơng hỗ AB đến năng suất cà chua.
Ta cũng có thể −ớc l−ợng đ−ợc năng suất cà chua nói chung hoặc năng suất ở
từng mức bón phân Ai, Bj. Bảng trong ví dụ 4 cho phép hiểu đ−ợc phân bố sinh
viên 3 hệ thống hàng năm ở n−ớc đó và biết đ−ợc mối t−ơng quan hỗ t−ơng giữa
số l−ợng sinh viên và thời gian đào tạo, ta có thể so sánh số l−ợng trung bình của
sinh viên trong 3 hệ, ã ã ã
71.9. Đa giác tần số và tổ chức đồ:
Cho mẫu quan sát của mẫu ngẫu nhiên (X1, ã ã ã , Xn) về dấu hiệu H nh− sau:
giá trị của H x1 x2 ... xi ... xk
tần số ni n1 n2 ... ni ... nk
n1 + n2 + ã ã ã+ nk = n
1.9.1. Định nghĩa:
Đa giác tần số là đ−ờng nối các điểm (xi, ni); i = 1, k
Nếu đặt pi =
ni
n
; i = 1, k ta có định nghĩa:
1.9.2. Định nghĩa:
đa giác tần suất là đ−ờng nối các điểm (xi, pi); i = 1, k
Ví dụ 6: Với số liệu về năng suất của công nhân ở ví dụ 2, ta có đa giác tần số:
1.9.3. Tổ chức đồ:
Dạng này chủ yếu mô tả luật phân phối thực nghiệm của ĐLNN X trên cơ sở
mẫu quan sát cho d−ới dạng giá trị thay đổi theo từng khoảng.
Tổ chức đồ tần số là một hình bậc thang gồm những hình chữ nhật có đáy trùng
với trục hoành, độ dài cạnh đáy của hình chữ nhật thứ i là chiều dài của khoảng
thứ i, còn chiều cao vuồng góc với trục hoành là
ni
h
, trong đó h là độ dài khoảng;
còn trong tổ chức đồ tần suất thì chiều cao có độ lớn là
ni
nh
.
8Trong tổ chức đồ tần suất, diện tích của hình chữ nhật thứ i là h.
ni
h
= ni nó
chính là tần số xuất hiện giá trị quan sát ni.
Diện tích hình bậc thang: h.
n1
h
+ h.
n2
h
+ ã ã ã+ h.nk
h
= n nó chính là kích th−ớc
của mẫu.
Đối với tổ chức đồ tần suất, ta có:
Diện tích của hình chữ nhật t−ơng ứng thứ i là h.
pi
h
= pi là tần suất xuất hiện
quan sát xi. Còn diện tích hình bậc thang t−ơng ứng là: h.
p1
h
+h.
p2
h
+ã ã ã+h.pk
h
= 1
Ví dụ 7: Tổ chức đồ của số liệu năng suất ở ví dụ 2:
Khi vẽ biểu đồ hình chữ nhật có thể phác họa đ−ờng cong chuẩn xấp xỉ phân
phối của số liệu thu đ−ợc, chẳng hạn với số liệu ở bảng trên ta có thể vẽ thêm
đ−ờng cong chuẩn nh− sau:
9Ví dụ 8: Biểu đồ hình quạt biểu thị điểm XSTK ví dụ1:
Thực chất của biểu đồ này là hình ảnh thống kê mô tả xác suất để giá trị
x1, x2, ã ã ã , xn của dấu hiệu đang nghiên cứu xuất hiện trong một phép thử.
Ví dụ 9: Thống kê kết quả các học phần của sinh viên năm thứ ba khóa 2002 -
2006, ta có các loại biểu bảng sau:
2. Mô Hình xác suất của tổng thể Và MẫU
Có thể sử dụng công cụ toán học để mô tả khái quát các khái niệm: tổng thể
, dấu hiệu nghiên cứu và mẫu đã trình bày ở trên, tức là đang xây dựng mô hình
toán học cho chúng.
2.1. Đại l−ợng ngẫu nhiên gốc và qui luật phân phối gốc:
Từ bảng 3.5 ta thấy có thể mô hình hóa dấu hiệu H bằng một ĐLNN. Thật vậy,
nếu lấy ngẫu nhiên từ tổng thể ra một phần tử và gọi X là giá trị của dấu hiệu H
đo đ−ợc trên phần tử lấy ra đó thì X là ĐLNN có phân phối xác xuất nh− sau:
Bảng 3.1:
X x1 x2 ... xi ... xk
p p1 p2 ... pi ... pk
Nh− vậy, dấu hiệu H mà ta nghiên cứu đ−ợc mô hình hóa bởi ĐLNN X còn cơ
cấu của tổng thể theo dấu hiệu H chính là qui luật phân phối xác suất của X .
Đại l−ợng ngẫu nhiên X đ−ợc gọi là ĐLNN gốc. Qui luật phân phối của nó
đ−ợc gọi là qui luật phân phối gốc.
10
11
12
13
14
2.2. Các tham số của ĐLNN gốc:
2.2.1. Kỳ vọng toán:
Với qui luật phân phối xác suất cho ở bảng 3.5 theo định nghĩa kỳ vọng toán
của X là:
E(X) =
k∑
k=1
pixi
ta thấy đây chính là trung bình tổng thể (bảng 3.1).
Nh− vậy trung bình của tổng thể chính là kỳ vọng toán của ĐLNN X .
2.2.2. Ph−ơng sai:
Theo định nghĩa của ph−ơng sai ta có :
DX =
k∑
i=1
(
xi − E(X)
)2
pi
nh−ng E(X) = m nên: DX =
k∑
i=1
(
xi −m
)2
pi
Nh− vậy ph−ơng sai của ĐLNN X chính là ph−ơng sai tổng thể.
2.3. Mẫu ngẫu nhiên:
Giả sử từ tổng thể lấy ra n phần tử, tạo nên mẫu có kích th−ớc n theo ph−ơng
thức có hoàn lại .
Gọi Xi là giá trị của dấu hiệu H đo đ−ợc trên phần tử thứ i (i = 1, 2, ã ã ã , n)
của mẫu . Vì các phần tử đ−ợc lấy ra theo ph−ơng thức có lặp nên X1, X2, ã ã ã , Xn
là các ĐLNN độc lập, có cùng qui luật phân phối xác suất với X .
Vậy n phần tử thuộc mẫu, nếu gạt bỏ các hình thức cụ thể, đ−ợc mô tả bằng
n ĐLNN X1, X2, ã ã ã , Xn. Do vậy có thể khái quát để định nghĩa mẫu ngẫu nhiên
nh− sau:
Cho ĐLNN X với qui luật phân phối xác suất F (x) nào đó, một mẫu ngẫu
nhiên kích th−ớc n đ−ợc thành lập từ ĐLNN X là n ĐLNN độc lập; có cùng qui
luật phân phối xác suất F (x) với ĐLNN X .
Ký hiệu mẫu ngẫu nhiên kích th−ớc n đ−ợc xây dựng từ ĐLNN X là WX =
(X1, X2, ã ã ã , Xn).
Thực hiện một phép thử đối với mẫu ngẫu nhiên WX , tức là thực hiện một phép
thử đối với mỗi thành phần Xi của mẫu:
15
Giả sử Xi nhận giá trị xi (i = 1, 2, ã ã ã , n). Tập hợp n giá trị x1, x2, ã ã ã , xn tạo
thành một giá trị của mẫu ngẫu nhiên, hay còn đ−ợc gọi là mẫu cụ thể, đ−ợc ký
hiệu là:
wX = (x1, x2, ã ã ã , xn)
Ví dụ: Gọi X là số chấm xuất hiện khi tung con xúc sắc, X là ĐLNN với bảng
phân phối xác suất nh− sau:
X 1 2 3 4 5 6
p 16
1
6
1
6
1
6
1
6
1
6
Nếu tung con xúc sắc 5 lần và ký hiệu Xi là số chấm xuất hiện trong lần tung
thứ i (i = 1, 5), ta có 5 ĐLNN độc lập, có cùng qui luật phân phối xác suất với
X . Vậy ta có mẫu ngẫu nhiên kích th−ớc n = 5 đ−ợc xây dựng từ ĐLNN gốc X:
WX = (X1, X2, X3, X4, X5)
Thực hiện một phép thử đối với mẫu ngẫu nhiên này, tức là tung 5 lần một con
xúc sắc:
Giả sử số chấm xuất hiện ở lần tung thứ nhất là 4.
Giả sử số chấm xuất hiện ở lần tung thứ hai là 5.
Giả sử số chấm xuất hiện ở lần tung thứ ba là 2.
Giả sử số chấm xuất hiện ở lần tung thứ t− là 6.
Giả sử số chấm xuất hiện ở lần tung thứ năm là 4.
Khi đó, ta có một giá trị của mẫu ngẫu nhiên là:
wX = (4, 5, 2, 6, 4).
Thực hiện một phép thử khác đối với WX ta lại đ−ợc một giá trị khác của nó,
chẳng hạn: wX = (6, 3, 5, 4, 2).
3. Hàm PHân PHốI THực NGHIệM Và Các đặc TR−NG Của MẫU NGẫU NHIêN
3.1. Hàm phân phối thực nghiệm:
ở phần trê n ta thấy rằng một mẫu ngẫu nhiên WX = (X1, X2, ã ã ã , Xn) là một
đại diện cho một ĐLNN X có hàm phân phối F (x) nào đó. Các bài toán thực tiễn
về thực chất mà nói là dựa vào mẫu ngẫu nhiên đã thu đ−ợc để nghiên cứu các tính
chất đặc tr−ng của X . Chính vì lẽ đó mà ta cần xây dựng các mô hình −ớc l−ợng
cho các đặc tr−ng của X nh− hàm phân phối, kỳ vọng toán, ph−ơng sai, ã ã ã
Từ khái niệm về mẫu ở trên ta thấy rằng, bằng cùng một ph−ơng pháp ta có thể
lấy ra nhiều mẫu cùng kích th−ớc khác nhau. Tập hợp tất cả các mẫu có thể lấy ra
16
đ−ợc từ tổng thể đ−ợc gọi là không gian mẫu. Ta có thể hình dung không gian mẫu
là không gian n chiều và mỗi mẫu đ−ợc biểu thị bởi một điểm của không gian này.
Không gian mẫu ứng với không gian các sự kiện sơ cấp và mỗi mẫu ứng với sự
kiện sơ cấp trong lý thuyết xác suất.
Giả sử ta đang nghiên cứu ĐLNN X với hàm phân phối F (x) đã biết hoặc ch−a
biết. Ta thành lập mẫu ngẫu nhiên kích th−ớc n
WX = (X1, X2, ã ã ã , Xn)
Định nghĩa: Ta gọi hàm F (x) là hàm phân phối thực nghiệm t−ơng ứng với mẫu
WX = (X1, X2, ã ã ã , Xn) nếu hàm đó đ−ợc xác định bởi công thức:
F (x) =
0 nếu x ≤ min {X1, X2, ã ã ã , Xn}
k
n
nếu có k p.tử bé hơn x
1 nếu max {X1, X2, ã ã ã , Xn} < x
Về thực chất thì hàm phân phối thực nghiệm là một −ớc l−ợng (xấp xỉ) của hàm
phân phối f(x) dựa trên mẫu WX .
3.2. Các đặc tr−ng của mẫu ngẫu nhiên:
Để nghiên cứu ĐLNN gốcX , nếu dừng lại ở mẫu ngẫu nhiênWX = (X1, X2, ã ã ã , Xn)
thì ch−a giải quyết vấn đề gì, bởi các ĐLNN Xi có cùng qui luật phân phối xác
suất với X mà ta ch−a biết đ−ợc hoàn toàn. Vì vậy ta cần phải liên kết hay tổng
hợp các đại l−ợng X1, X2, ã ã ã , Xn lại, sao cho ĐLNN mới thu đ−ợc có những tính
chất mới, có thể đáp ứng đ−ợc những yêu cầu giải đ−ợc bài toán khác nhau về
ĐLNN gốc.
Trong thống kê toán học , việc tổng hợp mẫu WX = (X1, X2, ã ã ã , Xn) đ−ợc
thực hiện d−ới dạng hàm của các ĐLNN X1, X2, ã ã ã , Xn ký hiệu
G = f(X1, X2, ã ã ã , Xn).
ĐLNN G đ−ợc gọi là một thống kê. Sau đây ta xét một số thống kê thông dụng
hay còn đ−ợc gọi là các đặc tr−ng của mẫu ngẫu nhiên.
3.2.1. Trung bình mẫu ngẫu nhiên:
1) Định nghĩa: Cho mẫu ngẫu nhiên kích th−ớc n, đ−ợc xây dựng từ ĐLNN X :
WX = (X1, X2, ã ã ã , Xn)
Trung bình của mẫu ngẫu nhiên là một thống kê (ký hiệu là X đ−ợc xác định
bởi:
X =
1
n
(X1 +X2 + ã ã ã+Xn) = 1
n
n∑
i=1
Xi
17
Do X1, X2, ã ã ã , Xn là các ĐLNN nên X cũng là ĐLNN.
Nếu mẫu ngẫu nhiên WX có một giá trị wX = (x1, x2, ã ã ã , xn) thì X sẽ nhận
giá trị: x =
1
n
n∑
i=1
xi.
Nh− vậy x là một giá trị của X , đồng thời là trung bình của mẫu cụ thể
wX = (x1, x2, ã ã ã , xn).
2) Tính chất: Nếu ĐLNN gốc X có kỳ vọng toán E(X) = m; ph−ơng sai D(X) =
σ2 thì:
E(X) = m và D(X) =
σ2
n
Thật vậy, theo tính chất của kỳ vọng toán, ta có:
E(X) = E
[1
n
n∑
i=1
Xi
]
=
1
n
n∑
i=1
E(Xi) =
1
n
.n.m = m
để ý rằng các ĐLNN Xi độc lập có cùng qui luật phân phối xác suất với ĐLNN
X , nên theo tính chất của ph−ơng sai thì:
D(X) = D
[1
n
(X1 +X2 + ã ã ã+Xn)
]
=
=
1
n2
[
D(X1) +D(X2) + ã ã ã+D(Xn)
]
=
1
n2
.n.σ2 =
σ2
n
.
Nh− vậy bất kể qui luật phân phối xác suất của ĐLNN gốc nh− thế nào, thống
kê X cũng có kỳ vọng toán bằng kỳ vọng toán của ĐLNN gốc, tức là: E(X) =
E(X) = m, còn ph−ơng sai D(X) của nó nhỏ hơn ph−ơng sai của ĐLNN gốc n
lần: D(X) =
σ2
n
, nghĩa là các giá trị có thể có của X ổn định quanh kỳ vọng toán
hơn các giá trị có thể có của X .
3) Qui luật phân phối xác suất của X :
Qui luật phân phối xác suất của trung bình mẫu X phụ thuộc chặt chẽ vào qui
luật phân phối của ĐLNN gốc X . Ng−ời ta đã chứng minh đ−ợc rằng: Nếu X có
phân phối chuẩn N(à, σ2) thì X phân phối theo qui luật chuẩn N(à,
σ2
n
).
3.2.2. Ph−ơng sai của mẫu ngẫu nhiên:
18
1) Định nghĩa: Cho mẫu ngẫu nhiên WX = (X1, X2, ã ã ã , Xn), ph−ơng sai của nó là
một thống kê, ký hiệu là S2, đ−ợc xác định bởi hàm sau:
S2 =
1
n
n∑
i=1
(Xi −X)2
trong đó X là trung bình của mẫu ngẫu nhiên.
Nếu có mẫu cụ thể wX = (x1, x2, ã ã ã , xn) thì S2 sẽ nhận giá trị:
s2 =
1
n
n∑
i=1
(xi − x)2.
Giá trị s2 sẽ đ−ợc gọi là ph−ơng sai của mẫu cụ thể wX = (x1, x2, ã ã ã , xn).
2) Tính chất: Do S2 là ĐLNN nên ta có thể tính E(S2)
E(S2) =
n− 1
n
σ2
Nhân hai vế của biểu thức trên với
n
n− 1 , ta có:
n
n− 1E(S
2) = σ2
đ−a hằng số
n
n− 1 vào trong dấu kỳ vọng ta có:
E(
n
n− 1S
2) = σ2
hay: E =
[ n
n− 1 .
1
n
n∑
i=1
(Xi −X)2
]
= E
[ 1
n− 1
n∑
i=1
(Xi −X)2
]
= σ2
đặt S ′2 =
n
n− 1 .S
2 =
1
n− 1
n∑
i=1
(Xi −X)2
Và gọi S ′2 là ph−ơng sai điều chỉnh mẫu của mẫu ngẫu nhiên. Khi đó ta có
E(S ′2) = σ2. Nh− vậy, kỳ vọng toán của ph−ơng sai điều chỉnh mẫu bằng ph−ơng
sai của ĐLNN gốc X .
Nếu có mẫu cụ thể wX = (x1, x2, ã ã ã , xn) thì S ′2 nhận giá trị, ký hiệu là S ′2:
s′2 =
n
n− 1 s
2 =
1
n− 1
n∑
i=1
(xi − x)2
19
s′2 gọi là ph−ơng sai điều chỉnh của mẫu cụ thể wX .
3) Qui luật phân phối xác suất của S2:
Nếu mẫu ngẫu nhiênWX = (X1, X2, ã ã ã , Xn) đ−ợc xây dụng từ ĐLNN X phân
phối theo qui luật chuẩn với EX = m, DX = σ2 thì ng−ời ta chứng minh đ−ợc
rằng:
* ĐLNN: X 2 = (n− 1)S
′2
σ2
=
n∑
i=1
(Xi −X)2
σ2
sẽ tuân theo qui luật chi bình ph−ơng với n− 1 bậc tự do.
* ĐLNN: X 2 = nS
2
σ2
=
n∑
i=1
(Xi −m)2
σ2
phân phối theo qui luật chi bình ph−ơng với n bậc tự do.
3.2.3. Độ lệch tiêu chuẩn và độ lệch tiêu chuẩn điều chỉnh:
Độ lệch tiêu chuẩn của mẫu ngẫu nhiên (ký hiệu s) là căn bậc hai của ph−ơng sai
mẫu:
S =
√
S2 =
√√√√1
n
n∑
i=1
(Xi −X)2
Nếu có mẫu cụ thể wX = (x1, x2, ã ã ã , xn) thì độ lệch tiêu chuẩn sẽ nhận một
giá trị và đ−ợc gọi là độ lệch tiêu chuẩn của mẫu cụ thể:
s =
√
s2 =
1
n
n∑
i=1
(xi − x)2.
T−ơng tự, ta có độ lệch tiêu chuẩn điều chỉnh của mẫu và một giá trị cụ thể của
nó :
S ′ =
√
S ′2 =
1
n− 1
n∑
i=1
(Xi −X)2;
s′ =
√
s′2 =
1
n− 1
n∑
i=1
(xi − x)2.
Bài Tập 1: Chiều cao của 400 cây sao đ−ợc cho bởi bảng sau:
20
khoảng chiều cao tần số ni độ dài của khoảng
4, 5− 8, 5 18 4
8, 5− 12, 5 58 4
12, 5− 16, 5 62 4
16, 5− 20, 5 72 4
20, 5− 24, 5 57 4
24, 5− 28, 5 42 4
28, 5− 32, 5 36 4
32, 5− 36, 5 10 4
Hãy lập bảng tính x và s2.
Bài Tập 2: Số xe hơi bán đ−ợc trung bình trong một tuần ở một đại lý trong 45
đại lý cho bởi:
Số xe bán đ−ợc ni
trong tuần / đại lý
1 15
2 12
3 9
4 5
5 3
6 1
Hãy lập bảng tính x, s2
Lập bảng tính:
xi ni nixi nix
2
i
1 15
2 12
3 9
4 5
5 3
6 1
σ 45
21
xi ni nixi nix
2
i
1 15 15 15
2 12 24 48
3 9 27 81
4 5 20 80
5 3 15 75
6 1 6 36∑
45 107 335
Ta có:
x =
107
45
= 2, 38
s2 =
335
45
− (2, 38)2 = 7, 444− 5, 664 = 1, 78
Bài Tập 3: Theo dõi 336 tr−ờng hợp tàu cập cảng, ng−ời ta thấy khoảng thời gian
ngắn nhất giữa hai lần tàu vào cảng liên tiếp là 4 giờ , thời gian dài nhất là 80 giờ;
với số liệu đ−ợc sắp thành bảng phân lớp sau:
lớp ni
4-12 143
12-20 75
20-28 53
28-36 27
36-44 14
44-52 9
52-60 5
60-68 4
68-76 3
76-84 3∑
336
Hãy lập bảng tính x, s2.
22
lớp ni x∗i ni.x
∗
i ni.(x
∗
i )
2
4 - 12 143 8 1144 9152
12 - 20 75 16 1200 19200
20 - 28 53 24 1272 30528
28 - 36 27 32 864 27648
36 - 44 14 40 560 22400
44 - 52 9 48 432 20736
52 - 60 5 56 280 15680
60 - 68 4 64 256 16384
68 - 76 3 72 216 15552
76 - 84 3 78 234 18252∑
336 6458 195532
Ta có:
x =
6458
336
= 19, 22; s2 =
195532
336
− (19, 22)2 = 212, 532
1−ớc l−ợng
Nh− chúng ta biết, các số đặc tr−ng của dấu hiệu H nh− trung bình, ph−ơng sai
... đ−ợc sử dụng rộng rãi trong phân tích kinh tế, xã hội và các lĩnh vực khác.
Nh−ng các số đặc tr−ng này th−ờng ch−a biết, vì vậy đặt ra vấn đề cần −ớc
l−ợng chúng bằng ph−ơng pháp mẫu.
Sau khi đã mô hình hoá dấu hiệu H bằng một ĐLNN và cơ cấu tổng thể bằng
qui luật phân phối xác suất của X , ta có thể phát biểu vấn đề thực tế nêu trên d−ới
dạng toán học nh− sau:
Cho ĐLNN X có thể đã biết hoặc ch−a biết qui luật phân phối xác suất của X ,
nh−ng ch−a biết tham số θ nào đó của nó.
Hãy −ớc l−ợng θ bằng ph−ơng pháp mẫu (dựa trên cở sở một mẫu thống kê nào
đó).
Bài toán này là một trong những bài toán cơ bản của thống kê toán.
Vì θ là một hằng số nên có thể dùng một số nào đó để −ớc l−ợng θ, −ớc l−ợng
nh− vậy đ−ợc gọi là −ớc l−ợng điểm (nếu ta đ−a chọn số dùng để −ớc l−ợng θ lên
trục số thì nó t−ơng ứng với một điểm).
Ngoài −ớc l−ợng điểm ng−ời ta còn dùng ph−ơng pháp −ớc l−ợng khoảng, tức
là chỉ ra một khoảng số (g1, g2) nào đó có thể chứa đ−ợc θ.
D−ới đây ta sẽ nghiên cứu các ph−ơng pháp tìm ra một số hay một khoảng số
để −ớc l−ợng θ. Các ph−ơng pháp này xuất phát từ cơ sở hợp lý nào đó để tìm −ớc
l−ợng của θ, chứ không phải là sự chứng minh chặt chẽ.
1. Các ph−ơng pháp tìm −ớc l−ợng điểm
1.1. Ph−ơng pháp hàm −ớc l−ợng
1.1.1. Mô tả ph−ơng pháp
Giả sử cần −ớc l−ợng tham số θ của ĐLNN X . Từ X ta lập mẫu ngẫu nhiên
kích th−ớc n : WX = (X1, X2, ã ã ã , Xn).
Chọn thống kê G = f(X1, X2, ã ã ã , Xn). Thống kê G đ−ợc gọi là hàm −ớc l−ợng
của θ.
Một trong những cách chọn dạng của hàm f là t−ơng ứng thống kê đặc tr−ng
Biên soạn: GVC.ThS. Phan văn Danh
2của mẫu ngẫu nhiên với hàm số cần −ớc l−ợng của ĐLNN. Ph−ơng pháp này gọi
là ph−ơng pháp momen.
Trong thực tế ng−ời ta th−ờng chọn hàm −ớc l−ợng nh− sau:
i) Chọn G = f(X1, X2, ã ã ã , Xn) = X = 1n
n∑
i=1
Xi nếu là −ớc l−ợng kỳ vọng
toán.
ii) Chọn G = S
′2 =
1
n− 1
n∑
i=1
(Xi −X)2 nếu là −ớc l−ợng ph−ơng sai.
Từ mẫu cụ thể wX = (x1, x2, ã ã ã , xn), ta tính giá trị của G (ký hiệu là g). Tức
là g = f(x1, x2, ã ã ã , xn). Ước l−ợng điểm của θ chính là giá trị g vừa tính đ−ợc.
1.1.2. Tiêu chuẩn −ớc l−ợng
Chất l−ợng của −ớc l−ợng không thể đánh giá qua một giá trị cụ thể g. Nh− vậy
chỉ có cách so sánh trực tiếp g và θ, mà θ lại ch−a biết.
Do vậy chỉ có thể đánh giá chất l−ợng của −ớc l−ợng thông qua việc khảo sát
xem: việc tìm ra giá trị g đ−ợc tiến hành nh− thế nào, tức là xét bản thân thống kê
G = f(X1, X2, ã ã ã , Xn).
Ta thấy có vô số cách chọn dạng của hàm f , tức là có vô số thống kê G có thể
dùng làm hàm −ớc l−ợng của θ. Vì vậy cần đ−a ra các tiêu chuẩn để đánh giá chất
l−ợng của −ớc l−ợng, để từ đó lựa chọn thống kê G tốt hơn.
D−ới đây ta sẽ xét một số tiêu chuẩn đó:
a) Ước l−ợng không chệch.
* Định nghĩa: Thống kê G đ−ợc gọi là −ớc l−ợng không chệch của tham số θ
của ĐLNN X nếu
E(G) = θ
Ng−ợc lại, nếu EG 6= θ thì G đ−ợc gọi là −ớc l−ợng chệch của θ.
* ý nghĩa: Ta thấy Gθ là ĐLNN biểu thị sai số của −ớc l−ợng. Theo tính chất
của kỳ vọng toán, ta có:
E(G− θ) = EG− Eθ = θ − θ = 0, nếu G là −ớc l−ợng không chệch.
Nh− vậy −ớc l−ợng không chệch là −ớc l−ợng có trung bình của sai số bằng 0,
tức là các giá trị của G không bị chệch về một phía (lớn hơn θ hay nhỏ hơn θ, nếu
dùng G để −ớc l−ợng θ thì không mắc phải sai số hệ thống.
Rõ ràng trong hai loại −ớc l−ợng: chệch và không chệch thì ta nên chọn −ớc
l−ợng không chệch.
Chú ý rằng: G là −ớc l−ợng không chệch của θ không có nghĩa là mọi giá trị của
G đều trùng với θ mà chỉ có nghĩa là: trung bình các giá trị của G bằng 0. Một
giá trị của G có thể lệch rất lớn so với θ.
Biên soạn: GVC.ThS. Phan văn Danh
3Ví dụ :
1) Trung bình của mẫu ngẫu nhiên: X là −ớc l−ợng không chệch của EX = m.
Và EX = m.
2) Ph−ơng sai hiệu chỉnh S ′2 là −ớc l−ợng không chệch của DX = σ2 vì ES ′2 =
σ2.
3) Ph−ơng sai S2 là −ớc l−ợng chệch của DX = σ2 vì ES2 =
n− 1
n
σ2 6= σ2.
b) Ước l−ợng vững: Một hàm −ớc l−ợng đ−ợc coi là hợp lý nếu nh− khi kích
th−ớc của mẫu tăng lên khá lớn thì giá trị của nó phải gần tham số cần −ớc l−ợng
bao nhiêu cũng đ−ợc.
* Định nghĩa: Cho mẫu WX = (X1, X2, ã ã ã , Xn) xây dựng ĐLNN X . Hàm −ớc
l−ợng G = f(X1, X2, ã ã ã , Xn) của tham số θ đ−ợc gọi là −ớc l−ợng vững nếu với
mọi ε > 0 bé tùy ý cho tr−ớc ta đều có:
lim
n→∞P
(|f(X1, X2, ã ã ã , Xn)− θ| < ε) = 1. (4.2)
Điều kiện đủ của −ớc l−ợng vững đ−ợc phát biểu d−ới dạng định lý sau:
* Định lý: Nếu G là −ớc l−ợng không chệch của θ và lim
n→∞DG = 0
thì G là −ớc l−ợng vững của θ.
c) Ước l−ợng hiệu quả.
Giả sử G là −ớc l−ợng không chệch của θ. áp dụng bất đẳng thức Tchebychev
cho ĐLNN G, ta có
P
(|G− EG| < ε) ≥ 1− DG
ε2
.
Vì EG = θ nên bất đẳng thức thành: P
(|G− θ| < ε) ≥ 1− DG
ε2
. (4.3)
Nh− vậy, nếu ph−ơng sai DG càng nhỏ thì xác xuất để G nhận giá trị gần θ
bao nhiêu cũng đ−ợc, sẽ càng lớn.
Do đó ph−ơng sai của thống kê G là một chỉ tiêu quan trọng phản ánh chất
l−ợng của hàm −ớc l−ợng: G = f(X1, X2, ã ã ã , Xn).
Một cách hợp lý là cần chọn những hàm −ớc l−ợng không chệch và ph−ơng sai
nhỏ nhất.
* Định nghĩa: Thống kê G = f(X1, X2, ã ã ã , Xn) là −ớc l−ợng không chệch của
θ và ph−ơng sai DG bằng cận d−ới các ph−ơng sai của các thống kê đ−ợc xây
dựng từ mẫu ngẫu nhiên WX thì G đ−ợc gọi là −ớc l−ợng hiệu quả của θ.
Để tìm cận d−ới của ph−ơng sai các hàm −ớc l−ợng ta dựa vào bất đẳng thức
Crame - Rao đ−ợc nêu trong định lý d−ới đây:
* Định lý: Cho mẫu ngẫu nhiên WX = (X1, X2, ã ã ã , Xn) đ−ợc xây dựng từ
ĐLNN X có hàm mật độ xác suất f ∗ x, θ) thoả mãn một số điều kiện nhất định
Biên soạn: GVC.ThS. Phan văn Danh
4(th−ờng là các điều kiện trong thực tế) và G là −ớc l−ợng không chệch bất kỳ của
θ thì:
DG ≥ 1
nE
(∂ ln f(x, θ)
∂θ
)2 . (4.4)
Cần l−u ý rằng không phải với mọi tham số θ đều có thể chọn đ−ợc hàm −ớc
l−ợng G đảm bảo đ−ợc cả tính không chệch, tính vững và tính hiệu quả.
Vấn đề là ở chỗ cần chọn hàm −ớc l−ợng sao cho các kết luận rút ra đ−ợc đủ
tin cậy cho mục đích nghiên cứu.
Ví dụ 1:
Hàm X =
1
n
n∑
i=1
Xi là −ớc l−ợng không chệch, vững, hiệu quả của EX = à
trong tr−ờng hợp X có phân phối chuẩn N(à, σ2).
Thật vậy, ta có:
f(x, θ) =
1
σ
√
2pi
.e−
(x−à)2
2σ2 .
lnf(x, θ) = − lnσ
√
2pi − (x− à)
2
2σ2
=
∂ ln f(x, θ)
∂θ
=
∂ ln f(x, à)
∂à
=
x− à
σ2
.
nên
nE =
(∂ ln f(x, θ)
∂θ
)2
= nE
(x− à
σ2
)2
= nE
(x− à)2
σ4
=
nDX
σ4
=
n
σ2
.
mà:
Biên soạn: GVC.ThS. Phan văn Danh
5DX =
1
n2
n∑
i=1
DXi =
1
n2
nσ2 =
σ2
n
.
Nghĩa là DX bằng biểu thức ở vế phải của bất đẳng thức Crame - Rao. Vậy X
là −ớc l−ợng hiệu quả của à.
Mặt khác ta có:
EX =
1
n
E
( n∑
i=1
Xi
)
=
1
n
n∑
i=1
EXi =
nà
n
= à.
Nh− vậy, X cũng là −ớc l−ợng không chệch của à.
Ta đã biết : DX =
σ2
n
. Khi n→∞ thì σ
2
n
→ 0 nên bất đẳng thức Tchebychev
ta có:
P (|X − à| < ε) ≥ 1− DX
ε2
.
Do đó P (|X − à| < ε)→ 1 khi n→∞, nghĩa là X là −ớc l−ợng vững của à.
Ví dụ 2:
Để −ớc l−ợng xác suất p của biến cố A nào đó ta thực hiện n phép thử lặp độc
lập và lấy tần suất xuất hiện A làm −ớc l−ợng điểm cho p. Gọi X là ĐLNN chỉ
số lần xuất hiện A trong n phép thử. Khi đó X là ĐLNN tuân theo qui luật phân
phối nhị thức với EX = np và DX = npq (q = 1− p).
Ta có:
EG = E(
X
n
) =
1
n
EX =
1
n
.np = p
Nh− vậy G =
X
n
là −ớc l−ợng không chệch của p. Mặt khác theo định lý
Vernouilli ta có
lim
n→∞P
(|X
n
− p| 0.
Nên G =
X
n
là −ớc l−ợng vững của p. Ta thừa nhận G =
X
n
cũng là −ớc l−ợng
hiệu quả của p.
1.2. Ph−ơng pháp −ớc l−ợng hợp lý cực đại
1.2.1. Mô tả ph−ơng pháp
Giả sử đã biết qui luật phân phối xác suất dạng tổng quát của ĐLNN X, chẳng
hạn hàm mật độ f(x, θ) (cũng có thể xem f(x, θ) là công thức xác suất nếu X là
ĐLNN rời rạc) cần phải −ớc l−ợng tham số θ nào đó của X.
Lập mẫu cụ thể: wX = (x1, x2, ã ã ã , xn).
Biên soạn: GVC.ThS. Phan văn Danh
6Hàm của đối số θ :
L(x1, x2, ã ã ã , xn, θ) = f(x1, θ).f(x2, θ) ã ã ã f(xn, θ)
và gọi là hàm hợp lý của tham số θ.
Giá trị của hàm hợp lý chính là xác suất (hay mật độ xác suất) tại điểm wX =
(x1, x2, ã ã ã , xn).
Giá trị g = g(x1, x2, ã ã ã , xn) đ−ợc gọi là −ớc l−ợng hợp lý cực đại của θ, nếu
ứng với giá trị này của θ, hàm hợp lý đạt cực đại.
Vì hàm L và lnL đạt cực đại tại cùng một giá trị của θ, do vậy có thể tìm giá
trị của θ để lnL đạt cực đại với các b−ớc sau:
B−ớc 1: Tìm đạo hàm bậc nhất lnL theo θ.
B−ớc 2: Lập ph−ơng trình
∂ lnL
∂θ
= 0
Ph−ơng trình này đ−ợc gọi là ph−ơng trình hợp lý. Giả sử nó có nghiệm θ =
g = g(x1, x2, ã ã ã , xn) là −ớc l−ợng điểm hợp lý cực đại cần tìm của θ.
Ví dụ 1:
Bằng ph−ơng pháp hợp lý cực đại, −ớc l−ợng tham số p trong qui luật phân phối
nhị thức.
Ta lập hàm hợp lý: L(x1, x2, ã ã ã , xn, p) =
n∏
i=1
Cxin p
xi(1− p)n−xi.
Suy ra
lnL =
n∑
i=1
[
lnCxin + xi ln p+ (n− xi) ln(1− p)
]
.
∂ lnL
∂p
=
1
p
n∑
i=1
xi +
1
1− p
n∑
i=1
(xi − n)
∂ lnL
∂p
= 0 khi p =
1
n2
n∑
i=1
xi =
x
n
, do đó −ớc l−ợng hợp lý cực đại của p là
x
n
.
Ví dụ 2:
Bằng ph−ơng pháp hợp lý cực đại, −ớc l−ợng tham số λ của qui luật phân phối
mũ có hàm mật độ xác suất nh− sau:
f(x) =
{
λeλx với 0 < x < +∞
0 với x ≤ 0
Ta lập hàm hợp lý: L(x1, x2, ã ã ã , xn, λ) = λne−λ
∑
xi.
Suy ra lnL = m lnλ− λ∑xi =⇒ ∂ lnL
∂λ
= n.
1
σ
−
∑
xi.
Biên soạn: GVC.ThS. Phan văn Danh
7Giải ph−ơng trình hợp lý:
∂ lnL
∂λ
= 0 ta có λ =
1
x
đạo hàm bậc hai theo
λ :
∂2 lnL
∂λ2
= − n
λ2
0.
Vì vậy −ớc l−ợng hợp lý cực đại của λ là
1
x
.
2. Các ph−ơng pháp tìm −ớc l−ợng khoảng
Ngoài cách dùng một con số để −ớc l−ợng tham số θ, ta còn có thể dùng một
2.1. Mô tả ph−ơng pháp
Để −ớc l−ợng tham số θ của ĐLNN X , từ X ta lập mẫu ngẫu nhiên WX =
(X1, X2, ã ã ã , Xn).
Chọn thống kê G = f(X1, X2, ã ã ã , Xn, θ) sao cho qui luật phân phối xác suất
của G hoàn toàn xác định mặc dù ch−a biết giá trị của θ. Do đó với xác suất α1
khá bé ta tìm đ−ợc phân vị gα1 của thống kê gα1 thoả mãn:
P (G < gα1) = α1.
Với xác suất α2 mà α1 + α2 = α khá bé (trong thực tế ng−ời ta lấy α ≤ 0, 05),
ta tìm phân vị g1−α2, tức là:
P (G < g1−α2) = 1− α2.
Suy ra:
P (gα2 ≤ G ≤ g1−α2) = P (G < g1−α2)− P (G < gα1)
= 1− α1 − α2 = 1− α.
Từ đây giả ra đ−ợc θ, tức là đ−a biểu thức này về dạng
P (G1 ≤ θ ≤ G2) = 1− α.
Lúc ấy:
i) Khoảng (G1, G2) đ−ợc gọi là khoảng tin cậy của θ vì G1, G2 là các ĐLNN
nên khoảng (G1, G2) là khoảng ngẫu nhiên.
ii) 1−α gọi là độ tin cậy của −ớc l−ợng. Do α khá bé nên 1−α khá lớn. Thông
th−ờng trong thực tế ng−ời ta yêu cầu 1− α ≥ 95% để có thể sử dụng nguyên lý
xác suất lớn cho biến cố (G1 ≤ θ ≤ G2).
Biên soạn: GVC.ThS. Phan văn Danh
8iii) I = G2−G1 gọi là độ dài của KTC. I có thể là hằng số và cũng có thể gọi
là ĐLNN.
Do xác suất 1− α khá lớn, nên biến cố (G1 ≤ θ ≤ G2) hầu nh− chắc chắn xảy
ra trong một phép thử. Thực hiện một phép thử đối với mẫu ngẫu nhiên WX , ta sẽ
thu đ−ợc mẫu cụ thể wX = (x1, x2, ã ã ã , xn). Từ mẫu cụ thể này ta tính đ−ợc giá
trị của G1 và G2. Ký hiệu các giá trị đó là g1, g2.
Nh− vậy có thể kết luận. Với độ tin cậy 1−α, qua mẫu cụ thể wX , θ nằm trong
khoảng (g1, g2), tức là: (g1 < θ < g2).
Ph−ơng pháp −ớc l−ợng này có −u điểm là: chẳng những tìm đ−ợc khoảng (g1, g2)
để −ớc l−ợng θ mà còn biết đ−ợc độ tin cậy của −ớc l−ợng.
Tuy nhiên nó cũng chứa đựng khả năng mắc sai lầm. Xác suất mắc sai lầm là
α.
2.2. Ước l−ợng cho giá trị trung bình
Giả sử trung bình tổng thể (cũng chính là kỳ vọng toán của ĐLNN gốc X) là
m ch−a biết, ta còn −ớc l−ợng m.
2.2.1. Tr−ờng hợp kích th−ớc mẫu n ≥ 30 (hoặc n < 30 nh−ng X có phân
phối chuẩn); DX = σ2 đã biết:
Chọn thống kê: U =
(X −m)√n
σ
Vì n ≥ 30, nên ta có thể áp dụng định lý Lindeberg - Levy. Nội dung định lý
này:
Nếu các ĐLNN X2, X2, ã ã ã , Xn độc lập, có kỳ vọng toán m và ph−ơng sai σ2
hữu hạn, thì ĐLNN U =
(X −m)√n
σ
có phân phối xác suất xấp xỉ với phân phối
chuẩn tắc khi n lớn.
Tr−ờng hợp n < 30 thì do x ∼ N(à, σ) nên U có phân phối chuẩn tắc.
Với xác suất α1 khá bé ta tìm đ−ợc phân vị uα1 : P (U < uα1) = α1.
Với xác suất α2 sao cho α1 + α− 2 = α, ta tìm đ−ợc phân vị u1−α2.
Tức là: P (U < u1−α2) = 1− α2.
Ta có:
P (uα1 ≤ U ≤ u1−α2) = P (U < u1−α2)− P (U < uα1)
= 1− (α1 + α2) = 1− α.
Nh− vậy: P
(
uα1 ≤
(X −m)√n
σ
≤ uα2
)
= 1− α.
Biên soạn: GVC.ThS. Phan văn Danh
9Hay P
[
X − uα2.
σ√
n
≤ m ≤ X − uα1.
σ√
n
]
= 1− α.
Theo tính chất của phân vị chuẩn tắc: uα1 = −u1−α1:
P
[
X − uα2.
σ√
n
≤ m ≤ X + u1−α1.
σ√
n
]
= 1− α.
Vậy độ tin cậy 1− α, khoảng tin cậy của m là:(
X − uα2.
σ√
n
; X + u1−α1.
σ√
n
)
.
độ dài KTC là I =
σ√
n
(
u1−α1 − u1−α2
)
.
Cùng độ tin cậy 1− α, KTC nào có độ dài ngắn hơn sẽ tốt hơn.
Chọn α1 = α2 =
α
2
. Suy ra KTC:
(
X − u1−α2 .
σ√
n
; X + u1−α2 .
σ√
n
)
.
Ký hiệu ε = u1−α2 .
σ√
n
= uγ.
σ√
n
.
ε đ−ợc gọi là KTC đối xứng của m, độ dài của KTC là I = 2ε.
ứng với độ tin cậy 1− α, KTC đối xứng có độ dài ngắn nhất.
Vì vậy khi cần tìm KTC, thông th−ờng ta chỉ cần tìm KTC đối xứng.
Vì độ tin cậy 1− α khá lớn, nên ta có thể coi biến cố (X − ε < m < X + ε)
hầu nh− chắc chắn xảy ra trong một phép thử.
Thực hiện phép thử đối với mẫu ngẫu nhiên WX , ta thu đ−ợc mẫu cụ thể:
wX = (x1, x2, ã ã ã , xn). Từ mẫu cụ thể đó ta tính đ−ợc
x =
1
n
n∑
i=1
xi.
Với độ tin cậy 1 − α cho tr−ớc, tra bảng phân vị chuẩn ta sẽ tìm đ−ợc giá trị
phân vị chuẩn uγ = u1−α2 . Sau đó ta tính độ chính xác ε = uγ.
σ√
n
.
Nh− vậy, với độ tin cậy 1 − α, qua mẫu cụ thể wX , khoảng tin cậy của m là:
(x− ε, x+ ε).
2.2.2. Tr−ờng hợp n ≥ 30, σ2 ch−a biết:
Tr−ờng hợp này vì kích th−ớc mẫu lớn (n ≥ 30) nên ta có thể dùng −ớc l−ợng
của DX là S ′2 để thay cho σ2 ch−a biết.
Tiến hành các b−ớc t−ơng tự nh− tr−ờng hợp ở mục 2.2.1. ta đ−ợc KTC cụ thể
của m với độ tin cậy 1− α là:
(x− ε, x+ ε) với ε = uγ. S
′
√
n
.
Biên soạn: GVC.ThS. Phan văn Danh
10
(trong đó uγ là phân vị chuẩn mức γ = 1− α
2
xác định bằng cách tra bảng phân
vị chuẩn).
2.2.3. Tr−ờng hợp n < 30;σ2 ch−a biết, X tuân theo qui luật chuẩn:
Tr−ờng hợp này ta chọn thống kê T =
(X −m)√n
S ′
.
ĐLNN T phân phối theo qui luật Student với n− 1 bậc tự do.
T−ơng tự phần 2.2.1, và do tính đối xứng của qui luật Student; với độ tin cậy
1− α cho tr−ớc ta tìm đ−ợc KTC của m trong tr−ờng hợp này là:(
X − t1−α2 .
S ′√
n
; X − t1−α2 .
S ′√
n
)
.
Từ mẫu cụ thể wX = (x1, x2, ã ã ã , xn) ta tính đ−ợc x và s′. Từ đó xác định đ−ợc
KTC cụ thể của m theo công thức:
(x− ε, x+ ε) với ε = tγ. s
′
√
n
.
Với tγ là phân vị Student với n− 1 bậc tự do và mức xác suất γ = 1− α
2
.
Ví dụ 1:
Điều tra năng suất lúa trên 100 ha trồng lúa của một vùng, ta thu đ−ợc bảng số
liệu sau:
Năng suất (ta/ha) 41 44 45 46 48 52 54
Diện tích t−ơng ứng 10 20 30 15 10 10 5
Hãy −ớc l−ợng năng suất lúa trung bình của toàn vùng với độ tin cậy 95%.
Giải:
Gọi m là năng suất lúa trung bình của toàn vùng. Ta cần −ớc l−ợng m với độ
tin cậy 95%. Tr−ờng hợp này kích th−ớc mẫu n = 100 > 30; σ2 ch−a biết. Nên
KTC của m là (x− ε, x+ ε) với ε = uγ. S
′
√
n
.
Độ tin cậy 1−α = 95%, nên tra bảng phân vị chuẩn ta đ−ợc: uγ = u0,975 = 1, 96.
Từ bảng số liệu tính đ−ợc: x = 46, S2 = 10, 8 =⇒ S ′2 = 100
99
.10, 8 = 10, 91.
=⇒ S ′ = 3, 3 nên ε = 0, 65.
Vậy KTC là (46− 0, 65; 46 + 0, 65) = (45, 35 ; 46, 65).
Ví dụ 2:
Trọng l−ợng một loại sản phẩm là ĐLNN tuân theo qui luật phân phối chuẩn
với độ lệch tiêu chuẩn là 1 gam. Cân thử 25 sản phẩm loại này ta thu đ−ợc kết quả:
Biên soạn: GVC.ThS. Phan văn Danh
11
Trọng l−ợng 18 19 20 21
Số sản phẩm 3 5 15 2
Với độ tin cậy 1−α = 0, 95, hãy tìm KTC đối xứng của trọng l−ợng trung bình
của loại sản phẩm nói trên.
Giải:
Gọi X là "trọng l−ợng sản phẩm". Theo giả thiết X tuân theo qui luật phân
phối chuẩn; σ(X) = 1 còn EX = à ch−a biết, ta cần phải −ớc l−ợng:
Gọi Xi là "trọng l−ợng sản phẩm thứ i"; i = 1, 25 ta có mẫu ngẫu nhiên:
WX = (X1, X2, ã ã ã , Xn); X = 1
25
25∑
i=1
Xi.
Với độ tin cậy 1−α = 0, 95 thì à1−α2 = 1, 96. Vậy KTC đối với xứng của à là:(
X − 1, 96. 1
25
; X + 1, 96.
1
25
)
= (X − 0, 392;X + 0, 392).
Từ số liệu đã cho, ta tính đ−ợc: x = 19, 46. Vậy KTC
(19, 248 ; 20, 032).
Ví dụ 3:
Thống kê tuổi thọ của 256 bóng đèn do một nhà máy sản xuất, ta có bảng thống
kê d−ới đây:
tuổi thọ (giờ) số bóng tuổi thọ (giờ) số bóng
1000− 1100 4 1100− 1200 10
1200− 1300 16 1300− 1400 20
1400− 1500 36 1500− 1600 48
1600− 1700 42 1700− 1800 32
1800− 1900 26 1900− 2000 14
2000− 2100 8
Hãy −ớc l−ợng tuổi thọ trung bình của loại bóng đèn này với độ tin cậy 95, 60%.
Giải:
Gọi X là tuổi thọ của loại bóng đèn mà nhà máy sản xuất. Ta cần tìm KTC
EX = m. Tr−ờng hợp này kích th−ớc của mẫu là 256 và ch−a biết σ2, do vậy KTC
cụ thể của m là: (x− ε, x+ ε) với ε = uγ. S
′
√
n
.
Với độ tin cậy 95, 6% thì u1−α2 = u0,978 = 2, 014.
Từ số liệu đã cho ta tính đ−ợc: x = 1587, 5 (giờ); S ′ = 226, 83.
Từ đó ta có: ε = 28, 55. Vậy KTC của m là (1558, 95 ; 1616, 05).
Biên soạn: GVC.ThS. Phan văn Danh
12
2.2.4. Ước l−ợng khoảng cho tỷ lệ (xác suất)
Giả sử tổng thể ta đang nghiên cứu gồm N phần tử. Trong đó có M phần tử có
tính chất A nào đó. p = MN là tỷ lệ các phần tử có tính chất A của tổng thể.
Thông th−ờng p ch−a biết, cần −ớc l−ợng p. Để ý rằng p cũng chính là xác suất
để lấy đ−ợc phần tử có tính chất A khi lấy ngẫu nhiên từ tổng thể ra một phần tử,
nên bài toán trên là bài toán −ớc l−ợng tỷ lệ tổng thể (hay −ớc l−ợng xác suất).
Gọi X là phần tử có tính chất A khi lấy ngẫu nhiên một phần tử từ tổng thể. X
là ĐLNN có qui luật phân phối xác suất nh− sau:
X 0 1
p p q
với q = 1− p; EX = p; DX = p(1− p) = pq.
Xét mẫu ngẫu nhiên WX = (X1, X2, ã ã ã , Xn) đ−ợc thành lập từ ĐLNN gốc X .
Trong đó Xi, i = 1, n là số phần tử có tính chất A có trong lần thứ i. Các ĐLNN
Xi có phân phối xác suất giống X .
Xét thống kê: fn =
1
n
n∑
i=1
Xi là tần suất của mẫu ngẫu nhiên và cũng chính là
trung bình của mẫu ngẫu nhiên..
Các ĐLNN Xi; i = 1, n có phân phối xác suất giống nh− X nên ta có thể chứng
minh đ−ợc: Efn = p và Dfn =
pq
n
.
áp dụng định lý Lindeberg-Levy ta có ĐLNN:
U =
(fn − p)
√
n√
pq
có phân phối xấp xỉ chuẩn tắc.
Do n khá lớn nên ta có thể thay pq bằng fn(1− fn). Sau đó ta áp dụng ph−ơng
pháp t−ơng tự nh− đã tiến hành ở phần 2.2 và tìm đ−ợc KTC cụ thể của p là:
(f − ε, f + ε) với ε = uγ
√
f(1− f)
n
.
Trong đó f là tỷ lệ phần tử có tính chất A của mẫu cụ thể (cũng chính là giá
trị của fn); uγ là phân vị chuẩn mức γ = 1− α
2
.
Ngoài cách xác định KTC của p bằng công thức trên, ta có thể tìm KTC của p
bằng cách khác nh− sau:
Từ KTC của p:
f − uγ
√
p(1− p)
n
< p < f + uγ
√
p(1− p)
n
.
Biên soạn: GVC.ThS. Phan văn Danh
13
hay
|f − p| < uγ
√
p(1− p)
n
.
Giải ra:
p1,2 =
nf + 0, 5u2γ + uγ
√
0, 25u2γ − nf(1− f)
n+ u2γ
.|| (∗)
Khoảng (p1, p2) chính là KTC của p (với độ tin cậy 1− α)
hay: p1 < p < p2
Chú ý: Nếu n khá lớn (n > 100) và nf > 10;n(1 − f) > 10 ta có thể thay
p(p−p) bởi f(1− f) ở biểu thức trên mà không mắc sai số đáng kể. Lúc đó ta có:
f − uγ
√
f(1− f)
n
< p < f + uγ
√
f(1− f)
n
.
hay:
f − ε < p < f + ε.
Ví dụ 1:
Nghiên cứu nhu cầu tiêu dùng của một loại hàng trong thành phố, ng−ời ta tiến
hành điều tra ở 100 gia đình thì thấy có 60 gia đình có nhu cầu về loại hàng nói
trên. Hãy −ớc l−ợng tỉ lệ gia đình có nhu cầu về mặt hàng đó của toàn thành phố
với độ tin cậy 1− α = 95%.
Giải:
Gọi tỷ lệ gia đình có nhu cầu mặt hàng này là p (p ch−a biết). Ta cần −ớc l−ợng
p với tốc độ tin cậy 95%. Theo giả thiết của bài toán ta có: Tỷ lệ gia đình có nhu
cầu về mặt hàng này trong mẫu cụ thể là f = 60 : 100 = 0, 6.
Với độ tin cậy:
1−α = 0, 95 =⇒ 1− 1
α
= 0, 975 =⇒ uγ = 1, 96. ε = 1, 96
√
0, 6(1− 0, 6)
100
=
0, 096.
Vậy KTC cụ thể của p là: (0, 504; 0, 696).
Nếu áp dụng công thức (*) ta có: p1 = 0, 502; p2 = 0, 691.
Khi đó KTC của p: (0, 502; 0, 691).
2.4. Ước l−ợng khoảng cho ph−ơng sai
Giả sử ĐLNN, phân phối theo qui luật chuẩn, ch−a biết ph−ơng sai DX = σ2
của nó. Cần −ớc l−ợng DX . Từ X lập mẫu ngẫu nhiên WX = (X1, X2, ã ã ã , Xn)
và xét hai tr−ờng hợp sau:
Biên soạn: GVC.ThS. Phan văn Danh
14
a) Đã biết kỳ vọng toán EX = à.
Chọn thống kê: χ2 =
n∑
i=1
(Xi − à)2
σ2
. ở Ch−ơng 5, chúng ta đã biết χ2 phân phối
theo qui luật "khi bình ph−ơng" với n bậc tự do. Nếu với xác suất α1, α2 khá bé
sao cho α1 + α2 = α, ta có thể tìm đ−ợc các phân vị χ2α1 và χ
2
1−α2 thoả mãn:
P
(
χ2α1 < χ
2 < χ21−α2
)
= 1− α.
Thay biểu thức của χ2 vào ta đ−ợc:∑
(Xi − à)2
χ21−α2
< σ2 <
∑
(Xi − à)2
χ2α1
.
Với mẫu cụ thể wX = (x1, x2, ã ã ã , xn) ta có thể tính các tổng
∑
(xi − à)2 và
sẽ tìm đ−ợc KTC cụ thể của σ2.
b) Tr−ờng hợp ch−a biết EX :
Chọn thống kê χ2 =
(n− 1)S ′2
σ2
. Thống kê này phân phối theo qui luật "khi
bình ph−ơng" với (n− 1) bậc tự do.
Lặp lại các thủ tục −ớc l−ợng nh− TH(a) ta sẽ tìm đ−ợc KTC cụ thể của σ2 với
độ tin cậy 1− α là:
(n− 1)s′2
χ21−α2
< σ2 <
(n− 1)s′2
χ2α1
.
Ví dụ 2:
Mức hao phí nguyên liệu cho một đơn vị sản phẩm là ĐLNN X phân phối theo
qui luật chuẩn với EX = 20g. Quan sát 25 sản phẩm, ta có các số liệu ở bảng sau:
Trọng l−ợng hao phí(gam) 19, 5 20, 0 20, 5
Số sản phẩm 5 18 2
Với độ tin cậy 1− α = 90%, hãy −ớc l−ợng X , biết α1 = α2 = 0, 05.
Giải:
Lập bảng tính
xi ni xi − 20 (xi − 20)2 ni(xi − 20)2
19, 5 5 −0, 5 0, 25 1, 25
20, 0 18 0 0 0
20, 5 2 0, 5 0, 25 0, 55∑
n = 1, 25 1, 75
Biên soạn: GVC.ThS. Phan văn Danh
15
Tra bảng phân vị χ2 với bậc tự do n = 25 ta đ−ợc:
χ21−α2 = χ
2
0,95 = 14, 6; χ
2
α1
= χ20,05 = 37, 7.
Vậy KTC cụ thể của DX = σ2 là (0, 046 < σ2 < 0, 120).
Trong ví dụ này, nếu ch−a biết EX = 20 thì ta tính S
′2. Với số liệu đã cho ta
tính đ−ợc s
′2 = 0, 065.
Tra bảng phân vị χ2 với n− 1 = 24 bậc tự do ta đ−ợc
χ21−α2 = 13, 80; χ
2
α1
= χ20,05 = 36, 4.
Vậy KTC là: (0, 0423 < σ2 < 0, 113).
2.5. Xác định kích th−ớc mẫu
Ta thấy chất l−ợng của −ớc l−ợng đ−ợc phản ảnh qua độ tin cậy 1 − α và độ
chính xác ε. Một −ớc l−ợng tốt nếu 1− α lớn còn ε khá nhỏ. Nh−ng độ chính xác
ε lại phụ thuộc vào kích th−ớc mẫu n và độ tin cậy 1− α.
Vấn đề đặt ra là: ta muốn độ tin cậy 1− α và độ chính xác ở ε đạt đ−ợc ở một
mức nào đó cho tr−ớc thì cần kích th−ớc mẫu n tối thiểu là bao nhiêu ?
a) Xác định kích th−ớc mẫu trong tr−ờng hợp −ớc l−ợng trung bình:
* Nếu biết DX = σ2, thì từ công thức ε = uγ.
σ√
n
ta suy ra:
n = u2γ.
σ2
ε2
.
* Nếu ch−a biết σ2, khi đó ta căn cứ vào mẫu cụ thể đã cho (nếu ch−a có mẫu thì
có thể lấy mẫu sơ bộ kích th−ớc n1 ≥ 30) để tính s′2. Từ đó xác định kích th−ớc
mẫu
n = u2γ.
s
′2
ε2
.
Chú ý: Nếu bài toán đòi hỏi n là số nguyên mà khi tính ra n theo 2 công thức
trên ta lại thu đ−ợc n là số không nguyên thì khi đó ta lấy phần nguyên của nó
cộng với 1.
Tức:
n =
[
u2γ.
s
′2
ε2
]
hoặc n = u2γ.
σ2
ε2
+ 1.
b) Xác định kích th−ớc mẫu trong tr−ờng hợp −ớc l−ợng tỷ lệ:
Từ công thức: ε = uγ
√
f(1− f)
n
, ta suy ra
n = u2γ.
f(1− f)
ε2
.
Biên soạn: GVC.ThS. Phan văn Danh
1Kiểm định
giả thuyết thống kê
1. Các khái niệm
1.1. Giả thuyết thống kê
ở ch−ơng IV đã nghiên cứu ĐLNN, khi ch−a biết tham số của nó và đã xây
dựng các ph−ơng pháp −ớc l−ợng các tham số đó. Ch−ơng này tiếp tục nghiên cứu
ĐLNN trong tr−ờng hợp thông tin không đầy đủ thể hiện ở nhiều mặt, cụ thể là:
• Ch−a biết chính xác các tham số θ hoặc qui luật phân phối xác suất của ĐLNN
X , nh−ng có cơ sở nào đó để nêu lên giả thuyết, chẳng hạn θ = θo (θo là hằng số
đã biết), hay: X tuân theo qui luật phân phối chuẩn.
• Khi nghiên cứu hai hay nhiều ĐLNN, một trong những vấn đề cần quan tâm
nhất là: các đại l−ợng này độc lập với nhau hay có sự phụ thuộc t−ơng quan?
Các tham số của chúng có bằng nhau hay không ?
Những câu hỏi này th−ờng ch−a đ−ợc trả lời khẳng định mà mới nêu lên nh−
một giả thiết.
Vậy có thể định nghĩa:
Giả thuyết thông kê là những giả thuyết nói về các tham số, dạng qui luật phân
phối hoặc tính độc lập của các ĐLNN.
Việc tìm ra kết luận về tính thừa nhận đ−ợc hay không thừa nhận đ−ợc của một
giả thuyết gọi là kiểm định giả thuyết thống kê.
Đây là một trong những bài toán cơ bản của thông kê toán. Tr−ớc hết ta đề cập
đến các tham số ĐLNN.
Giả sử cần nghiên cứu tham số θ của ĐLNN X và có cơ sở nào đó để nêu giả
thuyết θ = θo.
Giả thuyết này đ−ợc ký hiệu H : θ = θo (đ−ợc gọi là giả thuyết cần kiểm định
hay giả thuyết cơ bản).
Mệnh đề đối lập với giả thuyết H đ−ợc gọi là giả thuyết đối của H và ký hiệu
là H . Dạng tổng quát của H là: θ 6= θo.
Biên soạn: GVC.ThS. Phan văn Danh
2Trong nhiều tr−ờng hợp, giả thuyết đối có thể phát biểu cụ thể hơn nh−: H :
θ > θo hay H : θ < θo.
Nh− vậy giả thuyết kiểm định và giả thuyết đối th−ờng đ−ợc nêu lên thành từng
cặp. Chẳng hạn:
H : θ = θo; H : θ 6= θo
hoặc
H : θ = θo; H : θ > θo
hoặc
H : θ = θo; H : θ < θo
Nhiệm vụ của lý thuyết kiểm định giả thuyết thống kê là: Bằng thực nghiệm
(thông qua mẫu cụ thể) kiểm tra tính đúng (sai) của giả thuyết H.
1.2. Mức ý nghĩa, miền bác bỏ
Ph−ơng pháp kiểm định giả thuyết thống kê dựa trên cơ sở lập luận nh− sau:
Xuất phát từ yêu cầu bài toán thực tế, ta đ−a ra một giả H và giả thuyết đối
của nó.
Tr−ớc hết giả sử H đúng, và do đó xây dựng đ−ợc biến cố A nào đó, sao cho
xác suất xảy ra biến cố A bằng α, bé đến mức có thể sử dụng nguyên lý xác suất
nhỏ, tức là có thể coi A không xảy ra trong một phép thử.
Khi thực hiện phép thử đối với biến cố A:
- Nếu A xảy ra thì ta bác bỏ giả thuyết H .
- Nếu A không xảy ra thì ta ch−a có cơ sở để bác bỏ H.
Trên có sở lập luận trên, có thể xây dựng thủ tục kiểm định gồm các b−ớc sau:
B−ớc 1: Từ ĐLNNX lập mẫu ngẫu nhiên có kích th−ớc n : WX = (X1, X2, ã ã ã , Xn)
và chọn thống kê G = f(X1, X2, ã ã ã , Xn, θ), sao cho nếu H đúng thì qui luật phân
phối xác suất củaG hoàn toàn xác định và đối với mẫu cụ thể wX = (x1, x2, ã ã ã , xn)
thì giá trị của G sẽ đ−ợc tính. Thống kê G đ−ợc gọi là tiêu chuẩn kiểm định giả
thuyết H.
B−ớc 2: Do qui luật phân phối xác suất của G đã biết nên với xác suất α bé tuỳ
ý có thể tìm đ−ợc miền Wα sao cho P (G ∈ Wα) = α. (G ∈ Wα) đóng vai trò
nh− biến cố A nói trên.
Sự tồn tại biểu thức P (G ∈ Wα) = α chỉ với giả thuyết H đúng, nên để nhấn
mạnh điều kiện này ng−ời ta ký hiệu P (G ∈ Wα|H) = α. Vì α bé nên theo nguyên
Biên soạn: GVC.ThS. Phan văn Danh
3lý xác suất nhỏ có thể coi G không nhận giá trị trong miền Wα đối với một phép
thử.
B−ớc 3: Thực hiện một phép thử đối với mẫu ngẫu nhiên WX ta thu đ−ợc mẫu
cụ thể wX = (x1, x2, ã ã ã , xn). Từ mẫu cụ thể này ta tính đ−ợc giá trị của G (ký
hiệu là g), giá trị này đ−ợc gọi là giá trị quan sát hay giá trị thực nghiệm và ký
hiệu g = f(x1, x2, ã ã ã , xn, θo).
B−ớc 4: Xem xét giá trị quan sát của g có thuộc miền Wα hay không để kết
luận:
a) Nếu g ∈ Wα: biến cố (G ∈ Wα) xảy ra, ta bác bỏ H , thừa nhận H.
b) Nếu g /∈ Wα: biến cố (G ∈ Wα) không xảy ra, ta chấp nhận giả thuyết H.
Miền Wα đ−ợc gọi là miền bác bỏ của giả thuyết H; α đ−ợc gọi là mức ý nghĩa
của kiểm định, trong thực tế th−ờng lấy α trong khoảng (0, 01 ; 0, 05).
1.3. Sai lầm loại I và sai lầm loại II
Khi kiểm định một giả thuyết thống kê, chúng ta có thể mắc một trong hai sai
lầm sau đây:
a) Sai lầm loại I: là sai lầm mắc phải khi ta bác bỏ giả thuyết H trong khi H
đúng.
Xác suất mắc phải sai lầm loại này bằng mức ý nghĩa α. Thật vậy, mặc dù H
đúng thì xác suất để (G ∈ Wα) vẫn bằng α, nghĩa là P (G ∈ Wα|H) = α.
Nh−ng nếu (G ∈ Wα) thì lập tức bác bỏ H . Theo qui tắc nh− vậy, rõ ràng có
xác suất mắc sai lầm bằng α. Nếu α càng bé khả năng gặp phải sai lầm loại I càng
ít.
b) Sai lầm loại II: Là sai lầm mắc phải khi thừa nhận H trong khi H sai.
Xác suất mắc phải sai lầm loại II là xác suất để G nhận giá trị không thuộc
miền bác bỏ Wα khi H sai (tức H đúng)
P (G /∈ Wα|H) = 1− P (G ∈ Wα|H) = 1− β.
β đ−ợc gọi là lực kiểm định H . Nó chính là xác suất "không mắc sai lầm loại
II". β càng lớn thì xác suất mắc sai lầm loại II P (G /∈ Wα|H) = 1− β càng nhỏ.
Các tr−ờng hợp xảy ra khi tiến hành kiểm định có thể tóm tắt d−ới dạng bảng
sau:
H đúng H sai
Bác bỏ Sai lầm loại I Kết luận đúng
Thừa nhận Kết luận đúng Sai lầm loại II
Biên soạn: GVC.ThS. Phan văn Danh
4Khi kiểm định giả thuyết thống kê, nếu mức ý nghĩa α đã chọn, kích th−ớc mẫu
n đã xác định; đối với một tiêu chuẩn kiểm định G, ta có thể tìm đ−ợc vô số miền
bác bỏ Wα.
Th−ờng lựa chọn miền bác bỏ Wα sao cho xác suất mắc sai lầm loại II là nhỏ
nhất (hay lực kiểm định lớn nhất).
Miền bác bỏ Wα đ−ợc xây dựng d−ới đây có tính chất trên, tức là đảm bảo sai
lầm loại II nhỏ nhất với với mức ý nghĩa và kích th−ớc mẫu n xác định tr−ớc.
2. Kiểm định giả thiết về trung bình
Giả thuyết trung bình của tổng thể (cũng chính là kỳ vọng toán của ĐLNN X),
là m ch−a biết. Nh−ng có cơ sở nào đó nêu giả thuyết H : m = mo, (mo là giá trị
nào đó đã biết).
Cần kiểm định giả thuyết này với các giả thuyết đối nh− sau:
H : m 6= mo; H : m > mo; H : m < mo.
ta xét các tr−ờng hợp sau:
2.1. Tr−ờng hợp n ≥ 30 (hoặc n < 30 nh−ng X có phân phối
chuẩn); đã biết ph−ơng sai DX = σ2.
B−ớc 1: Lập mẫu ngẫu nhiên WX = (X1, X2, ã ã ã , Xn). Chọn thống kê
U =
(X −mo)
√
n
σ
làm tiêu chuẩn kiểm định.
Nếu giả thuyết H đúng thì U có phân phối chuẩn tắc.
B−ớc 2: Miền bác bỏ phụ thuộc giả thuyết đối H nh− sau:
a) H : m = mo;H : m 6= mo:
Wα = (−∞,−u1−α2 ) ∪ (u1−α2 +∞).
hay Wα = {u : |u| > u1−α2 }.
b) H : m = mo; H : m > mo:
Wα = (u1−α,+∞).
c) H : m = mo;H : m < mo:
Biên soạn: GVC.ThS. Phan văn Danh
5Wα = (−∞,−u1−α).
B−ớc 3: Lấy mẫu cụ thể wX = (x1, x2, ã ã ã , xn). Tính giá trị cụ thể của u hay
còn gọi là uqs, uqs =
(x−mo).
√
n
σ
.
với x =
1
n
n∑
i=1
xi.
B−ớc 4: Xét xem uqs ∈ Wα hay không để kết luận:
Nếu uqs ∈ Wα thì bác bỏ H , nếu uqs /∈ Wα thì ch−a có cơ sở bác bỏ H.
Ví dụ 1: Nếu máy móc hoạt động bình th−ờng thì trọng l−ợng của sản phẩm có
kỳ vọng toán là 100 gam, độ lệch chuẩn σ = 1. Qua một thời gian sản xuất, ng−ời
ta nghi nghờ trọng l−ợng của sản phẩm có xu h−ớng tăng lên. Cân thử 100 sản
phẩm thì trọng l−ợng trung bình của chúng là 100, 3 gam.
Với mức ý nghĩa α = 0, 05, hãy kết luận về điều nghi ngờ nói trên có đúng hay
không ?
Giải: Gọi X là trọng l−ợng sản phẩm. Gọi trọng l−ợng trung bình của loại
sản phẩm đó sau một thời gian sản xuất là m (m ch−a biết). Đặt giả thuyết
H : m = 100; H : m > 100.
Với α = 0, 05 thì u1−α = 1, 645.
Miền bác bỏ với mức ý nghĩa α = 0, 05 là:
Wα = W0,05 = [1, 645;+∞).
Tính uqs = (100, 3− 100).
√
100
1
= 3 ∈ Wα.
Ta bác bỏ giả thiết H . Điều nghi ngờ nói trên là đúng.
Ví dụ 2: Tuổi thọ của bóng đèn X là ĐLNN phân phối chuẩn với trung bình là
EX = 2000 giờ và độ lệch tiêu chuẩn σ = 15 giờ. Với mức ý nghĩa α = 5%, hãy
kết luận điều nghi ngờ nói trên.
Giải: H : EX = 2000; H : EX 6= 2000.
Chọn tiêu chuẩn kiểm định U =
(H − 2000)√25
15
.
Nếu H đúng thì U ∼ N(0, 1). Miền bác bỏ:
Wα = (−∞,−u1−α2 ) ∪ (u1−α2 ,+∞) = (−∞,−1, 96) ∪ (1, 96,+∞).
Tính uqs =
(1990− 2000)5
15
= −10
3
∈ Wα.
Nh− vậy bác bỏ H , tức là thừa nhận tuổi thọ bóng đèn đã thay đổi.
Biên soạn: GVC.ThS. Phan văn Danh
62.2. Tr−ờng hợp n ≥ 30;σ2 ch−a biết:
Tr−ờng hợp này chọn thống kê U =
(H −mo)
√
n
S ′
làm tiêu chuẩn kiểm định.
Nếu H đúng thì U có phân phối chuẩn tắc, do đó miền bác bỏ giả thuyết H và
qui tắc kiểm định giống nh− tr−ờng hợp 2.1 chỉ khác nhau là tính uqs theo công
thức:
uqs =
(x−mo)
√
n
s′
.
2.3. Tr−ờng hợp n < 30, σ2 ch−a biết, X có phân phối chuẩn:
Chọn thống kê T =
(x−mo)
√
n
s′
làm tiêu chuẩn kiểm định. Nếu H đúng thì T
có phân phối theo qui luật Student với n− 1 bậc tự do:
Miền bác bỏ xây dựng phụ thuộc vào dạng giả thuyết đối H nh− sau:
a) H : m = mo; H : m 6= mo :
Wα = (−∞,−t1−α2 ) ∪ (t1−α2 ,+∞) = {|T | > t1−α2 }.
b) H : m = mo; H : m > mo :
Wα = (t1−α,+∞).
c) H : m = mo; H : m < mo:
Wα = (−∞,−t1−α).
Với mẫu cụ thể, ta tính đ−ợc giá trị x, s′ và do đó tính đ−ợc giá trị:
tqs =
(x−mo)
√
n
s′
.
Xem xét tqs có htuộc Wα hay không để kết luận.
Ví dụ 3: Trọng l−ợng các bao gạo là ĐLNN X tuân theo qui luật phân phối
chuẩn với EX = 50 kg. Nghi ngờ các máy đóng bao làm việc không bình th−ờng
làm cho trọng l−ợng các bao gạo có xu h−ớng giảm, ng−ời ta cân thử 25 bao và
thu đ−ợc kết quả nh− sau:
Biên soạn: GVC.ThS. Phan văn Danh
7X (kg) Số bao
48, 0− 49, 0 2
48, 5− 49, 0 5
49, 0− 49, 5 10
49, 5− 50, 0 6
50, 0− 50, 5 2
Với mức ý nghĩa α = 0, 01, hãy kết luận về nghi ngờ nói trên.
Giải: Gọi m là trọng l−ợng trung bình thực tế của các bao gạo (m ch−a biết).
Đặt giả thuyết
H : m = 50; H : m < 50.
B−ớc 1: Lập mẫu ngẫu nhiên kích th−ớc n = 25.
WX = (X1, X2, ã ã ã , Xn) và chọn thống kê T = (X − 50).
√
25
S ′
làm tiêu chuẩn
kiểm định.
B−ớc 2: Xây dựng miền bác bỏ. Nếu H đúng thì T tuân theo qui luật Student
với n− 1 = 24 bậc tự do
t1−α = t0,99 = 2, 492 =⇒ Wα = W0,01 = (−∞,−2, 5).
B−ớc 3: Từ mẫu cụ thể, tính đ−ợc: x = 49, 27; S2 = 0, 25 =⇒ S ′2 = 0, 24.
s′ = 0, 49 =⇒ tqs = (49, 27− 50)
√
25
0, 49
= −7, 46.
B−ớc 4: Rõ ràng tqs ∈ Wα. Vậy bác bỏ H: trọng l−ợng đã có giảm.
3. Kiểm định giả thiết về tỉ lệ
Giả sử tỷ lệ các phần tử có tính chất A nào đó của tổng thể là p (ch−a biết).
Cần kiểm định giả thuyết H : p = po (po: hằng số) với các giả thuyết đối:
H : p 6= po; H : p > po; H : p < po.
Gọi X là số phần tử có tính chất A khi lấy ngẫu nhiên một phần tử tổng thể.
X là ĐLNN tuân theo qui luật phân phối "không - một" với bảng phân phối xác
suất nh− s
Các file đính kèm theo tài liệu này:
- baigiangxacsuatthongke_3973.pdf