Không gian xác suất - Tài liệu, Luận văn

Tài liệu Không gian xác suất: 1không gian xác suất A.- Biến cố ngẫu nhiên 1.- Khái niệm: Trong vô số các hiện t−ợng xảy ra chung quanh, ta có thể phân biệt thành hai loại: a) Hiện t−ợng tất yếu: là hiện t−ợng mà nếu đ−ợc thực hiện trong cùng một điều kiện nh− nhau thì chúng cho các kết quả giống nhau. b) Hiện t−ợng ngẫu nhiên: là hiện t−ợng mà dù đ−ợc thực hiện trong cùng một điều kiện chúng vẫn cho các kết quả khác nhau. Ví dụ: • Gieo một đồng xu, kết quả sấp hay ngữa là hiện t−ợng ngẫu nhiên, • Khi gieo một con xúc sắc, số nốt xuất hiện ở mặt trên của nó là một hiện t−ợng ngẫu nhiên. Đối t−ợng nghiên cứu của lý thuyết xác suất là các biến cố ngẫu nhiên, do vậy ta cần trang bị cho chúng một cấu trúc toán học thích hợp. Đó là đại số các biến cố ngẫu nhiên. Ta sẽ luôn coi rằng các biến cố trong một đại số các biến cố đều có liên quan tới kết quả của một "phép thử" nào đó. ở đây "phép thử" đ−ợc hiểu là sự thực hiện một số điều kiện nhất định. Mỗi phép thử gắn với một tập hợp các kết quả có thể xảy r...

86 trang | Chia sẻ: honghanh66 | Lượt xem: 1444 | Lượt tải: 0

Bạn đang xem trước 20 trang mẫu tài liệu Không gian xác suất, để tải tài liệu gốc về máy bạn click vào nút DOWNLOAD ở trên

1không gian xác suất A.- Biến cố ngẫu nhiên 1.- Khái niệm: Trong vô số các hiện t−ợng xảy ra chung quanh, ta có thể phân biệt thành hai loại: a) Hiện t−ợng tất yếu: là hiện t−ợng mà nếu đ−ợc thực hiện trong cùng một điều kiện nh− nhau thì chúng cho các kết quả giống nhau. b) Hiện t−ợng ngẫu nhiên: là hiện t−ợng mà dù đ−ợc thực hiện trong cùng một điều kiện chúng vẫn cho các kết quả khác nhau. Ví dụ: • Gieo một đồng xu, kết quả sấp hay ngữa là hiện t−ợng ngẫu nhiên, • Khi gieo một con xúc sắc, số nốt xuất hiện ở mặt trên của nó là một hiện t−ợng ngẫu nhiên. Đối t−ợng nghiên cứu của lý thuyết xác suất là các biến cố ngẫu nhiên, do vậy ta cần trang bị cho chúng một cấu trúc toán học thích hợp. Đó là đại số các biến cố ngẫu nhiên. Ta sẽ luôn coi rằng các biến cố trong một đại số các biến cố đều có liên quan tới kết quả của một "phép thử" nào đó. ở đây "phép thử" đ−ợc hiểu là sự thực hiện một số điều kiện nhất định. Mỗi phép thử gắn với một tập hợp các kết quả có thể xảy ra. với mỗi biến cố thuộc đại số các biến cố ta phải khẳng định đ−ợc rằng: khi một kết quả nào đó của phép thử đ−ợc thực hiện nó xảy ra hay không xảy ra. Giả Sử A,B,C, ... là các biến cố ngẫu nhiên có liên quan tới kết quả của một phép thử F nào đó. • Ta nói A,B là đồng nhất, và viết A = B, nếu với mỗi kết quả có thể của phép thử chúng cùng xảy ra hoặc cùng không xảy ra. • Sự không xuất hiện của A đ−ợc xem là sự xuất hiện của biến cố đối A, ký hiệu Ac, hay A. • Sự xuất hiện đồng thời hai biến cố A,B đ−ợc coi là sự xuất hiện của biến cố giao A giao B, ký hiệu A ∩B hay A.B. • Sự không thể xuất hiện đ−ợc coi là một biến cố, gọi là biến cố không thể có hay không, ký hiệu là ∅ hay V . • A,B gọi là xung khắc nếu AB = ∅. • Sự xuất hiện ít nhất một trong hai biến cố A,B đ−ợc coi là sự xuất hiện của biến cố hợp A hợp B, ký hiệu A ∪B. Khi A.B = ∅ ta viết A+B thay A ∪B . • Sự chắc chắn xuất hiện đ−ợc coi là một biến cố, gọi là biến cố chắc chắn, ký hiệu Ω. This lesson was typed by pdfLATEX 2• Ta định nghĩa A \B = A.Bc. • Nếu sự xuất hiện của A kéo theo sự xuất hiện của B thì ta nói A kéo theo B, ký hiệu A ⊂ B. • Ta nói họ biến cố {B1, B2, ..., Bn} là đầy đủ nếu chúng từng đôi một xung khắc và n∑ i=1 Bi = Ω. 2.- Một số tính chất: 1. Nếu A = B thì B = A; A.A = A 2. (Ac)c = A;A.Ac = ∅ 3. A.B = B.A; (A.B).C = A(B.C) 4. A ∪B = B ∪ A; (A ∪B) ∪ C = A ∪ (B ∪ C) 5. A+ Ac = Ω, do đó Ac = Ω \ A 6. A = B ⇐⇒ A ⊂ B và B ⊂ A 7. A ⊂ B ⇐⇒ Bc ⊂ Ac 8. A ∪ (B.C) = (A ∪B).(A ∪ C) 9. A.(B ∪ C) = A.B ∪ A.C 10. (A.B)c = Ac ∪Bc; (A ∪B)c = Ac.Bc 11. A ∪B = A+B.Ac ... Việc chứng minh các tính chất trên đơn giản, chỉ cần áp dụng định nghĩa và các qui tắc lôgic. Chú ý: Từ các tính chất 3. 4. suy ra các phép toán lấy giao, hợp có thể mở rộng cho họ hữu hạn các biến cố ngẫu nhiên. Các hệ thức trong 10. có thể mở rộng thành: ( n⋂ i=1 Ai )c = n⋃ i=1 Ai c; ( n⋃ i=1 Ai )c = n⋂ i=1 Ai c Ví dụ: Xét phép thử F: gieo đồng thời hai xúc sắc đều, đồng chất. Gọi A,B,C,D,E là các biến cố ngẫu nhiên liên quan đ−ợc xác định nh− sau: A: "Tổng số nốt xuất hiện trên hai xúc sắc là số chẵn" B: "Tổng số nốt xuất hiện trên hai xúc sắc là số lẻ" C: "Số nốt xuất hiện trên mỗi xúc sắc là số lẻ" D: "Số nốt xuất hiện trên mỗi xúc sắc là số chẵn" E: "Số nốt xuất hiện trên hai xúc sắc cùng lẻ hoặc cùng chẵn". Khi đó ta có các hệ thức (dễ dàng kiểm tra đ−ợc): A = E;Ac = B;A.B = ∅;A = C +D;D ⊂ A; ... 3.- Định nghĩa đại số và σ đại số: This lesson was typed by pdfLATEX 3Tập A các phần tử tùy ý A,B,C, ... đ−ợc gọi là một đại số Boole hay một tr−ờng khi các điều kiện sau đ−ợc thực hiện: 1. Ω ∈A. 2. A ∈A =⇒ Ac ∈A. 3. Ak ∈A =⇒ n⋃ k=1 Ak ∈A. Nhận xét: Trong đại số, các phép toán lấy giao (tích), hợp thực hiện đ−ợc với một số hữu hạn phần tử. • Đại số Boole đ−ợc gọi là σ đại số (σ tr−ờng) nếu nó đóng kín với phép lấy hợp đếm đ−ợc hay với phép giao đếm đ−ợc. • Giả sử C là một đại số, σ đại số nhỏ nhất chứa C đ−ợc gọi là σ đại số sinh bởi C, ký hiệu σ(C). Ví dụ: 1) Tập hợp các kết quả có thể có liên quan tới một phép thử với cách xác định biến cố đối, giao các biến cố, hợp các biến cố, biến cố không thể có, biến cố chắc chắn nh− trên, lập nên một đại số Boole (dễ dàng kiểm tra). Nó đ−ợc gọi là đại số các biến cố. 2) Giả sử Ω là tập khác rỗng, ký hiệu C(Ω) là lớp mọi tập con của Ω. Với các phép toán tập hợp đã biết (lấy giao, hợp, phần bù) cùng với tập rỗng, C(Ω) lập nên một đại số Boole. 3) Giả sử A ⊂ Ω,Ω 6= ∅. Xét lớp CA = {∅,Ω, A,Ac} với các phép toán tập hợp thông th−ờng CA tạo nên một σ- đại số. 4.- Liên hệ giữa đại số các biến cố và đại số các tập hợp: Mối liên hệ nầy đ−ợc thể hiện qua định lý Stone d−ới đây: Định lý: Mỗi đại số các biến cố có một đại số các tập hợp đẳng cấu với nó. • Một biến cố A đ−ợc gọi là phức hợp nếu nó có thể biểu diễn d−ới dạng hợp hai biến cố không đồng nhất với nó. • Một biến cố A không phải là phức hợp đ−ợc gọi là biến cố sơ cấp. Từ các kết quả trên ta suy ra: một biến cố phức hợp có thể xuất hiện theo nhiều cách khác nhau. Một biến cố sơ cấp chỉ xuất hiện theo một cách duy nhất. Các biến cố sơ cấp thì xung khắc nhau. Trong đại số các biến cố, mỗi biến cố ngẫu nhiên biểu diễn đ−ợc d−ới dạng tổng một số hữu hạn các biến cố sơ cấp một cách duy nhất. Nh− vậy một biến cố A ứng với một tập các biến cố sơ cấp mà sự xuất hiện của mỗi biến cố nầy kéo theo sự xuất hiện của A. Chúng đ−ợc gọi là các biến cố thích hợp với A. T−ơng ứng nầy bảo tồn các phép toán trongA; biến cố "không thể có" ứng với tập rỗng ∅. Biến cố "chắc chắn" Ω ứng với tập tất cả các biến cố sơ cấp của phép thử vì vậy Ω đ−ợc đồng nhất với không gian biến cố sơ cấp. This lesson was typed by pdfLATEX 4B.- Xác suất Quan sát các hiện t−ợng ngẫu nhiên ta thấy có những hiện t−ợng th−ờng xảy ra, có những hiện t−ợng ít xảy ra. Xác suất là một đại l−ợng thể hiện mức độ xảy ra (th−ờng xuyên hay ít khi) của một biến cố. trong lịch sử toán học đã có nhiều định nghĩa cho khái niệm xác suất. ở giáo trình nầy ta sẽ tiếp xúc với một số định nghĩa tiêu biểu 1.- Định nghĩa cổ điển của xác suất: Nếu A là biến cố có n(A) biến cố sơ cấp thích hợp với nó trong một không gian biến cố sơ cấp gồm n(Ω) biến cố cùng khả năng xuất hiện thì tỉ số P (A) = n(A) n(Ω) đ−ợc gọi là xác suất của A. Nh− vậy điều kiện để áp dụng định nghĩa nầy là: ∗ n(Ω) <∞ ∗ Các biến cố sơ cấp phải có cùng khả năng xuất hiện. Ví dụ: 1) Gieo một hạt xúc sắc cân đối đồng chất một cách ngẫu nhiên. Tìm xác suất để mặt có số nốt chẵn xuất hiện. 2) Từ một hộp có 13 bi đỏ và 7 bi trắng có kích th−ớc nh− nhau, rút ngẫu nhiên một bi. Khi đó: Xác suất để rút đ−ợc bi đỏ là: P (Đ) = 13 20 . Xác suất để rút đ−ợc bi trắng là: P (T ) = 7 20 . Chú ý: Để tính xác suất theo định nghĩa cổ điển ta phải tìm n(Ω) và n(A). một công cụ đ−ợc sử dụng nhiều là giải tích tổ hợp đã đ−ợc chuẩn bị ở trung học. 2.- Định nghĩa xác suất theo quan điểm hình học: Khi n(Ω) vô hạn, ta không thể áp dụng định nghĩa cổ điển để tính xác suất. trong nhiều tr−ờng hợp ta có thể sử dụng định nghĩa xác suất theo quan điểm hình học nh− sau: Giả sử một điểm đ−ợc rơi ngẫu nhiên vào miền D, A là một miền con của D. Khi đó xác suất để điểm rơi ngẫu nhiên vào miền A đ−ợc xác định bởi công thức: P (A) = số đo miềnA số đo miềnD (Số đo ở đây có thể là độ dài, diện tích hay thể tích tùy thuộc vào miền xét trên đ−ờng thẳng, mặt phẳng hay không gian ba chiều) Một ví dụ điển hình là "bài toán gặp gỡ": Hai ng−ời hẹn gặp nhau tại một địa điểm vào khoảng từ 11 giờ đến 12 giờ. Họ qui −ớc rằng ng−ời đến tr−ớc sẽ chỉ đợi 20 phút, nếu không gặp sẽ đi. Giả sử việc This lesson was typed by pdfLATEX 5đến điểm hẹn của hai ng−ời là ngẫu nhiên. tìm xác suất để hai ng−ời gặp nhau? 3.- Định nghĩa xác suất theo quan điểm thống kê: Tiến hành n phép thử độc lập, nh− nhau và theo dõi sự xuất hiện biến cố A có liên quan. Gọi n là số phép thử đã tiến hành, n(A) là số phép thử có A xuất hiện, tỉ số n(A) n đ−ợc gọi là tần suất xuất hiện A. Khi số phép thử n đủ lớn ta có thể lấy tần suất của A thay cho xác suất P (A) (mà ta ch−a biết). Nếu tồn tại lim n→∞ n(A) n thì giới hạn nầy là P (A). 4.- Định nghĩa tiên đề của xác suất: Cho Ω là một không gian; gọiA là σ - đại số các tập con của Ω. P (.) là hàm tập xác định trênA. Ta gọi P là hàm xác suất nếu các tiên đề sau đây đ−ợc thỏa mãn: (i) P (A) ≥ 0,∀A ∈A (ii) P ( ∞∑ n=1 An ) = ∞∑ n=1 P (An) (iii) P (Ω) = 1. Bộ ba (Ω;A;P ) đ−ợc gọi là không gian xác suất. Từ hệ tiên đề trên ng−ời ta chứng minh đ−ợc các tính chất của xác suất sau đây (ta chấp nhận không chứng minh để sử dụng tính toán xác suất): Mệnh đề 1: Trên không gian xác suất (Ω;A;P ) ta có: a) P (∅) = 0 b) Nếu {A1, A2, ..., An} là họ hữu hạn các biến cố ngẫu nhiên từng đôi xung khắc thì P ( n∑ k=1 Ak ) = n∑ k=1 P (Ak). Mệnh đề 2: Giả sử A,B là là các biến cố ngẫu nhiên bất kỳ. Khi đó: a) P (A ∪B) = P (A) + P (B)− P (A.B) b) chulucNếu A ⊂ B thì P (A) ≤ P (B). c) ∀A ∈A, có 0 ≤ P (A) ≤ 1 và P (Ac) = 1− P (A). Ví dụ: Một hộp chứa 5 cầu trắng, 3 cầu xanh và 4 cầu đen cùng kích th−ớc. Chọn ngẫu nhiên cùng lúc 3 cầu. Tìm xác suất để: a) Cả ba cầu cùng màu. b) Có đúng hai cầu cùng màu. c) Có ít nhất hai cầu cùng màu. d) Cả ba cầu khác màu. C.- Xác suất điều kiện This lesson was typed by pdfLATEX 6Trong mục nầy ta sẽ xây dựng một đại l−ợng để biểu thị khả năng xuất hiện một biến cố A khi có một biên cố B đã xuất hiện với xác suất nào đó. 1.- Định nghĩa: Xét không gian xác suất (Ω;A, P ). Giả sử B là biến cố ngẫu nhiên có P (B) > 0, A ∈A. Đại l−ợng P (A/B) = P (A ∩B) P (B) đ−ợc gọi là xác suất của A với điều kiện B. Có tài liệu dùng ký hiệu: PB(A), PB(A). Nhận xét: • Trong định nghĩa xác suất cổ điển ta có: P (A/B) = n(A ∩B) n(B) , nghĩa là xác suất điều kiện P (A/B) có thể xem nh− xác suất của A xét trong không gian B. • Với B ∈A, P (B) > 0, ánh xạ P (./B) từA vào R+ là một hàm xác suất. Ta có các mệnh đề sau: Mệnh đề 1: (công thức nhân xác suất) Giả sử {A1, A2, ..., An} là họ các biến cố ngẫu nhiên sao cho P (A1.A2...An) > 0, khi đó: P (A1.A2...An) = P (A1).P (A2/A1).P (A3/A1A2)...P (An/A1A2...An−1) Mệnh đề nầy có thể chứng minh đ−ợc bằng ph−ơng pháp qui nạp. Ví dụ: (Sơ đồ hộp Polia). Một hộp lúc đầu chứa a cầu trắng, b cầu đỏ. Sau mỗi lần chọn ngẫu nhiên một cầu, ta trả cầu đó vào hộp cùng với c cầu cùng màu với cầu đã chọn. Tìm xác suất để cầu trắng đ−ợc chọn ở ba lần đầu. Đặt Ai: "cầu trắng đ−ợc chọn ở lần i' (i = 1, 2, 3). Ta cần tính P (A1A2A3). Theo công thức nhân xác suất: P (A1A2A3) = P (A1).P (A2/A1).P (A3/A1.A2) = = a a+ b . a+ c a+ b+ c . a+ 2c a+ b+ 2c Mệnh đề 2: (công thức xác suất toàn phần ) Giả sử {B1, B2, ..., Bn} là họ đầy đủ các biến cố ngẫu nhiên có xác suất d−ơng. Khi đó với ∀A ∈A ta có: P (A) = n∑ i=1 P (Bi).P (A/Bi) Ví dụ: Một nông tr−ờng có 4 đội sản xuất. Đội 1 sản 1 3 tổng sản l−ợng nông sản của nông tr−ờng. Đội 2 sản xuất 1 4 tổng sản l−ợng. Đội 3 sản xuất 1 4 tổng sản This lesson was typed by pdfLATEX 7l−ợng. Đội 4 sản xuất 1 6 tổng sản l−ợng. Tỉ lệ phế phẩm t−ơng ứng với các đội sản xuất là 0, 15; 0, 08; 0, 05; 0, 01. Lấy ngẫu nhiên một sản phẩm trong kho của nông tr−ờng. Tìm xác suất để lấy phải một phế phẩm. Mệnh đề 3: (công thức Bayès ) Nếu A là biến cố có xác suất d−ơng, {B1, B2, ..., Bn} là họ đầy đủ các biến cố ngẫu nhiên có xác suất d−ơng. Khi đó với mỗi j(j = 1, n), ta có: P (Bj/A) = P (Bj).P (A/Bj) n∑ i=1 P (Bi).P (A/Bi) Ví dụ: Hai nhà máy cùng sản x uất một loại sản phẩm. Nhà máy số 1 sản xuất gấp k lần nhà máy số 2. Tỉ lệ thứ phẩm của hai nhà máy là p1, p2. Lấy ngẫu nhiên một sản phẩm trong kho chung của hai nhà máy để kiểm tra thì gặp phải thứ phẩm. Tìm xác suất để thứ phẩm đó do nhà máy thứ hai sản xuất. D.- Sự độc lập ngẫu nhiên Xét không gian xác suất (Ω,A, P ) 1.- Định nghĩa: Giả sử B là lớp nào đó các biến cố ngẫu nhiên (B ⊂A). Ta nói lớp B độc lập nếu xác suất của một giao hữu hạn bất kỳ các biến cố trong B bằng tích của các xác suất của các biến cố đó. Ví dụ: B1 = {A,B} độc lập ⇐⇒ P (A.B) = P (A).P (B)B2 = {A,B,C} độc lập ⇐⇒ P (A.B) = P (A).P (B)P (A.C) = P (A).P (C)P (B.C) = P (B).P (C)P (A.B.C) = P (A).P (B).P (C) Chú ý: 1) Khi B có hơn hai biến cố thì rõ ràng nếu B độc lập lúc đó xác suất của giao hai biến cố bất kỳ trong B cũng bằng tích các xác suất của các biến cố đó. Ta nói có sự độc lập từng đôi. Nh−ng sự độc lập từng đôi trong B không đủ suy ra B độc lập. Xét thí dụ sau: Một khối tứ diện đều, đồng chất có ba mặt sơn t−ơng ứng các màu trắng, xanh, đỏ. Mặt thứ t− sơn cả ba màu trắng, xanh, đỏ. Gieo ngẫu nhiên các khối đó lên mặt phẳng. Nếu gọi A,B,C t−ơng ứng là: "mặt có màu trắng (xanh, đỏ) của tứ diện đó tiếp với mặt phẳng". Khi đó ta thấyB = {A,B,C} độc This lesson was typed by pdfLATEX 8lập từng đôi. 2) Dễ thấy rằng nếu P (B) > 0 thì {A,B} độc lập khi và chỉ khi P (A/B) = P (A). Thật vậy: • Giả sử A,B độc lập, do P (B) > 0 có P (A/B) = P (A.B) P (B) = P (A).P (B) P (B) = P (A). • Ng−ợc lại, nếu P (A/B) = P (B) thì từ xác suất có điều kiện suy ra P (A) = P (A/B) = P (A.B) P (B) =⇒ P (A.B) = P (A).P (B), nghĩa là {A,B} độc lập. Điều khẳng định trên có ý nghĩa: khi {A,B} độc lập (theo định nghĩa) thì sự xuất hiện của B không ảnh h−ởng đến sự xuất hiện của A (vì P (A/B) = P (A)) và ng−ợc lại. Nh− vậy ta có thể nhận biết sự độc lập bằng trực giác, hay kinh nghiệm quan sát. Điều đó rất có ý nghĩa thực tiễn. Mệnh đề 1: Nếu {A,B} độc lập thì {A,Bc} độc lập. Chú ý: Bằng qui nạp hữu hạn ta dễ dàng chứng minh đ−ợc: Nếu {A1, A2, ..., An} độc lập thì {A1, A2, ..., An−1, Acn} cũng độc lập. nếu áp dụng nhiều lần kết quả nầy ta đ−ợc mệnh đề sau: Mệnh đề 2: Nếu {A1, A2, ..., An} là họ các biến cố độc lập, (j1, j2, ..., jn) là một hoán vị bất kỳ của {1, 2, ..., n}. Khi đó họ {A′j1, A′j2, ..., A′jn}, ở đây A′ji = Aji hoặc Acji cũng là họ độc lập. Ví dụ: Bắn ba viên đạn độc lập vào một mục tiêu. Xác suất trích đích của mỗi viên t−ơng ứng là 0, 3; 0, 4; 0, 5. Nếu chỉ một viên trúng thì mục tiêu bị phá hủy với xác suất 0, 2. Nếu ít nhất hai viên trúng thì mục tiêu chắc chắn bị phá hủy. Hãy tìm xác suất để mục tiêu bị phá hủy khi bắn ba viên đạn nh− trên. This lesson was typed by pdfLATEX 1đại l−ợng ngẫu nhiên A.- Đại l−ợng ngẫu nhiên 1.- Định nghĩa: Giả sử Ω là không gian mẫu ứng với phép thử G. ánh xạ: X : Ω −→ R ω 7−→ X(ω) sao cho ∀x ∈ R, {ω ∈ Ω/X(ω) < x} ⊂ Ω (là một biến cố) đ−ợc gọi là một đại l−ợng ngẫu nhiên. Có thể hiểu đại l−ợng ngẫu nhiên là một đại l−ợng mà giá trị của nó là ngẫu nhiên, tùy thuộc vào kết quả của phép thử. Đại l−ợng ngẫu nhiên th−ờng đ−ợc ký hiệu bằng các mẫu tự la tinh in hoa: X,T, ã ã ã . Các giá trị của chúng th−ờng đ−ợc ký hiệu bởi các mẫu tự la tinh th−ờng x, y, ã ã ã Ng−ời ta phân biệt hai đại l−ợng ngẫu nhiên (ĐLNN) là ĐLNN rời rạc và ĐLNN liên tục. 2.- Đại l−ợng ngẫu nhiên rời rạc: a) Định nghĩa: Một ĐLNN đ−ợc gọi là ĐLNN rời nếu tập giá trị của nó là tập con hữu hạn hay vô hạn đếm đ−ợc của tập số thực R. Ví dụ 1: 1) Gieo một con xúc sắc cân xứng và đồng chất. Gọi X là số chấm xuất hiện ở mặt trên con xúc sắc. Khi đó X là ĐLNN rời có tập giá trị X(Ω) = {1, 2, 3, 4, 5, 6}. 2) Chọn ngẫu nhiên 3 đứa trẻ từ một nhóm gồm 6 bé trai và 4 bé gái. Gọi X là số bé gái trong nhóm chọn đ−ợc. X là một đại l−ợng ngẫu nhiên rời có tập giá trị X(Ω) = {0, 1, 2, 3}. 3) Bắn liên tiếp từng phát một vào bia cho đến khi nào trúng bia thì dừng lại. Gọi X là số viên đạn cần bắn. Khi đó X là ĐLNN rời có tập giá trị X(Ω) = {1, 2, 3, ã ã ã , n, ã ã ã }. b) Bảng phân phối xác suất: Ngoài việc xác định tập giá trị của ĐLNN rời, một điều quan trọng nữa là ta phải biết đ−ợc xác suất để ĐLNN đó nhận các giá trị ấy là bao nhiêu. Bảng phân phối xác suất của một ĐLNN rời là bảng trên đó ghi các giá trị mà X có thể nhận, kèm theo các xác suất để nó nhận các giá trị ấy. This lesson was typed by pdfLATEX 2X(Ω) x1 x2 ... xn ... pk p1 p2 ... pn trong đó pk = P ({X = xk}); n∑ k=1 pk = 1 nếu X(Ω) hữu hạn ∞∑ k=1 pk = 1 nếu X(Ω) vô hạn đếm đ−ợc. Ví dụ 2: ở ví dụ 1) mục 1.2.1, ta có: X(Ω) = {0, 1, 2, 3} ta có: P ({X = 0}) = C 3 6 C310 = 120 720 = 5 30 ; P ({X = 2}) = C 2 4 .C 1 6 C310 = 9 30 P ({X = 1}) = C 1 4 .C 2 6 C310 = 15 10 ; P ({X = 3}) = C 3 4 C310 = 1 30 Vậy bảng phân phối xác suất của X là: X 0 1 2 3 p 530 15 30 9 30 1 30 Ví dụ 3: Một túi chứa 3 tấm thẻ đ−ợc đánh số 1, 2, 3 và túi thứ hai chứa 4 tấm thẻ đ−ợc đánh số 4, 5, 6, 8. Chọn ngẫu nhiên từ mỗi túi 1 tấm thẻ rồi cộng hai số ghi trên hai tấm thẻ lại. Gọi X là kết quả, hãy lập bảng phân phối xác suất của X . Giải: Có 12 kết quả có thể: (1, 4); (1, 5); (1, 6); (1, 8) (2, 4); (2, 5); (2, 6); (2, 8) (3, 4); (3, 5); (3, 6); (3, 8) Các kết quả nầy đồng khả năng, với xác suất xuất hiện của chúng là 112 . X(Ω) = {5, 6, 7, 8, 9, 10, 11} P ({X = 5}) = P ({1, 4}) = 1 12 ; P ({X = 8}) = P ({(2, 6), (3, 5)}) = 2 12 This lesson was typed by pdfLATEX 3P ({X = 6}) = P ({(1, 5), (2, 4)}) = 2 12 ; P ({X = 9}) = P ({(1, 8), (3, 6)}) = 2 12 P ({X = 7}) = P ({(1, 6), (3, 4)}) = 3 12 ; P ({X = 10}) = P (2, 8) = 1 12 ; P ({X = 11}) = P (3, 8) = 1 12 Bảng phân phối xác suất của X là: X(Ω) 5 6 7 8 9 10 11 p 112 2 12 3 12 2 12 2 12 1 12 1 12 b) Hàm phân bố xác suất: Là hàm đ−ợc xác định bởi: F : R −→ R x 7→ F (x) = ∑ xi<x pi Ví dụ 4: ĐLNN X ở ví dụ 1 trên đây có hàm phân bố xác suất nh− sau: F (X) =  0 khi x < 0 5 30 khi 0 < x ≤ 1 20 30 khi 1 < x ≤ 2 29 30 khi 2 < x ≤ 3 1 khi x > 3 Hàm phân bố xác suất của ĐLNN rời có các tính chất: (i) 0 ≤ F (x) ≤ 1,∀x (ii) liên tục bên trái (iii) không giảm (iv) lim x→+∞F (x) = 1; limx→−∞F (x) = 0. 3.- Đại l−ợng ngẫu nhiên liên tục: a) Định nghĩa: Một ĐLNN nhiên X đ−ợc gọi là ĐLNN liên tục nếu: i) Tập các giá trị của X lấp đầy một hay hợp của một số khoảng của trục số, thậm chí lấp đầy cả toàn bộ trục số. ii) Với mọi a ∈ R, P ({X = a}) = 0 Ví dụ 1: This lesson was typed by pdfLATEX 41) L−ợng m−a hàng năm ở một địa ph−ơng là một ĐLNN liên tục có X(Ω) = (0,+∞) 2) Trọng l−ợng của đứa trẻ sơ sinh là một ĐLNN liên tục. b) Hàm mật độ xác suất: Đối với ĐLNN liên tục X , xác suất để X nhận một giá trị cụ thể nào đó luôn luôn bằng 0: P ({X = a}) = 0, ∀a ∈ X(Ω). Vì vậy ta quan tâm đến xác suất để X rơi vào một khoảng (a, b) nào đó chứ không quan tâm đến xác suất để X nhận một giá trị cụ thể nh− trong tr−ờng hợp ĐLNN rời. Phân phối xác suất của X đ−ợc xác định bởi một hàm f(x) gọi là hàm mật độ xác suất. Định nghĩa: Hàm số f(x) xác định trên toàn trục số đ−ợc gọi là hàm mật độ của ĐLNN liên tục X nếu: i) f(x) ≥ 0,∀x ∈ R ii) +∞∫ −∞ f(x)dx = 1 iii) ∀a, b : a < b =⇒ P ({a < X < b}) = b∫ a f(x)dx ở đây chú ý: P ({X = a}) = P ({X = b}) = 0 nên P (a ≤ X ≤ b) = b∫ a f(x)dx Ví dụ 2: Cho X là ĐLNN liên tục có hàm mật độ f(x) nh− sau: f(x) = { 0; x < 1 c x2 ; x ≥ 1 Hãy tính hằng số c và tính P (2 < x < 3) Giải: (f(x) là hàm mật độ) ⇐⇒  f(x) ≥ 0 +∞∫ −∞ f(x)dx = 1 f(x) ≥ 0⇐⇒ c ≥ 0 +∞∫ −∞ f(x)dx = 1⇐⇒ +∞∫ 1 cdx x2 = 1 = − c x ]+∞ 1 = 1⇐⇒ c = 1 Vậy c = 1 This lesson was typed by pdfLATEX 5P (2 < X < 3) = 3∫ 2 f(x)dx = 3∫ 2 dx x2 = 1 6 . Ví dụ 3: Cho hàm p(x) = a sin 2x. Xác định hằng số a để p(x) trở thành hàm mật độ của ĐLNN X nhận giá trị tập trung trong đoạn [0, pi2 ]. Giải: p(x) = { 0 nếu x pi2 a sin 2x nếu 0 ≤ x ≤ pi2 p(x) ≥ 0⇐⇒ a sin 2x ≥ 0,∀x ∈ [0, pi2 ]⇐⇒ a ≥ 0. +∞∫ −∞ p(x)dx = 1⇐⇒ pi 2∫ 0 a sin 2xdx = 1⇐⇒ −a 2 cos 2x ]pi 2 0 = 1⇔ a = 1. Vậy a = 1 Ví dụ 4: Cho X là ĐLNN có hàm mật độ f(x): f(x) =  1 + x nếu − 1 ≤ x ≤ 0 1− x nếu 0 < x ≤ 1 0 nếu |x| > 1 Tính P (−12 < X < 1) Giải: P (−12 < X < 1) = 1∫ − 12 f(x)dx = 0∫ − 12 (1 + x)dx+ 1∫ 0 (1− x)dx = 7 8 . b) Hàm phân bố xác suất: Định nghĩa: Hàm phân bố xác suất của ĐLNN liên tục X , ký hiệu bởi F (x), là hàm xác định với mọi số thực x theo công thức sau: F (x) = P (X < x) Tính chất: Hàm phân bố xác suất của ĐLNN liên tục F (x) có các tính chất sau: i) 0 ≤ F (x) ≤ 1. ii) F (x) là hàm không giảm. iii) F (x) là hàm liên tục bên trái. iv) lim x→+∞F (x) = 1; limx→−∞F (x) = 0. v) Quan hệ giữa hàm mật độ và hàm phân phối: Nếu f(x) và F (x) t−ơng ứng là hàm mật độ và hàm phân phối của ĐLNN X thì: This lesson was typed by pdfLATEX 6f(x) = F ′(x); F (x) = x∫ −∞ f(t)dt. Ví dụ 1: Cho X là ĐLNN có hàm mật độ: f(x) = a 1 + x2 . Hãy tìm hệ số a và hàm phân phối F (x). Giải: f(x) ≥ 0⇐⇒ a ≥ 0. +∞∫ −∞ f(x)dx = 1⇐⇒ +∞∫ −∞ adx 1 + x2 = 1⇐⇒ 2a( arctg x ]+∞ 0 ) = 1 ⇐⇒ api = 1⇐⇒ a = 1 pi Vậy: f(x) = 1 pi(1 + x2) . Theo iv): F (x) = x∫ −∞ f(t)dt = x∫ −∞ dt pi(1 + t2) = 1 pi arctg t ]x −∞ = 1 pi arctg x + 1 2 . Ví dụ 2: Cho X là ĐLNN có hàm phân phối: F (x) =  0 nếu x ≤ 0 ax3 nếu 0 < x < 2 1 nếu x ≥ 2 Hãy tìm hệ số a, hàm mật độ của X và P (0 < X < 1). Giải: Do hàm phân phối liên tục trái nên: lim x→2− F (x) = lim x→2− ax3 = 8a = F (2) = 1. Vậy a = 1 8 . Mặt khác F ′(x) = f(x), nên hàm mật độ của ĐLNN X là: f(x) = 0 nếu x ≤ 0 hoặc x ≥ 23 8 x2 nếu 0 < x < 2 P (0 < x < 1) = 1∫ 0 f(x)dx = 1∫ 0 3 8 x2dx = 1 8 . Ví dụ 3: Cho X là ĐLNN có hàm phân phối: This lesson was typed by pdfLATEX 7F (x) = a+ b arctg x c trong đó a, b, c là các hằng số. Tìm a, b, c và hàm mật độ xác suất f(x). Giải: lim x→+∞F (x) = 1⇐⇒ a+ b pi 2 = 1 (1) lim x→+∞F (x) = 0⇐⇒ a− b 2 pi = 0 (2) ⇐⇒ b ≤ 1 Giải hệ (1), (2) đ−ợc a = 1 2 ; b = 1 pi . Nh− vậy: F (x) = 1 2 + 1 pi arctg x c f(x) = F ′(x) = 1 pi . c x2 + c2 Vì f(x) là hàm mật độ nên f(x) > 0, tức là c > 0. Vậy a = 1 2 ; b = 1 pi , c > 0 (tùy ý). 3.- Đại l−ợng ngẫu nhiên nhiều chiều: a) Khái niệm ĐLNN nhiều chiều: ở phần trên, ta đã xét các ĐLNN mà các giá trị của nó đ−ợc biểu diễn bằng một số. Các ĐLNN nh− vậy đ−ợc gọi là ĐLNN một chiều. Ngoài các ĐLNN một chiều, trong thực tế ta còn gặp các ĐLNN mà giá trị của nó đ−ợc xác định bằng 2, 3, .. n số. Những đại l−ợng nầy đ−ợc gọi một cách t−ơng ứng là ĐLNN 2, 3, ..., n chiều. Ta ký hiệu ĐLNN hai chiều là (X, Y ) (vectơ ngẫu nhiên hai chiều). Trong đó X và Y đ−ợc gọi là các thành phần của ĐLNN hai chiều. Cả hai đại l−ợng X và Y đ−ợc xét một cách đồng thời tạo nên hệ hai ĐLNN. T−ơng tự nh− vậy ĐLNN n chiều có thể xem nh− hệ của n ĐLNN. Ví dụ 1: Một máy sản xuất một loại sản phẩm. Nếu kích th−ớc của sản phẩm đ−ợc đo bằng chiều dài X và chiều rộng Y , thì ta có ĐLNN hai chiều (X, Y ); còn nếu tính thêm cả chiều cao Z nữa thì ta có ĐLNN ba chiều (X, Y, Z). Trong thực tế ng−ời ta cũng phân chia các ĐLNN nhiều chiều thành hai loại: rời rạc và liên tục. Các ĐLNN nhiều chiều đ−ợc gọi là rời rạc nếu các thành phần của nó là ĐLNN rời rạc. This lesson was typed by pdfLATEX 8Các ĐLNN nhiều chiều đ−ợc gọi là liên tục nếu các thành phần của nó là ĐLNN liên tục. Sau đây ta chỉ xét các ĐLNN hai chiều. b) Qui luật phân phối xác suất của ĐLNN hai chiều: Đối với các vectơ ngẫu nhiên hai chiều ng−ời ta cũng dùng bảng phân phối xác suất, hàm phân phối xác suất, hàm mật độ xác suất để thiết lập bảng phân phối xác suất của chúng. (i) Bảng phân phối xác suất của vectơ ngẫu nhiên (VTNN) hai chiều: Bảng phân phối xác suất của vectơ ngẫu nhiên hai chiều rời rạc là bảng liệt kê tất cả các giá trị có thể có của nó và các xác suất t−ơng ứng. Nó có dạng sau: X\Y y1 y2 ... yj ... ym x1 p(x1, y1) P (x1, y2) ã ã ã P (x1, yj) ã ã ã P (x1, ym) x2 P (x2, y1) P (x2, y2) ã ã ã P (x2, yj) ã ã ã P (x2, ym) ... ... ... ã ã ã ... ã ã ã ... xi P (xi, y1) P (xi, y2) ã ã ã P (xi, yj) ã ã ã P (xi, ym) ... ... ... ã ã ã ... ã ã ã ... xn P (xn, y1) P (xn, y2) ã ã ã P (xn, yj) ã ã ã P (xn, ym) Trong đó xi, i = 1, n là các giá trị có thể có của X; yj; j = 1,m là các giá trị có thể có của Y. p(xi, yj) là xác suất để VTNN hai chiều (X, Y ) nhận giá trị (xi, yj). Để tạo nên một qui luật phân phối xác suất thì các xác suất p(xi, yj) phải thỏa mãn điều kiện: - p(xi, yj) ≥ 0. - n∑ i=1 m∑ j=1 p(xi, yj) = 1. Biết đ−ợc bảng phân phối xác suất của VTNN hai chiều bao giờ cũng tìm đ−ợc bảng phân phối xác suất của mỗi thành phần. Bảng phân phối xác suất của thành phần X có dạng: X x1 x2 ã ã ã xi ã ã ã xn p p(x1) p(x2) ã ã ã p(xi) ã ã ã p(xn) trong đó: p(xi) = m∑ j=1 p(xi, yj) This lesson was typed by pdfLATEX 9Rõ ràng là: n∑ i=1 p(xi) = 1. Bảng phân phối xác suất của thành phần Y có dạng: X y1 y2 ã ã ã yj ã ã ã ym p p(y1) p(y2) ã ã ã p(yj) ã ã ã p(ym) trong đó: p(yj) = n∑ i=1 p(xi, yj) rõ ràng là: m∑ j=1 p(yj) = 1. Ví dụ 2: Tìm bảng phân phối xác suất của các thành phần của VTNN hai chiều có bảng phân phối xác suất nh− sau: X \ Y y1 y2 x1 0, 1 0, 06 x2 0, 3 0, 18 x3 0, 2 0, 16 Giải: Cộng các xác suất theo hàng ta thu đ−ợc các xác suất t−ơng ứng với các giá trị của thành phần X. p(x1) = 0, 1 + 0, 06 = 0, 16 p(x2) = 0, 3 + 0, 18 = 0, 48 p(x3) = 0, 2 + 0, 16 = 0, 36 Ta có bảng phân phối xác suất của thành phần X X x1 x2 x3 p 0, 16 0, 48 0, 36 Cộng các giá trị theo cột ta có các xác suất t−ơng ứng với các giá trị của thành phần Y : p(y1) = 0, 1 + 0, 3 + 0, 2 = 0, 6 p(y2) = 0, 06 + 0, 18 + 0, 16 = 0, 4 Ta có bảng phân phối xác suất của thành phần Y nh− sau: Y y1 y2 p 0, 6 0, 4 This lesson was typed by pdfLATEX 10 (ii) Hàm phân phối xác suất của VTNN hai chiều: Xét VTNN hai chiều (X, Y ) có thể rời rạc hoặc liên tục. Giả sử (x, y) là một cặp số thực bất kỳ. Xét biến cố (X < x; Y < y) là biến cố để X nhận giá trị nhỏ hơn x, và Y nhận giá trị nhỏ hơn y. Khi x, y thay đổi thì xác suất của biến cố trên cũng thay đổi theo, nó là một hàm số của x và y. Hàm phân phối xác suất của VTNN hai chiều (X, Y ); ký hiệu F (x, y) là xác suất để thành phần X nhận giá trị nhỏ hơn x và thành phần Y nhận giá trị nhỏ hơn y với x, y là các số thực tùy ý. F (x, y) = P (X < x, Y < y) Ví dụ 3: Tìm xác suất để trong kết quả của phép thử thành phần X của VTNN hai chiều (X,Y ) nhận giá trị X < 2 và Y nhận giá trị Y < 3 nếu biết hàm phân phối xác suất của nó có dạng: F (x, y) = ( 1 pi arctg x 2 + 1 2 )( 1 pi arctg y 3 + 1 2 ) Giải: Theo định nghĩa hàm phân phối xác suất của VTNN hai chiều ta có: P (X < 2, Y < 3) = F (2, 3) = ( 1 pi arctg 2 2 + 1 2 ).( 1 pi arctg 3 3 + 1 2 ) = ( 1 pi . pi 4 + 1 2 ).( 1 pi . pi 4 + 1 2 ) = 3 4 . 3 4 = 9 16 (iii) Hàm mật độ xác suất của VTNN hai chiều: Đối với VTNN liên tục (X, Y ) ngoài hàm phân phối xác suất ra còn có thể dùng hàm mật độ xác suất biểu diễn phân phối xác suất của nó. Hàm mật độ xác suất của VTNN hai chiều liên tục (X,Y ); ký hiệu f(x, y) là đạo hàm riêng hỗn hợp cấp hai của hàm phân phối xác suất f(x, y) = ∂2F (x, y) ∂x∂y Ví dụ 4: Tìm hàm mật độ xác suất của VTNN hai chiều liên tục (X, Y ) nếu biết hàm phân phối xác suất của nó. F (x, y) = sinx. sin y; 0 ≤ x ≤ pi 2 ; 0 ≤ y ≤ pi 2 Giải: Theo định nghĩa hàm mật độ xác suất, tr−ớc hết ta tìm đạo hàm riêng của hàm phân phối xác suất theo x: ∂F (x, y) ∂x = cos x sin y This lesson was typed by pdfLATEX 11 Suy ra: f(x, y) = ∂2F (x, y) ∂x∂y = cos x cos y; x ∈ [0, pi 2 ], y ∈ [0, pi 2 ]. This lesson was typed by pdfLATEX 12 B.- Kỳ vọng, ph−ơng sai và một số đặc tr−ng của đại l−ợng ngẫu nhiên 1.- Kỳ vọng và ph−ơng sai: a) Kỳ vọng: Định nghĩa 1: Giả sử X là ĐLNN rời có bảng phân phối xác suất nh− sau: X(Ω) x1 x2 ã ã ã xn ã ã ã p p1 p2 ã ã ã pn ã ã ã Nếu ∞∑ k=1 |xk|.pk < +∞ thì ta gọi tổng ∞∑ k=1 xkpk là kỳ vọng của ĐLNN X và ký hiệu là EX: EX = ∞∑ k=1 xkpk Trong tr−ờng hợp X(Ω) = {x1, x2, ã ã ã , xn} (hữu hạn) thì: EX = n∑ k=1 xkpk. Định nghĩa 2: Giả sử X là ĐLNN liên tục có hàm mật độ f(x). Nếu +∞∫ −∞ |x|f(x)dx < +∞ thì ta gọi +∞∫ −∞ xf(x)dx là kỳ vọng của ĐLNN X và ký hiệu EX: EX = +∞∫ −∞ xf(x)dx. Ví dụ 1: Cho X là ĐLNN có phân phối xác suất: X(Ω) −2 −1 0 1 4 p 0, 1 0, 2 0, 15 0, 25 0, 3 Tìm kỳ vọng của X . Giải: EX = (−2).(0, 1) + (−1).(0, 2) + 0.(0, 15) + 1.(0, 25) + 4.(0, 3) = 1, 05 This lesson was typed by pdfLATEX 13 Ví dụ 2: Cho ĐLNN có hàm mật độ: f(x) = { cx3 với 0 ≤ x ≤ 3 0 với x /∈ [0, 3] Tính c và EX Giải: f(x) ≥ 0⇐⇒ c ≥ 0 +∞∫ −∞ f(x)dx = 1⇐⇒ 3∫ 0 cx3dx = 1⇐⇒ c = 4 81 EX = +∞∫ −∞ xf(x)dx = 3∫ 0 x. 4 81 x3dx = 4 81 ( x5 5 ) ]3 0 = 2, 4 Ví dụ 3: X là ĐLNN có hàm mật độ f(x) = { 0 nếu x 1 1 nếu 0 ≤ x ≤ 1 Tính EX. Giải: +∞∫ −∞ xf(x)dx = 0∫ −∞ x.0.dx+ 1∫ 0 x.1.dx+ +∞∫ 1 x.0.dx = 1 2 . b) Ph−ơng sai: Định nghĩa: Ph−ơng sai của ĐLNN X , ký hiệu DX , đ−ợc xác định bởi: DX = E(X − EX)2 Nếu X là ĐLNN liên tục thì: DX = +∞∫ −∞ (x− EX)2f(x)dx c) Độ lệch chuẩn: Độ lệch chuẩn của ĐLNN X là σX = √ DX. Ví dụ 1: ĐLNN X có bảng phân phối xác suất: X(Ω) 0 1 2 3 p 5 30 15 30 9 30 1 30 This lesson was typed by pdfLATEX 14 Ta có EX = 0. 5 30 + 1. 15 30 + 2. 9 30 + 3. 1 30 = 1, 2 DX = (0− 1, 2)2. 5 30 + (1− 1, 2)2.15 30 + (2− 1, 2)2. 9 30 + (3− 1, 2)2. 1 30 = 0, 56 σX = √ DX = √ 0, 56 = 0, 74. Ví dụ 2: Với ĐLNN liên tục ở ví dụ 2 trên: DX = +∞∫ −∞ (x− 2, 4)2.f(x)dx = 4 8 3∫ 0 (x− 2, 4)2.x3dx = 0, 24 σX = √ DX = 0, 48. Chú ý: Có thể chứng minh đ−ợc DX = E(X2)− (EX)2. d) Tính chất của kỳ vọng toán và ph−ơng sai: Kỳ vọng: Kỳ vọng có các tính chất sau: i) ĐLNN X = C: hằng có EC = C ii) Một hằng số có thể đ−a ra ngoài dấu kỳ vọng E(aX) = aEX. iii) Kỳ vọng của tổng các ĐLNN bằng tổng các kỳ vọng: E(X1 +X2 + ã ã ã+Xn) = EX1 + EX2 + ã ã ã+ EXn. iv) Nếu g(x) là hàm liên tục thì g(X) là một ĐLNN và nếu g(X) có kỳ vọng thì: • Nếu X là ĐLNN rời với P (X = xk) = pk; k = 1, 2, ã ã ã thì E(g(X)) =∞∑ k=1 g(xk).pk. • Nếu X là ĐLNN liên tục với hàm mật độ f(x) thì: E(g(X)) = +∞∫ −∞ g(x).f(x)dx. Đặc biệt: •Khi X là ĐLNN rời: E(X2) = ∞∑ k=1 x2k.pk. This lesson was typed by pdfLATEX 15 •Khi X là ĐLNN liên tục: E(X2) = +∞∫ −∞ x2.f(x)dx. Ph−ơng sai: i) C là ĐLNN hằng thì DC = 0 ii) a là hằng thì D(aX) = a2DX iii) Nếu X1, X2, ã ã ã , Xn là các ĐLNN độc lập thì: D(X1 +X2 + ã ã ã+Xn) = DX1 +DX2 + ã ã ã+DXn ở đây X1, X2, ã ã ã , Xn độc lập khi và chỉ khi: P (X1 = x1, X2 = x2, ã ã ã , Xn = xn) = P (X1 = x1).P (X2 = x2) ã ã ãP (Xn = xn) d) ý nghĩa của kỳ vọng và ph−ơng sai: Kỳ vọng: Kỳ vọng của ĐLNN X là một số đặc tr−ng cho giá trị trung bình của X . Trong thực tế nếu ta tiến hành "đo" một ĐLNN X thì ng−ời ta đo ĐLNN đó n lần độc lập, các kết quả là X1, X2, ã ã ã , Xn và có thể coi X = 1 n (X1 +X2 + ã ã ã+Xn) là giá trị của ĐLNN cần đo (với n đủ lớn). Ph−ơng sai: Ph−ơng sai của ĐLNN đặc tr−ng cho độ phân tán của các giá trị của X xung quanh giá trị kỳ vọng của nó. Về mặt toán học ph−ơng sai DX là độ lệch bình ph−ơng trung bình của các giá trị của X so với kỳ vọng EX. Ví dụ 2: Tính ph−ơng sai của ĐLNN ở ví dụ 1: Ta có: E(X2) = n∑ k=1 x2kpk = 5, 65 DX = E(X2)− (EX)2 = 5, 65− (1, 05)2 = 4, 54. Ví dụ 3: Cho X là ĐLNN có phân phối nhị thức với 2 tham số n, p; nghĩa là: P (X = k) = Ckn.p kqn−k; k = 0, n; q = 1− p. Tìm kỳ vọng và ph−ơng sai. Ta có: EX = n∑ k=0 k.Cknp kqn−k Với k ≥ 1 ta có: kCkn = k. n! k!(n− k)! = n. (n− 1)! (k − 1)!(n− k)! = nC k−1 n−1. This lesson was typed by pdfLATEX 16 Suy ra: EX = np n∑ k=1 Ck−1n−1p k−1qn−k đặt i = k − 1, ta có: EX = np n−1∑ i=0 Cin−1p iqn−1−i = np(p+ q)n−1 vì p+ q = 1 nên: EX = np. E(X2) = n∑ k=0 k2.Ckn.p kqn−k = n∑ k=0 [k(k − 1) + k]Cknpkqn−k = = n∑ k=0 k(k − 1)Ckn.pkqn−k + n∑ k=0 kCknp kqn−k mặt khác: k(k − 1)Ckn = k.(k − 1). n! k!(n− k)! = = n(n− 1). (n− 2)! (k − 2)!(n− k)! = n(n− 1)C k−2 n−2 nh− vậy: n∑ k=0 k(k − 1)Cknpkqn−k = n(n− 1)p2 n∑ k=2 Ck−2n−2p k−2qn−k = = n(n− 1)p2(p+ q)n−2 = n(n− 1)p2. Vậy: DX = EX2 − (EX)2 = n(n− 1)p2 + np− (np)2 = np− np2 = np(1− p) = npq. Ví dụ 4: Cho X là ĐLNN có phân phối Poison với tham số λ > 0 nghĩa là: P (X = k) = λk.e−λ k! ; k = 0, 1, 2, ã ã ã This lesson was typed by pdfLATEX 17 Tìm kỳ vọng và ph−ơng sai của X . EX = ∞∑ k=0 k. e−λ.λk k! = λe−λ ∞∑ k=1 λk−1 (k − 1)! đặt i = k − 1, ta có: EX = λe−λ. ∞∑ i=0 . λi i! = λe−λeλ = λ. (Chú ý: ∞∑ i=1 λi i! = eλ) Ta có: E(X2) = ∞∑ k=0 k2. λk.e−λ k! = e−λ.λ ∞∑ k=1 k. λk−1 (k − 1)! = λe−λ. ∞∑ i=0 (i+ 1). λi i! = λe−λ ∞∑ i=0 i. λi i! + λe−λ ∞∑ k=0 λi i! = λ ( ∞∑ i=0 i. λie−λ i! ) + λe−λeλ = λ2 + λ. (Chú ý: ∞∑ i=0 i. λi.e−λ i! = EX = λ) Vậy DX = E(X2)− (EX)2 = (λ2 + λ)− λ2 = λ. Ví dụ 5: Giả sử X là ĐLNN liên tục có hàm mật độ: f(x) = { 0 nếu x 1 1 nếu 0 ≤ x ≤ 1 Tính kỳ vọng và ph−ơng sai. EX = +∞∫ −∞ xf(x)dx = 0∫ −∞ x.0.dx+ 1∫ 0 x.1.dx+ 1∫ +∞ x.0.dx = 1∫ 0 xdx = 1 2 E(X2) = +∞∫ −∞ x2f(x)dx = 1∫ 0 x2dx = 1 3 . Vậy DX = 1 12 2 Covarian và hệ số t−ơng quan: a) Covarian: Covarian của hai ĐLNN X và Y là đại l−ợng ký hiệu cov (X, Y ) This lesson was typed by pdfLATEX 18 cov (X, Y ) = E{(X − EX)(Y − EY )} Dựa vào tính chất của kỳ vọng, ta có: cov (X, Y ) = E(X.Y )− EX.EY. Từ định nghĩa, ta có : cov (X,X) = E{(X − EX)2} = DX. Định lý: Giả sử X1, X2, ã ã ã , Xn là các ĐLNN và C1, C2, ã ã ã , Cm là các hằng số. Khi đó: D ( n∑ i=1 CiXi ) = n∑ i,j=1 CiCj cov (Xi, Xj) b) Hệ số t−ơng quan: Hệ số t−ơng quan của hai ĐLNN X, Y Ký hiệu là RXY , đ−ợc xác định bởi công thức: RXY = cov (X, Y )√ D(X). √ D(Y ) • Nếu DX hoặc DY bằng 0 thì qui −ớc RXY = 0. • Nếu RXY = 0 thì ta nói hai ĐLNN X và Y là không t−ơng quan. • Từ định nghĩa ta có: RXY = E(XY )− EX.EY√ DX. √ DY Do đó nếu hai ĐLNN độc lập thì chúng không t−ơng quan, điều ng−ợc lại ch−a chắc đúng. • Hệ số t−ơng quan đo mức độ phụ thuộc giữa hai ĐLNN X và Y . Định lý: Giả sử X, Y là hai ĐLNN. Khi đó: −1 ≤ RXY ≤ 1 Và |RXY | = 1 khi và chỉ khi X và Y phụ thuộc tuyến tính (nghĩa là tồn tại các hằng số a, b sao cho Y = aX + b. Hơn nữa RXY = 1 nếu a > 0; RXY = −1 nếu a < 0. This lesson was typed by pdfLATEX 19 C.- Một số dạng phân phối th−ờng dùng 1.- Phân phối nhị thức: a) Định nghĩa 1: ĐLNN X đ−ợc gọi là có phân phối nhị thức với hai tham số n và p (n là số nguyên d−ơng, 0 < p < 1) nếu tập giá trị của X là {0, 1, ã ã ã , n} và với mọi k; 0 ≤ k ≤ n thì: P (X = k) = Cknp kqn−k; q = 1− p ở các ví dụ trên ta có: EX = np DX = npq 2.- Phân phối Poisson: a) Định nghĩa 2: ĐLNN X đ−ợc gọi là có phân phối Poisson với tham số λ > 0 nếu tập giá trị của X là {0, 1, 2, ã ã ã } và với mọi k = 0, 1, 2, ã ã ã ta có: P (X = k) = λke−λ k! ở các ví dụ trên, ta có: EX = DX = λ 3.- Phân phối đều: a) Định nghĩa 3: ĐLNN X đ−ợc gọi là có phân phối đều trên [a, b] nếu hàm mật độ của nó có dạng: f(x) =  0 nếu x < a 1 b− a nếu a ≤ x ≤ b 0 nếu x > b Hàm phân phối của ĐLNN X có dạng: F (x) =  0 nếu x < a x− a b− a nếu a ≤ x ≤ b 1 nếu x > b EX = a+ b 2 ; DX = (b− a)2 12 This lesson was typed by pdfLATEX 20 4.- Phân phối mũ: a) Định nghĩa 4: ĐLNN X đ−ợc gọi là có phân phối mũ với tham số λ > 0 nếu hàm mật độ của nó có dạng: f(x) = { 0 nếu x ≤ 0 λe−λx nếu x > 0 ở ví dụ trên, ta có: EX = 1 λ ; DX = 1 λ2 . 5.- Phân phối chuẩn: a) Định nghĩa 5: ĐLNN X đ−ợc gọi là có phân phối chuẩn với hai tham số a và σ2 nếu hàm mật độ của nó có dạng f(x) = 1 σ √ 2pi e − (x− a)2 2σ2 ; x ∈ R Ký hiệu: X ∼ N(a;σ2) Hàm phân phối của X là: F (x) = 1 σ √ 2pi x∫ −∞ e − (t− a)2 2σ2 dt ta có: EX = a, DX = σ2; σ = √ DX + ĐLNN X đ−ợc gọi là có phân phối chuẩn tắc, ký hiệu X ∼ N(0, 1) nếu nó có phân phối chuẩn với a = 0 và σ2 = 1, tức là là hàm mật độ f(x) và hàm phân phối F (x) có dạng f(x) = 1√ 2pi e − x2 2 F (x) = 1√ 2pi x∫ −∞ e − t2 2 dt. Nếu X ∼ N(0, 1) thì EX = 0; DX = 1 This lesson was typed by pdfLATEX 21 Quan sát đồ thị hàm mật độ của các ĐLNN có cùng tham số a (a = 0) và ph−ơng sai khác nhau. Ta nhận thấy nếu σ tăng thì hàm mật độ "co" gần với trục Ox và nếu σ giảm hàm mật độ "dãn" dọc theo trục Oy (h.a). (h.b) mô tả hàm mật độ với ph−ơng sai bằng nhau và kỳ vọng a khác nhau. b) Định lý: Nếu X ∼ N(a, σ2) thì Y = X − a σ ∼ N(0; 1). Trong các giáo trình XSTK ng−ời ta lập sẵn các bảng giá trị của hàm mật độ và hàm phân phối của ĐLNN có phân phối chuẩn tắc. Hàm mật độ chuẩn chính tắc th−ờng đ−ợc ký hiệu là: ϕ(x) = 1√ 2pi e − x2 2 Ta có ngay ϕ(−x) = ϕ(x); lim x→∞ϕ(x) = 0. Do đó bảng giá trị của ϕ(x) chỉ đ−ợc lập với x > 0; ϕ(x) ≈ ϕ(5) ≈ 0, 5, với x ≥ 5 Để thuận tiện, ng−ời ta sử dụng hàm: Φ(x) = 1√ 2pi x∫ 0 e − t2 2 dt Ta có: Φ(x) là hàm lẻ và lim x→+∞Φ(x) = 1 2 . Do đó bảng giá trị của Φ(x) chỉ đ−ợc lập với x > 0, Φ(x) ' Φ(4) ∼ 1 2 ; x ≥ 4. Nếu F (x) là hàm phân phối của ĐLNN có phân phối chuẩn tắc thì: F (x) = Φ(x) + 1 2 ; x ≥ 0 c) Định lý: This lesson was typed by pdfLATEX 22 Nếu X ∼ N(a, σ2) thì: i) Nếu Z ∼ N(0, 1) thì: P (Z < α) =  Φ(α) + 1 2 nếu α > 0 −Φ(α) + 1 2 nếu α < 0 ii) Nếu X ∼ N(a, σ2) thì: P (α ≤ X ≤ β) = P (α− a σ < Z < β − a σ ), với Z = X − a σ iii) P ( |X − a| σ ≤ ) = 2Φ( σ ) d) Qui tắc 3σ: Theo Định lý trên (iii) nếu đặt ≤ σt thì: P (|X − a| ≤ σt) = 2Φ(t) Cho t = 1 ta có: P (|X − a| ≤ σ) = 2Φ(1) = 0, 6827 Cho t = 2 ta có: P (|X − a| ≤ 2σ) = 2Φ(1) = 0, 9545 Cho t = 3 ta có: P (|X − a| ≤ 3σ) = 2Φ(3) = 0, 9973 Nh− vậy, xác suất để độ lệch giữa các giá trị ĐLNN X có phân phối chuẩn với kỳ vọng của nó về giá trị tuyệt đối không v−ợt quá 3σ bằng 0, 9973. Điều đó nghĩa là, hầu hết các giá trị của ĐLNN X rơi vào khoảng (a− 3σ; a+3σ). Qui tắc nầy gọi là qui tắc 3σ và nó th−ờng đ−ợc sử dụng trong thống kê. Ví dụ: Hãy tìm xác suất để ĐLNN X có phân phối chuẩn với kỳ vọng bằng 3, ph−ơng sai bằng 4 nhận giá trị: 1) Trong khoảng (−1, 5) 2) Không quá 8 3) Không bé hơn 5 4) Trong khoảng (−3; 9) Giải: Ta có X ∼ N(3, 4); a = 3 và σ = √4 = 2, đặt Z = X − 3 2 1) Ta có: This lesson was typed by pdfLATEX 23 P (−1 < X < 5) = P (X < 5) − P (X < −1) = P (Z < 1) − P (Z < −2) = Φ(1) + Φ(2) = 0, 3413 + 0, 4772 = 0, 8185. 2) P (X ≤ 8) = P (Z < 2, 5) = Φ(2, 5) + 0, 5 = 0, 4938 + 0, 5 = 0, 9938. 3) P (X ≥ 5) = 1− P (Z ≤ 1)) = 1 2 − Φ(1) = 0, 5− 0, 3413 = 0, 1587. 4) P (−3 ≤ X ≤ 9) = P (−6 ≤ X − 3 ≤ 6) = P (|X − a| ≤ 3σ) = 0, 9973 6.- Phân phối Student: a) Định nghĩa 6: ĐLNN X đ−ợc gọi là có phân phối T (gọi là phân phối Student) với n bậc tự do nếu hàm mật độ của nó có dạng: f(x) = 1√ npi . Γ( n+ 1 2 ) Γ( n 2 ) . ( 1 + x2 n )−n+12 Ta có: EX = 0 nếu n > 1; DX = n n− 2 nếu n > 2. Phân phối Student không có kỳ vọng khi n ≤ 1 và không có ph−ơng sai khi n ≤ 2. Phân phối Student đóng vai trò quan trọng trong thống kê. Với n = 1 thì phân phối Student đ−ợc gọi là phân phối Cauchy. 7.- Phân phối χ2 (khi bình ph−ơng): a) Định nghĩa 7: ĐLNN X đ−ợc gọi là phân phối khi bình ph−ơng với n bậc tự do, ký hiệu là χ2(n), nếu hàm mật độ của nó có dạng: f(x) =  0 nếu x ≤ 0 1 Γ( n 2 ).2 n 2 .x n 2−1.e− x 2 nếu x > 0 Ta có: E(χ2(n)) = n; D(χ2(n)) = 2n. This lesson was typed by pdfLATEX 24 b) Định lý: Giả sử X1, X2, ã ã ã , Xn là các ĐLNN độc lập và có phân phối chuẩn chính tắc. Khi đó: χ2 = X21 +X 2 2 + ã ã ã+X2n có phân phối χ2 với n bậc tự do. 8.- Phân phối F (phân phối Fisher): a) Định nghĩa 8: ĐLNN X đ−ợc gọi là có phân phối F (phân phối Fiher) với (m,n) bậc tự do nếu hàm mật độ của nó có dạng: f(x) =  0 nếu n ≤ 0 ( m n ) m 2 . Γ( m+ n 2 ) Γ(m2 ).Γ( n 2 ) .x m 2 −1(1 + m n x)− m+1 2 nếu x > 0 ta có: EX = n n− 2 với n > 2 DX = 2n2(m+ n− 2) m(n− 2)2(n− 4) với n > 4. Với n ≤ 2 thì phân phối F không có kỳ vọng; với n ≤ 4 phân phối F không có ph−ơng sai. b) Định lý: Giả sử X1, X2, ã ã ã , Xm; Xm+1, ã ã ã , Xm+n là m+n ĐLNN độc lập và có cùng phân phối chuẩn tắc. Khi đó: F = 1 m m∑ k=1 X2k 1 n n∑ k=1 X2m+k có phân phối F với (m,n) bậc tự do. c) Hệ quả: Nếu X và Y là hai ĐLNN độc lập có có phân phối χ2 với m và n bậc tự do t−ơng ứng thì ĐLNN 1 mX 1 nY có phân phối F với (m,n) bậc tự do. This lesson was typed by pdfLATEX 25 D.- Một số định lý giới hạn Trong dãy n phép thử Bernouilli chúng ta đã xay dựng công thức tính xác suất để biến cố A xuất hiện đúng k lần là: Pn(k) = C k np kqn−1; q = 1− p. Tuy nhiên với với n lớn thì việc tính xác suất nầy gặp nhiều khó khăn. Trong mục nầy chúng ta sẽ đ−a ra một công thức dùng để tính gần đúng xác suất nói trên. 1.- Định lý giới hạn Poisson: Định lý 1 : Giả sử trong dãy n phép thử Bernouilli, xác suất xuất hiện biến cố A trong mỗi phép thử là p phụ thuộc vào n và dần tới 0 khi n → ∞ sao cho lim x→∞np = λ(0 < λ < +∞) Khi đó : lim x→∞Pn(k) = λke−λ k! ; k = 0, 1, 2, ã ã ã Do đó với n đủ lớn, ta có công thức gần đúng: Pn(k) = λke−λ k! ; λ = np (1) Công thức (1) dùng để tính gần đúng xác suất Pn(k) trong tr−ờng hợp xác suất p gần bằng 0 hoặc gần bằng 1. Ví dụ 1: Bắn các viên đạn vào mục tiêu một cách độc lập, xác suất trúng đích của mỗi viên đạn bằng 0, 001. Để diệt mục tiêu cần ít nhất hai viên đạn trúng mục tiêu. Tính xác suất để mục tiêu bị diệt khi bắn 5000 viên đạn. Giải: Gọi X là số đạn trúng mục tiêu, ta cần phải tính xác suất: P (X ≥ 2) = 1− P (X < 1) = 1− P5000(0)− P5000(1) áp dụng công thức (1) với P = 0, 001; n = 5000, ta có: λ = np = (5000).(0, 001) = 5. Vậy P (X ≥ 2) = 1− e−5 − 5.e−5 = 1− 6.e−5 ' 1− 6.(0, 00674) ' 0, 9596. Chú ý: Ng−ời ta lập sẵn bảng tính các giá trị của phân phối Poisson với các giá trị khác nhau của tham số λ. 2.- Định lý giới hạn địa ph−ơng (định lý Moivre): This lesson was typed by pdfLATEX 26 Định lý 2 : Nếu xác suất p của biến cố A thỏa mãn điều kiện 0 < p < 1 thì với n đủ lớn ta có: Pn(k) = 1√ npq ϕ(x) (2) ở đó: ϕ(x) = 1√ 2pi e− x2 2 và x = k − np√ npq . Chú ý: Nếu xác suất p gần bằng 0 hoặc gần bằng 1 thì khi tính xác suất Pn(k) mà áp dụng công thức (2) thì sai số chỉ nhỏ khi số l−ợng phép thử lớn. Ví dụ 2: Xác suất để một sản phẩm bị hỏng là p = 0, 005. Hãy tính xác suất để tổng số 10.000 sản phẩm đ−ợc lấy ngẫu nhiên có đúng 40 sản phẩm hỏng. Giải: Ta có dãy n = 10.000 phép thử Bernouili với p = 0, 005. Ta cần phải tính: P10.000(40) = C4010.000.(0, 995) 9960. Ta có: √ npq = √ 10.000(0, 005).(0, 995) ' 7, 05 x = 40− np√ npq = −1, 42. ϕ(−1, 41) = ϕ(1, 42) = 0, 1456. Vậy P10.000(40) ' 0, 1456 7, 05 ' 0, 0207. Chú ý: Nếu tính đúng theo công thức Bernouilli thì xác suất P10.000(4) = 0, 0197. Sai số của công thức (2) ở đây là 0, 001. 3.- Định lý giới hạn tích phân (định lý Laplace): Định lý 3: Nếu xác suất p của biến cố A thỏa mãn 0 < p < 1 thì với n đủ lớn ta có xác suất để biến cố A xuất hiện k lần (a ≤ k ≤ b) đ−ợc tính gần đúng theo công thức: P [a ≤ k ≤ b] ≈ ϕ(β)− ϕ(α). (3) ở đây β = b− np√ npq ; α = a− np√ npq Φ(x) = 1√ 2pi x∫ 0 e− t2 2 dt This lesson was typed by pdfLATEX 27 Ví dụ 3: Xác suất để một trẻ sơ sinh là con trai bằng p = 0, 515. Tính xác suất để trong 1.200 trẻ sơ sinh có từ 550 đến 650 con trai. Giải: Ta có: n = 1200; p = 0, 515; q = 0, 485; a = 550; b = 650 np = 1200(0, 515) = 618.√ npq = √ 618.(0, 485) ' 17, 32. α = a− np√ npq = 550− 618 17, 32 ' −3, 85. β = b− np√ npq = 650− 618 17, 32 ' 1, 85. Φ(β) = Φ(1, 85) = 0, 4680; Φ(α) = Φ(−3, 35) = −Φ(3, 35) = −0, 4995. Vậy theo công thức (3) ta có: p[550 ≤ k ≤ 650] ≈ 0, 4680− (−0, 4995) ' 0, 9675. Ví dụ 4: Xác suất để một sản phẩm là loại I bằng 0, 6. Tính xác suất để trong 1000 sản phẩm thì độ lệch giữa tần suất k n để một sản phẩm là loại I so với xác suất 0, 6 không v−ợt quá 0, 05. Giải: Ta phải tínhh P [|k n − p| ≤ ε]. Vì P [ |k n − p| ≤ ε ] = P [ np− nε ≤ k ≤ np+ nε] ' Φ( nε√ npq )− Φ( −nε√ npq ) = 2Φ ( ε√ pq n ) Vậy P [ |k n − p| ≤ ε ] ≈ 2Φ ( ε√ pq n ) . (4) Để tính xác suất trong ví dụ 4 ta áp dụng công thức (4) với n = 1000; p = 0, 6; q = 0, 4; ε = 0, 05. Đặt t = ε√ pq n = ε √ n√ np = 0, 05. √ 1000√ 0, 6.0, 4 ≈ 3, 23. 2Φ(3, 23) = 0, 9988. Vậy P [| k 1000 − 0, 6|] ≤ 0, 05 ≈ 0, 9988. This lesson was typed by pdfLATEX 1PHầN II: THốNG Kê ToáN Học CH−ơNG III: THốNG Kê Mô tả 1. MẫU NGẫU NHIêN 1.1. Tổng thể và mẫu 1.1.1. Tổng thể Tổng thể (còn đ−ợc gọi là tập hợp chính), là tập hợp tất cả các phần tử do mục đích và phạm vi vấn đề cần nghiên cứu qui định. Đối với tổng thể, ta sử dụng một số khái niệm và ký hiệu sau: i) N : Số phần tử của tổng thể và đ−ợc gọi là kích th−ớc (cỡ) của tổng thể. ii) H: Dấu hiệu mà ta khảo sát (trong kinh tế đ−ợc gọi là chỉ tiêu, trong vật lý gọi là đại l−ợng). Cần nhấn mạnh rằng, ta không nghiên cứu trực tiếp bản thân tổng thể mà chỉ nghiên cứu dấu hiệu H của nó . iii) xi, i = 1, k: là những giá trị của dấu hiệu H đo đ−ợc trên các phần tử của tổng thể , xi là thông tin mà ta cần đến, còn phần tử của tổng thể là vật mang thông tin. iv) Ni, i = 1, k: tần số của xi là số phần tử của tổng thể có chung giá trị xi ấy. v) pi, i = 1, k: tần suất của xi là tỷ số giữa tần số của xi và kích th−ớc của tổng thể pi = Ni N Biểu diễn sự t−ơng ứng của các giá trị xi và tần suất pi đ−ợc gọi là bảng cơ cấu của tổng thể theo dấu hiệu H. Bảng nầy có dạng: Giá trị của H x1 x2 ã ã ã xi ã ã ã xk Tần suất pi p1 p2 ã ã ã pi ã ã ã pk (Bảng 1) 2Bảng này mô tả đầy đủ dấu hiệu H, nh−ng phải sử dụng nhiều số liệu. Vì vậy để phân tích dấu hiệu H ng−ời ta th−ờng tóm tắt bảng trên bằng các số đặc tr−ng sau đây: a) Trung bình của dấu hiệu H hay trung bình của tổng thể, ký hiệu là m và đ−ợc xác định bởi: m = k∑ i=1 pixi. (3.1) b) Ph−ơng sai của dấu hiệu H hay ph−ơng sai tổng thể ký hiệu σ2 đ−ợc xác định bởi công thức: σ2 = k∑ i=1 (xi −m)2pi. (3.2) với m là trung bình tổng thể . c) Độ lệch tiêu chuẩn của dấu hiệu H hay độ lệch tiêu chuẩn của tổng thể, ký hiệu σ, đ−ợc xác định bởi công thức: σ = √ σ2 = √√√√ k∑ i=1 (xi −m)2pi. (3.3) 1.1.2. Khái niệm mẫu Khi nghiên cứu một đặc điểm, tính chất nào đó của tổng thể ta có thể tiến hành theo hai ph−ơng pháp sau: a) Ph−ơng pháp điều tra toàn bộ: Mọi phần tử của tổng thể đều đ−ợc khảo sát. Ưu điểm: các kết luận rút ra phản ánh đúng bản chất của tổng thể. Nh−ợc điểm: - Chi phí lớn về tiền của, thời gian, nhân lực, ph−ơng tiện ã ã ã - Quá trình điều tra cũng chính là quá trình phá hủy các phần tử đ−ợc điều tra, - Có những tr−ờng hợp ta không xác định đ−ợc toàn bộ N phần tử của tổng thể ... Chính vì lý do trên nên ph−ơng pháp điều tra toàn bộ ít đ−ợc thực hiện. b) Ph−ơng pháp điều tra mẫu: • Từ tổng thể ta lấy ra n phần tử (tập con của tổng thể) n << N và đo l−ờng giá trị của dấu hiệu H trên chúng. • Từ đó rút ra các kết luận khoa học trên mẫu rồi suy rộng cho toàn bộ tổng thể. Ưu điểm: - Thu thập, xử lý và khai thác nhanh, 3- Toàn diện. • Yêu cầu: Mẫu phải đại diện đ−ợc cho tổng thể do đó khi lấy mẫu phải đảm bảo tính ngẫu nhiên của mẫu, không chọn mẫu theo một tiêu chuẩn chủ quan định tr−ớc. 1.2. Ph−ơng pháp lấy mẫu: 1.2.1. Mẫu có hoàn lại (có lặp): Trong tổng thể gồm N phần tử ta chọn một phần tử khảo sát và ghi lại kết quả X1. Trả lại phần tử đó vào tổng thể tr−ớc khi chọn phần tử tiếp theo để khảo sát ã ã ã , cứ lặp lại nh− thế đến lần thứ n ta nhận đ−ợc một mẫu với số liệu về dấu hiệu đang khảo sát là (X1, X2, ã ã ã , Xn). Mẫu này đ−ợc gọi là mẫu ngẫu nhiên hoàn lại (có lặp). 1.2.2. Mẫu ngẫu nhiên không hoàn lại (không lặp): Từ tổng thể gồm N phần tử, ta chọn ra một phần tử, khảo sát và ghi lại kết quả X1. Bỏ phần tử đó sang một bên tr−ớc khi chọn phần tử tiếp theo để khảo sát tiếp, ã ã ã cứ lặp lại nh− thế cho đến lần thứ n ta đ−ợc mẫu với số liệu về dấu hiệu đang khảo sát là (X1, X2, ã ã ã , Xn). Mẫu này đ−ợc gọi là mẫu ngẫu nhiên không hoàn lại (không lặp). Chú ý: Hai mẫu nói trên đ−ợc gọi là mẫu ngẫu nhiên đơn giản. Nhờ các định lý giới hạn trong lý thuyết xác suất ng−ời ta đã chứng minh đ−ợc rằng khi số phần tử tổng thể vừa đủ lớn thì có thể coi hai mẫu có lặp và không lặp là nh− nhau. Có thể kể thêm một số ph−ơng pháp sau: 1.3. Mẫu đ−ợc chọn theo ph−ơng pháp cơ học: 1.4. Ph−ơng pháp điển hình: 1.5. Ph−ơng pháp phân dãy: 1.6. Sắp xếp các số liệu thực nghiệm theo nhóm: Trên thực tế có nhiều bài toán liên quan đến việc xử lý số liệu thực nghiệm giải đ−ợc nhờ việc phân chia nhóm. Các bài toán này th−ờng đ−ợc chia làm 3 loại sau: - Chia toàn bộ tập mẫu thành các tập con gồm các phần tử có đặc tính thuần nhất nh− nhau. - Nghiên cứu từng phần của tập mẫu theo dấu hiệu này hay dấu hiệu khác. - Nghiên cứu sự thay đổi phụ thuộc giữa các dấu hiệu trong phạm vi tập này hay tập khác. 1.7. Sắp xếp các số liệu thực nghiệm theo dãy các giá trị khác nhau của biến: Có hai loại số liệu: số liệu cho d−ới dạng giá trị rời rạc của X hoặc số liệu các giá trị trong một khoảng liên tục của X . 4Ví dụ sau đây là một tr−ờng hợp số liệu cho d−ới dạng rời: Ví dụ 1: Điểm thi chứng chỉ XSTK của một nhóm sinh viên ĐHKH đ−ợc thu thập nh− sau: 5 2 2 5 4 3 4 4 3 3 2 2 1 1 4 4 2 2 5 Ta sắp xếp các giá trị theo thứ tự tăng dần: Và thấy dấu hiệu X có 5 giá trị khác nhau. Ta lập bảng phân phối tần số sau: X 1 2 3 4 5 ni 2 6 3 5 3 tần số của giá trị 1 là 2, tần số của giá trị 2 là 6, ã ã ã Xi ni pi = ni n Σpi 1 2 0, 0105 0, 105 2 6 0, 316 0, 421 3 3 0, 158 0, 579 4 5 0, 263 0, 842 5 3 0, 158 1, 000 Σ 1 Bảng này cho một xấp xỉ luật phân bố của ĐLNN X . Ví dụ 2: Xét năng suất của công nhân x−ởng cơ khí trong một năm tính ra phần trăm. Kết quả điều tra 117 công nhân nh− sau: 113 85 85 91 101 109 86 102 111 98 105 185 112 98 112 113 87 109 115 99 105 111 94 107 99 107 89 104 113 96 103 145 104 105 88 103 97 115 109 108 107 97 106 107 96 109 116 109 117 108 109 119 116 117 103 127 119 118 125 105 116 117 106 101 113 107 105 119 107 119 111 112 129 113 106 104 104 106 106 98 123 108 93 105 106 139 108 109 93 107 117 107 118 99 108 108 119 98 108 109 109 128 128 127 121 118 122 116 124 125 126 131 141 143 125 89 101 5Ph−ơng pháp chia khoảng: Việc chia khoảng có thể đ−ợc tiến hành theo nhiều cách khác nhau. Số khoảng: từ 6 đến 12 khoảng, xấp xỉ k = 1 + 3, 322 lg n Độ dài khoảng: h = x∗ − x∗ k Với x∗ ≤ xmin, x∗ ≥ xmax Nếu gọi ai là đầu mút trái của khoảng thứ i thì: a1 = x∗ − h 2 ; a2 = a1 + h; a3 = a2 + h, ã ã ã tiếp tục làm cho tới lúc mút đầu của khoảng bằng hoặc bé hơn xmax. Số liệu ở ví dụ 2 có thể biểu thị bởi bảng sau: 1.8. Các loại bảng: Sau khi sắp xếp số liệu quan sát (mẫu) ở 1.4 ta th−ờng trình bày trên một bảng số liệu để xử lý cho thuận lợi. Vậy bảng là gì ? Cơ sở để hình thành bảng số, các loại bảng sẽ đ−ợc trình bày lần l−ợt ở d−ới đây. Bảng là hình chữ nhật gồm nhiều dòng kẻ ngang, kẻ dọc tạo thành c ác ô nhỏ. Trong các ô nhỏ trống dùng để điền các chữ hoặc số (dữ liệu) cần thiết. Cơ sở toán học để hình thành các loại bảng là ma trận. Đơn giản nhất là ma trận một hàng hay một cột, còn phần lớn là ma trận chữ nhật, các phần tử của nó là những con số hoặc những chữ. Trong Ví dụ với số liệu trong bài toán phân tích ph−ơng sai hai yếu tố, ta phải dùng đến ma trận khối để mô tả biến hai chiều. Ví dụ 3: Xét tác dụng của hai loại phân A và B đến năng suất cà chua. Kết quả quan sát đ−ợc cho ở bảng d−ới đây (bảng 3) 6AB p.m B1 p.m. B2 p.m. A1 120 123 125 140 118 117 100 200 p.m. A2 125 123 130 135 110 120 125 130 p.m. A3 115 140 130 135 120 115 130 140 Ví dụ 4: Phân bố sinh viên ở ba hệ trong 3 năm ở một n−ớc X (đầu năm học ) nh− sau: (Bảng 4) s.viên đ. vị n.ng−ời tổng qui ra p.trăm hệ 73-74 74-75 75-76 73-74 74-75 75-76 c.qui 2463 2538 2628 53 54 54 b.ch. 627 632 644 13 13 13 t.chức 1581 1581 1582 34 33 33 tổng 4671 4751 4854 100 100 100 Có hai loại bảng: Bảng đơn giản và bảng phức hợp. Bảng đơn giản là bảng không chứa nhóm; Bảng phức hợp là bảng chứa từ 1 nhóm trở lên. Loại bảng này có thể tách ra làm hai loại : Bảng nhóm và bảng tổ hợp. Bảng nhóm là bảng thống kê mà trong bảng này ta nghiên cứu các đối t−ợng đ−ợc phân chia vào từng nhóm theo dấu hiệu này hay dấu hiệu khác . Bảng tổ hợp là bảng mô tả nhóm tổ hợp. Bảng nhiều chiều (ví dụ 3) mô tả nhóm nhiều chiều. Các loại bảng đó trình bày các dữ liệu cần thiết giúp ta rút ra đ−ợc các qui luật ngẫu nhiên của hệ thống các hiện t−ợng ngẫu nhiên, phát hiện đ−ợc sự tác động của các yếu tố bên ngoài đến tính chất của cá thể trong tập các đối t−ợng nghiên cứu, phát hiện đ−ợc các yếu tố bị mất đi hoặc mới đ−ợc nẩy sinh trong các đối t−ợng đ−ợc nghiên cứu khi chịu những tác động bên ngoài, tìm ra đ−ợc mối quan hệ phụ thuộc giữa các dấu hiệu. Mỗi loại bảng cho phép ta khai thác đ−ợc những vấn đề khác nhau. Ví dụ 3 cho phép khai thác đ−ợc sự ảnh h−ởng của loại phân A,B đến sản l−ợng cà chua và sự ảnh h−ởng t−ơng hỗ AB đến năng suất cà chua. Ta cũng có thể −ớc l−ợng đ−ợc năng suất cà chua nói chung hoặc năng suất ở từng mức bón phân Ai, Bj. Bảng trong ví dụ 4 cho phép hiểu đ−ợc phân bố sinh viên 3 hệ thống hàng năm ở n−ớc đó và biết đ−ợc mối t−ơng quan hỗ t−ơng giữa số l−ợng sinh viên và thời gian đào tạo, ta có thể so sánh số l−ợng trung bình của sinh viên trong 3 hệ, ã ã ã 71.9. Đa giác tần số và tổ chức đồ: Cho mẫu quan sát của mẫu ngẫu nhiên (X1, ã ã ã , Xn) về dấu hiệu H nh− sau: giá trị của H x1 x2 ... xi ... xk tần số ni n1 n2 ... ni ... nk n1 + n2 + ã ã ã+ nk = n 1.9.1. Định nghĩa: Đa giác tần số là đ−ờng nối các điểm (xi, ni); i = 1, k Nếu đặt pi = ni n ; i = 1, k ta có định nghĩa: 1.9.2. Định nghĩa: đa giác tần suất là đ−ờng nối các điểm (xi, pi); i = 1, k Ví dụ 6: Với số liệu về năng suất của công nhân ở ví dụ 2, ta có đa giác tần số: 1.9.3. Tổ chức đồ: Dạng này chủ yếu mô tả luật phân phối thực nghiệm của ĐLNN X trên cơ sở mẫu quan sát cho d−ới dạng giá trị thay đổi theo từng khoảng. Tổ chức đồ tần số là một hình bậc thang gồm những hình chữ nhật có đáy trùng với trục hoành, độ dài cạnh đáy của hình chữ nhật thứ i là chiều dài của khoảng thứ i, còn chiều cao vuồng góc với trục hoành là ni h , trong đó h là độ dài khoảng; còn trong tổ chức đồ tần suất thì chiều cao có độ lớn là ni nh . 8Trong tổ chức đồ tần suất, diện tích của hình chữ nhật thứ i là h. ni h = ni nó chính là tần số xuất hiện giá trị quan sát ni. Diện tích hình bậc thang: h. n1 h + h. n2 h + ã ã ã+ h.nk h = n nó chính là kích th−ớc của mẫu. Đối với tổ chức đồ tần suất, ta có: Diện tích của hình chữ nhật t−ơng ứng thứ i là h. pi h = pi là tần suất xuất hiện quan sát xi. Còn diện tích hình bậc thang t−ơng ứng là: h. p1 h +h. p2 h +ã ã ã+h.pk h = 1 Ví dụ 7: Tổ chức đồ của số liệu năng suất ở ví dụ 2: Khi vẽ biểu đồ hình chữ nhật có thể phác họa đ−ờng cong chuẩn xấp xỉ phân phối của số liệu thu đ−ợc, chẳng hạn với số liệu ở bảng trên ta có thể vẽ thêm đ−ờng cong chuẩn nh− sau: 9Ví dụ 8: Biểu đồ hình quạt biểu thị điểm XSTK ví dụ1: Thực chất của biểu đồ này là hình ảnh thống kê mô tả xác suất để giá trị x1, x2, ã ã ã , xn của dấu hiệu đang nghiên cứu xuất hiện trong một phép thử. Ví dụ 9: Thống kê kết quả các học phần của sinh viên năm thứ ba khóa 2002 - 2006, ta có các loại biểu bảng sau: 2. Mô Hình xác suất của tổng thể Và MẫU Có thể sử dụng công cụ toán học để mô tả khái quát các khái niệm: tổng thể , dấu hiệu nghiên cứu và mẫu đã trình bày ở trên, tức là đang xây dựng mô hình toán học cho chúng. 2.1. Đại l−ợng ngẫu nhiên gốc và qui luật phân phối gốc: Từ bảng 3.5 ta thấy có thể mô hình hóa dấu hiệu H bằng một ĐLNN. Thật vậy, nếu lấy ngẫu nhiên từ tổng thể ra một phần tử và gọi X là giá trị của dấu hiệu H đo đ−ợc trên phần tử lấy ra đó thì X là ĐLNN có phân phối xác xuất nh− sau: Bảng 3.1: X x1 x2 ... xi ... xk p p1 p2 ... pi ... pk Nh− vậy, dấu hiệu H mà ta nghiên cứu đ−ợc mô hình hóa bởi ĐLNN X còn cơ cấu của tổng thể theo dấu hiệu H chính là qui luật phân phối xác suất của X . Đại l−ợng ngẫu nhiên X đ−ợc gọi là ĐLNN gốc. Qui luật phân phối của nó đ−ợc gọi là qui luật phân phối gốc. 10 11 12 13 14 2.2. Các tham số của ĐLNN gốc: 2.2.1. Kỳ vọng toán: Với qui luật phân phối xác suất cho ở bảng 3.5 theo định nghĩa kỳ vọng toán của X là: E(X) = k∑ k=1 pixi ta thấy đây chính là trung bình tổng thể (bảng 3.1). Nh− vậy trung bình của tổng thể chính là kỳ vọng toán của ĐLNN X . 2.2.2. Ph−ơng sai: Theo định nghĩa của ph−ơng sai ta có : DX = k∑ i=1 ( xi − E(X) )2 pi nh−ng E(X) = m nên: DX = k∑ i=1 ( xi −m )2 pi Nh− vậy ph−ơng sai của ĐLNN X chính là ph−ơng sai tổng thể. 2.3. Mẫu ngẫu nhiên: Giả sử từ tổng thể lấy ra n phần tử, tạo nên mẫu có kích th−ớc n theo ph−ơng thức có hoàn lại . Gọi Xi là giá trị của dấu hiệu H đo đ−ợc trên phần tử thứ i (i = 1, 2, ã ã ã , n) của mẫu . Vì các phần tử đ−ợc lấy ra theo ph−ơng thức có lặp nên X1, X2, ã ã ã , Xn là các ĐLNN độc lập, có cùng qui luật phân phối xác suất với X . Vậy n phần tử thuộc mẫu, nếu gạt bỏ các hình thức cụ thể, đ−ợc mô tả bằng n ĐLNN X1, X2, ã ã ã , Xn. Do vậy có thể khái quát để định nghĩa mẫu ngẫu nhiên nh− sau: Cho ĐLNN X với qui luật phân phối xác suất F (x) nào đó, một mẫu ngẫu nhiên kích th−ớc n đ−ợc thành lập từ ĐLNN X là n ĐLNN độc lập; có cùng qui luật phân phối xác suất F (x) với ĐLNN X . Ký hiệu mẫu ngẫu nhiên kích th−ớc n đ−ợc xây dựng từ ĐLNN X là WX = (X1, X2, ã ã ã , Xn). Thực hiện một phép thử đối với mẫu ngẫu nhiên WX , tức là thực hiện một phép thử đối với mỗi thành phần Xi của mẫu: 15 Giả sử Xi nhận giá trị xi (i = 1, 2, ã ã ã , n). Tập hợp n giá trị x1, x2, ã ã ã , xn tạo thành một giá trị của mẫu ngẫu nhiên, hay còn đ−ợc gọi là mẫu cụ thể, đ−ợc ký hiệu là: wX = (x1, x2, ã ã ã , xn) Ví dụ: Gọi X là số chấm xuất hiện khi tung con xúc sắc, X là ĐLNN với bảng phân phối xác suất nh− sau: X 1 2 3 4 5 6 p 16 1 6 1 6 1 6 1 6 1 6 Nếu tung con xúc sắc 5 lần và ký hiệu Xi là số chấm xuất hiện trong lần tung thứ i (i = 1, 5), ta có 5 ĐLNN độc lập, có cùng qui luật phân phối xác suất với X . Vậy ta có mẫu ngẫu nhiên kích th−ớc n = 5 đ−ợc xây dựng từ ĐLNN gốc X: WX = (X1, X2, X3, X4, X5) Thực hiện một phép thử đối với mẫu ngẫu nhiên này, tức là tung 5 lần một con xúc sắc: Giả sử số chấm xuất hiện ở lần tung thứ nhất là 4. Giả sử số chấm xuất hiện ở lần tung thứ hai là 5. Giả sử số chấm xuất hiện ở lần tung thứ ba là 2. Giả sử số chấm xuất hiện ở lần tung thứ t− là 6. Giả sử số chấm xuất hiện ở lần tung thứ năm là 4. Khi đó, ta có một giá trị của mẫu ngẫu nhiên là: wX = (4, 5, 2, 6, 4). Thực hiện một phép thử khác đối với WX ta lại đ−ợc một giá trị khác của nó, chẳng hạn: wX = (6, 3, 5, 4, 2). 3. Hàm PHân PHốI THực NGHIệM Và Các đặc TR−NG Của MẫU NGẫU NHIêN 3.1. Hàm phân phối thực nghiệm: ở phần trê n ta thấy rằng một mẫu ngẫu nhiên WX = (X1, X2, ã ã ã , Xn) là một đại diện cho một ĐLNN X có hàm phân phối F (x) nào đó. Các bài toán thực tiễn về thực chất mà nói là dựa vào mẫu ngẫu nhiên đã thu đ−ợc để nghiên cứu các tính chất đặc tr−ng của X . Chính vì lẽ đó mà ta cần xây dựng các mô hình −ớc l−ợng cho các đặc tr−ng của X nh− hàm phân phối, kỳ vọng toán, ph−ơng sai, ã ã ã Từ khái niệm về mẫu ở trên ta thấy rằng, bằng cùng một ph−ơng pháp ta có thể lấy ra nhiều mẫu cùng kích th−ớc khác nhau. Tập hợp tất cả các mẫu có thể lấy ra 16 đ−ợc từ tổng thể đ−ợc gọi là không gian mẫu. Ta có thể hình dung không gian mẫu là không gian n chiều và mỗi mẫu đ−ợc biểu thị bởi một điểm của không gian này. Không gian mẫu ứng với không gian các sự kiện sơ cấp và mỗi mẫu ứng với sự kiện sơ cấp trong lý thuyết xác suất. Giả sử ta đang nghiên cứu ĐLNN X với hàm phân phối F (x) đã biết hoặc ch−a biết. Ta thành lập mẫu ngẫu nhiên kích th−ớc n WX = (X1, X2, ã ã ã , Xn) Định nghĩa: Ta gọi hàm F (x) là hàm phân phối thực nghiệm t−ơng ứng với mẫu WX = (X1, X2, ã ã ã , Xn) nếu hàm đó đ−ợc xác định bởi công thức: F (x) =  0 nếu x ≤ min {X1, X2, ã ã ã , Xn} k n nếu có k p.tử bé hơn x 1 nếu max {X1, X2, ã ã ã , Xn} < x Về thực chất thì hàm phân phối thực nghiệm là một −ớc l−ợng (xấp xỉ) của hàm phân phối f(x) dựa trên mẫu WX . 3.2. Các đặc tr−ng của mẫu ngẫu nhiên: Để nghiên cứu ĐLNN gốcX , nếu dừng lại ở mẫu ngẫu nhiênWX = (X1, X2, ã ã ã , Xn) thì ch−a giải quyết vấn đề gì, bởi các ĐLNN Xi có cùng qui luật phân phối xác suất với X mà ta ch−a biết đ−ợc hoàn toàn. Vì vậy ta cần phải liên kết hay tổng hợp các đại l−ợng X1, X2, ã ã ã , Xn lại, sao cho ĐLNN mới thu đ−ợc có những tính chất mới, có thể đáp ứng đ−ợc những yêu cầu giải đ−ợc bài toán khác nhau về ĐLNN gốc. Trong thống kê toán học , việc tổng hợp mẫu WX = (X1, X2, ã ã ã , Xn) đ−ợc thực hiện d−ới dạng hàm của các ĐLNN X1, X2, ã ã ã , Xn ký hiệu G = f(X1, X2, ã ã ã , Xn). ĐLNN G đ−ợc gọi là một thống kê. Sau đây ta xét một số thống kê thông dụng hay còn đ−ợc gọi là các đặc tr−ng của mẫu ngẫu nhiên. 3.2.1. Trung bình mẫu ngẫu nhiên: 1) Định nghĩa: Cho mẫu ngẫu nhiên kích th−ớc n, đ−ợc xây dựng từ ĐLNN X : WX = (X1, X2, ã ã ã , Xn) Trung bình của mẫu ngẫu nhiên là một thống kê (ký hiệu là X đ−ợc xác định bởi: X = 1 n (X1 +X2 + ã ã ã+Xn) = 1 n n∑ i=1 Xi 17 Do X1, X2, ã ã ã , Xn là các ĐLNN nên X cũng là ĐLNN. Nếu mẫu ngẫu nhiên WX có một giá trị wX = (x1, x2, ã ã ã , xn) thì X sẽ nhận giá trị: x = 1 n n∑ i=1 xi. Nh− vậy x là một giá trị của X , đồng thời là trung bình của mẫu cụ thể wX = (x1, x2, ã ã ã , xn). 2) Tính chất: Nếu ĐLNN gốc X có kỳ vọng toán E(X) = m; ph−ơng sai D(X) = σ2 thì: E(X) = m và D(X) = σ2 n Thật vậy, theo tính chất của kỳ vọng toán, ta có: E(X) = E [1 n n∑ i=1 Xi ] = 1 n n∑ i=1 E(Xi) = 1 n .n.m = m để ý rằng các ĐLNN Xi độc lập có cùng qui luật phân phối xác suất với ĐLNN X , nên theo tính chất của ph−ơng sai thì: D(X) = D [1 n (X1 +X2 + ã ã ã+Xn) ] = = 1 n2 [ D(X1) +D(X2) + ã ã ã+D(Xn) ] = 1 n2 .n.σ2 = σ2 n . Nh− vậy bất kể qui luật phân phối xác suất của ĐLNN gốc nh− thế nào, thống kê X cũng có kỳ vọng toán bằng kỳ vọng toán của ĐLNN gốc, tức là: E(X) = E(X) = m, còn ph−ơng sai D(X) của nó nhỏ hơn ph−ơng sai của ĐLNN gốc n lần: D(X) = σ2 n , nghĩa là các giá trị có thể có của X ổn định quanh kỳ vọng toán hơn các giá trị có thể có của X . 3) Qui luật phân phối xác suất của X : Qui luật phân phối xác suất của trung bình mẫu X phụ thuộc chặt chẽ vào qui luật phân phối của ĐLNN gốc X . Ng−ời ta đã chứng minh đ−ợc rằng: Nếu X có phân phối chuẩn N(à, σ2) thì X phân phối theo qui luật chuẩn N(à, σ2 n ). 3.2.2. Ph−ơng sai của mẫu ngẫu nhiên: 18 1) Định nghĩa: Cho mẫu ngẫu nhiên WX = (X1, X2, ã ã ã , Xn), ph−ơng sai của nó là một thống kê, ký hiệu là S2, đ−ợc xác định bởi hàm sau: S2 = 1 n n∑ i=1 (Xi −X)2 trong đó X là trung bình của mẫu ngẫu nhiên. Nếu có mẫu cụ thể wX = (x1, x2, ã ã ã , xn) thì S2 sẽ nhận giá trị: s2 = 1 n n∑ i=1 (xi − x)2. Giá trị s2 sẽ đ−ợc gọi là ph−ơng sai của mẫu cụ thể wX = (x1, x2, ã ã ã , xn). 2) Tính chất: Do S2 là ĐLNN nên ta có thể tính E(S2) E(S2) = n− 1 n σ2 Nhân hai vế của biểu thức trên với n n− 1 , ta có: n n− 1E(S 2) = σ2 đ−a hằng số n n− 1 vào trong dấu kỳ vọng ta có: E( n n− 1S 2) = σ2 hay: E = [ n n− 1 . 1 n n∑ i=1 (Xi −X)2 ] = E [ 1 n− 1 n∑ i=1 (Xi −X)2 ] = σ2 đặt S ′2 = n n− 1 .S 2 = 1 n− 1 n∑ i=1 (Xi −X)2 Và gọi S ′2 là ph−ơng sai điều chỉnh mẫu của mẫu ngẫu nhiên. Khi đó ta có E(S ′2) = σ2. Nh− vậy, kỳ vọng toán của ph−ơng sai điều chỉnh mẫu bằng ph−ơng sai của ĐLNN gốc X . Nếu có mẫu cụ thể wX = (x1, x2, ã ã ã , xn) thì S ′2 nhận giá trị, ký hiệu là S ′2: s′2 = n n− 1 s 2 = 1 n− 1 n∑ i=1 (xi − x)2 19 s′2 gọi là ph−ơng sai điều chỉnh của mẫu cụ thể wX . 3) Qui luật phân phối xác suất của S2: Nếu mẫu ngẫu nhiênWX = (X1, X2, ã ã ã , Xn) đ−ợc xây dụng từ ĐLNN X phân phối theo qui luật chuẩn với EX = m, DX = σ2 thì ng−ời ta chứng minh đ−ợc rằng: * ĐLNN: X 2 = (n− 1)S ′2 σ2 = n∑ i=1 (Xi −X)2 σ2 sẽ tuân theo qui luật chi bình ph−ơng với n− 1 bậc tự do. * ĐLNN: X 2 = nS 2 σ2 = n∑ i=1 (Xi −m)2 σ2 phân phối theo qui luật chi bình ph−ơng với n bậc tự do. 3.2.3. Độ lệch tiêu chuẩn và độ lệch tiêu chuẩn điều chỉnh: Độ lệch tiêu chuẩn của mẫu ngẫu nhiên (ký hiệu s) là căn bậc hai của ph−ơng sai mẫu: S = √ S2 = √√√√1 n n∑ i=1 (Xi −X)2 Nếu có mẫu cụ thể wX = (x1, x2, ã ã ã , xn) thì độ lệch tiêu chuẩn sẽ nhận một giá trị và đ−ợc gọi là độ lệch tiêu chuẩn của mẫu cụ thể: s = √ s2 = 1 n n∑ i=1 (xi − x)2. T−ơng tự, ta có độ lệch tiêu chuẩn điều chỉnh của mẫu và một giá trị cụ thể của nó : S ′ = √ S ′2 = 1 n− 1 n∑ i=1 (Xi −X)2; s′ = √ s′2 = 1 n− 1 n∑ i=1 (xi − x)2. Bài Tập 1: Chiều cao của 400 cây sao đ−ợc cho bởi bảng sau: 20 khoảng chiều cao tần số ni độ dài của khoảng 4, 5− 8, 5 18 4 8, 5− 12, 5 58 4 12, 5− 16, 5 62 4 16, 5− 20, 5 72 4 20, 5− 24, 5 57 4 24, 5− 28, 5 42 4 28, 5− 32, 5 36 4 32, 5− 36, 5 10 4 Hãy lập bảng tính x và s2. Bài Tập 2: Số xe hơi bán đ−ợc trung bình trong một tuần ở một đại lý trong 45 đại lý cho bởi: Số xe bán đ−ợc ni trong tuần / đại lý 1 15 2 12 3 9 4 5 5 3 6 1 Hãy lập bảng tính x, s2 Lập bảng tính: xi ni nixi nix 2 i 1 15 2 12 3 9 4 5 5 3 6 1 σ 45 21 xi ni nixi nix 2 i 1 15 15 15 2 12 24 48 3 9 27 81 4 5 20 80 5 3 15 75 6 1 6 36∑ 45 107 335 Ta có: x = 107 45 = 2, 38 s2 = 335 45 − (2, 38)2 = 7, 444− 5, 664 = 1, 78 Bài Tập 3: Theo dõi 336 tr−ờng hợp tàu cập cảng, ng−ời ta thấy khoảng thời gian ngắn nhất giữa hai lần tàu vào cảng liên tiếp là 4 giờ , thời gian dài nhất là 80 giờ; với số liệu đ−ợc sắp thành bảng phân lớp sau: lớp ni 4-12 143 12-20 75 20-28 53 28-36 27 36-44 14 44-52 9 52-60 5 60-68 4 68-76 3 76-84 3∑ 336 Hãy lập bảng tính x, s2. 22 lớp ni x∗i ni.x ∗ i ni.(x ∗ i ) 2 4 - 12 143 8 1144 9152 12 - 20 75 16 1200 19200 20 - 28 53 24 1272 30528 28 - 36 27 32 864 27648 36 - 44 14 40 560 22400 44 - 52 9 48 432 20736 52 - 60 5 56 280 15680 60 - 68 4 64 256 16384 68 - 76 3 72 216 15552 76 - 84 3 78 234 18252∑ 336 6458 195532 Ta có: x = 6458 336 = 19, 22; s2 = 195532 336 − (19, 22)2 = 212, 532 1−ớc l−ợng Nh− chúng ta biết, các số đặc tr−ng của dấu hiệu H nh− trung bình, ph−ơng sai ... đ−ợc sử dụng rộng rãi trong phân tích kinh tế, xã hội và các lĩnh vực khác. Nh−ng các số đặc tr−ng này th−ờng ch−a biết, vì vậy đặt ra vấn đề cần −ớc l−ợng chúng bằng ph−ơng pháp mẫu. Sau khi đã mô hình hoá dấu hiệu H bằng một ĐLNN và cơ cấu tổng thể bằng qui luật phân phối xác suất của X , ta có thể phát biểu vấn đề thực tế nêu trên d−ới dạng toán học nh− sau: Cho ĐLNN X có thể đã biết hoặc ch−a biết qui luật phân phối xác suất của X , nh−ng ch−a biết tham số θ nào đó của nó. Hãy −ớc l−ợng θ bằng ph−ơng pháp mẫu (dựa trên cở sở một mẫu thống kê nào đó). Bài toán này là một trong những bài toán cơ bản của thống kê toán. Vì θ là một hằng số nên có thể dùng một số nào đó để −ớc l−ợng θ, −ớc l−ợng nh− vậy đ−ợc gọi là −ớc l−ợng điểm (nếu ta đ−a chọn số dùng để −ớc l−ợng θ lên trục số thì nó t−ơng ứng với một điểm). Ngoài −ớc l−ợng điểm ng−ời ta còn dùng ph−ơng pháp −ớc l−ợng khoảng, tức là chỉ ra một khoảng số (g1, g2) nào đó có thể chứa đ−ợc θ. D−ới đây ta sẽ nghiên cứu các ph−ơng pháp tìm ra một số hay một khoảng số để −ớc l−ợng θ. Các ph−ơng pháp này xuất phát từ cơ sở hợp lý nào đó để tìm −ớc l−ợng của θ, chứ không phải là sự chứng minh chặt chẽ. 1. Các ph−ơng pháp tìm −ớc l−ợng điểm 1.1. Ph−ơng pháp hàm −ớc l−ợng 1.1.1. Mô tả ph−ơng pháp Giả sử cần −ớc l−ợng tham số θ của ĐLNN X . Từ X ta lập mẫu ngẫu nhiên kích th−ớc n : WX = (X1, X2, ã ã ã , Xn). Chọn thống kê G = f(X1, X2, ã ã ã , Xn). Thống kê G đ−ợc gọi là hàm −ớc l−ợng của θ. Một trong những cách chọn dạng của hàm f là t−ơng ứng thống kê đặc tr−ng Biên soạn: GVC.ThS. Phan văn Danh 2của mẫu ngẫu nhiên với hàm số cần −ớc l−ợng của ĐLNN. Ph−ơng pháp này gọi là ph−ơng pháp momen. Trong thực tế ng−ời ta th−ờng chọn hàm −ớc l−ợng nh− sau: i) Chọn G = f(X1, X2, ã ã ã , Xn) = X = 1n n∑ i=1 Xi nếu là −ớc l−ợng kỳ vọng toán. ii) Chọn G = S ′2 = 1 n− 1 n∑ i=1 (Xi −X)2 nếu là −ớc l−ợng ph−ơng sai. Từ mẫu cụ thể wX = (x1, x2, ã ã ã , xn), ta tính giá trị của G (ký hiệu là g). Tức là g = f(x1, x2, ã ã ã , xn). Ước l−ợng điểm của θ chính là giá trị g vừa tính đ−ợc. 1.1.2. Tiêu chuẩn −ớc l−ợng Chất l−ợng của −ớc l−ợng không thể đánh giá qua một giá trị cụ thể g. Nh− vậy chỉ có cách so sánh trực tiếp g và θ, mà θ lại ch−a biết. Do vậy chỉ có thể đánh giá chất l−ợng của −ớc l−ợng thông qua việc khảo sát xem: việc tìm ra giá trị g đ−ợc tiến hành nh− thế nào, tức là xét bản thân thống kê G = f(X1, X2, ã ã ã , Xn). Ta thấy có vô số cách chọn dạng của hàm f , tức là có vô số thống kê G có thể dùng làm hàm −ớc l−ợng của θ. Vì vậy cần đ−a ra các tiêu chuẩn để đánh giá chất l−ợng của −ớc l−ợng, để từ đó lựa chọn thống kê G tốt hơn. D−ới đây ta sẽ xét một số tiêu chuẩn đó: a) Ước l−ợng không chệch. * Định nghĩa: Thống kê G đ−ợc gọi là −ớc l−ợng không chệch của tham số θ của ĐLNN X nếu E(G) = θ Ng−ợc lại, nếu EG 6= θ thì G đ−ợc gọi là −ớc l−ợng chệch của θ. * ý nghĩa: Ta thấy Gθ là ĐLNN biểu thị sai số của −ớc l−ợng. Theo tính chất của kỳ vọng toán, ta có: E(G− θ) = EG− Eθ = θ − θ = 0, nếu G là −ớc l−ợng không chệch. Nh− vậy −ớc l−ợng không chệch là −ớc l−ợng có trung bình của sai số bằng 0, tức là các giá trị của G không bị chệch về một phía (lớn hơn θ hay nhỏ hơn θ, nếu dùng G để −ớc l−ợng θ thì không mắc phải sai số hệ thống. Rõ ràng trong hai loại −ớc l−ợng: chệch và không chệch thì ta nên chọn −ớc l−ợng không chệch. Chú ý rằng: G là −ớc l−ợng không chệch của θ không có nghĩa là mọi giá trị của G đều trùng với θ mà chỉ có nghĩa là: trung bình các giá trị của G bằng 0. Một giá trị của G có thể lệch rất lớn so với θ. Biên soạn: GVC.ThS. Phan văn Danh 3Ví dụ : 1) Trung bình của mẫu ngẫu nhiên: X là −ớc l−ợng không chệch của EX = m. Và EX = m. 2) Ph−ơng sai hiệu chỉnh S ′2 là −ớc l−ợng không chệch của DX = σ2 vì ES ′2 = σ2. 3) Ph−ơng sai S2 là −ớc l−ợng chệch của DX = σ2 vì ES2 = n− 1 n σ2 6= σ2. b) Ước l−ợng vững: Một hàm −ớc l−ợng đ−ợc coi là hợp lý nếu nh− khi kích th−ớc của mẫu tăng lên khá lớn thì giá trị của nó phải gần tham số cần −ớc l−ợng bao nhiêu cũng đ−ợc. * Định nghĩa: Cho mẫu WX = (X1, X2, ã ã ã , Xn) xây dựng ĐLNN X . Hàm −ớc l−ợng G = f(X1, X2, ã ã ã , Xn) của tham số θ đ−ợc gọi là −ớc l−ợng vững nếu với mọi ε > 0 bé tùy ý cho tr−ớc ta đều có: lim n→∞P (|f(X1, X2, ã ã ã , Xn)− θ| < ε) = 1. (4.2) Điều kiện đủ của −ớc l−ợng vững đ−ợc phát biểu d−ới dạng định lý sau: * Định lý: Nếu G là −ớc l−ợng không chệch của θ và lim n→∞DG = 0 thì G là −ớc l−ợng vững của θ. c) Ước l−ợng hiệu quả. Giả sử G là −ớc l−ợng không chệch của θ. áp dụng bất đẳng thức Tchebychev cho ĐLNN G, ta có P (|G− EG| < ε) ≥ 1− DG ε2 . Vì EG = θ nên bất đẳng thức thành: P (|G− θ| < ε) ≥ 1− DG ε2 . (4.3) Nh− vậy, nếu ph−ơng sai DG càng nhỏ thì xác xuất để G nhận giá trị gần θ bao nhiêu cũng đ−ợc, sẽ càng lớn. Do đó ph−ơng sai của thống kê G là một chỉ tiêu quan trọng phản ánh chất l−ợng của hàm −ớc l−ợng: G = f(X1, X2, ã ã ã , Xn). Một cách hợp lý là cần chọn những hàm −ớc l−ợng không chệch và ph−ơng sai nhỏ nhất. * Định nghĩa: Thống kê G = f(X1, X2, ã ã ã , Xn) là −ớc l−ợng không chệch của θ và ph−ơng sai DG bằng cận d−ới các ph−ơng sai của các thống kê đ−ợc xây dựng từ mẫu ngẫu nhiên WX thì G đ−ợc gọi là −ớc l−ợng hiệu quả của θ. Để tìm cận d−ới của ph−ơng sai các hàm −ớc l−ợng ta dựa vào bất đẳng thức Crame - Rao đ−ợc nêu trong định lý d−ới đây: * Định lý: Cho mẫu ngẫu nhiên WX = (X1, X2, ã ã ã , Xn) đ−ợc xây dựng từ ĐLNN X có hàm mật độ xác suất f ∗ x, θ) thoả mãn một số điều kiện nhất định Biên soạn: GVC.ThS. Phan văn Danh 4(th−ờng là các điều kiện trong thực tế) và G là −ớc l−ợng không chệch bất kỳ của θ thì: DG ≥ 1 nE (∂ ln f(x, θ) ∂θ )2 . (4.4) Cần l−u ý rằng không phải với mọi tham số θ đều có thể chọn đ−ợc hàm −ớc l−ợng G đảm bảo đ−ợc cả tính không chệch, tính vững và tính hiệu quả. Vấn đề là ở chỗ cần chọn hàm −ớc l−ợng sao cho các kết luận rút ra đ−ợc đủ tin cậy cho mục đích nghiên cứu. Ví dụ 1: Hàm X = 1 n n∑ i=1 Xi là −ớc l−ợng không chệch, vững, hiệu quả của EX = à trong tr−ờng hợp X có phân phối chuẩn N(à, σ2). Thật vậy, ta có: f(x, θ) = 1 σ √ 2pi .e− (x−à)2 2σ2 . lnf(x, θ) = − lnσ √ 2pi − (x− à) 2 2σ2 = ∂ ln f(x, θ) ∂θ = ∂ ln f(x, à) ∂à = x− à σ2 . nên nE = (∂ ln f(x, θ) ∂θ )2 = nE (x− à σ2 )2 = nE (x− à)2 σ4 = nDX σ4 = n σ2 . mà: Biên soạn: GVC.ThS. Phan văn Danh 5DX = 1 n2 n∑ i=1 DXi = 1 n2 nσ2 = σ2 n . Nghĩa là DX bằng biểu thức ở vế phải của bất đẳng thức Crame - Rao. Vậy X là −ớc l−ợng hiệu quả của à. Mặt khác ta có: EX = 1 n E ( n∑ i=1 Xi ) = 1 n n∑ i=1 EXi = nà n = à. Nh− vậy, X cũng là −ớc l−ợng không chệch của à. Ta đã biết : DX = σ2 n . Khi n→∞ thì σ 2 n → 0 nên bất đẳng thức Tchebychev ta có: P (|X − à| < ε) ≥ 1− DX ε2 . Do đó P (|X − à| < ε)→ 1 khi n→∞, nghĩa là X là −ớc l−ợng vững của à. Ví dụ 2: Để −ớc l−ợng xác suất p của biến cố A nào đó ta thực hiện n phép thử lặp độc lập và lấy tần suất xuất hiện A làm −ớc l−ợng điểm cho p. Gọi X là ĐLNN chỉ số lần xuất hiện A trong n phép thử. Khi đó X là ĐLNN tuân theo qui luật phân phối nhị thức với EX = np và DX = npq (q = 1− p). Ta có: EG = E( X n ) = 1 n EX = 1 n .np = p Nh− vậy G = X n là −ớc l−ợng không chệch của p. Mặt khác theo định lý Vernouilli ta có lim n→∞P (|X n − p| 0. Nên G = X n là −ớc l−ợng vững của p. Ta thừa nhận G = X n cũng là −ớc l−ợng hiệu quả của p. 1.2. Ph−ơng pháp −ớc l−ợng hợp lý cực đại 1.2.1. Mô tả ph−ơng pháp Giả sử đã biết qui luật phân phối xác suất dạng tổng quát của ĐLNN X, chẳng hạn hàm mật độ f(x, θ) (cũng có thể xem f(x, θ) là công thức xác suất nếu X là ĐLNN rời rạc) cần phải −ớc l−ợng tham số θ nào đó của X. Lập mẫu cụ thể: wX = (x1, x2, ã ã ã , xn). Biên soạn: GVC.ThS. Phan văn Danh 6Hàm của đối số θ : L(x1, x2, ã ã ã , xn, θ) = f(x1, θ).f(x2, θ) ã ã ã f(xn, θ) và gọi là hàm hợp lý của tham số θ. Giá trị của hàm hợp lý chính là xác suất (hay mật độ xác suất) tại điểm wX = (x1, x2, ã ã ã , xn). Giá trị g = g(x1, x2, ã ã ã , xn) đ−ợc gọi là −ớc l−ợng hợp lý cực đại của θ, nếu ứng với giá trị này của θ, hàm hợp lý đạt cực đại. Vì hàm L và lnL đạt cực đại tại cùng một giá trị của θ, do vậy có thể tìm giá trị của θ để lnL đạt cực đại với các b−ớc sau: B−ớc 1: Tìm đạo hàm bậc nhất lnL theo θ. B−ớc 2: Lập ph−ơng trình ∂ lnL ∂θ = 0 Ph−ơng trình này đ−ợc gọi là ph−ơng trình hợp lý. Giả sử nó có nghiệm θ = g = g(x1, x2, ã ã ã , xn) là −ớc l−ợng điểm hợp lý cực đại cần tìm của θ. Ví dụ 1: Bằng ph−ơng pháp hợp lý cực đại, −ớc l−ợng tham số p trong qui luật phân phối nhị thức. Ta lập hàm hợp lý: L(x1, x2, ã ã ã , xn, p) = n∏ i=1 Cxin p xi(1− p)n−xi. Suy ra lnL = n∑ i=1 [ lnCxin + xi ln p+ (n− xi) ln(1− p) ] . ∂ lnL ∂p = 1 p n∑ i=1 xi + 1 1− p n∑ i=1 (xi − n) ∂ lnL ∂p = 0 khi p = 1 n2 n∑ i=1 xi = x n , do đó −ớc l−ợng hợp lý cực đại của p là x n . Ví dụ 2: Bằng ph−ơng pháp hợp lý cực đại, −ớc l−ợng tham số λ của qui luật phân phối mũ có hàm mật độ xác suất nh− sau: f(x) = { λeλx với 0 < x < +∞ 0 với x ≤ 0 Ta lập hàm hợp lý: L(x1, x2, ã ã ã , xn, λ) = λne−λ ∑ xi. Suy ra lnL = m lnλ− λ∑xi =⇒ ∂ lnL ∂λ = n. 1 σ − ∑ xi. Biên soạn: GVC.ThS. Phan văn Danh 7Giải ph−ơng trình hợp lý: ∂ lnL ∂λ = 0 ta có λ = 1 x đạo hàm bậc hai theo λ : ∂2 lnL ∂λ2 = − n λ2 0. Vì vậy −ớc l−ợng hợp lý cực đại của λ là 1 x . 2. Các ph−ơng pháp tìm −ớc l−ợng khoảng Ngoài cách dùng một con số để −ớc l−ợng tham số θ, ta còn có thể dùng một 2.1. Mô tả ph−ơng pháp Để −ớc l−ợng tham số θ của ĐLNN X , từ X ta lập mẫu ngẫu nhiên WX = (X1, X2, ã ã ã , Xn). Chọn thống kê G = f(X1, X2, ã ã ã , Xn, θ) sao cho qui luật phân phối xác suất của G hoàn toàn xác định mặc dù ch−a biết giá trị của θ. Do đó với xác suất α1 khá bé ta tìm đ−ợc phân vị gα1 của thống kê gα1 thoả mãn: P (G < gα1) = α1. Với xác suất α2 mà α1 + α2 = α khá bé (trong thực tế ng−ời ta lấy α ≤ 0, 05), ta tìm phân vị g1−α2, tức là: P (G < g1−α2) = 1− α2. Suy ra: P (gα2 ≤ G ≤ g1−α2) = P (G < g1−α2)− P (G < gα1) = 1− α1 − α2 = 1− α. Từ đây giả ra đ−ợc θ, tức là đ−a biểu thức này về dạng P (G1 ≤ θ ≤ G2) = 1− α. Lúc ấy: i) Khoảng (G1, G2) đ−ợc gọi là khoảng tin cậy của θ vì G1, G2 là các ĐLNN nên khoảng (G1, G2) là khoảng ngẫu nhiên. ii) 1−α gọi là độ tin cậy của −ớc l−ợng. Do α khá bé nên 1−α khá lớn. Thông th−ờng trong thực tế ng−ời ta yêu cầu 1− α ≥ 95% để có thể sử dụng nguyên lý xác suất lớn cho biến cố (G1 ≤ θ ≤ G2). Biên soạn: GVC.ThS. Phan văn Danh 8iii) I = G2−G1 gọi là độ dài của KTC. I có thể là hằng số và cũng có thể gọi là ĐLNN. Do xác suất 1− α khá lớn, nên biến cố (G1 ≤ θ ≤ G2) hầu nh− chắc chắn xảy ra trong một phép thử. Thực hiện một phép thử đối với mẫu ngẫu nhiên WX , ta sẽ thu đ−ợc mẫu cụ thể wX = (x1, x2, ã ã ã , xn). Từ mẫu cụ thể này ta tính đ−ợc giá trị của G1 và G2. Ký hiệu các giá trị đó là g1, g2. Nh− vậy có thể kết luận. Với độ tin cậy 1−α, qua mẫu cụ thể wX , θ nằm trong khoảng (g1, g2), tức là: (g1 < θ < g2). Ph−ơng pháp −ớc l−ợng này có −u điểm là: chẳng những tìm đ−ợc khoảng (g1, g2) để −ớc l−ợng θ mà còn biết đ−ợc độ tin cậy của −ớc l−ợng. Tuy nhiên nó cũng chứa đựng khả năng mắc sai lầm. Xác suất mắc sai lầm là α. 2.2. Ước l−ợng cho giá trị trung bình Giả sử trung bình tổng thể (cũng chính là kỳ vọng toán của ĐLNN gốc X) là m ch−a biết, ta còn −ớc l−ợng m. 2.2.1. Tr−ờng hợp kích th−ớc mẫu n ≥ 30 (hoặc n < 30 nh−ng X có phân phối chuẩn); DX = σ2 đã biết: Chọn thống kê: U = (X −m)√n σ Vì n ≥ 30, nên ta có thể áp dụng định lý Lindeberg - Levy. Nội dung định lý này: Nếu các ĐLNN X2, X2, ã ã ã , Xn độc lập, có kỳ vọng toán m và ph−ơng sai σ2 hữu hạn, thì ĐLNN U = (X −m)√n σ có phân phối xác suất xấp xỉ với phân phối chuẩn tắc khi n lớn. Tr−ờng hợp n < 30 thì do x ∼ N(à, σ) nên U có phân phối chuẩn tắc. Với xác suất α1 khá bé ta tìm đ−ợc phân vị uα1 : P (U < uα1) = α1. Với xác suất α2 sao cho α1 + α− 2 = α, ta tìm đ−ợc phân vị u1−α2. Tức là: P (U < u1−α2) = 1− α2. Ta có: P (uα1 ≤ U ≤ u1−α2) = P (U < u1−α2)− P (U < uα1) = 1− (α1 + α2) = 1− α. Nh− vậy: P ( uα1 ≤ (X −m)√n σ ≤ uα2 ) = 1− α. Biên soạn: GVC.ThS. Phan văn Danh 9Hay P [ X − uα2. σ√ n ≤ m ≤ X − uα1. σ√ n ] = 1− α. Theo tính chất của phân vị chuẩn tắc: uα1 = −u1−α1: P [ X − uα2. σ√ n ≤ m ≤ X + u1−α1. σ√ n ] = 1− α. Vậy độ tin cậy 1− α, khoảng tin cậy của m là:( X − uα2. σ√ n ; X + u1−α1. σ√ n ) . độ dài KTC là I = σ√ n ( u1−α1 − u1−α2 ) . Cùng độ tin cậy 1− α, KTC nào có độ dài ngắn hơn sẽ tốt hơn. Chọn α1 = α2 = α 2 . Suy ra KTC: ( X − u1−α2 . σ√ n ; X + u1−α2 . σ√ n ) . Ký hiệu ε = u1−α2 . σ√ n = uγ. σ√ n . ε đ−ợc gọi là KTC đối xứng của m, độ dài của KTC là I = 2ε. ứng với độ tin cậy 1− α, KTC đối xứng có độ dài ngắn nhất. Vì vậy khi cần tìm KTC, thông th−ờng ta chỉ cần tìm KTC đối xứng. Vì độ tin cậy 1− α khá lớn, nên ta có thể coi biến cố (X − ε < m < X + ε) hầu nh− chắc chắn xảy ra trong một phép thử. Thực hiện phép thử đối với mẫu ngẫu nhiên WX , ta thu đ−ợc mẫu cụ thể: wX = (x1, x2, ã ã ã , xn). Từ mẫu cụ thể đó ta tính đ−ợc x = 1 n n∑ i=1 xi. Với độ tin cậy 1 − α cho tr−ớc, tra bảng phân vị chuẩn ta sẽ tìm đ−ợc giá trị phân vị chuẩn uγ = u1−α2 . Sau đó ta tính độ chính xác ε = uγ. σ√ n . Nh− vậy, với độ tin cậy 1 − α, qua mẫu cụ thể wX , khoảng tin cậy của m là: (x− ε, x+ ε). 2.2.2. Tr−ờng hợp n ≥ 30, σ2 ch−a biết: Tr−ờng hợp này vì kích th−ớc mẫu lớn (n ≥ 30) nên ta có thể dùng −ớc l−ợng của DX là S ′2 để thay cho σ2 ch−a biết. Tiến hành các b−ớc t−ơng tự nh− tr−ờng hợp ở mục 2.2.1. ta đ−ợc KTC cụ thể của m với độ tin cậy 1− α là: (x− ε, x+ ε) với ε = uγ. S ′ √ n . Biên soạn: GVC.ThS. Phan văn Danh 10 (trong đó uγ là phân vị chuẩn mức γ = 1− α 2 xác định bằng cách tra bảng phân vị chuẩn). 2.2.3. Tr−ờng hợp n < 30;σ2 ch−a biết, X tuân theo qui luật chuẩn: Tr−ờng hợp này ta chọn thống kê T = (X −m)√n S ′ . ĐLNN T phân phối theo qui luật Student với n− 1 bậc tự do. T−ơng tự phần 2.2.1, và do tính đối xứng của qui luật Student; với độ tin cậy 1− α cho tr−ớc ta tìm đ−ợc KTC của m trong tr−ờng hợp này là:( X − t1−α2 . S ′√ n ; X − t1−α2 . S ′√ n ) . Từ mẫu cụ thể wX = (x1, x2, ã ã ã , xn) ta tính đ−ợc x và s′. Từ đó xác định đ−ợc KTC cụ thể của m theo công thức: (x− ε, x+ ε) với ε = tγ. s ′ √ n . Với tγ là phân vị Student với n− 1 bậc tự do và mức xác suất γ = 1− α 2 . Ví dụ 1: Điều tra năng suất lúa trên 100 ha trồng lúa của một vùng, ta thu đ−ợc bảng số liệu sau: Năng suất (ta/ha) 41 44 45 46 48 52 54 Diện tích t−ơng ứng 10 20 30 15 10 10 5 Hãy −ớc l−ợng năng suất lúa trung bình của toàn vùng với độ tin cậy 95%. Giải: Gọi m là năng suất lúa trung bình của toàn vùng. Ta cần −ớc l−ợng m với độ tin cậy 95%. Tr−ờng hợp này kích th−ớc mẫu n = 100 > 30; σ2 ch−a biết. Nên KTC của m là (x− ε, x+ ε) với ε = uγ. S ′ √ n . Độ tin cậy 1−α = 95%, nên tra bảng phân vị chuẩn ta đ−ợc: uγ = u0,975 = 1, 96. Từ bảng số liệu tính đ−ợc: x = 46, S2 = 10, 8 =⇒ S ′2 = 100 99 .10, 8 = 10, 91. =⇒ S ′ = 3, 3 nên ε = 0, 65. Vậy KTC là (46− 0, 65; 46 + 0, 65) = (45, 35 ; 46, 65). Ví dụ 2: Trọng l−ợng một loại sản phẩm là ĐLNN tuân theo qui luật phân phối chuẩn với độ lệch tiêu chuẩn là 1 gam. Cân thử 25 sản phẩm loại này ta thu đ−ợc kết quả: Biên soạn: GVC.ThS. Phan văn Danh 11 Trọng l−ợng 18 19 20 21 Số sản phẩm 3 5 15 2 Với độ tin cậy 1−α = 0, 95, hãy tìm KTC đối xứng của trọng l−ợng trung bình của loại sản phẩm nói trên. Giải: Gọi X là "trọng l−ợng sản phẩm". Theo giả thiết X tuân theo qui luật phân phối chuẩn; σ(X) = 1 còn EX = à ch−a biết, ta cần phải −ớc l−ợng: Gọi Xi là "trọng l−ợng sản phẩm thứ i"; i = 1, 25 ta có mẫu ngẫu nhiên: WX = (X1, X2, ã ã ã , Xn); X = 1 25 25∑ i=1 Xi. Với độ tin cậy 1−α = 0, 95 thì à1−α2 = 1, 96. Vậy KTC đối với xứng của à là:( X − 1, 96. 1 25 ; X + 1, 96. 1 25 ) = (X − 0, 392;X + 0, 392). Từ số liệu đã cho, ta tính đ−ợc: x = 19, 46. Vậy KTC (19, 248 ; 20, 032). Ví dụ 3: Thống kê tuổi thọ của 256 bóng đèn do một nhà máy sản xuất, ta có bảng thống kê d−ới đây: tuổi thọ (giờ) số bóng tuổi thọ (giờ) số bóng 1000− 1100 4 1100− 1200 10 1200− 1300 16 1300− 1400 20 1400− 1500 36 1500− 1600 48 1600− 1700 42 1700− 1800 32 1800− 1900 26 1900− 2000 14 2000− 2100 8 Hãy −ớc l−ợng tuổi thọ trung bình của loại bóng đèn này với độ tin cậy 95, 60%. Giải: Gọi X là tuổi thọ của loại bóng đèn mà nhà máy sản xuất. Ta cần tìm KTC EX = m. Tr−ờng hợp này kích th−ớc của mẫu là 256 và ch−a biết σ2, do vậy KTC cụ thể của m là: (x− ε, x+ ε) với ε = uγ. S ′ √ n . Với độ tin cậy 95, 6% thì u1−α2 = u0,978 = 2, 014. Từ số liệu đã cho ta tính đ−ợc: x = 1587, 5 (giờ); S ′ = 226, 83. Từ đó ta có: ε = 28, 55. Vậy KTC của m là (1558, 95 ; 1616, 05). Biên soạn: GVC.ThS. Phan văn Danh 12 2.2.4. Ước l−ợng khoảng cho tỷ lệ (xác suất) Giả sử tổng thể ta đang nghiên cứu gồm N phần tử. Trong đó có M phần tử có tính chất A nào đó. p = MN là tỷ lệ các phần tử có tính chất A của tổng thể. Thông th−ờng p ch−a biết, cần −ớc l−ợng p. Để ý rằng p cũng chính là xác suất để lấy đ−ợc phần tử có tính chất A khi lấy ngẫu nhiên từ tổng thể ra một phần tử, nên bài toán trên là bài toán −ớc l−ợng tỷ lệ tổng thể (hay −ớc l−ợng xác suất). Gọi X là phần tử có tính chất A khi lấy ngẫu nhiên một phần tử từ tổng thể. X là ĐLNN có qui luật phân phối xác suất nh− sau: X 0 1 p p q với q = 1− p; EX = p; DX = p(1− p) = pq. Xét mẫu ngẫu nhiên WX = (X1, X2, ã ã ã , Xn) đ−ợc thành lập từ ĐLNN gốc X . Trong đó Xi, i = 1, n là số phần tử có tính chất A có trong lần thứ i. Các ĐLNN Xi có phân phối xác suất giống X . Xét thống kê: fn = 1 n n∑ i=1 Xi là tần suất của mẫu ngẫu nhiên và cũng chính là trung bình của mẫu ngẫu nhiên.. Các ĐLNN Xi; i = 1, n có phân phối xác suất giống nh− X nên ta có thể chứng minh đ−ợc: Efn = p và Dfn = pq n . áp dụng định lý Lindeberg-Levy ta có ĐLNN: U = (fn − p) √ n√ pq có phân phối xấp xỉ chuẩn tắc. Do n khá lớn nên ta có thể thay pq bằng fn(1− fn). Sau đó ta áp dụng ph−ơng pháp t−ơng tự nh− đã tiến hành ở phần 2.2 và tìm đ−ợc KTC cụ thể của p là: (f − ε, f + ε) với ε = uγ √ f(1− f) n . Trong đó f là tỷ lệ phần tử có tính chất A của mẫu cụ thể (cũng chính là giá trị của fn); uγ là phân vị chuẩn mức γ = 1− α 2 . Ngoài cách xác định KTC của p bằng công thức trên, ta có thể tìm KTC của p bằng cách khác nh− sau: Từ KTC của p: f − uγ √ p(1− p) n < p < f + uγ √ p(1− p) n . Biên soạn: GVC.ThS. Phan văn Danh 13 hay |f − p| < uγ √ p(1− p) n . Giải ra: p1,2 = nf + 0, 5u2γ + uγ √ 0, 25u2γ − nf(1− f) n+ u2γ .|| (∗) Khoảng (p1, p2) chính là KTC của p (với độ tin cậy 1− α) hay: p1 < p < p2 Chú ý: Nếu n khá lớn (n > 100) và nf > 10;n(1 − f) > 10 ta có thể thay p(p−p) bởi f(1− f) ở biểu thức trên mà không mắc sai số đáng kể. Lúc đó ta có: f − uγ √ f(1− f) n < p < f + uγ √ f(1− f) n . hay: f − ε < p < f + ε. Ví dụ 1: Nghiên cứu nhu cầu tiêu dùng của một loại hàng trong thành phố, ng−ời ta tiến hành điều tra ở 100 gia đình thì thấy có 60 gia đình có nhu cầu về loại hàng nói trên. Hãy −ớc l−ợng tỉ lệ gia đình có nhu cầu về mặt hàng đó của toàn thành phố với độ tin cậy 1− α = 95%. Giải: Gọi tỷ lệ gia đình có nhu cầu mặt hàng này là p (p ch−a biết). Ta cần −ớc l−ợng p với tốc độ tin cậy 95%. Theo giả thiết của bài toán ta có: Tỷ lệ gia đình có nhu cầu về mặt hàng này trong mẫu cụ thể là f = 60 : 100 = 0, 6. Với độ tin cậy: 1−α = 0, 95 =⇒ 1− 1 α = 0, 975 =⇒ uγ = 1, 96. ε = 1, 96 √ 0, 6(1− 0, 6) 100 = 0, 096. Vậy KTC cụ thể của p là: (0, 504; 0, 696). Nếu áp dụng công thức (*) ta có: p1 = 0, 502; p2 = 0, 691. Khi đó KTC của p: (0, 502; 0, 691). 2.4. Ước l−ợng khoảng cho ph−ơng sai Giả sử ĐLNN, phân phối theo qui luật chuẩn, ch−a biết ph−ơng sai DX = σ2 của nó. Cần −ớc l−ợng DX . Từ X lập mẫu ngẫu nhiên WX = (X1, X2, ã ã ã , Xn) và xét hai tr−ờng hợp sau: Biên soạn: GVC.ThS. Phan văn Danh 14 a) Đã biết kỳ vọng toán EX = à. Chọn thống kê: χ2 = n∑ i=1 (Xi − à)2 σ2 . ở Ch−ơng 5, chúng ta đã biết χ2 phân phối theo qui luật "khi bình ph−ơng" với n bậc tự do. Nếu với xác suất α1, α2 khá bé sao cho α1 + α2 = α, ta có thể tìm đ−ợc các phân vị χ2α1 và χ 2 1−α2 thoả mãn: P ( χ2α1 < χ 2 < χ21−α2 ) = 1− α. Thay biểu thức của χ2 vào ta đ−ợc:∑ (Xi − à)2 χ21−α2 < σ2 < ∑ (Xi − à)2 χ2α1 . Với mẫu cụ thể wX = (x1, x2, ã ã ã , xn) ta có thể tính các tổng ∑ (xi − à)2 và sẽ tìm đ−ợc KTC cụ thể của σ2. b) Tr−ờng hợp ch−a biết EX : Chọn thống kê χ2 = (n− 1)S ′2 σ2 . Thống kê này phân phối theo qui luật "khi bình ph−ơng" với (n− 1) bậc tự do. Lặp lại các thủ tục −ớc l−ợng nh− TH(a) ta sẽ tìm đ−ợc KTC cụ thể của σ2 với độ tin cậy 1− α là: (n− 1)s′2 χ21−α2 < σ2 < (n− 1)s′2 χ2α1 . Ví dụ 2: Mức hao phí nguyên liệu cho một đơn vị sản phẩm là ĐLNN X phân phối theo qui luật chuẩn với EX = 20g. Quan sát 25 sản phẩm, ta có các số liệu ở bảng sau: Trọng l−ợng hao phí(gam) 19, 5 20, 0 20, 5 Số sản phẩm 5 18 2 Với độ tin cậy 1− α = 90%, hãy −ớc l−ợng X , biết α1 = α2 = 0, 05. Giải: Lập bảng tính xi ni xi − 20 (xi − 20)2 ni(xi − 20)2 19, 5 5 −0, 5 0, 25 1, 25 20, 0 18 0 0 0 20, 5 2 0, 5 0, 25 0, 55∑ n = 1, 25 1, 75 Biên soạn: GVC.ThS. Phan văn Danh 15 Tra bảng phân vị χ2 với bậc tự do n = 25 ta đ−ợc: χ21−α2 = χ 2 0,95 = 14, 6; χ 2 α1 = χ20,05 = 37, 7. Vậy KTC cụ thể của DX = σ2 là (0, 046 < σ2 < 0, 120). Trong ví dụ này, nếu ch−a biết EX = 20 thì ta tính S ′2. Với số liệu đã cho ta tính đ−ợc s ′2 = 0, 065. Tra bảng phân vị χ2 với n− 1 = 24 bậc tự do ta đ−ợc χ21−α2 = 13, 80; χ 2 α1 = χ20,05 = 36, 4. Vậy KTC là: (0, 0423 < σ2 < 0, 113). 2.5. Xác định kích th−ớc mẫu Ta thấy chất l−ợng của −ớc l−ợng đ−ợc phản ảnh qua độ tin cậy 1 − α và độ chính xác ε. Một −ớc l−ợng tốt nếu 1− α lớn còn ε khá nhỏ. Nh−ng độ chính xác ε lại phụ thuộc vào kích th−ớc mẫu n và độ tin cậy 1− α. Vấn đề đặt ra là: ta muốn độ tin cậy 1− α và độ chính xác ở ε đạt đ−ợc ở một mức nào đó cho tr−ớc thì cần kích th−ớc mẫu n tối thiểu là bao nhiêu ? a) Xác định kích th−ớc mẫu trong tr−ờng hợp −ớc l−ợng trung bình: * Nếu biết DX = σ2, thì từ công thức ε = uγ. σ√ n ta suy ra: n = u2γ. σ2 ε2 . * Nếu ch−a biết σ2, khi đó ta căn cứ vào mẫu cụ thể đã cho (nếu ch−a có mẫu thì có thể lấy mẫu sơ bộ kích th−ớc n1 ≥ 30) để tính s′2. Từ đó xác định kích th−ớc mẫu n = u2γ. s ′2 ε2 . Chú ý: Nếu bài toán đòi hỏi n là số nguyên mà khi tính ra n theo 2 công thức trên ta lại thu đ−ợc n là số không nguyên thì khi đó ta lấy phần nguyên của nó cộng với 1. Tức: n = [ u2γ. s ′2 ε2 ] hoặc n = u2γ. σ2 ε2 + 1. b) Xác định kích th−ớc mẫu trong tr−ờng hợp −ớc l−ợng tỷ lệ: Từ công thức: ε = uγ √ f(1− f) n , ta suy ra n = u2γ. f(1− f) ε2 . Biên soạn: GVC.ThS. Phan văn Danh 1Kiểm định giả thuyết thống kê 1. Các khái niệm 1.1. Giả thuyết thống kê ở ch−ơng IV đã nghiên cứu ĐLNN, khi ch−a biết tham số của nó và đã xây dựng các ph−ơng pháp −ớc l−ợng các tham số đó. Ch−ơng này tiếp tục nghiên cứu ĐLNN trong tr−ờng hợp thông tin không đầy đủ thể hiện ở nhiều mặt, cụ thể là: • Ch−a biết chính xác các tham số θ hoặc qui luật phân phối xác suất của ĐLNN X , nh−ng có cơ sở nào đó để nêu lên giả thuyết, chẳng hạn θ = θo (θo là hằng số đã biết), hay: X tuân theo qui luật phân phối chuẩn. • Khi nghiên cứu hai hay nhiều ĐLNN, một trong những vấn đề cần quan tâm nhất là: các đại l−ợng này độc lập với nhau hay có sự phụ thuộc t−ơng quan? Các tham số của chúng có bằng nhau hay không ? Những câu hỏi này th−ờng ch−a đ−ợc trả lời khẳng định mà mới nêu lên nh− một giả thiết. Vậy có thể định nghĩa: Giả thuyết thông kê là những giả thuyết nói về các tham số, dạng qui luật phân phối hoặc tính độc lập của các ĐLNN. Việc tìm ra kết luận về tính thừa nhận đ−ợc hay không thừa nhận đ−ợc của một giả thuyết gọi là kiểm định giả thuyết thống kê. Đây là một trong những bài toán cơ bản của thông kê toán. Tr−ớc hết ta đề cập đến các tham số ĐLNN. Giả sử cần nghiên cứu tham số θ của ĐLNN X và có cơ sở nào đó để nêu giả thuyết θ = θo. Giả thuyết này đ−ợc ký hiệu H : θ = θo (đ−ợc gọi là giả thuyết cần kiểm định hay giả thuyết cơ bản). Mệnh đề đối lập với giả thuyết H đ−ợc gọi là giả thuyết đối của H và ký hiệu là H . Dạng tổng quát của H là: θ 6= θo. Biên soạn: GVC.ThS. Phan văn Danh 2Trong nhiều tr−ờng hợp, giả thuyết đối có thể phát biểu cụ thể hơn nh−: H : θ > θo hay H : θ < θo. Nh− vậy giả thuyết kiểm định và giả thuyết đối th−ờng đ−ợc nêu lên thành từng cặp. Chẳng hạn: H : θ = θo; H : θ 6= θo hoặc H : θ = θo; H : θ > θo hoặc H : θ = θo; H : θ < θo Nhiệm vụ của lý thuyết kiểm định giả thuyết thống kê là: Bằng thực nghiệm (thông qua mẫu cụ thể) kiểm tra tính đúng (sai) của giả thuyết H. 1.2. Mức ý nghĩa, miền bác bỏ Ph−ơng pháp kiểm định giả thuyết thống kê dựa trên cơ sở lập luận nh− sau: Xuất phát từ yêu cầu bài toán thực tế, ta đ−a ra một giả H và giả thuyết đối của nó. Tr−ớc hết giả sử H đúng, và do đó xây dựng đ−ợc biến cố A nào đó, sao cho xác suất xảy ra biến cố A bằng α, bé đến mức có thể sử dụng nguyên lý xác suất nhỏ, tức là có thể coi A không xảy ra trong một phép thử. Khi thực hiện phép thử đối với biến cố A: - Nếu A xảy ra thì ta bác bỏ giả thuyết H . - Nếu A không xảy ra thì ta ch−a có cơ sở để bác bỏ H. Trên có sở lập luận trên, có thể xây dựng thủ tục kiểm định gồm các b−ớc sau: B−ớc 1: Từ ĐLNNX lập mẫu ngẫu nhiên có kích th−ớc n : WX = (X1, X2, ã ã ã , Xn) và chọn thống kê G = f(X1, X2, ã ã ã , Xn, θ), sao cho nếu H đúng thì qui luật phân phối xác suất củaG hoàn toàn xác định và đối với mẫu cụ thể wX = (x1, x2, ã ã ã , xn) thì giá trị của G sẽ đ−ợc tính. Thống kê G đ−ợc gọi là tiêu chuẩn kiểm định giả thuyết H. B−ớc 2: Do qui luật phân phối xác suất của G đã biết nên với xác suất α bé tuỳ ý có thể tìm đ−ợc miền Wα sao cho P (G ∈ Wα) = α. (G ∈ Wα) đóng vai trò nh− biến cố A nói trên. Sự tồn tại biểu thức P (G ∈ Wα) = α chỉ với giả thuyết H đúng, nên để nhấn mạnh điều kiện này ng−ời ta ký hiệu P (G ∈ Wα|H) = α. Vì α bé nên theo nguyên Biên soạn: GVC.ThS. Phan văn Danh 3lý xác suất nhỏ có thể coi G không nhận giá trị trong miền Wα đối với một phép thử. B−ớc 3: Thực hiện một phép thử đối với mẫu ngẫu nhiên WX ta thu đ−ợc mẫu cụ thể wX = (x1, x2, ã ã ã , xn). Từ mẫu cụ thể này ta tính đ−ợc giá trị của G (ký hiệu là g), giá trị này đ−ợc gọi là giá trị quan sát hay giá trị thực nghiệm và ký hiệu g = f(x1, x2, ã ã ã , xn, θo). B−ớc 4: Xem xét giá trị quan sát của g có thuộc miền Wα hay không để kết luận: a) Nếu g ∈ Wα: biến cố (G ∈ Wα) xảy ra, ta bác bỏ H , thừa nhận H. b) Nếu g /∈ Wα: biến cố (G ∈ Wα) không xảy ra, ta chấp nhận giả thuyết H. Miền Wα đ−ợc gọi là miền bác bỏ của giả thuyết H; α đ−ợc gọi là mức ý nghĩa của kiểm định, trong thực tế th−ờng lấy α trong khoảng (0, 01 ; 0, 05). 1.3. Sai lầm loại I và sai lầm loại II Khi kiểm định một giả thuyết thống kê, chúng ta có thể mắc một trong hai sai lầm sau đây: a) Sai lầm loại I: là sai lầm mắc phải khi ta bác bỏ giả thuyết H trong khi H đúng. Xác suất mắc phải sai lầm loại này bằng mức ý nghĩa α. Thật vậy, mặc dù H đúng thì xác suất để (G ∈ Wα) vẫn bằng α, nghĩa là P (G ∈ Wα|H) = α. Nh−ng nếu (G ∈ Wα) thì lập tức bác bỏ H . Theo qui tắc nh− vậy, rõ ràng có xác suất mắc sai lầm bằng α. Nếu α càng bé khả năng gặp phải sai lầm loại I càng ít. b) Sai lầm loại II: Là sai lầm mắc phải khi thừa nhận H trong khi H sai. Xác suất mắc phải sai lầm loại II là xác suất để G nhận giá trị không thuộc miền bác bỏ Wα khi H sai (tức H đúng) P (G /∈ Wα|H) = 1− P (G ∈ Wα|H) = 1− β. β đ−ợc gọi là lực kiểm định H . Nó chính là xác suất "không mắc sai lầm loại II". β càng lớn thì xác suất mắc sai lầm loại II P (G /∈ Wα|H) = 1− β càng nhỏ. Các tr−ờng hợp xảy ra khi tiến hành kiểm định có thể tóm tắt d−ới dạng bảng sau: H đúng H sai Bác bỏ Sai lầm loại I Kết luận đúng Thừa nhận Kết luận đúng Sai lầm loại II Biên soạn: GVC.ThS. Phan văn Danh 4Khi kiểm định giả thuyết thống kê, nếu mức ý nghĩa α đã chọn, kích th−ớc mẫu n đã xác định; đối với một tiêu chuẩn kiểm định G, ta có thể tìm đ−ợc vô số miền bác bỏ Wα. Th−ờng lựa chọn miền bác bỏ Wα sao cho xác suất mắc sai lầm loại II là nhỏ nhất (hay lực kiểm định lớn nhất). Miền bác bỏ Wα đ−ợc xây dựng d−ới đây có tính chất trên, tức là đảm bảo sai lầm loại II nhỏ nhất với với mức ý nghĩa và kích th−ớc mẫu n xác định tr−ớc. 2. Kiểm định giả thiết về trung bình Giả thuyết trung bình của tổng thể (cũng chính là kỳ vọng toán của ĐLNN X), là m ch−a biết. Nh−ng có cơ sở nào đó nêu giả thuyết H : m = mo, (mo là giá trị nào đó đã biết). Cần kiểm định giả thuyết này với các giả thuyết đối nh− sau: H : m 6= mo; H : m > mo; H : m < mo. ta xét các tr−ờng hợp sau: 2.1. Tr−ờng hợp n ≥ 30 (hoặc n < 30 nh−ng X có phân phối chuẩn); đã biết ph−ơng sai DX = σ2. B−ớc 1: Lập mẫu ngẫu nhiên WX = (X1, X2, ã ã ã , Xn). Chọn thống kê U = (X −mo) √ n σ làm tiêu chuẩn kiểm định. Nếu giả thuyết H đúng thì U có phân phối chuẩn tắc. B−ớc 2: Miền bác bỏ phụ thuộc giả thuyết đối H nh− sau: a) H : m = mo;H : m 6= mo: Wα = (−∞,−u1−α2 ) ∪ (u1−α2 +∞). hay Wα = {u : |u| > u1−α2 }. b) H : m = mo; H : m > mo: Wα = (u1−α,+∞). c) H : m = mo;H : m < mo: Biên soạn: GVC.ThS. Phan văn Danh 5Wα = (−∞,−u1−α). B−ớc 3: Lấy mẫu cụ thể wX = (x1, x2, ã ã ã , xn). Tính giá trị cụ thể của u hay còn gọi là uqs, uqs = (x−mo). √ n σ . với x = 1 n n∑ i=1 xi. B−ớc 4: Xét xem uqs ∈ Wα hay không để kết luận: Nếu uqs ∈ Wα thì bác bỏ H , nếu uqs /∈ Wα thì ch−a có cơ sở bác bỏ H. Ví dụ 1: Nếu máy móc hoạt động bình th−ờng thì trọng l−ợng của sản phẩm có kỳ vọng toán là 100 gam, độ lệch chuẩn σ = 1. Qua một thời gian sản xuất, ng−ời ta nghi nghờ trọng l−ợng của sản phẩm có xu h−ớng tăng lên. Cân thử 100 sản phẩm thì trọng l−ợng trung bình của chúng là 100, 3 gam. Với mức ý nghĩa α = 0, 05, hãy kết luận về điều nghi ngờ nói trên có đúng hay không ? Giải: Gọi X là trọng l−ợng sản phẩm. Gọi trọng l−ợng trung bình của loại sản phẩm đó sau một thời gian sản xuất là m (m ch−a biết). Đặt giả thuyết H : m = 100; H : m > 100. Với α = 0, 05 thì u1−α = 1, 645. Miền bác bỏ với mức ý nghĩa α = 0, 05 là: Wα = W0,05 = [1, 645;+∞). Tính uqs = (100, 3− 100). √ 100 1 = 3 ∈ Wα. Ta bác bỏ giả thiết H . Điều nghi ngờ nói trên là đúng. Ví dụ 2: Tuổi thọ của bóng đèn X là ĐLNN phân phối chuẩn với trung bình là EX = 2000 giờ và độ lệch tiêu chuẩn σ = 15 giờ. Với mức ý nghĩa α = 5%, hãy kết luận điều nghi ngờ nói trên. Giải: H : EX = 2000; H : EX 6= 2000. Chọn tiêu chuẩn kiểm định U = (H − 2000)√25 15 . Nếu H đúng thì U ∼ N(0, 1). Miền bác bỏ: Wα = (−∞,−u1−α2 ) ∪ (u1−α2 ,+∞) = (−∞,−1, 96) ∪ (1, 96,+∞). Tính uqs = (1990− 2000)5 15 = −10 3 ∈ Wα. Nh− vậy bác bỏ H , tức là thừa nhận tuổi thọ bóng đèn đã thay đổi. Biên soạn: GVC.ThS. Phan văn Danh 62.2. Tr−ờng hợp n ≥ 30;σ2 ch−a biết: Tr−ờng hợp này chọn thống kê U = (H −mo) √ n S ′ làm tiêu chuẩn kiểm định. Nếu H đúng thì U có phân phối chuẩn tắc, do đó miền bác bỏ giả thuyết H và qui tắc kiểm định giống nh− tr−ờng hợp 2.1 chỉ khác nhau là tính uqs theo công thức: uqs = (x−mo) √ n s′ . 2.3. Tr−ờng hợp n < 30, σ2 ch−a biết, X có phân phối chuẩn: Chọn thống kê T = (x−mo) √ n s′ làm tiêu chuẩn kiểm định. Nếu H đúng thì T có phân phối theo qui luật Student với n− 1 bậc tự do: Miền bác bỏ xây dựng phụ thuộc vào dạng giả thuyết đối H nh− sau: a) H : m = mo; H : m 6= mo : Wα = (−∞,−t1−α2 ) ∪ (t1−α2 ,+∞) = {|T | > t1−α2 }. b) H : m = mo; H : m > mo : Wα = (t1−α,+∞). c) H : m = mo; H : m < mo: Wα = (−∞,−t1−α). Với mẫu cụ thể, ta tính đ−ợc giá trị x, s′ và do đó tính đ−ợc giá trị: tqs = (x−mo) √ n s′ . Xem xét tqs có htuộc Wα hay không để kết luận. Ví dụ 3: Trọng l−ợng các bao gạo là ĐLNN X tuân theo qui luật phân phối chuẩn với EX = 50 kg. Nghi ngờ các máy đóng bao làm việc không bình th−ờng làm cho trọng l−ợng các bao gạo có xu h−ớng giảm, ng−ời ta cân thử 25 bao và thu đ−ợc kết quả nh− sau: Biên soạn: GVC.ThS. Phan văn Danh 7X (kg) Số bao 48, 0− 49, 0 2 48, 5− 49, 0 5 49, 0− 49, 5 10 49, 5− 50, 0 6 50, 0− 50, 5 2 Với mức ý nghĩa α = 0, 01, hãy kết luận về nghi ngờ nói trên. Giải: Gọi m là trọng l−ợng trung bình thực tế của các bao gạo (m ch−a biết). Đặt giả thuyết H : m = 50; H : m < 50. B−ớc 1: Lập mẫu ngẫu nhiên kích th−ớc n = 25. WX = (X1, X2, ã ã ã , Xn) và chọn thống kê T = (X − 50). √ 25 S ′ làm tiêu chuẩn kiểm định. B−ớc 2: Xây dựng miền bác bỏ. Nếu H đúng thì T tuân theo qui luật Student với n− 1 = 24 bậc tự do t1−α = t0,99 = 2, 492 =⇒ Wα = W0,01 = (−∞,−2, 5). B−ớc 3: Từ mẫu cụ thể, tính đ−ợc: x = 49, 27; S2 = 0, 25 =⇒ S ′2 = 0, 24. s′ = 0, 49 =⇒ tqs = (49, 27− 50) √ 25 0, 49 = −7, 46. B−ớc 4: Rõ ràng tqs ∈ Wα. Vậy bác bỏ H: trọng l−ợng đã có giảm. 3. Kiểm định giả thiết về tỉ lệ Giả sử tỷ lệ các phần tử có tính chất A nào đó của tổng thể là p (ch−a biết). Cần kiểm định giả thuyết H : p = po (po: hằng số) với các giả thuyết đối: H : p 6= po; H : p > po; H : p < po. Gọi X là số phần tử có tính chất A khi lấy ngẫu nhiên một phần tử tổng thể. X là ĐLNN tuân theo qui luật phân phối "không - một" với bảng phân phối xác suất nh− s

Các file đính kèm theo tài liệu này:

baigiangxacsuatthongke_3973.pdf