Bài giảng chương 7: Kiểm định giả thiết thống kê

Tài liệu Bài giảng chương 7: Kiểm định giả thiết thống kê: ThS. Phạm Trí Cao * Chương 7 1 1 CHƯƠNG 7: KIỂM ĐỊNH GIẢ THIẾT THỐNG KÊ Trong thực tế ta thường gặp vấn đề: phải kiểm tra xem 1 điều gì đó đúng hay sai, nội dung thông tin mà ta nhận được từ các nguồn cung cấp (1 người, 1 cơ quan, 1 tờ báo, 1 tổ chức,...) có đáng tin cậy không. Công việc kiểm tra lại nội dung thông tin mà ta nhận được xem có đáng tin cậy không chính là bài toán kiểm định. 2 Thí dụ 1: Một tổ chức cho rằng chiều cao trung bình hiện nay của thanh niên VN là 1.65m. Hãy lập giả thiết để kiểm chứng kết quả này? HD: H0:=1.65 H1:≠1.65 : chiều cao TB thực tế của thanh niên hiện nay 0= 1.65: chiều cao TB của thanh niên hiện nay theo lời tổ chức này H0 gọi là giả thiết thống kê (giả thiết không) H1 gọi là giả thiết đối 3 Ta tiến hành kiểm định (kiểm tra) như sau:  Thu thập số liệu thực tế (lấy mẫu): đo chiều cao của khoảng 1 t...

pdf27 trang | Chia sẻ: haohao | Lượt xem: 1640 | Lượt tải: 0download
Bạn đang xem trước 20 trang mẫu tài liệu Bài giảng chương 7: Kiểm định giả thiết thống kê, để tải tài liệu gốc về máy bạn click vào nút DOWNLOAD ở trên
ThS. Phạm Trí Cao * Chương 7 1 1 CHƯƠNG 7: KIỂM ĐỊNH GIẢ THIẾT THỐNG KÊ Trong thực tế ta thường gặp vấn đề: phải kiểm tra xem 1 điều gì đó đúng hay sai, nội dung thông tin mà ta nhận được từ các nguồn cung cấp (1 người, 1 cơ quan, 1 tờ báo, 1 tổ chức,...) có đáng tin cậy không. Công việc kiểm tra lại nội dung thông tin mà ta nhận được xem có đáng tin cậy không chính là bài toán kiểm định. 2 Thí dụ 1: Một tổ chức cho rằng chiều cao trung bình hiện nay của thanh niên VN là 1.65m. Hãy lập giả thiết để kiểm chứng kết quả này? HD: H0:=1.65 H1:≠1.65 : chiều cao TB thực tế của thanh niên hiện nay 0= 1.65: chiều cao TB của thanh niên hiện nay theo lời tổ chức này H0 gọi là giả thiết thống kê (giả thiết không) H1 gọi là giả thiết đối 3 Ta tiến hành kiểm định (kiểm tra) như sau:  Thu thập số liệu thực tế (lấy mẫu): đo chiều cao của khoảng 1 triệu người  Dùng 1 quy tắc kiểm định tương ứng với giả thiết đang xét (kiểm định giá trị trung bình) để quyết định: chấp nhận hay bác bỏ H0 Chấp nhận H0: tổ chức này báo cáo đúng. Con số 1.65m là đáng tin cậy. Bác bỏ H0: tổ chức này báo cáo sai. 4 Thí dụ 2: Một học viên luyện thi cao học cho rằng tỷ lệ học viên thi đạt môn XSTK là 50%. Hãy lập giả thiết thống kê để kiểm chứng điều này? HD: H0: p=0.5 H1: p≠0.5  p: tỷ lệ học viên thực tế thi đạt môn XSTK  p0= 0.5 : tỷ lệ học viên thi đạt môn XSTK theo lời người này. ThS. Phạm Trí Cao * Chương 7 2 5 Thí dụ 3: Một cô gái được cho là thùy mị, nết na, đằm thắm, dịu dàng, ngăn nắp, chu đáo, …nói chung là hết… ý! Và ta muốn để ý! Ta phải kiểm tra điều này! Tuy nhiên ta sẽ không quyết định được lập giả thiết thống kê như thế nào, bởi vì sai lầm nào cũng đau khổ cả! Và ta không thể tự mình tiến hành kiểm định được! Bài toán loại này ta không thể xét được, bởi vì không có quy tắc quyết định chung. Ctmb quyết định như thế nào! 6 Để xét xem chấp nhận hay bác bỏ H0 thì ta phải lấy mẫu, và đưa ra quyết định dựa trên mẫu. Trong quá trình làm, có 4 trường hợp sau: Quyết định Chủ quan Thực tế khách quan H0 sai H0 đúng H0 sai Đúng Sai lầm loại 2 H0 đúng Sai lầm loại 1 Đúng P(sll1)= P(bác bỏ H0/H0 đúng) , P(sll2)= P(chấp nhận H0/H0 sai) 7 Ta không thể làm giảm P(sll1) và P(sll2) xuống cùng lúc được (cỡ mẫu cố định), nếu làm giảm P(sll1) thì sẽ làm tăng P(sll2), và ngược lại. Chỉ có thể làm giảm cả P(sll1) và P(sll2) cùng lúc bằng cách tăng cỡ mẫu lên. Về mặt khách quan thì cả 2 loại sai lầm đều nguy hiểm, tuy nhiên về mặt chủ quan thì ta coi sai lầm loại 1 là nguy hiểm hơn sai lầm loại 2. Do đó người ta lập giả thiết sao cho sai lầm loại 1 là nguy hiểm hơn. 8 VD1: Một người bị nghi ngờ là ăn trộm. Ta lập giả thiết: H0: người này là vô tội H1: người này là có tội (Trong xã hội văn minh, dân chủ thì luôn mong muốn điều tốt đẹp xãy ra!) Công an đi thu thập chứng cớ để bác bỏ H0, nếu có đủ chứng cớ thì kết luận người này có tội (bác bỏ H0), nếu không đủ chứng cớ thì vẫn phải kết luận người này vô tội (chấp nhận H0). ThS. Phạm Trí Cao * Chương 7 3 9 Ta có 2 loại sai lầm sau:  Trong thực tế người này vô tội, nhưng do sự tắc trách của CA hoặc do bị hãm hại mà người này bị kết luận là có tội  BẮT OAN (sll1).  Trong thực tế người này có tội, nhưng do là SIÊU TRỘM nên CA không tìm được chứng cớ nên phải thả ra  THẢ LẦM (sll2). Ta thấy BẮT OAN nguy hiểm hơn THẢ LẦM, nếu có thả lầm thì ta hy vọng rằng “Lưới trời lồng lộng, tuy thưa mà khó lọt, lọt lần này thì chưa chắc sẽ lọt lần khác!” (Bao Công) 10 VD 2: Một người đi khám bệnh xem có bị ung thư phổi không, ta đặt giả thiết sau: H0: người này có bệnh ung thư phổi. Ta có hai loại sai lầm tương ứng:  sai lầm loại I là người này có bệnh nhưng bác sĩ kết luận không có.  sai lầm loại II là người này không có bệnh nhưng bác sĩ kết luận có. Ta thấy sai lầm loại I là nguy hiểm hơn. 11 Do đó ta đưa ra quy tắc kiểm định sao cho:  P(sll1) <=, với  là 1 con số cho trước, gọi là mức (có) ý nghĩa của kiểm định.  P(sll2) bé nhất có thể được. 12 CÁC DẠNG KIỂM ĐỊNH: Kiểm định tham số Kiểm định giá trị trung bình Kiểm định tỷ lệ Kiểm định phương sai Kiểm định tham số có 2 dạng: 2 phía 1 phía (phải, trái) Kiểm định phi tham số Kiểm định quy luật phân phối xác suất Kiểm định tính độc lập của 2 dấu hiệu ThS. Phạm Trí Cao * Chương 7 4 13 PHƯƠNG PHÁP KIỂM ĐỊNH Phương pháp khoảng tin cậy Phương pháp giá trị tới hạn Phương pháp p-value 14 PHẦN I: KIỂM ĐỊNH THAM SỐ  KIỂM ĐỊNH GIÁ TRỊ TRUNG BÌNH  KIỂM ĐỊNH TỶ LỆ  KIỂM ĐỊNH PHƯƠNG SAI 15 1) KIỂM ĐỊNH GIÁ TRỊ TRUNG BÌNH: : trung bình đám đông 0: 1 con số cần kiểm định xem đúng hay sai  a) Kiểm định 2 phía H0: =0 ; H1: 0  b) Kiểm định một phía  Phía phải: H0: =0 ; H1: >0  Phía trái: H0: =0 ; H1: <0 16 KIỂM ĐỊNH HAI PHÍA: Kiểm định giá trị trung bình Kiểm định tỷ lệ Kiểm định phương sai ThS. Phạm Trí Cao * Chương 7 5 17 III) Kiểm định giá trị trung bình H0: µ= µ0 , H1: µ µ0 WX=(X1, …,Xn) G=f(WX,µ0) : tiêu chuẩn kiểm định. Nếu giả thiết H0 đúng thì ta biết được quy luật ppxs của G. Ta tìm miền W sao cho: P(GW/H0) =  W gọi là miền bác bỏ giả thiết H0,  gọi là mức ý nghĩa của kiểm định. Cách 1: phương pháp KTC (ít thông dụng) Ta tìm KTC của µ. Nếu µ0 thuộc KTC này thì ta chấp nhận giả thiết H0. 18 Cách 2: pp giá trị tới hạn Chọn n X TG / )0(    Nếu giả thiết H0 đúng thì T~N(0,1) ta tìm được t sao cho: P(GW/H0) =  = P(|T|>t) Do đó ta có miền bác bỏ 2 phía là: W={ n X T / )0(    ,|T|>t} Trong thực hành: Tính n x t / )0(    |t|> t: bác bỏ H0 19 1. n  30 , biết 2:   nx t )0(    t (tra bảng G) |t| < t : chấp nhận H0 |t|  t : bác bỏ H0 , chấp nhận H1 Trong trường hợp bác bỏ H0 : + Nếu ox  thì  > 0 + Nếu ox  thì  < 0 20 Nếu không biết 2: thay  bằng s s nx t )0(  ,   t (tra bảng G) |t| < t : chấp nhận H0 |t|  t : bác bỏ H0 , chấp nhận H1 ThS. Phạm Trí Cao * Chương 7 6 21 1. n < 30, biết 2 (X có phân phối chuẩn)   nx t )0(  ,   t (tra bảng G) |t| < t : chấp nhận H0 |t|  t : bác bỏ H0 2. n < 30, không biết 2 (X có phân phối chuẩn) s noxt )(  ,   t (n–1) (tra bảng H) |t| < t(n–1) : chấp nhận H0 |t|  t(n–1) : bác bỏ H0 22 Bài 1 : Giám đốc một xí nghiệp cho biết lương trung bình của 1 công nhân thuộc xí nghiệp hiện nay là 600 ngàn đồng/tháng. Chọn ngẫu nhiên 36 công nhân thấy lương trung bình là 520 ngàn đồng/tháng, với độ lệch chuẩn  = 40 ngàn đồng/tháng. Lời báo cáo của giám đốc có tin cậy được không, với mức có ý nghĩa là  = 5%. 23 Giả thiết H0 :  = 600 ; H1:   600  : là tiền lương trung bình thực sự của công nhân hiện nay o = 600 : là tiền lương trung bình của công nhân theo lời giám đốc x= 520 , n = 36 > 30 ,  = 40 ,  = 5%  = 5%   = 1 –  = 0,95  t = 1,96 Ta có 1240 36)600520()(        noxt |t|= 12 > 1,96= t : bác bỏ H0 Kết luận : với mức ý nghĩa là 5%, không tin vào lời của giám đốc. Lương trung bình thực sự của công nhân bé hơn 600 ngàn đồng / tháng (do ox  600520 ). 24 Chú ý quan trọng: Trước tiên phải đặt giả thiết thống kê rùi muốn làm gì thì làm! Nếu không đặt giả thiết thống kê mà có tính toán đúng thì cũng hổng được điểm. Tính toán, tra bảng đúng nhưng kết luận sai thì cũng hổng được điểm. “Uổng ơi là uổng!” ThS. Phạm Trí Cao * Chương 7 7 25 Bài 3 : Một cửa hàng thực phẩm nhận thấy thời gian vừa qua trung bình một khách hàng mua 25 ngàn đồng thực phẩm trong ngày. Nay cửa hàng chọn ngẫu nhiên 15 khách hàng thấy trung bình một khách hàng mua 24 ngàn đồng trong ngà y và phương sai mẫu hiệu chỉnh là s2 = (2 ngàn đồng)2. Với mức ý nghĩa là 5% , thử xem có phải sức mua của khách hàng hiện nay có thay đổi so với trước đây. 26 Giải Giả thiết H0 :  = 25 H1:   25  : là sức mua của khách hàng hiện nay o = 25 : là sức mua của khách hàng trước đây n = 15 ; x = 24 , s = 2 ,  = 5%  = 5%   = 0,95  t(n–1) = t0,05(14) = 2,1448 (tra bảng H) 9364,12 15)2524()(      s noxt  |t| =1,9364 < t(n– 1) = 2,1448 : Chấp nhận H0 Kết luận : với mức có ý nghĩa là 5%, sức mua của khách hàng hiện hay không thay đổi so với trước đây. 27 Cách 3: dùng p-value Biết  : T ~ N(0,1) p-value= P(T  n x / |0|   ) = 0,5-( n x / |0|   ) tra bảng F Chưa biết  (n<30) : T ~ T(n-1) p-value= P(T  ns x / |0|  ) tra bảng H với (n-1) bậc tự do quy tắc quyết định: *) biết : 2*p-value <  : bác bỏ H0 *) không biết : 2*p-value < 0,05 : bác bỏ H0 28 Bài 1: Cách 1: KTC 067,13 36 4096,1  nt    x = 52013,067  506,933 <µ< 533,067 µ0= 600  (506,933 ; 533,067) : bác bỏ H0 cách 3: p-value p-value= 0,5-              40 36|600520|  = 0,5-(12)  0 2*p-value < =0,05 : bác bỏ H0 ThS. Phạm Trí Cao * Chương 7 8 29 KIỂM ĐỊNH TỶ LỆ H0: p=p0 ; H1: pp0 Cách 1: pp KTC Xác định KTC của p. nếu p0 thuộc KTC này thì ta chấp nhận H0. Cách 3: p-value p–value = 0,5– ( )01(0 |0| pp npf   ) Quy tắc quyết định: *) biết  : 2*p–value <  : bác bỏ H0 *) kg biết  : 2*p–value < 0,05 : bác bỏ H0 30 Cách 2: pp giá trị tới hạn 31 Kiểm định về tỷ lệ: khi n  30 Giả thiết thống kê : H0 : p = p0 Giả thiết đối : H1 : p  p0 )01(0 )0( pp npf t      t (tra bảng G) |t|  t : bác bỏ H0 |t| < t : chấp nhận H0 Điều kiện áp dụng :          5)01.( 50. pn pn Trong trường hợp bác bỏ H0 : + Nếu f > p0 thì p > p0 + Nếu f < p0 thì p < p0 32 Lưu ý: cần nhớ kỹ cái gì? Bài 4 : Theo một nguồn tin thì tỉ lệ hộ dân thích xem dân ca trên Tivi là 80%. Thăm dò 36 hộ dân thấy có 25 hộ thích xem dân ca. Với mức có ý nghĩa là 5%. Kiểm định xem nguồn tin này có đáng tin cậy không? ThS. Phạm Trí Cao * Chương 7 9 33 Giải Giả thiết H0 : p = 0,8 ; H1 : p  0,8 p : là tỷ lệ hộ dân thực sự thích xem dân ca po = 0,8 : là tỷ lệ hộ dân thích xem dân ca theo nguồn tin n = 36 , f = 25/36= 0,69 ,  = 5%  = 5%   = 1 –  = 0,95  t = 1,96 65,1 8,02,0 36)8,069,0( )1( )(        opop nopft |t| = 1,65 < t = 1,96 : Chấp nhận H0 kết luận : với mức có ý nghĩa 5%, nguồn tin trên đáng tin cậy. 34 Bài 5 : Một máy sản xuất tự động, lúc đầu tỷ lệ sản phẩm loại A là 20%. Sau khi áp dụng một phương pháp sản xuất mới, người ta lấy 40 mẫu, mỗi mẫu gồm 10 sản phẩm để kiểm tra. Kết quả kiểm tra cho ở bảng sau : Số sản phẩm loại A trong mẫu 1 2 3 4 5 6 7 8 9 10 Số mẫu 2 0 4 6 8 10 4 5 1 0 Với mức ý nghĩa 5% . Hãy cho kết luận về phương pháp sản xuất mới này. 35 Giải H0:p=20% ; H1:p 20% ;  = 0,05 thì t = 1,96. Trong đó p là tỷ lệ sản phẩm loại A của máy sau khi áp dụng phương pháp sản xuất mới. Theo số liệu ở bảng trên thì tỷ lệ sản phẩm loại A của mẫu là 5375,0400 215 400 91857461058463412  f Vậy 875,16 )2,01(2,0 400)2,05375,0(    t |t| = 16,875 > t = 1,96 : bác bỏ H0 . Do f=0,5375>po=0,2 nên ta kết luận pp sản xuất mới làm tăng tỷ lệ sản phẩm loại A. 36 Bài 4: Cách 1: KTC 151,0 36 )69,01(69,096,1  151,069,0  fp  0,539 < p < 0,841 p0= 0,8  (0,539 ; 0,841) : chấp nhận H0 cách 3: p-value p-value= 0,5-              8,0*2,0 |8,069,0|  = 0,5-(1,65) = 0,5-0,4505 = 0,0495 2*p-value = 0.099 > 0,05: chấp nhận H0 ThS. Phạm Trí Cao * Chương 7 10 37 Kiểm định phương sai X có quy luật phân phối chuẩn. X  N(, 2 ) Giả thiết thống kê H0 : 2 = 2o ; H1 :  2  2o 2 2)1(2 o sn     Nếu )1(2 2 n < 2 < )1(2 21   n   : chấp nhận H0 Nếu )1(2 2 n > 2 , hoặc )1(2 21   n   < 2 : bác bỏ H0 Trong trường hợp bác bỏ H0 : + Nếu s2 > 2o thì  2 > 2o + Nếu s2 < 2o thì  2 < 2o 38 Bài 8: Nếu máy móc hoạt động bình thường thì kích thước của một loại sản phẩm (cm) là đại lượng ngẫu nhiên phân phối theo quy luật chuẩn với phương sai 2=25 cm2 . Nghi ngờ máy hoạt động không bình thường, người ta đo thử 20 sản phẩm và tính được s2 = 27,5cm2 . Với  = 0,02 , hãy kết luận về điều nghi ngờ này? 39 Giải: H0 : 2 = 25 H1 : 2  25  2 : phương sai của kích thước sản phẩm hiện nay 2520  : phương sai của kích thước sản phẩm khi máy hoạt động bình thường Tra bảng I ta có )19(201,0 = 7,6327 ; )19( 2 99,0 = 36,1908 Ta có 9,2025 5,2719 2 0 2)1(2    sn )19(201,0 <  2 < )19(299,0 : chấp nhận H0 . Vậy máy làm việc bình thường 40 KIỂM ĐỊNH MỘT PHÍA: Kiểm định giá trị trung bình Kiểm định tỷ lệ Kiểm định phương sai ThS. Phạm Trí Cao * Chương 7 11 41 I. KIỂM ĐỊNH TRUNG BÌNH 1.Phía phải: Giả thiết H0 :  = 0 Giả thiết đối H1 :  > 0 Ở bài toán này ta tin 1 cách tiên quyết rằng   0 , do đó chỉ cần phải lựa chọn hai khả năng: =0 hay >0 a. n  30 , biết  : Tính t =   nx )0(  , tra bảng tìm t2 t > t2 : bác bỏ H0 t  t2 : chấp nhận H0 Nếu chưa biết : thay  bằng s t = s nx )0(  42 b. n < 30,  đã biết (X có quy luật phân phối chuẩn) Tính t =   nx )0(  , tra bảng tìm t2 t > t2 : bác bỏ H0 c. n < 30,  chưa biết (X có quy luật phân phối chuẩn) Tính t = s nx )0(  , tra bảng tìm t2(n1) t > t2(n-1) : bác bỏ H0 43 2.Phía trái: Giả thiết H0 :  = 0 Giả thiết đối H1 :  < 0 Giống như phía phải, chỉ thay đổi: Tính t =   nx)0(  hoặc t = s nx)0(  44 II. KIỂM ĐỊNH TỶ LỆ Cỡ mẫu n  30 1.Phía phải: H0 : p = p0 H1 : p > p0 Tính t = )01(0 )0( pp npf   , tra bảng tìm t2 t > t2 : bác bỏ H0 ThS. Phạm Trí Cao * Chương 7 12 45 2.Phía trái: H0 : p = p0 H1 : p < p0 Tính t = )01(0 )0( pp nfp   , tra bảng tìm t2 t > t2 : bác bỏ H0 Điều kiện áp dụng (kiểm định phía trái và phải) :          5)01.( 50. pn pn 46 III. KIỂM ĐỊNH PHƯƠNG SAI 1.Phía phải: H0 : 20 2   ; H1 : 20 2   Tính 2 =  2 0 2)1( sn , tra bảng tìm )1(21  n  2 > )1(21  n : bác bỏ H0 2.Phía trái: H0 : 20 2   ; H1 : 20 2   Tính 2 =  2 0 2)1( sn , tra bảng tìm )1(2 n  2 < )1(2 n : bác bỏ H0 47 Bài 1: Một công ty có 1 hệ thống máy tính có thể xử lý 1200 hóa đơn trong 1 giờ. Công ty vừa nhập 1 hệ thống máy tính mới. Hệ thống này khi chạy kiểm tra trong 40 giờ cho thấy số hóa đơn được xử lý trung bình trong 1 giờ là 1260 với độ lệch chuẩn là 215. 1) Với  = 5% hãy nhận xét xem hệ thống mới có tốt hơn hệ thống cũ hay không? 2) Với  = 1% hãy nhận xét xem hệ thống mới có tốt hơn hệ thống cũ hay không? 48 Giải: H0 :  = 1200 (HT mới tốt bằng HT cũ) H1 :  > 1200 (HT mới tốt hơn HT cũ) 67,1215 40)12001260()0(    s nx t  1)  = 5%  t2 = 1,6449 t > t2 : bác bỏ H0. Vậy HT mới tốt hơn HT cũ. 2)  = 1%  t2 = 2,3263 t < t2 : chấp nhận H0. Vậy HT mới không tốt hơn HT cũ. Câu hỏi: Theo bạn thì có mâu thuẫn gì không giữa kết luận của câu 1 và 2? ThS. Phạm Trí Cao * Chương 7 13 49 Bài 4: Một báo cáo nói rằng 18% gia đình ở thành phố HCM có máy tính cá nhân ở nhà. Để kiểm tra người ta chọn ngẫu nhiên 80 gia đình trong thành phố có trẻ em đang đi học và thấy rằng có 22 gia đình có máy tính. Với mức ý nghĩa 2%, hãy kiểm định xem liệu trong các gia đình có trẻ em đang đi học, tỷ lệ gia đình có máy tính cao hơn tỷ lệ chung hay không? 50 Giải: H0 : p = 0,18 H1 : p > 0,18 f = 22/80 = 0,275 21,2 82,018,0 80)18,0275,0( )01(0 )0(        pp npf t  = 2%  t2 = 2,0537 t > t2 : bác bỏ H0 Vậy trong các gia đình có trẻ em đi học, tỷ lệ gia đình có máy tính cao hơn tỷ lệ chung. 51 Bài 5: Đo đường kính 12 sản phẩm của 1 dây chuyền sản xuất, người kỹ sư kiểm tra chất lượng tính được s = 0,3 . Biết rằng nếu độ biến động của các sản phẩm lớn hơn 0,2 thì dây chuyền sản xuất phải dùng lại để điều chỉnh.Với mức ý nghĩa 5%, người kỹ sư có kết luận gì? 52 Giải: H0 : 2 = (0,2)2 = 0,04 H1 : 2 > 0,04 6752,19)11(295,0)11( 2 05,01)1( 2 1   n 75,2404,0 2)3,0).(112( 2 0 2)1(2    sn  2 > )11(295,0 : bác bỏ giả thiết H0 Dây chuyền cần điều chỉnh vì độ biến động lớn hơn mức cho phép. ThS. Phạm Trí Cao * Chương 7 14 53 Kiểm định giá trị trung bình, một phía Cách 3: dùng p-value Biết  : T ~ N(0,1) p-value= P(T  n x / )0(   ) = 0,5-( n x / )0(   ) tra bảng F Chưa biết  (n<30) : T ~ T(n-1) p-value= P(T  ns x / )0(  ) tra bảng H với (n-1) bậc tự do quy tắc quyết định: *) biết : p-value <  : bác bỏ H0 *) không biết : p-value < 0,05 : bác bỏ H0 54 Kiểm định tỷ lệ, một phía Cách 3: dùng p-value Biết  : T ~ N(0,1) p-value= P(T npp pf /)01(0 )0(   ) = 0,5-( )01(0 )0( pp npf   ) tra bảng F quy tắc quyết định: *) biết : p-value <  : bác bỏ H0 *) không biết : p-value < 0,05 : bác bỏ H0 55 VD: Xem các bài tập ở trang 129 Quyển sách bài tập XSTK, 2007 56 Xác suất mắc sai lầm loại 1 và loại 2. P(sll1) = P(bác bỏ H0/H0 đúng)   P(sll2) = P(chấp nhận H0/H0 sai) =  Trong lý thuyết kiểm định, ta giả thiết H0 đúng, rồi từ đó ta đưa ra các quy tắc kiểm định. Thí dụ như quy tắc kiểm định giá trị trung bình, tỷ lệ. Tính xác suất mắc sai lầm loại 1: chính là giá trị p-value mà ta tính được trong các kiểm định ở trên. ThS. Phạm Trí Cao * Chương 7 15 57 Tính xác suất mắc sai lầm loại 2: 1) kiểm định trung bình: 1a) 2 phía: H0: µ= µ0 , H1: µ  µ0 Nếu giá trị thực tế của µ là µ1 thì                   s n t 102 1   1– gọi là lực kiểm định 58 Kiểm định với  ,  cho trước Nếu muốn xác suất mắc sai lầm loại 1 là  và xác suất mắc sai lầm loại 2 không vượt quá  cho trước, với giá trị thực 1 của  sai lệch so với 0 không vượt quá  cho trước thì cỡ mẫu là: 2 2)2( 2      tt n với |1–0|    t 1 ,  221 t Trường hợp:0 10   thì 2 2)22( 2      tt n 59 1b) 1 phía: H0: µ= µ0 , H1: µ > µ0 hoặc H1: µ < µ0 ) |10| 2(2 1 s n t      Kiểm định với  ,  cho trước Nếu muốn xác suất mắc sai lầm loại 1 là  và xác suất mắc sai lầm loại 2 không vượt quá  cho trước, với giá trị thực 1 của  sai lệch so với 0 không vượt quá  cho trước thì cỡ mẫu là: 2 2)22( 2      tt n với |1–0|   60 Bài 2 : Trong thập niên 80, trọng lượng trung bình của thanh niên là 48kg. Nay để xác định lại trọng lượng ấy, người ta chọn ngẫu nhiên 100 thanh niên đo trọng lượng được trọng lượng trung bình là 50kg và phương sai mẫu hiệu chỉnh s2 = (10kg)2. 1) Thử xem trọng lượng thanh niên hiện nay phải chăng có thay đổi, với mức có ý nghĩa là 1%. 2) Nếu trọng lượng thực tế của thanh niên là 1 = 51kg thì xác suất mắc sai lầm loại 2 là bao nhiêu ThS. Phạm Trí Cao * Chương 7 16 61 Bài 2 : 3) Nếu muốn xác suất mắc sai lầm loại 1 là 1% và xác suất mắc sai lầm loại 2 không vượt quá 5% thì phải đo trọng lượng của bao nhiêu thanh niên nếu trọng lượng trung bình thực tế của thanh niên hiện nay không vượt quá 52kg 4) Nếu muốn xác suất mắc sai lầm loại 1 là 1% và xác suất mắc sai lầm loại 2 không vượt quá 5% thì phải đo trọng lượng của bao nhiêu thanh niên nếu trọng lượng trung bình thực tế của thanh niên hiện nay trong khoảng (44 ; 52) kg. 62 Giải 1) Giả thiết H0 :  = 48 H1 :   48  : là trọng lượng trung bình của thanh niên hiện nay o = 48 : là trọng lượng trung bình của thanh niên trong thập niên 80 n = 100 > 30 ; x = 50 , s = 10 ,  = 1%  = 1%   = 1 –  = 0,99  t = 2,58 Ta có 210 100)5048()(      s noxt  |t|= 2 < t = 2,58 : Chấp nhận H0 Kết luận : với mức có ý nghĩa là 1%, trọng lượng trung bình thanh niên hiện nay thực sự không thay đổi so với thập niên 80. 63 2) )10 100|5148|58,2(2 1 ) |10|(2 1     s n t   = 0,5 – (0,42) = 0,5 – 0,1628 = 0,3372 : xác suất mắc sai lầm loại 2 Lực kiểm định là 1–  = 0,6628 64 3)  = 0,01  t2 = t0,02 = 2,32  = 0,05  t2 = t0,1 = 1,65 (Nếu tra bảng G thì nhìn = 0,90 . Nếu tra bảng F thì nhìn dòng 1.6 và cột 5) 0 ≤ 1 –0 = 52 – 48 = 4 ≤  = 4 2 2)22( 2     tts n = 24 2)65,132,2(210  = 98,01  99 thanh niên 4)  = 0,01  t = t0,01 = 2,58  = 0,05  t2 = t0,1 = 1,65 |0–1|  |48–52| = 4 =  2 2)2( 2     tts n = 11283,11124 2)65,158,2(210   thanh niên ThS. Phạm Trí Cao * Chương 7 17 65 2) kiểm định tỷ lệ: 1a) 2 phía: H0: p= p0 , H1: p  p0 Nếu giá trị thực tế của p là p1 thì                    )1( 10 2 1 ff npp t 1– gọi là lực kiểm định 66 Kiểm định với  ,  cho trước Nếu muốn xác suất mắc sai lầm loại 1 là  và xác suất mắc sai lầm loại 2 không vượt quá  cho trước, với giá trị thực p1 của p sai lệch so với p0 không vượt quá  cho trước thì cỡ mẫu là: 2 2)2( 2      tt n với |p1–p0|      221 1 t t   67 1b) 1 phía: H0: p= p0 , H1: p > p0 hoặc H1: p < p0 ) )1( |10| 2(2 1 ff npp t      Kiểm định với  ,  cho trước Nếu muốn xác suất mắc sai lầm loại 1 là  và xác suất mắc sai lầm loại 2 không vượt quá  cho trước, với giá trị thực p1 của p sai lệch so với p0 không vượt quá  cho trước thì cỡ mẫu là: 2 2)22( 2      tt n với |p1–p0|   68 PHẦN II: KIỂM ĐỊNH PHI THAM SỐ  KIỂM ĐỊNH QUY LUẬT PHÂN PHỐI XÁC SUẤT  KIỂM ĐỊNH TÍNH ĐỘC LẬP ThS. Phạm Trí Cao * Chương 7 18 69 Trong thực tế ta thường gặp vấn đề là ta phải kiểm tra xem một đại lượng ngẫu nhiên đang xét có một quy luật phân phối nào đó không. VD như chiều cao của một loại cây có quy luật phân phối chuẩn không? Trọng lượng một loại sản phẩm có quy luật phân phối chuẩn?... 70 PHẦN II.1: KIỂM ĐỊNH QUY LUẬT PHÂN PHỐI XÁC SUẤT TIÊU CHUẨN K.PEARSON ( TIÊU CHUẨN 2 ) Cho bảng tần số của ĐLNN X : X x1 x2 xk Tần số n1 n2 nk ni : tần số quan sát (tần số thực nghiệm) n = n1 + n2 +…+ nk : cỡ mẫu Lập giả thiết H0 : X phân phối theo quy luật A H1 : X không phân phối theo quy luật A 71 1. X là ĐLNN rời rạc pi = P(X= xi) : theo quy luật A Ta xét X có quy luật phân phối nhị thức, Poisson 2. X là ĐLNN liên tục pi = P(xi-1 < X < xi) hoặc pi = P(xi < X < xi+1) Ta xét X có quy luật chuẩn 72 3. Quy tắc kiểm định inp inpink i 2 1 2           Với mức ý nghĩa           121 rk trong đó: r = số tham số chưa xác định của quy luật X k là số điểm (khoảng) chia các giá trị của X Quy tắc quyết định:          121 2 rk   : bác bỏ H0          121 2 rk   : chấp nhận H0 ThS. Phạm Trí Cao * Chương 7 19 73 I.2 CÁC QUY LUẬT PHÂN PHỐI CƠ BẢN CẦN KIỂM ĐỊNH 1. Nhị thức X ~ B(n,p) n, p biết  r= 0 n biết, p chưa biết  r = 1 n, p chưa biết  r= 2 2. Poisson X ~ P()  chưa biết, thay bằng x  r=1 3. Chuẩn X ~ N(, 2) Nếu , 2 chưa biết. Thay  = x , 2 = s2 (hoặc 2sˆ )  r = 2 74 Lưu ý: Điều kiện để áp dụng tiêu chuẩn phù hợp 2 theo K.Pearson Các tần số quan sát n i  5 . Nếu các n i quá nhỏ thì phải ghép các giá trị hay các khoảng giá trị của mẫu lại để tăng n i lên 75 Bài 1: Quan sát 1 đối tượng trong 100 ngày. Gọi X là số lần xuất hiện của đối tượng trong 1 ngày, ta có: X 0 1 2 3 4 5 6 7 8 9 10 Số ngày 5 10 19 29 21 6 9 0 0 1 0 Với  =5%, hãy xét xem X ~B (10 ; 0,3) ? 76 Giải: H0: X có quy luật phân phối nhị thức B(10; 0,3) H1: X không có quy luật phận phối nhị thức B(10; 0,3) Trước hết, ta thu ngọn mẫu để cho thỏa ni không quá nhỏ: ni  5 X 0 1 2 3 4 5  6 ni 5 10 19 29 21 6 10 Nếu giả thiết H0 đúng, ta tính được các xác suất: pi=P(X=xi)= xixiC xi 10)7,0()3,0(10 xi= 0,1,2,...,6 Ví dụ: p1= P(X=0)= 0282,010)7,0(0)3,0(010 C ThS. Phạm Trí Cao * Chương 7 20 77 Ta lập bảng sau: xi ni pi npi inp inpin 2          0 1 2 3 4 5  6 5 10 19 29 21 6 10 0,0282 0,1211 0,2335 0,2668 0,2001 0,1029 0,0474 2,82 12,11 23,35 26,68 20,01 10,29 4,74 1,6852 0,3676 0,8104 0,2017 0,0490 1,7885 5,8370 Tổng n=100 1 10,7394 78 Lưu ý: Để   7 1i pi= 1 thì p7 = 1–   6 1i Pi = 0,0474 Vậy 2 = 10,7394 k=7 , r=0 , =0,05  5916,12)6(295,0)17( 2 05,01   )6(2 95,0 2   : chấp nhận H0 79 Bài 2: Trong dân gian lưu truyền 1 quan niệm rằng: 1 loại thức ăn A nào đó làm tăng khả năng sinh con trai. Để kiểm tra quan niệm này người ta cho 1 nhóm phụ nữ dùng thức ăn A rồi xem xét 80 trường hợp có 3 con trong thời gi an dùng loại thức ăn A đó. Kết quả cho trong bảng sau: X: số bé trai 3 2 1 0 ni: số phụ nữ 14 36 24 6 Với mức ý nghĩa 5%, kiểm định xem liệu lọai thức ăn A có tác dụng đến việc sinh con trai không? 80 Giải: H0 : loại thức ăn A không có tác dụng đến giới tính của bào thai. Nếu H0 đúng thì số bé trai trong gia đình có 3 con là 1 ĐLNN có qluật nhị thức với n=3, p= ½ Gọi X là số con trai trong 1 gia đình có 3 con H0 : X~B(3, ½) Đặt : Bk = biến cố trong 3 đứa trẻ có k đứa là con trai. ThS. Phạm Trí Cao * Chương 7 21 81 Ta lập bảng sau: xi ni pi npi inp inpin 2          3 2 1 0 14 36 24 6 1/8 3/8 3/8 1/8 10 30 30 10 1,6 1,2 1,2 1,6 Tổng n = 80 1 5,6 82 Nếu H0 đúng thì: p1 = P(B0) = 8 33 2 11 3)1(2,8 13 2 10 3                     CBPpC 8 13 2 13 3)3(4,8 33 2 12 3)2(3                     CBppCBPp Vậy 2 = 5,6 =0,05 , k=4 , r=0  8147,7)3(2 95,0)1( 2 1   rk )3(2 95,0 2   : chấp nhận H0 Số liệu đã cho chưa cho phép ta khẳng định loại thức ăn A có ảnh hưởng đến giới tính. 83 Bài 3: Sản phẩm được sản xuất ra trên một dây chuyền tự động được đóng gói một cách ngẫu nhiên theo quy cách: 3 sản phẩm/hộp. Tiến hành kiểm tra 200 hộp ta được kết quả: Số sp loại I có trong hộp 0 1 2 3 Số hộp 6 14 110 70 Với = 2% , có thể xem số sp loại I có trong hộp là đại lượng ngẫu nhiên có quy luật phân phối nhị thức không? 84 Giải: Gọi X là số sp loại I có trong một hộp. XB(3, p) Ta xấp xỉ p bằng: 74,0200*3 70*3110*214*1 f H0: X  B(3 ; 0,74) ThS. Phạm Trí Cao * Chương 7 22 85 Ta lập bảng sau: xi ni pi npi inp inpin 2          0 1 2 3 6 14 110 70 0,017576 0,150072 0,427128 0,405224 3,5152 30,0144 85,4256 81,0448 1,75644 8,5446 7,06932 1,50519 Tổng n = 200 1 18,8755  2= 18,8755 > )114(298,0  = 7,8241 : bác bỏ H0 86 Bài 4: Một nhà máy sản xuất máy in nói rằng số lỗi in trong 1 cuốn sách dày 300 trang của máy in là 1 ĐLNN có quy luật phân phối Poisson với tham số =4,7 . Kiểm tra 300 trang sách in của 50 máy in cùng loại, ta thu được: Số lỗi 0 1 2 3 4 5 6 7 8  9 Số máy 1 1 8 6 13 10 5 5 1 0 Với mức ý nghĩa 1%, hỏi lời tuyên bố của nhà sản xuất có đúng không? 87 Giải: Gọi X= số lỗi trong 300 trang in H0: X ~ P(4,7) P1 = P(X 2) = e-4,7 1523,0)!2 2)7,4( !1 1)7,4( !0 0)7,4((  P2 = P(X=3) = e-4,7 !3 3)7,4( = 0,1574 P3= P(X=4)= e-4,7 !4 4)7,4( = 0,1849 P4 = P(X=5) = e-4,7 !5 5)7,4( = 0,1738 P5 = P(X=6) = e-4,7 !6 6)7,4( = 0,1362 P6 = P(X  7) = 1– 1954,0)( 6 0   kXp k 88 xi ni pi npi inp inpin 2           2 3 4 5 6 7 10 6 13 10 5 6 0,1523 0,1574 0,1849 0,1738 0,1362 0,1954 7,6150 7,8692 9,2463 8,6915 6,8083 9,7697 0,7470 0,4440 1,5239 0,1970 0,4803 1,4546 Tổng n =50 1 4,8468  = 0,01, k = 6, r = 0  0863,15)5(2 99,0   2 = 4,8468 < )5(2 99,0 : chấp nhận H0. tin lời tuyên bố trên. ThS. Phạm Trí Cao * Chương 7 23 89 Lưu ý: Nếu đề không cho biết  = 4,7 thì ta làm như sau: 24,4)6*75*610*513*46*310*2(50 1 6 1 1     ixi i nnx Thay  bằng x = 4,24 . Xem X~P(4,24) Tra bảng )4(299,0)116( 2 99,0   90 Bài 6: Quan sát chiều cao của 120 cây khuynh diệp ở 1 năm tuổi ta được bảng số liệu: Chiều cao (cm) 50-80 80-100 100-110 110-120 120-130 Số cây 10 9 13 14 21 Chiều cao 130-140 140-150 150-160 160-170 Số cây 15 12 13 13 Với mức ý nghĩa 5%, hãy kiểm định giả thiết: chiều cao cây khuynh diệp có phân phối chuẩn? 91 Gọi X = chiều cao của cây khuynh diệp (cm) H0 : X có phân phối chuẩn N(, 2) ixinnx  1 120 1 [65*10+90*9+105*13+115*14 +125*21+135*15+145*12+155*13 + 165*13] = 124,875 6649,776)2)875,124(1201963675(1120 1 )2)(2(1 12       xnixinns 8687,276649,776 s Xem X ~ N (124,875 ; (27,8687)2 ) 92          ixix , ni pi npi (ni-npi)2 inp inpin 2          (–, 80) (80, 100) (100, 10) (110, 120) (120, 130) (130, 140) (140, 150) (150, 160) (160, +) 10 9 13 14 21 15 12 13 13 0,0537 0,1330 0,1114 0,1344 0,1389 0,1340 0,1105 0,0803 0,1038 6,444 15,96 13,368 16,128 16,668 16,08 13,26 9,636 12,456 12,6451 48,4416 0,1354 4,5284 18,7662 1,1664 1,5876 11,3165 0,2959 1,9623 3,0352 0,0101 0,2808 1,1259 0,0725 0,1197 1,1744 0,0238 Tổng n =120 1 7,8047 ThS. Phạm Trí Cao * Chương 7 24 93 p1= P(X< 80)= 0,5+             8687,27 875,12480 = 0,5  (1,61) = 0,5-0,4463 = 0,0537 p2= P(80<X<100) =             8687,27 875,124100 –            8687,27 875,12480 =(0,89)+(1,61)= – 0,3133+0,4463 = 0,1330 p3 = P (100<X<110)= –(0,53)+(0,89) = – 0,2019+0,3133 = 0,1114 p4= P (110 < X < 120)= –(0,17) + (0,53) = –0,0675 + 0,2019 = 0,1344 p5 = P (120 < X < 130) = (0,18) + (0,17) = 0,0714 + 0,0675 = 0,1389 p6 = P (130 < X < 140) = (0,54) - (0,18) = 0,2054 – 0,0714 = 0,1340 94 p7 = P (140 < X < 150 ) = (0,90) - (0,54) = 0,3159 – 0,2054 = 0,1105 p8 = P (150 < X < 160 ) = (1,26) - (0,90) = 0,3962 – 0,3159 = 0,0803 p9 = P (X>160 ) = 0,5 - (1,26) = 0,5 – 0,3962 = 0,1038 Hay p9 = 1–(p1 + . . . + p8) = 0,1038  = 0,05, k = 9, r = 2  5916,12)6(2 95,01)129( 2 05,01    2 = 7,8047 < 2 95,0 (6) : chấp nhận H0 Vậy có thể xem X~N(124,875 ; (27,8687)2) 95 Lưu ý: * Nếu đề cho trước  = 25 thì r = 1 P(xi< X < xi+1) =     )25 875,1241( i x  )25 875,124 ( ix * Nếu đề cho trước = 120, = 25 thì r= 0 P( xi < X < xi+1) =     )25 1201( i x  )25 120 ( ix 96 PHẦN II.2 : KIỂM ĐỊNH TÍNH ĐỘC LẬP Một phần tử của đám đông có thể có các dấu hiệu định lượng. Ví dụ con người có: chiều cao, trọng lượng. Một phần tử của đám đông còn có dấu hiệu định tính. Ví dụ con người có: màu tóc, màu mắt. Ta khảo sát 3 trường hợp: *Tính độc lập của 2 dấu hiệu định tính. *Tính độc lập của 1 dấu hiệu định tính và 1 dấu hiệu định lượng. *Tính độc lập của 2 dấu hiệu định lượng. ThS. Phạm Trí Cao * Chương 7 25 97 I. KIỂM ĐỊNH TÍNH ĐỘC LẬP CỦA 2 DẤU HIỆU ĐỊNH TÍNH Ta có bảng liên hợp các dấu hiệu sau: B A B1 B2 ……. Bk Tổng A1 n11 n12 n1k n10 A2 n21 n22 n2k n20 ….. Ar nr1 nr2 nrk nr0 Tổng n01 n02 ….. n0k n    k j ij nin 10 ,    k i ij njn 10 ,      r i k j oj ninn 1 10 : cỡ mẫu 98 Giả thiết H0: Hai dấu hiệu A và B độc lập H1: Hai dấu hiệu A và B không độc lập nij : tần số quan sát   i j jnin ijnn )1 0.0 2 (2   )1)(1(21  rk Quy tắc quyết định:  2 > )1)(1(21  rk : bác bỏ H0 99 Ví dụ: Để nghiên cứu xem quy mô của một công ty có ảnh hưởng đến hiệu quả quảng cáo đối với khách hàng hay không, người ta tiến hành phỏng vấn 356 khách hàng và thu được kết quả sau: Hiệu quả quảng cáo Quy mô công ty Mạnh Vừa phải Yếu Tổng Nhỏ 20 52 32 104 Vừa 53 47 28 128 Lớn 67 32 25 124 Tổng 140 131 85 356 Với mức ý nghĩa 5%, có thể cho rằng quy mô của công ty có ảnh hưởng đến hiệu quả của quảng cáo đối với khách hàng hay không? 100 Giải H0: Quy mô không ảnh hưởng hiệu quả quảng cáo                        1124*85 225 124*131 232 124*140 267 128*85 228 128*131 247 128*140 253 104*85 232 104*131 252 104*140 220 3562 = 29,638 > 4877,9)4(295,0)13)(13( 2 05,01   : bác bỏ H0 Tức quy mô công ty có ảnh hưởng đến hiệu quả của quảng cáo ThS. Phạm Trí Cao * Chương 7 26 101 II. KIỂM ĐỊNH TÍNH ĐỘC LẬP CỦA 1 DẤU HIỆU ĐỊNH TÍNH VÀ 1 DẤU HIỆU ĐỊNH LƯỢNG Tiêu chuẩn phù hợp 2 nói trên còn có thể áp dụng để kiểm định tính độc lập của 1 dấu hiệu định tính A và 1 dấu hiệu định lượng X. Khi đó ta cần chia miền giá trị của X thành k khoảng B1, B2, Bk , và nếu cá thể có số đo xj rơi vào khoảng Bj thì ta xem cá thể đó có dấu hiệu Bj 102 Ví dụ: Một con cua biển có thể có màu vỏ là xanh, hoặc hồng. Số vạch trên vỏ của nó có thể là 0, 1, 2, 3, 4, 5. Ở đây dấu hiệu A (màu vỏ) là dấu hiệu định tính, còn số vạch trên vỏ X là dấu hiệu định lượng (hay X là ĐLNN rời rạc). Xét ngẫu nhiên 169 con cua biển, ta thu được: Số vạch Màu vỏ 0 1 hoặc 2 3 hoặc 4 5 Tổng Xanh 35 19 36 25 115 Hồng 14 14 16 10 54 Tổng 49 33 52 35 169 Với  = 5%, xét xem: A và X có độc lập? 103 Giải H0: hai dấu hiệu A và X độc lập 13,2)1 54*35 210..... 115*33 219 115*49 235(1692   = 0,05 , r=2 , k=4  8147,7)3(295,0)14)(12( 2 05,01   )3(295,0 2   : chấp nhận H0 104 III. KIỂM ĐỊNH TÍNH ĐỘC LẬP CỦA 2 DẤU HIỆU ĐỊNH LƯỢNG Tương tự như vậy, ta có thể dùng tiêu chuẩn 2 nói trên để kiểm tra tính độc lập của 2 ĐLNN X và Y (lưu ý rằng nếu X và Y không tương quan: RXY = 0 thì chưa chắc X,Y độc lập. Ta phải kiểm tra mới khẳng định được). Muốn vậy, ta chia miền giá trị của X thành k khoảng B1 , B2, Bk còn miền giá trị của Y thành r khoảng A1, A2, Ar . Nếu cá thể có số đo (y,x)  Ai x Bj thì ta coi cá thể đó có dấu hiệu Ai và Bj ThS. Phạm Trí Cao * Chương 7 27 105 Ví dụ: Giả sử X và Y (pound) tương ứng là số đo huyết áp và trọng lượng của trẻ em 14 tuổi. Lấy 1 mẫu ngẫu nhiên gồm 200 trẻ, ta có: H. áp T. lượng X  99 99 120 Tổng Y  102 10 20 11 5 46 Y >102 6 48 50 50 154 Tổng 16 68 61 55 200 Với : 1 pound = 0,454 kg Với  =1%, xét xem: X,Y có độc lập. 106 Giải H0: hai dấu hiệu X và Y độc lập  = 0,01 , r= 2 , k= 4  345,11)3(299,0)14)(12( 2 01,01   53,22)1 154*55 250.... 46*68 220 46*16 210(2002  )3(295,0 2   : bác bỏ H0 Vậy giữa huyết áp và trọng lượng (trẻ 14 tuổi) có sự phụ thuộc lẫn nhau. 107 Mời ghé thăm trang web:    www37.websamba.com/phamtricao www.phamtricao.web1000.com

Các file đính kèm theo tài liệu này:

  • pdfUnlock-CHUONG7.pdf