Tài liệu Bài giảng chương 5: Lý thuyết mẫu - Phạm Trí Cao: ThS. Phạm Trí Cao * Chương 5
1
1
CHƯƠNG 5:
LÝ THUYẾT MẪU
2
1. MẪU VÀ PHƯƠNG PHÁP MẪU
Giả sử ta cần nghiên cứu một tập hợp có rất nhiều
phần tử, vì một số lý do mà ta không thể khảo sát
toàn bộ tập lớn này (khảo sát tất cả các phần tử),
nhưng ta lại muốn có kết quả trên tập lớn. Ta có thể
giải quyết như sau: từ tập hợp lớn lấy ra một tập hợp
nhỏ hơn để nghiên cứu, ta thu được kết quả trên tập
nhỏ, từ kết quả trên tập nhỏ ta suy ra kết quả cho tập
lớn. Phương pháp làm việc như vậy gọi là phương
pháp mẫu. Tập lớn gọi là tổng thể hay đám đông, số
phần tử của tập lớn gọi là kích thước tổng thể/đám
đông, ký hiệu là N. Tập nhỏ gọi là mẫu, số phần tử
của mẫu gọi là kích thước mẫu hay cỡ mẫu, ký hiệu
n.
3
Các lý do không thể nghiên cứu toàn bộ tổng thể:
Giới hạn về thời gian, tài chính… Thí dụ muốn khảo sát
xem chiều cao tr...
7 trang |
Chia sẻ: haohao | Lượt xem: 1751 | Lượt tải: 0
Bạn đang xem nội dung tài liệu Bài giảng chương 5: Lý thuyết mẫu - Phạm Trí Cao, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
ThS. Phạm Trí Cao * Chương 5
1
1
CHƯƠNG 5:
LÝ THUYẾT MẪU
2
1. MẪU VÀ PHƯƠNG PHÁP MẪU
Giả sử ta cần nghiên cứu một tập hợp có rất nhiều
phần tử, vì một số lý do mà ta không thể khảo sát
toàn bộ tập lớn này (khảo sát tất cả các phần tử),
nhưng ta lại muốn có kết quả trên tập lớn. Ta có thể
giải quyết như sau: từ tập hợp lớn lấy ra một tập hợp
nhỏ hơn để nghiên cứu, ta thu được kết quả trên tập
nhỏ, từ kết quả trên tập nhỏ ta suy ra kết quả cho tập
lớn. Phương pháp làm việc như vậy gọi là phương
pháp mẫu. Tập lớn gọi là tổng thể hay đám đông, số
phần tử của tập lớn gọi là kích thước tổng thể/đám
đông, ký hiệu là N. Tập nhỏ gọi là mẫu, số phần tử
của mẫu gọi là kích thước mẫu hay cỡ mẫu, ký hiệu
n.
3
Các lý do không thể nghiên cứu toàn bộ tổng thể:
Giới hạn về thời gian, tài chính… Thí dụ muốn khảo sát
xem chiều cao trung bình của thanh niên Việt Nam
hiện nay có tăng lên so với trước đây không, ta phải đo
chiều cao của toàn bộ thanh niên Việt nam (giả sử xấp
xỉ N=40 triệu người), điều này tuy làm được nhưng rõ
ràng tốn nhiều thời gian, tiền bạc, công sức…. Ta có thể
khảo sát khoảng 1 triệu thanh niên và từ chiều cao
trung bình của n=1 triệu người này, ta suy ra chiều cao
trung bình của toàn bộ thanh niên VN.
Phá vỡ tổng thể nghiên cứu. Thí dụ như ta cất vào kho
N=10000 hộp sản phẩm, muốn biết tỷ lệ hộp hư trong
kho sau 1 thời gian bảo quản. Ta phải kiểm tra từng
hộp để xác định số hộp hư M=300, thì tỷ lệ hộp hư
trong kho là M/N. Một sản phẩm sau khi được kiểm tra
thì bị mất phẩm chất, khi ta kiểm tra xong cả kho thì
cũng “tiêu” luôn cái kho! Ta có thể lấy ngẫu nhiên
n=100 hộp ra kiểm tra, giả sử có m=9 hộp hư.
Từ tỷ lệ hộp hư 9% ta suy ra tỷ lệ hộp hư của cả kho.
4
Không xác định được chính xác tổng thể. Thí dụ như
muốn khảo sát xem tỷ lệ những người bị nhiễm HIV
qua đường tiêm chích ma túy là bao nhiêu phần trăm.
Trong tình huống này thì tổng thể chính là những người
bị nhiễm HIV, nhưng ta không thể xác định chính xác
tất cả những người bị nhiễm HIV vì chỉ có những người
tự nguyện đến trung tâm xét nghiệm, bệnh viện thì
mới biết được, còn những người không đi xét nghiệm
thì không biết được. Do đó ta chỉ biết một phần của
tổng thể, là những người đã đi xét nghiệm. Ngoài ra số
người bị nhiễm mới HIV và bị chết do HIV có thể thay
đổi từng giây nên số phần tử của tổng thể thay đổi
từng giây.
ThS. Phạm Trí Cao * Chương 5
2
5
Muốn từ kết quả của mẫu suy ra kết quả cho tổng thể
tốt thì mẫu phải đại diện được cho tổng thể, muốn
vậy thì mẫu phải được lấy một cách ngẫu nhiên.
Trong phạm vi bài giảng này không đề cập đến kỹ
thuật lấy mẫu (mẫu giản đơn, mẫu hệ thống, mẫu
chùm, mẫu phân tổ, mẫu nhiều cấp). Ta quy ước là
mẫu được lấy theo cách có hoàn lại.
Mẫu gồm có: mẫu ngẫu nhiên và mẫu cụ thể. Cần
phân biệt rõ mẫu ngẫu nhiên và mẫu cụ thể.
6
Tổng thể được đặc trưng bởi dấu hiệu nghiên cứu X,
là một đại lượng ngẫu nhiên. Do đó khi nói về X tức
là nói về tổng thể.
Mẫu ngẫu nhiên (có cỡ mẫu n) được ký hiệu
WX=(X1,…,Xn) là một véctơ có n thành phần, mỗi
thành phần Xi là một ĐLNN. Các ĐLNN này độc lập
nhau và có cùng quy luật phân phối giống với X.
Mẫu cụ thể (có cỡ mẫu n) được ký hiệu Wx=(x1,…,xn)
là một véctơ có n thành phần, mỗi thành phần xi là
một giá trị (con số) cụ thể.
Ứng với một mẫu ngẫu nhiên thì có nhiều mẫu cụ
thể tương ứng với kết quả của các phép thử ngẫu
nhiên khác nhau.
7
VD: Một kệ chứa các đĩa nhạc với giá như sau:
Giá (ngàn đ) 20 25 30 34 40
Số đĩa 35 10 25 17 13
Xét tổng thể về mặt định lượng:
Lấy ngẫu nhiên 1 đĩa nhạc trong kệ.
Gọi X= giá của đĩa nhạc này. Ta thấy X có quy
luật ppxs như sau:
X 20 25 30 34 40
P 0,35 0,10 0,25 0,17 0,13
8
Lấy ngẫu nhiên (có hoàn lại) 4 đĩa nhạc từ kệ.
Gọi Xi= giá của đĩa nhạc thứ i lấy được, i=1,4
Ta thấy các Xi độc lập và có cùng quy luật ppxs
giống như X.
Lập WX=(X1,X2,X3,X4), gọi là mẫu ngẫu nhiên.
ThS. Phạm Trí Cao * Chương 5
3
9
Bây giờ ta xem giá cụ thể của từng đĩa lấy ra,
thấy như sau:
Đĩa 1: giá 20 ngàn đ
Đĩa 2: giá 30 ngàn đ
Đĩa 3: giá 20 ngàn đ
Đĩa 4: giá 40 ngàn đ
Lập Wx=(x1,x2,x3,x4) = (20,30,20,40), gọi là
mẫu cụ thể. 10
Bây giờ ta xét tổng thể về mặt định tính:
Đĩa có giá dưới 25 ngàn đ là đĩa “lậu”. Lấy ngẫu
nhiên 1 đĩa từ kệ. Gọi X= số đĩa lậu lấy được.
X 0 1
P 0,65 0,35
Lấy ngẫu nhiên (có hoàn lại) 4 đĩa nhạc từ kệ.
Gọi Xi= số đĩa lậu lấy được khi lấy 1 đĩa ở lần lấy
thứ i, i=1,4
Ta thấy các Xi độc lập và có cùng quy luật ppxs
giống như X.
Lập WX=(X1,X2,X3,X4), gọi là mẫu ngẫu nhiên.
11
Bây giờ ta xem giá cụ thể của từng đĩa lấy ra,
thấy như sau:
Đĩa 1: giá 20 ngàn đ --> x1=1
Đĩa 2: giá 30 ngàn đ --> x1=0
Đĩa 3: giá 20 ngàn đ --> x1=1
Đĩa 4: giá 40 ngàn đ --> x1=0
Lập Wx=(x1,x2,x3,x4) = (1,0,1,0), gọi là mẫu
cụ thể. 12
Các đặc trưng số cơ bản của tổng thể:
Ta xét tổng thể về mặt định lượng: Tổng thể được
đặc trưng bởi dấu hiệu nghiên cứu X, X là ĐLNN.
Ta có EX=µ là trung bình tổng thể. varX=2 là
phương sai tổng thể. là độ lệch chuẩn của tổng thể.
Ta xét tổng thể về mặt định tính: tổng thể có kích
thước N, trong đó có M phần tử có tính chất A quan
tâm. p=M/N gọi là tỷ lệ tổng thể.
ThS. Phạm Trí Cao * Chương 5
4
13
II) Các đặc trưng số cơ bản của mẫu (dạng ngẫu nhiên):
Định lượng:
Trung bình mẫu: iXnX
1
Phương sai mẫu (chưa hiệu chỉnh):
2)(12ˆ XiXnS
Phương sai mẫu (đã hiệu chỉnh): 2)(1
12
XiXnS
Độ lệch chuẩn mẫu (chưa hiệu chỉnh): 2ˆˆ SS
Độ lệch chuẩn mẫu (đã hiệu chỉnh): 2SS
ta có 1
ˆ
n
nSS
Định tính:
Tỷ lệ mẫu: F=
n
i i
Xn 1
1
Xi có quy luật phân phối xác suất (không-một):
Xi 0 1
P q p
14
II) Các đặc trưng số cơ bản của mẫu (dạng cụ thể):
Định lượng:
Trung bình mẫu: ixnx
1
Phương sai mẫu (chưa hiệu chỉnh):
2)(12ˆ xixns
Phương sai mẫu (đã hiệu chỉnh): 2)(1
12
xixns
Độ lệch chuẩn mẫu (chưa hiệu chỉnh): 2ˆˆ ss
Độ lệch chuẩn mẫu (đã hiệu chỉnh): 2ss
ta có 1
ˆ
n
nss
Định tính:
Tỷ lệ mẫu: f=
n
i i
xn 1
1 =m/n
n: cỡ mẫu
m: số phần tử có tính chất A quan tâm trong mẫu
15
Trong thực hành: Ta xác định trung bình mẫu,
phương sai mẫu như sau:
xi ni
x1 n1
... ...
xi ni
... ...
xk nk
n=n1+...+nk
ixinnx
1
2)(21
12 xnixinns
Mẫu dạng
điểm
16
Bài 1: Điều tra năng suất lúa trên diện tích 100
hecta trồng lúa của một vùng, ta thu được bảng
số liệu sau:
Năng suất (tạ / ha) 41 44 45 46 48 52 54
Số ha có năng suất
tương ứng
10 20 30 15 10 10 5
1) Tính trung bình mẫu, phương sai mẫu chưa
hiệu chỉnh, phương sai mẫu hiệu chỉnh
2) Những thửa ruộng có năng suất từ 48 tạ trở
lên là những thửa ruộng có năng suất cao.
Tính tỷ lệ thửa ruộng có năng suất cao
3) Tính trung bình mẫu, phương sai mẫu hiệu
chỉnh (điều chỉnh) của những thửa ruộng có
năng suất cao
ThS. Phạm Trí Cao * Chương 5
5
17
Giải:
1) Ta lập bảng như sau
xi ni nixi nixi2
41
44
45
46
48
52
54
10
20
30
15
10
10
5
410
880
1350
690
480
520
270
16.810
38.720
60.750
31.740
23.040
27.040
14.580
Tổng n = 100 4600 212680 18
Từ kết quả tính ở bảng trên ta có
Năng suất trung bình 46100
4600x tạ/ha
Phương sai (đã hiệu chỉnh) của năng suất
909,10246*1002126801100
12
s
Cách khác:
Phương sai (chưa hiệu chỉnh) của năng suất
8,102)46(100
2126802ˆ s
Phương sai điều chỉnh của năng suất
s2 = 1100
100
10,8 = 10,909
19
2) Tỷ lệ mẫu là f = 25,0100
51010
3) Lập bảng sau
xi ni ni.xi ni.xi2
48 10 480 23040
52 10 520 27040
54 5 270 14580
Tổngn = 25 1270 64660
8,5025
1270x
s2 = 6]2)8,50*(2564660[125
1
20
Bài 2: Quan sát tuổi thọ của một số người ta có
bảng số liệu sau :
Tuổi (năm) Số người
20 – 30
30 – 40
40 – 50
50 – 60
5
14
25
6
1) Tính x , s2.
2) Những người sống dưới 40 tuổi là "chết
trẻ". Tìm tỷ lệ người chết trẻ.
Mẫu dạng
khoảng
ThS. Phạm Trí Cao * Chương 5
6
21
Đưa về dạng điểm, sau đó lập bảng tính như bài
1.
xi ni
25
35
45
55
5
14
25
6
1) x = 41,40
s2 = 68,4082
2) f= (5+14)/ 50 = 0,38
22
Quy luật phân phối xác suất của đặc trưng mẫu NN:
Định lượng: Ta có X N(, 2)
)2,(~ nNX
)1,0(~
/
Nn
X
Do đó: )()()( nanbbXaP
)(2)|(| nXP
Nếu chưa biết 2, ta có: )1(~
/
nTnS
X
)1(2~2
2)1(
nSn
Định tính: iXnF
1 , với Xi có quy luật ppxs 0-1.
pFE )( , n
pqF )var(
Nếu n lớn (p không quá gần 0 và 1) thì:
),( n
pqpNF )1,0(
/
Nnpq
pF
23
Bài 3: Chiều cao thanh niên của vùng M là biến ngẫu
nhiên phân bố chuẩn với = 165 cm, 2 = 102 cm2 . Người
ta đo ngẫu nhiên chiều cao của 100 thanh niên vùng đó.
1) Xác suất để chiều cao trung bình của 100 thanh niên
đó sẽ sai lệch so với chiều cao trung bình của thanh niên
vùng M không vượt quá 2 cm là bao nhiêu?
2) Khả năng chiều cao trung bình của số thanh niên trên
vượt quá 168 cm là bao nhiêu?
3) Nếu muốn chiều cao trung bình đo được sai lệch so với
chiều cao trung bình của tổng thể (của tất cả thanh niên
vùng M) không vượt quá 1cm với xác suất (độ tin cậy ) là
0,99 thì chúng ta phải tiến hành đo chiều cao của bao nhiêu
thanh niên?
24
Giải:
1) 9544,0)2(2)
100/10
2(2)2|(| XP
2)
0013,04987,05,0)3(5,0
)10010
165168(5,0)168(
XP
3) Tìm n sao cho: 99,0)1|(| XP
Ta có
)575,2(495,0)1,0(
99,0)10
1(2)1|(|
n
nXP
0,1 n = 2,575 n= 663,0625 664 (làm tròn lên)
ThS. Phạm Trí Cao * Chương 5
7
25
Mời ghé thăm trang web:
www37.websamba.com/phamtricao
www.phamtricao.web1000.com
Các file đính kèm theo tài liệu này:
- Unlock-CHUONG5.pdf