Tài liệu Phân tích mối liên hệ tuyến tính của hai đại lượng ngẫu nhiên - Đặng Kim Phương: 67
TẠP CHÍ KHOA HỌC
Khoa học Tự nhiên và Công nghệ, Số 6 (9/2016) tr 67 - 72
Đặng Kim Phương
Khoa Toán - Lý - Tin, Trường Đại học Tây Bắc
PHÂN TÍCH MỐI LIÊN HỆ TUYẾN TÍNH CỦA
HAI ĐẠI LƯỢNG NGẪU NHIÊN
Tóm tắt: Một trong những nhiệm vụ trọng tâm của người làm công tác thống kê khi phân tích mối liên hệ
giữa các đại lượng ngẫu nhiên là xác định mức độ liên hệ giữa chúng và lập phương trình hồi qui biểu diễn mối liên
hệ đó. Trong khuôn khổ của bài viết này chúng tôi sẽ giới thiệu cách sử dụng hệ số tương quan mẫu và phương trình
hồi qui tuyến tính mẫu để xác định mức độ liên hệ tuyến tính và biểu diễn mối liên hệ tuyến tính dạng Y AX B
của hai đại lượng ngẫu nhiên X và Y.
Từ khóa: Hệ số tương quan, Hàm hồi qui tuyến tính, Đại lượng ngẫu nhiên, Kiểm định giả thiết thống kê,
Phân phối Student.
1. Mở đầu
Trong học phần Xác suất thống kê đã giới thiệu công thức, cách tính hệ số tương quan mẫu
và cách xác định phương trình hồi qui tuyến tính mẫu dạng Y A...
6 trang |
Chia sẻ: quangot475 | Lượt xem: 1225 | Lượt tải: 0
Bạn đang xem nội dung tài liệu Phân tích mối liên hệ tuyến tính của hai đại lượng ngẫu nhiên - Đặng Kim Phương, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
67
TẠP CHÍ KHOA HỌC
Khoa học Tự nhiên và Công nghệ, Số 6 (9/2016) tr 67 - 72
Đặng Kim Phương
Khoa Toán - Lý - Tin, Trường Đại học Tây Bắc
PHÂN TÍCH MỐI LIÊN HỆ TUYẾN TÍNH CỦA
HAI ĐẠI LƯỢNG NGẪU NHIÊN
Tóm tắt: Một trong những nhiệm vụ trọng tâm của người làm công tác thống kê khi phân tích mối liên hệ
giữa các đại lượng ngẫu nhiên là xác định mức độ liên hệ giữa chúng và lập phương trình hồi qui biểu diễn mối liên
hệ đó. Trong khuôn khổ của bài viết này chúng tôi sẽ giới thiệu cách sử dụng hệ số tương quan mẫu và phương trình
hồi qui tuyến tính mẫu để xác định mức độ liên hệ tuyến tính và biểu diễn mối liên hệ tuyến tính dạng Y AX B
của hai đại lượng ngẫu nhiên X và Y.
Từ khóa: Hệ số tương quan, Hàm hồi qui tuyến tính, Đại lượng ngẫu nhiên, Kiểm định giả thiết thống kê,
Phân phối Student.
1. Mở đầu
Trong học phần Xác suất thống kê đã giới thiệu công thức, cách tính hệ số tương quan mẫu
và cách xác định phương trình hồi qui tuyến tính mẫu dạng Y AX B của hai đại lượng ngẫu
nhiên X và Y. Vậy trong thống kê các ngành như Kinh tế, Nông học, Tài nguyên và Môi
trường,... đã sử dụng hệ số tương quan mẫu và phương trình hồi qui tuyến tính mẫu để phân tích
mối liên hệ tuyến tính dạng Y AX B của hai đại lượng ngẫu nhiên X và Y như thế nào? Thông
qua cơ sở lý luận và ví dụ thực tiễn bài viết sẽ làm sáng tỏ về vấn đề này.
2. Phân tích mối liên hệ tuyến tính dạng Y AX B của hai đại lượng ngẫu nhiên X và Y
2.1. Hệ số tương quan
Nghiên cứu về cơ sở xác suất ta đã biết hệ số tương quan đặc trưng cho mức độ liên hệ của
hai đại lượng ngẫu nhiên X và Y và được xác định bởi công thức:
( . ) ( ) . ( )
.
( 1 1).
E X Y E X E Y
D X D Y
Nếu 0 thì X và Y không tương quan.
Nếu 0 thì X và Y có tương quan.
Nếu 1 thì X và Y có tương quan tuyến tính.
Nếu càng gần 1 thì mức độ liên hệ giữa X và Y càng chặt chẽ.
Ngày nhận bài: 23/5/2016. Ngày nhận đăng: 25/9/2016
Liên lạc: Đặng Kim Phương, e - mail: dangkimphuongtbu@gmail.com
68
Nhưng nếu chưa biết phân phối của đại lượng ngẫu nhiên ( . )X Y thì hệ số tương quan lý
thuyết của hai đại lượng ngẫu nhiên X và Y cũng chưa tìm được. Do đó trong thống kê khi
phân tích tìm hiểu mức độ liên hệ của hai đại lượng ngẫu nhiên ta phải tìm cách ước lượng
thông qua hệ số tương quan mẫu của hai đại lượng ngẫu nhiên X và Y như sau: Lấy một mẫu
ngẫu nhiên kích thước n của cặp đại lượng ngẫu nhiên X và Y:
1 1 2 2
( , ) , ( , ) , . . . , ( , ) .
n n
X Y X Y X Y Khi đó
hệ số tương quan mẫu của hai đại lượng ngẫu nhiên X vàY được xác định bởi công thức:
1 1 1
2 2 2 2
1 1 1 1
( ) ( )
.
( ) ( )
n n n
i i i i
i i i
n n n n
i i i i
i i i i
n X Y X Y
r
n X X n Y Y
Nếu 0r thì X và Y không có mối liên hệ tuyến tính.
Nếu 0r thì X và Y có mối liên hệ tuyến tính.
Nếu r càng gần 1 thì mức độ liên hệ giữa X và Y càng chặt chẽ.
Do những dao động ngẫu nhiên về mặt thống kê mà có thể xảy ra trường hợp: Hệ số
tương quan mẫu 0r nhưng trong tổng thể hệ số tương quan 0 , trường hợp thực tế này rất
hay xảy ra khi mẫu nhỏ. Vậy nên trong thực tiễn khi 0 0, 3r và mẫu nhỏ cần kiểm tra sự tồn
tại của hệ số tương quan như sau:
Thiết lập bài toán kiểm định giả thiết thống kê:
0
1
: 0
: 0
H
H
với mức ý nghĩa 0, 05 (Mức ý nghĩa có thể là 0,1; 0,01; 0,05;...để thuận tiện cho việc trình
bày, trong bài viết này luôn thiết lập các bài toán kiểm định giả thiết với mức ý nghĩa 0, 05 ).
Tính giá trị kiểm định
2
. 2
1
r
T n
r
và tra giá trị ( 2 ; 0 , 0 5 )t n trong bảng phân phối
Student. Nếu ( 2 ; 0 , 05 )T t n thì bác bỏ giả thiết
0
: 0 ,H tức là thực sự tồn tại mối liên hệ
tuyến tính giữa hai tổng thể X và Y. Khi đó sẽ xác định phương trình hồi qui tuyến tính biểu diễn
mối liên hệ tuyến tính giữa hai tổng thể X và Y. Nếu ( 2 ; 0 , 05 )T t n thì chấp nhận giả thiết
0
: 0H tức là hai tổng thể X và Y không tương quan và công việc phân tích mối liên hệ tuyến
tính giữa hai tổng thể X và Y dừng lại ở đây.
2.2. Phương trình hồi qui tuyến tính dạng Y AX B
Phương trình hồi qui tuyến tính đơn giản của hai đại lượng ngẫu nhiên X và Y có dạng:
Y AX B trong đó ,A B là các hằng số.
:A Thể hiện mức tăng (giảm) của Y khi X tăng (giảm) một đơn vị
:B Thể hiện giá trị của Y khi giá trị của 0X
Trong thực tế không thể xác định được các hệ số ,A B trong phương trình hồi qui tuyến
tính của tổng thể Y AX B mà chỉ có thể ước lượng các hệ số ,A B qua các hệ số ,a b trong
phương trình hồi qui tuyến tính mẫu của hai tổng thể X và Y là .by a x Muốn ước lượng các
hệ số ,A B trong phương trình hồi qui tuyến tính của tổng thể Y AX B phải xác định phương
trình hồi qui tuyến tính mẫu .by a x Để xác định được các hệ số ,a b ta lấy một mẫu ngẫu
69
nhiên kích thước n của cặp đại lượng ngẫu nhiên X và Y:
1 1 2 2
( , ) , ( , ) , . . . , ( , ) .
n n
X Y X Y X Y Khi đó các
hệ số ,a b được xác định như sau:
1 1 1
2 2
1 1
( ) ( )
( )
,
n n n
i i i i
i i i
n n
i i
i i
n X Y X Y
a
n X X
b Y a X
trong đó:
1 1
1 1
; .
n n
i i
i i
X X Y Y
n n
Do những dao động ngẫu nhiên về mặt thống kê mà có thể xảy ra trường hợp các tham số
,a b khác không nhưng các tham số ,A B trong tổng thể lại bằng không. Bởi vậy sau khi xác định
được các tham số ,a b trong phương trình hồi qui tuyến tính mẫu by a x cần phải kiểm tra
các tham số ,A B có thực sự tồn tại trong tổng thể hay không.
Kiểm tra sự tồn tại của tham số A:
Ta đặt giả thiết:
0
1
: 0
: 0
H A
H A
với mức ý nghĩa 0 , 05 .
Tính giá trị kiểm định:
a
a
a
T
S
trong đó:
2
1ˆ ˆ. ;
2
Y X
a
X
Q a Q
S S S
Q n
2 2
2 21 1
1 1
( ) ( )
; .
n n
i in n
i i
X i Y i
i i
X Y
Q X Q Y
n n
Nếu ( 2; 0, 05 )
a
T t n thì bác bỏ giả thiết
0
: 0H A tức là tồn tại tham số A trong tổng thể và ta
đi ước lượng tham số .A
Kiểm tra sự tồn tại của tham số B:
Ta đặt giả thiết:
0
1
: 0
: 0
H B
H B
với mức ý nghĩa 0 , 05 .
Tính giá trị kiểm định:
b
b
b
T
S
trong đó
2
1ˆ .
n
i
i
b
X
X
S S
nQ
Nếu ( 2; 0, 05 )
b
T t n thì bác bỏ giả thiết
0
: 0H B tức là tồn tại tham số B trong tổng thể và ta
đi ước lượng tham số .B
70
2.3. Ước lượng khoảng các tham số ,A B trong phương trình hồi qui tuyến tính
Y AX B
Nếu các tham số ,A B thực sự tồn tại thì ước lượng tham số A,B.
Ước lượng khoảng của tham số A với độ tin cậy 0,95 là:
( 2 ; 0 , 0 2 5 ) ( 2 ; 0 , 0 2 5 )
a a
a t n S A a t n S
Ước lượng khoảng của tham số B với độ tin cậy 0,95 là:
( 2 ; 0 , 0 2 5 ) ( 2 ; 0 , 0 2 5 ) .
b b
b t n S B b t n S
3. Ví dụ
Biết rằng giữa năng suất lao động và tuổi nghề của công nhân có mối liên hệ tuyến tính
dạng Y AX B . Hãy phân tích mối liên hệ tuyến tính giữa năng suất lao động và tuổi nghề của
công nhân trong một doanh nghiệp qua số liệu điều tra sau:
Tên công nhân A B C D Đ E G H I K
Tuổi nghề ( X - năm) 1 3 4 5 7 8 9 10 11 12
Năng suất lao động ( Y - kg) 3 12 9 16 12 21 21 24 19 27
Dựa vào số liệu điều tra ta lập bảng số liệu sau:
Tên X Y 2X 2Y .X Y
A 1 3 1 9 3
B 3 12 9 144 36
C 4 9 16 81 36
D 5 16 25 256 80
Đ 7 12 49 144 84
E 8 21 64 441 168
G 9 21 81 441 189
H 10 24 100 576 240
I 11 19 121 361 209
K 12 27 144 729 324
Tổng 70 164 610 3182 1369
*Xác định hệ số tương quan mẫu:
Hệ số tương quan mẫu của X và Y được tính bởi công thức:
1 1 1
2 2 2 2
1 1 1 1
( ) ( )
1 0 .1 3 6 9 7 0 .1 6 4
0 , 9 1 .
2 2
(1 0 .6 1 0 7 0 )(1 0 .3 1 8 2 1 6 4 )
( ) ( )
n n n
i i i i
i i i
n n n n
i i i i
i i i i
n X Y X Y
n X X n Y Y
r
Vì 0 , 91r nên quan hệ giữa X và Y là rất chặt chẽ, hơn nữa vì hệ số tương quan mẫu cao nên
không cần kiểm tra sự tồn tại của hệ số tương quan trong tổng thể.
*Xác định các hệ số ,a b trong phương trình hồi qui tuyến tính mẫu by a x
Tính:
1 1
1 7 0 1 1 6 4
7 ; 1 6 , 4 .
1 0 1 0
n n
i i
i i
X X Y Y
n n
Ta có:
71
1 1 1
2
2 2
1 1
( )( )
1 0 .1 3 6 9 7 0 .1 6 4
1, 8 4
1 0 .6 1 0 7 0
( )
n n n
i i i i
i i i
n n
i i
i i
n X Y X Y
n X X
a
1 6 , 4 1, 8 4 .7 3, 5 2 .b Y a X
Vậy phương trình hồi qui tuyến tính mẫu là 1, 84 3, 52 .y x
*Kiểm tra sự tồn tại của các tham số ,A B trong phương trình hồi qui tuyến tính của tổng
thể Y AX B
- Kiểm định sự tồn tại của tham số :A
Đặt giả thiết
0
1
: 0
: 0
H A
H A
với mức ý nghĩa 0 , 05 .
Tính giá trị kiểm định:
a
a
a
S
T ta có:
2
2
2
2 1
1
2
2
2 1
1
1ˆ ˆ;
2
( )
7 0
6 1 0 1 2 0
1 0
( )
1 6 4
3 1 8 2 4 9 2
1 0
Y X
a
X
n
in
i
X i
i
n
in
i
Y i
i
Q a Q
S S S
Q n
X
Q X
n
Y
Q Y
n
2
4 9 2 , 4 1, 8 4 .1 2 0
ˆ 3, 2 8
8
1
3, 2 8 0 , 3
1 2 0
1, 8 4
6 , 1 .
0 , 3
a
a
S
S
T
- Kiểm định sự tồn tại của tham số :B
Đặt giả thiết:
0
1
: 0
: 0
H B
H B
với mức ý nghĩa 0 , 05 .
Tính giá trị kiểm định:
b
b
b
S
T ta có:
2
1
6 1 0
ˆ 3, 2 8 2 , 3 4
. 1 0 .1 2 0
n
i
i
b
X
X
S S
n Q
72
3, 5 2
1, 5 .
2 , 3 4
b
b
b
S
T
Tra bảng phân phối Student ta có ( 2 ; 0 , 05 ) (8; 0 , 05 ) 2 , 31 .t n t
Vì 2, 31
a
T nên bác bỏ giả thiết
0
: 0H A tức là tồn tại tham số A trong tổng thể.
Vì 2, 31
b
T nên ta chấp nhận giả thiết
0
: 0H B tức là không tồn tại tham số B trong tổng thể.
*Ước lượng khoảng tham số A
Ước lượng khoảng của tham số A với độ tin cậy 0,95 là:
1, 8 4 2 , 3 .0 , 3 1, 8 4 2 , 3 .0 , 3
1, 1 5 2 , 5 3 .
( 2 ; 0 , 0 2 5 ) ( 2 ; 0 , 0 2 5 )
a a
S A
A
A
a t n a t n S
Chúng ta tin tới mức 95% rằng tham số A trong tổng thể nằm trong khoảng từ 1,15 kg đến 2,53
kg.
3. Kết luận
- Năng suất lao động của công nhân trong doanh nghiệp phụ thuộc rất nhiều vào tuổi nghề
của công nhân. Nếu công nhân không được đào taọ nghề thì không thể tham gia vào hoạt động
kinh doanh của doanh nghiệp.
- Nếu tuổi nghề của mỗi công nhân tăng lên một đơn vị thì năng suất lao đông của công
nhân đó sẽ tăng từ 1,15 kg đến 2,53 kg.
TÀI LIỆU THAM KHẢO
[1] Ngô Kim Khôi (1998), Thống kê toán học trong lâm nghiệp, Nxb Nông nghiệp.
[2] Phạm Văn Kiều (2004), Xác suất và thống kê, Nxb Giáo dục.
[3] Hà Văn Sơn (2004), Lý thuyết thống kê, Nxb Thống kê.
ANALYSIS OF LINEAR RELATIONSHIP
OF TWO RANDOM VARIABLES
Dang Kim Phuong
Faculty of Mathematics - Physics - Informatics, Tay Bac University
Abstract: One of the key tasks when analyzing statistical relationship between random variables is
identifying the level of relationship between them and making up the regression represented such a relationship.
Within the scope of an article, we will show how to use the sample correlation coefficient and linear regression to
determine relationship and performing linear relationship between two random variables X and Y.
Keywords: Correlation coefficient, Linear regression function, Radom variable, Statistical hypothesis
testing, Student's t-distribution.
Các file đính kèm theo tài liệu này:
- 7_63_2136081.pdf