Phân tích mối liên hệ tuyến tính của hai đại lượng ngẫu nhiên - Đặng Kim Phương

Tài liệu Phân tích mối liên hệ tuyến tính của hai đại lượng ngẫu nhiên - Đặng Kim Phương: 67 TẠP CHÍ KHOA HỌC Khoa học Tự nhiên và Công nghệ, Số 6 (9/2016) tr 67 - 72 Đặng Kim Phương Khoa Toán - Lý - Tin, Trường Đại học Tây Bắc PHÂN TÍCH MỐI LIÊN HỆ TUYẾN TÍNH CỦA HAI ĐẠI LƯỢNG NGẪU NHIÊN Tóm tắt: Một trong những nhiệm vụ trọng tâm của người làm công tác thống kê khi phân tích mối liên hệ giữa các đại lượng ngẫu nhiên là xác định mức độ liên hệ giữa chúng và lập phương trình hồi qui biểu diễn mối liên hệ đó. Trong khuôn khổ của bài viết này chúng tôi sẽ giới thiệu cách sử dụng hệ số tương quan mẫu và phương trình hồi qui tuyến tính mẫu để xác định mức độ liên hệ tuyến tính và biểu diễn mối liên hệ tuyến tính dạng  Y AX B của hai đại lượng ngẫu nhiên X và Y. Từ khóa: Hệ số tương quan, Hàm hồi qui tuyến tính, Đại lượng ngẫu nhiên, Kiểm định giả thiết thống kê, Phân phối Student. 1. Mở đầu Trong học phần Xác suất thống kê đã giới thiệu công thức, cách tính hệ số tương quan mẫu và cách xác định phương trình hồi qui tuyến tính mẫu dạng  Y A...

pdf6 trang | Chia sẻ: quangot475 | Lượt xem: 1225 | Lượt tải: 0download
Bạn đang xem nội dung tài liệu Phân tích mối liên hệ tuyến tính của hai đại lượng ngẫu nhiên - Đặng Kim Phương, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
67 TẠP CHÍ KHOA HỌC Khoa học Tự nhiên và Công nghệ, Số 6 (9/2016) tr 67 - 72 Đặng Kim Phương Khoa Toán - Lý - Tin, Trường Đại học Tây Bắc PHÂN TÍCH MỐI LIÊN HỆ TUYẾN TÍNH CỦA HAI ĐẠI LƯỢNG NGẪU NHIÊN Tóm tắt: Một trong những nhiệm vụ trọng tâm của người làm công tác thống kê khi phân tích mối liên hệ giữa các đại lượng ngẫu nhiên là xác định mức độ liên hệ giữa chúng và lập phương trình hồi qui biểu diễn mối liên hệ đó. Trong khuôn khổ của bài viết này chúng tôi sẽ giới thiệu cách sử dụng hệ số tương quan mẫu và phương trình hồi qui tuyến tính mẫu để xác định mức độ liên hệ tuyến tính và biểu diễn mối liên hệ tuyến tính dạng  Y AX B của hai đại lượng ngẫu nhiên X và Y. Từ khóa: Hệ số tương quan, Hàm hồi qui tuyến tính, Đại lượng ngẫu nhiên, Kiểm định giả thiết thống kê, Phân phối Student. 1. Mở đầu Trong học phần Xác suất thống kê đã giới thiệu công thức, cách tính hệ số tương quan mẫu và cách xác định phương trình hồi qui tuyến tính mẫu dạng  Y AX B của hai đại lượng ngẫu nhiên X và Y. Vậy trong thống kê các ngành như Kinh tế, Nông học, Tài nguyên và Môi trường,... đã sử dụng hệ số tương quan mẫu và phương trình hồi qui tuyến tính mẫu để phân tích mối liên hệ tuyến tính dạng  Y AX B của hai đại lượng ngẫu nhiên X và Y như thế nào? Thông qua cơ sở lý luận và ví dụ thực tiễn bài viết sẽ làm sáng tỏ về vấn đề này. 2. Phân tích mối liên hệ tuyến tính dạng  Y AX B của hai đại lượng ngẫu nhiên X và Y 2.1. Hệ số tương quan Nghiên cứu về cơ sở xác suất ta đã biết hệ số tương quan đặc trưng cho mức độ liên hệ của hai đại lượng ngẫu nhiên X và Y và được xác định bởi công thức:        ( . ) ( ) . ( ) . ( 1 1). E X Y E X E Y D X D Y Nếu   0 thì X và Y không tương quan. Nếu   0 thì X và Y có tương quan. Nếu    1 thì X và Y có tương quan tuyến tính. Nếu  càng gần 1 thì mức độ liên hệ giữa X và Y càng chặt chẽ. Ngày nhận bài: 23/5/2016. Ngày nhận đăng: 25/9/2016 Liên lạc: Đặng Kim Phương, e - mail: dangkimphuongtbu@gmail.com 68 Nhưng nếu chưa biết phân phối của đại lượng ngẫu nhiên ( . )X Y thì hệ số tương quan lý thuyết  của hai đại lượng ngẫu nhiên X và Y cũng chưa tìm được. Do đó trong thống kê khi phân tích tìm hiểu mức độ liên hệ của hai đại lượng ngẫu nhiên ta phải tìm cách ước lượng  thông qua hệ số tương quan mẫu của hai đại lượng ngẫu nhiên X và Y như sau: Lấy một mẫu ngẫu nhiên kích thước n của cặp đại lượng ngẫu nhiên X và Y: 1 1 2 2 ( , ) , ( , ) , . . . , ( , ) . n n X Y X Y X Y Khi đó hệ số tương quan mẫu của hai đại lượng ngẫu nhiên X vàY được xác định bởi công thức:                              1 1 1 2 2 2 2 1 1 1 1 ( ) ( ) . ( ) ( ) n n n i i i i i i i n n n n i i i i i i i i n X Y X Y r n X X n Y Y Nếu  0r thì X và Y không có mối liên hệ tuyến tính. Nếu  0r thì X và Y có mối liên hệ tuyến tính. Nếu r càng gần 1 thì mức độ liên hệ giữa X và Y càng chặt chẽ. Do những dao động ngẫu nhiên về mặt thống kê mà có thể xảy ra trường hợp: Hệ số tương quan mẫu  0r nhưng trong tổng thể hệ số tương quan   0 , trường hợp thực tế này rất hay xảy ra khi mẫu nhỏ. Vậy nên trong thực tiễn khi  0 0, 3r và mẫu nhỏ cần kiểm tra sự tồn tại của hệ số tương quan như sau: Thiết lập bài toán kiểm định giả thiết thống kê:      0 1 : 0 : 0 H H với mức ý nghĩa   0, 05 (Mức ý nghĩa  có thể là 0,1; 0,01; 0,05;...để thuận tiện cho việc trình bày, trong bài viết này luôn thiết lập các bài toán kiểm định giả thiết với mức ý nghĩa   0, 05 ). Tính giá trị kiểm định    2 . 2 1 r T n r và tra giá trị ( 2 ; 0 , 0 5 )t n trong bảng phân phối Student. Nếu  ( 2 ; 0 , 05 )T t n thì bác bỏ giả thiết   0 : 0 ,H tức là thực sự tồn tại mối liên hệ tuyến tính giữa hai tổng thể X và Y. Khi đó sẽ xác định phương trình hồi qui tuyến tính biểu diễn mối liên hệ tuyến tính giữa hai tổng thể X và Y. Nếu  ( 2 ; 0 , 05 )T t n thì chấp nhận giả thiết   0 : 0H tức là hai tổng thể X và Y không tương quan và công việc phân tích mối liên hệ tuyến tính giữa hai tổng thể X và Y dừng lại ở đây. 2.2. Phương trình hồi qui tuyến tính dạng  Y AX B Phương trình hồi qui tuyến tính đơn giản của hai đại lượng ngẫu nhiên X và Y có dạng:  Y AX B trong đó ,A B là các hằng số. :A Thể hiện mức tăng (giảm) của Y khi X tăng (giảm) một đơn vị :B Thể hiện giá trị của Y khi giá trị của  0X Trong thực tế không thể xác định được các hệ số ,A B trong phương trình hồi qui tuyến tính của tổng thể  Y AX B mà chỉ có thể ước lượng các hệ số ,A B qua các hệ số ,a b trong phương trình hồi qui tuyến tính mẫu của hai tổng thể X và Y là  .by a x Muốn ước lượng các hệ số ,A B trong phương trình hồi qui tuyến tính của tổng thể  Y AX B phải xác định phương trình hồi qui tuyến tính mẫu  .by a x Để xác định được các hệ số ,a b ta lấy một mẫu ngẫu 69 nhiên kích thước n của cặp đại lượng ngẫu nhiên X và Y: 1 1 2 2 ( , ) , ( , ) , . . . , ( , ) . n n X Y X Y X Y Khi đó các hệ số ,a b được xác định như sau:                1 1 1 2 2 1 1 ( ) ( ) ( ) , n n n i i i i i i i n n i i i i n X Y X Y a n X X b Y a X trong đó:      1 1 1 1 ; . n n i i i i X X Y Y n n Do những dao động ngẫu nhiên về mặt thống kê mà có thể xảy ra trường hợp các tham số ,a b khác không nhưng các tham số ,A B trong tổng thể lại bằng không. Bởi vậy sau khi xác định được các tham số ,a b trong phương trình hồi qui tuyến tính mẫu  by a x cần phải kiểm tra các tham số ,A B có thực sự tồn tại trong tổng thể hay không. Kiểm tra sự tồn tại của tham số A: Ta đặt giả thiết:    0 1 : 0 : 0 H A H A với mức ý nghĩa   0 , 05 . Tính giá trị kiểm định:  a a a T S trong đó:     2 1ˆ ˆ. ; 2 Y X a X Q a Q S S S Q n             2 2 2 21 1 1 1 ( ) ( ) ; . n n i in n i i X i Y i i i X Y Q X Q Y n n Nếu  ( 2; 0, 05 ) a T t n thì bác bỏ giả thiết  0 : 0H A tức là tồn tại tham số A trong tổng thể và ta đi ước lượng tham số .A Kiểm tra sự tồn tại của tham số B: Ta đặt giả thiết:    0 1 : 0 : 0 H B H B với mức ý nghĩa   0 , 05 . Tính giá trị kiểm định:  b b b T S trong đó   2 1ˆ . n i i b X X S S nQ Nếu  ( 2; 0, 05 ) b T t n thì bác bỏ giả thiết  0 : 0H B tức là tồn tại tham số B trong tổng thể và ta đi ước lượng tham số .B 70 2.3. Ước lượng khoảng các tham số ,A B trong phương trình hồi qui tuyến tính  Y AX B Nếu các tham số ,A B thực sự tồn tại thì ước lượng tham số A,B. Ước lượng khoảng của tham số A với độ tin cậy 0,95 là:      ( 2 ; 0 , 0 2 5 ) ( 2 ; 0 , 0 2 5 ) a a a t n S A a t n S Ước lượng khoảng của tham số B với độ tin cậy 0,95 là:      ( 2 ; 0 , 0 2 5 ) ( 2 ; 0 , 0 2 5 ) . b b b t n S B b t n S 3. Ví dụ Biết rằng giữa năng suất lao động và tuổi nghề của công nhân có mối liên hệ tuyến tính dạng  Y AX B . Hãy phân tích mối liên hệ tuyến tính giữa năng suất lao động và tuổi nghề của công nhân trong một doanh nghiệp qua số liệu điều tra sau: Tên công nhân A B C D Đ E G H I K Tuổi nghề ( X - năm) 1 3 4 5 7 8 9 10 11 12 Năng suất lao động ( Y - kg) 3 12 9 16 12 21 21 24 19 27 Dựa vào số liệu điều tra ta lập bảng số liệu sau: Tên X Y 2X 2Y .X Y A 1 3 1 9 3 B 3 12 9 144 36 C 4 9 16 81 36 D 5 16 25 256 80 Đ 7 12 49 144 84 E 8 21 64 441 168 G 9 21 81 441 189 H 10 24 100 576 240 I 11 19 121 361 209 K 12 27 144 729 324 Tổng 70 164 610 3182 1369 *Xác định hệ số tương quan mẫu: Hệ số tương quan mẫu của X và Y được tính bởi công thức:                                   1 1 1 2 2 2 2 1 1 1 1 ( ) ( ) 1 0 .1 3 6 9 7 0 .1 6 4 0 , 9 1 . 2 2 (1 0 .6 1 0 7 0 )(1 0 .3 1 8 2 1 6 4 ) ( ) ( ) n n n i i i i i i i n n n n i i i i i i i i n X Y X Y n X X n Y Y r Vì  0 , 91r nên quan hệ giữa X và Y là rất chặt chẽ, hơn nữa vì hệ số tương quan mẫu cao nên không cần kiểm tra sự tồn tại của hệ số tương quan trong tổng thể. *Xác định các hệ số ,a b trong phương trình hồi qui tuyến tính mẫu  by a x Tính:          1 1 1 7 0 1 1 6 4 7 ; 1 6 , 4 . 1 0 1 0 n n i i i i X X Y Y n n Ta có: 71                  1 1 1 2 2 2 1 1 ( )( ) 1 0 .1 3 6 9 7 0 .1 6 4 1, 8 4 1 0 .6 1 0 7 0 ( ) n n n i i i i i i i n n i i i i n X Y X Y n X X a     1 6 , 4 1, 8 4 .7 3, 5 2 .b Y a X Vậy phương trình hồi qui tuyến tính mẫu là  1, 84 3, 52 .y x *Kiểm tra sự tồn tại của các tham số ,A B trong phương trình hồi qui tuyến tính của tổng thể  Y AX B - Kiểm định sự tồn tại của tham số :A Đặt giả thiết    0 1 : 0 : 0 H A H A với mức ý nghĩa   0 , 05 . Tính giá trị kiểm định:  a a a S T ta có:                       2 2 2 2 1 1 2 2 2 1 1 1ˆ ˆ; 2 ( ) 7 0 6 1 0 1 2 0 1 0 ( ) 1 6 4 3 1 8 2 4 9 2 1 0 Y X a X n in i X i i n in i Y i i Q a Q S S S Q n X Q X n Y Q Y n        2 4 9 2 , 4 1, 8 4 .1 2 0 ˆ 3, 2 8 8 1 3, 2 8 0 , 3 1 2 0 1, 8 4 6 , 1 . 0 , 3 a a S S T - Kiểm định sự tồn tại của tham số :B Đặt giả thiết:    0 1 : 0 : 0 H B H B với mức ý nghĩa   0 , 05 . Tính giá trị kiểm định:  b b b S T ta có:      2 1 6 1 0 ˆ 3, 2 8 2 , 3 4 . 1 0 .1 2 0 n i i b X X S S n Q 72   3, 5 2 1, 5 . 2 , 3 4 b b b S T Tra bảng phân phối Student ta có   ( 2 ; 0 , 05 ) (8; 0 , 05 ) 2 , 31 .t n t Vì  2, 31 a T nên bác bỏ giả thiết  0 : 0H A tức là tồn tại tham số A trong tổng thể. Vì  2, 31 b T nên ta chấp nhận giả thiết  0 : 0H B tức là không tồn tại tham số B trong tổng thể. *Ước lượng khoảng tham số A Ước lượng khoảng của tham số A với độ tin cậy 0,95 là:             1, 8 4 2 , 3 .0 , 3 1, 8 4 2 , 3 .0 , 3 1, 1 5 2 , 5 3 . ( 2 ; 0 , 0 2 5 ) ( 2 ; 0 , 0 2 5 ) a a S A A A a t n a t n S Chúng ta tin tới mức 95% rằng tham số A trong tổng thể nằm trong khoảng từ 1,15 kg đến 2,53 kg. 3. Kết luận - Năng suất lao động của công nhân trong doanh nghiệp phụ thuộc rất nhiều vào tuổi nghề của công nhân. Nếu công nhân không được đào taọ nghề thì không thể tham gia vào hoạt động kinh doanh của doanh nghiệp. - Nếu tuổi nghề của mỗi công nhân tăng lên một đơn vị thì năng suất lao đông của công nhân đó sẽ tăng từ 1,15 kg đến 2,53 kg. TÀI LIỆU THAM KHẢO [1] Ngô Kim Khôi (1998), Thống kê toán học trong lâm nghiệp, Nxb Nông nghiệp. [2] Phạm Văn Kiều (2004), Xác suất và thống kê, Nxb Giáo dục. [3] Hà Văn Sơn (2004), Lý thuyết thống kê, Nxb Thống kê. ANALYSIS OF LINEAR RELATIONSHIP OF TWO RANDOM VARIABLES Dang Kim Phuong Faculty of Mathematics - Physics - Informatics, Tay Bac University Abstract: One of the key tasks when analyzing statistical relationship between random variables is identifying the level of relationship between them and making up the regression represented such a relationship. Within the scope of an article, we will show how to use the sample correlation coefficient and linear regression to determine relationship and performing linear relationship between two random variables X and Y. Keywords: Correlation coefficient, Linear regression function, Radom variable, Statistical hypothesis testing, Student's t-distribution.

Các file đính kèm theo tài liệu này:

  • pdf7_63_2136081.pdf