Bài giảng Kinh tế lượng - Hoàng Mạnh Hùng

Tài liệu Bài giảng Kinh tế lượng - Hoàng Mạnh Hùng: KHOA KINH TẾ VÀ KẾ TOÁN BỘ MÔN TOÁN KINH TẾ HOÀNG MẠNH HÙNG BÀI GIẢNG KINH TẾ LƯỢNG Yi = β1 + β2X2i + · · · + βkXki + Ui Bình Định, tháng 9/2017 51 GD-05 89/176-05 Mã số HP: 1140047 Mục lục KHÁI QUÁT VỀ KINH TẾ LƯỢNG . . . . . . . . . . . . . . . . . . 1 0.1 KINH TẾ LƯỢNG LÀ GÌ . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 0.1.1. Một số quan điểm về kinh tế lượng . . . . . . . . . . . . . . . . . . 1 0.1.2. Nền tảng của kinh tế lượng . . . . . . . . . . . . . . . . . . . . . . 2 0.1.3. Mục đích của kinh tế lượng . . . . . . . . . . . . . . . . . . . . . . 2 0.2 PHƯƠNG PHÁP LUẬN NGHIÊN CỨU CỦA KINH TẾ LƯỢNG . . . . . 2 0.2.1. Nêu vấn đề lý thuyết cần nghiên cứu và các giả thuyết . . . . . . . 2 0.2.2. Thiết lập mô hình . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 0.2.3. Thu thập, xử lý số liệu . . . . . . . . . . . . . . . . . . . . . . . . . 4 0.2.4. Ước lượng các tham số của mô hình . . . . . . . . . . . . . . . . . . 5 0.2.5. Phân tích, kiểm ...

176 trang | Chia sẻ: putihuynh11 | Lượt xem: 1169 | Lượt tải: 0

Bạn đang xem trước 20 trang mẫu tài liệu Bài giảng Kinh tế lượng - Hoàng Mạnh Hùng, để tải tài liệu gốc về máy bạn click vào nút DOWNLOAD ở trên

KHOA KINH TẾ VÀ KẾ TOÁN BỘ MÔN TOÁN KINH TẾ HOÀNG MẠNH HÙNG BÀI GIẢNG KINH TẾ LƯỢNG Yi = β1 + β2X2i + · · · + βkXki + Ui Bình Định, tháng 9/2017 51 GD-05 89/176-05 Mã số HP: 1140047 Mục lục KHÁI QUÁT VỀ KINH TẾ LƯỢNG . . . . . . . . . . . . . . . . . . 1 0.1 KINH TẾ LƯỢNG LÀ GÌ . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 0.1.1. Một số quan điểm về kinh tế lượng . . . . . . . . . . . . . . . . . . 1 0.1.2. Nền tảng của kinh tế lượng . . . . . . . . . . . . . . . . . . . . . . 2 0.1.3. Mục đích của kinh tế lượng . . . . . . . . . . . . . . . . . . . . . . 2 0.2 PHƯƠNG PHÁP LUẬN NGHIÊN CỨU CỦA KINH TẾ LƯỢNG . . . . . 2 0.2.1. Nêu vấn đề lý thuyết cần nghiên cứu và các giả thuyết . . . . . . . 2 0.2.2. Thiết lập mô hình . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 0.2.3. Thu thập, xử lý số liệu . . . . . . . . . . . . . . . . . . . . . . . . . 4 0.2.4. Ước lượng các tham số của mô hình . . . . . . . . . . . . . . . . . . 5 0.2.5. Phân tích, kiểm định mô hình . . . . . . . . . . . . . . . . . . . . . 5 0.2.6. Sử dụng mô hình: dự báo, ra quyết định . . . . . . . . . . . . . . . 6 0.3 SỐ LIỆU CHO NGHIÊN CỨU KINH TẾ LƯỢNG . . . . . . . . . . . . . 6 0.3.1. Nguồn số liệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 0.3.2. Các loại số liệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 0.3.3. Hạn chế của số liệu . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 Chương 1. MÔ HÌNH HỒI QUY TUYẾN TÍNH HAI BIẾN 9 1.1 MÔ HÌNH VÀ MỘT SỐ KHÁI NIỆM . . . . . . . . . . . . . . . . . . . . 9 1.1.1. Mô hình hồi quy . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 1.1.2. Hàm hồi quy tổng thể . . . . . . . . . . . . . . . . . . . . . . . . . 9 1.1.3. Hàm hồi quy mẫu . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 1.1.4. Tính tuyến tính trong mô hình hồi quy . . . . . . . . . . . . . . . . 12 1.2 PHƯƠNG PHÁP ƯỚC LƯỢNG OLS . . . . . . . . . . . . . . . . . . . . . 13 1.3 TÍNH KHÔNG CHỆCH VÀ ĐỘ CHÍNH XÁC CỦA ƯỚC LƯỢNG OLS . 16 1.3.1. Các giả thiết của phương pháp OLS . . . . . . . . . . . . . . . . . . 16 1.3.2. Tính không chệch của các ước lượng OLS . . . . . . . . . . . . . . 17 1.3.3. Độ chính xác của các ước lượng OLS . . . . . . . . . . . . . . . . . 18 1.3.4. Một số tính chất của hàm hồi quy mẫu . . . . . . . . . . . . . . . . 18 1.4 ĐỘ PHÙ HỢP CỦA HÀM HỒI QUY MẪU - HỆ SỐ XÁC ĐỊNH R2 . . . 19 1.5 MÔ HÌNH HỒI QUY QUA GỐC TỌA ĐỘ . . . . . . . . . . . . . . . . . 22 1.6 MỘT SỐ VẤN ĐỀ BỔ SUNG . . . . . . . . . . . . . . . . . . . . . . . . . 24 1.6.1. Hồi quy và đơn vị đo của biến . . . . . . . . . . . . . . . . . . . . . 24 1.6.2. Hồi quy với phần mềm Eviews . . . . . . . . . . . . . . . . . . . . . 25 ii Mục lục Chương 2. MÔ HÌNH HỒI QUY BỘI 27 2.1 MÔ HÌNH HỒI QUY BỘI . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 2.2 MÔ HÌNH HỒI QUY SỬ DỤNG NGÔN NGỮ MA TRẬN . . . . . . . . . 28 2.3 PHƯƠNG PHÁP ƯỚC LƯỢNG OLS . . . . . . . . . . . . . . . . . . . . . 28 2.4 ĐỘ PHÙ HỢP CỦA HÀM HỒI QUY . . . . . . . . . . . . . . . . . . . . 30 2.5 TÍNH TỐT NHẤT CỦA ƯỚC LƯỢNG OLS . . . . . . . . . . . . . . . . . 31 2.6 MỘT SỐ DẠNG CỦA MÔ HÌNH HỒI QUY . . . . . . . . . . . . . . . . . 32 2.6.1. Mô hình logarit kép (log - log) . . . . . . . . . . . . . . . . . . . . . 32 2.6.2. Mô hình bán logarit . . . . . . . . . . . . . . . . . . . . . . . . . . 34 2.6.3. Mô hình nghịch đảo . . . . . . . . . . . . . . . . . . . . . . . . . . 38 2.6.4. Mô hình hồi quy đa thức . . . . . . . . . . . . . . . . . . . . . . . . 40 Chương 3. SUY DIỄN THỐNG KÊ 42 3.1 QUY LUẬT PHÂN PHỐI XÁC SUẤT CỦA MỘT SỐ THỐNG KÊ MẪU 42 3.2 KHOẢNG TIN CẬY CHO CÁC HỆ SỐ HỒI QUY . . . . . . . . . . . . . 43 3.2.1. Khoảng tin cậy cho một hệ số hồi quy: đánh giá tác động khi một biến độc lập thay đổi . . . . . . . . . . . . . . . . . . . . . . . . . . 43 3.2.2. Khoảng tin cậy cho biểu thức của hai hệ số hồi quy: đánh giá tác động khi hai biến độc lập cùng thay đổi . . . . . . . . . . . . . . . 44 3.2.3. Khoảng tin cậy của phương sai sai số ngẫu nhiên . . . . . . . . . . 45 3.2.4. Ý nghĩa của khoảng tin cậy . . . . . . . . . . . . . . . . . . . . . . 46 3.3 KIỂM ĐỊNH GIẢ THUYẾT VỀ HỆ SỐ HỒI QUY . . . . . . . . . . . . . 47 3.3.1. Kiểm định giả thuyết về một hệ số hồi quy . . . . . . . . . . . . . . 47 3.3.2. Kiểm định giả thuyết về một ràng buộc giữa các hệ số hồi quy . . . 49 3.3.3. Kiểm định giả thuyết về nhiều ràng buộc giữa các hệ số hồi quy . . 50 3.3.4. Kiểm định sự phù hợp của hàm hồi quy . . . . . . . . . . . . . . . 52 3.3.5. So sánh kiểm định T và kiểm định F . . . . . . . . . . . . . . . . . 53 3.4 KIỂM ĐỊNH GIẢ THUYẾT VỀ PHƯƠNG SAI SAI SỐ NGẪU NHIÊN . 54 3.5 DỰ BÁO GIÁ TRỊ CỦA BIẾN PHỤ THUỘC VÀ SAI SỐ DỰ BÁO . . . 56 3.5.1. Dự báo giá trị của biến phụ thuộc . . . . . . . . . . . . . . . . . . . 56 3.5.2. Đánh giá sai số dự báo . . . . . . . . . . . . . . . . . . . . . . . . . 58 Chương 4. MÔ HÌNH VỚI BIẾN GIẢ VÀ ỨNG DỤNG 59 4.1 BẢN CHẤT CỦA BIẾN GIẢ - MÔ HÌNH TRONG ĐÓ BIẾN ĐỘC LẬP ĐỀU LÀ BIẾN GIẢ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59 4.2 MÔ HÌNH VỚI BIẾN ĐỘC LẬP BAO GỒM BIẾN ĐỊNH LƯỢNG VÀ BIẾN ĐỊNH TÍNH . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61 4.2.1. Mô hình với một biến định lượng và một biến định tính . . . . . . . 61 4.2.2. Hồi quy với một biến định lượng và hai biến định tính . . . . . . . 66 4.2.3. Kiểm định sự khác biệt giữa hàm hồi quy của hai nhóm . . . . . . . 67 Mục lục iii 4.3 SỬ DỤNG BIẾN GIẢ TRONG PHÂN TÍCH MÙA . . . . . . . . . . . . . 71 4.4 HỒI QUY TUYẾN TÍNH TỪNG KHÚC . . . . . . . . . . . . . . . . . . . 74 4.5 HỒI QUY VỚI BIẾN GIẢ - MÔ HÌNH SEMI LOGARIT . . . . . . . . . . 77 4.5.1. Mô hình Log - Lin . . . . . . . . . . . . . . . . . . . . . . . . . . . 77 4.5.2. Mô hình Lin - Log . . . . . . . . . . . . . . . . . . . . . . . . . . . 80 Chương 5. PHÂN TÍCH ĐẶC TRƯNG 82 5.1 CÁC THUỘC TÍNH CỦA MÔ HÌNH TỐT . . . . . . . . . . . . . . . . . 82 5.2 CÁC TIÊU CHUẨN ĐỂ LỰA CHỌN MÔ HÌNH . . . . . . . . . . . . . . 82 5.3 CÁC LOẠI SAI SỐ ĐẶC TRƯNG VÀ HẬU QUẢ . . . . . . . . . . . . . . 84 5.3.1. Sai số đặc trưng mô hình do bỏ sót biến thích hợp . . . . . . . . . . 84 5.3.2. Sai số đặc trưng mô hình do có biến không cần thiết . . . . . . . . 84 5.3.3. Sai số đặc trưng mô hình do chấp nhận dạng hàm sai . . . . . . . . 85 5.3.4. Sai số đặc trưng mô hình do có sai số trong đo lường . . . . . . . . 85 5.4 CÁCH PHÁT HIỆN CÁC SAI SỐ ĐẶC TRƯNG MÔ HÌNH . . . . . . . . 86 5.4.1. Kiểm định bỏ sót biến . . . . . . . . . . . . . . . . . . . . . . . . . 86 5.4.2. Kiểm định thừa biến . . . . . . . . . . . . . . . . . . . . . . . . . . 92 5.4.3. Kiểm định dạng mô hình hồi quy phù hợp (MWD test) - Chọn lựa giữa mô hình tuyến tính và mô hình tuyến tính logarit . . . . . . . 92 5.5 MÔ HÌNH KHÔNG LỒNG NHAU . . . . . . . . . . . . . . . . . . . . . . 96 5.5.1. Phương pháp tiếp cận so sánh . . . . . . . . . . . . . . . . . . . . . 96 5.5.2. Phương pháp tiếp cận loại trừ . . . . . . . . . . . . . . . . . . . . . 96 Chương 6. MÔ HÌNH VI PHẠM CÁC GIẢ THIẾT 99 6.1 KỲ VỌNG CỦA SAI SỐ NGẪU NHIÊN KHÁC KHÔNG . . . . . . . . . 99 6.1.1. Nguyên nhân . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99 6.1.2. Hậu quả của kỳ vọng sai số ngẫu nhiên khác không . . . . . . . . . 101 6.1.3. Cách phát hiện kỳ vọng sai số ngẫu nhiên khác không . . . . . . . . 101 6.1.4. Một số biện pháp khắc phục . . . . . . . . . . . . . . . . . . . . . . 102 6.2 SAI SỐ NGẪU NHIÊN KHÔNG TUÂN THEO QUY LUẬT CHUẨN . . . 103 6.2.1. Hậu quả khi sai số ngẫu nhiên không tuân theo quy luật chuẩn . . 103 6.2.2. Cách phát hiện sai số ngẫu nhiên không tuân theo quy luật chuẩn . 103 6.3 ĐA CỘNG TUYẾN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105 6.3.1. Bản chất và nguyên nhân của đa cộng tuyến . . . . . . . . . . . . . 105 6.3.2. Ước lượng các tham số khi có đa cộng tuyến . . . . . . . . . . . . . 107 6.3.3. Hậu quả của đa cộng tuyến . . . . . . . . . . . . . . . . . . . . . . 108 6.3.4. Cách phát hiện đa cộng tuyến . . . . . . . . . . . . . . . . . . . . . 110 6.3.5. Cách khắc phục đa cộng tuyến . . . . . . . . . . . . . . . . . . . . . 116 6.4 PHƯƠNG SAI SAI SỐ THAY ĐỔI . . . . . . . . . . . . . . . . . . . . . . 120 6.4.1. Bản chất và nguyên nhân của phương sai thay đổi . . . . . . . . . . 120 iv Mục lục 6.4.2. Hậu quả của phương sai thay đổi . . . . . . . . . . . . . . . . . . . 122 6.4.3. Cách phát hiện phương sai thay đổi . . . . . . . . . . . . . . . . . . 123 6.4.4. Cách khắc phục phương sai thay đổi . . . . . . . . . . . . . . . . . 132 6.5 TỰ TƯƠNG QUAN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137 6.5.1. Bản chất và nguyên nhân của hiện tượng tự tương quan . . . . . . 137 6.5.2. Hậu quả của tự tương quan . . . . . . . . . . . . . . . . . . . . . . 141 6.5.3. Cách phát hiện tự tương quan . . . . . . . . . . . . . . . . . . . . . 142 6.5.4. Các biện pháp khắc phục tự tương quan . . . . . . . . . . . . . . . 149 Tài liệu tham khảo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 154 Phụ lục các bảng số thống kê . . . . . . . . . . . . . . . . . . . . . . . . . . . 155 KHÁI QUÁT VỀ KINH TẾ LƯỢNG 0.1 KINH TẾ LƯỢNG LÀ GÌ 0.1.1. Một số quan điểm về kinh tế lượng Kinh tế lượng được dịch từ chữ Econometrics có nghĩa là đo lường kinh tế. Thuật ngữ này do A.K Ragnar Frisch (giáo sư kinh tế học người Nay Uy, được giải thưởng Nobel về kinh tế năm 1969) sử dụng lần đầu tiên vào khoảng năm 1930. Năm 1936, Tinbergen, người Hà Lan trình bày trước hội đồng kinh tế Hà Lan một mô hình kinh tế lượng đầu tiên, mở đầu cho một phương pháp nghiên cứu mới về phân tích kinh tế. Năm 1937, ông xây dựng một số mô hình tương tự cho nước Mỹ. Năm 1950, nhà kinh tế được giải thưởng Nobel là Lawrance Klein đã đưa ra một số mô hình mới cho nước Mỹ và từ đó kinh tế lượng được phát triển trên phạm vi tồn thế giới. Tuy nhiên, phạm vi ứng dụng thì rộng hơn nhiều. Một số quan điểm về kinh tế lượng có thể được trình bày vắn tắt như sau: + Kinh tế lượng là khoa học nghiên cứu những vấn đề thực nghiệm của kinh tế. + Kinh tế lượng vận dụng thống kê toán kết hợp với số liệu kinh tế để tìm kết quả bằng số của các mô hình toán do những nhà kinh tế đề xuất. + Kinh tế lượng là một phương pháp phân tích định lượng các vấn đề kinh tế dựa vào việc vận dụng đồng thời lý thuyết và thực tế, kết hợp các phương pháp suy đốn thích hợp. + Kinh tế lượng là tập hợp các công cụ nhằm mục đích dự báo các biến kinh tế. Tóm lại, kinh tế lượng là một môn khoa học về đo lường các mối quan hệ kinh tế diễn ra trong thực tế. Kinh tế lượng ngày nay là sự kết hợp giữa các lý thuyết kinh tế hiện đại, thống kê toán học và máy vi tính nhằm định lượng các mối quan hệ kinh tế, dự báo khả năng phát triển hay diễn biến của các hiện tượng kinh tế và phân tích các chính sách kinh tế. 2 Khái quát về kinh tế lượng 0.1.2. Nền tảng của kinh tế lượng + Lý thuyết kinh tế (kinh tế vi mô, kinh tế vĩ mô,...): lý thuyết kinh tế phát biểu hay nêu lên bản chất các mối quan hệ kinh tế dưới góc độ định tính. Thí dụ như lý thuyết kinh tế vi mô khẳng định rằng trong điều kiện các yếu tố khác không thay đổi, lượng cầu của một loại hàng hóa có quan hệ nghịch biến với giá của nó nhưng không xác định rõ về mặt định lượng. Với một sự thay đổi nhất định về giá, lượng cầu sẽ thay đổi với số lượng cụ thể bao nhiêu là công việc của kinh tế lượng. + Mô hình toán kinh tế: Các nhà toán học có thể mô hình hóa lý thuyết kinh tế dưới dạng mô hình toán, nhưng không quan tâm đến việc kiểm chứng những mô hình lý thuyết kinh tế đó bằng thực nghiệm. Các nhà kinh tế lượng có nhiệm vụ sử dụng các phương trình toán học này, kết hợp với việc kiểm chứng thực nghiệm. + Thống kê: Thống kê có một vai trò quan trọng trong việc thu thập, xử lý, trình bày số liệu, nhưng các nhà thống kê không quan tâm tới việc sử dụng các số liệu thu thập để kiểm định các lý thuyết kinh tế như thế nào. Tuy nhiên, những số liệu này trở thành số liệu thô rất cần thiết đối với nhà kinh tế lượng. 0.1.3. Mục đích của kinh tế lượng • Thiết lập các mô hình toán học để mô tả các mối quan hệ kinh tế, tức là nêu ra các giả thuyết hay giả thiết về các mối quan hệ này giữa các biến số kinh tế; • Ước lượng các tham số nhằm nhận được số đo về mức ảnh hưởng của các biến số; • Kiểm định tính vững chắc của các giả thuyết đó; • Sử dụng các mô hình đã được kiểm định để đưa ra các dự báo, dự đoán và mô phỏng các hiện tượng kinh tế; • Đề xuất chính sách dựa trên các phân tích và báo cáo. 0.2 PHƯƠNG PHÁP LUẬN NGHIÊN CỨU CỦA KINH TẾ LƯỢNG Ta có thể minh họa quá trình xây dựng và áp dụng mô hình kinh tế lượng bằng sơ đồ trong hình 0.1. 0.2.1. Nêu vấn đề lý thuyết cần nghiên cứu và các giả thuyết Vấn đề nghiên cứu có thể xuất phát từ thực tế hoặc dựa trên cơ sở lý thuyết kinh tế. Các giả thuyết nghiên cứu cũng có thể được xây dựng từ kinh nghiệm thực tế hoặc từ kết quả của những nghiên cứu trước đó. Kết quả của bước này là ta phải xác định được các biến kinh tế và mối quan hệ giữa các biến đó. Thí dụ, khi nghiên cứu mối quan hệ giữa mức tiêu dùng và thu nhập của các Khái quát về kinh tế lượng 3 Hình 0.1 Phương pháp luận nghiên cứu kinh tế lượng hộ gia đình, theo kinh tế học vi mô ta có thể nêu giả thuyết: mức tiêu dùng của các hộ gia đình có mối quan hệ phụ thuộc cùng chiều với thu nhập khả dụng của các hộ gia đình. Trên cơ sở lý thuyết này, chúng ta xác định được có hai biến số cần khảo sát, đó là thu nhập và tiêu dùng. Khi thu nhập thay đổi một đơn vị thì chúng ta muốn xác định (hay ước lượng) xem tiêu dùng sẽ thay đổi như thế nào (cụ thể là bao nhiêu đơn vị). Một người nghiên cứu cầu về tiền, anh ta nhận ra rằng: khi mức lãi suất thay đổi thì hai tháng sau đó lượng tiền về cầu mới thay đổi. Anh ta nêu ra giả thuyết: thay đổi lãi suất không tác động ngay đến cầu về tiền mà sau đó hai tháng chính sách này mới ảnh hưởng đến cầu về tiền. Để xem xét vấn đề này, ta cần có mô hình để ước lượng và kiểm định. Đầu ra của một ngành phụ thuộc vào hai nhân tố cơ bản là vốn và lao động. Người ta cần biết với tình hình hiện tại thì mở rộng quy mô có dẫn đến tăng hiệu quả sản xuất không và muốn dự tính đầu ra dựa trên các dự tính về vốn và lao động. Trong trường hợp này dùng mô hình kinh tế lượng để ước lượng một hàm sản xuất. Từ hàm này sẽ có câu trả lới xác đáng cho các câu hỏi được đặt ra. 0.2.2. Thiết lập mô hình Thiết lập mô hình toán học để mô tả quan hệ giữa các biến kinh tế. Lý thuyết kinh tế cho biết quy luật về mối quan hệ giữa các biến kinh tế nhưng không nêu 4 Khái quát về kinh tế lượng cụ thể dạng hàm. Kinh tế lượng phải dựa vào các học thuyết kinh tế để định dạng các mô hình cho các trường hợp cụ thể. Chẳng hạn, khi nghiên cứu mối quan hệ giữa thu nhập và tiêu dùng ta có thể dùng hàm tuyến tính để diễn tả mối quan hệ này như sau: Y = β1 + β2X (1) trong đó: biến Y : tiêu dùng (Consumption); biến X : thu nhập (Income); β1, β2 : các tham số hồi quy (là những giá trị ta cần xác định). Tuy nhiên, mô hình toán nêu trên không phản ánh được tình huống trong thực tế, đó là cùng với một mức thu nhập thì chi tiêu cho tiêu dùng vẫn có thể khác nhau hay nói cách khác, với cùng giá trị của X, ta có thể có nhiều giá trị khác nhau của Y . Vì các mối quan hệ giữa các biến kinh tế nói chung là không chính xác nên mô hình toán học thuần túy như vậy còn bị hạn chế. Do đó, nhà kinh tế lượng đề xuất mô hình kinh tế lượng như sau: Y = β1 + β2X + U (2) So với mô hình toán (1) thì trong mô hình kinh tế lượng (2) có sự xuất hiện của thành phần U và ta gọi là số hạng nhiễu (hay sai số ngẫu nhiên). U là một biến ngẫu nhiên, đại diện cho các yếu tố khác ngồi yếu tố thu nhập cũng tác động lên tiêu dùng mà ta chưa phát hiện hoặc vì để cho đơn giản ta đã không đưa vào mô hình. Thí dụ như hồn cảnh gia đình, sở thích, tập quán tiêu dùng,... cũng ảnh hưởng đến hành vi chi tiêu tiêu dùng nhưng không được xét tới trong mô hình. Xét một ví dụ khác, trong trường hợp hàm sản xuất nói trên, có thể định dạng mô hình kinh tế lượng như sau: Với Y là sản lượng của ngành; K là vốn và L là lao động. Khi đó, dựa trên hàm sản xuất Cobb-Douglas có thể đề xuất mô hình sau: Y = β1K β2Lβ3eU β1, β2, β3 là các tham số; βj > 0, j = 1, 2, 3. 0.2.3. Thu thập, xử lý số liệu Để ước lượng mô hình kinh tế lượng, chúng ta cần tới số liệu. Trong thống kê toán và kinh tế lượng, người ta phân biệt số liệu của tổng thể và số liệu của mẫu. Số liệu của tổng thể là số liệu của tồn bộ các đối tượng ta nghiên cứu. Số liệu mẫu là số liệu về một tập hợp con của tổng thể. Thí dụ, để nghiên cứu về nhu cầu của một loại hàng hóa nào đó thì số liệu tổng thể là số liệu về lượng hàng hóa được mua của tất cả các khách hàng mua loại hàng này. Trong thực tế ta thường không có điều kiện để thu thập các số liệu của tổng thể mà chỉ thu thập các số liệu của mẫu. Khái quát về kinh tế lượng 5 0.2.4. Ước lượng các tham số của mô hình Các tham số của mô hình kinh tế lượng, xét về bản chất là những giá trị số cố định nhưng chưa biết của tổng thể. Ta có thể ước lượng chúng dựa trên số liệu mẫu đã được thu thập. Có nhiều phương pháp để ước lượng các tham số của mô hình, như là phương pháp bình phương nhỏ nhất thông thường (OLS - Ordinary Least Squares), phương pháp ước lượng hàm hợp lý tối đa, phương pháp ước lượng bình phương nhỏ nhất có trọng số, phương pháp bình phương nhỏ nhất hai giai đoạn,... Trong phạm vi ở đây ta sẽ đề cập đến phương pháp OLS. Ví dụ 1. Nghiên cứu mối quan hệ thu nhập - tiêu dùng ta có thể sử dụng số liệu về tổng sản phẩm quốc nội (GDP) để đại diện cho biến thu nhập, số liệu chi tiêu cho tiêu dùng đại diện cho biến tiêu dùng. Bảng 0.1 là số liệu GDP (X) và tiêu dùng cá nhân (Y ) cho Việt Nam giai đoạn từ 1991-2010. Năm X Y Năm X Y Năm X Y 1991 139.634 127895 1998 244.596 190.923 2005 393.031 280.104 1992 151.782 133.321 1999 256.272 194.350 2006 425.374 303.520 1993 164.043 139.122 2000 273.666 200.665 2007 461.344 335.776 1994 178.534 148.037 2001 292.535 210.027 2008 489.833 366.045 1995 195.567 158.893 2002 313.247 225.610 2009 515.909 381.374 1996 213.833 173.072 2003 336.243 243.515 2010 551.609 418.281 1997 231.264 182.975 2004 336.435 260.940 Bảng 0.1 GDP và tiêu dùng cá nhân Với số liệu đã cho, sử dụng phương pháp OLS ta ước lượng các tham số, ta được kết quả ước lượng của mô hình (2) là: Ŷi = 22090, 98 + 0, 6837Xi (3) Trong (3) không có thành phần nhiễu, điều này mang ý nghĩa là nếu loại trừ yếu tố nhiễu ảnh hưởng đến tiêu dùng cá nhân thì tác động của thu nhập, xét về mặt giá trị trung bình, được đo lường theo biểu thức (3). 0.2.5. Phân tích, kiểm định mô hình Phân tích, kiểm định mô hình nhắm tới hai vấn đề sau: + Xác định mức độ phù hợp về mặt lý thuyết của mô hình. + Xác định dạng mô hình và chẩn đoán dấu hiệu có thể vi phạm các giả thuyết cổ điển của kinh tế lượng. Trong ví dụ về thu nhập - tiêu dùng ở trên, để phản ánh quan hệ đồng biến giữa thu nhập và tiêu dùng đòi hỏi hệ số β2 > 0. Mặt khác, gia tăng trong tiêu dùng không nhiều bằng sự gia tăng của thu nhập nên β2 < 1. Việc đánh giá tham số β2 có thực sự thỏa điều kiện nằm trong khoảng (0, 1) hay không đòi hỏi phải thông qua việc kiểm định giả thuyết. 6 Khái quát về kinh tế lượng Ngoài việc kiểm định mô hình đã được ước lượng ở trên là phù hợp với lý thuyết kinh tế, người ta còn quan tâm đến mức độ thích hợp cũng như các tính chất của một mô hình tốt. Kết quả ở bước này cho biết mô hình kinh tế lượng có tốt không. Nếu phát hiện mô hình không phù hợp thì ta cần quay lại một trong những bước đã nêu ở trên tùy theo sai sót của mô hình do bước nào. Nếu sau khi phân tích, kiểm định ta kết luận được mô hình là phù hợp thì ta có thể sử dụng mô hình để dự báo và đưa ra các quyết định. 0.2.6. Sử dụng mô hình: dự báo, ra quyết định Công việc dự báo chỉ có ý nghĩa một khi mô hình được đánh giá là tốt. Kết quả dự báo chính xác góp phần hoạch định chính sách một cách đúng đắn cho các nhà quản lý. Giả sử mô hình (3) được đánh giá là tốt. Nếu chúng ta ước tính GDP của Việt Nam năm 2011 là 590.000 tỉ đồng thì chi tiêu tiêu dùng cá nhân của năm 2011 ước tính xấp xỉ bình quân đạt: Ŷi = 22090, 98 + 0, 6837× 590.000 = 425.473, 98 (tỉ đồng) Tóm lại, quá trình xây dựng và sử dụng mô hình kinh tế lượng đòi hỏi phải có sự hiểu biết trước hết là các lý thuyết kinh tế, sau đó là những kiến thức về toán học nói chung, lý thuyết xác suất và thống kê nói riêng, cuối cùng là các phần mềm chuyên dụng của kinh tế lượng. Các kết quả rút ra từ việc phân tích các mô hình kinh tế lượng cũng đòi hỏi phải được suy xét từ nhiều phía. Chẳng hạn các ước lượng cho thấy có mối quan hệ nhân quả giữa hai chỉ tiêu kinh tế, nhưng điều đó không chứng minh hay khẳng định là trong thực tế có mối quan hệ nhân quả như vậy. Điều khẳng định phải do người nghiên cứu kinh tế lượng suy xét. Từ khi ra đời đến nay, kinh tế lượng đã cung cấp cho các nhà kinh tế một công cụ sắc bén để đo lường mối quan hệ của các biến kinh tế. Ngày nay, phạm vi ứng dụng của kinh tế lượng đã vượt quá phạm vi kinh tế, lan sang các lĩnh vực khác như xã hội học, vũ trụ học,... 0.3 SỐ LIỆU CHO NGHIÊN CỨU KINH TẾ LƯỢNG Thành công của bất kỳ một sự phân tích kinh tế nào đều phụ thuộc vào việc sử dụng các số liệu thích hợp và phụ thuộc vào phương pháp xử lý số liệu đó. Do vậy, phần này sẽ trình bày đôi nét về bản chất, nguồn gốc và những hạn chế của số liệu mà chúng ta sẽ gặp phải trong phân tích kinh tế nói chung và phân tích hồi quy nói riêng. Khái quát về kinh tế lượng 7 0.3.1. Nguồn số liệu + Các cơ quan Nhà nước, đó là các cơ quan kinh tế tổng hợp như: Tổng cục thống kê, Bộ Kế hoạch và Đầu tư, một số bộ ngành khác. + Các cơ quan và tổ chức tư nhân. + Nguồn số liệu rất phong phú của các tổ chức quốc tế: Ngân hàng thế giới (WB), Quỹ tiền tệ quốc tế (IMF), UNESCO, FAO, UNICEF, UNDP,... 0.3.2. Các loại số liệu + Số liệu chuỗi thời gian (Time Series Data): là số liệu của một hay nhiều biến ở cùng một đơn vị (địa phương) ở những thời kỳ (ngày, tuần, tháng, quý, năm,...) khác nhau. Ví dụ 2. Số lượt khách quốc tế đến Bình Định trong giai đoạn 2002 − 2011 (đơn vị: lượt khách): Năm 2002 2003 2004 2005 2006 2007 2008 2009 2010 2011 Số lượt 22462 16258 18447 23986 34538 76479 37913 35288 47563 46895 Bảng 0.2 Ví dụ 3. Doanh thu, chi phí quảng cáo, mức lương nhân viên, tốc độ đổi mới công nghệ,... ở một công ty trong khoảng thời gian 1990 đến 2012. + Số liệu chéo (Cross Data): là các số liệu về một hoặc nhiều biến được thu thập tại một thời điểm ở nhiều địa phương, đơn vị khác nhau. Ví dụ 4. Bảng 0.3 là số dân sơ bộ năm 2011 tại một số tỉnh thành của Việt Nam (đơn vị: nghìn người). Tỉnh Quảng Nam Quảng Ngãi Bình Định Phú Yên Khánh Hòa Dân số 1435, 0 1221, 6 1497, 3 871, 9 1174, 1 Tỉnh Ninh Thuận Bình Thuận Kon Tum Gia Lai Đắc Lắc Dân số 569, 0 1180, 3 453, 2 1322, 0 1771, 8 Bảng 0.3 + Số liệu hỗn hợp (Panel Data hoặc Pooled Cross Data): là số liệu được thu thập ở nhiều địa phương, đơn vị khác nhau ở những thời điểm khác nhau. Ví dụ 5. Bảng 0.4 là giá trị sản xuất công nghiệp theo giá thực tế tại một số tỉnh thành trong 2 năm 2009, 2010 (đơn vị: tỉ đồng). 0.3.3. Hạn chế của số liệu Chất lượng của số liệu thu được có thể không tốt, điều này do những nguyên nhân sau đây: 8 Khái quát về kinh tế lượng Tỉnh 2009 2010 Tỉnh 2009 2010 Quảng Nam 15816, 4 20639, 5 Ninh Thuận 1836, 8 2367, 1 Quảng Ngãi 25505, 3 98467, 7 Bình Thuận 7422, 4 9353, 2 Bình Định 13044, 0 16639, 7 Kon Tum 1276, 1 1586, 5 Phú Yên 7286, 3 8560, 5 Gia Lai 5417, 5 6774, 5 Khành Hòa 24812, 8 28046, 6 Đắc Lắc 5133, 2 7342, 7 Bảng 0.4 + Hầu hết các số liệu thu thập được trong khoa học xã hội đều là các số liệu phi thực nghiệm, do vậy có thể có sai số khi quan sát hoặc bỏ sót quan sát hoặc do cả hai. Ngay với các số liệu thu thập bằng thực nghiệm cũng có sai số của phép đo. + Trong các cuộc điều tra bằng câu hỏi, thường gặp tình trạng đối tượng cung cấp thông tin thiếu trung thực, không nhận được câu trả lời hoặc có trả lời nhưng không trả lời hết các câu hỏi. + Các mẫu điều tra có cỡ mẫu rất khác nhau nên rất khó khăn trong việc so sánh các kết quả giữa các đợt điều tra. + Các số liệu kinh tế thường ở mức tổng hợp cao, không cho phép đi sâu vào các đơn vị nhỏ. + Ngoài ra, còn có những số liệu thuộc bí mật quốc gia mà không phải ai cũng sử dụng được. Do những nhược điểm nói trên và nhiều vấn đề khác, nên các kết quả nghiên cứu thu được chỉ tốt khi chất lượng của số liệu được đảm bảo. Trong một trường hợp cụ thể, người nghiên cứu thấy rằng kết quả nghiên cứu không thỏa mãn thì nguyên nhân có thể không phải sử dụng mô hình sai mà nguyên nhân lại thuộc về chất lượng của số liệu. Chương 1 MÔ HÌNH HỒI QUY TUYẾN TÍNH HAI BIẾN 1.1 MÔ HÌNH VÀ MỘT SỐ KHÁI NIỆM 1.1.1. Mô hình hồi quy Mô hình hồi quy tuyến tính hai biến mô tả quan hệ phụ thuộc giữa biến Y và biến X có dạng như sau: Y = β1 + β2X + U (1.1.1) Các thành phần của mô hình hồi quy tuyến tính hai biến: • Các biến số: mô hình hồi quy gồm hai loại biến số: + Biến phụ thuộc: là biến số mà ta đang quan tâm đến giá trị của nó, thường được ký hiệu là Y và nằm ở vế trái của phương trình. Biến phụ thuộc còn được gọi là biến được giải thích (explained variable). + Biến độc lập: là biến số được cho là có tác động đến biến phụ thuộc, thường được ký hiệu là X và nằm ở vế phải của phương trình. Biến độc lập còn được gọi là biến giải thích (explanatory variable). Trong mối quan hệ giữa hai biến này, biến phụ thuộc chịu tác động của biến độc lập, biến độc lập là biến gây ảnh hưởng cho biến phụ thuộc. Biến độc lập nhận những giá trị xác định, biến phụ thuộc là biến ngẫu nhiên. Chẳng hạn, ta xét mối quan hệ giữa giá bán sản phẩm A với mức cầu tương ứng của người tiêu dùng. Khi giá bán sản phẩm A tăng cao, người ta cân nhắc kỹ khi quyết định mua hàng, mức cầu giảm xuống. Ngược lại, khi giá bán sản phẩm A hạ thấp, đôi khi không có nhu cầu người ta vẫn muốn mua, nhu cầu tăng lên. Qua đó, có thể thấy rằng giá bán gây ảnh hưởng lên mức cầu. Vậy giá bán đóng vai trò là biến độc lập, mức cầu là biến phụ thuộc. • Sai số ngẫu nhiên: thường được ký hiệu là U , là yếu tố đại diện cho các yếu tố có tác động đến Y ngoài X. Giả thiết được đưa ra là tại mỗi giá trị của X thì kỳ vọng của U bằng 0: E(U |X) = 0. • Các hệ số hồi quy: bao gồm β1, β2, thể hiện mối quan hệ giữa biến X và biến Y khi các yếu tố bao hàm trong U là không đổi. 1.1.2. Hàm hồi quy tổng thể Với giả thiết E(U |X) = 0, ta có thể biểu diễn lại mô hình hồi quy (1.1.1) dưới dạng sau: 10 Chương 1: Mô hình hồi quy tuyến tính hai biến E(Y |X) = β1 + β2X (1.1.2) Phương trình (1.1.2) biểu diễn kỳ vọng của Y với điều kiện X như một hàm của biến X và do X và Y thể hiện cho tổng thể nên phương trình (1.1.2) còn được gọi là hàm hồi quy tổng thể (PRF: Population Regression Function), cụ thể hơn là hàm hồi quy tổng thể xác định. Ta cũng có thể viết hàm hồi quy tổng thể dưới dạng ngẫu nhiên như sau: Y = β1 + β2X + U (1.1.3) Lúc này các hệ số hồi quy β1, β2 còn được gọi là các tham số của tổng thể, có ý nghĩa như sau: + β1 được gọi là hệ số chặn, nó chính bằng giá trị trung bình của biến phụ thuộc Y khi biến độc lập X nhận giá trị bằng 0 (ý nghĩa này chỉ được giải thích khi biến độc lập có nhận giá trị 0). + β2 được gọi là hệ số góc, nó thể hiện quan hệ giữa biến độc lập X và giá trị trung bình của biến phụ thuộc Y . β2 > 0 thì khi biến độc lập X tăng (giảm) một đơn vị thì giá trị trung bình của biến phụ thuộc Y tăng (giảm) β2 đơn vị. β2 < 0 thì khi biến độc lập X tăng (giảm) một đơn vị thì giá trị trung bình của biến phụ thuộc Y giảm (tăng) β2 đơn vị. Ví dụ 1.1.1. Khảo sát chi tiêu (Y ) và thu nhập (X) của 60 hộ gia đình trong một khu vực (giả sử đây là một tổng thể) ta có số liệu trong bảng 1.1 (đơn vị $): X 80 100 120 140 160 180 200 220 240 260 55 65 79 80 102 110 120 135 137 150 60 70 84 93 107 115 136 137 145 152 65 74 90 95 110 120 140 140 155 175 Y 70 80 94 103 116 130 144 152 165 178 75 85 98 108 118 135 145 157 175 180 80 113 125 140 160 189 185 115 162 191 Trung bình trong nhóm 65 77 89 101 113 125 137 149 161 173 Bảng 1.1 Chi tiêu và tiêu dùng của 60 hộ Từ bảng trên ta xác định được mối quan hệ giữa thu nhập (X) và chi tiêu (Y ) cho tổng thể có thể biểu diễn bởi hàm hồi quy tổng thể: E(Y |X) = 17 + 0, 6X (1.1.4) Chương 1: Mô hình hồi quy tuyến tính hai biến 11 Với các giá trị β1, β2 đã biết trong (1.1.4) ta có thể đưa ra các kết luận như sau: • β1 = 17 : khi thu nhập bằng 0 thì mức chi tiêu trung bình là 17$/tuần. Khi thu nhập là 150$/tuần thì mức chi tiêu trung bình là 107$/tuần. Đây chính là bài toán dự báo về giá trị trung bình của biến phụ thuộc. • β2 = 0, 6 : nếu thu nhập tăng lên 1$/tuần thì mức chi tiêu trung bình sẽ gia tăng 0, 6$/tuần. • Khi thu nhập tăng thì chi tiêu trung bình cũng tăng. Mô hình này phù hợp với kỳ vọng về mối quan hệ giữa chi tiêu với thu nhập. Như vậy, nếu biết được các hệ số hồi quy tổng thể β1, β2 thì ta có thể đánh giá tác động của biến độc lập lên giá trị trung bình của biến phụ thuộc và thực hiện dự báo giá trị trung bình của biến phụ thuộc khi biết giá trị của biến độc lập. Để biết giá trị của các hệ số này thì cần số liệu của toàn bộ tổng thể. Tuy nhiên, thông thường thì không có được số liệu cho toàn bộ tổng thể, do đó chỉ có thể ước lượng được giá trị của các hệ số này thông qua số liệu mẫu. Điều này dẫn đến khái niệm hàm hồi quy mẫu được trình bày trong mục tiếp theo. 1.1.3. Hàm hồi quy mẫu Giả sử có mẫu ngẫu nhiên kích thước n bao gồm các quan sát của biến Y và biến X: (Yi, Xi), i = 1, 2, ..., n. Từ mẫu ngẫu nhiên này ta sẽ xây dựng các ước lượng cho các hệ số hồi quy tổng thể β1 và β2, ký hiệu tương ứng là β̂1 và β̂2. Khi đó, ta gọi biểu diễn (1.1.5) dưới đây là hàm hồi quy mẫu (SRF: Sample Regression Function) cho hàm hồi quy tổng thể (1.1.2): Ŷ = β̂1 + β̂2X (1.1.5) Hay có thể viết cho từng quan sát như sau: Ŷi = β̂1 + β̂2Xi (1.1.5’) Các dạng trên là dạng xác định của hàm hồi quy mẫu, ta cũng có thể viết hàm hồi quy mẫu dưới dạng ngẫu nhiên như sau: Y = β̂1 + β̂2X + Û (1.1.6) Hay có thể viết cho từng quan sát như sau: Yi = β̂1 + β̂2Xi + Ûi (1.1.6’) β̂1, β̂2 được gọi là các hệ số hồi quy mẫu hay hệ số ước lượng, là ước lượng của các hệ số hồi quy tổng thể β1 và β2 tương ứng. Ví dụ 1.1.2. Giả sử xét mẫu sau được rút trong tổng thể gồm 60 hộ gia đình trong ví dụ 1.1.1. 12 Chương 1: Mô hình hồi quy tuyến tính hai biến Thu nhập (X) 80 100 120 140 160 180 200 220 240 260 Chi tiêu (Y ) 55 74 90 95 118 120 145 137 165 191 Ta được hàm hồi quy mẫu từ mẫu trên là: Ŷi = 3, 19 + 0, 68Xi Khi đó, ước lượng của β1 thu được từ mẫu này là 3, 19 và ước lượng của β2 là 0, 68. Xét một mẫu khác cũng rút ra từ tổng thể 60 hộ gia đình như sau: Thu nhập (X) 80 100 120 140 160 180 200 220 240 260 Chi tiêu (Y ) 70 65 98 115 110 135 145 152 189 191 Ta được hàm hồi quy mẫu từ mẫu trên là: Ŷi = 6, 35 + 0, 71Xi Với mẫu thứ hai, ước lượng của β1 là 6, 35 và ước lượng của β2 là 0, 71. Đường hồi quy mẫu và hồi quy tổng thể xác định có thể được minh họa trong hình 1.1. Hình 1.1 PRF và SRF của hồi quy hai biến dạng tuyến tính Từ một tổng thể ta có thể rút ra nhiều mẫu khác nhau, do vậy ta cũng có nhiều giá trị ước lượng β̂1, β̂2 của β1, β2. Vấn đề là làm thế nào để ước lượng được β̂1, β̂2 sao cho gần bằng với giá trị thực của β1, β2 (thực tế thường không thể xác định các giá trị thực này). Điều này cũng có nghĩa là trong số nhiều hàm hồi quy mẫu, ta cần tìm ra hàm nào có các tham số hồi quy càng xấp xỉ với các tham số hồi quy của hàm hồi quy tổng thể nhất. 1.1.4. Tính tuyến tính trong mô hình hồi quy Hàm hồi quy tổng thể luôn được hiểu là hồi quy tuyến tính đối với tham số, nó có thể không phải tuyến tính đối với biến. Trong phạm vi của bài giảng, ta chỉ đề cập đến hồi quy tuyến tính mà thôi. Chương 1: Mô hình hồi quy tuyến tính hai biến 13 Những hàm hồi quy sau là các hàm hồi quy tuyến tính: Yi = β1 + β2 1 Xi + Ui lnYi = β1 + β2 lnXi + Ui Yi = β1 + β2 lnXi + Ui Yi = β1 + β2Xi + β3X 2 i + Ui Các hàm hồi quy sau không được gọi là hàm hồi quy tuyến tính: Yi = 1 β1 + β2Xi + Ui (1.1.7) Yi = 1 1 + eβ1+β2Xi + Ui (1.1.8) Trong một số trường hợp, ta có thể biến đổi một hàm hồi quy không tuyến tính về dạng tuyến tính bằng các phép biến đổi thích hợp. Chẳng hạn, đối với hàm hồi quy (1.1.7), đặt β∗ = 1 β1 . Đối với hàm hồi quy (1.1.8), lấy ln hai vế ta được ln ( 1 Yi − 1 ) = β1 + β2Xi + Ui. Với các mô hình hồi quy tuyến tính, phương pháp ước lượng thông dụng nhất là phương pháp ước lượng bình phương nhỏ nhất thông thường (OLS) được trình bày trong phần tiếp theo. 1.2 PHƯƠNG PHÁP ƯỚC LƯỢNG OLS Xét hàm hồi quy tổng thể tuyến tính Y = β1 + β2X + U (1.2.1) Ta cần ước lượng các hệ số β1, β2. Giả sử có mẫu ngẫu nhiên kích thước n là {(Yi, Xi) (i = 1, 2, ..., n)} được rút ra từ tổng thể. Khi đó, tại mỗi quan sát ta có Yi = β1 + β2Xi + Ui Từ mẫu trên, ước lượng các giá trị của β1, β2 ta được hàm hồi quy mẫu như sau: Ŷi = β̂1 + β̂2Xi (1.2.2) Đặt Ûi = Yi − Ŷi và được gọi là phần dư (Residuals). Ta có có thể minh họa hàm hồi quy mẫu và phần dư như trong hình 1.2. 14 Chương 1: Mô hình hồi quy tuyến tính hai biến Hình 1.2 Đồ thị minh họa phần dư Ta muốn xác định các giá trị β̂1, β̂2 sao cho sai lệch tổng hợp giữa các giá trị thực tế Yi và giá trị ước lượng tương ứng từ hàm hồi quy mẫu (1.2.1) là nhỏ nhất. Vì Ûi có thể âm hoặc dương nên ta xét n∑ i=1 Û2i = n∑ i=1 (Yi − Ŷi)2 = n∑ i=1 (Yi − β̂1 − β̂2Xi)2 = f(β̂1, β̂2) Phương pháp OLS chủ trương xác định β̂1, β̂2 thông qua việc giải bài toán cực trị sau đây: Tìm β̂1, β̂2 sao cho f(β̂1, β̂2) đạt giá trị nhỏ nhất. Như vậy, β̂1, β̂2 sẽ là nghiệm của hệ phương trình sau: ∂f(β̂1, β̂2) ∂β̂1 = 0 ∂f(β̂1, β̂2) ∂β̂2 = 0 Giải hệ phương trình ta tìm ra được β̂1 và β̂2 theo công thức sau: β̂2 = n∑ i=1 xiyi n∑ i=1 x2i = ∑ Xi.Yi − nX.Y∑ X2i − n.(X)2 β̂1 = Y − β̂2X trong đó Y = 1 n ∑ Yi, X = 1 n ∑ Xi, xi = Xi −X, yi = Yi − Y . Ví dụ 1.2.1. Bảng sau đây cho số liệu về mức chi tiêu tiêu dùng (Y − đôla/tuần) và thu nhập hàng tuần (X − đôla/tuần) của một mẫu gồm 10 gia đình. Giả sử Y và X có mối quan hệ tuyến tính. Hãy ước lượng hàm hồi quy của Y theo X. Chương 1: Mô hình hồi quy tuyến tính hai biến 15 Xi 80 100 120 140 160 180 200 220 240 260 Yi 70 65 90 95 110 115 120 140 155 150 Từ các số liệu quan sát của X và Y cho ở bảng trên ta tính được:∑ Yi = 1100; ∑ Xi = 1700; ∑ X2i = 322000; ∑ XiYi = 205500; Y = 111; X = 170 ⇒ β̂2 = 205500− 10.170.111 322000− 10.1702 = 0, 509091; β̂1 = 111− 0, 509091.170 = 24, 45453. Nếu sử dụng công thức độ lệch ta có: n∑ i=1 xiyi = n∑ i=1 XiYi − nX.Y = 205500− 10× 170× 111 = 16800 n∑ i=1 x2i = n∑ i=1 X2i − n(X)2 = 322000− 10× 1702 = 33000 ⇒ β̂2 = n∑ i=1 xiyi n∑ i=1 x2i = 16800 33000 = 0, 5091; β̂1 = 111− 0, 5091× 170 = 24, 4545 Vậy hàm hồi quy mẫu của chi tiêu tiêu dùng theo thu nhập là: Ŷi = 24, 4545 + 0, 5091Xi Giá trị β̂1 = 24, 4545 là tung độ gốc của đường hồi quy mẫu, chỉ mức chi tiêu tiêu dùng trung bình hàng tuần khi mà thu nhập hàng tuần bằng 0. Tuy nhiên, đây là sự giải thích máy móc số hạng tung độ gốc. Trong phân tích hồi quy, kiểu giải thích theo nghĩa đen của số hạng tung độ gốc như thế này không phải lúc nào cũng có ý nghĩa, mặc dù trong ví dụ ta đang xét, nó có thể được lập luận rằng một gia đình không có bất cứ thu nhập nào (do thất nghiệp, do bị sa thải,...) có thể duy trì mức chi tiêu tiêu dùng tối thiểu (hoặc là từ vay mượn, hoặc là từ tiết kiệm). Nhưng nói chung ta phải sử dụng độ nhạy cảm trong việc giải thích số hạng tung độ gốc đối với X nhận các giá trị trong một khoảng nào đó khi quan sát. Với ví dụ đang xét thì ta có thể coi số 0 là một trong các giá trị quan sát của X. Giá trị β̂2 = 0, 5091 chỉ ra rằng, xét các giá trị của X nằm trong khoảng (80; 260), khi thu nhập tăng 1 đô la/tuần thì chi tiêu tiêu dùng trung bình gia tăng khoảng 0, 51 đô la/tuần. Tiếp theo, chúng ta hãy xem xét sai lệch giữa giá trị ước lượng (fitted value) từ hàm hồi quy mẫu (hay còn gọi là giá trị dự báo) và giá trị thực tế từ mẫu của biến phụ thuộc được trình bày trong bảng sau: 16 Chương 1: Mô hình hồi quy tuyến tính hai biến TT X Y Ŷ Û 1 80 70 65, 18 4, 82 2 100 65 75, 36 −10, 36 3 120 90 85, 55 4, 45 4 140 95 95, 73 −0, 73 5 160 110 105, 91 4, 09 6 180 115 116, 09 −1, 09 7 200 120 126, 27 −6, 27 8 220 140 136, 45 3, 55 9 240 155 146, 64 8, 36 10 260 150 156, 82 −6, 82 Nhìn chung các kết quả ước lượng khá phù hợp với thực tế, sai lệch giữa giá trị quan sát và giá trị ước lượng lớn nhất là ở quan sát thứ hai, |Û |2 = 10, 36. Việc xem xét phần dư sẽ hữu ích trong việc xem xét sâu hơn hành vi của từng cá thể, chẳng hạn tại sao với cùng một mức thu nhập như nhau nhưng có hộ gia đình chi tiêu cao hơn hoặc thấp hơn hẳn mức chi tiêu trung bình của nhóm hộ. Ví dụ 1.2.2. Sử dụng quan sát ở 35 tỉnh về cầu thịt gà trong một năm Y (tấn) và giá thịt gà X (nghìn đ/kg) để xem xét mối quan hệ giữa cầu và giá thịt gà. Kết quả tính toán như sau:∑ xiyi = 24737, 08; ∑ x2i = 16534, 2628; X = 9, 4104; Y = 104, 21 Hãy viết hàm hồi quy tuyến tính mẫu và cho nhận xét về các hệ số hồi quy? 1.3 TÍNH KHÔNG CHỆCH VÀ ĐỘ CHÍNH XÁC CỦA ƯỚC LƯỢNG OLS 1.3.1. Các giả thiết của phương pháp OLS Xét mô hình hồi quy tuyến tính (1.2.1) Y = β1 + β2X + U với các giả thiết sau đây: Giả thiết 1: Mô hình được ước lượng trên cơ sở mẫu ngẫu nhiên kích thước n : {(Xi, Yi), i = 1, 2, ..., n} Giả thiết 2: Kỳ vọng của sai số ngẫu nhiên với điều kiện X bằng 0, nghĩa là E(U |X) = 0. Với giả thiết mẫu ngẫu nhiên, giả thiết 2 có thể viết lại như sau: E(Ui|Xi) = 0, ∀i. Chương 1: Mô hình hồi quy tuyến tính hai biến 17 Giả thiết 3: Ui có phương sai là hằng số, nghĩa là var(Ui|Xi) = σ2,∀i. Về mặt hình học, ta có thể minh họa trường hợp giả thiết 3 trong hình 1.3 và 1.4. Hình 1.3 Phương sai sai số ngẫu nhiên không đổi Hình 1.4 Phương sai sai số ngẫu nhiên thay đổi (xu hướng tăng dần) 1.3.2. Tính không chệch của các ước lượng OLS Bằng phương pháp OLS, các ước lượng điểm của β1, β2 lần lượt là β̂1, β̂2 được xác định một cách duy nhất với mỗi mẫu kích thước n và β̂1, β̂2 là các đại lượng ngẫu nhiên. Với các mẫu khác nhau thì giá trị của chúng có thể khác nhau nhưng trung bình của chúng sẽ xấp xỉ giá trị cần tìm β1, β2. Ta có kết quả sau: Định lý 1.3.1. Khi giả thiết 2 thỏa mãn thì các ước lượng β̂1, β̂2 là các ước lượng không chệch của β1, β2, nghĩa là E(β̂1) = β1, E(β̂2) = β2 18 Chương 1: Mô hình hồi quy tuyến tính hai biến 1.3.3. Độ chính xác của các ước lượng OLS Tính không chệch là một tính chất tốt của ước lượng, nó cho biết trung bình của sai lệch của các giá trị β̂j thu được từ các mẫu khác nhau so với βj là bằng 0. Tuy nhiên, ta lại không biết sai lệch này có thể lớn thế nào. Nếu các sai lệch này nói chung là nhỏ thì khi lấy một mẫu bất kỳ, ta có thể hy vọng rằng giá trị β̂j thu được là không quá khác biệt so với giá trị βj chưa biết. Khi đó, ta nói rằng độ chính xác của β̂j là cao. Như vậy, độ chính xác của ước lượng có thể được đo bởi độ phân tán của β̂j xung quanh βj tương ứng, nghĩa là E[(β̂j − βj)2]. Khi β̂j là ước lượng không chệch của βj, nghĩa là E(β̂j) = βj, thì độ chính xác này chính là phương sai của các ước lượng: E[(β̂j − βj)2] = E{[β̂j − E(βj)]2} = var(β̂j). Vậy để xác định độ chính xác của ước lượng, ta tìm phương sai của chúng. Định lý 1.3.2. Khi các giả thiết 1− 3 được thỏa mãn thì phương sai của các hệ số ước lượng được xác định bởi: var(β̂1) = ∑ X2i n ∑ x2i σ2; var(β̂2) = σ2∑ x2i (1.3.1) trong đó σ2 = var(Ui|Xi) là phương sai của sai số ngẫu nhiên, mà trong thực tế ta thường không biết được giá trị thực của nó. Do đó, ta thường dùng ước lượng điểm của σ2 là σ̂2: σ̂2 = ∑ Û2i n− 2 σ̂ còn được gọi là sai số chuẩn của hàm hồi quy (Standard error of regression). Người ta chứng minh được rằng khi các giả thiết 1− 3 được thỏa mãn thì σ̂2 là ước lượng không chệch của σ2. Trong quá trình phân tích hồi quy, chúng ta thường sử dụng sai số chuẩn (Standard error) của các hệ số ước lượng được tính bởi công thức: se(β̂1) = √∑ X2i n ∑ x2i σ̂2; se(β̂2) = √ σ̂2∑ x2i Các sai số chuẩn này là căn bậc hai của các phương sai var(β̂1),var(β̂2) với σ2 được thay bởi ước lượng không chệch của nó là σ̂2. 1.3.4. Một số tính chất của hàm hồi quy mẫu (1) Hàm hồi quy mẫu đi qua trung bình mẫu (X,Y ), tức là Y = β̂1 + β̂2X. Chương 1: Mô hình hồi quy tuyến tính hai biến 19 (2) Giá trị trung bình của Ŷi bằng giá trị trung bình của các quan sát Yi, nghĩa là Y = Ŷ . (3) Tổng của các phần dư bằng 0, nghĩa là n∑ i=1 Ûi = 0. (4) Ûi và Ŷi không tương quan với nhau. (5) Ûi và Xi không tương quan với nhau. 1.4 ĐỘ PHÙ HỢP CỦA HÀM HỒI QUY MẪU - HỆ SỐ XÁC ĐỊNH R2 Nói chung, giữa các giá trị mẫu của biến phụ thuộc Yi và các ước lượng của nó là Ŷi sẽ có sai lệch. Nếu sai lệch là nhỏ, ta nói rằng hàm hồi quy mẫu khá phù hợp so với số liệu mẫu, còn nếu sai lệch là lớn thì hàm hồi quy mẫu kém phù hợp với số liệu mẫu. So sánh hai hàm hồi quy mẫu trong hình 1.5 ở trường hợp a) và trường hợp b) ta thấy hàm SRF2 phản ánh mối quan hệ giữa X và Y tốt hơn so với SRF1. Hình 1.5 So sánh độ phù hợp hai đường hồi quy mẫu Để đánh giá một cách định lượng sự phù hợp của hàm hồi quy mẫu đối với số liệu mẫu người ta đưa ra khái niệm hệ số xác định, ký hiệu là R2. Để đưa ra định nghĩa cho đại lượng này, chúng ta đưa ra một số ký hiệu sau: Tổng bình phương các sai lệch giữa giá trị quan sát với giá trị trung bình của chúng (TSS - Total sum of squares) TSS = n∑ i=1 (Yi − Y )2 = n∑ i=1 Y 2i − n(Y )2 20 Chương 1: Mô hình hồi quy tuyến tính hai biến Tổng bình phương các sai lệch giữa giá trị ước lượng của Y tính theo hàm hồi quy mẫu với giá trị trung bình của các giá trị quan sát của Y (ESS - Explained sum of squares) ESS = n∑ i=1 (Ŷi − Y )2 = (β̂2)2 n∑ i=1 x2i Tổng bình phương các sai lệch giữa các giá trị quan sát của biến Y và giá trị ước lượng được của nó từ hàm hồi quy mẫu (tổng bình phương phần dư) (RSS - Residual sum of squares) RSS = n∑ i=1 Û2i = n∑ i=1 (Yi − Ŷi)2 Người ta chứng minh được rằng: TSS = ESS +RSS (1.4.1) Như vậy, sự biến đổi của biến Y là tổng của hai thành phần: sự biến đổi của phần dư (thể hiện cho các yếu tố không đưa vào mô hình) ký hiệu bởi RSS và sự sự biến đổi được thể hiện bởi mô hình ký hiệu bởi ESS. Về mặt hình học, ta có thể minh họa các giá trị trong hình 1.6. Hình 1.6 Minh họa các tổng bình phương Chia cả hai vế của (1.4.1) cho TSS ta có: 1 = ESS TSS + RSS TSS Tỷ số ESS TSS thể hiện phần trăm sự biến đổi của biến Y trong mẫu được giải thích bởi mô hình, tỷ số đó được gọi là hệ số xác định (Coefficient of Determination) của hàm hồi quy và được ký hiệu là R2. R2 = ESS TSS = 1− RSS TSS = 1− ∑ Û2i∑ y2i Chương 1: Mô hình hồi quy tuyến tính hai biến 21 Ta có 0 ≤ R2 ≤ 1. Nếu hàm hồi quy mẫu càng phù hợp tốt với các số liệu quan sát thì ESS càng lớn hơn RSS (vì Ŷi càng gần Yi) và do đó R2 càng gần 1. Trường hợp đặc biệt, khi hồn tồn không có sai lệch giữa giá trị quan sát và giá trị ước lượng thì RSS = 0 và R2 = 1. Khi đó, biến X giải thích được 100% sự thay đổi của biến phụ thuộc. Ngược lại, nếu hàm hồi quy mẫu càng kém phù hợp với các số liệu quan sát thì RSS sẽ càng lớn hơn ESS (vì Ŷi càng xa Yi) và do đó R2 càng gần 0. Khi R2 = 0, biến X hồn tồn không giải thích được sự thay đổi của biến Y , khi đó ta nói rằng mô hình là không phù hợp, có nghĩa là quan hệ giữa biến X và biến Y được thể hiện bởi mô hình hồi quy mẫu là hồn tồn không phù hợp với số liệu mẫu. Và như vậy, có thể cho rằng mô hình hồi quy tổng thể cũng không phù hợp. Ví dụ 1.4.1. Với số liệu cho trong bảng ở ví dụ 1.2.1 ta tính được:∑ Y 2i = 132100 TSS = 132100− 10× 1112 = 8890; ESS = (0, 5091)2 × 33000 = 8552, 73. Vậy R2 = 8552, 73 8890 = 0, 9621. Kết quả này có nghĩa là trong hàm hồi quy mẫu, biến X (thu nhập) giải thích 96, 21% sự thay đổi của biến Y (chi tiêu tiêu dùng). Do vậy, có thể nói rằng mức độ phù hợp của SRF là khá cao. Minh họa đường hồi quy mẫu và số liệu mẫu xem hình 1.5 ở trường hợp b). Cũng với số liệu mẫu trên, nếu ta chọn mô hình có dạng Y = β1 + β2 1 X + U thì ta tính được R2 = 0, 8575. Minh họa đường hồi quy mẫu và số liệu mẫu xem hình 1.5 ở trường hợp a). * Một số lưu ý về hệ số xác định R2: 1) Không có tiêu chuẩn chung để xác định R2 bao nhiêu là cao hay thấp và ta không nên chỉ căn cứ vào R2 để đánh giá mô hình là tốt hay không tốt. Để xem xét mô hình là tốt hay không tốt ta nên căn cứ vào nhiều yếu tố: R2, dấu của hệ số hồi quy, kinh nghiệm thực tế, khả năng dự báo chính xác. Theo kinh nghiệm, với số liệu chuỗi thời gian thì R2 > 0, 9 được xem là tốt, với số liệu chéo thì R2 > 0, 7 được xem là tốt. 2) Từ công thức xác định ESS và R2 ta thấy rằng với mô hình hai biến có chứa hệ số chặn thì R2 = 0 khi và chỉ khi β̂2 = 0. 3) Trong mô hình hồi quy tuyến tính hai biến đang xét thì cũng tuyến tính theo cả biến số. Vì vậy, trong thực nghiệm, người ta còn dùng hệ số tương quan r để 22 Chương 1: Mô hình hồi quy tuyến tính hai biến đo mức độ chặt chẽ của mối quan hệ này. Tuy nhiên, ý nghĩa của hệ số xác định và hệ số tương quan là khác nhau. Công thức tính hệ số tương quan: r = ∑ xiyi√∑ x2i . ∑ y2i Người ta chứng minh được: r = ± √ R2 và r cùng dấu với β̂2. 4) Nếu mô hình không có hệ số chặn thì các phát biểu trên về R2 đều có thể không đúng nữa, R2 có thể nhận giá trị âm. Ví dụ 1.4.2. Với số liệu trong ví dụ 1.2.1, hệ số tương quan r = ± √ R2 = ± √ 0, 9621 = ±0, 981 Vì β̂2 = 0, 5091 > 0 chứng tỏ X và Y có quan hệ đồng biến nên r = +0, 981. 1.5 MÔ HÌNH HỒI QUY QUA GỐC TỌA ĐỘ Trong các phần đã trình bày ở trên, các mô hình đều có chứa hệ số chặn (mô hình hồi quy không qua gốc tọa độ) mặc dù nó không thể hiện đến tác động của biến X lên biến Y . Trong một số tình huống, ta có giải thích ý nghĩa của hệ số chặn là giá trị trung bình của biến Y khi X bằng 0. Tuy nhiên, có những tình huống cách giải thích này là không phù hợp và cũng có những tình huống mô hình không chứa hệ số chặn (hay còn gọi là mô hình hồi quy qua gốc tọa độ). Mục này chúng ta sẽ làm rõ hơn ý nghĩa của hệ số chặn trong mô hình hồi quy cũng như tác động của việc không sử dụng hệ số chặn trong mô hình. Các dạng tổng quát của hàm hồi quy qua gốc tọa độ: PRF : E(Y |Xi) = β2Xi SRF : Ŷi = β̂2Xi Yi = β2Xi + Ui Yi = β̂2Xi + Ûi Sử dụng phương pháp OLS, ta xác định được các công thức sau: β̂2 = ∑ XiYi∑ X2i ; var(β̂2) = σ2∑ X2i với σ2 được ước lượng bởi: σ̂2 = ∑ Û2i n− 1 = RSS n− 1 . * Chú ý: 1) Đối với mô hình hồi quy qua gốc tọa độ ∑ Ûi không nhất thiết phải bằng 0. 2) Hệ số xác định R2 có thể âm làm cho R2 không có ý nghĩa. Chương 1: Mô hình hồi quy tuyến tính hai biến 23 Đối với mô hình hồi quy qua gốc tọa độ, ta có thể tính R2 thô theo công thức sau: R2 thô = ( ∑ XiYi) 2∑ X2i ∑ Y 2i . Ta không thể so sánh R2 thô với R2 do công thức tính khác nhau. Mô hình hồi quy qua gốc tọa độ được sử dụng phải dựa trên cơ sở lý thuyết kinh tế hoặc có trước tiên nghiệm tốt. Những trường hợp giữa X và Y có bản chất quan hệ là tỷ lệ như chi phí sản xuất khả biến (Y ) tỷ lệ thuận với sản lượng sản phẩm làm ra (X); Tốc độ tăng của giá/Tỉ lệ lạm phát (Y ) tỷ lệ thuận với tốc độ tăng của lượng cung tiền (X),... Thông thường ta nên dùng mô hình hồi quy đơn biến bình thường (hồi quy không qua gốc tọa độ), sau đó kiểm định β1, xét một trong hai trường hợp xảy ra: + Nếu β1 = 0 có ý nghĩa thống kê ta có thể sử dụng mô hình hồi quy qua gốc tọa độ. + Nếu β1 6= 0 có ý nghĩa thống kê, ta sử dụng mô hình hồi quy không qua gốc tọa độ. Ví dụ 1.5.1. Bảng sau cung cấp số liệu về suất sinh lợi hàng năm của Afuture Fund và suất sinh lợi trung bình của cơ cấu chứng khoán thị trường, tính bởi chỉ số Fisher, trong giai đoạn 1971− 1980. Năm Suất sinh lợi Suất sinh lợi dựa trên của Afuture (%)− Y chỉ số Fisher (%)−X 1971 67, 5 19, 5 1972 19, 2 8, 5 1973 −35, 2 −29, 3 1974 −42, 0 −26, 5 1975 63, 7 61, 9 1976 19, 3 45, 5 1977 3, 6 9, 5 1978 20, 0 14, 0 1979 40, 3 35, 3 1980 37, 5 31, 0 Đường đặc tính của phân tích đầu tư được biểu diễn như sau: Yi = β1 + β2Xi + Ui Trong lý thuyết, các nhà nghiên cứu không đạt được sự thống nhất về giá trị có trước của β1. Một số kết quả thực nghiệm cho thấy β1 > 0 và có ý nghĩa thống kê, nhưng một số khác lại cho thấy nó không khác 0 một cách có ý nghĩa thống 24 Chương 1: Mô hình hồi quy tuyến tính hai biến kê. Trong trường hợp sau ta có thể viết mô hình dưới dạng một mô hình hồi quy qua gốc tọa độ Yi = β2Xi + Ui. Sử dụng mô hình hồi quy qua gốc tọa độ ta có các kết quả hồi quy sau: Ŷi = 1, 0899Xi se = (0, 1916) R2 thô = 0, 7825 t = (5, 6884) Kết quả này cho thấy β2 > 0 có ý nghĩa thống kê. Sự giải thích là 1% tăng của suất sinh lợi thị trường sẽ làm tăng trung bình 1, 09% suất sinh lợi của Afuture Fund. Chạy hồi quy không qua gốc tọa độ ta có các kết quả sau: Ŷi = 1, 2797 + 1, 0899Xi se = (7, 6886) (0, 1916) R2 = 0, 7155 t = (0, 1664) (4, 4860) Từ các kết quả trên, ta không thể bác bỏ giả thiết cho rằng giá trị đúng của tung độ gốc bằng 0, do vậy xác nhận cho việc sử dụng mô hình hồi quy qua gốc tọa độ. 1.6 MỘT SỐ VẤN ĐỀ BỔ SUNG 1.6.1. Hồi quy và đơn vị đo của biến Khi đơn vị đo của biến X và Y thay đổi, ta không cần tiến hành hồi quy lại mà chỉ dùng công thức đổi đơn vị đo. Các tính chất của ước lượng từ phương pháp OLS sẽ không thay đổi khi ta thay đổi đơn vị của biến. Hàm hồi quy ban đầu: Ŷi = β̂1 + β̂2Xi. Hàm hồi quy mới: Ŷ ∗i = β̂ ∗ 1 + β̂ ∗ 2X ∗ i . trong đó Ŷ ∗i = k1Yi; X ∗ i = k2Xi (k1, k2 là các hệ số quy đổi giữa hai hệ thống đơn vị cũ và mới. Lần lượt thay các giá trị Ŷ ∗i và X ∗ i vào hàm hồi quy mới ta có: β̂∗1 = k1β̂1; β̂ ∗ 2 = k1 k2 β̂2. Ngoài ra, ta còn có: σ̂∗2 = k21σ̂ 2; R2XY = R 2 X∗Y ∗ var(β̂∗1) = k 2 1var(β̂1); var(β̂ ∗ 2) = ( k1 k2 )2 var(β̂2) se(β̂∗1) = k1se(β̂1); se(β̂ ∗ 2) = k1 k2 se(β̂2). Chương 1: Mô hình hồi quy tuyến tính hai biến 25 Ví dụ 1.6.1. Hàm SRF: Ŷ = 5 + 7X, Y đơn vị triệu đồng/tháng; X đơn vị tấn. Hàm SRF mới, tính theo triệu đồng/năm và theo kg: Ŷ ∗ = 12× 5 + 12 1000 × 7X∗ = 60 + 84 1000 X∗. 1.6.2. Hồi quy với phần mềm Eviews Phần trình bày ở trên cho ta cách giải quyết một vấn đề ứng dụng phân tích hồi quy được thực hiện bằng cách tính tay. Với việc sử dụng phần mềm Eviews sẽ cho cách giải quyết đơn giản hơn. Sử dụng số liệu đã cho ở ví dụ 1.2.1, ta thu được kết quả hồi quy bằng phần mềm Eviews 6 trong bảng dưới đây. Chú thích cho bảng kết quả: Dependent Variable: cho biết biến phụ thuộc là Y Method: Least Squares : cho biết phương pháp ước lượng là phương pháp bình phương nhỏ nhất. Data, Time: cho biết ngày, giờ thực hiện. Sample: cho biết phạm vi quan sát được sử dụng để thực hiện hồi quy là từ quan sát thứ 1 đến quan sát thứ 10. Included observations : cho biết tổng số quan sát trong mẫu thực hiện là 10. Variable: cho biết danh sách các biến độc lập trong mô hình hồi quy. Lưu ý rằng C để chỉ vị trí của hằng số trong hàm hồi quy, tương ứng với tham số β1. Coefficient : cho biết giá trị của các hệ số hồi quy ước lượng được tương ứng với C và X, tức là β̂1 = 24, 45455; β̂2 = 0, 509091. Std. Error : cho biết giá trị sai số chuẩn của β̂1, β̂2, tức là se(β̂1) = 6, 413817; se(β̂2) = 0, 035743 26 Chương 1: Mô hình hồi quy tuyến tính hai biến t- Statistic: cho biết giá trị của thống kê t ứng với giả thiết tham số hồi quy = 0, tức là tj = β̂j − 0 se(β̂j) . Prob.: cho biết giá trị p-value của t tương ứng. R-squared : cho biết hệ số xác định R2, R2 = 0, 962062. Adjusted R-squared : hệ số R2 đã hiệu chỉnh, R 2 = 0, 957319. S.E. of regression: sai số tiêu chuẩn của hàm hồi quy σ̂ = √ σ̂ = 6, 493003. Sum squared resid : tổng bình phương sai số RSS = 337, 2727. Log likelihood : ln hàm hợp lý. Durbin-Watson stat : thống kê Durbin-Watson. Mean dependent var : trung bình của biến phụ thuộc Y = 111. S.D.dependent var : độ lệch tiêu chuẩn của biến phụ thuộc. Akaike info criterion: tiêu chuẩn Akaike Schwarz criterion: tiêu chuẩn Schwarz Hannan-Quinn criter.: tiêu chuẩn Hannan-Quinn F-statistic: giá trị thống kê của F (F = 202, 8679) Prob(F-statistic): P (F > F − statistic) = 0, 000001. Chương 2 MÔ HÌNH HỒI QUY BỘI 2.1 MÔ HÌNH HỒI QUY BỘI Mô hình hồi quy tuyến tính k biến có thể viết dưới dạng sau: Y = β1 + β2X2 + · · ·+ βkXk + U (2.1.1) Trong đó, Y là biến phụ thuộc và các Xj (j = 1, k) là các biến độc lập. βj (j = 1, k) được gọi là các hệ số hồi quy bội. U là sai số ngẫu nhiên, nó đại diện cho các yếu tố khác ngoài các biếnXj (j = 1, k) có tác động đến Y nhưng không đưa vào mô hình. * Các giả thiết của mô hình: Giả thiết 1: Việc ước lượng được dựa trên cơ sở mẫu ngẫu nhiên. Giả thiết 2: Kỳ vọng của sai số ngẫu nhiên tại mỗi giá trị (X2i, ..., Xki) bằng 0: E(U |(X2i, ..., Xki)) = 0, ∀i. Giả thiết 3: Phương sai của sai số ngẫu nhiên tại các giá trị (X2i, ..., Xki) là hằng số: var(U |(X2i, ..., Xki)) = σ2, ∀i Giả thiết 4: Giữa các biến độc lập Xj (j = 1, n) không có đa cộng tuyến hoàn hảo, nghĩa là không tồn tại các hằng số λ2, ..., λk không đồng thời bằng 0 sao cho: λ2X2 + · · ·+ λkXk = 0. Với giả thiết 2 thì (2.1.1) được viết lại là: E(Y |X2, ..., Xk) = β1 + β2X2 + · · ·+ βkXk (2.1.2) Khi đó, β1 còn được gọi là hệ số chặn và β1 chính là giá trị trung bình của biến phụ thuộc Y khi các biến độc lập trong mô hình nhận giá trị bằng 0. Các hệ số góc β2, ..., βk còn được gọi là các hệ số hồi quy riêng. Hệ số hồi quy riêng βm (m = 2, k) đo lường tác động riêng phần của biến Xm lên giá trị trung bình của biến phụ thuộc khi các biến khác trong mô hình không đổi. 28 Chương 2: Mô hình hồi quy bội 2.2 MÔ HÌNH HỒI QUY SỬ DỤNG NGÔN NGỮ MA TRẬN Để đơn giản trong cách biểu diễn, trong phần này ta sẽ trình bày phân tích hồi quy sử dụng ngôn ngữ ma trận, trong đó quan tâm đến việc biểu diễn các ước lượng OLS cũng như ma trận hiệp phương sai. Xét mô hình hồi quy tuyến tính k biến (2.1.1): Y = β1 + β2X2 + · · ·+ βkXk + U Hay viết cho từng quan sát Yi = β1 + β2X2i + · · ·+ βkXki + Ui (2.1.1’) Giả sử ta có n quan sát (Yi, X2i, ..., Xki), i = 1, n. Khi đó Y1 = β1 + β2X21 + β3X31 + ...+ βkXk1 + U1 Y2 = β1 + β2X22 + β3X32 + ...+ βkXk2 + U2 (2.2.1) ........................ Yn = β1 + β2X2n + β3X3n + ...+ βkXkn + Un Ký hiệu Y =  Y1 Y2 ... Yn  β =  β1 β2 ... βk  U =  U1 U2 ... Un  X =  1 X21 X31 ... Xk1 1 X22 X32 ... Xk2 ... ... ... ... ... 1 X2n X3n ... Xkn  Khi đó, (2.2.1) có thể viết dưới dạng ma trận như sau: Y = Xβ + U (2.2.2) * Các giả thiết của phương pháp OLS: Các giả thiết 1− 4 được trình bày trên ngôn ngữ ma trận như sau: Giả thiết 1: Việc ước lượng dựa trên cơ sở mẫu ngẫu nhiên (X, Y ). Giả thiết 2: E(U |X) = 0n×1. Giả thiết 3: E(UUT ) = σ2.I, trong đó UT là ma trận chuyển vị của U, I là ma trận đơn vị cấp n. Giả thiết 4: Tồn tại ma trận nghịch đảo (XTX)−1. 2.3 PHƯƠNG PHÁP ƯỚC LƯỢNG OLS Hàm hồi quy mẫu tương ứng với mô hình (2.2.2) được viết dưới dạng: Ŷ = Xβ̂ (2.3.1) Chương 2: Mô hình hồi quy bội 29 trong đó Ŷ =  Ŷ1 Ŷ2 ... Ŷn  β̂ =  β̂1 β̂2 ... β̂k  Véc tơ phần dư: Û = Y − Ŷ = Y −Xβ̂. Khi đó ta có ∑ Û2i = (Û1, Û2, ..., Ûn)  Û1 Û2 ... Ûn  = ÛT .Û Do đó, ta cũng có∑ Û2i = Û T .Û = (Y −X.β̂)T .(Y −X.β̂) = (Y T − .β̂T .XT )(Y −X.β̂) = Y TY − β̂T .XT .Y − Y T .X.β̂ + β̂TXT .X.β̂ = Y T − 2β̂T .XT .Y + β̂T .XT .X.β̂ (vì β̂T .XT .Y = Y T .X.β̂) Theo phương pháp bình phương nhỏ nhất, véc tơ β̂ được chọn sao cho tổng bình phương của các phần dư nhỏ nhất, tức là∑ Û2i = Y TY − 2β̂T .XT .Y + β̂T .XT .X.β̂ → min Từ đó, ta có công thức ước lượng OLS cho các hệ số hồi quy như sau: ⇒ β̂ = (XTX)−1XTY (2.3.2) trong đó ma trận (XTX) có dạng như sau: XTX =  n ∑ X2i ∑ X3i ... ∑ Xki∑ X2i ∑ X22i ∑ X2iX3i ... ∑ X2iXki ... ... ... ... ...∑ Xki ∑ XkiX2i ∑ XkiX3i ... ∑ X2ki  β̂ =  β̂1 β̂2 ... β̂k  Ví dụ 2.3.1. Số liệu quan sát của một mẫu cho ở bảng dưới đây Yi 20 18 19 18 17 17 16 15 13 12 X2i 8 7 8 8 6 6 5 5 4 3 X3i 2 3 4 4 5 5 6 7 8 8 trong đó: Y là lượng hàng bán được của một loại hàng (tấn/tháng) X2 là thu nhập của người tiêu dùng (triệu đồng/năm) 30 Chương 2: Mô hình hồi quy bội X3 là giá bán của loại hàng này (nghìn đồng/kg) Tìm hàm hồi quy mẫu Ŷi = β̂1 + β̂2X2i + β̂3X3i. Giải: Từ bảng số liệu đã cho ta tính được các tổng∑ Yi = 165; ∑ X2i = 60; ∑ X3i = 52; ∑ Y 2i = 2781; ∑ X22i = 388;∑ X23i = 308; ∑ X2iX3i = 282; ∑ X2iYi = 1029; ∑ X3iYi = 813; Ma trận nghịch đảo: (XTX)−1 = 10 60 5260 388 282 52 282 308  −1 = 1 1528 39980 −3816 −3256−3816 376 300 −3256 300 280  β̂ = 1 1528 39980 −3816 −3256−3816 376 300 −3256 300 280   1651029 813  = 22908/15281164/1528 −900/1528  Hay β̂ = 14, 992150, 76178 −0, 58901  Vậy hàm hồi quy mẫu cần tìm là: Ŷi = 14, 99215 + 0, 76178X2i − 0, 58901X3i 2.4 ĐỘ PHÙ HỢP CỦA HÀM HỒI QUY Tương tự như đối với mô hình hồi quy hai biến, ta sẽ sử dụng hệ số xác định hồi quy bội R2 để đánh giá sự phù hợp của hàm hồi quy. Với các ký hiệu như với mô hình hai biến: TSS = ∑ (Yi − Y )2 = Y T .Y − n(Y )2 ESS = ∑ (Ŷi − Y )2 = β̂T .XT .Y − n(Y )2 RSS = ∑ Û2i = Y T .Y − β̂T .XT .Y Ta cũng có: TSS = ESS +RSS. Hệ số xác định hồi quy bội: R2 = ESS TSS = 1− RSS TSS (2.4.1) R2 nhận giá trị trong đoạn [0, 1] và nó đánh giá mức độ phù hợp của mô hình với số liệu mẫu. Và khi mô hình là phù hợp với số liệu mẫu thì ta cũng kỳ vọng Chương 2: Mô hình hồi quy bội 31 nó thể hiện tốt sự phù hợp trong tổng thể. R2 thể hiện phần trăm sự thay đổi của biến phụ thuộc được giải thích bởi các biến độc lập trong mô hình. Khi đưa thêm một biến số bất kỳ vào mô hình nói chung sẽ làm gia tăng R2, không kể nó có giúp ích giải thích thêm biến phụ thuộc hay không. Như vậy, việc sử dụng R2 để so sánh mức độ phù hợp giữa các mô hình với số biến khác nhau có thể không còn đúng nữa. Để so sánh hai số hạng R2 ta cần phải tính đến số lượng biến độc lập có trong mô hình. Có thể thực hiện điều này một cách dễ dàng nếu chúng ta xem xét một hệ số xác định thay thế khác như sau: R 2 = 1− n∑ i=1 Û2i /(n− k) n∑ i=1 y2i /(n− 1) = 1− RSS/(n− k) TSS/(n− 1) (2.4.2) trong đó k là số các tham số trong mô hình bao gồm cả hệ số tự do. R 2 được gọi là R2 có hiệu chỉnh. Thuật ngữ có hiệu chỉnh có nghĩa là hiệu chỉnh theo bậc tự do tương ứng với các tổng bình phương trong công thức định nghĩa của R2. Số bậc tự do của n∑ i=1 Û2i là (n− k) và số bậc tự do của n∑ i=1 y2i là (n− 1). Giữa R2 và R 2 có mối quan hệ như sau: R 2 = 1− (1−R2)n− 1 n− k (2.4.3) 2.5 TÍNH TỐT NHẤT CỦA ƯỚC LƯỢNG OLS Định lý Gauss - Markov: Khi các giả thiết 1-4 thỏa mãn thì các ước lượng thu được từ phương pháp OLS là các ước lượng tuyến tính, không chệch và có phương sai nhỏ nhất trong lớp các ước lượng tuyến tính không chệch. Tính chất tuyến tính, không chệch và phương sai nhỏ nhất được viết tắt là tính chất BLUE (Best linear unbiased estimator). Tương tự mô hình hồi quy hai biến, để đánh giá độ chính xác của các ước lượng ta cũng sử dụng phương sai var(β̂j). Để tính var(β̂j) ta có thể xác định qua ma trận hiệp phương sai của β̂ có dạng tổng quát như sau: cov(β̂) =  var(β̂1) cov(β̂1, β̂2) ... cov(β̂1, β̂k) cov(β̂2, β̂1) var(β̂2) ... cov(β̂2, β̂k) ... ... ... ... cov(β̂k, β̂1) cov(β̂k, β̂2) ... var(β̂k)  Để tìm cov(β̂) ta áp dụng công thức cov(β̂) = σ2(XTX)−1 32 Chương 2: Mô hình hồi quy bội Trong công thức trên (XTX)−1 là ma trận nghịch đảo của ma trận (XTX), còn σ2 là phương sai của sai số ngẫu nhiên Ui nhưng chưa biết nên ta phải dùng ước lượng không chệch của nó là σ̂2: σ̂2 = RSS n− k = ∑ Û2i n− k trong đó k là số biến của mô hình. Sai số chuẩn của β̂j : se(β̂j) = √ var(β̂j), j = 1, 2, ..., k Ví dụ 2.5.1. Xét tiếp ví dụ 2.3.1, hãy tìm ma trận hiệp phương sai của β̂. Giải: Theo tính toán ở trên ta đã xác định được ma trận (XTX)−1, ta cần tính σ̂2. Ta có TSS = Y TY − n((Y )2) = ∑ Y 2i − n(Y )2 = 2781− 10.(16, 5)2 = 58, 5 ESS = β̂T (XTY )− n(Y )2 = = (14, 99215 0, 76178 −0, 58901)  1651029 813 −10.(16, 5)2 = 56, 211 ⇒ RSS = 58, 5− 56, 211 = 2, 289; σ̂2 = RSS n− 3 = 2, 289 7 = 0, 327 Vậy cov(β̂) = 0, 327 1528 39980 −3816 −3256−3816 376 300 −3256 300 280  Hay cov(β̂) =  8, 55593 −0, 81664 −0, 6968−0, 81664 0, 080466 0, 0642 −0, 6968 0, 0642 0, 05992  Từ đó, ta có var(β̂1) = 8, 55593; var(β̂2) = 0, 080466; var(β̂3) = 0, 05992. 2.6 MỘT SỐ DẠNG CỦA MÔ HÌNH HỒI QUY 2.6.1. Mô hình logarit kép (log - log) Trong kinh tế học chúng ta đã biết đến dạng hàm sản xuất Cobb - Douglas như sau: Q = β1K β2Lβ3 (2.6.1) Chương 2: Mô hình hồi quy bội 33 trong đó Q,K,L lần lượt là sản lượng, vốn và lao động. Nếu xét thêm yếu tố ngẫu nhiên thì ta có: Q = β1K β2Lβ3eU (2.6.2) Mô hình (2.6.2) có dạng phi tuyến theo cả tham số và các biến số K,L. Do đó, để áp dụng phương pháp OLS ta phải biến đổi mô hình về dạng tuyến tính theo tham số như sau: ln(Q) = β∗1 + β2 ln(K) + β3 ln(L) + U (2.6.3) với β∗1 = ln(β1). Mô hình (2.6.3) được gọi là mô hình logarit kép (hay mô hình dạng log - log). Trong mô hình này, tổng (β2 + β3) cho ta thông tin để đánh giá việc tăng quy mô sản xuất. • Nếu (β2+ β3) = 1 thì tăng quy mô không hiệu quả, nghĩa là các yếu tố đầu vào (vốn và lao động) tăng lên k lần thì sản lượng sẽ tăng tương ứng k lần. • Nếu (β2 + β3) < 1 thì tăng quy mô kém hiệu quả, nghĩa là các yếu tố đầu vào tăng lên k lần nhưng sản lượng tăng ít hơn k lần. • Nếu (β2+β3) > 1 thì tăng quy mô có hiệu quả, nghĩa là các yếu tố đầu vào tăng lên k lần nhưng sản lượng tăng nhiều hơn k lần. Một cách tổng quát, mô hình hồi quy dạng log - log có thể được viết như sau: ln(Y ) = β1 + β2 ln(X2) + · · ·+ βk ln(Xk) + U (2.6.4) Ý nghĩa của các hệ số βj trong mô hình (2.6.4) được xem xét như sau: Với j = 1, 2, ..., k ta có: βj = ∂ ln(Y ) ∂ ln(Xj) = ∂ ln(Y )/Y dXj/Xj Hay ∂ ln(Y )/Y = βjdXj/Xj Từ biểu thức trên ta thấy βj có ý nghĩa như sau: trong điều kiện các yếu tố khác trong mô hình không đổi, nếu Xj gia tăng (giảm) 1% thì trung bình Y thay đổi βj%. Do đó, các hệ số βj còn được gọi là hệ số co giãn của Y theo Xj. Với mô hình (2.6.4), hệ số co giãn của Y theo Xj luôn luôn bằng βj, không phụ thuộc vào giá trị của Xj. Như vậy, mô hình dạng log - log được sử dụng để mô tả các mối quan hệ trong đó hệ số co giãn là không đổi. Ví dụ 2.6.1. Khảo sát về nhu cầu tiêu thụ cà phê (Y - số tách 1 người dùng mỗi ngày) và giá bán lẻ thực tế trung bình (X - USD/pao) người ta thu được bảng số liệu sau: 34 Chương 2: Mô hình hồi quy bội Năm Y X Năm Y X 1970 2, 57 0, 77 1976 2, 11 1, 08 1971 2, 50 0, 74 1977 1, 94 1, 81 1972 2, 35 0, 72 1978 1, 97 1, 39 1973 2, 30 0, 73 1979 2, 06 1, 20 1974 2, 25 0, 76 1980 2, 02 1, 17 1975 2, 20 0, 75 Hồi quy mô hình dạng log-log ta được kết quả: l̂nY i = 0, 7774− 0, 253 lnXi se = (0, 0152) (0, 0494) R2 = 0, 7448 t = (51, 004) (−5, 125) p = (0, 001) (−0, 000) Từ kết quả này, ta thấy hệ số co giãn của nhu cầu theo giá là −0, 253 có nghĩa là khi giá cà phê tăng 1% thì nhu cầu về cà phê bình quân giảm đi 0, 253%. Do giá trị của hệ số co giãn theo giá cả là −0, 253 nhỏ hơn 1 về giá trị tuyệt đối, nên ta có thể nói cầu cà phê không có tính co giãn đối với giá cả. 2.6.2. Mô hình bán logarit Mô hình log - lin Các nhà kinh tế, nhà kinh doanh và Chính phủ thường quan tâm tới việc xác định tốc độ tăng trưởng của một số biến kinh tế như dân số, GNP, lượng cung tiền, việc làm, năng suất, thâm hụt thương mại,... Khi đó, mô hình dạng bán logarit dưới đây có thể là phù hợp: ln(Y ) = β1 + β2X + U (2.6.5) Trong mô hình (2.6.5), hệ số β2 được diễn giải như sau: khi X gia tăng (giảm) 1 đơn vị thì Y trung bình thay đổi một lượng tương tối là 100.β2(%). Ví dụ 2.6.2. Trong lý thuyết tiền tệ, tài chính và ngân hàng, chúng ta đã biết công thức tính lãi gộp: Yt = Y0(1 + r) t (2.6.6) với r là tốc độ tăng trưởng gộp theo thời gian của Y; t: thời gian (tháng, quý, năm...) Y0: giá trị của biến phụ thuộc tại thời điểm t = 0; Yt: giá trị của biến phụ thuộc tại thời điểm t nào đó. Chương 2: Mô hình hồi quy bội 35 Lấy ln hai vế của (2.6.6) ta được: lnYt = lnY0 + t ln(1 + r) Đặt β1 = lnY0, β2 = ln(1 + r) ta có thể viết lại như sau: lnYt = β1 + β2t Nếu đưa thêm yếu tố ngẫu nhiên vào ta được mô hình hồi quy dạng log - lin: lnYt = β1 + β2t+ Ut (2.6.7) + β2 > 0: biểu thị tốc độ tăng trưởng của biến phụ thuộc Y. + β2 < 0: biểu thị tốc độ giảm sút của biến phụ thuộc Y. Thay cho việc ước lượng mô hình (2.6.7), các nhà nghiên cứu đôi khi ước lượng mô hình sau: Yt = β1 + β2t+ Ut (2.6.8) Mô hình (2.6.8) được gọi là mô hình xu hướng tuyến tính và biến thời gian t được gọi là biến xu hướng. Mô hình xu hướng tuyến tính khác biệt so với mô hình log - lin ở chỗ biến phụ thuộc Y theo thời gian không thể hiện dưới dạng logarit. Trong mô hình (2.6.8) thì β2 = dY/dt là tốc độ thay đổi tuyệt đối của Y . + Nếu β2 > 0 thì Y có xu hướng tăng. (|β2| = β2 là tốc độ tăng trưởng tuyệt đối của Y ) + Nếu β2 < 0 thì Y có xu hướng giảm. (|β2| = −β2 là tốc độ giảm sút tuyệt đối của Y ) Lựa chọn mô hình nào phụ thuộc vào việc ta quan tâm tới ước lượng thay đổi tương đối hay tuyệt đối của biến phụ thuộc theo thời gian. Nếu quan tâm tới lượng thay đổi tuyệt đối của biến phụ thuộc thì mô hình xu hướng tuyến tính thích hợp hơn. Ngồi ra, ta không thể so sánh R2 của hai mô hình này. Hơn nữa, mô hình log - lin và mô hình xu hướng tuyến tính chỉ thích hợp nếu số liệu chuỗi thời gian có tính chất dừng (giá trị trung bình và phương sai của biến chuỗi thời gian không thay đổi có tính chất hệ thống theo thời gian). Ví dụ 2.6.3. Khảo sát mẫu số liệu sau đây về GDP của Việt Nam theo giá so sánh năm 1994 giai đoạn 1990− 2008, đơn vị: tỷ VND. Để khảo sát mức độ gia tăng trung bình tính theo số tuyệt đối (tỷ VND) của GDP qua mỗi năm, ta có thể sử dụng mô hình hồi quy tuyến tính của GDP theo thời gian, kết quả hồi quy trong hình 2.1 dưới đây. 36 Chương 2: Mô hình hồi quy bội Hình 2.1 Kết quả hồi quy mô hình tuyến tính theo các biến Kết quả cho thấy các hệ số hồi quy đều có ý nghĩa thống kê. Hệ số xác định cao (R2 = 0, 970278), cho thấy mức độ phù hợp của mô hình rất lớn. Ý nghĩa kinh tế của các tham số hồi quy: + β1 = 83267, 68: GDP của năm 1989 khoảng 83267, 68 tỷ VND (ứng với t = 0). + β2 = 19335, 46: Mỗi năm trong giai đoạn (1990− 2008), GDP tăng bình quân 19335, 46 tỷ VND. Nếu ta muốn ước lượng tốc độ tăng trưởng bình quân của GDP trong giai đoạn trên, ta có thể sử dụng mô hình hồi quy dạng log - lin, kết quả như trong hình 2.2. Kết quả cho thấy các tham số hồi quy đều có ý nghĩa thống kê, cũng như mức độ phù hợp rất cao của mô hình (R2 = 0, 997789). Ý nghĩa kinh tế của các tham số hồi quy: + β1 = 11, 72923 = lnY0 ⇒ Y0 = GDP1989 = e11,72923 = 124148, 04. + β2 = 0, 0724 ∼ 7, 24%: cho thấy tốc độ tăng trưởng GDP bình quân năm của Việt Nam giai đoạn (1990− 2008) khoảng 7, 24%. Chương 2: Mô hình hồi quy bội 37 Hình 2.2 Kết quả hồi quy mô hình tuyến tính theo các biến Mô hình lin - log Mô hình này được sử dụng trong trường hợp ta khảo sát mức thay đổi tuyệt đối của biến phụ thuộc khi biến độc lập thay đổi 1%. Xét mô hình lin-log: Y = β1 + β2 lnX + U (2.6.9) Hệ số β2 trong mô hình được giải thích là: nếu X gia tăng (giảm) 1% thì Y trung bình thay đổi một lượng tuyệt đối là 0, 01.β2 đơn vị. Ví dụ 2.6.4. Giả sử có số liệu như trong bảng 2.1. Năm GNP Lượng Năm GNP Lượng (tỉ USD) cung tiền (tỉ USD) cung tiền 1973 1359, 3 861, 0 1981 3052, 6 1795, 5 1974 1472, 8 908, 5 1982 3166, 0 1954, 0 1975 1598, 4 1023, 2 1983 3405, 7 2185, 2 1976 1782, 8 1163, 7 1984 3772, 2 2363, 6 1977 1990, 5 1286, 7 1985 4014, 9 2562, 6 1978 2249, 7 1389, 0 1986 4240, 3 2807, 7 1979 2508, 2 1500, 2 1987 4526, 7 2901, 0 1980 2723, 0 1633, 1 Bảng 2.1 GDP và lượng cung tiền 38 Chương 2: Mô hình hồi quy bội Chúng ta quan tâm tới việc tìm xem GNP tăng lên bao nhiêu (về giá trị tuyệt đối) nếu lượng cung tiền tăng lên 1%. Với Y là GNP, X là lượng cung tiền, hồi quy Y theo lnX ta được các kết quả sau: Ŷt = −16329, 21 + 2584, 785 lnXt se = (696, 6) (94, 04) R2 = 0, 9831 t = (−23, 44) (27, 486) p = (0, 000) (0, 000) Theo kết quả trên, hệ số β̂2 = 2584, 785 có nghĩa là trong khoảng thời gian 1973− 1987, lượng cung tiền tăng lên 1% kéo theo sự gia tăng bình quân của GNP khoảng 25,85 tỉ USD. 2.6.3. Mô hình nghịch đảo Mô hình có dạng sau được gọi là mô hình nghịch đảo: Y = β1 + β2. 1 X + U (2.6.10) Mô hình này có một số đặc điểm sau: 1) Khi biến X dần tới vô cùng thì 1/X tiến về 0, khi đó biến phụ thuộc Y sẽ tiến về β1, giá trị này được gọi là tiệm cận ngang. 2) Nếu β2 > 0 thì Y là hàm giảm theo X; β2 < 0 thì Y là hàm tăng theo X; khi Y = 0 thì X = −β2/β1. Một số trường hợp có thể áp dụng mô hình nghịch đảo: 1) Đường cong Phillips biểu thị quan hệ giữa tỷ lệ thay đổi tiền lương Y và tỷ lệ thất nghiệp X. Hình 2.3 Tỷ lệ thay đổi tiền lương và tỷ lệ thất nghiệp Hình 2.4 Đồ thị AFC và sản lượng Chương 2: Mô hình hồi quy bội 39 Xem hình 2.3, khi tỷ lệ thất nghiệp tăng nhưng vẫn ở dưới mức tỷ lệ thất nghiệp tự nhiên UN thì tiền lương tăng (Y > 0) nhưng mức lương tăng có khuynh hướng giảm dần (đường cong dốc xuống hướng về 0). Khi tỷ lệ thất nghiệp tăng vượt quá mức UN , tiền lương sẽ giảm (Y < 0) nhưng mức giảm sẽ tăng dần (đường cong càng xa dần 0) và tỷ lệ giảm sút tiền lương không vượt quá giá trị |β1|. 2) Quan hệ giữa chi phí sản xuất cố định trung bình AFC (Average fixd cost) và sản lượng: lý thuyết kinh tế cho thấy khi sản lượng tăng thì chi phí sản xuất cố định trung bình trên một sản phẩm có khuynh hướng giảm dần nhưng không vượt quá mức tối thiểu. Quan hệ này được biểu diễn qua biểu đồ hình 2.4. 3) Đường chi tiêu Engel biểu diễn mối quan hệ chi tiêu của người tiêu dùng cho một hàng hóa với tổng chi tiêu hay thu nhập của người đó (X). Nếu ta gọi Y là chi tiêu cho một loại hàng hóa và X là thu nhập thì số hàng hóa có đặc điểm sau: Hình 2.5 Đường chi tiêu Engel • Có một mức thu nhập tới hạn hay ngưỡng mà dưới mức đó thì người tiêu dùng không mua loại hàng hóa này. Trong hình dưới đây thì mức thu nhập ngưỡng này này là −(β2/β1). • Có một mức tiêu dùng bão hòa (đã thỏa mãn) mà cao hơn mức đó người tiêu dùng sẽ không chi tiêu thêm nữa cho dù thu nhập có cao thế nào đi nữa. Chính mức này là đường tiệm cận β1 vẽ trong đồ thị. Ví dụ 2.6.5. Cho số liệu về tỷ lệ thay đổi tiền lương Y và tỷ lệ thất nghiệp X của Anh trong giai đoạn 1950− 1966. Năm Y (%) X(%) Năm Y (%) X(%) 1950 1, 8 1, 4 1959 2, 6 1, 9 1951 8, 5 1, 1 1960 2, 6 1, 5 1952 8, 4 1, 5 1961 4, 2 1, 4 1953 4, 5 1, 5 1962 3, 6 1, 8 1954 4, 3 1, 2 1963 3, 7 2, 1 1955 6, 9 1, 0 1964 4, 8 1, 5 1956 8, 0 1, 1 1965 4, 3 1, 3 1957 5, 0 1, 3 1966 4, 6 1, 4 1958 3, 6 1, 8 40 Chương 2: Mô hình hồi quy bội Mô hình nghịch đảo thích hợp với số liệu ở bảng trên cho ta các kết quả sau: Ŷt = −1, 4282 + 8, 7243 ( 1 Xt ) se = (2, 06748) (2, 84778) R2 = 0, 3849 t = (−0, 691) (3, 064) F − statistic = 9, 39 p = (0, 000) (0, 000) (0, 0079) Theo kết quả trên, β1 = −1, 4282 nghĩa là giới hạn bên dưới của tỷ lệ thay đổi tiền lương xấp xỉ là −1, 43, tức là khi X tăng lên vô hạn, tỷ lệ giảm sút của tiền lương sẽ không vượt quá 1, 43%/năm. Tỷ lệ thất nghiệp tự nhiên Y0 = 0 ⇒ X0 = −β2 β1 = − 8, 7243−1, 4282 = 6, 1086 ≈ 6, 11(%/năm). 2.6.4. Mô hình hồi quy đa thức Mô hình hồi quy đa thức bậc k tổng quát có dạng Yi = β0 + β1Xi ++β2X 2 i + ...+ βkX k i + Ui (2.6.11) Ta thấy trong những hàm hồi quy đa thức này chỉ có một biến giải thích ở vế phải nhưng nó xuất hiện với những lũy thừa khác nhau khiến cho chúng trở thành mô hình hồi quy bội. Những mô hình này vẫn là mô hình tuyến tính theo tham số βj nên chúng có thể ước lượng bằng phương pháp OLS thông thường. Ví dụ 2.6.6. Để minh họa cho hồi quy đa thức, hãy xem xét số liệu trong bảng sau về sản lượng và tổng chi phí sản xuất ngắn hạn của một loại sản phẩm. Sản lượng (nghìn sản phẩm) 1 2 3 4 5 6 7 8 9 10 Tổng chi phí (triệu đồng) 193 226 240 244 257 260 274 297 350 420 Loại mô hình nào sẽ thích hợp với các dữ liệu? Để thực hiện mục đích này, chúng ta hãy xem xét đồ thị phân tán trong hình 2.6. Từ đồ thị phân tán ta thấy quan hệ giữa chi phí và sản lượng được biểu thị bởi một đường cong. Tổng chi phí lúc đầu tăng chậm sau đó tăng nhanh. Dạng đường cong này có thể được thể hiện bởi hồi quy đa thức bậc ba sau đây: Yi = β0 + β1Xi + β2X 2 i + β3X 3 i + Ui trong đó Y là tổng chi phí và X là sản lượng. Kết quả hồi quy như trong hình 2.7. Hàm hồi quy mẫu: Ŷi = 141, 7667 + 63, 47766Xi − 12, 96154X2i + 0, 93959X3i Chương 2: Mô hình hồi quy bội 41 Hình 2.6 Đồ thị phân tán tổng chi phí theo sản lượng Hình 2.7 Kết quả hồi quy mô hình đa thức bậc 3 * Nhận xét: + Các tham số hồi quy đều có ý nghĩa thống kê. + Hệ số xác định có giá trị lớn (R2 = 0, 9983) cho thấy sự thay đổi của sản lượng giải thích được 99, 83% sự biến động của chi phí. + Chi phí cận biên được giải thích tùy thuộc mức sản lượng đang thực hiện. + Ngay cả khi không sản xuất (X = 0) vẫn phải mất một khoản chi phí tối thiểu trung bình là Ymin = β̂1 = 141, 7667 triệu đồng. Điều này phù hợp với thực tế. Chi phí trong trường hợp này có thể là những chi phí cố định, bảo trì, bảo quản,... Chương 3 SUY DIỄN THỐNG KÊ VÀ DỰ BÁO TỪ MÔ HÌNH HỒI QUY 3.1 QUY LUẬT PHÂN PHỐI XÁC SUẤT CỦA MỘT SỐ THỐNG KÊ MẪU Xét mô hình hồi quy tuyến tính k biến: Y = β1 + β2X2 + · · ·+ βkXk + U (3.1.1) Với mẫu ngẫu nhiên kích thước n : {(X2i, ..., Xki, Yi), i = 1, 2, ..., n} ta thu được hàm hồi quy mẫu như sau: Ŷi = β̂1 + β̂2X2i + · · ·+ β̂kXki Từ kết quả ước lượng, để đưa ra các suy diễn thống kê cho các hệ số hồi quy tổng thể, chúng ta cần xác định quy luật phân phối xác suất của các β̂j (j = 1, 2, ..., k). Để có được điều này, chúng ta cần có giả thiết sau: Giả thiết 5: Sai số ngẫu nhiên tuân theo quy luật phân phối chuẩn Ui ∼ N(0, σ2), ∀i. Các giả thiết 1 − 5 được gọi là các giả thiết của mô hình hồi quy tuyến tính cổ điển và mô hình thỏa mãn các giả thiết này được gọi là mô hình hồi quy tuyến tính cổ điển. Khi các giả thiết 1 − 5 thỏa mãn thì phương pháp OLS là phương pháp ước lượng tốt nhất cho bài toán hồi quy có dạng (3.1.1) và ta có kết quả về phân phối xác suất của các β̂j (j = 1, 2, ..., k) qua định lý sau đây: Định lý 3.1.1. Khi các giả thiết 1− 5 thỏa mãn ta có: β̂j ∼ N(βj , var(β̂j)), ∀j = 1, 2, ..., k Định lý 3.1.2. Khi các giả thiết 1− 5 thỏa mãn ta có: t = β̂j − βj se(β̂j) ∼ T (n− k), ∀j = 1, 2, ..., k Tương tự, ta cũng có t = (aβ̂j + bβ̂s)− (aβj + bβs) se(aβ̂j + bβ̂s) ∼ T (n− k). với a, b là hai số thực bất kỳ không đồng thời bằng 0. Chương 3: Suy diễn thống kê và dự báo từ mô hình hồi quy 43 3.2 KHOẢNG TIN CẬY CHO CÁC HỆ SỐ HỒI QUY 3.2.1. Khoảng tin cậy cho một hệ số hồi quy: đánh giá tác động khi một biến độc lập thay đổi Ta xây dựng được các khoảng tin cậy của βj , j = 1, k với độ tin cậy 1 − α như sau: + Khoảng tin cậy đối xứng:( β̂j − se(β̂j).t(n−k)α/2 < βj < β̂j + se(β̂j).t (n−k) α/2 ) . Khoảng tin cậy này được diễn giải như sau: với độ tin cậy 1 − α, khi biến Xj gia tăng 1 đơn vị và các yếu tố khác không đổi thì trung bình của biến Y gia tăng trong khoảng này. + Khoảng tin cậy bên trái:( −∞ < βj < β̂j + se(β̂j).t(n−k)α ) . Khoảng tin cậy này để ước lượng giá trị lớn nhất cho hệ số hồi quy. + Khoảng tin cậy bên phải:( β̂j − se(β̂j).t(n−k)α < βj < +∞ ) . Khoảng tin cậy này để ước lượng giá trị nhỏ nhất cho hệ số hồi quy. Ví dụ 3.2.1. Bảng dưới đây cho các số liệu về doanh số bán Y , chi phí chào hàng X2 và chi phí quảng cáo X3 trong năm 2013 ở 12 khu vực bán hàng của một công ty. Doanh số bán Chi phí chào hàng Chi phí quảng cáo Yi (triệu đồng) X2i (triệu đồng) X3i (triệu đồng) 1270 100 180 1490 106 248 1060 60 190 1626 160 240 1020 70 150 1800 170 260 1610 140 250 1280 120 160 1390 116 170 1440 120 230 1590 140 220 1380 150 150 Kết quả hồi quy tuyến doanh số bán theo chi phí chào hàng và chi phí quảng cáo. 44 Chương 3: Suy diễn thống kê và dự báo từ mô hình hồi quy Ta tìm khoảng tin cậy của β2 và β3 với độ tin cậy 95%. Với độ tin cậy 1− α = 0, 95 và n = 12 thì t(n−3) α/2 = t (9) 0,025 = 2, 262. + Khoảng tin cậy của β2: (4, 64951− 0, 469148.2, 262 < β2 < 4, 64951 + 0, 469148.2, 262) hay (3, 588 < β2 < 5, 711) Kết quả trên cho biết, nếu giữ chi phí quảng cáo không đổi, khi chi phí chào hàng tăng 1 triệu đồng/năm thì doanh số bán trung bình ở một khu vực bán hàng tăng trong khoảng từ 3, 588 đến 5, 711 triệu đồng/năm. + Khoảng tin cậy của β3: (2, 560152− 0, 379407.2, 262 < β3 < 2, 560152 + 0, 379407.2, 262) hay (1, 702 < β3 < 3, 418) Kết quả trên cho biết, nếu giữ chi phí chào hàng không đổi, khi chi phí quảng cáo tăng 1 triệu đồng/năm thì doanh số bán trung bình ở một khu vực bán hàng tăng trong khoảng từ 1, 702 đến 3, 418 triệu đồng/năm. 3.2.2. Khoảng tin cậy cho biểu thức của hai hệ số hồi quy: đánh giá tác động khi hai biến độc lập cùng thay đổi Với mô hình (3.1.1), giả sử X2 và X3 cùng gia tăng (giảm) một đơn vị, khi đó giá trị trung bình của Y gia tăng (giảm) (β2 + β3) đơn vị. Vậy để ước lượng mức gia tăng của trung bình Y thì ta xây dựng khoảng tin cậy cho (β2 + β3). Trên cơ sở công thức khoảng tin cậy cho một hệ số hồi quy và với lập luận tương tự ta có công thức khoảng tin cậy của (β2 + β3) với độ tin cậy 1− α là:( (β̂2 + β̂3)− se(β̂2 + β̂3).t(n−k)α/2 < β2 + β3 < (β̂2 + β̂3) + se(β̂2 + β̂3).t (n−k) α/2 ) . Chương 3: Suy diễn thống kê và dự báo từ mô hình hồi quy 45 Một cách tổng quát, với a, b là các giá trị bất kỳ (có thể nhận giá trị âm hoặc dương) thì khoảng tin cậy đối xứng cho mức gia tăng của trung bình của biến Y khi X2 tăng a đơn vị và X3 tăng b đơn vị được tính bởi công thức:( (aβ̂2 + bβ̂3)− se(aβ̂2 + bβ̂3).t(n−k)α/2 < aβ2 + bβ3 < (aβ̂2 + bβ̂3) + se(aβ̂2 + bβ̂3).t (n−k) α/2 ) . trong đó sai số chuẩn se(aβ̂2 + bβ̂3) được tính theo công thức se(aβ̂2 + bβ̂3) = √ a2var(β̂2) + b2var(β̂3) + 2abcov(β̂2, β̂3). + Khoảng tin cậy bên trái:( −∞ < aβ2 + bβ3 < (aβ̂2 + bβ̂3) + se(aβ̂2 + bβ̂3).t(n−k)α/2 ) . + Khoảng tin cậy bên phải:( (aβ̂2 + bβ̂3)− se(aβ̂2 + bβ̂3).t(n−k)α/2 < aβ2 + bβ3 < +∞ ) . Ví dụ 3.2.2. Xét tiếp ví dụ 3.2.1, giả sử chi phí chào hàng giảm 1 triệu đồng và chi phí quảng cáo tăng 5 triệu đồng thì doanh số bán tăng trong khoảng nào với độ tin cậy 95%? Ta cần tìm khoảng tin cậy 95% cho (−β2 + 5β3). Công thức khoảng tin cậy:( (−β̂2+5β̂3)− se(−β̂2+5β̂3).t(n−3)α/2 < −β2+5β3 < (−β̂2+5β̂3)+ se(−β̂2+5β̂3).t (n−3) α/2 ) . Với cov(β̂2, β̂3) = −0, 08522 ta có: se(−β̂2 + 5β̂3) = √ var(β̂2) + 25var(β̂3)− 10cov(β̂2, β̂3) = 2, 1613. Do đó, khoảng tin cậy của (−β2 + 5β3) là: (3, 2626; 13, 0404). Vậy với độ tin cậy 95%, nếu chi phí chào hàng giảm 1 triệu đồng và chi phí quảng cáo tăng 5 triệu đồng thì doanh số bán sẽ tăng trong khoảng từ 3, 26 đến 13, 04 triệu đồng. 3.2.3. Khoảng tin cậy của phương sai sai số ngẫu nhiên Phương sai tổng thể σ2 chính là phương sai của sai số ngẫu nhiên U . Thông thường do không có thông tin trên tổng thể nên không thể tính σ2, ta thay bằng ước lượng điểm của nó là σ̂2. Với sai số ngẫu nhiên có phân phối chuẩn, người ta chứng minh được rằng đại lượng ngẫu nhiên χ2 = (n− k) σ̂ 2 σ2 ∼ χ2(n− k). 46 Chương 3: Suy diễn thống kê và dự báo từ mô hình hồi quy với k là số hệ số trong mô hình hồi quy. Với độ tin cậy 1 − α, tra bảng phân phối χ2 ta tìm được các giá trị tới hạn χ 2(n−k) 1−α/2 , χ 2(n−k) α/2 thỏa mãn điều kiện: P ( χ 2(n−k) 1−α/2 6 χ 2 6 χ2(n−k) α/2 ) = 1− α. Từ đó, χ 2(n−k) 1−α/2 6 (n− k) σ̂2 σ2 6 χ2(n−k) α/2 . Vậy với độ tin cậy 1− α, ta có các khoảng tin cậy của phương sai như sau: 1) Khoảng tin cậy hai phía: ( (n− k)σ̂2 χ 2(n−k) α/2 6 σ2 6 (n− k)σ̂ 2 χ 2(n−k) 1−α/2 ) 2) Khoảng tin cậy bên phải: ( (n− k)σ̂2 χ 2(n−k) α ; +∞ ) 3) Khoảng tin cậy bên trái: ( 0; (n− k)σ̂2 χ 2(n−k) 1−α ) Ví dụ 3.2.3. Trở lại với ví dụ 3.2.1, ta tìm khoảng tin cậy cho σ2 với độ tin cậy 95%. Từ bảng kết quả hồi quy ta có σ̂2 = 46, 049892. Với độ tin cậy 1− α = 0, 95 và số bậc tự do là n− 3 = 9 thì χ 2(n−3) α/2 = χ 2(9) 0,025 = 19, 023; χ 2(n−3) 1−α/2 = χ 2(9) 0,975 = 2, 7004. Vậy khoảng tin cậy hai phía của σ2 là( 9× 46, 049892 19, 023 6 σ2 6 9× 46, 04989 2 2, 7004 ) hay (1003, 2766 6 σ2 6 7067, 5941). 3.2.4. Ý nghĩa của khoảng tin cậy Khoảng tin cậy của βj với độ tin cậy 95% được hiểu như sau: nếu ta chọn ngẫu nhiên nhiều mẫu từ cùng một tổng thể, mỗi mẫu ta xác định được một khoảng tin cậy, thì có khoảng 95% số khoảng tin cậy đó là có chứa giá trị βj. Trong thực tế phân tích hồi quy, ta thường chỉ có một mẫu duy nhất và một khoảng tin cậy cụ thể tương ứng và ta hy vọng rằng khoảng tin cậy này nằm trong số 95% khoảng tin cậy chó chứa βj. Khi lấy độ tin cậy càng lớn thì xác suất để mẫu được chọn có khoảng tin cậy tương ứng chứa giá trị βj càng lớn, tuy nhiên khi đó khoảng tin cậy sẽ rộng hơn, nghĩa là độ chính xác của khoảng tin cậy giảm. Một khoảng tin cậy quá rộng thì thông tin đem lại về giá trị của hệ số cần ước lượng là kém chính xác. Chương 3: Suy diễn thống kê và dự báo từ mô hình hồi quy 47 Hình 3.1 Minh họa các khoảng tin cậy Khi đã cố định độ tin cậy thì độ dài khoảng tin cậy sẽ phụ thuộc các yếu tố sau: + Thứ nhất, số bậc tự do (n − k). Số bậc tự do càng nhỏ thì giá trị tới hạn tα/2(n− k) càng lớn và do đó khoảng tin cậy càng rộng. + Thứ hai, mối tương quan tuyến tính giữa Xj và các biến độc lập còn lại trong mô hình. Khi mối tương quan càng chặt thì R2j càng cao và khi đó làm cho se(β̂j càng lớn, do đó khoảng tin cậy sẽ rộng hơn. Khi R2j gần đến giá trị 1 thì khoảng tin cậy sẽ rộng ra vô cùng và trở nên mất ý nghĩa thực tế. 3.3 KIỂM ĐỊNH GIẢ THUYẾT VỀ HỆ SỐ HỒI QUY Ta biết rằng tác động của một biến độc lập lên biến phụ thuộc được thể hiện bởi các hệ số hồi quy trong mô hình. Trong phân tích hồi quy ta thường quan tâm đến việc kiểm định các giả thuyết liên quan đến việc đánh giá mức độ của các tác động này. Đây là các bài toán kiểm giả thuyết về hệ số hồi quy. 3.3.1. Kiểm định giả thuyết về một hệ số hồi quy Kiểm định giả thuyết H0 : βj = β0j (j = 1, 2, ..., k) ta dùng thống kê t = β̂j − β0j se(β̂j) (j = 1, 2, ..., k) Trường hợp đặc biệt H0 : βj = 0, giả thuyết này ngụ ý rằng biến độc lập Xj không ảnh hưởng đến biến phụ thuộc Y . Tùy theo giả thuyết đối H1, ta có bảng tóm tắt quy tắc kiểm định trong bảng 3.1. Với t0 là giá trị quan sát của thống kê kiểm định được tính bởi: t0 = β̂j − β0j se(β̂j) 48 Chương 3: Suy diễn thống kê và dự báo từ mô hình hồi quy Loại Giả Phương Quy tắc kiểm định thuyết pháp bác bỏ H0 H0 : βj = β 0 j Khoảng tin cậy β0 /∈ ( β̂j − t(n−k)α/2 .se(β̂j); β̂j + t(n−k)α/2 .se(β̂j) ) Hai phía H1 : βj 6= β0j Giá trị tới hạn |t0| > t(n−k)α/2 p-value p− value < α H0 : βj > β0j Khoảng tin cậy β0 /∈ ( β̂j − t(n−k)α .se(β̂j); +∞ ) Bên trái H1 : βj < β0j Giá trị tới hạn t0 < −t(n−k)α p-value p− value/2 < α H0 : βj 6 β0j Khoảng tin cậy β0 /∈ ( −∞; β̂j + t(n−k)α .se(β̂j) ) Bên phải H1 : βj > β0j Giá trị tới hạn t0 > t (n−k) α p-value p− value/2 < α p− value = P (|tα| > |t0|) Bảng 3.1 Tóm tắt quy tắc kiểm định một hệ số hồi quy Ví dụ 3.3.1. Với số liệu cho ở ví dụ 3.2.1, ta kiểm định cặp giả thuyết H0 : β2 = 0; H1 : β2 6= 0 với mức ý nghĩa 5%. Giải: Ta có t0 = β̂2 − 0 se(β̂2) = β̂2 se(β̂2) = 4, 64951 0, 469148 = 9, 911 Với mức ý nghĩa α = 0, 05 và n = 12 thì t(n−3) α/2 = t (9) 0,025 = 2, 262. Vì |t0| > t(9)0,025 nên ta bác bỏ giả thuyết H0, tức chi phí chào hàng thực sự có ảnh hưởng đến doanh số bán ở một khu vực bán hàng. Tương tự như vậy, ta có thể kiểm định giả thuyết H0 : β3 = 0; H1 : β3 6= 0. Ta có t0 = β̂3 − 0 se(β̂3) = β̂3 se(β̂3) = 2, 560152 0, 379407 = 6, 748. Vì |t0| > t(9)0,025 nên ta bác bỏ giả thuyết H0, tức chi phí quảng cáo thực sự có ảnh hưởng đến doanh số bán hàng. * Ghi chú: hai giả thuyết ở trên là các giả thuyết đặc biệt, nên giá trị quan sát đã được tính sẵn trong bảng hồi quy. Ngoài ra, với những giả thuyết này ta có thể sử dụng p− value để kiểm định. Chẳng hạn, với giả thuyết đầu tiên H0 : β2 = 0 ta có p− value = 0, 0000 < 0, 05 nên ta bác bỏ giả thuyết H0. Chương 3: Suy diễn thống kê và dự báo từ mô hình hồi quy 49 3.3.2. Kiểm định giả thuyết về một ràng buộc giữa các hệ số hồi quy Xét mô hình hồi quy k biến Yi = β1 + β2X2i + · · ·+ βkXki + Ui Giả sử kết quả hồi quy cho thấy β̂2 6= β̂3 và ta muốn kiểm định giả thiết cho rằng tác động của biến X2 và biến X3 lên biến Y là khác nhau. Khi đó, ta sẽ kiểm định cặp giả thuyết sau: H0 : β2 − β3 = 0, H1 : β2 − β3 6= 0. Thống kê dùng để kiểm định cặp giả thuyết này là: t = (β̂2 − β̂3)− 0 se(β̂2 − β̂3) . Nếu giả thuyết H0 đúng thì thống kê t có phân phối Student với (n− k) bậc tự do. Do đó, các bước thực hiện cũng như cách thức đưa ra kết luận kiểm định cho các giả thuyết này đều tương tự như trong trường hợp kiểm định một hệ số. Trường hợp tổng quát, giả thuyết H0 : aβi + bβj = a∗. Ta có thể tóm tắt trong bảng 3.2. Loại kiểm định Giả thuyết Quy tắc bác bỏ H0 Hai phía H0 : aβj + bβs = a ∗ |t0| > t(n−k)α/2 H1 : aβj + bβs 6= a∗ Bên trái H0 : aβj + bβs > a∗ t0 < −t(n−k)α H1 : aβj + bβs < a ∗ Bên phải H0 : aβj + bβs 6 a∗ t0 > t(n−k)α H1 : aβj + bβs > a ∗ Bảng 3.2 Quy tắc kiểm định một ràng buộc giữa các hệ số hồi quy Giá trị quan sát t0 được tính bởi: t0 = (aβ̂j + bβ̂s)− a∗ se(aβ̂j + bβ̂s) . với a, b, a∗ là các hằng số cho trước, tùy vào yêu cầu cụ thể của giả thuyết cần kiểm định. Ví dụ 3.3.2. Xét tiếp ví dụ 3.2.1, với mức ý nghĩa 5% có thể cho rằng chi phí cho chào hàng hiệu quả hơn chi phí cho quảng cáo không? Cho biết cov(β̂2, β̂3) = −0, 08522. 50 Chương 3: Suy diễn thống kê và dự báo từ mô hình hồi quy Để trả lời câu hỏi này, ta xét cặp giả thuyết sau đây:{ H0 : β2 6 β3 H1 : β2 > β3 ⇔ { H0 : β2 − β3 6 0 H1 : β2 − β3 > 0 Ta có se(β̂2 − β̂3) = √ 0, 46912 + 0, 37942 + 2.0, 08522 = 0, 731 Do đó, giá trị quan sát của thống kê kiểm định là: t0 = (4, 6495− 2, 5601)− 0 0, 731 = 2, 858. Tra bảng tìm t(n−k)α = t (9) 0,05 = 1, 833. Ta thấy t0 > t (9) 0,05 nên có đủ cơ sở để bác bỏ H0 và thừa nhận H1. Như vậy, thông tin từ mẫu đủ cơ sở để cho rằng chi phí cho chào hàng hiệu quả hơn chi phí cho quảng cáo. 3.3.3. Kiểm định giả thuyết về nhiều ràng buộc giữa các hệ số hồi quy Xét mô hình k biến sau: Y = β0 + β1X1 + · · ·+ βmXm + βm+1Xm+1 + · · ·+ βk−1Xk−1 + U (3.3.1) Chẳng hạn, ta muốn kiểm định đồng thời m ràng buộc{ H0 : β1 = 0, ..., βm = 0 H1 : β 2 1 + · · ·+ β2m > 0 (3.3.2) Nếu giả thuyết H0 trong (3.3.2) là đúng thì mô hình hồi quy (3.3.1) và mô hình hồi quy sau là tương đương: Y = β1 + βm+1Xm+1 + · · ·+ βk−1Xk−1 + U (3.3.3) Ta gọi mô hình (3.3.1) là mô hình hồi quy không có ràng buộc (Unrestricted model), ký hiệu (U) và mô hình (3.3.3) là mô hình hồi quy có ràng buộc (Restricted model) (hay mô hình bị thu hẹp), ký hiệu (R). Để kiểm định giả thuyết (3.3.2) ta có thể sử dụng kiểm định F. Tư tưởng của kiểm định F là dựa trên sự khác biệt giữa RSS trong hai mô hình. Nếu H0 là đúng thì kết quả ước lượng hai mô hình này phải khá giống nhau và như vậy sự khác biệt giữa RSS trong hai mô hình ước lượng là khá nhỏ. Do đó, nếu sau khi ước lượng, kết quả cho thấy sự khác biệt giữa RSS của hai mô hình là lớn thì điều này ủng hộ cho việc bác bỏ giả thuyết H0. Để đánh giá sự khác biệt thế nào là lớn hay không đủ lớn, chúng ta dựa vào giá trị quan sát của thống kê kiểm định F. Chương 3: Suy diễn thống kê và dự báo từ mô hình hồi quy 51 Các bước thực hiện kiểm định F như sau: • Bước 1: Thiết lập cặp giả thuyết thống kê. • Bước 2: Ước lượng hàm hồi quy không có ràng buộc thu được RSSU và hàm hồi quy có ràng buộc thu được RSSR. • Bước 3: Tính giá trị quan sát của thống kê kiểm định theo công thức F0 = (RSSR −RSSU )/m RSSU/(n− kU ) (3.3.4) trong đó m là số ràng buộc trong giả thuyết H0, kU là số hệ số hồi quy trong mô hình không có ràng buộc (đang xét là k). • Bước 4: So sánh nếu F0 > fα(m,n− kU ) thì giả thuyết H0 bị bác bỏ. Trường hợp ngược lại, chưa có đủ cơ sở để bác bỏ H0. Hoặc có thể dựa vào giá trị xác suất P-value= P (F > F0) < α, ta kết luận bác bỏ giả thuyết H0. * Kiểm định F sử dụng R2: Khi biến phụ thuộc của mô hình không ràng buộc và mô hình có ràng buộc là như nhau, giá trị quan sát trong công thức (3.3.6) có thể được tính bởi công thức tương đương sau: F0 = (R2U −R2R)/m (1−R2U )/(n− kU ) (3.3.5) Phương pháp kiểm định trên đây còn được gọi là kiểm định Wald. Kiểm định Wald được sử dụng với nhiều mục đích khác nhau liên quan đến hệ số hồi quy như kiểm định tổ hợp tuyến tính, kiểm định thừa biến,... Ngoài ra, cũng lưu ý rằng nếu giả thiết là H0 : βj = 0 thì kết luận của kiểm định Wald tương đương với kết luận theo kiểm định t. Ví dụ 3.3.3. Xét mối quan hệ giữa chi tiêu (CT) với thu nhập từ lao động (TN), giá trị tài sản (TS), thu nhập từ chứng khoán (CK) và thu nhập phụ khác (TNP) trong năm. Kết quả hồi quy từ mẫu gồm 30 quan sát như sau: CTi = 78, 27 + 0, 72TNi − 0, 002TSi + 3, 89CKi + 0, 18TNPi + Ûi se (32, 15) (0, 037) (0, 054) (4, 19) (0, 60) R2 = 0, 9997 Giả sử muốn kiểm định giả thuyết cho rằng các biến TS, CK và TNP đều cùng không tác động đến CT. Ta thiết lập cặp giả thuyết H0 : β3 = 0, β4 = 0, β5 = 0; H1 : β 2 3 + β 2 4 + β 2 5 > 0. Kết quả ước lượng mô hình có ràng buộc CT = β1 + β2TN + U như sau: 52 Chương 3: Suy diễn thống kê và dự báo từ mô hình hồi quy CTi = 80, 16 + 0, 85TNi + Ûi se (8, 52) (0, 004) R2 = 0, 9993 Do đó, giá trị quan sát của thống kê kiểm định là: F0 = (0, 9997− 0, 9993)/3 (1− 0, 9997)/(30− 5) = 11, 11. Tra bảng tìm được f (3,25)0,05 = 2, 99. Như vậy, F0 > f (3,25) 0,05 nên ta bác bỏ giả thuyết H0 và thừa nhận giả thuyết H1. Vậy với mức ý nghĩa 5%, có ít nhất một trong các biến TS, CK và TNP là có tác động tới chi tiêu. Trong ví dụ ở trên trình bày kiểm định giả thuyết về sự đồng thời bằng 0 của các hệ số hồi quy. Kiểm định Wald cũng được áp dụng một cách hoàn toàn tương tự cho các ràng buộc tuyến tính nói chung giữa các hệ số hồi quy. Chẳng hạn, H0 : β2 = 0, β3 = 0, β4 + β5 = 1. 3.3.4. Kiểm định sự phù hợp của hàm hồi quy Một trường hợp đặc biệt của kiểm định giả thuyết về nhiều ràng buộc của các hệ số hồi quy là bài toán kiểm định sau: H0 : β2 = β3 = .. = βk = 0; H1 : Không phải tất cả các hệ số hồi quy riêng đồng thời bằng 0. Giả thiết H0 ngụ ý rằng toàn bộ các biến độc lập trong mô hình đều không ảnh hưởng đến biến phụ thuộc. Khi đó, ta nói mô hình không phù hợp. Cặp giả thuyết trên tương đương với cặp giả thiết sau: H0 : R 2 = 0; H1 : R 2 > 0 Để áp dụng quy trình kiểm định F trong trường hợp này, ta thực hiện như sau: Ước lượng hai mô hình: + Mô hình hồi quy gốc - Mô hình không có điều kiện ràng buộc thu được R2 Y = β1 + β2X2 + · · ·+ βkXk + U + Mô hình có điều kiện ràng buộc Y = β1 + U Mô hình này có hệ số xác định bằng 0. Do hai mô hình đều có cùng biến phụ thuộc nên giá trị quan sát của thống kê kiểm định có thể được tính theo công thức sau: F0 = R2/(k − 1) (1−R2)/(n− k) . Chương 3: Suy diễn thống kê và dự báo từ mô hình hồi quy 53 Với mức ý nghĩa α, tra bảng phân phối F với bậc tự do n1 = k− 1 và n2 = n− k để tìm giá trị fα(k − 1, n− k). So sánh giá trị thống kê F và giá trị tra bảng fα(k − 1, n− k): • Nếu F > fα(k − 1, n − k) thì ta bác bỏ giả thuyết H0, tức là các hệ số hồi quy không đồng thời bằng 0 (hay hệ số xác định R2 khác 0 có nghĩa), nghĩa là có ít nhất một biến độc lập giải thích cho sự biến đổi của biến phụ thuộc. Mô hình hồi quy được gọi là phù hợp. • Nếu F ≤ fα(k − 1, n − k) thì ta không bác bỏ giả thuyết H0, tức các hệ số hồi quy đồng thời bằng 0 (hay hệ số xác định R2 bằng 0 có ý nghĩa), tất cả các biến độc lập cùng lúc không ảnh hưởng đến biến phụ thuộc. Điều này có nghĩa là mô hình hồi quy không giải thích được sự thay đổi của biến phụ thuộc. Nói cách khác, mô hình hồi quy không phù hợp. Ví dụ 3.3.4. Xét tiếp ví dụ 3.2.1, ta kiểm định cặp giả thuyết { H0 : β2 = β3 = 0 H1 : có ít nhất một hệ số βj 6= 0 hay { H0 : R 2 = 0 H1 : R 2 > 0 Ta có: F0 = R2(n− k) (1−R2)(k − 1) = 0, 9677× (12− 3) (1− 0, 9677)× (3− 1) = 134, 79. Tra bảng fα(k − 1, n− k) = f0,05(2, 9) = 4, 256. Như vậy, F > fα(k− 1, n− k) nên ta bác bỏ giả thuyết H0, thừa nhận giả thuyết H1. Vậy với mức ý nghĩa 5% thì có ít nhất chi phí chào hàng hoặc chi phí quảng cáo ảnh hưởng đến doanh số bán hàng hay có thể coi mô hình hồi quy là phù hợp. 3.3.5. So sánh kiểm định T và kiểm định F Trường hợp kiểm định một ràng buộc Khi kiểm định cặp giả thuyết dạng: H0 : βj = β ∗; H1 : βj 6= β∗ ta có thể áp dụng cả hai loại kiểm định T và kiểm định F với kết luận là hoàn toàn giống nhau. Có được điều này là do: (t0) 2 = ( β̂j − β∗ se(β̂j) )2 = F0 (3.3.6) 54 Chương 3: Suy diễn thống kê và dự báo từ mô hình hồi quy Mặt khác, với mọi giá trị α, quan hệ giữa hai giá trị tới hạn của hai phân phối này là như sau: (tα(n− k))2 = fα(1, n− k) (3.3.7) Do đó, giá trị xác suất p của hai thống kê quan sát là bằng nhau khi thực hiện kiểm định trên cùng một mẫu. Trường hợp kiểm định đồng thời nhiều hơn một ràng buộc Khi kiểm định giả thuyết đồng thời bằng 0 của nhiều hệ số, việc sử dụng kiểm định T cho từng hệ số thay vì dùng kiểm định F là không xác đáng và không đáng tin cậy trong một số trường hợp. Chẳng hạn, như trong tình huống với kết quả hồi quy như trong hình 3.2. Hình 3.2 Kết quả hồi quy Ta thấy t0 ứng với từng biến độc lập X2, X3 rất nhỏ, lần lượt là 1, 4317 và −0, 5622, nên ta đi đến kết luận là cả hai biến này đều không giải thích cho biến phụ thuộc. Tuy nhiên, kiểm định F lại cho kết quả ngược lại. 3.4 KIỂM ĐỊNH GIẢ THUYẾT VỀ PHƯƠNG SAI SAI SỐ NGẪU NHIÊN Phương pháp kiểm định giả thuyết về phương sai của sai số ngẫu nhiên được tiến hành tương tự như kiểm định giả thuyết về hệ số hồi quy. Ta có thể tóm tắt các phương pháp qua bảng 3.3. Giả thuyết kiểm định: H0 : σ2 = σ20. Giá trị kiểm định: χ20 = (n− k)σ̂2 σ20 . Ví dụ 3.4.1. Với số liệu ở ví dụ 3.2.1, có thể cho rằng phương sai của sai số ngẫu nhiên là 2500 hay không với mức ý nghĩa 5%? Theo yêu cầu, ta kiểm định giả thuyết H0 : σ2 = 2500; H1 : σ2 6= 2500. Chương 3: Suy diễn thống kê và dự báo từ mô hình hồi quy 55 Loại kiểm định Giả thuyết Phương pháp Quy tắc bác bỏ H0 Khoảng tin cậy σ20 /∈ ((n− k)σ̂2 χ 2(n−k) α/2 ; (n− k)σ̂2 χ 2(n−k) 1−α/2 ) H0 : σ 2 = σ20 Giá trị χ 2 0 > χ 2(n−k) α/2 Hai phía H1 : σ 2 6= σ20 tới hạn hoặc χ20 < χ2(n−k)1−α/2 p-value p− value < α/2 hoặc p− value > 1− α/2 H0 : σ 2 6 σ20 Khoảng tin cậy σ20 /∈ ((n− k)σ̂2 χ 2(n−k) α ; +∞ ) Bên phải H1 : σ 2 > σ20 Giá trị tới hạn χ 2 0 > χ 2(n−k) α p-value p− value < α H0 : σ 2 > σ20 Khoảng tin cậy σ20 /∈ ( −∞; (n− k)σ̂ 2 χ 2(n−k) 1−α ) Bên trái H1 : σ 2 < σ20 Giá trị tới hạn χ 2 0 < χ 2(n−k) 1−α p-value p− value > 1− α Bảng 3.3 Tóm tắt quy tắc kiểm định phương sai + Phương pháp khoảng tin cậy: Theo ví dụ 3.2.3, khoảng tin cậy của phương sai với độ tin cậy 95% là (1003, 2766 6 σ2 6 7067, 5941). Nhận thấy, 2500 thuộc vào khoảng tin cậy của σ2. Do đó, ta không bác bỏ giả thuyết H0. + Phương pháp giá trị tới hạn: Giá trị kiểm định: χ20 = (n− 3)σ̂2 σ20 = (12− 3)× 46, 049892 2500 = 7, 634. Các giá trị tới hạn: χ2α/2(n− 3) = χ20,025(9) = 19, 023; χ21−α/2(n− 3) = χ20,975(9) = 2, 7004. Như vậy, χ21−α/2(n− 3) < χ20 < χ2α/2(n− 3) nên χ20 không thuộc miền bác bỏ. Do đó, ta không bác bỏ giả thuyết H0, tức là có thể cho rằng phương sai sai số ngẫu nhiên là 2500. 56 Chương 3: Suy diễn thống kê và dự báo từ mô hình hồi quy 3.5 DỰ BÁO GIÁ TRỊ CỦA BIẾN PHỤ THUỘC VÀ SAI SỐ DỰ BÁO 3.5.1. Dự báo giá trị của biến phụ thuộc Có 2 loại dự báo: + Dự báo giá trị trung bình có điều kiện của Y với giá trị X = X0; + Dự báo giá trị riêng biệt Y0 của Y với giá trị X = X0. Dự báo giá trị trung bình có điều kiện Cho X0 =  1 X02 ... X0k  ta cần dự báo giá trị trung bình của biến phụ thuộc Y , tức dự báo E(Y/X0) = β1 + β2X 0 2 + ...+ βkX 0 k Dự báo điểm (ước lượng điểm) của E(Y/X0) chính là Ŷ0 Ŷ0 = β̂1 + β̂2X 0 2 + ...+ β̂kX 0 k Ta hãy tìm dự báo khoảng (ước lượng khoảng) của E(Y/X0) khi X2 nhận giá trị X02 , ..., Xk nhận giá trị X 0 k . Với X = X0 ta có Ŷ0 = (X 0)T β̂ ⇒ var(Ŷ0) = (X0)T cov(β̂)X0 Vì cov(β̂) = σ2(XTX)−1 nên var(Ŷ0) = σ 2(X0)T (XTX)−1X0. Nhưng ta chưa biết σ2 nên phải dùng ước lượng không chệch của nó là σ̂2. Vậy ta có var(Ŷ0) = σ̂ 2(X0)T (XT .X)−1.X0; se(Ŷ0) = √ var(Ŷ0) Với độ tin cậy 1− α, dự báo khoảng của E(Y/X0) là:( Ŷ0 − se(Ŷ0).t(n−k)α/2 < E(Y/X0) < Ŷ0 + se(Ŷ0).t (n−k) α/2 ) Chương 3: Suy diễn thống kê và dự báo từ mô hình hồi quy 57 Dự báo giá trị riêng biệt Ta tìm dự báo khoảng cho giá trị của biến phụ thuộc Y khi X = X0 với độ tin cậy 1− α, tức là tìm khoảng tin cậy cho Y0. Khoảng tin cậy của Y0 với độ tin cậy 1− α là:( Ŷ0 − se(Y0 − Ŷ0).t(n−k)α/2 < Y0 < Ŷ0 + se(Y0 − Ŷ0).t (n−k) α/2 ) trong đó var(Y0 − Ŷ0) = var(Ŷ0) + σ̂2; se(Y0 − Ŷ0) = √ var(Y0 − Ŷ0) * Ghi chú: Với mô hình hồi quy hai biến Y = β1 + β2X +U ta có thể tính các phương sai theo các công thức sau: var(Ŷ0) = σ̂ 2 [ 1 n + (X0 −X)2 n∑ i=1 x2i ] (3.5.1) var(Y0 − Ŷ0) = σ̂2 [ 1 + 1 n + (X0 −X)2 n∑ i=1 x2i ] = var(Ŷ0) + σ̂ 2 (3.5.2) Ví dụ 3.5.1. Với số liệu cho ở ví dụ 3.2.1, hãy dự báo giá trị trung bình và dự báo giá trị riêng biệt cho doanh số bán của một khu vực bán hàng khi chi phí chào hàng là 165 triệu đồng/năm và chi phí quảng cáo là 200 triệu đồng/năm với độ tin cậy 95%? Giải: Ta tính được các giá trị Ŷ0 = 328, 1383 + 4, 6495× 165 + 2, 5601× 200 = 1607, 388; se(Ŷ0) = 25, 2017; t (9) 0,025 = 2, 263 Vậy dự báo khoảng cho doanh số bán trung bình của một khu vực bán hàng với độ tin cậy 95% là: (1607, 338− 25, 2017.2, 263 < E(Y/X0) < 1607, 338 + 25, 2017.2, 263) hay (1550, 328 < E(Y/X0) < 1664, 3483) Tiếp theo, ta có var(Y0 − Ŷ0) = var(Ŷ0) + σ̂2 = 635, 1255 + 2120, 5922 = 2755, 7177. ⇒ se(Y0 − Ŷ0) = √ 2755, 7177 = 52, 4949. 58 Chương 3: Suy diễn thống kê và dự báo từ mô hình hồi quy Vậy dự báo khoảng cho giá trị riêng biệt của doanh số là: (1607, 338− 52, 4949× 2, 263 < Y 0 < 1607, 338 + 52, 4949× 2, 263) hay (1488, 5420 < Y 0 < 1726, 1340) Ta thấy khoảng tin cậy của giá trị dự báo riêng biệt có độ rộng lớn hơn so với dự báo giá trị trung bình. 3.5.2. Đánh giá sai số dự báo Kết quả dự báo thường gắn với sai số dự báo. Với mô hình hồi quy, sai số dự báo được tính trên sự sai lệch giữa giá trị thực tế và giá trị ước lượng của biến phụ thuộc. Sau đây là một số chỉ số để đo lường độ chính xác dự báo. a) Căn bậc hai của trung bình bình phương sai số (Root Mean Squared Error) RMSE = √√√√ n∑ i=1 (Yi − Ŷi)2 n b) Sai số tuyệt đối trung bình (Mean Absolute Error) MAE = n∑ i=1 |Yi − Ŷi| n Đây là thước đo rất hữu ích khi người phân tích muốn đo lường sai số dự báo có cùng đơn vị tính với dữ liệu gốc. c) Sai số tuyệt đối trung bình tính theo phần trăm (Mean Absolute Percentage Error) MAPE = n∑ i=1 ∣∣∣∣∣Yi − ŶiYi ∣∣∣∣∣ n Giá trị của hai thước đo đầu tiên phụ thuộc vào đơn vị đo của biến phụ thuộc, cò

Các file đính kèm theo tài liệu này:

bai_giang_kinh_te_luong_hoang_manh_hung_3855_1982897.pdf