Tài liệu Bài giảng Kinh tế lượng - Chương 1: Mô hình hồi qui hai biến - Phạm Văn Minh: Chương 1
MÔ HÌNH HỒI QUI HAI BIẾN
Những khái niệm cơ bản
1
Phạm Văn Minh biên soạn
NỘI DUNG
1. Bản chất của phân tích hồi quy
2. Bản chất và nguồn số liệu cho PTHQ
3. Mô hình hồi quy hai biến
2
Phạm Văn Minh biên soạn
Phân tích hồi quy là tìm quan hệ phụ thuộc của một
biến, được gọi là biến phụ thuộc vào một hoặc nhiều
biến khác, được gọi là biến độc lập nhằm mục đích ước
lượng hoặc tiên đoán giá trị kỳ vọng (trung bình) của
biến phụ thuộc khi biết trước giá trị của biến độc lập.
Biến độc lập hay biến giải thích là biến phi ngẫu nhiên
nó ảnh hưởng hay tác động tới biến khác, thường được
ký hiệu là X.
Biến phụ thuộc hay biến được giải thích là biến ngẫu
nhiên, nó chịu ảnh hưởng hay chịu tác động của biến
khác, thường được ký hiệu là Y.
1. Bản chất của phân tích hồi quy (1)
3
Phạm Văn Minh biên soạn
Ví dụ
1. Bản chất của phân tích hồi quy (2)
BIẾN PHỤ THUỘC - Y
(Dependent variable)
BIẾN ĐỘC LẬP - Xi
(Independent variable)
Chi tiêu ?
Chiều cao ?
...
36 trang |
Chia sẻ: putihuynh11 | Lượt xem: 814 | Lượt tải: 0
Bạn đang xem trước 20 trang mẫu tài liệu Bài giảng Kinh tế lượng - Chương 1: Mô hình hồi qui hai biến - Phạm Văn Minh, để tải tài liệu gốc về máy bạn click vào nút DOWNLOAD ở trên
Chương 1
MÔ HÌNH HỒI QUI HAI BIẾN
Những khái niệm cơ bản
1
Phạm Văn Minh biên soạn
NỘI DUNG
1. Bản chất của phân tích hồi quy
2. Bản chất và nguồn số liệu cho PTHQ
3. Mô hình hồi quy hai biến
2
Phạm Văn Minh biên soạn
Phân tích hồi quy là tìm quan hệ phụ thuộc của một
biến, được gọi là biến phụ thuộc vào một hoặc nhiều
biến khác, được gọi là biến độc lập nhằm mục đích ước
lượng hoặc tiên đoán giá trị kỳ vọng (trung bình) của
biến phụ thuộc khi biết trước giá trị của biến độc lập.
Biến độc lập hay biến giải thích là biến phi ngẫu nhiên
nó ảnh hưởng hay tác động tới biến khác, thường được
ký hiệu là X.
Biến phụ thuộc hay biến được giải thích là biến ngẫu
nhiên, nó chịu ảnh hưởng hay chịu tác động của biến
khác, thường được ký hiệu là Y.
1. Bản chất của phân tích hồi quy (1)
3
Phạm Văn Minh biên soạn
Ví dụ
1. Bản chất của phân tích hồi quy (2)
BIẾN PHỤ THUỘC - Y
(Dependent variable)
BIẾN ĐỘC LẬP - Xi
(Independent variable)
Chi tiêu ?
Chiều cao ?
Thu nhập ?
Số vụ tai nạn ?
Doanh thu ?
Sản lượng nông sản ?
4
Phạm Văn Minh biên soạn
Ví dụ
1. Bản chất của phân tích hồi quy (2)
BIẾN PHỤ THUỘC - Y
(Dependent variable)
BIẾN ĐỘC LẬP - Xi
(Independent variable)
Chi tiêu Thu nhập, Giới tính, v.v.
Chiều cao Tuổi, Giới tính, v.v.
Thu nhập Tuổi, Trình độ học vấn, v.v.
Số vụ tai nạn Lượng bia tiêu thụ, v.v.
Doanh thu Chi phí quảng cáo, v.v.
Sản lượng nông sản Lượng nước, Phân bón, v.v.
5
Phạm Văn Minh biên soạn
Biểu đồ phân tán: Chiều cao theo độ tuổi
1. Bản chất của phân tích hồi quy (3)
115
120
125
130
135
9 10 11 12 13 14 15
C
H
I
E
U
C
A
O
TUOI
6
Phạm Văn Minh biên soạn
Phân tích hồi quy giải quyết các vấn đề sau
đây:
1. Ước lượng giá trị trung bình của biến phụ
thuộc với giá trị đã cho của biến độc lập.
2. Kiểm định giả thiết về bản chất của sự phụ
thuộc.
3. Dự đoán giá trị trung bình của biến phụ thuộc
khi biết giá trị đã cho của biến độc lập.
1. Bản chất của phân tích hồi quy (4)
7
• Quan hệ hàm số (tất định) và quan hệ thống kê
QHHS: Shcn = Dài x Rộng; Y = 2.X + 3.
QHTK: Cùng diện tích và kỹ thuật nuôi tôm năng
suất khác nhau.
• Hồi quy và quan hệ nhân quả
Có thể hồi quy số vụ trộm theo số nhân viên cảnh
sát hoặc ngược lại.
Quan hệ nhân quả chỉ ra rằng số cảnh sát tăng do
số vụ trộm tăng.
• Hồi quy và tương quan
Phân tích tương quan chỉ cho thấy độ mạnh yếu
của mối quan hệ tuyến tính giữa hai biến số.
1.1. Sự khác nhau giữa các dạng quan hệ (1)
8
2. Bản chất và nguồn số liệu cho PTHQ
2.1. Các loại số liệu
Số liệu chuỗi thời gian (time-series)
Là một tập hợp quan sát về các giá trị mà một hay nhiều biến số
ở cùng một đơn vị (địa phương) nhận trong những thời gian
khác nhau. VD: GDP, Số người thất nghiệp của Việt Nam từ
1986 đến 2015, v.v.
Số liệu chéo (cross-sectional) (*)
Là số liệu của một hay nhiều biến thu thập tại cùng một thời
điểm ở nhiều đơn vị (địa phương khác nhau). VD: Điều tra dân
số Việt Nam năm 2014, Giá thuê văn phòng tại các quận
Tp.HCM, v.v.
Số liệu tổng hợp (pooled data)
Bao gồm cả số liệu chuỗi thời gian và số liệu chéo. VD: Sản
lượng cà phê từ năm 2002 đến năm 2012 của các tỉnh Bình
Phước, Đắc Lắc, Gia Lai, v.v. 9
2. Bản chất và nguồn số liệu cho PTHQ
2.1. Các loại số liệu (tt)
Số liệu chuỗi thời gian (time-series)
Giá dầu ($/thùng) trung bình hàng năm từ 1999 - 2014
Year Nominal Price
Inflation
Adjusted
Price
Year Nominal Price
Inflation
Adjusted
Price
1999 $16.56 $23.42 2007 $64.20 $72.99
2000 $27.39 $37.55 2008 $91.48 $100.01
2001 $23.00 $30.69 2009 $53.48 $58.76
2002 $22.81 $29.92 2010 $71.21 $77.11
2003 $27.69 $35.55 2011 $87.04 $91.39
2004 $37.66 $47.05 2012 $86.46 $88.95
2005 $50.04 $60.45 2013 $91.17 $92.41
2006 $58.30 $68.28 2014 $89.08 $89.08
Nguồn: 10
2. Bản chất và nguồn số liệu cho PTHQ
2.1. Các loại số liệu (tt)
Số liệu chéo (cross-sectional) - Thường dùng trong KTL
Diện tích, dân số và mật độ dân số năm 2013 phân theo địa phương
Nguồn:
Diện tích
(Km2)
Dân số trung bình
(Nghìn người)
Mật độ dân số
(Người/km2)
Hà Nội 3324.3 6936.9 2087.0
Vĩnh Phúc 1238.6 1029.4 831.0
Bắc Ninh 822.7 1114.0 1354.0
Quảng Ninh 6102.4 1185.2 194.0
Hải Dương 1656.0 1747.5 1055.0
Hải Phòng 1527.4 1925.2 1260.0
Hưng Yên 926.0 1151.6 1244.0
Thái Bình 1570.5 1788.4 1139.0
Hà Nam 860.5 794.3 923.0
Nam Định 1652.8 1839.9 1113.0
Ninh Bình 1378.1 927.0 673.0
11
2. Bản chất và nguồn số liệu cho PTHQ
2.1. Các loại số liệu (tt)
Số liệu tổng hợp (pooled data)
Số lượt hành khách vận chuyển phân theo địa phương
Nguồn:
Triệu lượt người
2005 2006 2007 2008 2009 2010 2011 2012
Hà Giang 0,5 0,6 0,7 0,8 1,0 1,1 1,6 1,8
Cao Bằng 1,1 0,9 1,0 1,2 1,2 1,2 1,2 1,3
Bắc Kạn 1,3 1,4 1,5 1,6 2,1 2,2 3,0 3,0
Tuyên Quang 3,4 4,2 3,6 5,3 5,7 5,8 5,8 6,0
Lào Cai 2,5 3,0 3,4 4,0 4,1 4,2 4,6 4,6
Yên Bái 4,5 4,8 5,0 5,2 5,5 5,9 5,9 6,4
Thái Nguyên 2,5 3,2 4,0 4,8 5,9 6,3 7,2 8,2
Lạng Sơn 3,4 3,6 4,0 5,1 6,5 7,5 8,2 8,6
12
2. Bản chất và nguồn số liệu cho PTHQ
2.2. Bản chất và nguồn số liệu
Số liệu sơ cấp hoặc thứ cấp.
Thực nghiệm, thu được qua thí nghiệm (kỹ thuật,
Khoa học tự nhiên).
Phi thực nghiệm, thu thập từ thực tế (KHXH&NV,
Kinh tế).
Các số liệu có thể thu thập bởi:
Cơ quan nhà nước (Tổng cục thống kê, Quốc Hội, v.v.)
Các tổ chức quốc tế (WB, IMF, WHO, v.v.)
Các công ty (Chứng khoán, Sàn vàng, v.v.)
Các cá nhân (Nhà nghiên cứu, Sinh viên, v.v.) 13
2. Bản chất và nguồn số liệu cho PTHQ
2.3. Tính chính xác của số liệu
Trên thực tế có rất nhiều nguồn số liệu nhưng độ
chính xác thường không đủ cao, đó là do:
Sai số đo lường (do tính gần đúng hay làm tròn số).
Thiên lệch lựa chọn trong mẫu (sample bias): Đối tượng
đã được chọn phù hợp từ chối trả lời phiếu câu hỏi của
cuộc điều tra. Người trả lời không trả lời hết các câu hỏi
trong bảng phỏng vấn, nhờ người khác trả lời, v.v.
Phương pháp chọn mẫu khác nhau.
Số liệu kinh tế thường ở mức rất tổng hợp.
Một số số liệu quan trọng nhưng do tính bảo mật nên
không được công bố (vd: thuế TNCN).
Luôn nhớ rằng “Garbage In – Garbage Out” !!! 14
3. Mô hình hồi quy 2 biến
Một vài ý tưởng cơ bản
1. Định nghĩa về phân tích hồi quy
2. Hồi quy 2 biến
3. Hàm hồi quy tổng thể (PRF)
4. Hàm hồi quy mẫu (SRF)
15
3. Mô hình hồi quy 2 biến
3.1. Định nghĩa về mô hình hồi qui
Mô hình hồi quy là mô hình xem xét về xu thế thay
đổi của một biến này theo một biến hoặc một số
biến khác; hoặc xu thế thay đổi của một biến theo
thời gian và xu thế thay đổi đó thể hiện bởi một
phương trình toán học gọi là phương trình hồi quy.
Trong trường hợp một biến thay đổi theo các biến
khác, thì biến đó thường được gọi là biến phụ
thuộc (dependent variable) và các biến giải thích
cho sự thay đổi gọi là các biến độc lập
(independent variables). 16
3. Mô hình hồi quy 2 biến
3.2. Hồi qui 2 biến
Ước lượng hay dự đoán giá trị trung bình (tổng thể)
của biến phụ thuộc trên cơ sở các giá trị đã biết hoặc
đã xác định của 1 biến giải thích.
Ví dụ: Giả thiết có một quốc gia gồm 60 hộ gia đình.
Xét mối quan hệ giữa Y, chi tiêu hàng tuần của hộ gia
đình, và X, thu nhập khả dụng (sau thuế) hàng tuần của
hộ gia đình. Hay đơn giản hơn là dự đoán mức trung bình
của chi tiêu tiêu dùng hàng tuần khi biết thu nhập hàng
tuần của gia đình.
Thực hiện: chia 60 gia đình ra 10 nhóm có thu nhập
tương đối như nhau theo bảng sau: 17
3. Mô hình hồi quy 2 biến
3.2. Hồi qui 2 biến (tt)
Thu nhập và chi tiêu của các hộ gia đình
80 100 120 140 160 180 200 220 240 260
55 65 79 80 102 110 120 135 137 150
60 70 84 93 107 115 136 137 145 152
65 74 90 95 110 120 140 140 155 175
70 80 94 103 116 130 144 152 165 178
75 85 98 108 118 135 145 157 175 180
88 113 125 140 160 189 185
115 162 191
325 462 445 707 678 750 685 1043 966 1211
Nguồn: Bảng 2.1 (Giáo trình KTL, tr. 16)
X
Y
ΣY
18
3. Mô hình hồi quy 2 biến
3.2. Hồi qui 2 biến (tt)
Bảng trên đây là phân phối có điều kiện của
Y phụ thuộc vào các giá trị nhất định của X.
Xác suất có điều kiện của Y theo X, p(Y|X), có
thể được tính. Ví dụ, với X=80$, có 5 giá trị của
Y là 55, 60, 65, 70, 75. Như vậy, với X=80, XS
có bất kỳ một trong những chi tiêu này là
p(Y=55|X=80) = 1/5.
Tương tự, p(Y=150|X=260) = 1/7
19
3. Mô hình hồi quy 2 biến
3.2. Hồi qui 2 biến (tt)
Xác suất có điều kiện của dữ liệu trong B2.1
Nguồn: Bảng 2.2 (Giáo trình KTL, tr. 17)
Xi
Xác suất
có ĐK
của Y
p(YXi)
Trung
bình có
ĐK của
Y
80 100 120 140 160 180 200 220 240 260
1/5 1/6 1/5 1/7 1/6 1/6 1/5 1/7 1/6 1/7
1/5 1/6 1/5 1/7 1/6 1/6 1/5 1/7 1/6 1/7
1/5 1/6 1/5 1/7 1/6 1/6 1/5 1/7 1/6 1/7
1/5 1/6 1/5 1/7 1/6 1/6 1/5 1/7 1/6 1/7
1/5 1/6 1/5 1/7 1/6 1/6 1/5 1/7 1/6 1/7
1/6 1/7 1/6 1/6 1/7 1/6 1/7
1/7 1/7 1/7
65 77 89 101 113 125 137 149 161 173
20
3. Mô hình hồi quy 2 biến
3.2. Hồi qui 2 biến (tt)
Vậy từ mỗi xác suất có điều kiện của Y, ta có
thể tính giá trị trung bình của Y, được gọi là
trung bình có điều kiện hay kỳ vọng có điều
kiện, và được ký hiệu là E(Y|Xi)
E(Y|X=80) = 55(1/5) + 60(1/5) + 65(1/5) +
70(1/5) + 75(1/5) = 65
21
3. Mô hình hồi quy 2 biến
3.2. Hồi qui 2 biến (tt) Nguồn: Chạy Eviews 6.0 File(thidu1.wf1)
22
3. Mô hình hồi quy 2 biến
3.2. Hồi qui 2 biến (tt)
Đồ thị phân tán cho thấy rằng
mặc dù có biến đổi trong chi
tiêu nhưng chi tiêu tiêu dùng
về mặt trung bình sẽ tăng khi
thu nhập tăng.
Các giá trị trung bình có điều
kiện nằm trên một hàng thẳng
với độ dốc đồng biến và còn
được gọi là đường hồi qui
tổng thể.
23
3. Mô hình hồi quy 2 biến
3.3. Mô hình hồi quy tổng thể (PRF)
Theo ví dụ trước, mỗi trung bình có điều kiện của Y là
một hàm của Xi và có thể được thể hiện như sau:
E(Y|Xi) = f(Xi) : Hàm hồi qui tổng thể hai biến.
Trung bình (tổng thể) của phân phối của Y với điều kiện
Xi là có quan hệ hàm số với Xi. Nói một cách khác, nó cho
biết giá trị trung bình của Y biến đổi như thế nào so với X.
Dạng hàm hồi qui tổng thể: Theo giả định thì hàm này
có dạng tuyến tính theo công thức sau:
E(Y|Xi) = β1 + β2Xi
β1 là tung độ gốc và β2 là hệ số góc (hay độ dốc).
24
3. Mô hình hồi quy 2 biến
3.3. Mô hình hồi quy tổng thể (PRF) (tt)
Sự tuyến tính theo các biến số
Về mặt hình học, đường cong tuyến tính trong trường hợp này là
một đường thẳng.
Như vậy hàm sau đây E(Y|Xi) = β1 + β2X2i không tuyến tính vì biến X
xuất hiện lũy thừa 2, và đo đó đường quan hệ không phải đường
thẳng.
Sự tuyến tính theo các tham số (hay thông số)
E(Y|Xi) = β1 + β2X2i là mô hình tuyến tính theo tham số β1 và β2.
là KHÔNG TUYẾN TÍNH theo tham số.
Tuyến tính theo tham số có liên quan đến sự phát triển của lý thuyết
hồi qui và do đó kể từ nay trở đi khi đề cập đến 2 chữ “tuyến tính”
thì nên hiểu là tuyến tính theo tham số.
( ) 1 2i iE Y X Xβ β= +
25
Với mức thu nhập Xi, mức
chi tiêu tiêu dùng của một
gia đình có thể nằm xung
quanh chi tiêu bình quân
hay kỳ vọng có điều kiện
của nó. Độ lệch của một Yi
xung quanh giá trị kỳ vọng
như sau:
ui = Yi – E(Y|Xi) hay
Yi = E(Y|Xi) + ui, với ui là
sai số nhiễu ngẫu nhiên.
3. Mô hình hồi quy 2 biến
Đặc trưng “ngẫu nhiên” của PRF
Đồ thị cho thấy khi thu nhập gia
đình tăng, chi tiêu tiêu dùng bình
quân của gia đình cũng tăng theo. 26
3. Mô hình hồi quy 2 biến
Đặc trưng “ngẫu nhiên” của PRF
Nếu E(Y|Xi) = β1 + β2Xi, ta có thể thể hiện giá trị Yi sau:
Yi = β1 + β2Xi + ui (*)
Với X = 80$, các giá trị Yi
Y1 = 55 = β1 + β2(80) + u1
Y2 = 60 = β1 + β2(80) + u2
Y3 = 65 = β1 + β2(80) + u3
Y4 = 70 = β1 + β2(80) + u4
Y5 = 75 = β1 + β2(80) + u5
Nếu lấy giá trị kỳ vọng cả 2 vế của (*)
E(Yi| Xi) = E[E(Y| Xi)] + E(ui| Xi) = E(Y| Xi) + E(ui| Xi) 27
3. Mô hình hồi quy 2 biến
Đặc trưng “ngẫu nhiên” của PRF (tt)
E(Yi| Xi) = E[E(Y| Xi)] + E(ui| Xi) = E(Y| Xi) +
E(ui| Xi)
Do E(Yi| Xi) = E(Y| Xi) E(ui| Xi) = 0
Khi các giá trị trung bình có điều kiện của ui
bằng 0 nghĩa là đường hồi qui đi ngang qua
các giá trị trung bình có điều kiện của Y.
Đặc trưng ngẫu nhiên cho thấy rằng có những
biến số khác ngoài thu nhập (?) có thể có ảnh
hưởng đến chi tiêu tiêu dùng. 28
40
60
80
100
120
140
160
50 100 150 200 250
X
Y
Y = E(Y/Xi)
Yi
uiE(Y/Xi)=β1+β2Xi
Yi=β1+β2Xi+ui
Thu nhập khả dụng, X
Chi
tiêu,
Y
β1
β2
29
3. Mô hình hồi quy 2 biến
Ý nghĩa của số hạng nhiễu ngẫu nhiên ui
Số hạng nhiễu ui thay thế cho tất cả những biến số bị bỏ ra
khỏi mô hình nhưng những biến số đó lại có ảnh hưởng đến Y.
Vậy tại sao không tìm cách đưa vào tất cả các biến số càng
nhiều càng tốt?
Sự mơ hồ của lý thuyết: Chúng ta thường không có cơ sở
chắc chắn để biết hết những biến số nào sẽ ảnh hưởng đến Y.
Dữ liệu không có sẵn: Cho dù khi biết chính xác biến nào tác
động đến Y nhưng việc thu thập số liệu lại gặp khó khăn.
Một số biến có tác động không đáng kể và việc đưa vào sẽ
làm giảm hiệu quả chi phí của mô hình.
Bản chất ngẫu nhiên trong hành vi con người: Tồn tại ngay
cả khi đã có đầy đủ các biến số cần thiết. 30
3. Mô hình hồi quy 2 biến
Ý nghĩa của nhiễu ngẫu nhiên ui (tt)
Số hạng nhiễu ui thay thế cho tất cả những biến số bị bỏ ra
khỏi mô hình nhưng những biến số đó lại có ảnh hưởng đến
Y. Vậy tại sao không tìm cách đưa vào tất cả các biến số càng
nhiều càng tốt? (tiếp theo)
Các biến thay thế kém: Có một số dữ liệu không thể
quan sát được trực tiếp mà phải dùng các biến thay thế
và hầu hết các biến thay thế không đủ tính đại diện.
Nguyên tắc chi li: mục tiêu tiên quyết là giữ cho mô
hình càng đơn giản càng tốt.
Dạng hàm sai: tuyến tính hay phi tuyến? 31
3. Mô hình hồi quy 2 biến
3.4. Mô hình hồi quy mẫu (SRF)
Chúng ta đã xem xét hàm hồi qui tổng thể với các giá
trị tổng thể của Y. Nhưng trên thực tế cái chúng ta có chỉ
thường là một mẫu các giá trị của Y tương ứng với một số
X không đổi.
Mẫu ngẫu nhiên 1
Y X
70 80
65 100
90 120
95 140
110 160
115 180
120 200
140 220
155 240
150 260
Mẫu ngẫu nhiên 2
Y X
55 80
88 100
90 120
80 140
118 160
120 180
145 200
175 220
32
3. Mô hình hồi quy 2 biến
3.4. Mô hình hồi quy mẫu (SRF) (tt)
33
3. Mô hình hồi quy 2 biến
3.4. Mô hình hồi quy mẫu (SRF) (tt)
Nhiệm vụ là phải tính toán PRF trên
cơ sở thông tin mẫu nhưng liệu chúng
ta có thể thực sự tính toán được PRF từ
những dữ liệu mẫu đó không?
Câu trả lời thường là KHÔNG vì có
sai số trong việc lấy mẫu.
34
Hàm hồi qui mẫu có dạng
Trong đó = ước lượng điểm của E(Y| Xi)
= ước lượng điểm của β1
= ước lượng điểm của β2
ei (hay , phần dư) = ước lượng điểm của ui
Dưới dạng ngẫu nhiên
Đối với X=Xi, ta có một quan sát (mẫu) Y=Yi.
Theo SRF
Theo PRF ( )i i iY E Y X u= +
ii XY 21 ββ
)))
+=
iii eXY ++= 21 ββ
))
iii eYY +=
)
3. Mô hình hồi quy 2 biến
3.4. Mô hình hồi quy mẫu (SRF) (tt)
1
ˆβ
2
ˆβ
iYˆ
iu
)
35
iu
)
Mô hình hồi quy tổng thể và mẫu tuyến tính
60
80
100
120
140
50 100 150 200 250
C
H
I
T
I
Ê
U
CHI TIÊU vs. THU NHẬP
THU NHẬP
PRF:
iu
)
iYˆ
SRF: ii XY 21 ββ
)))
+=
iii uXY ++= 21 ββ
iu
iYˆ
iY
36
Các file đính kèm theo tài liệu này:
- bai_giang_kinh_te_luong_t1_c_mo_hinh_hoi_quy_hai_bien_nhung_khai_niem_co_ban_final_9945_1985297.pdf