Luận văn Ước lượng và kiểm định trong thống kê nhiều chiều

Tài liệu Luận văn Ước lượng và kiểm định trong thống kê nhiều chiều: ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN HUỲNH VĂN HIẾU ƯỚC LƯỢNG VÀ KIỂM ĐỊNH TRONG THỐNG KÊ NHIỀU CHIỀU Chuyên ngành : Xác suất – Thống kê Mã ngành : 60 46 15 LUẬN VĂN THẠC SỸ TOÁN HỌC Người hướng dẫn khoa học: GS.TSKH Nguyễn Văn Thu TP.HCM, tháng 7 năm 2009 LỜI CẢM ƠN Lời đầu tiên tác giả xin gởi lời cảm ơn sâu sắc nhất đến GS.TSKH. Nguyễn Văn Thu. Cảm ơn sự hướng dẫn nhiệt tình và tận tâm của Thầy trong suốt thời gian thực hiện luận văn. Chân thành cảm ơn các Thầy phản biện đã đọc luận văn và cho những nhận xét rất quý báu. Cảm ơn các Thầy Cô trong Khoa Toán-Tin học, Đại học Khoa học Tự nhiên Tp.HCM nhất là các Thầy Cô trong Bộ môn Xác suất – Thống kê đã tận tình giúp đỡ tác giả trong suốt quá trình học tập và tham gia các hoạt động khoa học tại trường. Cảm ơn phòng Quản lý khoa học – Hợp tác Quốc tế – Sau Đại học trường Đại học Khoa học Tự nhiên Tp.HCM đã giúp đỡ về mặt thủ tục hành chính trong suốt quá t...

167 trang | Chia sẻ: hunglv | Lượt xem: 1300 | Lượt tải: 0

Bạn đang xem trước 20 trang mẫu tài liệu Luận văn Ước lượng và kiểm định trong thống kê nhiều chiều, để tải tài liệu gốc về máy bạn click vào nút DOWNLOAD ở trên

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN HUỲNH VĂN HIẾU ƯỚC LƯỢNG VÀ KIỂM ĐỊNH TRONG THỐNG KÊ NHIỀU CHIỀU Chuyên ngành : Xác suất – Thống kê Mã ngành : 60 46 15 LUẬN VĂN THẠC SỸ TOÁN HỌC Người hướng dẫn khoa học: GS.TSKH Nguyễn Văn Thu TP.HCM, tháng 7 năm 2009 LỜI CẢM ƠN Lời đầu tiên tác giả xin gởi lời cảm ơn sâu sắc nhất đến GS.TSKH. Nguyễn Văn Thu. Cảm ơn sự hướng dẫn nhiệt tình và tận tâm của Thầy trong suốt thời gian thực hiện luận văn. Chân thành cảm ơn các Thầy phản biện đã đọc luận văn và cho những nhận xét rất quý báu. Cảm ơn các Thầy Cô trong Khoa Toán-Tin học, Đại học Khoa học Tự nhiên Tp.HCM nhất là các Thầy Cô trong Bộ môn Xác suất – Thống kê đã tận tình giúp đỡ tác giả trong suốt quá trình học tập và tham gia các hoạt động khoa học tại trường. Cảm ơn phòng Quản lý khoa học – Hợp tác Quốc tế – Sau Đại học trường Đại học Khoa học Tự nhiên Tp.HCM đã giúp đỡ về mặt thủ tục hành chính trong suốt quá trình tác giả học tập và tham gia các hoạt động khoa học tại trường. Tác giả không thể không kể đến sự giúp đỡ nhiệt tình của các các bạn học cùng khóa trong suốt thời gian tham gia khóa học. Vì thời gian hạn hẹp mà đề tài tương đối rộng nên chắc chắn có nhiều sai sót. Tác giả vô cùng biết ơn mọi đóng góp, chỉ dẫn của quý thầy cô và các bạn để luận văn được hoàn thiện hơn. Tp.HCM, tháng 8 năm 2009 Học viên Huỳnh Văn Hiếu MỤC LỤC Trang phụ bìa Lời cảm ơn Mục lục Lời giới thiệu CHƯƠNG 1 : CÁC KHÁI NIỆM................................................................................. 1 1. 1 Véc tơ ngẫu nhiên nhiều chiều ........................................................................... 1 1. 1. 1 Véc tơ ngẫu nhiên nhiều chiều .................................................................... 1 1. 1. 1. 1 Định nghĩa .......................................................................................... 1 1. 1. 1. 2 Hàm phân phối xác suất ..................................................................... 1 1. 1. 1. 3 Phân phối xác suất .............................................................................. 1 1. 1. 2 Vector trung bình – vector kỳ vọng............................................................. 2 1. 2 Ma trận hiệp phương sai..................................................................................... 5 1. 2. 1 Ma trận hiệp phương sai mẫu ...................................................................... 5 1. 2. 2 Ma trận hiệp phương sai tổng thể ................................................................ 6 1. 2. 3 Ma trận tương quan ..................................................................................... 7 1. 2. 4 Vector trung bình - ma trận hiệp phương sai cho nhiều nhóm con của các biến ............................................................................................................ 10 1. 2. 4. 1 Hai nhóm .......................................................................................... 10 1. 2. 4. 2 Ba hoặc nhiều các nhóm hơn............................................................ 14 1. 3 Sự kết hợp tuyến tính giữa các biến ................................................................. 15 1. 3. 1 Tính chất của mẫu...................................................................................... 15 1. 3. 2 Tính chất của tổng thể ............................................................................... 22 1. 4 Hàm mật độ của một đại lượng ngẫu nhiên nhiều chiều.................................. 24 1. 4. 1 Định nghĩa ................................................................................................. 24 1.4.2 Tính chất ................................................................................................24 1. 5 Phân phối đại lượng ngẫu nhiên nhiều chiều ................................................... 24 1. 5. 1 Định nghĩa ................................................................................................. 24 1. 5. 2 Tính chất .................................................................................................... 25 1. 6 Phân phối chuẩn nhiều chiều............................................................................ 26 1. 6. 1 Hàm mật độ phân phối chuẩn một biến..................................................... 27 1. 6. 2 Hàm mật độ của phân phối chuẩn nhiều chiều.......................................... 28 1. 6. 3 Tổng quát hóa phương sai tổng thể ........................................................... 28 1. 6. 4 Tính chất phân phối chuẩn của biến ngẫu nhiên nhiều chiều.................... 30 1. 6. 5 Ước lượng trong phân bố chuẩn nhiều chiều ............................................ 36 1. 6. 5. 1 Ước lượng hợp lý tối đa (MLE) ....................................................... 36 1. 6. 5. 2 Phân phối của y và S ...................................................................... 38 CHƯƠNG 2 : ƯỚC LƯỢNG KHÔNG CHỆCH TUYẾN TÍNH............................ 40 2. 1 Mô hình thống kê tuyến tính tổng quát hạng đầy đủ........................................ 40 2. 2 Ước lượng không chệch cho mô hình thống kê tuyến tính tổng quát hạng đầy đủ ...................................................................................................................... 42 2. 2. 1 Định lí 2.1 (Gauss – Markov).................................................................... 42 2. 2. 2 Bổ đề 2.1.................................................................................................... 43 2. 2. 3 Hệ quả 2.1.................................................................................................. 44 2. 3 Mô hình thống kê tuyến tính với hạng không đầy đủ ...................................... 46 2. 4 Ước lượng không chệch cho mô hình thống kê tuyến tính hạng không đầy đủ .. .......................................................................................................................... 46 2. 4. 1 Định lí 2.2 .................................................................................................. 46 2. 4. 2 Bổ đề 2.2................................................................................................... 47 2. 4. 3 Định lí 2.3 ( Gauss – Markov ).................................................................. 48 2. 4. 4 Ước lượng bình phương bé nhất mở rộng ................................................. 49 2. 4. 5 Tổ hợp tuyến tính tốt nhất của thống kê thứ tự ......................................... 52 2. 5 Ứng dụng trong mô hình ước lượng tham số hồi quy nhiều chiều .................. 59 2. 5. 1 Hàm hồi quy tổng thể (PRF)...................................................................... 59 2. 5. 2 Dạng ma trận của hàm hồi quy.................................................................. 60 2. 5. 2. 1 Hàm hồi quy tổng thể PRF ............................................................... 60 2. 5. 2. 2 Hàm hồi quy mẫu SRF ..................................................................... 60 2. 5. 3 Ước lượng bình phương bé nhất thông thường (OLS) .............................. 61 2. 5. 3. 1 Giới thiệu.......................................................................................... 61 2. 5. 3. 2 Điều kiện cần.................................................................................... 62 2. 5. 3. 3 Nghiệm hệ phương trình chuẩn ........................................................ 67 2. 5. 3. 4 Điều kiện đủ ..................................................................................... 69 2. 6 Xây dựng thuật toán hồi quy cho lập trình trên máy tính................................. 72 2. 6. 1 Bài toán xây dựng phương trình siêu phẳng hồi qui. ................................ 72 2. 6. 2 Bài toán tính hệ số tương quan riêng ........................................................ 72 2. 6. 3 Bài toán hồi quy từng bước ....................................................................... 73 2. 6. 4 Mô tả phương pháp tính toán..................................................................... 74 2. 6. 4. 1 Các ký hiệu sử dụng ......................................................................... 74 2. 6. 4. 2 Phương pháp tính toán...................................................................... 74 2. 6. 5 Xây dựng hàm tính định thức của ma trận (sau đó sử dụng hàm này để tính định thức của ma trận covarian L_Da) ...................................................... 75 2. 6. 5. 1 Phần 1 ............................................................................................... 75 2. 6. 5. 2 Phần 2 ............................................................................................... 76 2. 6. 5. 3 Xây dựng hàm tính định thức của ma trận khi bỏ đi 1 hàng 1 cột ....... .......................................................................................................... 77 2. 6. 6 Bài toán về tương quan riêng..................................................................... 78 2. 6. 7 Bài toán về hồi quy từng bước................................................................... 78 2. 6. 8 Lưu đồ thuật toán của ba bài toán nêu trên................................................ 79 CHƯƠNG 3 : KIỂM ĐỊNH GIẢ THIẾT TRÊN VECTƠ KỲ VỌNG................... 82 3. 1 Mâu thuẫn giữa kiểm định nhiều chiều và một chiều ...................................... 82 3. 2 Kiểm định trên μ với Σ đã biết ...................................................................... 83 3. 2. 1 Nhắc lại kiểm định đơn biến giả thiết 0 :H 0μ μ= với σ đã biết........... 83 3. 2. 2 Kiểm định nhiều chiều cho giả thiết : 0 0:μ μH = với đã biết ........... 84 ∑ 3. 3 Kiểm định giả thiết trên μ khi ∑ chưa biết .................................................... 89 3. 3. 1 Nhắc lại kiểm định đơn biến cho giả thiết 0 :H 0μ μ= khi σ chưa biết ... ................................................................................................................... 89 3. 3. 2 của Hotelling kiểm định giả thiết 2T 0 0:μ μH = với chưa biết ....... 90 ∑ 3. 4 So sánh hai vetor trung bình ............................................................................ 95 3. 4. 1 Nhắc lại hai mẫu một chiều với kiểm định t Test− ................................ 95 3. 4. 2 Kiểm định với hai mẫu nhiều chiều ...................................... 96 2 TestT − 3. 5 Kiểm định trên từng biến riêng lẻ với điều kiện bác bỏ giả thiết 0H bởi ........................................................................................................ 100 2T tes− t 3. 6 Thao tác tính toán của - Thu được từ hồi quy nhiều chiều............... 106 2T 2T 3. 7 Kiểm định các cặp quan sát ............................................................................ 108 3. 7. 1 Trường hợp một chiều ............................................................................. 108 3. 7. 2 Trường hợp nhiều chiều .......................................................................... 110 3. 8 Kiểm định thêm thông tin............................................................................... 113 3. 9 Phân tích hình thể ........................................................................................... 118 3. 9. 1 Phân tích hình thể một mẫu ..................................................................... 118 3. 9. 2 Phân tích hình thể hai mẫu ...................................................................... 121 CHƯƠNG 4: KIỂM ĐỊNH GIẢ THIẾT TRÊN MA TRẬN HIỆP PHƯƠNG SAI ...................................................................................................................................... 130 4. 1 Giới thiệu........................................................................................................ 130 4. 2 Kiểm định mô hình dự kiến cho ∑ ............................................................... 130 4. 2. 1 Kiểm định giả thiết H0: 0∑ = ∑ ............................................................. 130 4. 2. 2 Kiểm định tính cầu .................................................................................. 132 4. 2. 3 Kiểm định ( )20 1:H I+ Jσ ρ ρ⎡ ⎤∑ = −⎣ ⎦ ............................................... 135 4. 3 So sánh các kiểm định ma trận phương sai .................................................... 138 4. 3. 1 Kiểm đinh phương sai bằng nhau............................................................ 139 4. 3. 2 Kiểm định bằng nhau các ma trận hiệp phương sai nhiều chiều............. 140 4. 4 Kiểm định tính độc lập ................................................................................... 145 4. 4. 1 Độc lập của hai vector con ...................................................................... 145 4. 4. 2 Sự độc lập của nhiều vectors con ............................................................ 147 4. 4. 3 Kiểm định độc lập cho tất cả các biến ..................................................... 151 Tài liệu tham khảo Phụ lục Lời Giới Thiệu Ước lượng và kiểm định là các bài toán có ý nghĩa lớn trong thống kê. Từ mẫu ngẫu nhiên khảo sát được ta có thể đưa ra những nhận định sát với tổng thể để có được những dự đoán tương đối chính xác về một hiện tượng của xã hội hay các biến động trong tương lai… Ở nước ta hiện nay, phân tích thống kê nhiều chiều chưa được quan tâm một cách đáng kể trong các trường đại học và cao đẳng. Ước lượng và kiểm định lại là bài toán có ý nghĩa quan trọng trong việc phân tích hồi quy và phương sai nhiều chiều. Bắt nguồn từ những suy nghĩ trên, với sự hướng dẫn của Thầy và sự nghiên cứu của bản thân, tác giả xin được giới thiệu luận văn thạc sĩ của mình với đề tài : “Ước Lượng và Kiểm Định Trong Thống Kê Nhiều Chiều”. Nội dung chủ yếu của luận văn này nhằm giới thiệu : ¾ Hàm ( )g F nào đối với nó có ước lượng tuyến tính không chệch. Tìm trong lớp tất cả các ước lượng tuyến tính không chệch của ( )g F ước lượng có phương sai bé đều nhất. Từ đó ứng dụng trong mô hình ước lượng tham số hồi quy và xây dựng các thuật toán cho bài toán tìm siêu phẳng hồi quy. ¾ Các kiểm định giả thiết chủ yếu là trên vector kỳ vọng và ma trận hiệp phương sai. Phân tích để làm nổi rõ ưu điểm của việc sử dụng kiểm định nhiều biến trong thống kê nhiều chiều thay vì sử dụng kiểm định một biến thông thường. Dựa vào nội dung cơ bản trên luận văn gồm bốn chương với bố cục như sau Chương 1 : CÁC KHÁI NIỆM Chương này nhằm giới thiệu sơ lược về các khái niệm, thuộc tính của biến ngẫu nhiên nhiều chiều. Giới thiệu rõ về các tính chất của phân phối chuẩn nhiều chiều. Đây là phân phối quan trọng trong bài toán ước lượng và kiểm định. Chương 2 : ƯỚC LƯỢNG KHÔNG CHỆCH TUYẾN TÍNH Giới thiệu các định lí (Gauss – Markov) và bổ đề dùng để giải quyết bài toán ước lượng cho mô hình thống kê tuyến tính với hạng đầy đủ và hạng không đầy đủ. Từ lý thuyết có được ta xây dưng mô hình để ứng dụng ước lượng tham số hồi quy bằng phương pháp bình phương bé nhất. Sau đó là ứng dụng để xây dựng thuật toán tìm phương trình siêu phẳng hồi quy. Cuối chương là sơ đồ thuật toán tìm phuơng trình siêu phẳng hồi quy và hồi quy từng bước. Chương 3 : KIỂM ĐỊNH GIẢ THIẾT TRÊN VECTƠ KỲ VỌNG Ta tìm thấy từ chương này các kiểm định giả thiết 0 0:μ μH = cho trường hợp ma trận hiệp phương sai đã biết hoặc chưa biết. Bài toán kiểm định giả thiết với đối thiết ∑ 1:μ μoH = 2 21 1:μ μH ≠ tức là so sánh hai vector trung bình của hai mẫu ngẫu nhiên nhiều chiều cũng được trình bày ở chương này. Hoặc là bài toán kiểm định các cặp quan sát từ ghép nối hai mẫu nhiều chiều cũng được thảo luận khá kĩ trong chương này… Ưu điểm của chương này là các phần đều được xây dưng từ mô hình đơn chiều và phát triển thành mô hình đa chiều, giúp người đọc có thể so sánh ưu điểm của kiểm định nhiều chiều so vói dùng kiểm định một biến cho bài toán kiểm định nhiều chiều. Đồng thời các ví dụ được trình bày cụ thể với kết quả rõ ràng làm sáng tỏ hơn phần lý thuyết đã được trình bày. Chương 4 : KIỂM ĐỊNH GIẢ THIẾT TRÊN MA TRẬN HIỆP PHƯƠNG SAI Trong chương này , bao gồm ba loại hình cơ bản của kiểm định giả thiết : (1) mô hình dự kiến của ma trận hiệp phương sai, (2) hai hoặc nhiều ma trận phương sai bằng nhau, và (3) chắc chắn thành phần của ma trận phương sai là 0, kéo theo tính độc lập tương ứng của các biến ngẫu nhiên (chuẩn nhiều chiều). Trong hầu hết trường hợp, chúng ta sử dụng xấp xỉ tỉ số hợp lí. Kết quả thống kê kiểm định thường liên quan đến tỉ số xác định của các ma trận hiệp phương sai mẫu với giả thiết không và với đối thiết khác không. Ưu điểm của chương này là bên cạnh phần trình bày lý thuyết đều có kèm theo các ví dụ rất cụ thể với các kết quả rất rõ ràng và có liên thông với các kết quả của chương 1 và 3. Điều này giúp chúng ta có cái nhìn rõ liên hệ giữa các bài toán kiểm định với phương sai và cấu trúc của ma trận hiệp phương sai. Nhằm giúp luận văn chặt chẽ hơn về lí luận , cuối luận văn là phụ lục các bảng tra của phân phối như : phân phối chuẩn, phân phối chi bình phương, phân phối Student, phân phối Fisher… 1 Chương 1 CHƯƠNG 1 : CÁC KHÁI NIỆM 1. 1 Véc tơ ngẫu nhiên nhiều chiều : 1. 1. 1 Véc tơ ngẫu nhiên nhiều chiều n 1 2 nX (X ,X ,...,X ) : ( , ,P)= Ω F R→ X là hàm đo được, tức là nghịch ảnh của mọi ”hình hộp” đều là tập thuộc . F 1. 1. 1. 1 Định nghĩa Thứ tự trong : với nR n1 2 n 1 2 na (a ,a ,...a ), b (b ,b ,...b )= = R∈ , ta nói a b≺ nếu i ii 1,2,...,n : a b∀ = ≤ Hình hộp trong : nR 1 2 n[a, b] {x (x , x ,..., x ) : a x b}= = ≺ ≺ 1 2 n k k k(a, b] {x (x ,x ,..., x ) : a x b k 1,2,...,n}= = < ≤ ∀ = 1. 1. 1. 2 Hàm phân phối xác suất ( ) ( ){ } nXF x : P : X x x= ω∈Ω ω < ∀ ∈\ - Là hàm đơn điệu không giảm : X Xx y F (x) F (y⇒ ≤≺ ) - Liên tục phải, có giới hạn trái : k 0 X k X 0 k 0 X k X 0x x F (x ) F (x ) ; x x F (x ) c F (x ) ↓ ⇒ ↓ ↑ ⇒ ↑ ≤ - Tiến tới 0 khi với một chỉ số j nào đó jx ↓−∞ - Tiến tới 1 khi x ↑+∞ 1. 1. 1. 3 Phân phối xác suất j j n 1 1 n n n n m m 1 m m 1 m X X 1 1 n n m {0,1} P ((a, b]) : ( 1) F (b a ,...,b a ) 0 a, b : a b≤ ⎛ ⎞⎟⎜ ⎟⎜ ⎟−⎜ ⎟⎜ ⎟⎜ ⎟⎜ − −⎝ ⎠ ∈ ∑ = − ≥ ∀∑ ≺ Từ định nghĩa trên ta có thể nới rộng ra một độ đo XS trên nR - nX XP ( ) 0, F ( ) 1∅ = =R - n nX XP ( A) 1 P (A) A ( )− = − ∀ ∈R RB __________________________________________________________________ 2 Chương 1 - nX X XP (A B) P (A) P (B) A,B ( ),A B∪ = + ∀ ∈ ∩ =∅RB - nX k X k 1 2 i k k 1 k 1 P ( A ) P (A ) A ,A ,... ( ),A A i k ∞∞ = = = ∀ ∈ ∩ =∅∑∪ RB ∀ ≠ * Hệ quả : Trong nghiên cứu các đại lượng ngẫu nhiên nhiều chiều, có thể dùng các độ đo xác suất trên (phân phối XS của ĐLNNNC) thay cho độ đo xác suất P trên . nR Ω 1. 1. 2 Vector trung bình – vector kỳ vọng : Cho y là biểu diễn của một vector ngẫu nhiên p biến đo được trên đơn vị mẫu. Nếu n vectors riêng lẻ được quan sát trong mẫu : , thì : 1 2y ,y ,...,yn 1 2yi p y y y ⎛ ⎞⎜ ⎟⎜ ⎟= ⎜ ⎟⎜ ⎟⎜ ⎟⎝ ⎠ # Vector trung bình mẫu y có thể có thể được tìm tương tự như n vector được quan sát hoặc được tính bởi trung bình của mỗi một p biến riêng lẻ : 1 2 1 1y y n i i p y y n y = ⎛ ⎞⎜ ⎟⎜ ⎟= = ⎜ ⎟⎜ ⎟⎜ ⎟⎝ ⎠ ∑ # (1.1) ở đây cụ thể như : 22 1 n ii y y==∑ n . Do đó 1y là trung bình của n quan sát trên biến đầu tiên, 2y là trung bình của biến thứ hai và cứ như thế. Tất cả n vector được quan sát có thể được chuyển vị đến vector dòng và được liệt kê trong ma trân Y như sau 1 2y ,y ,...,yn __________________________________________________________________ 3 Chương 1 Đơn vị dòng Các biến Đơn vị dòng Các biến ở đây n thường là lớn hơn p. Dữ liệu được sắp xếp theo dạng bảng bằng việc truy nhập vào các vector quan sát theo hàng chứ không phải là theo cột. Chú ý rằng chỉ số dưới đầu tiên i tương ứng với các đơn vị dòng và chỉ số thứ hai j chỉ đến các biến. Quy ước này sẽ được mặc định cho bất kì các trình bày tương tự . Có thể bổ sung một cách thứ 2 để tính y , ta có thể có được y từ Y . Ta tính tổng n dữ liệu vào từ mỗi cột của Y và chia cho n. Điều này có thể được biểu diễn từ hướng dẫn sau : 1 2 'j A , ,...,i i i i i i a a a⎛ ⎞= ⎜ ⎟⎝ ⎠∑ ∑ ∑ p , 1 2Aj jj jj n jj a a a ⎛ ⎞⎜ ⎟⎜ ⎟= ⎜ ⎟⎜ ⎟⎜ ⎟⎜ ⎟⎝ ⎠ ∑ ∑ ∑ # Vậy nên ta có : 1' 'y j Y n = (1.3) ở đây 'j là vector dòng của : 1 1 1 j ⎛ ⎞⎜ ⎟⎜ ⎟= ⎜ ⎟⎜ ⎟⎝ ⎠ # __________________________________________________________________ 4 Chương 1 Một minh họa thứ hai của 'j Y là : ( ) 12 22 2 1 2 1 1 1, , ..., n i i n y y y y = ⎛ ⎞⎜ ⎟⎜ ⎟ =⎜ ⎟⎜ ⎟⎜ ⎟⎝ ⎠ ∑# Ta có thể biến đổi ' y để thu được : 1 'y Y j n = (1.4) Bây giờ ta đề cập đến tổng thể. Trung bình của y trên tất cả các giá trị có thể có trong tổng thể được gọi là vector kì vọng lí thuyết hoặc là giá trị kì vọng của y. Nó được định nghĩa như là vector của giá trị kì vọng của mỗi một biến. ( ) ( ) ( ) ( ) 11 1 22 2y μ p pp E yy E yy E E y E y μ μ μ ⎛ ⎞⎛ ⎞ ⎛ ⎞⎜ ⎟⎜ ⎟ ⎜ ⎟⎜ ⎟⎜ ⎟ ⎜ ⎟= = =⎜ ⎟⎜ ⎟ ⎜ ⎟⎜ ⎟⎜ ⎟ ⎜ ⎟⎜ ⎟ ⎜ ⎟⎜ ⎟⎝ ⎠ ⎝ ⎠⎝ ⎠ # ## = (1.5) ở đây jμ là kì vọng lí thuyết của biến thứ j. Điều này cho thấy rằng giá trị kì vọng của mỗi một trong jy y là jμ , đó chính là ( ) jjE y μ= , do đó giá trị kì vọng của y (trên tất cả các giá trị của mẫu) là ( ) ( ) ( ) ( ) 11 1 222y μ pp p E yy E yy E E y E y μ μ μ ⎛ ⎞⎛ ⎞ ⎛ ⎞⎜ ⎟⎜ ⎟ ⎜ ⎟⎜ ⎟⎜ ⎟ ⎜ ⎟⎜ ⎟= = =⎜ ⎟ ⎜ ⎟⎜ ⎟⎜ ⎟ ⎜ ⎟⎜ ⎟ ⎜ ⎟⎜ ⎟ ⎝ ⎠⎜ ⎟⎝ ⎠ ⎝ ⎠ ## # = (1.6) Thành ra y là một ước lượng không chệch của μ . Ta nhấn mạnh lại, y sẽ không bao giờ bằng tới μ __________________________________________________________________ 5 Chương 1 1. 2 Ma trận hiệp phương sai : 1. 2. 1 Ma trận hiệp phương sai mẫu : Ma trận hiệp phương sai mẫu ( )S jks= là ma trận của các phương sai và hiệp phương sai mẫu với p biến ( ) 11 12 1 21 22 2 1 2 S p p jk p p pp s s s s s s s s s s ⎛ ⎞⎜ ⎟⎜ ⎟= = ⎜ ⎟⎜ ⎟⎜ ⎟⎝ ⎠ " " # # " # " (1.7) Trong S, phương sai mẫu của p biến nằm trên đường chéo ma trận. Tất cả các hiệp phương sai xuất hiện ngoài đường chéo chính của ma trận. Với j dòng (cột) bao gồm các hiệp phương sai của y j với p - 1 biến khác. Ta đưa ra hai cách tiếp cận để thu được S. Đầu tiên là các phép tính riêng lẻ của jks . Phương sai mẫu của phương sai của biến j, 2 jj js s= được tính bởi công thức : ( )212 1 n ii jj y y s s n = −= = − ∑ (1.8) Hoặc là : 22 2 1 1 n ii y n y s n = −= − ∑ (1.9) Nếu dùng cột j của Y thì : ( )22 1 1 1 n jj j ij j i s s y n = = = −− ∑ y (1.10) 221 1 ij ji y n y n ⎛ ⎞= −⎜− ⎝ ⎠∑ ⎟ (1.11) ở đây jy là trung bình của j các biến. Hiệp phương sai của j x k các biến, jks được tính bởi : __________________________________________________________________ 6 Chương 1 ( )( )1 1 n i ii xy x x y y s n = − −= − ∑ (1.12) Hoặc 1 1 n i ii xy x y nx y s n = −= − ∑ (1.13) Nếu dùng j và k cột của Y thì : ( )( 1 1 1 n jk ij ik )j k i s y y y y n = = −− ∑ − (1.14) 1 1 ij ik j ki y y ny y n ⎛ ⎞= −⎜− ⎝ ⎠∑ ⎟ (1.15) 1. 2. 2 Ma trận hiệp phương sai tổng thể Nếu y là một vector ngẫu nhiên được lấy từ bất kì một giá trị nào của tổng thể nhiều chiều , ma trận hiệp phương sai của tổng thể được định nghĩa là (1.16) ( ) 11 12 1 21 22 2 1 2 cov y p p p p pp σ σ σ σ σ σ σ σ σ ⎛ ⎞⎜ ⎟⎜ ⎟∑ = = ⎜ ⎟⎜ ⎟⎜ ⎟⎝ ⎠ " " # # " # " Ma trận hiệp phương sai tổng thể ở trên cũng có thể được tìm như sau : ( )( )'y μ y μE ⎡ ⎤∑ = − −⎣ ⎦ (1.17) Ma trận ∑ ( p x p) là ma trận ngẫu nhiên. Giá trị được kỳ vọng của một ma trận ngẫu nhiên được xác định như là một ma trận những giá trị được kỳ vọng của sự tương ứng các phần tử. Ta sẽ thấy được sự xây dựng ma trận phương sai hiệp phương sai mẫu của p chiều như sau : __________________________________________________________________ 7 Chương 1 ( )( ) ( ) ( ) ( )( ) ( )( ) ( )( ) ( ) ( )( ) ( )( ) ( )( ) ( ) ( ) ( )( ) ( )( ) 1 1 2 2 1 1 2 2 2 1 1 1 1 2 2 1 1 2 2 2 1 1 2 2 1 1 2 1 1 2 2 2 1 1 1 1 2 2 1 1 'y μ y μ , , ..., p p p p p p p p p p p p p p p p y y E E y y y y y y y y y y y y y y E y y y y y E y E y y E y y μ μ μ μ μ μ μ μ μ μ μ μ μ μ μ μ μ μ μ μ μ μ μ μ μ −⎛ ⎞⎜ ⎟−⎜ ⎟⎡ ⎤∑ = − − = − − −⎜ ⎟⎣ ⎦ ⎜ ⎟⎜ ⎟−⎝ ⎠ ⎛ ⎞− − − − −⎜ ⎟⎜ ⎟− − − − −⎜ ⎟= ⎜ ⎟⎜ ⎟⎜ ⎟− − − − −⎝ ⎠ − − − − = " " " # # # " " ( )( ) ( ) ( )( ) ( )( ) ( )( ) ( ) 2 2 2 1 1 2 2 1 1 2 1 1 2 2 11 12 1 21 22 2 1 2 p p p p p p p p p p p p pp E y y E y E y y E y y E y y E y μ μ μ μ μ μ μ μ μ μ σ σ σ σ σ σ σ σ σ ⎛ ⎞⎜ ⎟⎜ ⎟− − − − −⎜ ⎟⎜ ⎟⎜ ⎟⎜ ⎟− − − − −⎝ ⎠ ⎛ ⎞⎜ ⎟⎜ ⎟= ⎜ ⎟⎜ ⎟⎜ ⎟⎝ ⎠ " # # # " " " # # " # " μ− Vì ( )jk jkE s σ∑ = = với mọi j và k nên ma trân hiệp phương sai mẫu S là một ước lượng không chệch của ∑ : ( )SE = ∑ (1.18) 1. 2. 3 Ma trận tương quan : Tương quan mẫu giữa (j x k ) các biến được định nghĩa bỡi : jk jkjk j kjj kk s s r s ss s = = (1.19) Ma trận tương quan mẫu là tương tự ma trận hiệp phương sai với sự tương quan trong không gian của các phương sai. __________________________________________________________________ 8 Chương 1 (1.20) ( ) 12 1 21 2 1 2 1 1 1 R p p jk p p r σ σ σ σ σ σ ⎛ ⎞⎜ ⎟⎜= = ⎜⎜ ⎟⎜ ⎟⎝ ⎠ " " # # " # " ⎟⎟ Ví dụ ở dòng thứ 2, bao gồm tương quan của với mỗi thành phần của y (bao gồm cả tương quan của với chính nó, là 1). Dĩ nhiên ma trận tương quan là ma trận đối xứng, vì . Ma trận tương quan có thể thu được từ ma trận hiệp phương sai, và ngược lại, 2y 2y jk kjr r= ( ) ( ) 11 22 1 2 D diag , ,..., diag , ,..., s pp p s s s s s s = = 0 0 0 0 0 0 s s s ⎛ ⎞⎜ ⎟⎜ ⎟= ⎜ ⎟⎜ ⎟⎝ ⎠ " " # # " # " (1.21) Ta có : 1 1R D SDs s − −= (1.22) S D RDs s= (1.23) Tương tự ma trận tương quan tổng thể và được định nghĩa là : (1.24) ( ) 12 1 21 2 1 2 1 1 1 P p p jk p p ρ ρ ρ ρ ρρ ρ ρ ⎛ ⎞⎜ ⎟⎜ ⎟= = ⎜ ⎟⎜ ⎟⎜ ⎟⎝ ⎠ " " # # " # " Ở đây : jk jk j k σρ σ σ= __________________________________________________________________ 9 Chương 1 Ví dụ 1.1 : Cho bảng dữ liệu sau, với ba biến được đo (mẫu thử là 100g )tại mười địa điểm khác nhau y1=calcium trong đất, y2=lượng calcium đã được chuyển đổi, y3=calcium có trong cây cải xanh. Địa điểm Bảng 1.1 : Lượng calcium trong đất và trong cây cải xanh Để tính được ma trận phương sai mẫu cho cột dữ liệu calcium của bảng. Ta tính tổng bình phương của mỗi một cột và tổng các kết quả mỗi cặp của cột, ta minh họa phép tính của 13s : Từ các công thức ở trên ta dễ dàng tính được : 1 28 1.y = và 3 3 089.y = Từ công thức (1.14) và (1.15), ta có : Tiếp tục với sự tương tự ta có được ma trận hiệp phương sai là : Để có được ma trận tương quan với dữ liệu trên ta có thể tính toán riêng lẻ bằng cách dùng công thức ( 1.19) . Hoặc có thể dùng trực tiếp từ thủ thuật ma trận : __________________________________________________________________ 10 Chương 1 1 1R D SDs s − −= Ma trận đường chéo chính Ds có thể tìm bằng cách lấy căn bậc hai trên các đường chéo chính của ma trận S : Từ đó ta có : 1. 2. 4 Vector trung bình - ma trận hiệp phương sai cho nhiều nhóm con của các biến : 1. 2. 4. 1 Hai nhóm : Nhiều khi một khảo sát nào đó quan tâm đến hai dạng khác nhau của biến, cả hai cùng được đo trên một đơn vị mẫu. Một số hành vi được quan sát trong lớp học dành cho sinh viên, và trong cùng một khoảng thời gian nhất định (các đơn vị cơ bản thực nghiệm) một số hành vi của giáo viên cũng được quan sát. Khảo sát muốn nghiên cứu mối liên hệ các biến của học sinh và các biến của giáo viên. Ta sẽ biểu diễn hai nhóm vector bỡi y và x với p biến trong y và q biến trong x. Vì vậy, mỗi một vector quan sát trong mẫu là được phân chia là : (1.25) 1 1 1 2 y , , , ..., x i ipi i i y y i n x xp ⎛ ⎞⎜ ⎟⎜ ⎟⎜ ⎟⎛ ⎞ = =⎜ ⎟⎜ ⎟ ⎜ ⎟⎝ ⎠ ⎜ ⎟⎜ ⎟⎜ ⎟⎝ ⎠ # # S S S S S yy yx xy xx ⎛ ⎞= ⎜ ⎟⎜ ⎟⎝ ⎠ (1.26) __________________________________________________________________ 11 Chương 1 Ở đây là (p x p), S là ( p x q ) , S yy yx Sxy là ( q x p) và Sxx là (q x q). Cũng cần chú ý rằng vì tính chất đối xứng của S nên 'S Sxy y= x ⎟⎟ (1.27) Vậy nên, ta có thể viết : (1.28) ' S S S S S yy yx yx xx ⎛ ⎞= ⎜⎜⎝ ⎠ Để minh họa ta cho p = 2 và q = 3, ta có : Các mẫu trong mỗi và SS ,S ,Syy yx xy xx được biểu diễn rõ ràng trong minh họa này. Ví dụ dòng đầu của S là hiệp phương sai của với mỗi yx 1y 1 2 3, ,x x x . Dòng thứ hai là biểu diễn hiệp phương sai của với ba biến của x. Mặt khác ta cũng có ở dòng đầu của S 2y xy là các hiệp phương sai của 1x với và và cứ thế … Như vậy : 1y 2y 'S Sxy y= x Tương tự, đối với tổng thể kết quả của việc phân chia các vector ngẫu nhiên là : ( ) ( ) y μy x μx y x E E E ⎛ ⎞ ⎛ ⎞⎛ ⎞ = =⎜ ⎟ ⎜ ⎟⎜ ⎟ ⎜ ⎟⎜ ⎟⎝ ⎠ ⎝ ⎠⎝ ⎠ (1.29) y cov x yy yx xy xx ∑ ∑⎛ ⎞⎛ ⎞ = ∑ = ⎜⎜ ⎟ ⎜∑ ∑⎝ ⎠ ⎝ ⎠ ⎟⎟ (1.30) __________________________________________________________________ 12 Chương 1 ở đây 'xy∑ = ∑ yx . Ma trận con yy∑ là ma trận hiệp phương sai ( p x p) chứa phương sai của trên đường chéo chính và hiệp phương sai của mỗi và nằm ngoài đường chéo. Tương tự như vậy, 1 2, , ..., py y y jy ky xx∑ là ma trận hiệp phương sai ( q x q ) của 1 2, , ..., kx x x . Ma trận yx∑ là ( p x q ) và bao gồm hiệp phương sai của mỗi với mỗi jy kx . Ma trận hiệp phương sai yx∑ thì cũng được biểu diễn bởi ( )cov y,x tức là : ( )cov y,x yx= ∑ (1.31) Cần chú ý sự khác nhau trong ý nghĩa giữa trong công thức (1.30) và y cov x ⎛ ⎞ = ∑⎜ ⎟⎝ ⎠ ( )cov y,x yx= ∑ trong công thức (1.31). ycov x ⎛ ⎞⎜ ⎟⎝ ⎠ bao gồm một vector đơn chứa p+q biến, và ( )cov y,x thì bao gồm hai vector. Nếu x và y là độc lập thì 0yx∑ = . Điều này có nghĩa là mỗi một biến đều không tương quan với mỗi jy kx vì thế nên 0j ky xσ = cho 1 2 1 2, , ..., ; , , ...,j p k q= = . Ví dụ 1.2: Reaven và Miller (1979; Andrews và Herzberg 1985, pp. 215-219) đo lường năm biến so sánh giữa người bình thường và của bệnh nhân đái tháo đường . Trong Bảng 1.2 ta chỉ xét một phần dữ liệu cho người bình thường. Ba biến chính được quan tâm là : 1x = lượng đường không được dung nạp 2x = isulin dùng để cân bằng lượng đường được uống 3x = kháng isulin Thêm hai bổ sung các biến nhỏ cũng được quan tâm là : 1y = quan hệ trọng lượng 2y =Lưu lượng đường huyết __________________________________________________________________ 13 Chương 1 Số người bệnh Bảng 1.2 : Quan hệ giữa nồng độ Insulin với cân nặng và lượng đường trong máu __________________________________________________________________ 14 Chương 1 Vector trung bình được phân chia theo công thức là : Ma trận hiệp phương sai được phân chia như trong phân tích trên sẽ là : Lưu ý là ma trận và S yy Sxx là các ma trận vuông, và Sxy là ma trận chuyển vị của S yx 1. 2. 4. 2 Ba hoặc nhiều các nhóm hơn : Trong một số tình huống ba hay nhiều hơn các nhóm rất được quan tâm. Nếu vector y quan sát được phân chia như sau : 1 2 y y y yk ⎛ ⎞⎜ ⎟⎜ ⎟= ⎜ ⎟⎜ ⎟⎜ ⎟⎝ ⎠ # , ở đây có 1y 1p các biến, có 2y 2p ,…,và có yk kp các biến với : 1 2 ... kp p p p= + + + Vector trung bình mẫu và ma trận hiệp phương sai được cho bởi : 1 2 y yy yk ⎛ ⎞⎜ ⎟⎜ ⎟= ⎜ ⎟⎜ ⎟⎜ ⎟⎝ ⎠ # (1.32) __________________________________________________________________ 15 Chương 1 (1.33) 11 12 1 21 22 2 1 2 S S S S S S S S S S p p p p pp ⎛ ⎞⎜ ⎟⎜ ⎟== ⎜ ⎟⎜ ⎟⎜ ⎟⎝ ⎠ " " # # " # " Ví dụ như ma trận con ( )2 2S k kp x p bao gồm phương sai và hiệp phương sai của các biến trong với các biến trong . 2y yk Tương ứng với tổng thể ta có kết quả như sau : 1 2 μ μ μ μk ⎛ ⎞⎜ ⎟⎜ ⎟= ⎜ ⎟⎜ ⎟⎜ ⎟⎝ ⎠ # , (1.34) (1.35) 11 12 1 21 22 2 1 2 k k k k kk ∑ ∑ ∑⎛ ⎞⎜ ⎟∑ ∑ ∑⎜ ⎟∑ = ⎜ ⎟⎜ ⎟⎜ ⎟∑ ∑ ∑⎝ ⎠ " " # # " # " 1. 3 Sự kết hợp tuyến tính giữa các biến 1. 3. 1 Tính chất của mẫu : Ta thường quan tâm đến sự kết hợp tuyến tính giữa các biến .Trong phần này chúng ta sẽ khảo sát trung bình, phương sai và hiệp phương sai của sự kết hợp tuyến tính. 1 2, , ..., py y y Cho là các là hệ số và được xem như là sự kết hợp tuyến tính của các yếu tố của vector y, 1 2, , ..., pa a a 1 1 2 2 '... a yp pz a y a y a y= + + + = (1.36) __________________________________________________________________ 16 Chương 1 Ở đây . Nếu cùng một hệ số của vector a được áp dụng cho mỗi trong mẫu , ta có : ( 1 2'a , , ..., pa a a= ) yi 1 1 2 2 1 2 'z ... a y , , , ....,i i i p ip ia y a y a y i p= + + + = = (1.37) Trung bình mẫu của z có thể được tìm thấy bởi trung bình cộng của n giá trị , ,…, hoặc là như một kết hợp tuyến tính của 1 1 'a yz = 2 2'a yz = 'a ynz = n y các vector trung bình mẫu của . 1 2y ,y ,...,yn 1 1 'a y n i i z z n = = =∑ (1.38) Kết quả trên đây là tương tự như kết quả ở trường hợp đơn biến z a y= ở đây 1, , ...,i iz ay i= = n nTương tự như vậy, phương sai mẫu của có thể được tìm như là phương sai mẫu của hoặc trực tiếp từ a và S , ở đây S là ma trận hiệp phương sai của 1'a , , ...,i iz y i= = 1 2, , ..., nz z z 1 2y ,y ,...,yn ( )212 1 'a Sa n ii z z z s n = −= − ∑ = 2 (1.39) Chú ý rằng là mô hình nhiều biến từ kết quả đơn biến 2 'a Sazs = 2 2zs a s= ở đây và 1' , , ...,i iz a y i= = n 2s là phương sai của 1 2, , ..., ny y y Vì phương sai là luôn không âm, ta có và thành ra cho mỗi a. Do đó ít nhất S là nửa xác định dương. Nếu các biến là liên tục và không quan hệ tuyến tính, và nếu n-1> p (do S hạng đầy đủ ) thì S được xác định dương ( với xác xuất là 1 ) 2 0zs > 0'a Sa> Nếu ta xác định một kết hợp tuyến tính khác ở đây là vector hệ số ( hằng số ) khác . Vì thế hiệp phương sai của z và w được cho bởi : 1 1 2 2 'b y ... p pw b y b y b= = + + + y )( 1 2'b , , ..., pb b b= 'a __________________________________________________________________ 17 Chương 1 ( )( )1 1 'a Sb n i ii zw z z w w s n = − −= − ∑ = (1.40) Tương quan mẫu giữa w và z sẵn sàng nhận được là : ( )( )2 2 ' ' ' a Sb a Sa b Sb zw zw z w sr s s = = (1.41) Giờ ta sẽ biểu diễn luôn hai vector hệ số ( hằng số ) a và b là và để tạo điều kiện thuận lợi về sau khi mở rộng nhiều hơn hai vectors như vậy. Cho : 1a 2a 1 2 , , a A a ⎛ ⎞= ⎜ ⎟⎜ ⎟⎝ ⎠ và định nghĩa: 1 1 22 ' ' a y z a y z z ⎛ ⎞ ⎛ ⎞= =⎜ ⎟ ⎜ ⎟⎜ ⎟ ⎝ ⎠⎝ ⎠ Và sau đó ta có thể có nhân tố y từ biểu diễn của biểu thức : 1 2 ' , a z y Ay a ⎛ ⎞⎜ ⎟= =⎜ ⎟⎝ ⎠ Nếu ta ước lượng hai chiều từ cho mỗi p – biến trong mẫu. Chúng ta nhận được và giá trị trung bình của z trên mẫu có thể được tìm thấy từ zi yi 1 2z Ay , , ,...,i i i= = n y : 1 1 2 2 ' ' y z y z a z a ⎛ ⎞⎛ ⎞= = ⎜ ⎟⎜ ⎟ ⎜ ⎟⎝ ⎠ ⎝ ⎠ (1.42) 1 2 ' ' z y Ay a a ⎛ ⎞== =⎜ ⎟⎜ ⎟⎝ ⎠ (1.43) Ta có thể dùng (1.39) và (1.40) để xây dựng ma trận hiệp phương sai mẫu cho z : __________________________________________________________________ 18 Chương 1 (1.44) 1 1 2 2 1 2 2 1 1 1 2 2 2 1 2 2 ' ' ' ' a a a a S a a a a z z z z z z z s s S S s s S S ⎛ ⎞ ⎛ ⎞⎜ ⎟= = ⎜ ⎟⎜ ⎟⎜ ⎟ ⎝ ⎠⎝ ⎠ Bởi vì : 1 1 1 2 2 1 2 2 ' ' ' ' ' a a a a ASA a a a a S S S S ⎛ ⎞= ⎜ ⎟⎜ ⎟⎝ ⎠ Yếu tố này đưa đến : (1.45) ( )1 1 2 2 ' ' ' a S S a , a A az ⎛ ⎞= =⎜ ⎟⎜ ⎟⎝ ⎠ SA Kết quả hai biến ở trên có thể sẳn sàng để mở rộng nhiều hơn hai kết hợp tuyến tính. Nếu chúng ta có k phép biến đổi tuyến tính, chúng ta có thể biểu diễn như sau : 1 11 1 12 2 1 1 2 21 1 22 2 2 2 1 1 2 2 ' ' ' ... a y ... a y ... a y p p p p k k k kp p k z a y a y a y z a y a y a y z a y a y a y = + + + = = + + + = = + + + = # Hoặc bằng kí hiệu ma trận là : 1 11 2 2 2 ' ' ' ' ' ' a y a a y a z y Ay a y ak k k z z z ⎛ ⎞ ⎛ ⎞⎛ ⎞ ⎜ ⎟ ⎜ ⎟⎜ ⎟ ⎜ ⎟ ⎜ ⎟⎜ ⎟= = = =⎜ ⎟ ⎜ ⎟⎜ ⎟ ⎜ ⎟ ⎜ ⎟⎜ ⎟⎜ ⎟ ⎜ ⎟ ⎜ ⎟⎝ ⎠ ⎝ ⎠ ⎝ ⎠ # # # ở đây z là ( k x 1 ) chiều, A là ( k x p ) chiều, và y là ( p x 1 ) chiều ( chúng ta quy ước là k ). Nếu là định trị cho tất cả các p≤ z Ayi = i n1y , ,...,i i = điều này cho bởi (1.38) Vectror trung bình mẫu của z là : __________________________________________________________________ 19 Chương 1 1 1 22 ' ' '' '' a y a aa yz y Ay aa y kk ⎛ ⎞ ⎛ ⎞⎜ ⎟ ⎜ ⎟⎜ ⎟ ⎜ ⎟= = =⎜ ⎟ ⎜ ⎟⎜ ⎟ ⎜ ⎟⎜ ⎟⎜ ⎟ ⎝ ⎠⎝ ⎠ ## (1.46) Mở rộng từ biểu diễn (1.44) ta có ma trận hiệp phương sai mẫu của trở thành : z (1.47) 1 1 1 2 1 2 1 2 2 2 1 1 ' ' ' ' ' ' ' ' ' a Sa a Sa a Sa a Sa a Sa a Sa S a Sa a Sa a Sa k k z k k k ⎛ ⎞⎜ ⎟⎜ ⎟= ⎜ ⎟⎜ ⎟⎜ ⎟⎝ ⎠ " " # # # " k ( ) ( ) ( ) 1 1 2 2 1 2 1 1 ' ' ' a Sa , Sa , Sa a Sa , Sa , Sa a Sa , Sa , Sa k k k k ⎛ ⎞⎜ ⎟⎜ ⎟⎜ ⎟= ⎜ ⎟⎜ ⎟⎜ ⎟⎝ ⎠ " " # # # " ( ) 1 2 1 2 ' ' ' a a Sa , Sa , ,Sa a k k ⎛ ⎞⎜ ⎟⎜ ⎟= ⎜ ⎟⎜ ⎟⎜ ⎟⎝ ⎠ "# (1.48) ( ) 1 2 1 2 ' ' ' ' a a S a , a , ,a ASA a k k ⎛ ⎞⎜ ⎟⎜ ⎟= =⎜ ⎟⎜ ⎟⎜ ⎟⎝ ⎠ "# Chú ý rằng từ (1.47) và (1.48) ta có : (1.49) ( ) 1 ' 'tr ASA a Sa k i i i= =∑ biến đổi tuyến tính yếu hơn là : 1 2z Ay b, , , ...,i i i n= + = (1.50) Vector trung bình và hiệp phương sai mẫu được cho bởi : z Ay b= + (1.51) (1.52) 'S ASAz = __________________________________________________________________ 20 Chương 1 Ví dụ 1.3: Timn (1975, p. 233; 1980, p. 47) đã báo cáo về kết quả của một thí nghiệm ở đây chủ đề là tìm kiếm trả lời “đáp từ ” ở năm vị trí trong một chủ đề. Các biến là thời gian đáp ứng cho j đáp từ 1 2 5, , ...,jy j = . Dữ liệu được cho trong Bảng 1.3 sau: Số chủ đề Bảng 1.3: Thời gian đáp ứng cho năm đáp từ của một chủ đề Những biến này được quy ước ( đo trên cùng một đơn vị tương tự như trung bình và phương sai ) và các nhà nghiên cứu có thể muốn kiểm tra một số kết hợp tuyến tính đơn giản. Xem xét các kết hợp tuyến tính sau đây là mục đích để minh họa : Nếu z là được tính cho mỗi của 11 quan sát, chúng ta có được với trung bình 1 2 11288 155 146, , ....,z z z= = = 197 0.z = và phương sai . Ta cũng có cùng một kết quả như vậy nếu dùng công thức (1.38) và (1.39) thì vector trung bình mẫu và ma trận hiệp phương sai cho dữ liệu trên là : 2 2084 0.zs = __________________________________________________________________ 21 Chương 1 Kế đó , vì (1.38) nên ta có : và từ (1.39) : Bây giờ ta sẽ nêu ra một tổ hợp tuyến tính thứ hai : Trung bình mẫu và phương sai của w là : 44 45'w b y .= = và 2 605 67'b Sb .ws = = Ma trận hiệp phương sai mẫu của z và w được tính bởi (1.40) là : 40 2'a Sb .z ws = = Tiếp tục dùng công thức (1.41)ta tìm được tương quan của z và w là : Bây giờ chúng ta xét ba hàm tuyến tính : Ta cũng có thể biểu diễu dưới dạng ma trận như sau : __________________________________________________________________ 22 Chương 1 hoặc : Vector trung bình mẫu cho bởi (1.46) là : Ma trận hiệp phương sai mẫu được cho bởi : là : 'S ASAz = Ma trận hiệp phương sai có thể biến đổi đến một ma trận tương quan bởi công thức (1.22): S z ở đây : Là nhận được từ căn bậc hai các phần tử trên đường chéo chính của S . z 1. 3. 2 Tính chất của tổng thể : Các kết quả về sự kết hợp tuyến tính ở trên có bản sao trong tổng thể. Cho ở đây a là một vector hệ số (hằng số ). Trung bình mẫu của z sẽ là: 'a yz = __________________________________________________________________ 23 Chương 1 ( ) ( ) ( )' 'a y a y a'μE z E E= = = (1.53) Và phương sai của tổng thể là : ( )2 ' 'var a y a azσ = = ∑ (1.54) Cho ở đây b là vector hệ số (hằng số) khác a. Hiệp phương sai tổng thể của và là : 'b yw = 'a yz = 'b yw = ( ) 'cov , a bz wz w σ= = ∑ (1.55) Từ công thức tương quan của x và y: ( ) ( )( )( ) ( )22, x yxy xy x y x y E x y corr x y E x E y μ μσρ σ σ μ μ − −= = = − − Ta có tương quan tổng thể của z và w là : ( ) ( )( ) ' ' ' ' ' a ba y,b y a a b b zw zw z w corr σρ σ σ ∑= = = ∑ ∑ (1.56) Nếu Ay là biểu diễn cho nhiều kết hợp tuyến tính, vector trung bình mẫu và ma trận hiệp phương sai cho bởi : ( ) ( )Ay A y AμE E= = (1.57) ( ) 'cov Ay A A= ∑ (1.58) Phép biến đổi tuyến tính tổng quát hơn z Ay b= + có vector trung bình mẫu và ma trận hiệp phương sai là : ( ) ( )Ay b A y b Aμ bE E+ = + = + (1.59) ( ) 'cov Ay b A A+ = ∑ (1.60) __________________________________________________________________ 24 Chương 1 1. 4 Hàm mật độ của một đại lượng ngẫu nhiên nhiều chiều 1. 4. 1 Định nghĩa Ta nói rằng đại lượng ngẫu nhiên nhiều chiều X là liên tục nếu tồn tại một hàm số sao cho n nf : ( , ) : [0, )+= −∞ ∞ → = ∞R R n 2 1x x xx n X 1 2 n 1 2 n 1F (x) f ( t )d t ... f (t , t ,..., t )dt dt ...dt x (x ,x ,..., x ) −∞ −∞ −∞−∞ = = ∀ =∫ ∫ ∫ ∫ R2 n ∈ Lúc đó hàm f được gọi là hàm mật độ (XS) của véc tơ NN X . 1. 4. 2 Tính chất i) n 2 1 n 2 1 b b bb n X 1 2 n 1 2 a a a a P ((a, b]) f ( t )d t = ... f (t , t ,..., t )dt dt ...dt a,b= ∀∫ ∫ ∫ ∫ Rn ∈ ii) E(X) t .f ( t )d t ∞ −∞ = ∫ iii) TVar(X) ( t E(X)).( t E(X)) .f ( t )d t ∞ −∞ = − −∫ 1. 5 Phân phối đại lượng ngẫu nhiên nhiều chiều : 1. 5. 1 Định nghĩa Cho là một đại lượng ngẫu nhiên nhiều chiều. Và hàm mật độ xác suất kết hợp của chúng là f 1 2 nX (X ,X ,...,X )= X(X1, X2, …, Xn). Tương tự như trước đây, chúng là độc lập nếu hàm mật độ xác suất chung là tích của mỗi hàm mật độ xác suất riêng lẻ. Vì vậy, chúng ta có fX(X1, X2, …, Xn) = fX1(X1) . fX2(X2) . . . fXn(Xn) Trong trường hợp đặc biệt khi mỗi giá trị x được phân phối giống nhau và độc lập lẫn nhau, chúng ta có fX(X1, X2, …, Xn) = fX(X1) . fX(X2) . . . fX(Xn) Trong đó fX(x) là hàm phân phối chung của mỗi giá trị x. __________________________________________________________________ 25 Chương 1 1. 5. 2 Tính chất : a. Nếu a1, a2, …, an là hằng số hoặc không ngẫu nhiên thì E[a1X1 + a2X2 + . . . + anXn] = a1E(X1) + a2E(X2) + . . . + anE(Xn). Giá trị kỳ vọng của một tổ hợp tuyến tính các số hạng bằng tổ hợp tuyến tính của mỗi giá trị kỳ vọng riêng lẻ. b. Nếu mỗi Xi đều có giá trị trung bình bằng nhau thì E(Xi) = µ, chúng ta có ( )i iE a .X aΣ =μΣ i Đặc biệt, nếu tất cả hệ số ai đều bằng nhau và bằng (1/n) thì chúng ta có: ( )ixE E X n ⎛ ⎞Σ ⎟⎜ = =⎟⎜ ⎟⎜⎝ ⎠ μ Giá trị kỳ vọng của giá trị trung bình của các biến ngẫu nhiên có phân phối giống nhau sẽ bằng giá trị trung bình chung của chúng. c. ( ) ( ) ( )2i i i i i i j i j i j Var a .X a .Var x a .a cov X .X ≠ ⎡ ⎤Σ =Σ +⎣ ⎦ ∑∑ trong đó các hệ số ai được giả thiết là hằng số hoặc không ngẫu nhiên. d. Nếu tất cả các biến X1, X2, …, Xn đều độc lập thì mỗi cặp tương quan và hiệp phương sai sẽ bằng 0 hay Cov(x ijρ i, xj) = 0 = với mọi i ≠ j. ijρ e. Từ (c) và (d) ta có thể rút ra kết luận rằng khi biến x độc lập thì ( ) (2i i i i iVar a .X a .Var x )⎡ ⎤Σ =Σ⎣ ⎦ vì số hạng hiệp phương sai sẽ không tồn tại nữa. Do đó, phương sai của tổng các biến ngẫu nhiên độc lập sẽ bằng tổng các phương sai. Đặc biệt, nếu tất cả các giá trị phương sai đều bằng nhau, nghĩa là với mỗi i thì ( ) 2iVar X =σ __________________________________________________________________ 26 Chương 1 ( ) 2 2i i iVar a .X a⎡ ⎤Σ = σ Σ⎣ ⎦ f. Nếu tất cả các X1, X2, . . ., Xn đều là biến ngẫu nhiên độc lập nghĩa là tập biến X i có phân phối chuẩn với giá trị trung bình µi và phương sai hay được thể hiện bằng ký hiệu X 2 iσ i ~ N(µi, ) thì tổ hợp tuyến tính của tập biến x cho trước có dạng 2 iσ a1X1 + a2X2 + . . . + anXn cũng sẽ có dạng phân phối chuẩn với giá trị trung bình là a1 µ1 + a2 µ2 + . . . + an µn và giá trị phương sai là . 2 2 2 2 2 21 1 2 2 n na a .... aσ + σ + + σ Trong ký hiệu phép lấy tổng, chúng ta có thể viết như sau ( ) ( ) ( )2 2i i i i 1 iU a X ~ N a , a⎡ ⎤=Σ Σ μ Σ σ⎢ ⎥⎣ ⎦ g. Nếu tất cả các X1, X2, . . ., Xn đều độc lập và có phân phối giống nhau tuân theo phân phối chuẩn N(µ, ) thì giá trị trung bình của chúng là 2σ i 1X n = ΣX sẽ có dạng phân phối chuẩn với giá trị trung bình bằng µ và phương sai bằng 2 n σ , nghĩa là X ~ N 2 , n ⎛ ⎞σ ⎟⎜ ⎟μ⎜ ⎟⎜ ⎟⎝ ⎠ . Tương tự, chúng ta có z = ( )n X−μ σ ~ N(0, 1). 1. 6 Phân phối chuẩn nhiều chiều : Đa số kiểm định của biến ngẫu nhiên một chiều và các khoảng tin cậy dựa trên phân phối chuẩn đơn chiều. Tương tự như vậy, phần lớn các phương pháp ngẫu nhiên đa chiều có phân phối chuẩn nhiều chiều như chính nền tảng cơ sỡ của nó. Có nhiều ứng dụng hữu ích cho phân phối chuẩn nhiều chiều. Phân phối có thể được mô tả bằng cách sử dụng : trung bình, phương sai và hiệp phương sai. Đồ __________________________________________________________________ 27 Chương 1 thị của biến ngẫu nhiên hai chiều có xu hướng biểu thị tuyến tính. Hàm tuyến tính của biến ngẫu nhiên nhiều chiều có phân bố chuẩn thường là chuẩn tắc. Như trong trường hợp một chiều biểu hiện thuận lợi của hàm mật độ là mượn chính nó để làm nguồn gốc cho nhiều tính chất và các kiểm định thống kê. Thậm chí khi dữ liệu không phải là chuẩn tắc nhiều chiều thì chuẩn tắc nhiều chiều có thể xử lí bằng các xấp xỉ có lợi. Đặc biệt là trong những kết luận liên quan đến vector trung bình mẫu, thường được xấp xỉ chuẩn tắc nhiều chiều bởi định lí giới hạn trung tâm. Khi hàm mật độ chuẩn nhiều biến được mở rộng từ hàm mật độ chuẩn một chiều nó được thừa hưởng nhiều tính chất đặc trưng. Ta sẽ nhắc lại hàm mật độ của phân phối chuẩn một biến trong mục 1.6.1 và sau đó sẽ mở rộng để mô tả hàm mật độ phân phối chuẩn của biến ngẫu nhiên nhiều chiều trong mục 1.6.2. Các mục còn lại của chương dành cho việc nghiên cứu mở rộng các tính chất của phân phối chuẩn nhiều chiều. 1. 6. 1 Hàm mật độ phân phối chuẩn một biến : Nếu một biến ngẫu nhiên y, với trung bình μ và phương sai 2σ , có phân phối chuẩn thì hàm mật độ của nó được cho bởi công thức : ( ) ( )2 22 2 1 2 ,yf y e yμ σπ σ − −= −∞ < < ∞ (1.61) Khi biến y có hàm mật độ (1.61), ta nói rằng y có phân phối chuẩn ( )2,N μ σ . Hàm số này thường được biểu diễn minh họa bởi đồ thị hình quả chuông trong hình 1.1 khi cho 10μ = và 2.5σ = Hình 1.1 : Đồ thị hàm mật độ phân phối chuẩn __________________________________________________________________ 28 Chương 1 1. 6. 2 Hàm mật độ của phân phối chuẩn nhiều chiều Nếu biến y có phân phối chuẩn nhiều chiều với vector trung bình μ và ma trận hiệp phương sai , hàm mật độ được cho bởi : ∑ ( ) ( ) ( ) ( ) 1 2 1 2 1 2 'y μ y μy pf eπ −− − ∑ −= ∑ (1.62) ở đây p là số lượng các biến trong y có mật độ (1.62) ta nói y có phân phối hoặc đơn giản y là ( ,μpN Σ) ( ),μpN Σ . Số hạng ( ) ( )( ) (12 2 2y y )yμ σ μ σ −− = − − μ trong số mũ của hàm mật độ phân phối chuẩn một chiều là bình phương khoảng cách từ y đến μ , đơn vị độ lệch chuẩn . Tương tự như vậy số hạng ( ) ( )1y μ y μ−− ∑ − trong số mũ của hàm mật độ của phân phối chuẩn nhiều chiều là bình phương khoảng cách suy rộng từ y đến μ hoặc khoảng cách Manhalanobis ( ) ( )2 1'y μ y μ−Δ = − ∑ − (1.63) Khoảng cách Δ đồng biến với số lượng của p biến. Hệ số của hàm mũ ở (1.62) , 1 2Σ xuất hiện như sự tương tự của 2σ trong (1.61). 1. 6. 3 Tổng quát hóa phương sai tổng thể : Ta biết rằng S như là một tổng quát hóa phương sai mẫu. Tương tự Σ là tổng quát hóa phương sai tổng thể. Nếu 2σ là bé trong phân phối chuẩn một biến, thì giá trị y tập trung gần trung bình . Tương tự giá trị nhỏ của Σ trong trường hợp nhiều chiều chứng tỏ rằng ,y s tập trung gần μ trong không gian p chiều hoặc là các đa cộng tuyến tính giữa các biến. __________________________________________________________________ 29 Chương 1 Số hạng đa cộng tuyến tính chỉ ra tương quan cao độ giữa các biến. Trong trường hợp có lợi số bậc ít hơn p. (a) ∑ nhỏ (b) ∑ lớn Hình 1.2 : Mật độ của phân phối chuẩn hai chiều Trong sự hiện diện của đa cộng tuyến tính một hoặc nhiều hơn giá trị riêng của ma trận sẽ gần 0 và Σ Σ sẽ nhỏ như vậy Σ là kết quả của các giá trị riêng. Hình 4.2 cho thấy rằng, trong trường hợp hai chiều, một phép so sánh của một phân bố với Σ nhỏ và một phân bố với Σ lớn hơn. Một cách khác để biểu diễn mật độ tập trung các điểm trong phân phối chuẩn hai chiều là biểu đồ đường viền. Hình 4.3 biểu diễn biểu đồ đường viền cho phân phối hai chiều ở hình 4.2 . Mỗi một ellipse bao hàm một tỉ lệ khác nhau giữa các vector y được quan sát.. Mặt cắt của mật độ chuẩn hai biến ở một vòng của ellipse là nơi bao gồm các tỉ lệ các quan sát. (a) ∑ nhỏ (b) ∑ lớn Hình 1.3: Biểu đồ đường viền cho các phân phối trong hình 1.2 __________________________________________________________________ 30 Chương 1 Ở cả Hình 1.2 và 1.3, Σ nhỏ xuất hiện ở hình bên trái và Σ lớn hơn xuất hiện ở hình bên phải. Trong Hình 1.3a có sự tương quan chặt hơn giữa y1 và y2. Trong Hình 1.3b phương sai lớn hơn. Trong thực tế cho một p biến bất kì, Nếu giảm sự tương quan giữa các biến hoặc là tăng phương sai thì dẫn tới một Σ lớn hơn. Hình 1.4 : Đồ thị hàm mật độ phân phối chuẩn hai chiều 1. 6. 4 Tính chất phân phối chuẩn của biến ngẫu nhiên nhiều chiều : Dưới đây là một số tính chất của vector ngẫu nhiên y (p x 1) có phân phối chuẩn ( ),μpN Σ : 1 – Tính chuẩn tắc của kết hợp tuyến tính các biến trong y : (a). Nếu a là một vector hệ số ( hằng số ),thì hàm tuyến tính là chuẩn đơn biến : 1 1 2 2 'a y ... p pa y a y a y= + + + Nếu y là thì là ( ),μpN Σ 'a y ( )' 'aμ,a apN ∑ __________________________________________________________________ 31 Chương 1 Trung bình và phương sai của được cho bởi công thức (1.53) và (1.54). Như vậy thì 'a y ( )' 'a y aμE = và ( ) 'cov Ay A A= ∑ cho bất kì một vector ngẫu nhiên y. Bây giờ chúng ta có thêm thuộc tính có phân phối chuẩn nếu y có phân phối 'a y ( ),μpN Σ (b). Nếu A là ma trận hệ số (q x p) có hạng là q. Ở đây , q dòng kết hợp tuyến tính trong A q p≤ y có phân phối chuẩn nhiều chiều : Nếu y có phân phối ( ),μpN Σ thì Ay có phân phối ( )'Aμ,A ApN ∑ Ở đây một lần nữa nhắc lại ( )Ay AμE = và ( ) 'cov Ay A A= ∑ nhưng bây giờ có thêm các tính năng của q biến trong Ay với phân phối chuẩn nhiều chiều. 2 – Biến đã được chuẩn hóa : Chuẩn hóa vector z có thể đạt được bằng hai cách sau : ( ) ( )1z T y μ−= − (1.64) ở đây là chỉ số được dùng bởi phương pháp Cholesky hoặc : 'T T∑ = ( ) ( )11 2z y μ−= ∑ − (1.65) ở đây 1 2∑ là căn bậc hai của ma trận đối xứng của ∑ được xác định bởi 1 2 1 2 'A CD C= . Như vậy mà 1 2 1 2∑ = ∑ ∑ . Trong cả hai công thức (1.64) và (1.65) vector của biến ngẫu nhiên được chuẩn hóa có tất cả trung bình bằng 0 và phương sai bằng 1 và tất cả các hệ số tương quan bằng 0. Trong cả hai trường hợp từ (1b) ta thấy z có phân phối chuẩn nhiều chiều : Vậy nếu y là ( ,μpN )Σ thì z là ( ),0 IpN 3 – Phân phối chi ( khi )- bình phương: __________________________________________________________________ 32 Chương 1 Một biến ngẫu nhiên chi-bình phương với p bậc tự do được xác định như là tổng bình phương p biến ngẫu nhiên chuẩn độc lập. Vì vậy, nếu z là vector đã được chuẩn hóa xác định như trong (1.64) và (1.65) thì có phân phối 2 1 'z zp jj z= =∑ 2χ với p bậc tự do, kí hiệu là 2pχ hoặc ( )2 pχ . Từ một trong hai công thức (1.64) và (1.65) ta có được ( ) (1''z z y )μ y μ−= − ∑ − . Do đó, Nếu y có phân phối ( ),μpN Σ thì ( ) (1'y )μ y μ−− ∑ − có phân phối 2pχ . (1.66) 4 – Tính chuẩn tắc của phân phối biên duyên : (a). Bất kì một nhóm con nào của y đều có phân phối chuẩn nhiều chiều, với vector trung bình tương ứng với vector con của μ và ma trận hiệp phương sai tương ứng với ma trận con của ∑ . Để minh họa điều này, cho vector ( )'1 1 2, ,...,y ry y y= là vector con này chứa r phần tử đầu của y và ( )'2 1,...,y ry y+= p bao gồm p – r phần tử còn lại. Như vậy y,μ và ∑ được phân chia như sau : 1 1 11 2 2 21 , , y μ y μ y μ ∑ ∑⎛ ⎞ ⎛ ⎞ ⎛= = ∑ =⎜ ⎟ ⎜ ⎟ ⎜∑ ∑⎝ ⎠ ⎝ ⎠ ⎝ 12 22 ⎞⎟⎠ Ở đây và là ( r x 1) và 1y 1μ 11∑ là ( ). Như vậy là có phân bố chuẩn nhiều chiều. r x r 1y Vậy nếu y là thì là ( ),μpN Σ 1y ( )1 11,μrN Σ Cũng cần nhắc lại là ta có ( )1 1y μE = và ( )1cov y 11= ∑ cố định cho bất kì một vector ngẫu nhiên nào được phân chia theo cách này. Nếu y là ngẫu nhiên p – biến phân bố chuẩn thì là r biến phân bố chuẩn. 1y __________________________________________________________________ 33 Chương 1 (b). Một trường hợp đặc biệt của các kết quả trước, với mỗi y j trong y có phân phối chuẩn đơn : Nếu y là thì là ( ,μpN Σ) jy ( ), , 1,2,...,j jjN jμ σ = p Cách đảo vấn đề này không thực sự đúng. Nếu mật độ của mỗi một trong y là phân bố chuẩn thì không nhất thiết y phải là phân bố chuẩn nhiều chiều theo như ở trên. jy Trong ba tính chất tiếp theo, ta cho một vector được quan sát và phân chia thành hai vector phụ được kí hiệu bởi y và x , ở đây y là (p x 1)và x là (q x 1). Hoặc, ngoài ra, cho phép x là đại diện cho một số bổ sung để cùng xét với các biến trong y. Từ kết quả trước ta có : , cov μy y x xμ yy yxy xy xxx E ∑ ∑⎛ ⎞⎛ ⎞⎛ ⎞ ⎛ ⎞= = ⎜ ⎟⎜ ⎟⎜ ⎟ ⎜ ⎟ ⎜ ⎟∑ ∑⎝ ⎠ ⎝ ⎠⎝ ⎠ ⎝ ⎠ Trong tính chất 5, 6, 7, chúng ta giả thiết rằng : y x ⎛ ⎞⎜ ⎟⎝ ⎠ là , μ μ yy yxy p q xy xxx N + ⎡ ∑ ∑⎛ ⎞⎛ ⎞ ⎤⎢ ⎥⎜ ⎟⎜ ⎟ ⎜ ⎟∑ ∑⎢ ⎥⎝ ⎠ ⎝ ⎠⎣ ⎦ 5 – Tính độc lập : (a). Nếu Vector con y và x là độc lập thì 0yx∑ = (b). Hai biến riêng lẻ và độc lập nếu jy ky 0jkσ = . Chú ý rằng điều này không thực sự đúng cho các biến ngẫu nhiên không có phân bố chuẩn. 6 – Phân bố có điều kiện : Nếu y và x không độc lập, tức là 0yx∑ ≠ phân phối có điều kiện của y đối với x, ( )y xf là phân bố chuẩn nhiều chiều với : ( ) ( )1y x μ x μy yx xxE −= + ∑ ∑ − x (1.67) ( ) 1cov y x yy yx xx xy−= ∑ −∑ ∑ ∑ (1.68) __________________________________________________________________ 34 Chương 1 Chú ý rằng ( )y xE là một vector của các hàm tuyến tính của x, trong khi ( )cov y x là một ma trận không phụ thuộc vào x. Xu hướng tuyến tính trong công thức (1.67) cố định cho bất kì các cặp biến. Như vậy ta có thể dùng công thức trên để kiểm tra tính chuẩn tắc, kiểm tra đồ thị phân tán hai chiều của tất cả các cặp biến và cũng để xem xét bất kì một xu hướng phi tuyến nào. Trong công thức (1.67) ta có được sự điều chỉnh trong việc dùng phương sai và tương quan để đo sự liên hệ giữa hai biến ngẫu nhiên có phân bố chuẩn. Như đã trình bày ở phần trước hiệp phương sai và tương quan chỉ tốt cho việc đo mối liên hệ của các biến có xu hướng tuyến tính và thực tế sẽ không phù hợp cho biến ngẫu nhiên phi chuẩn với mối liên hệ phi tuyến. Ma trận 1yx xx −∑ ∑ trong công thức (1.67) được gọi là ma trận của các hệ số hồi quy (matrix of regression coefficients) bởi vì nó liên hệ từ ( )y xE đến x. 7 – Phân phối của tổng của hai vector phụ : Nếu y và x có cũng cỡ (p x 1) và độc lập thì : là y x+ ( ),μ μp d d yy xxN + ∑ +∑ (1.69) y x− là ( ),μ μp d d yy xxN − ∑ +∑ (1.70) Trong phần còn lại của mục này, ta sẽ minh họa trường hợp đặc biệt của tính chất 6 của phân bố chuẩn hai biến. Cho u y x ⎛ ⎞= ⎜ ⎟⎝ ⎠ Có phân phối chuẩn hai biến với : ( )u y x E μ μ ⎛ ⎞= ⎜ ⎟⎝ ⎠ , ( ) 2 2 cov u y yx yx x σ σ σ σ ⎛ ⎞⎜ ⎟= ∑ = ⎜ ⎟⎝ ⎠ Từ định nghĩa ( ) ( ) ( ),f y x g y x h x= ở đây ( )h x là hàm mật độ của x và là hàm mật độ kết hợp của y và x. Do đó : ( ,g y x) __________________________________________________________________ 35 Chương 1 ( ) ( ) ( ),g y x f y x h x= Và bởi vì bên phải là một tích số. Chúng ta cố gắng tìm kiếm một hàm của y và x, hàm này thì độc lập với x và mật độ của nó có chức năng như là ( )f y x . Từ hàm tuyến tính của y và x là chuẩn tắc bởi tính chất (1a) , ta có thể xem y xβ− như thế. Ta sẽ cố gắng tìm giá trị của β sao cho y xβ− và x là độc lập với nhau. Khi mà z y xβ= − và x là chuẩn tắc và độc lập thì Để tìm ( )cov , 0x z = (cov , )x z ta biểu diễn x và z như là hàm số của u, ( ) ( )0, 1 0, 1 'u a uyx x ⎛ ⎞= =⎜ ⎟⎝ ⎠ = , ( )1, 'u b uz y xβ β= − = − = Bây giờ : ( ) ( )cov , cov ,' ' 'a u b u a bx z = = ∑ [từ công thức (1.55)] ( ) ( )2 2 22 1 10, 1 ,= y yx xy x yx x yx x σ σ σ σ σβ βσ σ ⎛ ⎞⎛ ⎞ ⎛ ⎞⎜ ⎟ = =⎜ ⎟ ⎜ ⎟⎜ ⎟ − −⎝ ⎠ ⎝ ⎠⎝ ⎠ βσ− Khi ( )cov , 0x z = ta thu được 2= yx xβ σ σ và z y xβ= − trở thành : 2 yx x z y x σ σ= − Bởi vì tính chất (1a) , mật độ của ( )2yx xy σ σ− x là chuẩn tắc với : 2 2 yx yx y x x x E y x σ σμ μσ σ ⎛ ⎞− = −⎜ ⎟⎝ ⎠ ( )2var var ' 'b u b byx x y x σ σ ⎛ ⎞− = =⎜ ⎟⎝ ⎠ ∑ __________________________________________________________________ 36 Chương 1 2 2 2 22 2 1 1, y yxyx yxyx y x xyx x x σ σσ σσ σσ σσ σ σ ⎛ ⎞⎛ ⎞⎛ ⎞ ⎜ ⎟⎜ ⎟= − = −⎜ ⎟ ⎜ ⎟⎜ ⎟ −⎝ ⎠ ⎜ ⎟⎝ ⎠⎝ ⎠ Đối với một giá trị của x, chúng ta có thể biểu diễn y như sau ( )y x y xβ β= + − ở đây xβ là đại lượng cố định tương ứng với giá trị của x và y xβ− là độ phân tán ngẫu nhiên. Nên ( )f y x là chuẩn tắc, với : ( ) ( ) ( )y x yE y x x E y x x x xβ β β μ βμ μ β μ= + − = + − = + − ( ) 2 2var yxy x y x σσ σ= − 1. 6. 5 Ước lượng trong phân bố chuẩn nhiều chiều : 1. 6. 5. 1 Ước lượng hợp lý tối đa (MLE) : Khi một phân phối là phân bố chuẩn nhiều chiều được giả định để cố định cho một tổng thể, ước lượng các tham số thường được tìm bởi phương pháp hợp lý cực đại. Kỷ thuật này dựa trên ý tưởng đơn giản, các vector được quan sát được xem như là đã biết trước và giá trị của 1 2, ,...,y y yn μ và ∑ được tìm như một tối đa hóa mật độ đồng thời của y được gọi là hàm hợp lý. Cho một phân bố chuẩn nhiều chiều thì ước lượng hợp lý tối đa của μ và ∑ là : μ y= (1.71) l ( )( )' 1 1 1 1y y y y W S n i i i n n n= n −∑ = − − = =∑ (1.72) ở đây ( )( )'W y y y yi i= − − và S là ma trận hiệp phương sai mẫu được định nghĩa bởi công thức (1.7) Khi có số chia là n thay vì n – 1, nó là một ước lượng chệch và ta thường dùng thay thế l∑ S l∑ __________________________________________________________________ 37 Chương 1 Bây giờ ta cho một vector y được hiệu chỉnh và xem như là một ước lượng hợp lý tối đa của μ Vì từ cấu tạo của mẫu ngẫu nhiên, chúng độc lập, và mật độ đồng thời là tích của các mật độ của yi y . Hàm hợp lí sẽ là : ( ) ( ) ( ) ( ) ( )' 1 2 1 2 1 2 1 1 1, ,..., , , , , 2 y μ y μy y y μ y μ n n n i p i i L f eπ −− − ∑ − = = ∑ = ∑ = ∑∏ ∏ ( ) ( ) ( )' 11 2 2 1 2 y μ y μn i np n e π − =− − ∑ −∑= ∑ (1.73) Để thấy rằng μ y= tối ưu là hàm hợp lí. Chúng ta bắt đầu bởi việc cộng trừ y trong công thức mũ ở (1.73) : ( ) ( ), 1 1 1 2 y y y μ y y y μ n i i i − = − − + − ∑ − + −∑ Khi điều này được khuyết đại trong các số hạng của yi y− và y μ− hai trong bốn kết quả của các số hạng bị triệt tiêu bởi vì ( )y yii −∑ và (4.13) trở thành : ( ) ( ) ( ) ( ) ( )' '1 11 2 2 2 1 2 y y y y y μ y μn i ii n np n L e π − − =− − ∑ − − − ∑ −∑= ∑ (1.74) Vì là xác định dương, ta có 1−∑ ( ) ( )' 1 2 0y μ y μn −− ∑ − ≤ và ( ) ( )' 1 20 y μ y μne −− − ∑ −< 1≤ tối ưu hóa xảy ra khi số mũ là 0, lúc này L được tối ưu hóa khi μ y= Ước lượng hợp lý tối đa của ma trận tương quan tổng thể Pρ [ xem công thức (1.24)] là : l ρP R= __________________________________________________________________ 38 Chương 1 Mối quan hệ giữa các biến chuẩn nhiều chiều là tuyến tính, điều này đã được đề cập ở phần trước. Như vậy và chỉ phục vụ tốt cho phân bố chuẩn nhiều chiều. Bởi vì chúng chỉ đo được trong mối quan hệ tuyến tính [ xem mục 1.6.4]. Những ước lượng này không hữu ích cho các phân bố phi chuẩn. S R 1. 6. 5. 2 Phân phối của y và S : Xây dựng phân phối của 1 y yn ii n==∑ ta có thể chia thành hai trường hợp : 1- Khi y dựa trên cơ sỡ mẫu ngẫu nhiên từ phân phối chuẩn nhiều chiều , thì 1 2, ,...,y y yn ( ,μpN Σ) y có phân phối ( ),μpN nΣ . 2- Khi y dựa trên cơ sỡ một mẫu ngẫu nhiên từ phân phối phi chuẩn nhiều chiều tổng thể với vector trung bình 1 2, ,...,y y yn μ và ma trận hiệp phương sai , với độ rộng n, ∑ y được xấp xỉ ( ),μpN nΣ . Rõ hơn nữa, kết quả này được biết như là định lí giới hạn trung tâm nhiều chiều : “Nếu y là vector trung bình của một mẫu ngẫu nhiên từ một tổng thể với vector trung bình 1 2, ,...,y y yn μ và ma trận hiệp phương sai ∑ , thì khi , phân phối của n →∞ ( )y μn − xấp xỉ ( ),0pN ∑ Có p biến trong S và 2 p⎛ ⎞⎜⎝ ⎠⎟ hiệp phương sai, cho tổng cộng có : ( ) ( )1 1 2 2 2 p p p p p p p − +⎛ ⎞+ = + =⎜ ⎟⎝ ⎠ đầu vào khác biệt nhau. Phân phối đồng thời của ( )1 2p p + các biến khác nhau này trong ( ) ( )( )'1W S y y y yi iin= − = − −∑ là phân phối Wishart, kí hiệu là ( )1,pW n − ∑ ở đây là số bậc tự do. 1n − __________________________________________________________________ 39 Chương 1 Phân phối Wishart có số chiều tương tự như phân phối 2χ và nó được sử dụng một cách tương tự. Trong tính chất 3 mục 1.6.4 , phân phối 2χ của một biến ngẫu nhiên được định nghĩa là tổng bình phương của các biến ngẫu nhiên chuẩn độc lập : ( )22 2 1 1 n n i i i i y z μ σ= = −=∑ ∑ là phân phối ( )2 nχ Nếu y được thay thế cho μ thì ( ) ( )2 2 21ii y y n s 2σ σ− = −∑ có phân phối ( )2 1nχ − . Tương tự công thức xác định của biến ngẫu nhiên có phân bố Wishart : ( )( )' 1 y μ y μ n i i i= − −∑ là ( ),pW n ∑ ở đây là độc lập và có phân phối như 1 2, ,...,y y yn ( ),μpN Σ Khi y được thay thế cho μ phân phối phần còn lại Wishart với ít hơn một bậc tự do : ( ) ( )( )' 1 1 S y y y y n i i i n = − = − −∑ là ( )1,pW n − ∑ Cuối cùng, lưu ý là khi lấy mẫu từ phân phối chuẩn nhiều chiều, y và S là độc lập. __________________________________________________________________ 40 Chương 2 CHƯƠNG 2 : ƯỚC LƯỢNG KHÔNG CHỆCH TUYẾN TÍNH Lớp tất cả các đại lượng không chệch tuyến tính của hàm ( )g F nào đấy là họ tất cả các ước lượng không chệch các hàm tuyến tính của đại lượng ngẫu nhiên được quan sát. Trong chương này ta sẽ nghiên cứu hai vấn đề : 1) Hàm ( )g F nào đối với nó có ước lượng tuyến tính không chệch 2) Tìm trong lớp tất cả các ước lượng tuyến tính không chệch của ( )g F ước lượng có phương sai bé đều nhất. 2. 1 Mô hình thống kê tuyến tính tổng quát hạng đầy đủ : Mô hình thống kê tuyến tính tổng quát với hạng đầy đủ bao gồm vector ngẫu nhiên n chiều quan sát được Y được biểu diễn dưới dạng : Y Xβ ε= + (2.1) Trong đó X là ma trận cấp n x p đã biết, vector β là vector cột p chiều và là vector tham số chưa biết, còn ε là vector sai số ngẫu nhiên n chiều với (2.2) 2ε 0 ; εε IT nE E σ= = Với 20 σ< < ∞ , 2σ nói chung là chưa biết, là ma trận đơn vị cấp n. Mô hình được gọi là mô hình tuyến tính hạng đầy đủ nếu hạng In ( )r X p= . Mô hình tuyến tính là trường hợp đặc biệt với mô hình tuyến tính cùng dạng nhưng với : 2εε STE σ= (2.3) với S là ma trận cấp n đã biết, có hạng bằng n. Tuy nhiên ta có thể đưa mô hình (2.1), (2.3) về (2.1),(2.2). Thật vậy, vì S là ma trận hiệp phương sai xác định dương nên có tồn tại ma trận không suy biến D cấp n x n sao cho . V DDT= __________________________________________________________________ 41 Chương 2 Nếu đặt ta có 1*Y D−= Y ** *Y X β ε= + trong đó , do đó 1 1* *X D X,ε D ε− −= = *ε 0E = và ( ) ( )2 1 1 2* *ε ε D S D IT T nE σ σ− −= = . Như vậy mô hình tuyến tính đối với thõa mãn (2.2). Do đó giả thiết (2.2) không làm giảm tính tổng quát của mô hình. *Y Nếu ma trận S suy biến thì không thể áp dụng được phương pháp trên và cần phải xét một lí thuyết tổng quát hơn. Chú ý rằng p vector cột của X là vector n chiều nằm trong một đa tạp tuyến tính (không gian con) của không gian n chiều. Vì vậy với bất kì vector p – chiều β , vector có chiều là n và nằm trong đa tạp tuyến tính p chiều cảm sinh bởi p cột của X. Ký hiệu đa tạp đó là . Giả sử η Xβ= pD ( ) ( ) ( ){ }1 2ξ ,ξ ...,ξ p là cơ sỡ trực chuẩn của . Khi đó vector có thể biểu diễn dưới dạng pD η Xβ= ( )1η ξ p i ii c==∑ . Khoảng cách giữa vector η pD∈ và Y đạt cực tiểu khi là hình chiếu trực giao của Y lên . η pD Giả sử là vector sao cho : β η Xβ= β là ước lượng bình phương bé nhất của . Để tìm ta để ý rằng β β Xβ là hình chiếu trực giao của Y lên , do đó pD ( )( ) ( ) 0 1ξ Y Xβ , , ..., .Ti i p− = = Vì vector cột bất kỳ của X là tổ hợp tuyến tính của ( ) ( ) ( )1 2ξ ,ξ ...,ξ p nên β thỏa mãn phương trình : ( )X Y Xβ 0T − = Hoặc phương trình chuẩn Gauss – Markov : X Xβ X YT = T (2.4) __________________________________________________________________ 42 Chương 2 Vì là ma trận không suy biến nên X XT ( ) 1β X X X YT T−= (2.5) Rõ ràng là ước lượng bình phương bé nhất β đó là duy nhất. Ta sẽ chứng minh rằng ước lượng không chệch tuyến tính tốt nhất của hàm tuyến tính λ là βT λ βT khi mô hình là mô hình hạng đầy đủ. 2. 2 Ước lượng không chệch cho mô hình thống kê tuyến tính tổng quát hạng đầy đủ : 2. 2. 1 Định lí 2.1 (Gauss – Markov) : Giả sử Y Xβ+ε= là mô hình tuyến tính hạng đầy đủ, là hàm tuyến tính của β . Khi đó ước lượng λ βT λ βT là ước lượng không chệch tốt nhất của , trong đó được xác định bởi λ βT β ( ) 1β X X X YT T−= . Chứng minh : Trước tiên ta chứng minh rằng λ βT là ước lượng không chệch của . Thật vậy , λ βT ( ) ( )1 -1T T T T Tλ β λ X X X EY=λ X X X Xβ=λ βT TE −= T Giả sử là một ước lượng không chệch của bất kì của , tron đó là ma trận cấp p x n nào đấy. Để cho là ước lượng không chệch ta phải có : AY β A AY AY A Y AXβ βE E= = = tức là AX I p= . Ta sẽ chứng minh rằng : ( ) ( )T Tβ βλ β λ AYD D≤ với bất kì và bất kì β trong đó λ Dβ là kí hiệu của toán tử hiệp phương sai ứng với , hoặc tương đương β __________________________________________________________________ 43 Chương 2 ( ) ( )T β βλ β λ λ AY λTD D≤ Tức là ta phải chứng minh được rằng ( ) ( )β AY βD D− β là ma trận xác định không âm. Đặt với -1 TQ=A - V X TV X X= , khi đó : ( ) ( ) ( ) 2 12β β βAY QY β QXVD D D σ −= + + Vì nên AX I p= ( ) ( )1 1QX V AX I V 0p− −= − = , và vì vậy ( ) ( ) ( )β β βAY β QYD D D− = là ma trận xác định không âm. Dễ dàng thấy rằng ( ) 2T -β λ β λ V λTD σ= 1 . Bây giờ ta hãy xác định ước lượng không chệch của 2σ 2. 2. 2 Bổ đề 2.1 : Ước lượng không chệch của 2σ trong mô hình tuyến tính có hạng đầy đủ có dạng : l ( )( )2 11 1 TY X X X XT Tn pσ −= −− Y . (2.6) Chứng minh : Chú ý rằng ma trận là ma trận lũy đẳng, tức là : -1 TI XV X− ( )21 - T -1XV X I XS XT− = − . Hơn nữa ( )-1 TX I XV X X 0− = , do đó __________________________________________________________________ 44 Chương 2 ( )( ) ( )( )( ) ( ) ( )2 2 T -1 T T -1 T -1 T Y I XV X Y Y I XV X I XV X E tr D tr n p β β σ σ − = − = − = − trong đó ( ).tr là kí hiệu vết của ma trận vuông ( tức là tổng các phần tử trên đường chéo chính ) và ta cũng cần chú ý đến tính chất của ( ).tr là ( ) ( )tr AB tr BA= . Từ đó suy ra rằng nếu l 2σ cho bởi (3.6) thì l 2 2Eσ σ= . 2. 2. 3 Hệ quả 2.1 : Xét mô hình tuyến tính tổng quát (2.1), (2.3). Khi đó ước lượng không chệch bình phương bé nhất của là : β ( )-1-1 T T -1β XS X X S Y= , (2.7) Còn ước lượng không chệch cho 2σ là : l ( )( )2 1 T -1 -1 T -1 T -1Y S S X X S X X S Yn pσ = −− . (2.8) Thật vậy, nếu áp dụng (2.3) và bổ đề 1.1 cho mô hình (2.1), (2.2) trong đó thay bởi và bởi ta sẽ nhận được (2.7), (2.8). Y -1D Y X -1D X Ví dụ 2.1 : Giả sử là vector quan sát n chiều có Y ( )Y , 1,...,11 1 TE θ= = , θ−∞ < < ∞ và ma trận hiệp phương sai là . Hãy tìm ước lượng không chệch tuyến tính với phương sai bé nhất của 2 2 0,Sσ σ > θ . Ta có mô hình Y 1 εθ= + trong đó 2εε STE σ= . Do đó áp dụng hệ quả trên ta được : -1 -1 1 S Y 1 S 1 T Tθ = , (2.9) __________________________________________________________________ 45 Chương 2 l ( )( )2 1 T -1 -1 T -1 T -1Y S S 1 1 S 1 1 S Yn pσ = −− . Đặc biệt nếu ( )21S ,...,diag 2nσ σ= , trong đó ( ).diag là kí hiệu của ma trận đường chéo, ta có : 21 2 1 Y 1 n i ii n ii σθ σ = = = ∑∑ l 1 1 1 2 2 2 2 2 2 i i j , 1 Y Y Y n n n i i j i i j in p σ σ σ σ− − − = = = ⎡ ⎤⎛ ⎞= −⎢ ⎥⎜ ⎟− ⎢ ⎥⎝ ⎠⎣ ⎦∑ ∑ ∑ iσ − còn 1 2 1 θ n i i D σ − − = ⎛ ⎞= ⎜ ⎟⎝ ⎠∑ Khi 2σ đã biết (cho 2 1σ = ) thì ước lượng không chệch tuyến tính với phương sai bé nhất của θ cho bởi (3.9) trùng với ước lượng không chệch vớ phương sai bé nhất khi Y có phân bố chuẩn ( )1,SN θ . Tuy nhiên có trường hợp ước lượng tuyến tính không chệch bằng phương pháp bình phương bé nhất rất là kém hiệu quả , chẳng hạn lấy mẫu ngẫu nhiên từ phân bố đều trên ( 1, ..., nX X )0,θ thì có ước lượng không chệch với phương sai bé nhất là : ( ) 1 θ n n X n += Còn ước lượng tuyến tính bình phương bé nhất, như ta dễ dàng thấy là : l 1 2 θ X= l 1θ là ước lượng có phương sai lớn hơn đáng kể so với phương sai của θ khi n lớn. __________________________________________________________________ 46 Chương 2 2. 3 Mô hình thống kê tuyến tính với hạng không đầy đủ Xét mô hình tuyến tính tương tự như ở (2.1) và (2.2) dạng : Y Xβ+ε= , (2.10) với : 2εε ITE σ= , (2.11) còn ( )Xr p< Mô hình như vậy gọi là mô hình tuyến tính hạng không đầy đủ. Đối với mô hình tuyến tính hạng không đầy đủ không phải hàm tuyến tính dạng nào cũng là hàm ước lượng được (tức là có ước lượng tuyến tính không chệch). λ βT 2. 4 Ước lượng không chệch cho mô hình thống kê tuyến tính hạng không đầy đủ : 2. 4. 1 Định lí 2.2 : Xét mô hình (3.10), (3.11) với ( )Xr p< . Hàm tuyến tính ước lượng được khi và chỉ khi λ βT ( ) ( )X X : λT Tr r= , (2.12) ( )X :T λ là ma trận nhận được bằng cách thêm vào ma trận cột số XT ( )1λ , ..., Tpλ λ= Chứng minh : Giả sử có ước lượng tuyến tính không chệch Tλ β ( )1γ Y;γ , ..., TT T pγ γ= . Khi đó T Tγ Y Xβ λ β; βTE γ= = ∀ Do đó : __________________________________________________________________ 47 Chương 2 Tλ γ XT = Vì vậy mà là tổ hợp tuyến tính của các vector cột của . Từ đó ta có thể suy ra (2.12). λT X Bây giờ ta giả sử ngược lại rằng (3.12) được thỏa mãn khi đó tồn tại vector ( )1γ , ..., TT nγ γ= sao cho Tλ γ XT = . Dễ thấy Tγ Y là ước lượng không chệch của . Tλ β 2. 4. 2 Bổ đề 2.2 : Ta hãy xét mô hình (2.10), (2.11) với ( )Xr r p= ≤ . Giả sử ước lượng được. Ta ký hiệu đa tạp tuyến tính căng trên các vector cột của bởi Tλ β X rD ( đa tạp đó có chiều là r ). Khi đó tồn tại duy nhất một vector *L rD∈ sao cho ( )T*L Y là ước lượng không chệch của . Hơn nữa nếu là ước lượng không chệch của thì Tλ β TL Y Tλ β *L là hình chiếu của vector trên L rD , tức là ( )*L Pr LrojD= Chứng minh : Vì là ước lượng được nên tồn tại vector Tλ β ( )1, ..., nL l l= sao cho ( )TL Y λ βE = T . Giả sử , *L=L +K ( )*L =Pr LrojD , còn là vector trực giao với . Do đó ta có và ta có : K *L TK X 0= ( )( ) ( ) ( ) ( )( )T T TT * * * *λ β L +K Y L +K Xβ L Xβ L YE E= = = = T , Như vậy ( )T*L Y là ước lượng không chệch của . Bây giờ ta sẽ chứng minh rằng là một vector duy nhất thuộc Tλ β *L rD có tính chất đó : Giả sử A rD∈ sao cho ( )TA Y λ βE = T khi đó ( )*A-L Xβ 0= với mọi Xβ rD∈ . Do đó mà . *A L= __________________________________________________________________ 48 Chương 2 2. 4. 3 Định lí 2.3 : ( Gauss – Markov ) Xét mô hình tuyến tính (2.10), (2.11) với ( )Xr r p= ≤ . Hàm ước lượng được bất kỳ có ước lượng tuyến tính không chệch tốt nhất , trong đó Tλ β Tλ β β là ước lượng không chệch bình phương bé nhất của , tức là là nghiệm bất kỳ của phương trình chuẩn β β T TX Xβ=X Y Chứng minh : Cho hàm ước lượng được. Giả sử là ước lượng tuyến tính không chệch của , theo bổ đề 1.2 sẽ tồn tại ước lượng tuyến tính không chệch duy nhất Tλ β TL Y Tλ β ( )T*L Y của sao cho Tλ β ( )* Pr LrL ojD= . Phương sai của ước lượng là : TL Y ( ) 2T TL Y L LD σ= . Như vậy ( )T*L Y là ước lượng không chệch tuyến tính với phương sai bé nhất. Bây giờ ta sẽ chứng minh rằng ( )T*L Y λ β= T * trong đó là nghiệm nào đấy của phương trình chuẩn. Giả sử là hình chiếu trực giao của Y lên , như ta đã chứng minh ở mục trước là nghiệm của phương trình chuẩn *β *Xβ β T * TX Xβ X Y= . Bởi vì *L rD∈ nên ( ) ( )*L Y Xβ 0T − = , và do đó ( ) ( ) T T* *L Y L Xβ= . Hơn nữa vì ( )T*L Y là ước lượng không chệch nên ( )T*L X λT= . Do đó ( ) T* TL Y λ β= . __________________________________________________________________ 49 Chương 2 2. 4. 4 Ước lượng bình phương bé nhất mở rộng Theo định lý Gauss – Markov 2.3 nếu ước lượng được thì nghiệm bất kỳ của phương trình chuẩn sẽ cho ta ước lượng tuyến tính không chệch với phương sai bé nhất λ βT T TX Xβ X Y= λ βT . Bây giờ ta hãy mô tả phương pháp để nhận được ước lượng như vậy. Nếu mô hình tuyến tính có hạng đầy đủ p thì tồn tại duy nhất nghiệm β của phương trình chuẩn, nghiệm đó cho ta ước lượng bình phương bé nhất. Khi hạng của ma trận bằng TX X r p< , nghiệm của hệ phương trình chuẩn TX Xβ X Y= T (3.4) không duy nhất. Tồn tại đa tạp p r− chiều các nghiệm của phương trình chuẩn. Một trong các nghiệm đó được gọi là ước lượng bình phương bé nhất mở rộng. Để nghiên cứu ước lượng bình phương bé nhất mở rộng ta sẽ sử dụng khái niệm ma trận nghịch đảo mở rộng sau đây: Cho ma trận cấp n x m, ma trận S S− cấp m x n được gọi là ma trận nghịch đảo mở rộng yếu ( hoặc nghịch đảo yếu ) của ma trận nếu đối với bất kỳ vector n chiều đã cho Y , vector S là nghiệm của hệ phương trình tương thích . g − S Y− SX Y= Nếu ma trận g − nghịch đảo S− của S tồn tại thì nó thỏa mãn đẳng thức : SS S S− = Hơn nữa nếu đặt thì : H S S−= (i) là ma trận lũy đẳng, tức là H 2H H= ; (ii) SH và hạng S= ( ) ( ) ( )S Hr r tr= = H ; (iii) Nghiệm mở rộng của phương trình SX Y= có dạng : l ( )X S Y H I Z−= + − trong đó Z là vector tùy ý ; __________________________________________________________________ 50 Chương 2 (iv) Ma trận như nhau đối với mọi thỏa mãn phương trình SX khi và chỉ khi λ XT X Y= T THλ λ= ; (v) Luôn luôn tồn tại ma trận S− của và S ( ) ( )r S r S− ≥ , hơn nữa luôn tồn tại nghịch đảo S với hạng lớn nhất − ( ) ( )min ,r S m n− = không phụ thuộc vào ( )r S . Ma trận S− với hạng lớn nhất có thể được xây dựng như sau : đối với đã cho cấp m x n , , ta hãy xây dựng ma trận vuông cấp n x n S m n< * SS O ⎡ ⎤= ⎢ ⎥⎣ ⎦ Trong đó O là ma trận các số không cấp ( )n-m x n . Khi đó dựa vào các phép biến đổi cơ bản có thể đưa về ma trận Hermite chính tắc. Nói khác đi, tồn tại ma trận không suy biến C cấp n x n sao cho *S * I K CS ... . ... O O r ⎡ ⎤⏐⎢ ⎥= ⎢ ⎥⎢ ⎥⏐⎣ ⎦ trong đó ( )Sr r= . Đặt . Dễ thấy rằng là ma trận lũy đẳng. Do đó *H CS= H * *CS CS H= Bởi vì C không suy biến nên : 1* *S CS C H−= Hơn nữa , (2.13) 1* * * * * * * S S H S S CS CS C CS S ... O − ⎡ ⎤⎢ ⎥= = = = = ⎢ ⎥⎢ ⎥⎣ ⎦ Giả sử S là ma trận cấp n x m được lập bởi m cột đầu tiên của ma trận C , tức là − -C S D⎡ ⎤= ⎣ ⎦ khi đó : __________________________________________________________________ 51 Chương 2 - * * - S S SS S CS = ... S D ... = ... O O S O ⎡ ⎤⎡ ⎤ ⎡ ⎤ ⎢ ⎥⎢ ⎥ ⎢ ⎥⎡ ⎤ ⎢ ⎥⎣ ⎦⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦ ⎣ ⎦ , (2.14) So sánh (2.13) và (2.14) ta được . Điều đó có nghĩa rằng ma trận S-SS S=S − được xác định như vậy là nghịch đảo yếu của ma trận . Cuối cùng vì không suy biến nên m cột của là độc lập tuyến tính ,do đó g − S C S− ( )( )Sr − = m , không phụ thuộc vào hạng ( )Sr . Sử dụng ma trận nghịch đảo của trong phương trình chuẩn ta nhận được ước lượng không chệch của g − TX X 2σ trong mô hình tuyến tính hạng không đầy đủ. Như ta đã biết ước lượng Xβ cực tiểu hóa khoảng cách giữa vector quan sát và , tức là : Y Xβ ( ) ( ) ( ) ( )20 Y Xβ Y Xβ min Y Xβ Y XβT TR = − − = − − . 2 0R có thể viết dưới dạng khác ( ) ( )( ) 2 0 T T T T T T T T T Y Y Y Xβ Y Y Y X X X X Y Y I X X X X Y R − − = − = − = − Bởi vì β là nghiệm của phương trình chuẩn TX Xβ X Y= T hoặc l ( )T TX X X Yβ −= . Mệnh đề 1.1 : Ước lượng l 22 0R n r σ = − , trong đó ( )r r X= là ước lượng không chệch của 2σ Chứng minh : Dựa vào tính chất của ma trận nghịch đảo mở rộng ta có : __________________________________________________________________ 52 Chương 2 ( )-T T TX X X X X XT= . Từ đó ta có ( ) ( )( )( )20 -T TY Xβ I X X X X Y XβTR = − − − Và do đó ( )( ) ( ) ( )( ) ( ) 2 2 0 2 2 T T T I X X X X X X X X TER tr n tr n r σ σ σ − − = − = − = − Từ đó ta suy ra l ( )2 2 20E E R n rσ σ= − = . Việc tìm ma trận thiết kế sao cho ma trận hiệp phương sai của ước lượng bình phương bé nhất X β được cho bởi l ( ) 12 TX XDβ σ −= có Dβ nhỏ nhất là bài toán thiết kế thí nghiệm tối ưu. Bài toán được nhiều tác giả nghiên cứu nhưng nó vượt ra ngoài phạm vi nghiên cứu của đề tài này. Sau đây sẽ là phần trình bày của mô hình tuyến tính vào việc nghiên cứu các ước lượng là tổ hợp tuyến tính của các thống kê : 2. 4. 5 Tổ hợp tuyến tính tốt nhất của thống kê thứ tự Một tổ hợp tuyến tính của thống kê thứ tự trong nhiều trường hợp là ước lượng không chệch tốt nhất, ví dụ, trong trường hợp ước lượng các tham số ( ) ( )1 , ..., nX X 1 2,θ θ của phân bố đều ( )1 2,R θ θ trên ( )1 2,θ θ , 1 2θ θ−∞ < < < ∞ , tổ hợp tuyến tính của và là ước lượng không chệch tốt nhất. Ngược lại trong nhiều trường hợp tổ hợp tuyến tính của các thống kê thứ tự không phải là ước lượng ( )1X ( )nX __________________________________________________________________ 53 Chương 2 không chệch tốt nhất. Chẳng hạn nếu là mẫu từ phân bố chuẩn 1, ..., nX X ( ,N )2μ σ , khi đó ước lượng không chệch với phương sai bé nhất của σ sẽ là : m ( ) 1 22 1 n n n i i C X Xσ = ⎛ ⎞= −⎜ ⎟⎝ ⎠∑ trong đó 1 2 2 2 n n C n −⎛ ⎞Γ⎜ ⎟⎝ ⎠= ⎛ ⎞Γ⎜ ⎟⎝ ⎠ ( lưu ý ta có thể thử lại rằng lσ là ước lượng không chệch của σ nếu để ý rằng ( ) ( )22 11 n ii X Xσ = −∑ có phân bố 2χ với n bậc tự do) bởi vì mnσ là hàm của thống kê đủ bé nhất ( )21, n iiX X=∑ . Tuy nhiên người ta cũng thường sử dụng ước lượng không chệch đơn giản hơn của σ là : ( ) ( ) ( )1 2,nn n X X n d σ −= ≥ trong đó là giá trị trung bình của độ rộng mẫu ngẫu nhiên từ phân bố chuẩn nd 1, ..., nY Y ( )0 1,N , tức là ( ) ( )( )1n nd E Y Y= − . Ước lượng đó được ứng dụng rộng rãi trong việc kiểm tra chất lượng sản phẩm. Bảng các giá trị của có thể được tìm thấy trong bất kì một tài liệu nào về kiểm tra chất lượng. Tuy nhiên cũng dễ nhận thấy là ước lượng nd σ kém hiệu quả hơn ( có phương sai lớn hơn ) so với lσ . Độ hiệu quả của nó giảm nhanh khi ta tăng cỡ mẫu vì rằng σ không phải là hàm của thống kê đủ bé nhất ( )21, n iiX X=∑ . Một số ước lượng tốt hơn là hàm của thống kê thứ tự. Mặc dù các ước lượng như vậy là kém hiệu quả hơn ước lượng mnσ , nhưng chúng __________________________________________________________________ 54 Chương 2 vẫn được sử dụng rộng rãi do tính đơn giản của chúng, đặc biệt là khi cỡ mẫu lớn. Việc nghiên cứu sự tiện lợi của các ước lượng tuyến tính đã được tiến hành bởi Mosteller. Các ước lượng như vậy rất ưu việt khi cắt bỏ các giá trị cực biên của các quan sát, đặc biệt hơn là trong phép thử độ tin cậy. Hiệu quả của các phương pháp ước lượng đó khi phân bố cơ sở là chuẩn, Gamma, đều, phân bố giới hạn của các giá trị cực biên đã được nghiên cứu bởi Sarhan và Greenberg. Để ước lượng các tham số tỉ lệ và dịch chuyển dựa trên tổ hợp tuyến tính của các thống kê thứ tự ta xây dựng mô hình tuyến tính như đã làm bởi Lloyd. Giả sử 0ζ là lớp các hàm phân bố phụ thuộc vào tham số dịch chuyển μ và tham số tỷ lệ σ . Hàm phân bố bất kỳ của 0ζ có dạng ( )( )/F x μ σ− , trong đó ( )F x đã cho trước. Nếu có phân bố X ( )( )F x μ σ− thì đại lượng chuẩn hóa có phân bố ( )F x . Giả sử là thống kê thứ tự từ mẫu còn ( ) ( )1 , ..., nX X 1, ..., nX X ( )( ) 1, , ...,r rU X rμ σ= − = n là thống kê thứ tự từ phân bố . Đặt ( )F x ( ) 1, ..., ;r rEU r nα = = ( ) ( )( ) 1cov , , ,...,rt r ts U U r t n= = là các đại lượng đã biết. Đặt ( ) [ ]1 1α , ..., , S ; , , ...,Tn rts r t nα α= = = là ma trận hiệp phương sai , ( )S 0,1 1,...,1 Tn≥ = , ( ) ( )( )1Y ,...,T nX X= . Khi đó ta có mô hình tuyến tính ( )Y 1n μα εσ ⎡ ⎤= +⎢ ⎥⎣ ⎦ với ( ) 2ε 0, εε STE E σ= = . Giả sử rằng là ma trận xác định dương khi đó theo (3.7) thì ước lượng bình phương bé nhất của S μ và σ là __________________________________________________________________ 55 Chương 2 11 1 1 1 1 1 1 S 1 1 S 1 S Yμ 1 S S S Yσ T T T n n n n T T T n α α α α α −− − − − − − ⎡ ⎤ ⎡ ⎤ ⎡ ⎤=⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥ ⎣ ⎦⎣ ⎦⎣ ⎦ Nếu đặt ( )1 1S 1 1 S C T T n nα α γ − −−= trong đó ( )( ) ( )21 1γ 1 S 1 α S α 1 S αT Tn n n− − −= − 1 thì ta có thể viết μ α CY, σ 1 CYT Tn= − = Theo định lý Gauss – Markov , lμ và lσ là tổ hợp tuyến tính tốt nhất của thống kê thứ tự. Phương sai của chúng có dạng : ( ) ( ) ( ) ( )2 T -1 2 1σ α S α σ 1 S 1μ , σγ γ T n nD D − = = còn ( ) ( )2 -σ 1 S αcov μ,σ γn= = − 1 X Bây giờ ta sẽ xét một ví dụ đơn giản đối với phân phối mũ. Ví dụ 2.2 : Giả sử là mẫu ngẫu nhiên từ phân bố mũ hai tham số : 1 , , nX … 0 1 x nêú xxF e nêú x μ σ μμ σ μ −− <⎧− ⎪⎛ ⎞ = ⎨⎜ ⎟⎝ ⎠ ⎪ − ≥⎩ trong đó μ−∞ < < ∞ và 0 σ< < ∞ . Giả sử là thống kê thứ tự từ phân bố : ( ) ( )1 , , nX X… __________________________________________________________________ 56 Chương 2 ( ) 0 0 1 0x nêú x F x e nêú x− <⎧= ⎨ − ≥⎩ Bây giờ ta sẽ chứng minh rằng ( ) ( ) 1 1 1 1, , ..., r r r i EU n i rα − = = = − + =∑ n (3.15) ( ) ( )( ) ( ) 2 1 1 1cov , , n r t r t i s U U n i r t n− = = = − + ≤∑ ≤ ≤ , (3.16) Đặt ( ) ( )' xf x F x e−= = , với 0x > , khi đó mật độ phân bố đồng thời của là ( ) ( )1 ... nU U< < ( ) ( ) ( )1 2 1, , ..., ! ...nf u u u n f u f n= với 1 20 ... nu u u≤ < < < Từ đó ta nhận được phân bố của là ( )rU ( ) ( ) ( ) ( ) ( ) ( ) ( ) 1 2 2 1 1 1 2 2 1 10 1 1 2 2 *...* * ! * ... r r n u u u r ru u r r r r nu u u f u n f u du f u du f u du . r nf u du f u du f u du − + − − − ∞ ∞ ∞ + + + + = ∫ ∫ ∫ ∫ ∫ ∫ ( ) ( ) ( ) ( ) ( )( ) ( )( ) 1 1 1 ! ! ! r n r nf u f u F u F u r n r r− −= −− − hoặc ( ) ( ) ( ) ( ) ( ) 11 1 01 ! ,! ! rn r u ur nf u e e ur n r −− − + −= −− − > Từ đó suy ra ( ) ( ) 1 0 1 1 n r r i uf u du n iα ∞ − = = = −∑∫ + còn mật độ phân bố đồng thời của và với ( )rU ( )tU r t< là __________________________________________________________________ 57 Chương 2 ( ) ( ) ( ) ( ) ( ) ( ) ( )1 1111 1, !, ! ! ! r tn t vu u u vr t nf u v e e e e er n t t r r− − −− − +− − − −= −− − − − − với . 0 u v< < < ∞ Đặc biệt với ta có : 1t r= + ( ) ( ) ( ) ( ) ( )11 11 1, !, ! ! r n r vu ur r nf u v e e er n r − − −− −+ = −− − − , (2.17) với . 0 u v< < < ∞ Nếu dùng phép biến đổi : ( ) ( ) ( )1,r rY U Z U U+ r= = − thì mật độ phân bố đồng thời của Y và Z là ( ) ( ) ( ) ( ) ( ) ( ) ( )1 111 !, ! ! r n r y n r zynf y z e e n r er n r − − − + − −−= − −− − , 0 y z< < < ∞ Như vậy độc lập với ( )rU ( ) (1r rU U+ )− và ( ) (1rU U+ )r− có phân bố mũ với tham số là ( )n r− . Tương tự như vậy có thể chỉ ra rằng, từ (3.17) bằng phép biến đổi , ta có Y và ( ) ( ) ( ),r tY U Z U U= = − r Z là độc lập với nhau. Đặc biệt, từ đó ta có : ( ) ( ) ( ) ( )( )1 1r r r rEU E U U U− −= + − hoặc 1 1 1r r z z n r− = + − + , (2.18) Vì ( )1 1 1EU nα = = , ( do có mật độ mũ với tham số n ), do đó từ (2.18) một lần nữa ta lại nhận được (3.15). Hơn nữa, do độc lập với nên ta có ( )1U ( )rU ( ) (1rU U+ − )r ( ) ( )( ) ( ) ( )( ) ( )( ) ( )21 1 1r r r r rDU D U D U U D U n r+ += + − = + − , (2.19) còn __________________________________________________________________ 58 Chương 2 ( )1 2 1DU n = do đó ( ) ( ) 1 21 1 1 1 r r i DU n i + + = = − +∑ Hơn nữa vì độc lập với ( )rU ( ) ( )tU U r− nên : ( ) ( )( ) ( )( )cov ,r t rU U D U= , (2.20) Từ (2.19), (2.20) ta suy ra (3.16). Sarhan và Greenberg đã chứng minh được rằng ma trận 1, ,r tS s r t n⎡ ⎤= ≤ ≤⎣ ⎦ với r ts cho bởi (2.16) có ma trận nghịch đảo là ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) 2 22 2 2 2 2 2 2 2 1 1 1 0 1 2 1 2 0 0 2 3 2 0 0 0 0 0 0 ... ... ... ... ... ... ... ... ... ... ... n n n n n n n n n nS − ⎛ ⎞− + − −⎜ ⎟⎜ ⎟− − − + − − −⎜ ⎟⎜ ⎟− − − + −= ⎜ ⎟⎜ ⎟⎜ ⎟−⎜ ⎟⎜ ⎟−⎝ ⎠ 0 0 0 0 0 2 1 1 1 Dễ dàng thấy rằng ( )1 2 11 ,T Tn nS n O− −= và 1 1T TnSα − = Từ đó ta nhận được ( )2 1n nγ = − và l ( ) l ( )1 1 1 1 ; nX X nX X n n μ σ− −= =− − Ma trận hiệp phương sai của các ước lượng đó bằng : ( ) ( ) ( ) 1 11 1 2 1 1 1 1 n n n n n σ − −− − − ⎡ ⎤− − −⎢ ⎥∑ = ⎢ ⎥−⎣ ⎦ __________________________________________________________________ 59 Chương 2 Chúng ta có thể dễ dàng kiểm tra lại rằng thống kê ( )( )1 ,X X là thống kê đủ bé nhất đối với họ mũ hai tham số. Do đó theo định lí Blackwell Rao lμ và lσ không những là ước lượng tuyến tính không chệch tốt nhất mà còn là ước lượng không chệch với phương sai bé nhất đề. Ước lượng cho tham số μ và σ bằng cách sử dụng định lí Blackwell – Rao tìm được rất nhanh và rất đơn giản , trong khi đó sử dụng lí thuyết bình phương bé nhất ta phải tính toán rất phức tạp. Mặt khác nếu thống kê có các mômen không đơn giản (ví dụ ( )rU ( )F x là phân bố chuẩn ( )0 1,N ) thì phương pháp bình phương bé nhất rất bất tiện và không thể thực hiện bằng các công thức đại số. 2. 5 Ứng dụng trong mô hình ước lượng tham số hồi quy nhiều chiều : 2. 5. 1 Hàm hồi quy tổng thể (PRF) * Định nghĩa: Hàm hồi quy tổng thể là hàm hồi quy được xây dựng trên kết quả nghiên cứu khảo sát tổng thể, kí hiệu PRF. Hàm hồi qui tuyến tính PRF (k + 1) biến dạng xác định như sau: t 0 1 1t 2 2t kY X X ...= β +β +β + +β ktX trong đó: - t thể hiện thời điểm trong chuỗi thời gian hoặc là trị quan sát trong một chuỗi dữ liệu. - Xt1; Xt2; ... ; Xtk và Yt là bộ giá trị quan sát thứ t (t = 1 đến n) của biến độc lập và biến phụ thuộc - là hệ số tự do; (i = 1, …, k) gọi là hệ số hồi quy riêng, đều là các tham số chưa biết và sẽ được ước lượng. 0β iβ - Hệ số hồi quy cho biết ảnh hưởng riêng của biến Xiβ i lên giá trị trung bình (có điều kiện) của Y khi các biến độc lập còn lại được giữ cố định __________________________________________________________________ 60 Chương 2 2. 5. 2 Dạng ma trận của hàm hồi quy 2. 5. 2. 1 Hàm hồi quy tổng thể PRF Giả sử ta có n bộ giá trị quan sát của là 1 2 k(Y,X ,X ,...,X ) t 1t 2t kt(Y ,X ,X ,...,X ); t 1;n= . Hàm hồi quy tổng thể PRF ứng với từng quan sát là: 1 0 1 11 2 12 k 1k 1 2 0 1 21 2 22 k 2k n 0 1 n1 2 n2 k nk Y X X ... X U Y X X ... X U ................................................................. Y X X ... X U = β +β +β + +β + = β +β +β + +β + = β +β +β + +β + 2 n , U × ⎛ ⎞⎟⎜ ⎟⎜ ⎟⎜ ⎟⎜ ⎟⎜ ⎟=⎜ ⎟⎜ ⎟⎟⎜ ⎟⎜ ⎟⎜ ⎟⎜⎝ ⎠ 1 2 n× × ⎟ ⎟⎟ ⎟⎟ ⎟⎟ ⎟⎟ ⎟⎟ ⎟+⎟ ⎟⎟ ⎟⎟ ⎟⎟ ⎟⎟ ⎟ Đặt các ma trận tương ứng như sau: 11 12 1k 0 1 1 21 22 2k 1 2 2 n1 n 2 nk k n nn k k 1 n 1 n 1 1 X X X Y U 1 X X X Y U X , ,Y 1 X X X Y U× × × ⎛ ⎞ ⎛ ⎞ ⎛ ⎞β⎟ ⎟ ⎟⎜ ⎜ ⎜⎟ ⎟ ⎟⎜ ⎜ ⎜⎟ ⎟ ⎟⎜ ⎜ ⎜⎟ ⎟ ⎟β⎜ ⎜ ⎜⎟ ⎟ ⎟⎜ ⎜ ⎜⎟ ⎟ ⎟= β= =⎜ ⎜ ⎜⎟ ⎟ ⎟⎜ ⎟ ⎜ ⎟ ⎜ ⎟⎟ ⎟ ⎟⎜ ⎜ ⎜⎟ ⎟ ⎟⎜ ⎜ ⎜⎟ ⎟ ⎟⎜ ⎜ ⎜⎟ ⎟ ⎟⎜ ⎜ ⎜β⎝ ⎠ ⎝ ⎠ ⎝ ⎠ " " # # # % # # # # " Khi đó hàm hồi quy PRF ngẫu nhiên dưới dạng ma trận như sau: 1 11 12 1k 0 2 21 22 2k 1 n n1 n2 nk kn 1 n k k 1 n 1 Y 1 X X X U Y 1 X X X U Y 1 X X X U× × ⎛ ⎞ ⎛ ⎞ ⎛ ⎞ ⎛ ⎞β⎟ ⎟⎜ ⎜ ⎜ ⎜⎟ ⎟⎜ ⎜ ⎜ ⎜⎟ ⎟⎜ ⎜ ⎜ ⎜⎟ ⎟ β⎜ ⎜ ⎜ ⎜⎟ ⎟⎜ ⎜ ⎜ ⎜⎟ ⎟= ×⎜ ⎜ ⎜ ⎜⎟ ⎟⎜ ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ ⎟⎟ ⎟⎜ ⎜ ⎜ ⎜⎟ ⎟⎜ ⎜ ⎜ ⎜⎟ ⎟⎜ ⎜ ⎜ ⎜⎟ ⎟⎜ ⎜ ⎜ ⎜β⎝ ⎠ ⎝ ⎠ ⎝ ⎠ ⎝ ⎠ " " # # # # % # # # " Y X U⇔ = ×β+ 2. 5. 2. 2 Hàm hồi quy mẫu SRF Ứng với n bộ giá trị quan sát của là 1 2 k(Y,X ,X ,...,X ) t 1t 2t kt(Y ,X ,X ,...,X ); t 1;n= , ta có n bộ ước lượng l t 1t 2t kt(Y ,X ,X ,...,X ); t 1;n= là ước lượng của t 1t 2t kt(Y ,X ,X ,...,X ); t 1;n= và là bộ ước lượng của ; 0 1 2 k( , , ,..., )β β β β 0 1 2 k( , , ,..., )β β β β l l l1 2 n(U ,U ,..., U ) là bộ phần dư. Hàm hồi quy mẫu SRF ứng với từng ước lượng là: __________________________________________________________________ 61 Chương 2 l l l l l l 1 10 1 2 k11 21 k1 2 20 1 2 k12 22 k2 n n0 1 2 k1n 2n kn Y X X ... X U Y X X ... X ................................................................. Y X X ... X U = β +β +β + +β + = β +β +β + +β + = β +β +β + +β + U Đặt các ma trận tương ứng như sau: l l l l l l l l 1 1011 21 k1 2 212 22 k 2 1 1n 2n kn n k nnk k 1 n 1 Y U1 X X X 1 X X X UYX , ,Y 1 X X X UY× × × ⎛ ⎞⎛ ⎞ ⎛ ⎞β⎛ ⎞ ⎟⎟ ⎟⎜⎜ ⎜⎟⎟ ⎟ ⎟⎜ ⎜⎜ ⎜⎟⎟ ⎟ ⎟⎜ ⎜⎜ ⎜⎟⎟ ⎟ ⎟⎜ ⎜⎜ ⎜⎟⎟ ⎟ ⎟β⎜ ⎜⎜ ⎜⎟⎟ ⎟ ⎟⎜ ⎜⎜ ⎜⎟⎟ ⎟ ⎟= β= =⎜ ⎜ ⎟⎟ ⎜ ⎟ ⎜ ⎟⎟⎜ ⎟ ⎟ ⎟⎜⎜ ⎜⎟⎟ ⎟ ⎟⎜ ⎜⎜ ⎜⎟⎟ ⎟ ⎟⎜ ⎜⎜ ⎜⎟⎟ ⎟ ⎟⎜ ⎜⎜ ⎜⎟⎜ ⎟⎟ ⎟⎝ ⎠ ⎜⎜ ⎜⎟ ⎟β⎝ ⎠ ⎝ ⎠⎝ ⎠ " " # # # % # # ## " n 1×⎟ ,U= Khi đó hàm hồi quy PRF ngẫu nhiên dưới dạng ma trận như sau: l l l l l l 1 1011 12 1k 2 221 22 2k 1 n1 n2 nk n k nn k k 1 n 1n 1 Y U1 X X X 1 X X X UY 1 X X X UY × × ×× ⎛ ⎞ ⎛ ⎞ ⎛ ⎞β⎛ ⎞⎟ ⎟ ⎟⎜ ⎜ ⎜⎟ ⎟ ⎟ ⎟⎜⎜ ⎜ ⎜⎟ ⎟ ⎟ ⎟⎜⎜ ⎜ ⎜⎟ ⎟ ⎟ ⎟⎜⎜ ⎜ ⎜⎟ ⎟ ⎟ ⎟β⎜⎜ ⎜ ⎜⎟ ⎟ ⎟ ⎟⎜⎜ ⎜ ⎜⎟ ⎟ ⎟ ⎟= ×⎜⎜ ⎟ ⎟ ⎜ ⎟ ⎜ ⎟⎟ ⎜ ⎟ ⎟ ⎟⎜ ⎜ ⎜⎟ ⎟ ⎟ ⎟⎜⎜ ⎜ ⎜⎟ ⎟ ⎟ ⎟⎜⎜ ⎜ ⎜⎟ ⎟ ⎟ ⎟⎜⎜ ⎜ ⎜⎟⎜⎟ ⎟ ⎟⎝ ⎠⎜ ⎜ ⎜⎟ ⎟⎟ β⎝ ⎠ ⎝ ⎠⎝ ⎠ " " # # # % # # ## " + l lY X U⇔ = ×β+ 2. 5. 3 Ước lượng bình phương bé nhất thông thường (OLS) 2. 5. 3. 1 Giới thiệu Ta có thể có rất nhiều mẫu khảo sát nên có thể xây dựng được rất nhiều hàm hồi quy mẫu khác nhau được xây dựng từ những mẫu khác nhau. Những hàm hồi quy mẫu đều là ước lượng xấp xỉ của hàm hồi quy tổng thể. Vấn đề đặt ra là có quy tắc hay phương pháp nào để tìm ra hàm hồi quy mẫu “sát” với hàm hồi quy tổng thể nhất có thể được. Nói cách khác là làm thế nào để xác định được giá trị các tham số gần với các giá trị thực . mặc dù trên thực tế chúng ta không bao giờ biết được các giá trị thực này. T 0 1 2 k( , , ,..., )β= β β β β T0 1 2 k( , , ,..., )β= β β β β Mục tiêu tiếp theo sẽ là sử dụng các dữ liệu Xt1; Xt2; ... ; Xtk và Yt để tìm kiếm ước lượng “tốt nhất” của các tham số của tổng thể là . Sau đây chúng ta sẽ dùng phương pháp ước lượng được dùng phổ biến nhất là phương pháp T 0 1 2 k( , , ,..., )β= β β β β __________________________________________________________________ 62 Chương 2 bình phương tối thiểu (OLS). Phương pháp này thường được gọi là bình phương tối thiểu thông thường, để phân biệt với những phương pháp bình phương tối thiểu khác. Giả sử ta có n bộ giá trị quan sát của (X1; X2; ... ; Xk) và Y, kí hiệu là (Xt1; Xt2; ... ; Xtk) và Yt, trong các các giá trị (Xt1; Xt2; ... ; Xtk) không đồng nhất. Nhắc lại ký hiệu ước lượng của là , phần dư ước lượng thì bằng T 0 1 2 k( , , ,..., )β= β β β β T0 1 2 k( , , ,..., )β= β β β β l l ttU Y Y= − . Chúng ta phải tìm giá trị tính toán l tY sao cho l tY càng gần các giá trị quan sát thực tế Yt càng tốt, tức l l ttU Y Y= − càng nhỏ càng tốt. Để khảo sát tất cả các quan sát cùng lúc thì người ta xét và mong muốn Æ min. Vậy tiêu chuẩn tối ưu được sử dụng bởi phương pháp bình phương tối thiểu là cực tiểu hóa hàm mục tiêu ln 2 t t 1 U = ∑ ln 2 t t 1 U = ∑ l ( )n n 22t 0 1 2 kt t1 t2 t 1 t 1 ESS U Y X X X = = = = −β −β −β − −β∑ ∑ … tk với các tham số chưa biết là . ESS gọi là tổng bình phương các phần dư và phương pháp OLS là cực tiểu tổng bình phương các phần dư. ESS là khoảng cách bình phương được đo lường từ đường hồi quy. Sử dụng khoảng cách đo lường này, có thể nói rằng phương pháp OLS là tìm đường thẳng “gần nhất” với dữ liệu trên đồ thị. T 0 1 2 k( , , ,..., )β= β β β β 2. 5. 3. 2 Điều kiện cần Để cực tiểu ESS với sẽ thoả hệ phương trình sau đây, được gọi là hệ phương trình chuẩn. T 0 1 2 k( , , ,..., )β= β β β β __________________________________________________________________ 63 Chương 2 n n n n 0 1 2 kt 1t 2t kt t 1 t 1 t 1 t 1 n n n n n 2 0 1 2 kt 1t 1t 1t 2t 1t kt 1t t 1 t 1 t 1 t 1 t 1 n n n n n 2 0 1 2 kt 2t 2t 1t 2t 2t kt 2t t 1 t 1 t 1 t 1 t 1 Y n X X ... X Y X X X X .X ... X .X Y X X X .X X ... X .X ...... = = = = = = = = = = = = = = = β +β +β + +β = β +β +β + +β = β +β +β + +β ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ n n n n n 0 1 2 kt it it 1t it 2t it kt it t 1 t 1 t 1 t 1 t 1 ................................................................................................. Y X X X .X X .X ... X .X ............................. = = = = = = β +β +β + +β∑ ∑ ∑ ∑ ∑ n n n n n 2 0 1 2 kt kt it 1t kt 2t kt kt t 1 t 1 t 1 t 1 t 1 ........................................................................... Y X X X .X X .X ... X = = = = = = β +β +β + +β∑ ∑ ∑ ∑ ∑ * Chứng minh Để tối thiểu ESS với , chúng ta xét đạo hàm T0 1 2 k( , , ,..., )β= β β β β ESS∂∂β riêng theo từng biến 0 1 2 i ESS ESS ESS ESS ESS; ; ; ; ;∂ ∂ ∂ ∂ ∂∂β ∂β ∂β ∂β ∂β" " k tk của hàm mục tiêu l ( )n n 22t 0 1 2 kt t1 t2 t 1 t 1 ESS U Y X X X = = = = −β −β −β − −β∑ ∑ … . Ta có: ( ) ( )n 20 1 2 i kt t1 t2 ti tk t 10 n n n n n n 0 1 2 i kt t1 t2 ti t 1 t 1 t 1 t 1 t 1 t 1 ESS 2 Y X X X X . 1 2 Y X X X X = = = = = = = ∂ = −β −β −β − −β − −β −∂β ⎛ ⎞⎟⎜=− − β −β −β − −β − −β ⎟⎜ ⎟⎜ ⎟⎝ ⎠ ∑ ∑ ∑ ∑ ∑ ∑ ∑ … … … … tk ( ) ( )n 20 1 2 i kt t1 t2 ti tk t 11 n n n n 2 0 1 2t t1 t1 t1 t2 t1 t 1 t 1 t 1 t 1 n n i kit 1t tk t1 t 1 t 1 ESS 2 Y X X X X . X Y .X X X X .X 2 X .X X .X = = = = = = = ∂ = −β −β −β − −β − −β −∂β ⎛ ⎞⎟⎜ −β −β −β −⎟⎜ ⎟⎜ ⎟⎜ ⎟⎜=− ⎟⎜ ⎟⎜ ⎟⎟⎜ −β − −β ⎟⎜ ⎟⎜ ⎟⎝ ⎠ ∑ ∑ ∑ ∑ ∑ ∑ ∑ … … … … t1 __________________________________________________________________ 64 Chương 2 ( ) ( )n 20 1 2 i kt t1 t 2 ti tk t 12 n n n n 2 0 1 2t t 2 t1 t1 t2 t 2 t 1 t 1 t 1 t 1 n n i kti t 2 tk t2 t 1 t 1 ESS 2 Y X X X X . X Y .X X X .X X 2 X .X X .X = = = = = = = ∂ = −β −β −β − −β − −β −∂β ⎛ ⎞⎟⎜ −β −β −β − ⎟⎜ ⎟⎜ ⎟⎜ ⎟⎜=− ⎟⎜ ⎟⎜ ⎟⎟⎜−β − −β ⎟⎜ ⎟⎜ ⎟⎝ ⎠ ∑ ∑ ∑ ∑ ∑ ∑ ∑ … … … … t 2 ……………………………………………………………………………………… ( ) ( )n 20 1 2 i kt t1 t 2 ti tk t 1i n n n n 0 1 2t ti ti t1 ti t 2 ti t 1 t 1 t 1 t 1 n n 2 i kti tk ti t 1 t 1 ESS 2 Y X X X X . X Y .X X X .X X .X 2 X X .X = = = = = = = ∂ = −β −β −β − −β − −β −∂β ⎛ ⎞⎟⎜ −β −β −β − ⎟⎜ ⎟⎜ ⎟⎜ ⎟⎜=− ⎟⎜ ⎟⎜ ⎟⎟⎜−β − −β ⎟⎜ ⎟⎜ ⎟⎝ ⎠ ∑ ∑ ∑ ∑ ∑ ∑ ∑ … … … … ti ……………………………………………………………………………………… ( ) ( )n 20 1 2 i kt t1 t2 ti tk t 1k ESS 2 Y X X X X . X = ∂ = −β −β −β − −β − −β −∂β ∑ … … tk n n n n 0 1 2t tk tk t1 tk t 2 tk t 1 t 1 t 1 t 1 n n 2 i kti tk tk t 1 t 1 Y .X X X .X X .X 2 X .X X = = = = = = ⎛ ⎞⎟⎜ −β −β −β − ⎟⎜ ⎟⎜ ⎟⎜ ⎟⎜=− ⎟⎜ ⎟⎜ ⎟⎟⎜−β − −β ⎟⎜ ⎟⎜ ⎟⎝ ⎠ ∑ ∑ ∑ ∑ ∑ ∑ … … Hàm mục tiêu đạt cực trị khi các đạo hàm riêng = 0 ESS 0∂⇔ =∂β ( ) T T 1 k 0 1 2 i k 1 k ESS ESS ESS ESS ESS; ; ; ; ; ; 0;0;0; ;0; ;0 × × ⎛ ⎞∂ ∂ ∂ ∂ ∂ ⎟⎜ ⎟⇔ =⎜ ⎟⎜ ⎟⎜ ∂β ∂β ∂β ∂β ∂β⎝ ⎠" " " " Hiệp nhất các thành phần, ta có : 0 1 2 i k ESS ESS ESS ESS ESS0; 0; 0; ; 0; ; 0∂ ∂ ∂ ∂ ∂⇒ = = = = =∂β ∂β ∂β ∂β ∂β" " __________________________________________________________________ 65 Chương 2 n n n n 0 1 2t t1 t2 t 1 t 1 t 1 t 1 n n i kti tk t 1 t 1 t Y X X 2 0 X X .............................................................................................. Y .X 2 = = = = = = ⎛ ⎞⎟⎜ − β −β −β −⎟⎜ ⎟⎜ ⎟⎜ ⎟⎜ ⎟− =⎜ ⎟⎜ ⎟⎟⎜ ⎟−β − −β⎜ ⎟⎜ ⎟⎜⎝ ⎠ − ⇔ ∑ ∑ ∑ ∑ ∑ ∑ … … n n n n 2 0 1 2t1 t1 t1 t2 t1 t 1 t 1 t 1 t 1 n n i kti t1 tk t1 t 1 t 1 X X X .X 0 X .X X .X ....................................................................................... = = = = = = ⎛ ⎞⎟⎜ −β −β −β −⎟⎜ ⎟⎜ ⎟⎜ ⎟⎜ ⎟=⎜ ⎟⎜ ⎟⎟⎜ ⎟−β − −β⎜ ⎟⎜ ⎟⎜⎝ ⎠ ∑ ∑ ∑ ∑ ∑ ∑ … … n n n n 2 0 1 2t t2 t1 t1 t2 t2 t 1 t 1 t 1 t 1 n n i kti t2 tk t2 t 1 t 1 ................ Y .X X X .X X 2 0 X .X X .X ................................................................. = = = = = = ⎛ ⎞⎟⎜ −β −β −β −⎟⎜ ⎟⎜ ⎟⎜ ⎟⎜ ⎟− =⎜ ⎟⎜ ⎟⎟⎜ ⎟−β − −β⎜ ⎟⎜ ⎟⎜⎝ ⎠ ∑ ∑ ∑ ∑ ∑ ∑ … … n n n n 0 1 2t ti ti t1 ti t 2 ti t 1 t 1 t 1 t 1 n n 2 i kti tk ti t 1 t 1 ......................................... Y .X X X .X X .X 2 0 X X .X ........................................ = = = = = = ⎛ ⎞⎟⎜ −β −β −β −⎟⎜ ⎟⎜ ⎟⎜ ⎟⎜ ⎟− =⎜ ⎟⎜ ⎟⎟⎜ ⎟−β − −β⎜ ⎟⎜ ⎟⎜⎝ ⎠ ∑ ∑ ∑ ∑ ∑ ∑ … … n n n n 0 1 2t tk tk t1 tk t2 tk t 1 t 1 t 1 t 1 n n 2 i kti tk tk t 1 t 1 .................................................................. Y .X X X .X X .X 2 0 X .X X = = = = = = ⎧⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪ ⎨ ⎛ ⎞⎟⎜ −β −β −β −⎟⎜ ⎟⎜ ⎟⎜ ⎟⎜ ⎟− =⎜ ⎟⎜ ⎟⎟⎜ ⎟−β − −β⎜ ⎟⎜ ⎟⎜⎝ ⎠ ∑ ∑ ∑ ∑ ∑ ∑ … … ⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪ ⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎩ __________________________________________________________________ 66 Chương 2 n n n n n n 0 1 2 i kt t1 t2 ti t 1 t 1 t 1 t 1 t 1 t 1 t t1 t Y X X X X .......................................................................................................................... Y .X = = = = = = − β −β −β − −β − −β = ⇔ ∑ ∑ ∑ ∑ ∑ ∑ … … n n n n 2 0 1 2t1 t1 t2 t1 1 t 1 t 1 t 1 n n i kti t1 tk t1 t 1 t 1 n n 0 1t t2 t1 t 1 t 1 X X X .X X .X X .X 0 .......................................................................................... Y .X X = = = = = = = = −β −β −β − −β − −β = −β −β ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ … … n n 2 2t1 t2 t2 t 1 t 1 n n i kti t2 tk t2 t 1 t 1 n n n n 0 1 2t ti ti t1 ti t2 ti t 1 t 1 t 1 t 1 n n 2 i kti tk ti t 1 t 1 X .X X X .X X .X 0 Y .X X X .X X .X X X .X 0 = = = = = = = = = = −β − −β − −β = −β −β −β − −β − −β = ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ … … """""""""""""""""""""""" … … """"""""""""""""""""""" n n n n 0 1 2t tk tk t1 tk t2 tk t 1 t 1 t 1 t 1 n n 2 i kti tk tk t 1 t 1 Y .X X X .X X .X X .X X 0 = = = = = = ⎧⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎨⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪ −β −β −β −⎪⎪⎪⎪⎪⎪⎪ −β − −β =⎪⎪⎪⎪⎪⎪⎩ ∑ ∑ ∑ ∑ ∑ ∑ " … … tk 0 __________________________________________________________________ 67 Chương 2 n n n n 0 1 2 i kt t1 t2 ti t 1 t 1 t 1 t 1 t 1 n n n n 2 0 1 2t t1 t1 t1 t2 t1 t 1 t 1 t 1 t 1 n n i kti t1 tk t1 t 1 t 1 n n n 2 0 1 2t t2 t1 t1 t2 t2 t 1 t 1 t 1 Y n X X X X Y .X X X X .X X .X X .X Y .X X X .X X = = = = = = = = = = = = = = β +β +β + +β + +β =β +β +β + +β + +β =β +β +β ⇔ ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ … … … … n t 1 n n i kti t 2 tk t2 t 1 t 1 n n n n 0 1 2t ti ti t1 ti t2 ti t 1 t 1 t 1 t 1 n n 2 i kti tk ti t 1 t 1 n 0t tk t 1 X .X X .X Y .X X X .X X .X X X .X Y .X = = = = = = = = = = + +β + +β =β +β +β + +β + +β =β ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ … … """""""""""""""""""""""""""" … … """""""""""""""""""""""""""" n n n 1 2tk t1 tk t2 tk t 1 t 1 t 1 n n 2 i kti tk tk t 1 t 1 X X .X X .X X .X X = = = = = ⎧⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎨⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪ +β +β +⎪⎪⎪⎪⎪⎪⎪ +β + +β⎪⎪⎪⎪⎪⎪⎪⎩ ∑ ∑ ∑ ∑ ∑ … … n tk = ∑ ,Y ⎛ ⎞ =⎜ ⎟ ⎝ ⎠ Ta có hệ phương trình chuẩn cần chứng minh 2. 5. 3. 3 Nghiệm hệ phương trình chuẩn Trong chương 2, chúng ta có: 011 12 1k 1 21 22 2k 21 n1 n2 nk nn k n 1k k 1 1 X X X Y 1 X X X Y X , 1 X X X Y× ×× ⎛ ⎞β⎛ ⎞ ⎟⎜⎟ ⎟⎟⎜ ⎜⎜⎟ ⎟⎟⎜ ⎜⎜⎟ ⎟⎟⎜ ⎜⎜⎟ ⎟⎟β⎜ ⎜⎜⎟ ⎟⎟⎜ ⎜⎜⎟ ⎟⎟= β=⎜ ⎜⎟ ⎟⎜ ⎟⎜ ⎟ ⎟⎜⎟ ⎟⎟⎜ ⎜⎜⎟ ⎟⎟⎜ ⎜⎜⎟ ⎟⎟⎜ ⎜⎜⎟ ⎟⎜ ⎜⎟⎝ ⎠ ⎜ ⎟β⎝ ⎠ " " # # # % # ## " __________________________________________________________________ 68 Chương 2 11 21 n1 T 12 22 n2 1k 2k nk k n 1 1 1 X X X X X X X X X X × ⎛ ⎞⎟⎜ ⎟⎜ ⎟⎜ ⎟⎜ ⎟⎜ ⎟⎜ ⎟⎜ ⎟⇒ = ⎟⎜ ⎟⎜ ⎟⎜ ⎟⎜ ⎟⎜ ⎟⎜ ⎟⎟⎜⎝ ⎠ " " " # # % # " 11 12 1k 11 21 n1 21 22 2kT 12 22 n2 n1 n2 nk n k 1k 2k nk k n 1 1 1 1 X X X X X X 1 X X X X X X X X 1 X X X X X X ×× ⎛ ⎞⎟⎜ ⎛ ⎞⎟⎜ ⎟ ⎟⎜⎜ ⎟ ⎟⎜⎜ ⎟ ⎟⎜⎜ ⎟ ⎟⎜⎜ ⎟ ⎟⎜⎜ ⎟ ⎟⇒ × = ×⎜⎟ ⎟⎜ ⎟ ⎜ ⎟⎜ ⎟ ⎟⎜⎜ ⎟ ⎟⎜⎜ ⎟ ⎟⎜⎜ ⎟⎜⎟ ⎝ ⎠⎜ ⎟⎟⎜⎝ ⎠ " "" ""

Các file đính kèm theo tài liệu này:

LV_BANCHINH_da_sua.pdf