Mức độ thô nháp của hàm số và ứng dụng - Phan Thu Hà

Tài liệu Mức độ thô nháp của hàm số và ứng dụng - Phan Thu Hà

pdf6 trang | Chia sẻ: quangot475 | Lượt xem: 424 | Lượt tải: 0download
Bạn đang xem nội dung tài liệu Mức độ thô nháp của hàm số và ứng dụng - Phan Thu Hà, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
Kỹ thuật điện tử & Khoa học máy tính Phan Thu Hà, “Mức độ thô nháp của hàm số và ứng dụng.” 34 Møc ®é th« nh¸p cña hµm sè vµ øng dông PHAN THU HÀ Tóm tắt: Bài báo đưa ra khái niệm mức độ thô nháp của hàm số f(x) cho trước đối với hệ hàm cơ sở đã cho. Trong bài đã dẫn ra ví dụ ở đó sự hội tụ theo luật của dãy các phân bố thiết kế tới giới hạn, kể cả khi các phân bố đó thuộc loại hỗn hợp (liên tục và rời rạc), cũng chưa đảm bảo sự hội tụ của độ thô nháp. Phân tích lưu lượng nước trung bình ngày đêm cực tiểu của sông Hồng đưa ra độ thô nháp của hàm mô hình đối thuyết và chỉ ra có tồn tại điểm chuyển trạng thái tại quan sát số 44 ứng với năm 1999. Từ khóa: Mô hình hồi quy, Thiết kế thí nghiệm, Điểm chuyển, Độ thô nháp, Sự hội tụ. 1. GIỚI THIỆU Khởi đầu, vấn đề điểm chuyển (change-point problem) xuất phát từ kiểm tra chất lượng, khi người ta quan sát đầu ra một dây chuyền sản xuất và muốn phát ra tín hiệu báo động khi số đo về sản phẩm vượt quá mức chấp nhận được. Một điều quan tâm trong dịch tễ học là phải chăng tỷ lệ mắc bệnh không đổi theo thời gian, và nếu có, ước tính số lần, (các) thời điểm thay đổi nhằm khuyến nghị các nguyên nhân có thể. Ví dụ khác là phân tích nhịp tim trong điện tâm đồ, ở đó việc dùng các phương pháp phát hiện điểm chuyển là phần then chốt của nhận dạng mẫu cũng như phân đoạn quá trình. Phát hiện điểm chuyển cũng là mối quan tâm trong xử lý các chuỗi thời gian chỉ số kinh tế phục vụ mục đích dự báo, tín hiệu địa chấn, hay chuỗi thời gian có tính chất phong tục, nghiên cứu văn bản lịch sử, bản thảo, trong các nghiên cứu về vị trí khảo cổ Chính vì thế, nhiều nhà thống kê trong mấy chục năm gần đây đã nỗ lực nghiên cứu vấn đề điểm chuyển. Kiểm định sự tồn tại điểm chuyển có thể thấy trong các công trình [4], [5]. Ước lượng (ƯL) điểm chuyển thường tiến hành theo phương pháp hợp lý cực đại (xem [1], [6], [9]). Phương pháp dựa vào tổng tích lũy CUSUM (xem[3]) cũng rất được ưa chuộng. Tuy nhiên, trong các trường hợp khó khăn hơn do thiếu thông tin, người ta phải dùng đến phương pháp tái tạo mẫu boostrap (xem [8]). Phương pháp dãy để kiểm định và ƯL điểm chuyển làm tối thiểu hóa số quan sát cũng như cực tiểu thời gian từ lúc xảy ra điểm chuyển đến lúc phát hiện ra nó được đề cập đến trong [5]. Trong các công trình trên, khi cần tìm sức mạnh của kiểm định (the power of test), thường người ta chỉ dùng nghiên cứu mô phỏng đối với một lưới điểm của các tham số thống kê đối thuyết, mà không có một nghiên cứu đầy đủ về sức mạnh, không đưa ra được công thức hiển cho sức mạnh của kiểm định đưa ra. Có một ngoại lệ, đó là bài báo [7], ở đó đã chỉ ra công thức hiển cho hàm sức mạnh; tuy nhiên các quan sát ở đó dựa trên quá trình nhiễu trắng dừng, rất ít xảy ra trong những tình huống thực tế. Gần đây, vấn đề sức mạnh của kiểm định đã được gắn với độ thô nháp của hàm mô hình (xem [2]). Lợi thế của độ thô nháp là có thể dùng các phần mềm thống kê thông dụng như SPSS, EVIEW hay R để tính toán. Bài báo này phát triển những ý tưởng về độ thô nháp của hàm số và được bố trí như sau. Sau phần giới thiệu ở Bài 1, Bài 2 đưa ra các định nghĩa về độ thô nháp, nhắc lại một số khái niệm cần thiết, tính chất đã biết, cũng như những khảo sát mới khác về độ thô nháp. Bài 3 nêu một số ứng dụng của vấn đề nghiên cứu khi xử lý các số liệu về dòng chảy của Sông Hồng và cuối cùng là phần kết luận. 2. ĐỘ NHÁP CỦA HÀM SỐ THEO HỆ HÀM Đà CHO Cho f (x), x [a, b] là hàm số được quan sát tại các điểm ix [a, b] , một số điểm ix có thể trùng nhau. Giả sử 1 p{u (x),..., u (x)} là hệ các hàm số liên tục và độc lập tuyến tính Nghiên cứu khoa học công nghệ Tạp chí Nghiên cứu KH&CN Quân sự, Số 30, 04 - 2014 35 cho trước xác định trên [a, b]. Chúng ta muốn xấp xỉ hàm f(x) theo hệ hàm 1 p{u (x),..., u (x)} tại các điểm ix , muốn vậy ta xét mô hình hồi quy i 1 i i p p i if (x ) a u (x ) ... a u (x ) , i 1,..., n      . (1) Đặt 1 p(x) (u (x),..., u (x)), ( (x)) ,..., ( (x)) ),  u U u u i n 1 n 1 p(f (x ),..., f (x )) , ( ,..., ) , (a ,..., a ) ;      Y a hệ (1) được viết lại dưới dạng ma trận  Y Ua  . (2) Lưu ý rằng trong bài báo này chúng ta dùng chữ in đậm để chỉ ma trận hoặc véc tơ, ma trận chuyển vị của ma trận A ký hiệu là .A Chúng ta luôn giả thiết rằng Rank( ) pU . ƯL làm cực tiểu tổng bình phương trung bình các sai số n 2 i i i 1 1 (f (x ) (x ) ) n   u a (3) là duy nhất và đạt được tại 1ˆ = ( ) a U U U Y . ƯL cho sai số của mô hình (1) là   n 22 i i i 1 1 ˆS f (x ) (x ) . n    u a (4) Giá trị này được gọi là độ thô nháp của hàm f(x) theo hệ hàm 1 p{u (x),..., u (x)} dựa vào thiết kế 1 n{x ,..., x } và ký hiệu là 2 iS (f , , (x )).u Để nghiên cứu trường hợp giới hạn cũng như các mục đích khác, chúng ta coi mỗi hàm phân bố F(x) có giá trên đoạn I, giá đó chứa ít nhất p điểm phân biệt là một thiết kế (suy rộng) trên I. Như vậy, mỗi thiết kế rời rạc { 1 nx ,..., x } có ít nhất p điểm phân biệt là thiết kế suy rộng F(x) - là hàm phân bố mẫu của mẫu 1 n{x ,..., x }. Bây giờ cho hàm mô hình f (x), x [a, b] , hệ các hàm xu thế 1 p{u (x),..., u (x)} độc lập tuyến tính và thiết kế F(x) có giá trong [a, b]. Chúng ta biểu diễn f(x) qua hệ hàm xu thế theo phương trình 1 1 p pf (x) a u (x) ... a u (x) (x).     (5) Giả sử aˆ là ƯL của véc tơ tham số 1 n(a ,..., a )a làm cực tiểu bình phương trung bình có trọng lượng các sai số  2 [a,b] f (x) (x) dF(x). u a (6) Để các tính toán có nghĩa, chúng ta giả sử các hàm if (x), u (x) là bình phương khả tích theo độ đo dF(x). Dễ thấy rằng, ia là nghiệm của hệ 1 1 F 1 1 p F p 1 F p 1 F 1 p p F p p F u , u a ... u , u a u , f . . . . . . . . . . . . . . . . u , u a ... u , u a u , f ,                     (7) trong đó, Fh,g  là tích vô hướng của hai hàm h(x) và g(x) theo độ đo dF(x): F [a,b] h,g h(x)g(x)dF(x).   (8) Kỹ thuật điện tử & Khoa học máy tính Phan Thu Hà, “Mức độ thô nháp của hàm số và ứng dụng.” 36 Đối với thiết kế suy rộng, chúng ta luôn giả thiết thêm rằng ma trận F, u u các hệ số của hệ (7) không suy biến. Khi ấy, nghiệm của (7) tồn tại và duy nhất, ký hiệu là aˆ xác định bởi   11 n F Fˆ ˆ ˆ(a ,..., a ) , , f .        a u u u (9) ƯL cho sai số của mô hình (5) là  22 [a , b] ˆS f (x) (x) dF(x) .  u a (10) Giá trị này được gọi là độ thô nháp của hàm f(x) theo hệ hàm xu thế 1 p{u (x),..., u (x)} dựa vào thiết kế F(x), ký hiệu bởi 2S (f , , F)u (xem [2]). Như đã nói, mỗi thiết kế cố định 1 n{x ,..., x } được xem như một thiết kế suy rộng, (3), (4) là trường hợp đặc biệt của (6), (10). Các hàm mô hình gãy có vai trò quan trọng đặc biệt trong nghiên cứu điểm chuyển. Trong trường hợp mô hình tuyến tính với 1 2p 2, u (x) 1, u (x) x   , người ta xét hai loại điểm chuyển: gãy và gãy rời ([5]). Hàm mô hình gãy là hàm gãy khúc liên tục 0 1 0 1a ,a ,h, x f (x) a a x h(x x )      (11) trong đó, 0 1a ,a ,h, x  là những hằng số cho trước, h 0, x (0,1)  . Khi ấy, hàm mô hình liên tục, tuy nhiên hệ số góc thay đổi từ 1a thành 1a h tại điểm chuyển x  . Với trường hợp gãy rời, ngoài việc hệ số góc biến thiên một lượng h tại x , điểm chuyển còn là điểm gián đoạn với dao độ k: 0 1 0 1a ,a ,k,h,x (x ,1] f (x) a a x k I (x) h(x x )        (12) trong đó AI (x) là hàm chỉ tiêu của tập A. Định lý (xem [2]). Giả sử dãy các thiết kế nF (x) hội tụ yếu đến thiết kế F(x) với độ đo Lebesgue-Stieltjes (dF); f(x) là hàm đo được, bị chặn trên [0, 1]. Nếu tập các điểm gián đoạn fD của hàm f(x) có độ đo (dF) bằng không: f(dF)(D ) 0 thì: n n 2 2 n n ˆ ˆ(i) lim (ii) lim S (f , , F ) S (f , , F) .     a a u u  Trong [2] đã đưa ra ví dụ chứng tỏ điều kiện độ đo (dF) của tập điểm gián đoạn của hàm mô hình bằng không là không bỏ qua được. Tuy nhiên ở đó độ đo n(dF ) là gián đoạn, tập trung tại 3 điểm. Vì thế ví dụ đó chỉ có tính chất minh họa lý thuyết mà không sát thực tiễn. Ví dụ sau đây đề cập đến dãy độ đo n(dF ) thuộc loại hỗn hợp (rời rạc và liên tục). Ví dụ. Xét hàm mô hình 0, 0 x 1 / 2f (x ) 1, 1 / 2 x 1       và dãy hàm phân bố nF (x) có giá trên đoạn [0,1] sao cho trên đoạn này thì n n n n n n 0.1 x, khi 0 x 1 / 2 h 1 / 2 h F (x) 1 (0.4x 0.1 h ), khi 1 / 2 h x 1 1 / 2 h                Nghiên cứu khoa học công nghệ Tạp chí Nghiên cứu KH&CN Quân sự, Số 30, 04 - 2014 37 trong đó, nnh ( 1) / n.  Rõ ràng xảy ra sự hội tụ theo luật n 0.2x khi 0 x 0.5 F (x) F(x) (n ) 0.8x 0.2 khi 0.5 x 1         . Bởi vì điểm gián đoạn 1/ 2 của hàm f(x) có (dF)-độ đo bằng 1/ 2 nên chúng ta không thể áp dụng Định lý 3 được. Cụ thể hơn, các hệ số của hệ (7) trở thành   n n 1 1 F 2 1 2 F n n n u , u 1 1 (n ), 0.2 23 u , u 0.55 (0.5 h ) 1 (0.5 h ) (n ), (0.5 h ) 40                   n 2 32 2 F n n n 0.1 1 0.4 11 u , u (0.5 h ) 1 (0.5 h ) (n ), 3 2 3(0.5 h ) 30                   n n 1 F n n n n n 0.1h 0.4 u ,f u(h ) 0.5 0.5 h u(h ) , 0.5 h 0.5 h              n 2 2n2 F n n n n n n n n u(h ) 0.1 0.2 3 u ,f h h 0.5 h u(h ) h h 2 0.5 h 0.5 h 4                       trong đó, u(x) 0 khi x 0, u(x) 1 khi x 0.    Từ đó: 2n 2n 1 2n 2n 11 F 1 F 2 F 2 Fn n n n 9 4 9 3 lim u ,f , lim u ,f , lim u ,f , lim u ,f ; 10 10 20 10                    2n 2n 2n 1 2n 1 n 0 n 0 2 2 2n 2n 1 n n 0 66 156 124 336ˆ ˆˆ ˆlim a , b , , lim a , b , ; 173 173 173 173 lim S 0.0604 lim S 0.1040.                         Như vậy, cả ba giới hạn 2n n n n n n ˆˆlim a , lim b , lim S    đều không tồn tại. Ví dụ trên nhắc ta cần thận trọng khi tính giới hạn độ nháp của hàm số. Đối với hàm mô hình gãy (liên tục), việc chuyển qua giới hạn là bình thường. Có thể chuyển qua giới hạn cho trường hợp hàm f(x) gãy rời chỉ nếu thiết kế F(x) không tập trung khối lượng tại điểm gãy, kể cả khi độ đo (dF) thuộc loại hỗn hợp (rời rạc kết hợp liên tục). 3. NGHIÊN CỨU THỰC NGHIỆM Chế độ thủy văn Sông Hồng tại trạm Sơn Tây được quan sát từ năm 1956 đến 2012 (gồm 57 quan sát). Để đánh giá mức độ khô cạn của hạ lưu, chúng tôi quan tâm đến lưu lượng nước trung bình ngày đêm (m3/s) cực tiểu trong năm. Dữ liệu có chứa quan sát ngoại lai. Thực vậy, khi dùng mô hình hồi quy tuyến tính đơn chúng ta nhận được hàm hồi quy là y 622.77 4.461t  . Tuy nhiên, vì 40y 1870 nên sai số tại quan sát số 40 (ứng với năm 1995) là 1870 801.21 1068.79  và sai số chuẩn hóa tương ứng là 4.819, lớn hơn rất nhiều so với 3 (ngưỡng 99.93%). Vậy, ta coi quan sát thứ 40 là ngoại lại, bị loại. Từ đây, ta coi dữ liệu khuyết quan sát thứ 40. Hàm hồi quy với dự liệu khuyết là y 622.77 4.461t  . Hệ số xác định 2R 0.119 là rất nhỏ, giá trị thống kê Durbin-Watson là 1.172 nằm trong miền tương quan chuỗi. Vậy chúng ta bác bỏ mô hình này. Bây giờ giả sử hàm mô hình có dạng (12), ta viết quan sát dưới dạng Kỹ thuật điện tử & Khoa học máy tính Phan Thu Hà, “Mức độ thô nháp của hàm số và ứng dụng.” 38 1 1 i i 2 2 i a b i , 1 i k y (i 40). a b i , k 1 i 57                 Gọi 1 2Q ,Q lần lượt là tổng bình phương các phần dư 2 i iˆ(y y ) của mô hình tuyến tính dựa vào k quan sát đầu tiên và n k 56 k    quan sát cuối cùng. Theo [9], k  được ước lượng là giá trị mà tổng 1 2Q Q đạt giá trị nhỏ nhất. Tính toán cụ thể bằng phần mềm R ta nhận được cực tiểu của tổng này là 6814, đạt được tại k 44  (ứng với năm 1999). Đối với pha đầu, 1 i 44  , hệ số xác định thấp: 2R 0.126, độ lệch chuẩn ước lượng khá cao: 1ˆ 147.46,  mức ý nghĩa (significal level) của thống kê t cho hệ số chặn 1a và hệ số góc 1b lần lượt là 0.0194, 0.000, nhỏ so với mức 0,05; giá trị của thống kê Durbin-Watson là 1.556 , nằm trong miền chưa có kết luận. Như vậy, mô hình tuyến tính áp dụng cho giai đoạn đầu không được hoàn hảo, có tính khiên cưỡng (xem hình 1, pha đầu). Đối với pha sau, 45 i 57  , hệ số xác định cao: 2R 0.904, độ lệch chuẩn ước lượng khá thấp: 2ˆ 69.86  , mức ý nghĩa (significal level) của thống kê t cho hệ số chặn 2a và hệ số góc 2b lần lượt là 0.0000, 0.0000, rất nhỏ so với mức 0,05, coi các hệ số này khác 0 một cách có ý nghĩa; giá trị của thống kê Durbin-Watson là 2.434, nằm trong miền không có tương quan chuỗi. Các đồ thị, hàng rào P-P chuẩn cũng như Histogram của phần dư đều khẳng định mô hình tuyến tính là phù hợp (xem hình 1, pha sau). Như vậy, mặc dầu không hoàn hảo, có thể nói rằng, đã xảy ra điểm chuyển tại t 44 ứng với năm 1999 và coi hàm mô hình là 606.63 4.359 x, 1 x 44 f (x) 3521.27 52.791x, 44 x 57         Hệ số của biến x âm ở pha sau thể hiện xu hướng suy kiệt của dòng chảy vào mùa khô. Độ thô nháp của hàm này theo hệ hàm cơ sở {1, x} và thiết kế đều trên đoạn [0, 57] tính theo (10) là 2 2S 0.31354 568 :570 0.1031   . Theo [2], đây là giá trị khá lớn. 4. KẾT LUẬN Khái niệm độ thô nháp được giới thiệu và nêu lên cách tính toán nó thông qua các phần mềm thống kê thông dụng. Để có thể tính toán độ nháp đối với hàm phân bố giới hạn, Hình 1. Lưu lượng nước trung bình ngày cực tiểu tại trạm Sơn Tây loại đi quan sát số 40, các đường xu thế trước và sau số liệu 44 (1999). Nghiên cứu khoa học công nghệ Tạp chí Nghiên cứu KH&CN Quân sự, Số 30, 04 - 2014 39 chúng ta phải thận trọng, kể cả khi các hàm phân bố đó thuộc loại hỗn hợp. Kết quả nghiên cứu lý thuyết được áp dụng cho phân tích lưu lượng nước trung bình ngày đêm cực tiểu trong năm. TÀI LIỆU THAM KHẢO [1]. Aue, A., Horvath, L., Huskova, M. and Kokoszka, P., “Testing for changes in polynomial regression”, Bernoulli, 14, No. 3 (2008), pp. 637-660. [2]. Ban, T.V., Quyen, N.T., Ha, P.T., “The roughness of model function to the basis functions”, J. of Math. and System Science, 3, No. 8 (2013), 385-390. [3] Berkes, I., Horvath, L., Schauer, J., “Asymptotics of trimmed CUSUM statistics”, Bernoulli, 17. No. 4 (2011), pp.1344–1367. [4] Bischoff, W., Miller, F., “Asymptotically optimal test and optimal designs for testing the mean in regression models with appications to change-point problems”, Ann. Inst. Statist. Math., 52, No. 4 (2000), pp. 658-679. [5] Brodsky, B., Darkhovsky, B., “Asymptotically Optimal Sequential Change-Point Detection under Composite Hypotheses”, Proceedings of the 44th IEEE Conference on Decision and Control, and the European Control Conference, December 2005, Seville, Spain, pp. 12-15. [6] Chow, G.C., “Tests of equality between sets of coefficients in two linear regressions”, Econometrica, 28, No.3 (1960), pp. 591-605. [7] Farley, J.U., Hinich, M., McGuire, T. W., “Some comparisons of test for a shift in the slopes of a multivariate linear time series model”, J. Econometrics, 3 (1975), pp. 297-318. [8]. Huskova, M., Kirch, C., “Bootstrapping sequential change-point tests for linear regression”, Metrika 75, No. 05 (2012), pp. 673-708. [9] Koul, H.L., Qian, L., “Asymptotics of maximum likelihood estimator in a two- phase linear regression model”, J. of Statistical Planning and Inference, 108 (2002), pp. 99-119. ABSTRACT THE ROUGHNESS OF FUNCTIONS AND APPLICATIONS We introduce the concept of the roughness of a given function for system of basis functions. The paper cites example in which the convergence in law of sequence of the distribution functions to limit - even if those distribution functions belong to the mixture (continuous and discrete) type - does not ensure the convergence of the roughness. Analysis of minimum average day-and-night water flow of the Red River shows the roughness of the alternative model function and presence of a change- point at the observation number 44 corresponding to the year 1999. Keywords: Regression model, Design, Change-point, Roughness, Convergence. Nhận bài ngày 03 tháng 09 năm 2013 Hoàn thiện ngày 07 tháng 12 năm 2013 Chấp nhận đăng ngày 18 tháng 03 năm 2014 Địa chỉ: Khoa Công nghệ thông tin, Học viện KTQS, ĐT: 0985 193 986

Các file đính kèm theo tài liệu này:

  • pdf06_34_39_5704_2149170.pdf
Tài liệu liên quan