Tài liệu Mức độ thô nháp của hàm số và ứng dụng - Phan Thu Hà
6 trang |
Chia sẻ: quangot475 | Lượt xem: 431 | Lượt tải: 0
Bạn đang xem nội dung tài liệu Mức độ thô nháp của hàm số và ứng dụng - Phan Thu Hà, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
Kỹ thuật điện tử & Khoa học máy tính
Phan Thu Hà, “Mức độ thô nháp của hàm số và ứng dụng.” 34
Møc ®é th« nh¸p cña hµm sè vµ øng dông
PHAN THU HÀ
Tóm tắt: Bài báo đưa ra khái niệm mức độ thô nháp của hàm số f(x) cho trước đối với
hệ hàm cơ sở đã cho. Trong bài đã dẫn ra ví dụ ở đó sự hội tụ theo luật của dãy các phân
bố thiết kế tới giới hạn, kể cả khi các phân bố đó thuộc loại hỗn hợp (liên tục và rời rạc),
cũng chưa đảm bảo sự hội tụ của độ thô nháp. Phân tích lưu lượng nước trung bình ngày
đêm cực tiểu của sông Hồng đưa ra độ thô nháp của hàm mô hình đối thuyết và chỉ ra có
tồn tại điểm chuyển trạng thái tại quan sát số 44 ứng với năm 1999.
Từ khóa: Mô hình hồi quy, Thiết kế thí nghiệm, Điểm chuyển, Độ thô nháp, Sự hội tụ.
1. GIỚI THIỆU
Khởi đầu, vấn đề điểm chuyển (change-point problem) xuất phát từ kiểm tra chất
lượng, khi người ta quan sát đầu ra một dây chuyền sản xuất và muốn phát ra tín hiệu báo
động khi số đo về sản phẩm vượt quá mức chấp nhận được. Một điều quan tâm trong dịch
tễ học là phải chăng tỷ lệ mắc bệnh không đổi theo thời gian, và nếu có, ước tính số lần,
(các) thời điểm thay đổi nhằm khuyến nghị các nguyên nhân có thể. Ví dụ khác là phân
tích nhịp tim trong điện tâm đồ, ở đó việc dùng các phương pháp phát hiện điểm chuyển là
phần then chốt của nhận dạng mẫu cũng như phân đoạn quá trình. Phát hiện điểm chuyển
cũng là mối quan tâm trong xử lý các chuỗi thời gian chỉ số kinh tế phục vụ mục đích dự
báo, tín hiệu địa chấn, hay chuỗi thời gian có tính chất phong tục, nghiên cứu văn bản lịch
sử, bản thảo, trong các nghiên cứu về vị trí khảo cổ
Chính vì thế, nhiều nhà thống kê trong mấy chục năm gần đây đã nỗ lực nghiên cứu
vấn đề điểm chuyển. Kiểm định sự tồn tại điểm chuyển có thể thấy trong các công trình
[4], [5]. Ước lượng (ƯL) điểm chuyển thường tiến hành theo phương pháp hợp lý cực đại
(xem [1], [6], [9]). Phương pháp dựa vào tổng tích lũy CUSUM (xem[3]) cũng rất được ưa
chuộng. Tuy nhiên, trong các trường hợp khó khăn hơn do thiếu thông tin, người ta phải
dùng đến phương pháp tái tạo mẫu boostrap (xem [8]). Phương pháp dãy để kiểm định và
ƯL điểm chuyển làm tối thiểu hóa số quan sát cũng như cực tiểu thời gian từ lúc xảy ra
điểm chuyển đến lúc phát hiện ra nó được đề cập đến trong [5]. Trong các công trình trên,
khi cần tìm sức mạnh của kiểm định (the power of test), thường người ta chỉ dùng nghiên
cứu mô phỏng đối với một lưới điểm của các tham số thống kê đối thuyết, mà không có
một nghiên cứu đầy đủ về sức mạnh, không đưa ra được công thức hiển cho sức mạnh của
kiểm định đưa ra. Có một ngoại lệ, đó là bài báo [7], ở đó đã chỉ ra công thức hiển cho
hàm sức mạnh; tuy nhiên các quan sát ở đó dựa trên quá trình nhiễu trắng dừng, rất ít xảy
ra trong những tình huống thực tế.
Gần đây, vấn đề sức mạnh của kiểm định đã được gắn với độ thô nháp của hàm mô
hình (xem [2]). Lợi thế của độ thô nháp là có thể dùng các phần mềm thống kê thông dụng
như SPSS, EVIEW hay R để tính toán. Bài báo này phát triển những ý tưởng về độ thô
nháp của hàm số và được bố trí như sau. Sau phần giới thiệu ở Bài 1, Bài 2 đưa ra các định
nghĩa về độ thô nháp, nhắc lại một số khái niệm cần thiết, tính chất đã biết, cũng như
những khảo sát mới khác về độ thô nháp. Bài 3 nêu một số ứng dụng của vấn đề nghiên
cứu khi xử lý các số liệu về dòng chảy của Sông Hồng và cuối cùng là phần kết luận.
2. ĐỘ NHÁP CỦA HÀM SỐ THEO HỆ HÀM ĐÃ CHO
Cho f (x), x [a, b] là hàm số được quan sát tại các điểm ix [a, b] , một số điểm ix
có thể trùng nhau. Giả sử 1 p{u (x),..., u (x)} là hệ các hàm số liên tục và độc lập tuyến tính
Nghiên cứu khoa học công nghệ
Tạp chí Nghiên cứu KH&CN Quân sự, Số 30, 04 - 2014 35
cho trước xác định trên [a, b]. Chúng ta muốn xấp xỉ hàm f(x) theo hệ hàm
1 p{u (x),..., u (x)}
tại các điểm ix , muốn vậy ta xét mô hình hồi quy
i 1 i i p p i if (x ) a u (x ) ... a u (x ) , i 1,..., n . (1)
Đặt 1 p(x) (u (x),..., u (x)), ( (x)) ,..., ( (x)) ), u U u u
i n 1 n 1 p(f (x ),..., f (x )) , ( ,..., ) , (a ,..., a ) ; Y a
hệ (1) được viết lại dưới dạng ma trận
Y Ua . (2)
Lưu ý rằng trong bài báo này chúng ta dùng chữ in đậm để chỉ ma trận hoặc véc tơ, ma
trận chuyển vị của ma trận A ký hiệu là .A Chúng ta luôn giả thiết rằng Rank( ) pU .
ƯL làm cực tiểu tổng bình phương trung bình các sai số
n
2
i i
i 1
1
(f (x ) (x ) )
n
u a (3)
là duy nhất và đạt được tại 1ˆ = ( ) a U U U Y . ƯL cho sai số của mô hình (1) là
n
22
i i
i 1
1
ˆS f (x ) (x ) .
n
u a (4)
Giá trị này được gọi là độ thô nháp của hàm f(x) theo hệ hàm 1 p{u (x),..., u (x)} dựa vào
thiết kế 1 n{x ,..., x } và ký hiệu là
2
iS (f , , (x )).u
Để nghiên cứu trường hợp giới hạn cũng như các mục đích khác, chúng ta coi mỗi hàm
phân bố F(x) có giá trên đoạn I, giá đó chứa ít nhất p điểm phân biệt là một thiết kế (suy
rộng) trên I. Như vậy, mỗi thiết kế rời rạc { 1 nx ,..., x } có ít nhất p điểm phân biệt là thiết
kế suy rộng F(x) - là hàm phân bố mẫu của mẫu 1 n{x ,..., x }.
Bây giờ cho hàm mô hình f (x), x [a, b] , hệ các hàm xu thế 1 p{u (x),..., u (x)} độc
lập tuyến tính và thiết kế F(x) có giá trong [a, b]. Chúng ta biểu diễn f(x) qua hệ hàm xu
thế theo phương trình
1 1 p pf (x) a u (x) ... a u (x) (x). (5)
Giả sử aˆ là ƯL của véc tơ tham số 1 n(a ,..., a )a làm cực tiểu bình phương trung bình
có trọng lượng các sai số
2
[a,b]
f (x) (x) dF(x). u a (6)
Để các tính toán có nghĩa, chúng ta giả sử các hàm if (x), u (x) là bình phương khả tích
theo độ đo dF(x). Dễ thấy rằng, ia là nghiệm của hệ
1 1 F 1 1 p F p 1 F
p 1 F 1 p p F p p F
u , u a ... u , u a u , f
. . . . . . . . . . . . . . . .
u , u a ... u , u a u , f ,
(7)
trong đó, Fh,g là tích vô hướng của hai hàm h(x) và g(x) theo độ đo dF(x):
F [a,b]
h,g h(x)g(x)dF(x). (8)
Kỹ thuật điện tử & Khoa học máy tính
Phan Thu Hà, “Mức độ thô nháp của hàm số và ứng dụng.” 36
Đối với thiết kế suy rộng, chúng ta luôn giả thiết thêm rằng ma trận F, u u các hệ số
của hệ (7) không suy biến. Khi ấy, nghiệm của (7) tồn tại và duy nhất, ký hiệu là aˆ xác
định bởi
11 n F Fˆ ˆ ˆ(a ,..., a ) , , f .
a u u u (9)
ƯL cho sai số của mô hình (5) là
22
[a , b]
ˆS f (x) (x) dF(x) . u a (10)
Giá trị này được gọi là độ thô nháp của hàm f(x) theo hệ hàm xu thế 1 p{u (x),..., u (x)}
dựa vào thiết kế F(x), ký hiệu bởi 2S (f , , F)u (xem [2]).
Như đã nói, mỗi thiết kế cố định 1 n{x ,..., x } được xem như một thiết kế suy rộng, (3),
(4) là trường hợp đặc biệt của (6), (10).
Các hàm mô hình gãy có vai trò quan trọng đặc biệt trong nghiên cứu điểm chuyển.
Trong trường hợp mô hình tuyến tính với 1 2p 2, u (x) 1, u (x) x , người ta xét hai loại
điểm chuyển: gãy và gãy rời ([5]). Hàm mô hình gãy là hàm gãy khúc liên tục
0 1
0 1a ,a ,h, x
f (x) a a x h(x x )
(11)
trong đó, 0 1a ,a ,h, x
là những hằng số cho trước, h 0, x (0,1) . Khi ấy, hàm mô hình
liên tục, tuy nhiên hệ số góc thay đổi từ 1a
thành
1a h tại điểm chuyển x
. Với trường
hợp gãy rời, ngoài việc hệ số góc biến thiên một lượng h tại x , điểm chuyển còn là điểm
gián đoạn với dao độ k:
0 1
0 1a ,a ,k,h,x (x ,1]
f (x) a a x k I (x) h(x x )
(12)
trong đó AI (x) là hàm chỉ tiêu của tập A.
Định lý (xem [2]). Giả sử dãy các thiết kế nF (x) hội tụ yếu đến thiết kế F(x) với độ đo
Lebesgue-Stieltjes (dF); f(x) là hàm đo được, bị chặn trên [0, 1]. Nếu tập các điểm gián
đoạn fD của hàm f(x) có độ đo (dF) bằng không: f(dF)(D ) 0
thì:
n
n
2 2
n
n
ˆ ˆ(i) lim
(ii) lim S (f , , F ) S (f , , F) .
a a
u u
Trong [2] đã đưa ra ví dụ chứng tỏ điều kiện độ đo (dF) của tập điểm gián đoạn của
hàm mô hình bằng không là không bỏ qua được. Tuy nhiên ở đó độ đo n(dF ) là gián đoạn,
tập trung tại 3 điểm. Vì thế ví dụ đó chỉ có tính chất minh họa lý thuyết mà không sát thực
tiễn. Ví dụ sau đây đề cập đến dãy độ đo n(dF ) thuộc loại hỗn hợp (rời rạc và liên tục).
Ví dụ. Xét hàm mô hình 0, 0 x 1 / 2f (x )
1, 1 / 2 x 1
và dãy hàm phân bố nF (x) có giá trên đoạn [0,1] sao cho trên đoạn này thì
n
n
n
n n
n
0.1
x, khi 0 x 1 / 2 h
1 / 2 h
F (x)
1
(0.4x 0.1 h ), khi 1 / 2 h x 1
1 / 2 h
Nghiên cứu khoa học công nghệ
Tạp chí Nghiên cứu KH&CN Quân sự, Số 30, 04 - 2014 37
trong đó, nnh ( 1) / n. Rõ ràng xảy ra sự hội tụ theo luật
n
0.2x khi 0 x 0.5
F (x) F(x) (n )
0.8x 0.2 khi 0.5 x 1
.
Bởi vì điểm gián đoạn 1/ 2 của hàm f(x) có (dF)-độ đo bằng 1/ 2 nên chúng ta không
thể áp dụng Định lý 3 được. Cụ thể hơn, các hệ số của hệ (7) trở thành
n
n
1 1 F
2
1 2 F n n
n
u , u 1 1 (n ),
0.2 23
u , u 0.55 (0.5 h ) 1 (0.5 h ) (n ),
(0.5 h ) 40
n 2 32 2 F n n
n
0.1 1 0.4 11
u , u (0.5 h ) 1 (0.5 h ) (n ),
3 2 3(0.5 h ) 30
n
n
1 F n n n
n n
0.1h 0.4
u ,f u(h ) 0.5 0.5 h u(h ) ,
0.5 h 0.5 h
n 2 2n2 F n n n n n n
n n
u(h ) 0.1 0.2 3
u ,f h h 0.5 h u(h ) h h
2 0.5 h 0.5 h 4
trong đó, u(x) 0 khi x 0, u(x) 1 khi x 0. Từ đó:
2n 2n 1 2n 2n 11 F 1 F 2 F 2 Fn n n n
9 4 9 3
lim u ,f , lim u ,f , lim u ,f , lim u ,f ;
10 10 20 10
2n 2n 2n 1 2n 1
n 0 n 0
2 2
2n 2n 1
n n 0
66 156 124 336ˆ ˆˆ ˆlim a , b , , lim a , b , ;
173 173 173 173
lim S 0.0604 lim S 0.1040.
Như vậy, cả ba giới hạn 2n n n
n n n
ˆˆlim a , lim b , lim S
đều không tồn tại.
Ví dụ trên nhắc ta cần thận trọng khi tính giới hạn độ nháp của hàm số. Đối với hàm
mô hình gãy (liên tục), việc chuyển qua giới hạn là bình thường. Có thể chuyển qua giới
hạn cho trường hợp hàm f(x) gãy rời chỉ nếu thiết kế F(x) không tập trung khối lượng tại
điểm gãy, kể cả khi độ đo (dF) thuộc loại hỗn hợp (rời rạc kết hợp liên tục).
3. NGHIÊN CỨU THỰC NGHIỆM
Chế độ thủy văn Sông Hồng tại trạm Sơn Tây được quan sát từ năm 1956 đến 2012
(gồm 57 quan sát). Để đánh giá mức độ khô cạn của hạ lưu, chúng tôi quan tâm đến lưu
lượng nước trung bình ngày đêm (m3/s) cực tiểu trong năm.
Dữ liệu có chứa quan sát ngoại lai. Thực vậy, khi dùng mô hình hồi quy tuyến tính đơn
chúng ta nhận được hàm hồi quy là y 622.77 4.461t . Tuy nhiên, vì 40y 1870 nên sai
số tại quan sát số 40 (ứng với năm 1995) là 1870 801.21 1068.79 và sai số chuẩn hóa
tương ứng là 4.819, lớn hơn rất nhiều so với 3 (ngưỡng 99.93%). Vậy, ta coi quan sát thứ
40 là ngoại lại, bị loại. Từ đây, ta coi dữ liệu khuyết quan sát thứ 40.
Hàm hồi quy với dự liệu khuyết là y 622.77 4.461t . Hệ số xác định 2R 0.119 là
rất nhỏ, giá trị thống kê Durbin-Watson là 1.172 nằm trong miền tương quan chuỗi. Vậy
chúng ta bác bỏ mô hình này.
Bây giờ giả sử hàm mô hình có dạng (12), ta viết quan sát dưới dạng
Kỹ thuật điện tử & Khoa học máy tính
Phan Thu Hà, “Mức độ thô nháp của hàm số và ứng dụng.” 38
1 1 i
i
2 2 i
a b i , 1 i k
y (i 40).
a b i , k 1 i 57
Gọi 1 2Q ,Q lần lượt là tổng bình phương các phần dư
2
i iˆ(y y ) của mô hình tuyến
tính dựa vào k quan sát đầu tiên và n k 56 k quan sát cuối cùng. Theo [9], k
được ước lượng là giá trị mà tổng
1 2Q Q đạt giá trị nhỏ nhất. Tính toán cụ thể bằng phần
mềm R ta nhận được cực tiểu của tổng này là 6814, đạt được tại k 44 (ứng với năm
1999). Đối với pha đầu, 1 i 44 , hệ số xác định thấp: 2R 0.126, độ lệch chuẩn ước
lượng khá cao: 1ˆ 147.46, mức ý nghĩa (significal level) của thống kê t cho hệ số chặn
1a và hệ số góc 1b lần lượt là 0.0194, 0.000, nhỏ so với mức 0,05; giá trị của thống kê
Durbin-Watson là 1.556 , nằm trong miền chưa có kết luận. Như vậy, mô hình tuyến tính
áp dụng cho giai đoạn đầu không được hoàn hảo, có tính khiên cưỡng (xem hình 1, pha
đầu). Đối với pha sau, 45 i 57 , hệ số xác định cao: 2R 0.904, độ lệch chuẩn ước
lượng khá thấp: 2ˆ 69.86 , mức ý nghĩa (significal level) của thống kê t cho hệ số chặn
2a và hệ số góc 2b lần lượt là 0.0000, 0.0000, rất nhỏ so với mức 0,05, coi các hệ số này
khác 0 một cách có ý nghĩa; giá trị của thống kê Durbin-Watson là 2.434, nằm trong miền
không có tương quan chuỗi. Các đồ thị, hàng rào P-P chuẩn cũng như Histogram của phần
dư đều khẳng định mô hình tuyến tính là phù hợp (xem hình 1, pha sau). Như vậy, mặc
dầu không hoàn hảo, có thể nói rằng, đã xảy ra điểm chuyển tại t 44 ứng với năm 1999
và coi hàm mô hình là
606.63 4.359 x, 1 x 44
f (x)
3521.27 52.791x, 44 x 57
Hệ số của biến x âm ở pha sau thể hiện xu hướng suy kiệt của dòng chảy vào mùa khô.
Độ thô nháp của hàm này theo hệ hàm cơ sở {1, x} và thiết kế đều trên đoạn [0, 57] tính
theo (10) là 2 2S 0.31354 568 :570 0.1031 . Theo [2], đây là giá trị khá lớn.
4. KẾT LUẬN
Khái niệm độ thô nháp được giới thiệu và nêu lên cách tính toán nó thông qua các phần
mềm thống kê thông dụng. Để có thể tính toán độ nháp đối với hàm phân bố giới hạn,
Hình 1. Lưu lượng nước trung bình ngày cực tiểu tại trạm Sơn Tây loại đi quan sát số
40, các đường xu thế trước và sau số liệu 44 (1999).
Nghiên cứu khoa học công nghệ
Tạp chí Nghiên cứu KH&CN Quân sự, Số 30, 04 - 2014 39
chúng ta phải thận trọng, kể cả khi các hàm phân bố đó thuộc loại hỗn hợp. Kết quả nghiên
cứu lý thuyết được áp dụng cho phân tích lưu lượng nước trung bình ngày đêm cực tiểu
trong năm.
TÀI LIỆU THAM KHẢO
[1]. Aue, A., Horvath, L., Huskova, M. and Kokoszka, P., “Testing for changes in
polynomial regression”, Bernoulli, 14, No. 3 (2008), pp. 637-660.
[2]. Ban, T.V., Quyen, N.T., Ha, P.T., “The roughness of model function to the basis
functions”, J. of Math. and System Science, 3, No. 8 (2013), 385-390.
[3] Berkes, I., Horvath, L., Schauer, J., “Asymptotics of trimmed CUSUM statistics”,
Bernoulli, 17. No. 4 (2011), pp.1344–1367.
[4] Bischoff, W., Miller, F., “Asymptotically optimal test and optimal designs for
testing the mean in regression models with appications to change-point problems”,
Ann. Inst. Statist. Math., 52, No. 4 (2000), pp. 658-679.
[5] Brodsky, B., Darkhovsky, B., “Asymptotically Optimal Sequential Change-Point
Detection under Composite Hypotheses”, Proceedings of the 44th IEEE
Conference on Decision and Control, and the European Control Conference,
December 2005, Seville, Spain, pp. 12-15.
[6] Chow, G.C., “Tests of equality between sets of coefficients in two linear
regressions”, Econometrica, 28, No.3 (1960), pp. 591-605.
[7] Farley, J.U., Hinich, M., McGuire, T. W., “Some comparisons of test for a shift in
the slopes of a multivariate linear time series model”, J. Econometrics, 3 (1975),
pp. 297-318.
[8]. Huskova, M., Kirch, C., “Bootstrapping sequential change-point tests for linear
regression”, Metrika 75, No. 05 (2012), pp. 673-708.
[9] Koul, H.L., Qian, L., “Asymptotics of maximum likelihood estimator in a two-
phase linear regression model”, J. of Statistical Planning and Inference, 108
(2002), pp. 99-119.
ABSTRACT
THE ROUGHNESS OF FUNCTIONS AND APPLICATIONS
We introduce the concept of the roughness of a given function for system of basis
functions. The paper cites example in which the convergence in law of sequence of
the distribution functions to limit - even if those distribution functions belong to the
mixture (continuous and discrete) type - does not ensure the convergence of the
roughness. Analysis of minimum average day-and-night water flow of the Red River
shows the roughness of the alternative model function and presence of a change-
point at the observation number 44 corresponding to the year 1999.
Keywords: Regression model, Design, Change-point, Roughness, Convergence.
Nhận bài ngày 03 tháng 09 năm 2013
Hoàn thiện ngày 07 tháng 12 năm 2013
Chấp nhận đăng ngày 18 tháng 03 năm 2014
Địa chỉ: Khoa Công nghệ thông tin, Học viện KTQS, ĐT: 0985 193 986
Các file đính kèm theo tài liệu này:
- 06_34_39_5704_2149170.pdf