Tài liệu Ứng dụng gis trong dự báo dịch tả: Lê Thị Ngọc Anh, Hoàng Xuân Dậu
Tạp chí KHOA HỌC CÔNG NGHỆ
THÔNG TIN VÀ TRUYỀN THÔNG
Số 1 năm 2016 69
ỨNG DỤNG GIS
TRONG DỰ BÁO DỊCH TẢ
Lê Thị Ngọc Anh*, Hoàng Xuân Dậu+
* Phòng Công nghệ thông tin, Trường Đại học Y Hà Nội
+ Khoa Công nghệ thông tin I, Học Viện Công Nghệ Bưu Chính Viễn Thông, Hà Nội
Tóm tắt: Việc lan truyền các bệnh truyền nhiễm
có liên hệ mật thiết với sự lân cận về không gian
và thời gian, do sự lan truyền bệnh dịch có nhiều
khả năng xảy ra nếu các cá nhân có nguy cơ ở gần
trong một không gian và thời gian nhất định. Vì
thế các phân tích dữ liệu trong y tế luôn cần xem
xét cả hai vấn đề không gian và thời gian theo
nguyên lý cơ bản là kiểm tra mối quan hệ phụ
thuộc giữa các quan sát ở cả hai chiều không gian
và thời gian. Để đáp ứng được yêu cầu trên, Hệ
thống thông tin địa lý (Geographic Information
System - GIS) tỏ rõ ưu thế so với các phương
pháp phi không gian truyền thống. GIS hỗ trợ xác
định vị trí, lập bản đồ ca bệnh, tì...
10 trang |
Chia sẻ: quangot475 | Lượt xem: 281 | Lượt tải: 1
Bạn đang xem nội dung tài liệu Ứng dụng gis trong dự báo dịch tả, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
Lê Thị Ngọc Anh, Hoàng Xuân Dậu
Tạp chí KHOA HỌC CÔNG NGHỆ
THÔNG TIN VÀ TRUYỀN THÔNG
Số 1 năm 2016 69
ỨNG DỤNG GIS
TRONG DỰ BÁO DỊCH TẢ
Lê Thị Ngọc Anh*, Hoàng Xuân Dậu+
* Phòng Công nghệ thông tin, Trường Đại học Y Hà Nội
+ Khoa Công nghệ thông tin I, Học Viện Công Nghệ Bưu Chính Viễn Thông, Hà Nội
Tóm tắt: Việc lan truyền các bệnh truyền nhiễm
có liên hệ mật thiết với sự lân cận về không gian
và thời gian, do sự lan truyền bệnh dịch có nhiều
khả năng xảy ra nếu các cá nhân có nguy cơ ở gần
trong một không gian và thời gian nhất định. Vì
thế các phân tích dữ liệu trong y tế luôn cần xem
xét cả hai vấn đề không gian và thời gian theo
nguyên lý cơ bản là kiểm tra mối quan hệ phụ
thuộc giữa các quan sát ở cả hai chiều không gian
và thời gian. Để đáp ứng được yêu cầu trên, Hệ
thống thông tin địa lý (Geographic Information
System - GIS) tỏ rõ ưu thế so với các phương
pháp phi không gian truyền thống. GIS hỗ trợ xác
định vị trí, lập bản đồ ca bệnh, tìm hiểu nguyên
nhân bùng phát dịch bệnh, mô phỏng, dự báo sự
lây lan dịch bệnh trong các vụ dịch. Bài bào này
đề xuất xây dựng mô hình dự báo dịch tả trên
địa bàn thành phố Hà Nội có xem xét đến ảnh
hưởng của biến đổi khí hậu trên cơ sở ứng dụng
công nghệ GIS. Các kết quả đạt được cho thấy
khả năng ứng dụng hiệu quả GIS trong phân tích
dịch bệnh tả trên địa bàn nghiên cứu khi chỉ ra
được những điểm nóng, cũng như lý giải mối liên
hệ giữa các biến khí hậu, mặt nước, dân số phân
bố theo không gian với số ca bệnh theo thời gian.
Từ khóa: Dự báo dịch bệnh, GIS trong y tế, mô
hình dự báo, phân tích không gian1
I. ĐẶT VẤN ĐỀ
Bệnh tả xuất hiện lần đầu trên thế giới vào năm
1817 và nhanh chóng trở thành một trong những
Tác giả liên lạc: Hoàng Xuân Dậu,
email: dauhoang@gmail.com
Đến tòa soạn: 14/3/2016, chỉnh sửa: 28/4/2016, chấp
nhận đăng: 30/5/2016.
nguyên nhân chính gây tử vong hàng loạt trên
toàn thế giới, nhất là tại các nước đang phát triển
thuộc vùng nhiệt đới ở châu Phi, châu Á và Nam
Mỹ. Trong lịch sử, các đợt bùng phát dịch tả
từng được coi như những thảm họa do tỷ lệ tử
vong cao, mức độ lây lan nhanh, phạm vi ảnh
hưởng rộng và khó kiểm soát [1]. Virus tả Vibrio
Cholerae có thể dễ dàng lan truyền hoặc phát tán
thông qua con người và động vật, đặc biệt tại
những vùng thiếu nguồn nước sạch, cơ sở vệ sinh
kém, ô nhiễm. Nhiều nghiên cứu đã chỉ ra mối
quan hệ nhân quả giữa các yếu tố như hành vi
của con người, hệ sinh thái và các yếu tố nguy cơ
truyền nhiễm khác với sự bùng phát dịch bệnh.
Chính vì vậy, phân tích mô hình không gian và
các yếu tố có ảnh hưởng đến dịch tả đóng vai trò
rất quan trọng trong nghiên cứu sâu về tính chất
lây lan của dịch bệnh này.
Bài báo này tập trung nghiên cứu, khảo sát một
số mô hình dự báo dịch tả trên thế giới và trong
khu vực có sử dụng công nghệ GIS và đề xuất mô
hình dự báo dịch tả ở khu vực thành phố Hà Nội
dựa trên GIS.
Phần còn lại của bài báo được bố cục như sau: Mục
II trình bày các nghiên cứu có liên quan; Mục III
mô tả tập dữ liệu thử nghiệm và mô hình dự báo đề
xuất. Các thực nghiệm, kết quả và nhận xét được
trình bày tại Mục IV. Mục V là phần Kết luận.
II. CÁC NGHIÊN CỨU LIÊN QUAN
Trong những năm gần đây, GIS là công cụ đã và
đang được sử dụng rộng rãi trong việc hỗ trợ ra
quyết định trong nhiều hoạt động kinh tế, xã hội
và quốc phòng của nhiều quốc gia trên thế giới.
ỨNG DỤNG GIS TRONG DỰ BÁO DỊCH TẢ
Tạp chí KHOA HỌC CÔNG NGHỆ
THÔNG TIN VÀ TRUYỀN THÔNG70 Số 1 năm 2016
GIS cung cấp các công cụ phân tích thống kê,
mô hình hóa không gian, hỗ trợ cho việc nghiên
cứu các mối quan hệ giữa các yếu tố điều kiện tự
nhiên, môi trường và tình hình sức khỏe, bệnh tật
của người dân, theo dõi và dự báo diễn biến dịch
bệnh, từ đó hỗ trợ ra quyết định phù hợp ở từng
thời điểm và ở các cấp quản lý khác nhau [2].
Chính vì phạm vi ứng dụng rộng rãi nên có nhiều
cách tiếp cận khác nhau khi phân tích dữ liệu với
GIS, như trọng số nghịch khoảng cách (Inverse
Distance Weighting - IDW), phân tích điểm nóng
(Hot Spot Analysis), hồi quy trọng số không gian
(Geographically Weighted Regression - GWR)...
[3][4]. Phân tích điểm nóng là một phương pháp
phân nhóm không gian sử dụng thống kê Getis-
Ord Gi* [3] cho mỗi đối tượng trong tập dữ liệu
không gian. Phương pháp này tính toán bằng
cách xem xét từng đối tượng trong bối cảnh với
các đối tượng lân cận. Một đối tượng có giá trị
cao chưa hẳn là một điểm nóng có ý nghĩa về
mặt thống kê. Để trở thành một điểm nóng về
mặt thống kê, một đối tượng cần có giá trị cao và
được bao quanh bởi các đối tượng khác cũng có
giá trị cao. Phương pháp thống kê cục bộ như hồi
quy trọng số không gian xem xét tính không đồng
nhất của các mối quan hệ theo không gian. Nói
cách khác, nó mô hình hóa các mối quan hệ thay
đổi theo các vị trí không gian khác nhau.
Năm 2008, Osei và Duker đã sử dụng các mô hình
hồi quy không gian (gồm cả mô hình sai số không
gian và mô hình trễ không gian) để khám phá sự
phụ thuộc của tỷ lệ mắc bệnh tả vào một yếu tố
môi trường địa phương quan trọng (các bãi rác lộ
thiên) ở Kumasi, Ghana [5]. Kết quả nghiên cứu
cho thấy những vùng có mật độ cao các bãi rác
lộ thiên có tỷ lệ mắc bệnh tả cao hơn những vùng
có mật độ các bãi rác lộ thiên thấp hơn. Hơn nữa,
những vùng gần bãi rác lộ thiên có tỷ lệ mắc bệnh
cao hơn những vùng ở xa bãi rác lộ thiên [5][6].
Nghiên cứu tiếp theo vào năm 2010 của Osei và
đồng nghiệp cũng cho các kết quả khả quan khi
sử dụng các mô hình hồi quy không gian để khám
phá sự phụ thuộc không gian của bệnh tả vào các
thủy vực có tiềm năng bị ô nhiễm [5][6].
Năm 2013, Nkeki and Osirike [7] đã so sánh hai
phương pháp hồi quy trọng số không gian (GWR)
trong GIS và hồi quy tuyến tính (Ordinary Least
Square - OLS) để phân tích các mối quan hệ giữa
sự xuất hiện của dịch tả và các nguồn cấp nước
cho các hộ gia đình. Nghiên cứu sử dụng dữ liệu
bản đồ các tiểu bang của Nigeria và số liệu thống
kê về các trường hợp mắc bệnh tả, nguồn cung
cấp nước cho các hộ gia đình và dữ liệu dân số.
Kết quả cho thấy phương pháp GWR tốt hơn
đáng kể so với phương pháp OLS. Ngoài ra, phân
tích dữ liệu thực nghiệm cho thấy dịch tả xảy ra
trong khu vực nghiên cứu có liên quan đáng kể
đến các nguồn cung cấp nước cho các hộ gia đình
và thay đổi theo các khu vực khác nhau.
Năm 2014, Rasam và cộng sự [8] đã tiến hành
nghiên cứu tích hợp GIS và các kỹ thuật phân
tích dịch tễ học trong phân tích mô hình không
gian của bệnh tả tại huyện Sabah, Malaysia. Kết
quả cho thấy bệnh tả có xu hướng tập trung quanh
khu vực người bị nhiễm khoảng 1.500 mét. Các
ổ dịch tả thường xuất hiện tại các khu vực đông
người, môi trường mất vệ sinh, và gần với nguồn
nước bị ô nhiễm. Ngoài ra, bệnh tả cũng có quan
hệ chặt chẽ với các khu vực ven biển. Từ những
phân tích trên cho thấy GIS đóng vai trò như
một công nghệ không gian rất quan trọng trong
nghiên cứu xác định mô hình phân phối và làm
sáng tỏ các giả thuyết phát triển của dịch bệnh.
Theo hiểu biết của chúng tôi, trên thế giới chưa
có công trình nghiên cứu nào phân tích đầy đủ
mối quan hệ giữa các yếu tố không gian (các yếu
tố khí hậu, thủy văn và dân số) với yếu tố thời
gian (sự lan truyền của bệnh dịch) sử dụng công
nghệ GIS.
Tại Việt Nam, bệnh tả là một loại dịch bệnh
truyền nhiễm nguy hiểm đối với con người, hiện
vẫn tồn tại ở một số địa phương. Để chủ động
phòng tránh dịch bệnh tả tái phát gây ảnh hưởng
tới sức khỏe người dân, việc triển khai ứng dụng
GIS trong kiểm soát và dự báo dịch bệnh tả được
xem như một giải pháp có tính khả thi cao, bổ
sung cho các biện pháp chuyên môn y tế, giúp
ngành y tế và chính quyền các cấp có những
can thiệp phù hợp nhất nhằm nâng cao hiệu quả
công tác phòng, chống dịch tả [9]. Hiện nay ở
Việt Nam, việc ứng dụng GIS trong lĩnh vực y tế
còn rất hạn chế. Đa phần chỉ dừng lại ở việc lập
Lê Thị Ngọc Anh, Hoàng Xuân Dậu
Tạp chí KHOA HỌC CÔNG NGHỆ
THÔNG TIN VÀ TRUYỀN THÔNG
Số 1 năm 2016 71
bản đồ thể hiện vị trí, số lượng ca bệnh, ổ dịch;
khoanh vùng nguy cơ dịch sử dụng chức năng tạo
vùng đệm; quản lý cơ sở dữ liệu dịch bệnh trên
nền GIS. Chúng tôi chưa tìm thấy nghiên cứu nào
ở trong nước ứng dụng GIS trong phân tích, tìm
hiểu nguyên nhân, mô hình phân bố của các ca
bệnh trong các vụ dịch, cũng như dự báo trước
khả năng xuất hiện ca bệnh trong tương lai. Vì
vậy, mục tiêu của nghiên cứu này là đề xuất xây
dựng mô hình dự báo dịch tả trên địa bàn thành
phố Hà Nội, có xem xét đến ảnh hưởng của số ca
bệnh tả với một số biến hư khí hậu, diện tích mặt
nước, dân số trên cơ sở ứng dụng kỹ thuật phân
tích hồi quy không gian trong công nghệ GIS.
III. MÔ HÌNH DỰ BÁO ĐỀ XUẤT
A. Tập Dữ Liệu Thử Nghiệm
Dữ liệu thử nghiệm bao gồm các số liệu về số ca
dịch tả được thu thập từ Trung tâm y tế dự phòng
Hà Nội. Dữ liệu khí hậu và thủy văn khu vực Hà
Nội được thu thập từ Trung tâm nghiên cứu khí
tượng quốc gia. Dữ liệu sử dụng cho quá trình
thực hiện nghiên cứu được mô tả chi tiết ở Bảng I.
Bảng I. Dữ liệu đầu vào cho nghiên cứu
Dữ liệu Mô tả
Bản đồ hành
chính tỷ lệ
1:50000
Thể hiện ranh giới 29 đơn vị quận huyện
của Tp. Hà Nội.
Bản đồ thủy văn
tỷ lệ 1:50000
Thể hiện mạng lưới sông suối, ao hồ trên
địa bàn Tp. Hà Nội.
Số liệu dân số
Giai đoạn 2007-2010 trên địa bàn
Tp. Hà Nội.
Thể hiện quy mô dân số các quận huyện
theo năm.
Số liệu khí tượng
Giai đoạn 2001-2011 tại 5 trạm đo: Ba Vì,
Hà Đông, Hoài Đức, Láng và Sơn Tây trên
địa bàn Tp. Hà Nội.
Thể hiện số liệu đo lượng mưa; nhiệt độ
không khí; độ ẩm không khí tương đối; số
giờ nắng; tốc độ gió theo ngày.
Số liệu bệnh tả
Giai đoạn 2001-2011 trên địa bàn
Tp. Hà Nội.
Thể hiện số liệu lưu trữ thông tin về các ca
mắc bệnh tả theo ngày.
B. Mô hình dự báo đề xuất
Hình 1 trình bày mô hình dự báo dịch tả đề xuất
tại khu vực Hà Nội. Dữ liệu đầu vào bao gồm bản
đồ hành chính, thủy văn, số liệu dân số, số liệu
khí tượng theo ngày (R- lượng mưa; Sh- số giờ
nắng; T- nhiệt độ không khí; U- độ ẩm không khí
tương đối; V- tốc độ gió) và số liệu ca mắc bệnh
tả theo ngày giai đoạn 2001–2011.
Hình 1. Mô hình dự báo dịch tả đề xuất
Từ số liệu đầu vào là các biến khí tượng (R, Sh,
T, U, V), diện tích mặt nước tại từng quận, huyện,
dân số của từng quận, huyện, nhóm nghiên cứu
thống kê và tổng hợp số liệu để tiến hành xây
dựng mô hình. Diện tích mặt nước được coi là dữ
liệu không đổi và được tính toán cụ thể cho từng
quận, huyện. Trong khi đó, dữ liệu khí tượng thay
đổi và chỉ được thu nhận tại 5 trạm khí tượng như
mô tả ở Bảng I. Do vậy, nhóm nghiên cứu sử dụng
công cụ nội suy IDW để nội suy từ dữ liệu cung
cấp bởi các trạm khí tượng cho từng quận, huyện.
Dựa trên bản đồ kết quả sau nội suy, nhóm nghiên
cứu lập bản đồ phục vụ quá trình mô phỏng, dự
báo số ca mắc tả trên khu vực nghiên cứu thông
qua các hàm hồi quy. Nghiên cứu sử dụng độ đo
hệ số xác định hiệu chỉnh để so sánh giữa các mô
hình hồi quy và lựa chọn mô hình hồi quy tối ưu.
ỨNG DỤNG GIS TRONG DỰ BÁO DỊCH TẢ
Tạp chí KHOA HỌC CÔNG NGHỆ
THÔNG TIN VÀ TRUYỀN THÔNG72 Số 1 năm 2016
IV. THỬ NGHIỆM VÀ KẾT QUẢ
A. Giới Thiệu các Thử Nghiệm
Theo mô hình dự báo dịch tả đề xuất như mô tả
trên Hình 1, các khâu tiền xử lý dữ liệu và các thử
nghiệm sau được thực hiện:
1. Phân tích điểm nóng dịch bệnh tả. Mục tiêu
của thử nghiệm này là tìm ra các điểm nóng
(Hot Spot) bùng phát dịch tả và mối quan hệ
giữa sự bùng phát dịch với các yếu tố không
gian, gồm khí tượng, thủy văn (mặt nước) và
mật độ dân số;
2. Thử nghiệm các mô hình hồi qui đa biến cho
dự báo dịch tả. Thử nghiệm này được thực
hiện trên cơ sở kết quả của bước phân tích
điểm nóng dịch tả, và gồm có 3 khâu: (i) Lựa
chọn biến giải thích phát sinh dịch bệnh tả,
(ii) Phân tích hồi quy tuyến tính (OLS) và
(iii) Phân tích hồi quy trong số không gian
(GWR). Các khâu trên được tiến hành tuần tự
do khâu tiếp theo nhận đầu vào là kết quả của
khâu trước.
B. Phân Tích Điểm Nóng Dịch Tả
Từ dữ liệu thống kê số ca bệnh tả theo năm trong
giai đoạn 2001– 2011 biểu diễn trên Hình 2, có
thể rút ra nhận xét về diễn biến dịch tả khoảng
thời gian xem xét từ năm 2001-2011: năm 2004
bắt đầu ghi nhận ca mắc bệnh tả tại Tp. Hà Nội
với số lượng chỉ 25 ca. Sau đó, dịch tả bùng phát
liên tục từ năm 2007 đến 2010, với đỉnh điểm là
năm 2008. Tuy nhiên, về mặt không gian, câu hỏi
đặt ra là các ca bệnh thường xuất hiện ở những
khu vực nào? các ca bệnh phân bố tập trung thành
cụm hay phân tán rải rác toàn vùng? Để trả lời
cho hai câu hỏi này, nghiên cứu tiến hành phân
tích điểm nóng theo từng năm bằng việc sử dụng
thống kê Getis-Ord Gi* trên toàn địa bàn Tp. Hà
Nội nhằm xác định khu vực thường xuyên xuất
hiện các ca mắc bệnh. Từ đó, tạo tiền đề cho việc
lựa chọn biến giải thích trong mô hình hồi quy
dịch bệnh. Kết quả phân tích điểm nóng được thể
hiện trên Hình 3. Theo đó, có thể thấy các điểm
nóng về số ca bệnh tả thay đổi theo theo từng
năm, tuy nhiên thường tập trung quanh khu vực
nội đô bao gồm các quận Ba Đình, Hai Bà Trưng,
Thanh Xuân, Đống Đa, Hoàng Mai và Cầu Giấy.
Đây là vùng tập trung dân cư đông đúc, tiếp giáp
với các con sông: sông Nhuệ, sông Kim Ngưu
và sông Tô Lịch. Đây là các con sông có chỉ số ô
nhiễm rất cao chảy qua địa bàn Tp. Hà Nội.
Hình 2. Biểu diễn số ca bệnh tả theo năm giai đoạn 2001-2011
C. Thử Nghiệm Các Mô Hình Hồi Quy Đa Biến
cho Dự Báo Dịch Tả
1) Lựa chọn biến giải thích phát sinh dịch bệnh tả
Kết quả phân tích điểm nóng về ca bệnh tả theo
năm cho thấy các điểm nóng đều tập trung tại
những khu vực đông đúc dân cư và nằm gần các
con sông ô nhiễm. Từ nhận định trên kết hợp
với các kết quả nghiên cứu đi trước về phân tích
bệnh tả, nghiên cứu này lựa chọn các biến giải
thích phát sinh dịch bệnh tả theo năm trên địa
bàn Tp. Hà Nội như sau: Khí hậu (R, Sh, T, U, V:
lấy trung bình năm); Diện tích mặt nước (km2);
Dân số (nghìn người). Do số ca mắc bệnh tả phân
bố rất không đều theo năm (hay nói cách khác là
số liệu không tuân theo quy luật phân bố chuẩn)
nên nghiên cứu lựa chọn hàm hồi quy sau để giải
thích số ca bệnh tả (y) với dạng như sau:
Log(y) = α + β1 * R + β2 * Sh + β3 * T + β4 * U +
β
5
* V + β
6
* Diện tích mặt nước + β
7
* Dân số + ε (1)
trong đó: Log(y) là logarit của số ca mắc tả; α là
hệ số chặn; β1, β2, β3, β4, β5, β6, β7 là các hệ số hồi
quy; và ε là sai số ngẫu nhiên.
Mục đích của lựa chọn hàm hồi quy logarit để
đưa dữ liệu về dạng phân bố chuẩn. Các biến số
khí hậu, diện tích mặt nước, dân số được coi là
các biến độc lập, trong khi biến số về số ca mắc
tả được coi là biến phụ thuộc. Mô hình hồi quy
sẽ dự báo số ca tả mới mắc tại Hà Nội dựa vào
dữ liệu về khí hậu, diện tích mặt nước và dân số.
Lê Thị Ngọc Anh, Hoàng Xuân Dậu
Tạp chí KHOA HỌC CÔNG NGHỆ
THÔNG TIN VÀ TRUYỀN THÔNG
Số 1 năm 2016 73
2) Phân tích hồi quy tuyến tính OLS
Nhóm nghiên cứu tiến hành phân tích hồi quy
tuyến tính OLS để thiết lập hàm mô phỏng, dự
báo ca bệnh tả theo năm cho toàn bộ khu vực Hà
nội. Tổng hợp kết quả phân tích hồi quy tuyến
tính OLS cho năm các 2007, 2008, 2009 và 2010
được thể hiện trong Bảng II. Độ lệch chuẩn của
phần dư (số ca thực tế - số ca mô phỏng) cho
các năm trên được thể hiện lần lượt ở Hình 4.
Nghiên cứu sử dụng độ đo hệ số xác định hiệu
chỉnh (Adjusted R_squared) để so sánh mức độ
ảnh hưởng giữa nhóm biến khí hậu với diện tích
mặt nước và dân số với số ca bệnh. Hệ số xác
định hiệu chỉnh cho biết các biến giải thích trong
mô hình giải thích được bao nhiêu phần trăm sự
biến đổi của biến phụ thuộc.
Bảng II. Tổng hợp kết quả hệ số xác định hiệu chỉnh trong
phân tích hồi quy OLS theo năm trong khu vực Hà Nội
Năm Biến giải thích
Hệ số xác định
hiệu chỉnh
(Adjusted R_squared)
Giá trị
thống kê
(*p_value)
2007
Hằng số, Mặt nước,
Khí hậu
0,258771 < 0,01
2008
Hằng số, Mặt nước,
Dân số
0,424545 < 0,01
2009
Hằng số, Mặt nước,
Khí hậu, Dân số
0,704000 < 0,01
2010
Hằng số, Mặt nước,
Khí hậu, Dân số
0,637462 < 0,01
±
Hot Spot 2004
Gi_Bin
Cold Spot - 99% Confidence
Cold Spot - 95% Confidence
Cold Spot - 90% Confidence
Not Significant
Hot Spot - 90% Confidence
Hot Spot - 95% Confidence
Hot Spot - 99% Confidence
#*
#*
#*
#*
#*
§an
Phîng
Th¹ch
ThÊt
Hoµi §øc
Quèc Oai
Ch¬ng Mü
Thanh
Oai Thêng
TÝn
Mü §øc
øng Hßa
Sãc S¬n
§«ng Anh
Gia L©m
Tõ Liªm
Thanh
Tr×
Tp. Hµ
§«ng
Tp. S¬n
T©y
Ba V×
Phóc Thä
Phó
Xuyªn
Mª Linh
Ba §×nh
T©y
Hå
Hoµn
KiÕm
Hai Bµ
Trng
Hoµng
Mai
§èng
§a
Thanh
Xu©n
CÇu
GiÊy
Long
Biªn
Ba Vi
Ha Dong
Lang
Son Tay
Hoai Duc
±
Hot Spot 2008
Gi_Bin
Cold Spot - 99% Confidence
Cold Spot - 95% Confidence
Cold Spot - 90% Confidence
Not Significant
Hot Spot - 90% Confidence
Hot Spot - 95% Confidence
Hot Spot - 99% Confidence
#*
#*
#*
#*
#*
§an
Phîng
Th¹ch
ThÊt
Hoµi §øc
Quèc Oai
Ch¬ng Mü
Thanh
Oai Thêng
TÝn
Mü §øc
øng Hßa
Sãc S¬n
§«ng Anh
Gia L©m
Tõ Liªm
Thanh
Tr×
Tp. Hµ
§«ng
Tp. S¬n
T©y
Ba V×
Phóc Thä
Phó
Xuyªn
Mª Linh
Ba §×nh
T©y
Hå
Hoµn
KiÕm
Hai Bµ
Trng
Hoµng
Mai
§èng
§a
Thanh
Xu©n
CÇu
GiÊy
Long
Biªn
Ba Vi
Ha Dong
Lang
Son Tay
Hoai Duc
±
Hot Spot 2007
Gi_Bin
Cold Spot - 99% Confidence
Cold Spot - 95% Confidence
Cold Spot - 90% Confidence
Not Significant
Hot Spot - 90% Confidence
Hot Spot - 95% Confidence
Hot Spot - 99% Confidence
#*
#*
#*
#*
#*
§an
Phîng
Th¹ch
ThÊt
Hoµi §øc
Quèc Oai
Ch¬ng Mü
Thanh
Oai Thêng
TÝn
Mü §øc
øng Hßa
Sãc S¬n
§«ng Anh
Gia L©m
Tõ Liªm
Thanh
Tr×
Tp. Hµ
§«ng
Tp. S¬n
T©y
Ba V×
Phóc Thä
Phó
Xuyªn
Mª Linh
Ba §×nh
T©y
Hå
Hoµn
KiÕm
Hai Bµ
Trng
Hoµng
Mai
§èng
§a
Thanh
Xu©n
CÇu
GiÊy
Long
Biªn
Ba Vi
Ha Dong
Lang
Son Tay
Hoai Duc
±
Hot Spot 2009
Gi_Bin
Cold Spot - 99% Confidence
Cold Spot - 95% Confidence
Cold Spot - 90% Confidence
Not Significant
Hot Spot - 90% Confidence
Hot Spot - 95% Confidence
Hot Spot - 99% Confidence
#*
#*
#*
#*
#*
§an
Phîng
Th¹ch
ThÊt
Hoµi §øc
Quèc Oai
Ch¬ng Mü
Thanh
Oai Thêng
TÝn
Mü §øc
øng Hßa
Sãc S¬n
§«ng Anh
Gia L©m
Tõ Liªm
Thanh
Tr×
Tp. Hµ
§«ng
Tp. S¬n
T©y
Ba V×
Phóc Thä
Phó
Xuyªn
Mª Linh
Ba §×nh
T©y
Hå
Hoµn
KiÕm
Hai Bµ
Trng
Hoµng
Mai
§èng
§a
Thanh
Xu©n
CÇu
GiÊy
Long
Biªn
Ba Vi
Ha Dong
Lang
Son Tay
Hoai Duc
±
Hot Spot 2010
Gi_Bin
Cold Spot - 99% Confidence
Cold Spot - 95% Confidence
Cold Spot - 90% Confidence
Not Significant
Hot Spot - 90% Confidence
Hot Spot - 95% Confidence
Hot Spot - 99% Confidence
#*
#*
#*
#*
#*
§an
Phîng
Th¹ch
ThÊt
Hoµi §øc
Quèc Oai
Ch¬ng Mü
Thanh
Oai Thêng
TÝn
Mü §øc
øng Hßa
Sãc S¬n
§«ng Anh
Gia L©m
Tõ Liªm
Thanh
Tr×
Tp. Hµ
§«ng
Tp. S¬n
T©y
Ba V×
Phóc Thä
Phó
Xuyªn
Mª Linh
Ba §×nh
T©y
Hå
Hoµn
KiÕm
Hai Bµ
Trng
Hoµng
Mai
§èng
§a
Thanh
Xu©n
CÇu
GiÊy
Long
Biªn
Ba Vi
Ha Dong
Lang
Son Tay
Hoai Duc
Hình 3. Phân tích điểm nóng số ca bệnh tả năm 2004, 2007, 2008, 2009 và 2010
ỨNG DỤNG GIS TRONG DỰ BÁO DỊCH TẢ
Tạp chí KHOA HỌC CÔNG NGHỆ
THÔNG TIN VÀ TRUYỀN THÔNG74 Số 1 năm 2016
Từ các kết quả phân tích cho trên Bảng III, có
thể rút ra nhận xét như sau: Trong năm 2007, sự
kết hợp của yếu tố khí hậu và mặt nước giải thích
được 25,87% số ca bệnh trên toàn khu vực. Trong
năm 2008, sự kết hợp của dân số và mặt nước giải
thích được 42,45% số ca bệnh trên toàn khu vực.
Trong các năm 2009, 2010, sự kết hợp của yếu tố
khí hậu, dân số và mặt nước giải thích được lần
lượt 70,40%, 63,74% số ca bệnh trên toàn khu
vực. Xu hướng hiện nay cho thấy, khí hậu đang
có những chuyển biến sâu sắc do những tác động
tiêu cực của con người và tự nhiên và những thay
đổi này có ảnh hưởng đáng kể tới sức khỏe con
người.
3) Phân tích hồi quy trọng số không gian GWR
Mô hình thống kê toàn cục theo hồi quy tuyến
tính OLS giả định tính đồng nhất theo không gian
của các mối quan hệ giữa biến phụ thuộc và biến
giải thích. Giả thiết này có thể dẫn đến kết quả
sai lệch khi OLS được sử dụng cho bộ dữ liệu
phụ thuộc không gian. Để khắc phục điểm yếu
trên, phương pháp thống kê cục bộ hồi quy trọng
số không gian (GWR) đã ra đời. Phương pháp
này xem xét tính không đồng nhất của các mối
quan hệ theo không gian. Nói cách khác, nó mô
hình hóa các mối quan hệ thay đổi theo các vị trí
không gian khác nhau. Dựa trên kết quả phân tích
hồi quy OLS theo năm cho toàn khu vực, nhóm
nghiên cứu xây dựng mô hình hồi quy trọng số
không gian GWR nhằm cải thiện khả năng giải
thích của mô hình OLS cũng như thiết lập hàm
tuyến tính phù hợp cho từng quận huyện. Nghiên
cứu sử dụng phương pháp chuẩn thông tin AIC
(Akaite’s Information Criterion) để so sánh hai
mô hình. Theo đó, mô hình nào có giá trị AIC
Hình 4. Độ lệch chuẩn của phần dư (số ca thực tế - số ca mô phỏng) các năm 2007, 2008,2009 và 2010
Hình 5. Hệ số xác định hiệu chỉnh R2 cục bộ của mô hình GWR cho các năm 2007, 2008, 2009 và 2010
Lê Thị Ngọc Anh, Hoàng Xuân Dậu
Tạp chí KHOA HỌC CÔNG NGHỆ
THÔNG TIN VÀ TRUYỀN THÔNG
Số 1 năm 2016 75
thấp sẽ chính xác hơn mô hình có giá trị AIC
cao. Kết quả so sánh chỉ số AIC, giá trị hệ số xác
định hiệu chỉnh R2 giữa mô hình OLS và mô hình
GWR theo từng năm được thể hiện trong Bảng
III. Theo đó, cho thấy ngoại trừ năm 2007, ba
năm còn lại mô hình GWR đều cho kết quả tốt
hơn mô hình OLS.
Hình 5 thể hiện giá trị các giá trị của hệ số xác
định hiệu chỉnh R² cục bộ thay đổi theo từng quận
huyện của mô hình GWR. Qua đó cho thấy sự
biến động theo không gian về mối quan hệ giữa
các biến giải thích và số ca bệnh tả trong năm.
Cụ thể, có thể chia hệ số xác định hiệu chỉnh R²
thành hai nhóm giá trị thấp và cao. Theo đó, đối
với năm 2007, có sự gia tăng giá trị R² theo hướng
từ Tây sang Đông. Các năm tiếp theo, sự gia tăng
giá trị hệ số R² theo hướng từ Bắc xuống Nam.
Bảng III. So sánh hiệu quả giữa hai mô hình OLS
và GWR theo năm
Chỉ
số
2007 2008 2009 2010
OLS GWR OLS GWR OLS GWR OLS GWR
AIC 101,10 101,10 105,38 104,65 81,83 73,51 81,81 78,94
R2 0,26 0,26 0,42 0,46 0,70 0,84 0,64 0,69
Ưu điểm của mô hình GWR là khả năng hiển thị
trực quan các hệ số ước lượng của mỗi biến giải
thích theo từng đơn vị không gian, ở đây là quận,
huyện. Điều này giúp cho việc khám phá các mối
quan hệ phức tạp trở nên dễ dàng hơn. Kết quả
ước lượng các hệ số của các biến giải thích cho
sự xuất hiện của ca bệnh tả trong giai đoạn 2007-
2010 được thể hiện lần lượt trên các Hình 6, 7,
8 và 9 trong phần Phụ lục của bài báo. Dải màu
thay đổi từ xanh đậm đến đỏ đậm tương ứng với
mức độ ảnh hưởng đến số ca bệnh tả từ thấp nhất
đến cao nhất.
4) Một số nhận xét
Qua phân tích hồi quy OLS và GWR, nhóm
nghiên cứu rút ra một số nhận xét như sau:
• Xét theo năm, tác động của khí hậu đến ca
bệnh biểu hiện rõ nét trong các năm 2007,
2009, 2010, trong khi năm còn lại 2008 tác
động này không đáng kể. Đối với mặt nước,
tác động của yếu tố này đến ca bệnh thể hiện
liên tục từ 2007 đến 2010. Yếu tố dân số có
ảnh hưởng đến ca bệnh trong hai năm 2008 và
2010. Kết quả phân tích của nghiên cứu cho
thấy yếu tố mặt nước có vai trò quan trọng
trong mô hình dự báo.
• Xét về không gian, số ca bệnh dự báo tại các
khu vực nội đô thường nhỏ hơn số ca bệnh
thực tế. Trong khi đó, tại các quận, huyện ở
khu vực phía Bắc và Nam giá trị này thường
lớn hơn. Cần có nghiên cứu sâu hơn để tìm
hiểu sự tương tác của không gian trong ảnh
hưởng số ca bệnh nhằm đưa ra mô hình dự
báo tốt nhất.
• Xét về mô hình, cả hai mô hình OLS và GWR
đều có thể giải thích được số ca bệnh. Tuy
nhiên, mô hình GWR cho kết quả tốt hơn mô
hình OLS theo năm nhờ khả năng ước lượng
các hệ số của mô hình thay đổi theo không gian.
V. KẾT LUẬN
Nghiên cứu đã bước đầu xác định các điểm nóng
về dịch bệnh thường tập trung thành cụm quanh
khu vực nội đô, nơi tập trung dân cư đông đúc,
tiếp giáp với các con sông ô nhiễm. Nghiên cứu
cũng xây dựng các mô hình hồi quy OLS và
GWR khái quát dự báo dịch tả trên địa bàn Tp.
Hà Nội theo năm dựa trên các biến khí hậu (nhiệt
độ không khí, lượng mưa, độ ẩm, số giờ nắng,
tốc độ gió), dân số, diện tích mặt nước trong giai
đoạn 2001 - 2011. Các kết quả đạt được cho thấy
khả năng ứng dụng GIS hiệu quả trong phân tích
dịch bệnh tả trên địa bàn nghiên cứu khi chỉ ra
được những điểm nóng cũng như lý giải mối liên
hệ giữa các biến khí hậu, mặt nước và dân số
phân bố theo không gian với số ca bệnh theo thời
gian. Điều đó góp phần hỗ trợ cho công tác quản
lý dịch bệnh theo không gian và thời gian. Đồng
thời, kết quả nghiên cứu tạo tiền đề quan trọng
cho các nghiên cứu tiếp theo về mô phỏng, dự
báo dịch tả trên địa bàn Tp. Hà Nội.
Bên cạnh những kết quả đạt được, còn một số vấn
ỨNG DỤNG GIS TRONG DỰ BÁO DỊCH TẢ
Tạp chí KHOA HỌC CÔNG NGHỆ
THÔNG TIN VÀ TRUYỀN THÔNG76 Số 1 năm 2016
đề cần tiếp tục nghiên cứu cải thiện như: (1) Thời
gian theo dõi số ca bệnh tả còn tương đối ngắn,
trong đó các ca bệnh chỉ xuất hiện trong 5 năm
(2004, 2007, 2008, 2009 và 2010) trong cả một
chuỗi thời gian từ 2001-2011. Bên cạnh đó số ca
bệnh tả xuất hiện trong mỗi năm trong giai đoạn
xem xét cũng không nhiều. Hơn nữa, dữ liệu số
ca bệnh tả từ 2001 đến 2011 là không cân bằng
(không tuân theo quy luật phân phối chuẩn) trong
giai đoạn xem xét, chỉ chiếm 4,22% theo ngày,
hoặc 13% nếu tính theo tháng. Chính vì vậy, để
thấy rõ hơn tác động của khí hậu, mặt nước và
dân số đến dịch bệnh tả, cần tiếp tục theo dõi tình
hình dịch bệnh tả trong những năm tiếp theo; (2)
Số lượng biến tham gia lý giải số ca bệnh tả còn ít.
Tuy nhiên, đây là hiện trạng thực tế và có thể coi
là đặc thù của dữ liệu dịch bệnh trong y tế, không
phải khi nào số ca mắc bệnh cũng lớn trong một
địa bàn nghiên cứu. Vì vậy, vẫn rất cần những
mô hình dự báo phù hợp với đặc điểm này. Mặc
dù vậy, kết quả nghiên cứu đã cho thấy mối liên
hệ chặt chẽ giữa khí hậu, mặt nước, dân số và sự
xuất hiện của các ca bệnh tả. Đối với khí hậu, dữ
liệu theo dõi khá đầy đủ, trong khi với mặt nước,
chỉ có dữ liệu diện tích mặt nước. Vì vậy, cần thu
thập thêm số liệu về chất lượng nước mặt trên địa
bàn, đặc biệt tại các con sông trong khu vực, để
có thể phân tích sâu hơn, toàn diện hơn diễn biến
dịch bệnh; (3) Nghiên cứu này dừng lại ở phân
tích dịch bệnh theo cấp độ quận, huyện nên độ
chính xác về không gian còn tương đối hạn chế.
Do đó, cần tiến hành thêm phân tích ở cấp độ
phường, xã để nâng cao độ chính xác. Ngoài ra,
khi thu thập số liệu ca bệnh tả nên ghi nhận chi
tiết đến địa chỉ nhà, tọa độ GPS để cung cấp đầu
vào chi tiết hơn cho quá trình phân tích trong GIS
TÀI LIỆU THAM KHẢO
[1]. Plowright, R.K., Cross, P.C., Tabor, G.M.,
Almberg, E., Bienen, L. and Hudson, P.J.,
2012. Climate Change and Infectious
Disease Dynamics. In: A.A. Aguirre, R.
Ostfeld and P. Daszak, eds., New Directions
in Conservation Medicine: Applied Cases
of Ecological Health. Oxford University
Press, pp. 111–121.
[2]. Leckebusch, G.C. and Abdussalam,
A.F., 2015. Climate and socioeconomic
influences on interannual variability of
cholera in Nigeria. Health & Place, [online]
34, pp. 107–117. Available at: <http://
linkinghub.elsevier.com/retrieve/pii/
S1353829215000660
[3]. Auchincloss A.H., Gebreab S.Y., Mair C.
and Roux Ana V.D. (2012). A Review of
Spatial Methods in Epidemiology, 2000–
2010. The Annual Review of Public Health
is online at publhealth.annualreviews.org.
[4]. Heywood, I., Cornelius, S. and Carver,
S., 2002. Introduction to Geographic
Information Systems. Pearson Publication.
[5]. Osei F.B., Duker A.A. (2008). Spatial
dependency of V. cholera prevalence on
open space refuse dumps in Kumasi, Ghana:
a spatial statistical modelling. International
Journal of Health Geographics 2008.
[6]. Osei F.B., Duker A.A. and Stein
A. (2012). Cholera and Spatial
Epidemiology, Cholera, Dr.Sivakumar
Gowder (Ed.), ISBN: 978-953-51-
0415-5, InTech, Available from: http://
www.intechopen.com/books/cholera/
cholera-and-spatial-epidemiology.
[7]. Nkeki, F.N. and Osirike, A.B., 2013. GIS-
based local spatial statistical model of
cholera occurrence: using geographically
weighted regression. Journal of Geographic
Information System, 5, pp.531–542.
[8]. Rasam, A.R.A., Ghazali, R., Noor, A.M.M.,
Mohd, W.M.N.W., Hamid, J.R.A., Bazlan,
M.J. and Ahmad, N., 2014. Spatial
epidemiological techniques in cholera
mapping and analysis towards a local scale
predictive modelling. IOP Conference
Series: Earth and Environmental Science,
Lê Thị Ngọc Anh, Hoàng Xuân Dậu
Tạp chí KHOA HỌC CÔNG NGHỆ
THÔNG TIN VÀ TRUYỀN THÔNG
Số 1 năm 2016 77
[online] 18. Available at: <
org/1755-1315/18/i=1/a=012095?key= cros
sref.018d453478b90fd70bf231feaecdaab6.
[9]. Cromley, E.K. and McLafferty, S.L., 2011.
GIS and Public Health. 2nd ed. New York,
USA: The Guilford Press.
[10]. Nguyễn Kim Lợi and Trần Thống Nhất,
2007. Hệ thống Thông tin Địa lý – Phần
mềm ArcView 3.3. TP Hồ Chí Minh: Nxb
Nông Nghiệp.
[11]. Rosenzweig, C., Casassa, G., Karoly, D.J.,
Imeson, A., Liu, C., Menzel, A., Rawlins, S.,
Root, T.L., Seguin, B. and Tryjanowski, P.,
2007. Assessment of observed changes and
responses in natural and managed systems.
In: M.L. Parry, O.F. Canziani, J.P. Palutikof,
P.J. van der Linden and C.E. Hanson, eds.,
Climate Change 2007: Impacts, Adaptation
and Vulnerability Contribution of Working
Group II to the Fourth Assessment Report
of the Intergovernmental Panel on Climate
Change.
APPLYING GIS IN CHOLERA FORECAST
Abstract: The spread of infectious diseases has a
close relationship with the temporal and spatial
localities due to the spread of disease is more likely
to occur if individuals are in near disease sources
in terms of specific space and time. Therefore, it
is very important to take both the temporal and
spatial factors in the analysis of epidemic data.
The basic principle is to examine the dependent
relationship between observations on both space
and time dimensions. In order to meet the above
requirements, Geographic Information System
(GIS) has the advantage over traditional non-
space methods. GIS can be used to determine
the location and to create the map of disease
cases. It can also be used for researching the
causes of disease outbreaks, and for simulating
and forecasting the disease spread. This paper
proposed a GIS-based cholera forecast model for
Hanoi city, which took the impact of the city’s
climate changes into consideration. Experimental
results showed that GIS can be effectively used
for the analysis of the cholera epidemic of the
research area. The research pointed out the hot
spots of cholera disease as well as it explained
the relationship between spatial distribution
variables, including climate, water area and
population, and the temporal distribution variable
of the number of cholera cases.
Lê Thị Ngọc Anh
Tốt nghiệp Đại học Mở Hà Nội, ngành T
in học quản lý năm 1999. Năm 2005 cô
nhận bằng Thạc sĩ ngành Engineering
Management Information System tại Đại
học Stockholm. Hiện cô là Trường phòng
Công nghệ thông tin, Đại học Y Hà Nội
và là NCS tại Học viện Công nghệ Bưu
Chính Viễn Thông.
Hướng nghiên cứu chính: Hệ thống
thông tin, Hệ thống thông tin y tế, Hệ
thống thông tin địa lý, Hệ thống quản lý
học tập, Cơ sở các hệ thống thông tin và
Công nghệ tri thức.
Hoàng Xuân Dậu
Nhận bằng Kỹ sư Tin học tại Đại học Bách
khoa Hà Nội năm 1994 và nhận bằng
Thạc sĩ ngành Công nghệ các hệ thống
máy tính tại Đại học RMIT, Melbourne,
Australia, năm 2000. Năm 2006, ông
nhận bằng Tiến sĩ Khoa học máy tính
tại Đại học RMIT, Melbourne, Australia.
Ông hiện là giảng viên, Khoa Công nghệ
thông tin I, Học viện Công nghệ Bưu
Chính Viễn Thông.
Hướng nghiên cứu chính: Học máy, khai
phá dữ liệu, an ninh mạng, an toàn phần
mềm và các giải pháp đảm bảo an toàn
thông tin.
ỨNG DỤNG GIS TRONG DỰ BÁO DỊCH TẢ
Tạp chí KHOA HỌC CÔNG NGHỆ
THÔNG TIN VÀ TRUYỀN THÔNG78 Số 1 năm 2016
Phụ lục: Tham số cục bộ của mô hình GWR cho các năm 2007, 2008, 2009 và 2010
Hình 6. Tham số cục bộ của mô hình GWR cho năm 2007
Hình 7. Tham số cục bộ của mô hình GWR cho năm 2008
Hình 8. Tham số cục bộ của mô hình GWR cho năm 2009
Hình 9. Tham số cục bộ của mô hình GWR cho năm 2010
Các file đính kèm theo tài liệu này:
- 21_article_text_52_1_10_20161017_6473_2158899.pdf