Tài liệu Ứng dụng phân cụm bán giám sát mờ trong phân tích và dự báo dữ liệu sản lượng cây nông nghiệp tỉnh Thái Nguyên: Nguyễn Thu Hương và Đtg Tạp chí KHOA HỌC & CÔNG NGHỆ 189(13): 23 - 30
23
ỨNG DỤNG PHÂN CỤM BÁN GIÁM SÁT MỜ TRONG PHÂN TÍCH VÀ DỰ
BÁO DỮ LIỆU SẢN LƯỢNG CÂY NÔNG NGHIỆP TỈNH THÁI NGUYÊN
Nguyễn Thu Hương1*, Trần Duy Minh1, Nguyễn Thu Huyền2
1Trường Đại học Công nghệ thông tin & Truyền thông – ĐH Thái Nguyên,
2Đại học Nội vụ Hà Nội
TÓM TẮT
Phân tích dữ liệu và xử lý thống kê thông tin sao cho có hiệu quả là một trong những vấn đề đã và
được nhiều nhà khoa học quan tâm. Từ các số liệu thống kê chúng ta phân tích nhằm thu được các
thông tin hữu ích cho người sử dụng đồng thời từ đó dự báo các số liệu tương lai là một trong
những bài toán đã được nhiều nhà khoa học quan tâm. Nhằm giải quyết bài toán này, trong thời
gian gần đây các người ta quan tâm đến các phương pháp tính toán thông tin kết hợp với hệ thống
thông tin địa lý để phân tích và dự báo các số liệu thống kê. Trong bài báo này, nhóm nghiên cứu
của chúng tôi đề xuất một mô hình kết hợp giữa phân cụm bán g...
8 trang |
Chia sẻ: quangot475 | Lượt xem: 263 | Lượt tải: 0
Bạn đang xem nội dung tài liệu Ứng dụng phân cụm bán giám sát mờ trong phân tích và dự báo dữ liệu sản lượng cây nông nghiệp tỉnh Thái Nguyên, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
Nguyễn Thu Hương và Đtg Tạp chí KHOA HỌC & CÔNG NGHỆ 189(13): 23 - 30
23
ỨNG DỤNG PHÂN CỤM BÁN GIÁM SÁT MỜ TRONG PHÂN TÍCH VÀ DỰ
BÁO DỮ LIỆU SẢN LƯỢNG CÂY NÔNG NGHIỆP TỈNH THÁI NGUYÊN
Nguyễn Thu Hương1*, Trần Duy Minh1, Nguyễn Thu Huyền2
1Trường Đại học Công nghệ thông tin & Truyền thông – ĐH Thái Nguyên,
2Đại học Nội vụ Hà Nội
TÓM TẮT
Phân tích dữ liệu và xử lý thống kê thông tin sao cho có hiệu quả là một trong những vấn đề đã và
được nhiều nhà khoa học quan tâm. Từ các số liệu thống kê chúng ta phân tích nhằm thu được các
thông tin hữu ích cho người sử dụng đồng thời từ đó dự báo các số liệu tương lai là một trong
những bài toán đã được nhiều nhà khoa học quan tâm. Nhằm giải quyết bài toán này, trong thời
gian gần đây các người ta quan tâm đến các phương pháp tính toán thông tin kết hợp với hệ thống
thông tin địa lý để phân tích và dự báo các số liệu thống kê. Trong bài báo này, nhóm nghiên cứu
của chúng tôi đề xuất một mô hình kết hợp giữa phân cụm bán giám sát mờ với hệ thống thông
tin địa lý để phân tích và dự báo số liệu thống kê. Trong đó kỹ thuật phân cụm bán giám sát mờ sử
dụng để phân tích số liệu thống kê, hệ thống thông tin địa lý dùng để dự báo các số liệu thống kê.
Trên cơ sở mô hình mới đề xuất chúng tôi thực nghiệm với dữ liệu thực tế về một số chỉ số về sản
lượng cây nông nghiệp của tỉnh Thái Nguyên.
Keywords: Dữ liệu thống kê, dự báo, thông tin địa lý, phân cụm mờ, phân cụm bán giám sát, độ
đo, sản lượng cây nông nghiệp
GIỚI THIỆU*
Khai phá dữ liệu là một khái niệm ra đời vào
cuối những năm 1980. Nó là quá trình khám
phá thông tin ẩn được tìm thấy trong các cơ
sở dữ liệu (CSDL) và có thể xem là một bước
trong quá trình khám phá tri thức. Khai phá
dữ liệu là giai đoạn quan trọng nhất trong tiến
trình khai phá tri thức từ CSDL, các tri thức
này sẽ hỗ trợ trong việc ra quyết định trong
các lĩnh vực như: khoa học, giáo dục, kinh
doanh, dự báo,
Trong những năm trở lại, đây việc nghiên cứu
về khai phá dữ liệu đã có xu hướng chuyển
từ cơ sở dữ liệu quan hệ và cơ sở dữ liệu giao
dịch sang cơ sở dữ liệu không gian [12, 17].
Sự thay đổi này không những giúp hiểu được
dữ liệu không gian mà còn giúp khám phá
được mối quan hệ giữa dữ liệu không gian và
phi không gian, các mô hình dựa trên tri thức
không gian, phương pháp tối ưu câu truy vấn,
tổ chức dữ liệu trong cơ sở dữ liệu không
gian, ... Khai phá dữ liệu không gian được sử
dụng nhiều trong các hệ thống thông tin địa lý
(GIS) [5], viễn thám [16], khai phá dữ liệu
*
Email: nthuong@ictu.edu.vn
ảnh, ảnh y học [1], Khám phá tri thức từ dữ
liệu không gian có thể được thực hiện dưới
nhiều hình thức khác nhau như sử dụng các
quy tắc đặc trưng và quyết định, trích rút và
mô tả các cấu trúc hoặc cụm nổi bật, kết hợp
không gian,
Các dữ liệu về kinh tế, xã hội, môi trường
đều gắn với các địa phương, tức là các dữ liệu
địa lý, và nhiều bài toán thực tế đòi hỏi phải
khai phá dữ liệu. Có nhiều phương pháp khai
phá dữ liệu, trong đó phân cụm là một
phương pháp được sử dụng khá nhiều. Hiện
nay đã có nhiều cách tiếp cận thuật toán phân
cụm khác nhau như: dựa trên phân hoạch,
phân cấp, dựa trên lưới, dựa trên mật độ hay
dựa trên mô hình [6,18], dựa trên đồ thị và
phân cụm dữ liệu địa lý là một hướng nghiên
cứu nhiều triển vọng.
Trong các phương pháp phân cụm bao gồm
phân cụm có giám sát, phân cụm không giám
sát và phân cụm bán giám sát thì các thuật
toán phân cụm bán giám sát, đặc biệt là phân
cụm bán giám sát mờ rất hiệu quả trong các
lĩnh vực như xử lý ảnh [4, 6, 9], nhận dạng
mẫu, nhận dạng khuôn mặt [1, 7], đánh giá rủi
ro [3], dự báo phá sản [8]. Trong báo cáo này,
Nguyễn Thu Hương và Đtg Tạp chí KHOA HỌC & CÔNG NGHỆ 189(13): 23 - 30
24
nhóm tác giả đề cập đến các thuật toán phân
cụm bán giám sát mờ với dữ liệu thông tin về
một số chỉ số về sản lượng cây nông nghiệp
trên địa bàn tỉnh Thái Nguyên. Trên cơ sở tìm
hiểu nắm vững kỹ thuật xử lý dữ liệu không
gian và vận dụng được vào chương trình thực
hiện thuật toán phân cụm bán giám sát mờ với
dữ liệu không gian, chúng tôi sẽ áp dụng với
các dữ liệu thực tế, phân tích diễn giải ý nghĩa
kết quả phân cụm bán giám sát mờ. Do vậy,
đóng góp chính của bài báo đã đưa ra một mô
hình kết hợp phân cụm bán giám sát mờ với
hệ thống thông tin địa lý (GIS: geographic
information system) để phân tích và dự báo
các số liệu thống kê thông qua việc thu thập
các số liệu thống kê về sản lượng cây lương
thực có hạt phân theo huyện/thị xã/thành phố
của tỉnh Thái Nguyên từ 2011 đến 2015, từ đó
cài đặt thực nghiệm mô hình đề xuất với các
số liệu thống kê thu thập được.
Ý nghĩa của nghiên cứu này đưa ra một mô
hình hiệu quả trong việc phân tích các số liệu
thống kê để từ đó dự báo số liệu trong thời
gian sắp tới. Quá trình phân tích và dự báo
này có ý nghĩa rất lớn với nhà quản lý và
doanh nghiệp để hoạch định các chiến lược
phát triển nông nghiệp tại tỉnh Thái Nguyên
trong thời gian tiếp theo.
Trong các phần tiếp theo của báo cáo chúng
tôi trình bày như sau: phần 2, trình bày về các
kiến thức cơ sở bao gồm kiến thức về phân
cụm bán giám sát mờ và kiến thức về dữ liệu
địa lý. Phần 3 đưa ra mô hình kết hợp giữa
phân cụm bán giám sát mờ với hệ thống
thông tin địa lý để phân tích và dự báo số liệu
thống kê. Phần 4 là một số kết quả thực
nghiêm mô hình kết hợp đề xuất dựa trên bộ
dữ liệu thực tế. Cuối cùng là kết luận và các
hướng phát triển trong thời gian tới.
KIẾN THỨC CƠ SỞ
Phân cụm
Phân cụm dữ liệu [2] là quá trình nhóm một
tập các phần tử dữ liệu trong tập dữ liệu vào
các cụm sao cho các phần tử dữ liệu thuộc
cùng một cụm là tương đồng cao, còn các
phần tử dữ liệu thuộc các cụm khác nhau sẽ
tương đồng thấp.
Phân cụm dữ liệu cứng là phương pháp phân
cụm mà mỗi phần tử thuộc CSDL chỉ thuộc
vào đúng một cụm. Còn trong phân cụm dữ
liệu mờ, mỗi phần tử dữ liệu có thể thuộc vào
nhiều hơn một cụm và tương ứng với các
điểm dữ liệu là ma trận độ thuộc, với các giá
trị phần tử của ma trận này sẽ chỉ ra mức độ
các phần tử dữ liệu thuộc vào các cụm khác
nhau [2].
Phân cụm mờ
Thuật toán phân cụm mờ (Fuzzy C-Means
clustering – FCM) được Bezdek [2] đề xuất dựa
trên độ thuộc ukj của phần tử dữ liệu Xk từ cụm
j. Hàm mục tiêu được xác định như sau:
min
1
2
1
N
k
jk
C
j
m
kj VXuJ (1)
+ m là số mờ hóa
+ C là số cụm, N là số phần tử dữ liệu, r là số
chiều của dữ liệu.
+ ukj là độ thuộc của phần tử dữ liệu Xk vào
cụm j.
+
r
k RX là phần tử thứ k của dữ liệu
NXXXX ,...,, 21 .
+ Vj là tâm của cụm j.
Khi đó ràng buộc của bài toán là:
Nkuu kj
C
j
kj ,1;1,0;1
1
(2)
Giải bài toán tối ưu (1)-(2) bằng phương pháp
Lagrange ta xác định được nghiệm tối ưu bao
gồm tâm của cụm dựa vào phương trình (3) và
độ thuộc dựa vào phương trình (4) dưới đây:
(3)
C
i
m
ik
jk
kj
VX
VX
u
1
1
1
1
(4)
Nguyễn Thu Hương và Đtg Tạp chí KHOA HỌC & CÔNG NGHỆ 189(13): 23 - 30
25
Khi đó các bước của thuật toán FCM được
trình bày trong bảng 1.
Bảng 1. Fuzzy C-Means clustering
Input Tập dữ liệu X gồm N phần tử
trong không gian r chiều; số cụm
C; số mờ hóa m; ngưỡng ; số
lần lặp lớn nhất MaxStep>0.
Output Ma trận U và tâm cụm V.
FCM
Bước 1: Đặt t=0
Bước 2: CjNkrandomu tkj ,1;,1; thỏa
mãn điều kiện (2)
Bước 3 : Repeat
t=t+1
Tính
CjV tj ,1; bởi công thức (3)
Tính
CjNku tkj ,1;,1; bởi công
thức (4)
Bước 4 : Until
1tt UU hoặc t >
MaxStep
Phân cụm bán giám sát mờ
Thông tin bổ trợ: Các thuật toán phân cụm
bán giám sát mờ xây dựng dựa trên các thuật
toán phân cụm mờ kết hợp với các thông tin
bổ trợ được người dùng cung cấp. Các thông
tin bổ trợ nhằm mục đích hướng dẫn, giám sát
và điều khiển quá trình phân cụm. Thông tin
bổ trợ thường được xây dựng dựa trên 3 loại
cơ bản [15] là :
+ Các ràng buộc Must-link và Cannot-link:
Ràng buộc Must-link yêu cầu 2 phần tử nên
thuộc vào cùng 1 cụm, ngược lại ràng buộc
Cannot-link chỉ ra 2 phần tử không nên thuộc
cùng 1 cụm.
+ Các nhãn lớp của một phần dữ liệu: Một
phần của dữ liệu được gán nhãn và phần còn
lại không được gán nhãn.
+ Độ thuộc được xác định trước.
Thuật toán phân cụm bán giám sát mờ
chuẩn (Semi-Supervised Standard Fuzzy
Clustering-SSSFC)
Yasunori et al. [14] đã đề xuất một thuật toán
phân cụm bán giám sát mờ. Khi đó hàm mục
tiêu [14] được xác định như sau:
2
1 1
( , ) | | || || min
N C
m
kj kj k j
k j
J U V u u X V
(5)
Với điều kiện ràng buộc (2), khi đó hàm độ
thuộc bổ trợ của phần tử
kX với cụm jC là
1,0kju đồng thời thỏa mãn:
CjNkuuU kjkj ,1,,1,1,0| ,
1
1
C
j
kju , Nk ,1
Khi đó dựa vào điều kiện (2) và hàm mục tiêu
(5) chúng ta có
1
1
, 1,C
N
m
kj kj k
k
j N
m
kj kj
k
u u X
V j
u u
(6)
Và kju được xác định theo 2 trường hợp sau
- 1m :
C
i
m
ik
m
jk
C
i
kjkjkj
VX
VX
uuu
1
1
2
1
2
1
1
1
1
,
Nk ,1 , Cj ,1 . (7)
- 1m :
.,
minarg,1
1
2
otherwiseu
VXkuu
u
kj
C
j
ik
i
kjkj
kj
,
Nk ,1 , Cj ,1 . (8)
Các bước thực hiện thuật toán SSSFC được
mô tả cụ thể trong bảng 2 dưới đây:
Bảng 2. Semi-Supervised Standard Fuzzy Clustering
Input Tập dữ liệu X gồm N phần tử , số
cụm C, ma trận độ thuộc bổ trợ U ,
ngưỡng , số lần lặp tối đa maxStep
> 0.
Output Ma trận U và tâm cụm V.
SSSFC
Bước 1: Đặt t = 0
Bước 2: Khởi tạo ngẫu nhiên
)(t
jV ; ( Cj ,1 )
Bước 3: Repeat
Nguyễn Thu Hương và Đtg Tạp chí KHOA HỌC & CÔNG NGHỆ 189(13): 23 - 30
26
Tính U
(t)
bởi kju ( Nk ,1 ; Cj ,1 ) theo
công thức (7) với 1m hoặc công thức (8)
với 1m .
t = t + 1
Tính
)1( t
jV ( Cj ,1 ) bởi công thức (6)
Bước 4: Until )1()( tt VV hoặc t >
maxStep
Hệ thống thông tin địa lý và dữ liệu địa lý.
Hệ thống thông tin địa lý
Hệ thống thông tin địa lý (Geographical
Information System – GIS) là tập hợp các
công cụ để thu thập, lưu trữ, chỉnh sửa, truy
cập, phân tích và cập nhật các thông tin địa lý
cho một mục đích chuyên biệt. Ngoài ra cũng
có nhiều định nghĩa khác về GIS [11].
Dữ liệu địa lý.
Dữ liệu địa lý là dữ liệu bao gồm dữ liệu
không gian và dữ liệu thuộc tính [19] được
kết hợp với nhau một cách tương ứng.
Dữ liệu không gian là những mô tả số của
các đối tượng thực tế được thể hiện hình ảnh
bản đồ [19]. Đó có thể là thửa đất, con đường,
sông ngòi, hồ ao, rừng núi, tòa nhà, sân bay,
bến cảng .. Chúng bao gồm toạ độ, quy
luật và các ký hiệu dùng để thể hiện thành
một hình ảnh cụ thể trên bản đồ. Hệ thống
thông tin địa lý dùng các dữ liệu không gian
để tạo ra một bản đồ hay hình ảnh bản đồ trên
màn hình hoặc trên giấy thông qua thiết bị
ngoại vi, v.v.
Có hai mô hình dữ liệu không gian được sử
dụng đồng thời trong hệ thống thông tin địa lý,
là mô hình vector và mô hình raster. Mỗi mô
hình có những ưu điểm và nhược điểm riêng.
Mô hình vector: Mô tả vị trí và phạm vi của
các đối tượng không gian bằng tọa độ cùng
các kết hợp hình học gồm các điểm nút, các
cung trên đường biên, các vùng mặt phẳng và
quan hệ giữa chúng. Về mặt hình học, các đối
tượng được phân biệt thành 3 dạng: đối tượng
dạng điểm (point) được xác định bằng một
cặp tọa độ (X,Y), đối tượng dạng đường (line)
là một chuỗi các cặp tọa độ (X,Y) liên tục và
đối tượng dạng vùng (region hay polygon) là
khoảng không gian được giới hạn bởi một tập
hợp các cặp tọa độ (X,Y) trong đó điểm đầu và
điểm cuối trùng nhau. Với đối tượng vùng, mô
hình vector phản ánh đường bao của vùng [19].
Mô hình raster: Có thể hiểu đơn giản là một
“ảnh” chứa các thông tin về một chuyên đề.
Nó mô hình hóa bề mặt trái đất và các đối
tượng trên đó bằng một lưới (đều hoặc không
đều) gồm các hàng và cột. Những phần tử nhỏ
này gọi là những pixel hay cell. Giá trị của
pixel là thuộc tính của đối tượng [19]. Kích
thước pixel càng nhỏ thì đối tượng càng được
mô tả chính xác. Một mặt phẳng chứa đầy các
pixel tạo thành raster.
Dữ liệu thuộc tính diễn tả các đặc tính của
các đối tượng thực tế được thể hiện trên bản
đồ [11]. Dữ liệu thuộc tính có thể là định tính
- mô tả chất lượng như xếp hạng độ màu mỡ
của thửa đất, mức độ phát triển kinh tế một
tỉnh... hay là định lượng như chiều dài đoạn
đường, diện tích thửa đất, độ sâu hồ nước,
dân số của một đơn vị hành chính (xã, huyện,
tỉnh..) cụ thể.
Về nguyên tắc, số lượng các thuộc tính của
một đối tượng là không có giới hạn. Để quản
lý dữ liệu thuộc tính của các đối tượng địa lý
trong CSDL, GIS đã sử dụng phương pháp
gán các giá trị thuộc tính cho các đối tượng
thông qua các bảng số liệu. Mỗi bản ghi đặc
trưng cho một đối tượng địa lý, mỗi cột của
bảng tương ứng với một kiểu thuộc tính của
đối tượng đó.
Thông thường hệ thống thông tin địa lý có 4
loại số liệu thuộc tính [11]: Đặc tính của đối
tượng; Số liệu hiện tượng, tham khảo địa lý;
Chỉ số địa lý; Quan hệ giữa các đối tượng
trong không gian.
LƯỢC ĐỒ TỔNG QUÁT CỦA PHÂN CỤM
DỮ LIỆU ĐỊA LÝ
Đề xuất sơ đồ tổng quan
Trong Hình 1 nhóm tác giả đề xuất một mô
hình kết hợp giữa phân cụm bán giám sát mờ
với mô hình hệ thống thông tin địa lý để phân
Nguyễn Thu Hương và Đtg Tạp chí KHOA HỌC & CÔNG NGHỆ 189(13): 23 - 30
27
tích và dự báo số liệu thống kê. Trong mô
hình này, chúng tôi sử dụng phân cụm bán
giám sát mờ để phân chia dữ liệu ban đầu
thành các cụm có cùng đặc tính. Sau khi phân
cụm sau, kết hợp với các thuộc tính không
gian biểu diễn dữ liệu trên bản đồ, phân tích
sự xếp chồng nhau để dự báo dữ liệu trong
thời gian tới.
Hình 1. Sơ đồ tổng quát
Phân tích tích dữ liệu bằng phân cụm
Với dữ liệu đầu vào cần phân tích, nhóm tác
giả sử dụng thuật toán FCM phân cụm thu
được ma trận độ thuộc, lấy ma trận độ thuộc
của thuật toán FCM làm thông tin bổ trợ của
phân cụm bán giám sát mờ.
- Bước 1: Từ dữ liệu đầu vào, sử dụng thuật
toán phân cụm FCM, xác định ma trận độ
thuộc của các điểm dữ liệu vào các cụm.
- Bước 2: Tại mỗi điểm dữ liệu gán giá trị của
cụm có độ thuộc nhỏ nhất bằng 0. Khi đó ta
thu được ma trận thông tin bổ trợ.
Sau khi có thông tin bổ trợ, sử dụng phân cụm
bán giám sát mờ (SSSFC) để phân tích dữ
liệu. Khi đó thông tin đầu vào của phân cụm
bán giám sát mờ là dữ liệu phân tích và thông
tin bổ trợ thu được từ quá trình phân tích trên.
Sử dụng GIS để dự báo
Dựa trên các dữ liệu phân tích số liệu của
từng vùng với các mức độ khác nhau (trong
các cụm khác nhau). Dựa trên các dữ liệu
không gian kết hợp với các số liệu phân tích
hàng năm hiện thị các mức độ của các khu
vực theo từng năm dựa trên công nghệ
ArcGIS. Xếp chồng các mức độ phân bố theo
thời gian để phân tích sự phát triển trong các
năm đã qua từ đó dự báo cho năm tiếp theo.
KẾT QUẢ ĐÁNH GIÁ
Chuẩn bị dữ liệu vào:
Dữ liệu địa lý:
Dữ liệu không gian cần chuẩn bị là dữ liệu
không gian của tỉnh Thái Nguyên chi tiết đến
các Huyện/Thị xã/Thành phố gồm các lớp dữ
liệu sau: 1/ Lớp ranh giới tỉnh; 2/ Lớp ranh
giới Huyện.
Dữ liệu thuộc tính:
Trong báo cáo này sẽ sử dụng dữ liệu sản lượng
cây lương thực có hạt phân theo huyện/thị
xã/thành phố của tỉnh Thái Nguyên được lấy từ
nguồn niên giám thống kê của Chi cục thống kê
tỉnh Thái Nguyên năm 2016.
Tập tin bao gồm các dòng và các cột. Vị trí
với dòng và cột thể hiện dữ liệu tương ứng:
dòng là số đối tượng huyện/thị xã/thành phố,
cột là số liệu sản lượng cây lương thực có hạt
của các huyện/thị xã/thành phố thuộc tỉnh
Thái Nguyên tương ứng với các năm số liệu
được thống kê.
Các kết quả thực nghiệm
Kết quả phân tích số liệu của sản lượng cây
lương thực có hạt hàng năm với phân tích
phân cụm với số cụm là 3 tương ứng với mức
độ ở các khu vực: cao, trung bình, thấp. Giá
trị trung tâm của các mức được xác định ở các
tâm cụm (theo bảng 3).
Bảng 3. Kết quả xác định tâm của phân cụm
Cụm 2012 2013 2014 2015 2016
1 21,578 30,018 29,193 31,457 32,240
2 37,972 49,999 49,294 52,313 51,924
3 62,927 68,218 69,902 72,661 72,799
Dữ liệu vào và tham số
Phân tích dữ liệu bằng phân cụm bán giám sát mờ
Sử dụng GIS dự báo từ dữ liệu phân tích
Kết quả dự báo
Nguyễn Thu Hương và Đtg Tạp chí KHOA HỌC & CÔNG NGHỆ 189(13): 23 - 30
28
Bảng 4. Kết quả phân cụm
Từ kết quả phân cụm (bảng 4) dựa vào số liệu
sản lượng cây lương thực có hạt hàng năm
của các huyện/thị xã/thành phố, dựa vào
thông tin không gian của các huyện/thị
xã/thành phố trên bản đồ tỉnh Thái Nguyên
xây dựng được bản đồ phân bổ sản lượng cây
nông nghiệp có hạt của các huyện/thị
xã/thành phố trong các năm 2012 đến năm
2016 (kết quả phân bố trong hình 2). Xây
dựng bản đồ xếp chồng theo thời gian từ năm
2012 đến năm 2015 ta có được bản đồ dự báo
sản lượng cây nông nghiệp có hạt của năm
tiếp theo (kết quả phân bố trong hình 2) từ đó
ta dự báo được sản lượng cây nông nghiệp có
hạt có thể đạt được ở mức nào. Ví dụ: sản
lượng cây nông nghiệp có hạt của huyện Đại
Từ trong các năm 2012 đến năm 2015 luôn ở
mức cao (trên bản đồ phân bố là màu đỏ) vậy
dự báo sản lượng cây nông nghiệp có hạt của
huyện Đại Từ trong năm tiếp theo năm 2016
vẫn ở mức cao (trên bản đồ dự báo là màu đỏ)
điều này là phù hợp với bản đồ phân bố thực
tế năm 2016; sản lượng cây nông nghiệp có
hạt của huyện Võ Nhai năm 2012 (trên bản đồ
phân bổ là màu xanh nhạt) ở mức thấp, nhưng
các năm 2013, 2014 và 2016 ở mức trung
bình (trên bản đồ phân bổ là màu xanh thẫm)
vậy dự báo sản lượng cây nông nghiệp có hạt
của huyện Võ Nhai năm tiếp theo (2016) ở
mức trung bình (trên bản đồ dự báo là màu
xanh thẫm) phù hợp với bản đồ phân bố thực
tế 2016. Từ các kết quả dự báo phân bố sản
lượng cây lương thực có hạt của các huyện/thị
xã/thành phố trên bản đồ thu được so với các
kết quả thực tế của Chi cục thống kê tỉnh Thái
Nguyên của năm 2016 là hoàn toàn trùng khớp.
Bản đồ phân bố năm 2012
Bản đồ phân bố năm 2013
Bản đồ phân bố năm 2014
Bản đồ phân bố năm 2015
Nguyễn Thu Hương và Đtg Tạp chí KHOA HỌC & CÔNG NGHỆ 189(13): 23 - 30
29
Bản đồ dự báo phân bố năm 2016
Bản đồ phân bố năm 2016
Hình 2. Kết quả phân bổ các năm
và dự báo trên GIS
KẾT LUẬN
Trong bài báo này chúng tôi đã đề xuất ứng
dụng của phương pháp phân cụm mờ và phân
cụm bán giám sát mờ áp dụng trong việc phân
tích dữ liệu địa lý. Những đóng góp chính của
nhóm nghiên cứu là: i) Xây dựng được mô
hình tổng quát ứng dụng phân cụm mờ bán
giám sát áp dụng vào phân tích số liệu thông
tin địa lý; ii) Đã cài đặt thực nghiệm thuật
toán SSSFC để phân tích số liệu thống kê về
sản lượng cây lương thực có hạt. iii)Từ các số
liêu phân tích ở phân cụm xây dựng các bản
đồ phân bố sản lượng cây lương thực có hạt
cho các huyện/thị xã/thành phố của tỉnh Thái
Nguyên trong các năm 2012-2015 từ đó dự
báo về mức độ sản lượng của cây lương thực
có hạt của tỉnh Thái Nguyên cho các năm tiếp
theo. Kết quả này cũng có thể được áp dụng
cho tập dữ liệu GIS thuộc các lĩnh vực khác.
TÀI LIỆU THAM KHẢO
1. Agarwal, M., Agrawal, H., Jain, N., & Kumar,
M. (2010). Face recognition using Principle
component analysis, and neural network
eigenface. Print Signal Acquisition and
Processing, 2010. ICSAP'10. International
Conference on (pp. 310-314). IEEE.
2. Bezdek, JC (1981). Pattern recognition
Algorithms with fuzzy objective function. Kluwer
Academic Publishers.
3. Chen, J., Zhao, S., & Wang, H. (2011). Risk
analysis of flood disaster based on fuzzy clustering
method. Energy Procedia, 5, 1915-1919.
4. Chuang, KS, Tzeng, HL, Chen, S., Wu, J., &
Chen, TJ (2006). Fuzzy c-means clustering with
spatial information for image segmentation.
Computerized medical imaging and graphics, 30
(1), 9-15.
5. Hu, C., Meng, L., & Shi, W. (2008). Fuzzy
clustering validity for spatial data. Geo-spatial
information science, 11 (3), 191-196.
6. Li, J., Bioucas-Dias, JM, & Plaza, A. (2010).
Semisupervised hyperspectral image segmentation
using active learning with multinomial logistic
regression. Geoscience and Remote Sensing, IEEE
Transactions on, 48 (11), 4085-4098.
7. Lu, J., Yuan, X., & Yahagi, T. (2007). A
method of face recognition based on fuzzy c-
means clustering and associated sub-NNS.
Neural Networks, IEEE Transactions on, 18 (1),
pp. 150-160.
8. Martin, A., Gayathri, V., Saranya, G., Gayathri,
P., & Venkatesan, P. (2011). A hybrid model for
bankruptcy prediction using genetic algorithm,
fuzzy c-means for MARS. arXiv preprint arXiv:
1103.2110 .
9. Rezaee, MR, van der Zwet, PM, Lelieveldt, BP,
Van Der Geest, RJ, & Reiber, JH (2000). A
multiresolution image segmentation technique
based on fuzzy clustering and segmentation
pyramidal. Image Processing, IEEE Transactions
on, 9(7), 1238-1248.
10. Rousseeuw, PJ (1987). Silhouettes: a graphical
aid to the interpretation and validation of cluster
ana lysis. Journal of Computational and Applied
Mathematics, 20, 53-65.
11. Niên giám thống kê năm 2016 – Cục thống kê
tỉnh Thái Nguyên
12. Vendramin, L., Campello, RJ, & Hruschka,
ER (2010). Relative clustering validity criteria: A
comparative overview. Statistical Analysis and
Data Mining: The ASA Data Science Journal, 3
(4), 209-235.
Nguyễn Thu Hương và Đtg Tạp chí KHOA HỌC & CÔNG NGHỆ 189(13): 23 - 30
30
13. Xu, X., Xu, S., Jin, L., & Song, E. (2011).
Characteristic analysis of Otsu threshold and its
applications. Pattern recognition letters, 32 (7),
956-961.
14. Yasunori, E., Yukihiro, H., Makito, Y., &
Sadaaki, M. (2009, August). On semi-supervised
fuzzy c-means clustering. Print Fuzzy Systems,
2009. FUZZ-IEEE 2009 IEEE International
Conference on (pp. 1119-1124). IEEE.
15. Zhang, H., & Lu, J. (2009). Semi-supervised
fuzzy clustering: A kernel-based approach.
Knowledge-Based Systems, 22 (6), 477-481.
16. Le Hoang Son, Bui Cong Cuong, Hoang Viet
Long (2013), Spatial interaction – modification
model and applications to geo-demographic
analysis. Knowledge-Based Systems.
17. Le Hoang Son, Bui Cong Cuong, Pier Luca
Lanzi, Hoang Anh Hung (2011), Data Mining in
GIS: A Novel Context-Based Fuzzy
Geographically Weighted Clustering Algorithm,
International Journal of Machine Learning and
Computing.
18. Le Hoang Son, Bui Cong Cuong, Pier Luca
Lanzi, Nguyen Tho Thong (2012), A Novel
Intuitionistic Fuzzy Clustering Method for Geo-
Demographic Analysis, Expert Systems with
Applications.
19. TS. Lê Hoàng Sơn, Nguyễn Thọ Thông
(2015), Giáo trình lập trình ứng dụng WebGIS,
Nhà xuất bản giáo dục.
ABSTRACT
APPLICATION OF MONITORING FOR SALES IN ANIMAL AND FOREST
RESOURCES OF THAI NGUYEN AGRICULTURAL PRODUCT
Nguyen Thu Huong
1*
, Tran Duy Minh
1
, Nguyen Thu Huyen
2
1University of Information and Comminication Technology - TNU
2Ha Noi University of Home Affair
Data analysis and data processing is one of the issues that many and many scientists are concerned
about. From the statistics we analyze to obtain useful information for the user and at the same time
forecast future data is one of the problems that many scientists have been interested in. To solve
this problem, recently people have been interested in computational methods combined with
Geographic Information Systems (GIS) for statistical analysis and forecasting. In this paper, we
introduce a novel model based on the combination between semi-supervised fuzzy clustering and
GIS applied into analyzing and predicting problem. In which, semi-supervised fuzzy clustering is
used to analyze the given statistics data and GIS is used to predict the data in the near future. On
the basis of the new model, we experimented with the actual data on some indicators of
agricultural production in Thai Nguyen.
Keywords: Statistics data, Prediction, Fuzzy clustering, Validity indices, Semi-supervised
clustering, Geography Information System
Ngày nhận bài: 05/9/2018; Ngày hoàn thiện: 06/10/2018; Ngày duyệt đăng: 30/11/2018
*
Email: nthuong@ictu.edu.vn
Các file đính kèm theo tài liệu này:
- 120_148_1_pb_8028_2125105.pdf