Tài liệu Phân loại lớp phủ từ dữ liệu ảnh vệ tinh dựa trên phương pháp phân cụm phổ - Mai Đình Sinh: Nghiên cứu khoa học công nghệ
Tạp chí Nghiên cứu KH&CN quân sự, Số 50, 08 - 2017 153
PHÂN LOẠI LỚP PHỦ TỪ DỮ LIỆU ẢNH VỆ TINH
DỰA TRÊN PHƯƠNG PHÁP PHÂN CỤM PHỔ
Mai Đình Sinh1*, Đinh Văn Hội2,3
Tóm tắt: Phân cụm ảnh là tìm ra các cấu trúc nhóm có những đặc tính tương
đồng để tạo thành cụm. Có nhiều phương pháp phân cụm khác nhau nhưng hầu hết
đều cùng chiến lược là dựa vào sự khác nhau về màu sắc để phân chia các điểm
ảnh về các cụm. Do tính chất phức tạp của dữ liệu ảnh vệ tinh là thông tin trên ảnh
thường bị chồng lấp nhau và hình dạng phức tạp của các đối tượng trên ảnh, do đó,
việc sử dụng các phương pháp truyền thống như tổ hợp màu, phân ngưỡng, có ưu
điểm dễ cài đặt nhưng có độ chính xác thấp. Phân cụm phổ là phương pháp phân
cụm dựa trên lý thuyết về đồ thị, có khả năng phân loại tốt các dữ liệu mà có cấu
trúc và hình dạng phức tạp như dữ liệu trên ảnh vệ tinh. Do yêu cầu tác chiến hiện
nay, người chỉ huy cần phải có những thông tin tức thời về hình thá...
9 trang |
Chia sẻ: quangot475 | Lượt xem: 690 | Lượt tải: 0
Bạn đang xem nội dung tài liệu Phân loại lớp phủ từ dữ liệu ảnh vệ tinh dựa trên phương pháp phân cụm phổ - Mai Đình Sinh, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
Nghiên cứu khoa học công nghệ
Tạp chí Nghiên cứu KH&CN quân sự, Số 50, 08 - 2017 153
PHÂN LOẠI LỚP PHỦ TỪ DỮ LIỆU ẢNH VỆ TINH
DỰA TRÊN PHƯƠNG PHÁP PHÂN CỤM PHỔ
Mai Đình Sinh1*, Đinh Văn Hội2,3
Tóm tắt: Phân cụm ảnh là tìm ra các cấu trúc nhóm có những đặc tính tương
đồng để tạo thành cụm. Có nhiều phương pháp phân cụm khác nhau nhưng hầu hết
đều cùng chiến lược là dựa vào sự khác nhau về màu sắc để phân chia các điểm
ảnh về các cụm. Do tính chất phức tạp của dữ liệu ảnh vệ tinh là thông tin trên ảnh
thường bị chồng lấp nhau và hình dạng phức tạp của các đối tượng trên ảnh, do đó,
việc sử dụng các phương pháp truyền thống như tổ hợp màu, phân ngưỡng, có ưu
điểm dễ cài đặt nhưng có độ chính xác thấp. Phân cụm phổ là phương pháp phân
cụm dựa trên lý thuyết về đồ thị, có khả năng phân loại tốt các dữ liệu mà có cấu
trúc và hình dạng phức tạp như dữ liệu trên ảnh vệ tinh. Do yêu cầu tác chiến hiện
nay, người chỉ huy cần phải có những thông tin tức thời về hình thái khu vực tác
chiến để có phương án bố trí công sự, trận địa hợp lý. Bài báo giải quyết vấn đề
phân loại nhanh lớp phủ ảnh vệ tinh dựa trên phương pháp phân cụm phổ phục vụ
công tác ngụy trang.
Từ khóa: Phân cụm phổ, Ảnh vệ tinh, Fuzzy c-means, Phân loại lớp phủ.
1. ĐẶT VẤN ĐỀ
Viễn thám là một lĩnh vực khoa học giúp thu thập thông tin về các đối tượng trên bề
mặt trái đất mà không cần tiếp xúc trực tiếp với chúng, nguyên lý cơ bản của viễn thám đó
là đặc trưng phản xạ hay bức xạ của các đối tượng tự nhiên tương ứng với từng giải phổ
khác nhau [2]. Ảnh viễn thám có ưu điểm là phủ trùm trên một khu vực rộng lớn, dữ liệu
ảnh được cập nhật thường xuyên và một số loại ảnh vệ tinh được cung cấp miễn phí trên
mạng internet. Dữ liệu ảnh vệ tinh khó phân cụm một cách hiệu quả do sự chồng lấp và
hình thù phức tạp của các đối tượng trên ảnh [3].
Hơn nữa, sự lựa chọn các thuật toán phân cụm phụ thuộc vào dữ liệu được khám phá,
chất lượng của lời giải phân cụm cũng bị ảnh hưởng bởi độ đo sử dụng để đánh giá sự
tương tự (khoảng cách) giữa các điểm ảnh. Cho đến nay, đã có nhiều công trình nghiên
cứu bài toán phân loại đối tượng trên ảnh vệ tinh với nhiều phương pháp khác nhau [5, 7].
Những nghiên cứu trong và ngoài nước phân loại lớp phủ trên ảnh vệ tinh cho thấy,
phương pháp sử dụng ảnh viễn thám để thành lập bản đồ hiện trạng lớp phủ đất có hiệu
quả lớn. Với ưu điểm là diện tích phủ rộng, dữ liệu ảnh phong phú, thời gian chụp lặp lại
tại một khu vực có thể trong vài ngày, không tốn nhiều thời gian, công sức cũng như chi
phí so với các phương pháp khác, công nghệ viễn thám có thể được sử dụng hiệu quả trong
xây dựng bản đồ hiện trạng lớp phủ trên phạm vi rộng lớn một cách nhanh chóng, nhằm hỗ
trợ người chỉ huy lập các phương án ngụy trang hợp lý, giảm thiểu thương vong về con
người và vũ khí trang bị.
Đối với các vùng mà ranh giới không rõ ràng thì kết quả phân loại bằng các thuật toán
thống kê truyền thống thường không đảm bảo thời gian và kinh phí, thậm chí không phân
loại được với những khu vực rừng núi hiểm trở, do vậy, kết quả phân loại lớp phủ thường
có độ chính xác thấp. Phương pháp sử dụng ảnh vệ tinh kết hợp với các số liệu đo đạc thực
địa có độ chính xác cao nhưng chi phí xây dựng bản đồ lớp phủ lớn và tốn nhiều thời gian
và không thể đáp ứng tức thời trong điều kiện tác chiến hiện nay.
Thông tin về địa hình, địa vật đặc biệt có ý nghĩa và quan trọng trong lĩnh vực quốc
phòng - an ninh. Do đặc điểm các vệ tinh có thể thu thập thông tin về các đối tượng trên bề
mặt trái đất mà không cần tiếp xúc trực tiếp với chúng, đặc biệt những khu vực rừng núi
Công nghệ thông tin & Cơ sở toán học cho tin học
M. Đ. Sinh, Đ. V. Hội, “Phân loại lớp phủ từ dữ liệu ảnh phương pháp phân cụm phổ.” 154
hiểm trở, công việc đo đạc khó hoặc không thể thực hiện được, đây cũng là lý do chính để
tác giả thực hiện nghiên cứu này.
Trong bài báo này, tác giả đề xuất phương pháp phân loại lớp phủ từ dữ liệu ảnh vệ tinh
Landsat dựa trên thuật toán phân cụm phổ. Để đánh giá hiệu quả và độ chính xác của
phương pháp đề xuất, chúng tôi sử dụng một số chỉ số được sử dụng phổ biến hiện nay để
đánh giá chất lượng của kết quả phân cụm với một số thuật toán phân cụm phổ biến hiện
nay như k-Means, iso-data, fuzzy c-means. Bài báo gồm 3 phần chính, Phần 1 đặt vấn đề;
Phần 2 cơ sở lý thuyết và phương pháp giải quyết; Phần 3 thực nghiệm và Phần 4 kết luận.
2. CƠ SỞ LÝ THUYẾT VÀ PHƯƠNG PHÁP GIẢI QUYẾT
2.1. Cơ sở lý thuyết
Phân cụm phổ là phương pháp phát hiện ra các cấu trúc nhóm trong tập dữ liệu, dựa
trên việc xem xét các điểm dữ liệu như là các nút của đồ thị liên thông, phương pháp này
được giới thiệu lần đầu tiên bởi Donath, Hoffman [10] và Fiedler [8]. Coi tập dữ liệu biểu
diễn dữ liệu ảnh vệ tinh đa phổ là 1 2, ,..., nx x x . Các cụm có thể được phát hiện dựa trên
độ đo mức độ tương tự giữa cấu trúc các cụm hoặc khoảng cách Eulidean trong không
gian màu [4]. Giả sử ta có tập dữ liệu n điểm ảnh 1 2{ , ,..., }nX x x x , ta đo độ tương tự
của từng cặp điểm ảnh ,i jx x và ký hiệu ma trận tương tự tương ứng là ij( )nxnS s , ma
trận này cho thấy mức độ tương đồng giữa các điểm ảnh. Trong phân cụm phổ thì giá trị
biểu thị mức độ tương tự giữa 2 điểm ảnh thường được tính dựa trên hàm Gaussian:
2
ij 2
(x ,x )
exp
i jd
s
. Với là tham số do người dùng định nghĩa, giá trị tối ưu là
giá trị mà cho kết quả phân cụm tốt nhất và ( , )i jd x x là khoảng cách trong không gian
màu giữa hai điểm ảnh ,i jx x . Giả sử ta coi tập dữ liệu là một đồ thị vô hướng
( , )G X S trong đó X là tập các đỉnh (điểm ảnh) và S là tập các cạnh. Khi đó,
ij( )nxnS s là ma trận trọng số của đồ thị, trong đó ij 0s nếu hai đỉnh ,i jx x không liên
thông nhau và ij jis s do G là đồ thị vô hướng [9].
Xây dựng ma trận đường chéo D với giá trị các id miêu tả trọng số tại các nút của độ
thị: ( , )i
j
d s i j với j tương ứng là các chỉ số đỉnh kề với đỉnh i.
Xây dựng ma trận Laplace từ ma trận S và ma trận D ở trên: 1/2 1/2L D SD , ma
trận này sử dụng để trích xuất ra k cụm bởi việc tìm ra k véc tơ riêng với k giá trị riêng lớn
nhất.
Các bước thực hiện của thuật toán phân cụm phổ (SC):
1. Tham chiếu tập dữ liệu ban đầu vào không gian
nR .
2. Định nghĩa ma trận kề S , sử dụng hàm Gaussian: ij{ }S s .
3. Xây dựng đồ thị Laplacian L từ ma trận kề S: 1/2 1/2L D SD
4. Tìm giá trị riêng theo công thức Lv v .
Nghiên cứu khoa học công nghệ
Tạp chí Nghiên cứu KH&CN quân sự, Số 50, 08 - 2017 155
5. Lựa chọn k véc tơ riêng , 1,...,iv i k tương ứng với k giá trị riêng lớn nhất
, 1,...,i i k và định nghĩa không gian con k chiều.
6. Phân cụm trên tập dữ liệu trong không gian k chiều thành k cụm.
Thuật toán trên chuyển đổi không gian dữ liệu ban đầu vào không gian dữ liệu k chiều
(k chính là số cụm cần phải phân loại). Do các tính chất của đồ thị Laplace, những thay đổi
biểu diễn làm tăng khả năng phân cụm trong dữ liệu, đến mức các cụm có thể được phát
hiện dễ dàng trong biểu diễn mới. Và có thể sử dụng các thuật toán phân cụm thông
thường như thuật toán k-Means để phát hiện các cụm trong biểu diễn mới.
2.2. Áp dụng phương pháp phân cụm phổ phân loại lớp phủ ảnh vệ tinh
2.2.1. Dữ liệu ảnh vệ tinh
Ảnh viễn thám (ảnh vệ tinh): là ảnh số thể hiện các vật thể trên bề mặt trái đất được thu
nhận bởi các bộ cảm biến đặt trên vệ tinh. Nguyên lý cơ bản của viễn thám đó là đặc trưng
phản xạ hay bức xạ của các đối tượng tự nhiên tương ứng với từng giải phổ khác nhau. Kết
quả của việc giải đoán các lớp thông tin phụ thuộc rất nhiều vào sự hiểu biết về mối tương
quan giữa đặc trưng phản xạ phổ với bản chất, trạng thái của các đối tượng tự nhiên.
Những thông tin về đặc trưng phản xạ phổ của các đối tượng tự nhiên sẽ cho phép các nhà
chuyên môn chọn các kênh ảnh tối ưu, chứa nhiều thông tin nhất về đối tượng nghiên cứu,
đồng thời đây cũng là cơ sở để phân tích nghiên cứu các tính chất của đối tượng, tiến tới
phân loại chúng.
Dữ liệu ảnh vệ tinh thường có nhiều kênh ảnh khác nhau tương ứng với các bước sóng
phản xạ phổ khác nhau của các đối tượng trên mặt đất. Trong số đó, kênh đỏ và cận hồng
ngoại (kênh 3, 4 đối với ảnh Landsat TM, ETM+; kênh 4, 5 đối với ảnh Landsat 8) được
sử dụng để tính chỉ số thực vật (NDVI) [5] theo công thức sau:
NIR RED
NIR RED
NDVI
(1)
Trong đó, ρNIR, ρRED là phản xạ phổ tại các kênh cận hồng ngoại và đỏ.
Chỉ số thực vật có giá trị từ -1 đến +1, giá trị của NDVI cao cho biết khu vực có nhiều
thực vật. Tuy nhiên, chỉ số NDVI được tính toán chỉ trên 2 kênh ảnh trong số nhiều kênh
ảnh của ảnh vệ tinh, do đó, chỉ số này không phản ảnh được hết các thông tin bề mặt đất.
Thông thường người dùng sẽ phải sử dụng kết hợp chỉ số này với các phương pháp khác
như trích chọn trên ảnh, đo đạc ngoài thực địa,. Các phương pháp trên thường tốn rất
nhiều thời gian, đặc biệt những khu vực rừng núi, địa hình hiểm trở. Vì vậy, nhóm tác giả
đã đề xuất phương pháp sử dụng chỉ số thực vật NDVI cùng với với các kênh ảnh đa phổ
ảnh Landsat để phân loại tự động các đối tượng lớp phủ trên ảnh vệ tinh.
2.2.2. Phân loại lớp phủ ảnh vệ tinh
Để áp dụng phương pháp phân cụm phổ vào phân loại ảnh vệ tinh, cần phải chuyển các
dữ liệu ảnh vệ tinh thành dữ liệu đầu vào theo cấu trúc của thuật toán phân cụm phổ. Giả
sử ảnh vệ tinh Landsat có b kênh ảnh, trong nghiên cứu này, nhóm tác giả bổ sung thêm
dữ liệu ảnh chỉ số NDVI như là một kênh, như vậy, dữ liệu dùng để phân loại gồm có
1b kênh ảnh. Với sự bổ sung thêm thông tin về lớp phủ thực vật này có thể giúp việc
phân loại lớp phủ thực vật có thể tăng cường độ chính xác.
Bài toán cần phân tách tập n vectơ đối tượng dữ liệu 1 2{ , ,..., }nX x x x vào 6 nhóm
đối tượng, mỗi đối tượng , 0,...,ix i n là một vectơ có 1b thành phần. Bài toán cần
Công nghệ thông tin & Cơ sở toán học cho tin học
M. Đ. Sinh, Đ. V. Hội, “Phân loại lớp phủ từ dữ liệu ảnh phương pháp phân cụm phổ.” 156
xây dựng một đồ thị vô hướng mà các điểm là các đối tượng ix , xây dựng ma trận tương
tự theo phương pháp trình bày ở trên, đặt S là ma trận trọng số của nó:
2
ij 2
(x ,x )
exp
i jd
s
(2)
Tính ma trận Laplace L và tìm k véc tơ riêng có giá trị riêng lớn nhất
1 2, ,..., k của ma trận L :
1/2 1/2L D SD (3)
Đặt nxkE R là ma trận gồm các cột là các véc tơ 1 2, ,..., k , với 0,...,i n , đặt
k
iy R là véc tơ tương ứng với hàng thứ i của E . Lúc này, tập dữ liệu ban đầu trong
không gian 1b được chuyển về không gian mới 1,...,( )
k
i i nY y R và bài toán ban
đầu trở thành bài toán phân cụm trên tập dữ liệu Y.
Để phân cụm dữ liệu trên tập 1,...,( )
k
i i nY y R có nhiều phương pháp khác nhau từ
phân cụm rõ đơn thuần như k-Means và phát triển đến thuật toán phân cụm mờ loại một
Fuzzy c-Means (FCM) bởi James C.Bezdek (1984) [6], do đặc điểm dữ liệu ảnh vệ tinh
phức tạp hơn sơ với ảnh màu thông thường, vì vậy, tác giả lựa chọn thuật toán FCM để
phân cụm trên tập dữ liệu Y nhằm tăng cường hiệu quả phân loại lớp phủ. Bài toán phân
cụm FCM là bài toán tìm các độ thuộc iju nhằm tối thiểu hóa hàm mục tiêu:
2
ij
1 1
( , ) ,1
n k
m
ij
i j
J U v u d m
(4)
Trong đó:
+ ij i jd y c là khoảng cách theo thước đo Euclide giữa mẫu dữ liệu iy với trọng
tâm cụm thứ , 1,...,jc j k .
+ ij [0,1]u là bậc hay độ thuộc của dữ liệu mẫu iy với cụm thứ , 1,...,jc j k .
+ 1[ ,..., ]kC c c là ma trận biểu diễn các giá trị tâm của cụm.
Thuật toán FCM cung cấp một quá trình lặp qua lại giữa phương trình hàm thuộc:
2
1
1
1 / ,1 ,1
k m
ij
l il
ij
d
d
u l k i n
(5)
Và trọng tâm các cụm:
1 1
( ) / ( ) ,1
n n
m m
ij i ij
i i
j u y uc j k
(6)
Một phân cụm, nghĩa là hàm mục tiêu (4) đạt giá trị tối thiểu, mà chủ yếu dựa trên đó
độ tương tự giữa iy và trọng tâm cụm jc , điều này tương đương với hai điều kiện (5) và
(6) phải thỏa mãn các ràng buộc. Sau mỗi vòng lặp, thuật toán tính toán và cập nhật các
Nghiên cứu khoa học công nghệ
Tạp chí Nghiên cứu KH&CN quân sự, Số 50, 08 - 2017 157
phần tử iju trong ma trận phân hoạch U. Phép lặp sẽ dừng khi
( 1) ( )ax{ }t tm J J
trong đó là chuẩn kết thúc nằm trong khoảng [0,1] trong khi t là số bước lặp.
Phương pháp đề xuất sẽ gồm 2 bước chính, bước 1 sử dụng phân cụm phổ để chuyển
tập dữ liệu ban đầu X sang tập dữ liệu Y trong không gian mới và bước 2 sử dụng thuật
toán FCM để phân cụm trên tập dữ liệu Y.
Đầu vào: Dữ liệu ảnh vệ tinh, số cụm k và khởi tạo trọng tâm 1[ ,..., ]kC c c , tham số
mờ m và điều kiện dừng .
Đầu ra: Bản đồ lớp phủ đất với k lớp phủ được tô màu và chồng lên nhau.
Hình 1. Sơ đồ phương pháp phân loại lớp phủ từ dữ liệu ảnh vệ tinh.
Chi tiết các bước thực hiện thuật toán phân cụm phổ mờ (FSC) như sau:
Bước 1: Tính giá trị NDVI theo công thức (1).
Bước 2: Tham chiếu các kênh ảnh dữ liệu ban đầu và giá trị chỉ số NDVI vào không
gian
1bR : 1 2{ , ,..., }nX x x x .
Bước 3: Xây dựng ma trận trọng số ij( )nxnS s theo công thức (2).
Bước 4: Xây dựng đồ thị Laplacian L từ ma trận kề S và ma trận đường chéo D theo
(3).
Bước 5: Tìm giá trị riêng theo công thức Lv v .
Bước 6: Lựa chọn k véc tơ riêng , 1,...,iv i k tương ứng với k giá trị riêng lớn nhất
, 1,...,i i k và định nghĩa không gian con k chiều 1,...,( )
k
i i nY y R .
Bước 7: Tính giá trị hàm thuộc iju theo (5).
Công nghệ thông tin & Cơ sở toán học cho tin học
M. Đ. Sinh, Đ. V. Hội, “Phân loại lớp phủ từ dữ liệu ảnh phương pháp phân cụm phổ.” 158
Bước 8: Cập nhật trọng tâm , 1,...,ic i k theo (6).
Bước 9: Tính giá trị hàm thuộc J và kiểm tra điều kiện dừng
( 1) ( )ax{ }t tm J J , nếu thỏa mãn thì chuyển sang bước 10, ngược lại thì
quay lại bước 7.
Bước 10: Đưa ra kết quả phân cụm 1 2, ,..., kA A A với {i|y c }j i jA , đánh giá độ
chính xác, gán màu cho các lớp và hiển thị kết quả.
Chi tiết sơ đồ phương pháp tác giả đề xuất thể hiện trên hình 1.
2.2.3. Đánh giá kết quả phân cụm
Để đánh giá chất lượng các cụm sau phân phân, chúng tôi sử dụng chỉ số sai số trung
bình bình phương MSE (Mean Squared Error index) [1] và chỉ số chất lượng hình ảnh IQI
(Image Quality Index) [11]. Với 1 2, ,...,i NX x x x x và 1 2, ,...,i NY y y y y
tương ứng là ảnh ban đầu và ảnh kết quả sau phân cụm.
- Chỉ số MSE được tính theo công thức:
2
1
1
( , ) (x y )
N
i i
i
MSE x y
N
(7)
Giá trị MSE càng nhỏ thì chất lượng các cụm sau phân loại càng tốt.
- Chỉ số IQI được tính theo công thức sau:
2 22 2
4
( )( )
xy
x y
x y
IQI
x y
(8)
Với
1 1
1 1
,
N N
i i
i i
x x y y
N N
, 2 2
1
1
(x )
1
N
x i
i
x
N
, 2 2
1
1
(y )
1
N
y i
i
y
N
và
1
1
(x )(y )
1
N
xy i i
i
x y
N
. Giá trị tốt nhất là 1 khi và chỉ khi i iy x , giá trị kém
nhất là -1 xảy ra khi 2i iy x x với 1,i N , N là số điểm ảnh.
3. THỰC NGHIỆM
3.1. Thực nghiệm 1
a) b)
Hình 2. Ảnh màu RGB và ảnh kết quả phân loại khu vực Quỳ Hợp năm 2016.
Nghiên cứu khoa học công nghệ
Tạp chí Nghiên cứu KH&CN quân sự, Số 50, 08 - 2017 159
Trong thực nghiệm 1, dữ liệu ảnh viễn thám Landsat chụp năm 2016 được sử dụng để
phân tích và thành lập bản đồ thảm phủ. Tọa độ từ 104° 47' 8.7541" E, 19° 29' 1.3803" N
đến 105° 31' 35.7251" E, 19° 09' 32.6510" N, với diện tích 941,28 km2. Dữ liệu ảnh vệ tinh
sẽ được phân loại theo 6 đối tượng lớp phủ, bao gồm: mặt nước (1); Đất trống, đất ở (2);
Đồng cỏ, cây bụi (3); Rừng nghèo (4); Rừng trồng, rừng tái sinh (5); Rừng tự nhiên (6).
Hình 2 là ảnh màu RGB của khu vực nghiên cứu và ảnh kết quả sau khi phân loại, trên
hình 2b chúng ta thấy khu vực có ít cây tập trung ở phía Đông và phía Nam của huyện
Quỳ Hợp, khu vực rừng rậm tập trung nhiều ở khu vực đồi núi phía Bắc và phía Tây. Số
liệu cụ thể các lớp phủ được thể hiện trên bảng 1.
Bảng 1. Số liệu các lớp phủ năm 2016 huyện Quỳ Hợp.
STT Tên đối tượng
Màu sắc Số pixel Phần
trăm
Diện tích
(km2)
1 Sông ngòi, ao hồ 33.951 3,240% 30,499
2 Đất trống, đất xây dựng 252.338 24,082% 226,680
3 Đồng cỏ, thực vật thưa 263.122 25,111% 236,367
4 Cây gỗ thấp 208.419 19,891% 187,227
5 Rừng trồng 174.337 16,638% 156,610
6 Thực vật dày, cây lâu năm 115.658 11,038% 103,898
Bảng 2. Chỉ số đánh giá chất lượng phân loại khu vực Quỳ Hợp.
STT Chỉ số k-Means Iso-data FCM FSC
1 MSE 5,9821 3,6724 1,1893 0,1876
2 IQI -0.1237 0,3768 0,5652 0,7871
Bảng 2 là chỉ số đánh giá kết quả phân loại trên các thuật toán k-Means, Iso-data, FCM
và FSC. Số liệu trong bảng 2 cho thấy kết quả phân loại trên thuật toán FSC cho kết quả
tốt nhất với giá trị chỉ số MSE và IQI lần lượt là 0,1876 và 0,7871. Trong khi đó, thuật
toán phân cụm mờ FCM cho kết quả tốt hơn các thuật toán Iso-data và k-Means, thuật toán
k-Means cho kết quả phân loại kém nhất với chỉ số MSE và IQI là 5,9821 và -0,1237.
3.2. Thực nghiệm 2
Thực nghiệm 2 với dữ liệu ảnh viễn thám Landsat chụp năm 2014 khu vực huyện Bảo
Lâm – Lâm Đồng. Tọa độ từ 107° 04' 21.7560" E, 11° 56' 32.3488" N và 108° 22'
40.0897" E, 11° 20' 22.1085" N, với diện tích 1465 km2. Dữ liệu ảnh vệ tinh sẽ được phân
loại theo 6 đối tượng lớp phủ, bao gồm: mặt nước (1); Đất trống, đất ở (2); Đồng cỏ, cây
bụi (3); Rừng nghèo (4); Rừng trồng, rừng tái sinh (5); Rừng tự nhiên (6).
a) b)
Hình 3. Ảnh màu RGB và ảnh kết quả phân loại khu vực Bảo Lâm năm 2014.
Công nghệ thông tin & Cơ sở toán học cho tin học
M. Đ. Sinh, Đ. V. Hội, “Phân loại lớp phủ từ dữ liệu ảnh phương pháp phân cụm phổ.” 160
Hình 3 là ảnh màu RGB của khu vực Bảo Lâm và ảnh kết quả sau khi phân loại, trên
hình 3b chúng ta thấy khu vực có ít cây tập trung ở phía Đông Nam và phía Nam của
huyện Bảo Lâm, khu vực rừng rậm tập trung nhiều ở khu vực đồi núi phía Bắc và phía Tây
Bắc. Số liệu cụ thể các lớp phủ được thể hiện trên bảng 3.
Bảng 4 là chỉ số đánh giá kết quả phân loại trên các thuật toán k-Means, Iso-data, FCM
và FSC. Thuật toán k-Means cho kết quả kém nhất với giá trị chỉ số MSE là 4,9784 và chỉ
số IQI là 0,0098. Thuật toán FSC cho kết quả phân loại tốt nhất với giá trị chỉ số MSE và
IQI lần lượt là 0,1683 và 0,8429. Thuật toán phân cụm mờ FCM cho kết quả tốt hơn thuật
toán Iso-data và k-Means.
Bảng 3. Số liệu các lớp phủ năm 2014 của huyện Bảo Lâm.
STT Tên đối tượng Màu sắc Số pixel Phần trăm Diện tích (km2)
1 Sông ngòi, ao hồ 384.914 5,078% 74,391
2 Đất trống, đất xây dựng 1.077.941 14,221% 208,331
3 Đồng cỏ, thực vật thưa 1.497.061 19,750% 289,333
4 Cây gỗ thấp 1.656.004 21,846% 320,051
5 Rừng trồng 1.701.277 22,444% 328,801
6 Thực vật dày, cây lâu năm 1.262.986 16,662% 244,094
Bảng 4. Chỉ số đánh giá chất lượng phân loại khu vực Bảo Lâm.
STT Chỉ số k-Means Iso-data FCM FSC
1 MSE 4,9784 1,9768 1,3821 0,1683
2 IQI 0,0098 0,3329 0,5683 0,8429
Các thuật toán k-Means, Iso-data và FCM phân loại trực tiếp trên tập dữ liệu ban đầu,
do đó kết quả phân cụm phụ thuộc nhiều vào chất lượng dữ liệu ban đầu và các tham số
khởi tạo. Thuật toán FSC cho kết quả tốt hơn cả là vì dữ liệu ảnh vệ tinh ban đầu qua thuật
toán phân cụm phổ đã chuyển từ không gian dữ liệu ban đầu về không gian dữ liệu mới
với số chiều bằng số cụm cần phân loại, giúp cho việc phân loại dễ dàng và có độ chính
xác cao hơn nhiều so với các thuật toán khác. Kết quả này cho thấy có thể áp dụng vào
thành lập nhanh bản đồ lớp phủ từ dữ liệu ảnh vệ tinh, giảm thiểu tối đa thời gian so với
phương pháp thành lập bản đồ lớp phủ dựa trên số liệu thống kê, đo đạc thực địa và vẫn
đảm bảo độ chính xác cao hơn nhiều so với một số phương pháp phân loại phổ biến như k-
Means, Iso-data, FCM.
4. KẾT LUẬN
Trong bài báo này, chúng tôi đã nghiên cứu và áp dụng thuật toán phân cụm phổ vào
giải quyết bài toán phân loại lớp phủ đất từ dữ liệu ảnh vệ tinh. Với yêu cầu độ chính xác
không quá cao thì hoàn toàn có thể áp dụng phương pháp này để đưa ra bản đồ hiện trạng
lớp phủ đất một cách nhanh chóng. Nghiên cứu này là tiền đề cho những nghiên cứu tiếp
theo đó là kết hợp với mô hình số độ cao để đưa ra bản đồ số địa hình, hỗ trợ người chỉ
huy trong việc vạch tuyến hành quân và xây dựng các phương án tác chiến. Trong thời
gian tới, chúng tôi sẽ thử nghiệm trên nhiều loại ảnh vệ tinh khác và nghiên cứu kết hợp
kết quả bản đồ lớp phủ với mô hình số độ cao trong việc phân tích địa hình.
TÀI LIỆU THAM KHẢO
[1]. Bezdek J., Pal N. – “Some new indexes of cluster validity”. IEEE Transactions on
Systems, Man and Cybernetics 3 (1998) 301-315.
Nghiên cứu khoa học công nghệ
Tạp chí Nghiên cứu KH&CN quân sự, Số 50, 08 - 2017 161
[2]. Dinh-Sinh Mai and Long Thanh Ngo, “Semi-Supervised Fuzzy C-Means Clustering
for Change Detection from Multispectral Satellite Image”, 2015 IEEE International
Conference on Fuzzy Systems, 2015, pp.1-8.
[3]. Eric K. Forkuo, Adubofour Frimpong – “Analysis of Forest Cover Change
detection”, International Journal of Remote Sensing Applications 2(4) (2012) 82-92.
[4]. Feng Zhao, Hanqiang Liu, Licheng Jiao, “Spectral clustering with fuzzy similarity
measure”, Digital Signal Processing 21 (2011) 701–709.
[5]. Grant J. Firl, Lane Carter. “Calculating Vegetation Indices from Landsat 5 TM and
Landsat 7 ETM+ Data” (2011).
[6]. James C. Bezdek, Robert Ehrlich and William Full. FCM: “The fuzzy c-means
clustering algorithm”, Computers & Geosciences, Vol 10, Issues 2–3, 1984, Pages
191–203.
[7]. Long Thanh Ngo and Dinh Dung Nguyen – “Land cover classification using interval
type-2 fuzzy clustering for multi-spectral satellite imagery”, IEEE Conference on
Systems, Man. and Cybernetics, 2012, pp. 2371 - 2376.
[8]. M. Fiedler, “Algebraic connectivity of graphs”. Czechoslovak Math. J., 23, 298 –
305, 1973.
[9]. Peng Yang, Qingsheng Zhu, Biao Huang, “Spectral clustering with density sensitive
similarity function”, Knowledge-Based Systems 24 (2011) 621–628.
[10]. W. E. Donath, A. J. Hoffman, “Lower bounds for the partitioning of graphs”. IBM J.
Res. Develop., 17, 420 – 425, 1973.
[11]. Wang Z. and Bovik A. C. “A universal image quality index.” IEEE signal processing
letters, vol. 9, no. 3, 2002, 81-84.
ABSTRACT
LANDCOVER CLASSIFICATION FROM SATELLITE IMAGE DATA
BASED ON THE SPECTRAL CLUSTERING METHOD
Image Segmentation is to finding group structure with characteristics similar.
There are many different methods of clustering, but almost all the same strategy is
based on the difference in colors to assign the pixels into clusters. Due to the
complexity of satellite image data, image information is often overlapping and
complex shape of the objects in the image, so the use of traditional methods such as
color combinations, thresholding has the advantage of easy installation but low
precision. Spectral clustering is based on graph theory, have capability to classify
well the data has structured and shapes complex, such as satellite image data. In
the war, the commander need have immediate information about the status of the
warfare region to constructing plan logical warfare. The article solve the problem
faster landcover classification based on spectral clustering methods in service of
camouflage using Landsat satellite image.
Keywords: Spectral clustering, Satellite image, Fuzzy c-means, Landcover classification.
Nhận bài ngày 05 tháng 01 năm 2017
Hoàn thiện ngày 06 tháng 02 năm 2017
Chấp nhận đăng ngày 18 tháng 8 năm 2017
Địa chỉ: 1 Học viện Kỹ thuật quân sự;
2 Học viện Lục quân ;
3 Lớp cao học CNTT Khóa 27 – Học viện Kỹ thuật quân sự.
* Email: maidinhsinh@gmail.com.
Các file đính kèm theo tài liệu này:
- 19_sinh_9978_2151740.pdf