Phân loại lớp phủ từ dữ liệu ảnh vệ tinh dựa trên phương pháp phân cụm phổ - Mai Đình Sinh

Tài liệu Phân loại lớp phủ từ dữ liệu ảnh vệ tinh dựa trên phương pháp phân cụm phổ - Mai Đình Sinh: Nghiên cứu khoa học công nghệ Tạp chí Nghiên cứu KH&CN quân sự, Số 50, 08 - 2017 153 PHÂN LOẠI LỚP PHỦ TỪ DỮ LIỆU ẢNH VỆ TINH DỰA TRÊN PHƯƠNG PHÁP PHÂN CỤM PHỔ Mai Đình Sinh1*, Đinh Văn Hội2,3 Tóm tắt: Phân cụm ảnh là tìm ra các cấu trúc nhóm có những đặc tính tương đồng để tạo thành cụm. Có nhiều phương pháp phân cụm khác nhau nhưng hầu hết đều cùng chiến lược là dựa vào sự khác nhau về màu sắc để phân chia các điểm ảnh về các cụm. Do tính chất phức tạp của dữ liệu ảnh vệ tinh là thông tin trên ảnh thường bị chồng lấp nhau và hình dạng phức tạp của các đối tượng trên ảnh, do đó, việc sử dụng các phương pháp truyền thống như tổ hợp màu, phân ngưỡng, có ưu điểm dễ cài đặt nhưng có độ chính xác thấp. Phân cụm phổ là phương pháp phân cụm dựa trên lý thuyết về đồ thị, có khả năng phân loại tốt các dữ liệu mà có cấu trúc và hình dạng phức tạp như dữ liệu trên ảnh vệ tinh. Do yêu cầu tác chiến hiện nay, người chỉ huy cần phải có những thông tin tức thời về hình thá...

9 trang | Chia sẻ: quangot475 | Lượt xem: 1170 | Lượt tải: 0

Bạn đang xem nội dung tài liệu Phân loại lớp phủ từ dữ liệu ảnh vệ tinh dựa trên phương pháp phân cụm phổ - Mai Đình Sinh, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên

Nghiên cứu khoa học công nghệ Tạp chí Nghiên cứu KH&CN quân sự, Số 50, 08 - 2017 153 PHÂN LOẠI LỚP PHỦ TỪ DỮ LIỆU ẢNH VỆ TINH DỰA TRÊN PHƯƠNG PHÁP PHÂN CỤM PHỔ Mai Đình Sinh1*, Đinh Văn Hội2,3 Tóm tắt: Phân cụm ảnh là tìm ra các cấu trúc nhóm có những đặc tính tương đồng để tạo thành cụm. Có nhiều phương pháp phân cụm khác nhau nhưng hầu hết đều cùng chiến lược là dựa vào sự khác nhau về màu sắc để phân chia các điểm ảnh về các cụm. Do tính chất phức tạp của dữ liệu ảnh vệ tinh là thông tin trên ảnh thường bị chồng lấp nhau và hình dạng phức tạp của các đối tượng trên ảnh, do đó, việc sử dụng các phương pháp truyền thống như tổ hợp màu, phân ngưỡng, có ưu điểm dễ cài đặt nhưng có độ chính xác thấp. Phân cụm phổ là phương pháp phân cụm dựa trên lý thuyết về đồ thị, có khả năng phân loại tốt các dữ liệu mà có cấu trúc và hình dạng phức tạp như dữ liệu trên ảnh vệ tinh. Do yêu cầu tác chiến hiện nay, người chỉ huy cần phải có những thông tin tức thời về hình thái khu vực tác chiến để có phương án bố trí công sự, trận địa hợp lý. Bài báo giải quyết vấn đề phân loại nhanh lớp phủ ảnh vệ tinh dựa trên phương pháp phân cụm phổ phục vụ công tác ngụy trang. Từ khóa: Phân cụm phổ, Ảnh vệ tinh, Fuzzy c-means, Phân loại lớp phủ. 1. ĐẶT VẤN ĐỀ Viễn thám là một lĩnh vực khoa học giúp thu thập thông tin về các đối tượng trên bề mặt trái đất mà không cần tiếp xúc trực tiếp với chúng, nguyên lý cơ bản của viễn thám đó là đặc trưng phản xạ hay bức xạ của các đối tượng tự nhiên tương ứng với từng giải phổ khác nhau [2]. Ảnh viễn thám có ưu điểm là phủ trùm trên một khu vực rộng lớn, dữ liệu ảnh được cập nhật thường xuyên và một số loại ảnh vệ tinh được cung cấp miễn phí trên mạng internet. Dữ liệu ảnh vệ tinh khó phân cụm một cách hiệu quả do sự chồng lấp và hình thù phức tạp của các đối tượng trên ảnh [3]. Hơn nữa, sự lựa chọn các thuật toán phân cụm phụ thuộc vào dữ liệu được khám phá, chất lượng của lời giải phân cụm cũng bị ảnh hưởng bởi độ đo sử dụng để đánh giá sự tương tự (khoảng cách) giữa các điểm ảnh. Cho đến nay, đã có nhiều công trình nghiên cứu bài toán phân loại đối tượng trên ảnh vệ tinh với nhiều phương pháp khác nhau [5, 7]. Những nghiên cứu trong và ngoài nước phân loại lớp phủ trên ảnh vệ tinh cho thấy, phương pháp sử dụng ảnh viễn thám để thành lập bản đồ hiện trạng lớp phủ đất có hiệu quả lớn. Với ưu điểm là diện tích phủ rộng, dữ liệu ảnh phong phú, thời gian chụp lặp lại tại một khu vực có thể trong vài ngày, không tốn nhiều thời gian, công sức cũng như chi phí so với các phương pháp khác, công nghệ viễn thám có thể được sử dụng hiệu quả trong xây dựng bản đồ hiện trạng lớp phủ trên phạm vi rộng lớn một cách nhanh chóng, nhằm hỗ trợ người chỉ huy lập các phương án ngụy trang hợp lý, giảm thiểu thương vong về con người và vũ khí trang bị. Đối với các vùng mà ranh giới không rõ ràng thì kết quả phân loại bằng các thuật toán thống kê truyền thống thường không đảm bảo thời gian và kinh phí, thậm chí không phân loại được với những khu vực rừng núi hiểm trở, do vậy, kết quả phân loại lớp phủ thường có độ chính xác thấp. Phương pháp sử dụng ảnh vệ tinh kết hợp với các số liệu đo đạc thực địa có độ chính xác cao nhưng chi phí xây dựng bản đồ lớp phủ lớn và tốn nhiều thời gian và không thể đáp ứng tức thời trong điều kiện tác chiến hiện nay. Thông tin về địa hình, địa vật đặc biệt có ý nghĩa và quan trọng trong lĩnh vực quốc phòng - an ninh. Do đặc điểm các vệ tinh có thể thu thập thông tin về các đối tượng trên bề mặt trái đất mà không cần tiếp xúc trực tiếp với chúng, đặc biệt những khu vực rừng núi Công nghệ thông tin & Cơ sở toán học cho tin học M. Đ. Sinh, Đ. V. Hội, “Phân loại lớp phủ từ dữ liệu ảnh phương pháp phân cụm phổ.” 154 hiểm trở, công việc đo đạc khó hoặc không thể thực hiện được, đây cũng là lý do chính để tác giả thực hiện nghiên cứu này. Trong bài báo này, tác giả đề xuất phương pháp phân loại lớp phủ từ dữ liệu ảnh vệ tinh Landsat dựa trên thuật toán phân cụm phổ. Để đánh giá hiệu quả và độ chính xác của phương pháp đề xuất, chúng tôi sử dụng một số chỉ số được sử dụng phổ biến hiện nay để đánh giá chất lượng của kết quả phân cụm với một số thuật toán phân cụm phổ biến hiện nay như k-Means, iso-data, fuzzy c-means. Bài báo gồm 3 phần chính, Phần 1 đặt vấn đề; Phần 2 cơ sở lý thuyết và phương pháp giải quyết; Phần 3 thực nghiệm và Phần 4 kết luận. 2. CƠ SỞ LÝ THUYẾT VÀ PHƯƠNG PHÁP GIẢI QUYẾT 2.1. Cơ sở lý thuyết Phân cụm phổ là phương pháp phát hiện ra các cấu trúc nhóm trong tập dữ liệu, dựa trên việc xem xét các điểm dữ liệu như là các nút của đồ thị liên thông, phương pháp này được giới thiệu lần đầu tiên bởi Donath, Hoffman [10] và Fiedler [8]. Coi tập dữ liệu biểu diễn dữ liệu ảnh vệ tinh đa phổ là 1 2, ,..., nx x x . Các cụm có thể được phát hiện dựa trên độ đo mức độ tương tự giữa cấu trúc các cụm hoặc khoảng cách Eulidean trong không gian màu [4]. Giả sử ta có tập dữ liệu n điểm ảnh 1 2{ , ,..., }nX x x x , ta đo độ tương tự của từng cặp điểm ảnh ,i jx x và ký hiệu ma trận tương tự tương ứng là ij( )nxnS s , ma trận này cho thấy mức độ tương đồng giữa các điểm ảnh. Trong phân cụm phổ thì giá trị biểu thị mức độ tương tự giữa 2 điểm ảnh thường được tính dựa trên hàm Gaussian: 2 ij 2 (x ,x ) exp i jd s          . Với  là tham số do người dùng định nghĩa, giá trị  tối ưu là giá trị mà cho kết quả phân cụm tốt nhất và ( , )i jd x x là khoảng cách trong không gian màu giữa hai điểm ảnh ,i jx x . Giả sử ta coi tập dữ liệu là một đồ thị vô hướng ( , )G X S trong đó X là tập các đỉnh (điểm ảnh) và S là tập các cạnh. Khi đó, ij( )nxnS s là ma trận trọng số của đồ thị, trong đó ij 0s  nếu hai đỉnh ,i jx x không liên thông nhau và ij jis s do G là đồ thị vô hướng [9]. Xây dựng ma trận đường chéo D với giá trị các id miêu tả trọng số tại các nút của độ thị: ( , )i j d s i j với j tương ứng là các chỉ số đỉnh kề với đỉnh i. Xây dựng ma trận Laplace từ ma trận S và ma trận D ở trên: 1/2 1/2L D SD  , ma trận này sử dụng để trích xuất ra k cụm bởi việc tìm ra k véc tơ riêng với k giá trị riêng lớn nhất. Các bước thực hiện của thuật toán phân cụm phổ (SC): 1. Tham chiếu tập dữ liệu ban đầu vào không gian nR . 2. Định nghĩa ma trận kề S , sử dụng hàm Gaussian: ij{ }S s . 3. Xây dựng đồ thị Laplacian L từ ma trận kề S: 1/2 1/2L D SD  4. Tìm giá trị riêng theo công thức Lv v . Nghiên cứu khoa học công nghệ Tạp chí Nghiên cứu KH&CN quân sự, Số 50, 08 - 2017 155 5. Lựa chọn k véc tơ riêng , 1,...,iv i k tương ứng với k giá trị riêng lớn nhất , 1,...,i i k  và định nghĩa không gian con k chiều. 6. Phân cụm trên tập dữ liệu trong không gian k chiều thành k cụm. Thuật toán trên chuyển đổi không gian dữ liệu ban đầu vào không gian dữ liệu k chiều (k chính là số cụm cần phải phân loại). Do các tính chất của đồ thị Laplace, những thay đổi biểu diễn làm tăng khả năng phân cụm trong dữ liệu, đến mức các cụm có thể được phát hiện dễ dàng trong biểu diễn mới. Và có thể sử dụng các thuật toán phân cụm thông thường như thuật toán k-Means để phát hiện các cụm trong biểu diễn mới. 2.2. Áp dụng phương pháp phân cụm phổ phân loại lớp phủ ảnh vệ tinh 2.2.1. Dữ liệu ảnh vệ tinh Ảnh viễn thám (ảnh vệ tinh): là ảnh số thể hiện các vật thể trên bề mặt trái đất được thu nhận bởi các bộ cảm biến đặt trên vệ tinh. Nguyên lý cơ bản của viễn thám đó là đặc trưng phản xạ hay bức xạ của các đối tượng tự nhiên tương ứng với từng giải phổ khác nhau. Kết quả của việc giải đoán các lớp thông tin phụ thuộc rất nhiều vào sự hiểu biết về mối tương quan giữa đặc trưng phản xạ phổ với bản chất, trạng thái của các đối tượng tự nhiên. Những thông tin về đặc trưng phản xạ phổ của các đối tượng tự nhiên sẽ cho phép các nhà chuyên môn chọn các kênh ảnh tối ưu, chứa nhiều thông tin nhất về đối tượng nghiên cứu, đồng thời đây cũng là cơ sở để phân tích nghiên cứu các tính chất của đối tượng, tiến tới phân loại chúng. Dữ liệu ảnh vệ tinh thường có nhiều kênh ảnh khác nhau tương ứng với các bước sóng phản xạ phổ khác nhau của các đối tượng trên mặt đất. Trong số đó, kênh đỏ và cận hồng ngoại (kênh 3, 4 đối với ảnh Landsat TM, ETM+; kênh 4, 5 đối với ảnh Landsat 8) được sử dụng để tính chỉ số thực vật (NDVI) [5] theo công thức sau: NIR RED NIR RED NDVI        (1) Trong đó, ρNIR, ρRED là phản xạ phổ tại các kênh cận hồng ngoại và đỏ. Chỉ số thực vật có giá trị từ -1 đến +1, giá trị của NDVI cao cho biết khu vực có nhiều thực vật. Tuy nhiên, chỉ số NDVI được tính toán chỉ trên 2 kênh ảnh trong số nhiều kênh ảnh của ảnh vệ tinh, do đó, chỉ số này không phản ảnh được hết các thông tin bề mặt đất. Thông thường người dùng sẽ phải sử dụng kết hợp chỉ số này với các phương pháp khác như trích chọn trên ảnh, đo đạc ngoài thực địa,. Các phương pháp trên thường tốn rất nhiều thời gian, đặc biệt những khu vực rừng núi, địa hình hiểm trở. Vì vậy, nhóm tác giả đã đề xuất phương pháp sử dụng chỉ số thực vật NDVI cùng với với các kênh ảnh đa phổ ảnh Landsat để phân loại tự động các đối tượng lớp phủ trên ảnh vệ tinh. 2.2.2. Phân loại lớp phủ ảnh vệ tinh Để áp dụng phương pháp phân cụm phổ vào phân loại ảnh vệ tinh, cần phải chuyển các dữ liệu ảnh vệ tinh thành dữ liệu đầu vào theo cấu trúc của thuật toán phân cụm phổ. Giả sử ảnh vệ tinh Landsat có b kênh ảnh, trong nghiên cứu này, nhóm tác giả bổ sung thêm dữ liệu ảnh chỉ số NDVI như là một kênh, như vậy, dữ liệu dùng để phân loại gồm có 1b  kênh ảnh. Với sự bổ sung thêm thông tin về lớp phủ thực vật này có thể giúp việc phân loại lớp phủ thực vật có thể tăng cường độ chính xác. Bài toán cần phân tách tập n vectơ đối tượng dữ liệu 1 2{ , ,..., }nX x x x vào 6 nhóm đối tượng, mỗi đối tượng , 0,...,ix i n là một vectơ có 1b  thành phần. Bài toán cần Công nghệ thông tin & Cơ sở toán học cho tin học M. Đ. Sinh, Đ. V. Hội, “Phân loại lớp phủ từ dữ liệu ảnh phương pháp phân cụm phổ.” 156 xây dựng một đồ thị vô hướng mà các điểm là các đối tượng ix , xây dựng ma trận tương tự theo phương pháp trình bày ở trên, đặt S là ma trận trọng số của nó: 2 ij 2 (x ,x ) exp i jd s          (2) Tính ma trận Laplace L và tìm k véc tơ riêng có giá trị riêng lớn nhất 1 2, ,..., k   của ma trận L : 1/2 1/2L D SD  (3) Đặt nxkE R là ma trận gồm các cột là các véc tơ 1 2, ,..., k   , với 0,...,i n , đặt k iy R là véc tơ tương ứng với hàng thứ i của E . Lúc này, tập dữ liệu ban đầu trong không gian 1b  được chuyển về không gian mới 1,...,( ) k i i nY y R  và bài toán ban đầu trở thành bài toán phân cụm trên tập dữ liệu Y. Để phân cụm dữ liệu trên tập 1,...,( ) k i i nY y R  có nhiều phương pháp khác nhau từ phân cụm rõ đơn thuần như k-Means và phát triển đến thuật toán phân cụm mờ loại một Fuzzy c-Means (FCM) bởi James C.Bezdek (1984) [6], do đặc điểm dữ liệu ảnh vệ tinh phức tạp hơn sơ với ảnh màu thông thường, vì vậy, tác giả lựa chọn thuật toán FCM để phân cụm trên tập dữ liệu Y nhằm tăng cường hiệu quả phân loại lớp phủ. Bài toán phân cụm FCM là bài toán tìm các độ thuộc iju nhằm tối thiểu hóa hàm mục tiêu: 2 ij 1 1 ( , ) ,1 n k m ij i j J U v u d m       (4) Trong đó: + ij i jd y c  là khoảng cách theo thước đo Euclide giữa mẫu dữ liệu iy với trọng tâm cụm thứ , 1,...,jc j k . + ij [0,1]u  là bậc hay độ thuộc của dữ liệu mẫu iy với cụm thứ , 1,...,jc j k . + 1[ ,..., ]kC c c là ma trận biểu diễn các giá trị tâm của cụm. Thuật toán FCM cung cấp một quá trình lặp qua lại giữa phương trình hàm thuộc: 2 1 1 1 / ,1 ,1 k m ij l il ij d d u l k i n              (5) Và trọng tâm các cụm: 1 1 ( ) / ( ) ,1 n n m m ij i ij i i j u y uc j k       (6) Một phân cụm, nghĩa là hàm mục tiêu (4) đạt giá trị tối thiểu, mà chủ yếu dựa trên đó độ tương tự giữa iy và trọng tâm cụm jc , điều này tương đương với hai điều kiện (5) và (6) phải thỏa mãn các ràng buộc. Sau mỗi vòng lặp, thuật toán tính toán và cập nhật các Nghiên cứu khoa học công nghệ Tạp chí Nghiên cứu KH&CN quân sự, Số 50, 08 - 2017 157 phần tử iju trong ma trận phân hoạch U. Phép lặp sẽ dừng khi ( 1) ( )ax{ }t tm J J    trong đó  là chuẩn kết thúc nằm trong khoảng [0,1] trong khi t là số bước lặp. Phương pháp đề xuất sẽ gồm 2 bước chính, bước 1 sử dụng phân cụm phổ để chuyển tập dữ liệu ban đầu X sang tập dữ liệu Y trong không gian mới và bước 2 sử dụng thuật toán FCM để phân cụm trên tập dữ liệu Y. Đầu vào: Dữ liệu ảnh vệ tinh, số cụm k và khởi tạo trọng tâm 1[ ,..., ]kC c c , tham số mờ m và điều kiện dừng  . Đầu ra: Bản đồ lớp phủ đất với k lớp phủ được tô màu và chồng lên nhau. Hình 1. Sơ đồ phương pháp phân loại lớp phủ từ dữ liệu ảnh vệ tinh. Chi tiết các bước thực hiện thuật toán phân cụm phổ mờ (FSC) như sau: Bước 1: Tính giá trị NDVI theo công thức (1). Bước 2: Tham chiếu các kênh ảnh dữ liệu ban đầu và giá trị chỉ số NDVI vào không gian 1bR  : 1 2{ , ,..., }nX x x x . Bước 3: Xây dựng ma trận trọng số ij( )nxnS s theo công thức (2). Bước 4: Xây dựng đồ thị Laplacian L từ ma trận kề S và ma trận đường chéo D theo (3). Bước 5: Tìm giá trị riêng theo công thức Lv v . Bước 6: Lựa chọn k véc tơ riêng , 1,...,iv i k tương ứng với k giá trị riêng lớn nhất , 1,...,i i k  và định nghĩa không gian con k chiều 1,...,( ) k i i nY y R  . Bước 7: Tính giá trị hàm thuộc iju theo (5). Công nghệ thông tin & Cơ sở toán học cho tin học M. Đ. Sinh, Đ. V. Hội, “Phân loại lớp phủ từ dữ liệu ảnh phương pháp phân cụm phổ.” 158 Bước 8: Cập nhật trọng tâm , 1,...,ic i k theo (6). Bước 9: Tính giá trị hàm thuộc J và kiểm tra điều kiện dừng ( 1) ( )ax{ }t tm J J    , nếu thỏa mãn thì chuyển sang bước 10, ngược lại thì quay lại bước 7. Bước 10: Đưa ra kết quả phân cụm 1 2, ,..., kA A A với {i|y c }j i jA   , đánh giá độ chính xác, gán màu cho các lớp và hiển thị kết quả. Chi tiết sơ đồ phương pháp tác giả đề xuất thể hiện trên hình 1. 2.2.3. Đánh giá kết quả phân cụm Để đánh giá chất lượng các cụm sau phân phân, chúng tôi sử dụng chỉ số sai số trung bình bình phương MSE (Mean Squared Error index) [1] và chỉ số chất lượng hình ảnh IQI (Image Quality Index) [11]. Với    1 2, ,...,i NX x x x x  và    1 2, ,...,i NY y y y y  tương ứng là ảnh ban đầu và ảnh kết quả sau phân cụm. - Chỉ số MSE được tính theo công thức: 2 1 1 ( , ) (x y ) N i i i MSE x y N    (7) Giá trị MSE càng nhỏ thì chất lượng các cụm sau phân loại càng tốt. - Chỉ số IQI được tính theo công thức sau: 2 22 2 4 ( )( ) xy x y x y IQI x y       (8) Với 1 1 1 1 , N N i i i i x x y y N N     , 2 2 1 1 (x ) 1 N x i i x N       , 2 2 1 1 (y ) 1 N y i i y N       và 1 1 (x )(y ) 1 N xy i i i x y N        . Giá trị tốt nhất là 1 khi và chỉ khi i iy x , giá trị kém nhất là -1 xảy ra khi 2i iy x x  với 1,i N , N là số điểm ảnh. 3. THỰC NGHIỆM 3.1. Thực nghiệm 1 a) b) Hình 2. Ảnh màu RGB và ảnh kết quả phân loại khu vực Quỳ Hợp năm 2016. Nghiên cứu khoa học công nghệ Tạp chí Nghiên cứu KH&CN quân sự, Số 50, 08 - 2017 159 Trong thực nghiệm 1, dữ liệu ảnh viễn thám Landsat chụp năm 2016 được sử dụng để phân tích và thành lập bản đồ thảm phủ. Tọa độ từ 104° 47' 8.7541" E, 19° 29' 1.3803" N đến 105° 31' 35.7251" E, 19° 09' 32.6510" N, với diện tích 941,28 km2. Dữ liệu ảnh vệ tinh sẽ được phân loại theo 6 đối tượng lớp phủ, bao gồm: mặt nước (1); Đất trống, đất ở (2); Đồng cỏ, cây bụi (3); Rừng nghèo (4); Rừng trồng, rừng tái sinh (5); Rừng tự nhiên (6). Hình 2 là ảnh màu RGB của khu vực nghiên cứu và ảnh kết quả sau khi phân loại, trên hình 2b chúng ta thấy khu vực có ít cây tập trung ở phía Đông và phía Nam của huyện Quỳ Hợp, khu vực rừng rậm tập trung nhiều ở khu vực đồi núi phía Bắc và phía Tây. Số liệu cụ thể các lớp phủ được thể hiện trên bảng 1. Bảng 1. Số liệu các lớp phủ năm 2016 huyện Quỳ Hợp. STT Tên đối tượng Màu sắc Số pixel Phần trăm Diện tích (km2) 1 Sông ngòi, ao hồ 33.951 3,240% 30,499 2 Đất trống, đất xây dựng 252.338 24,082% 226,680 3 Đồng cỏ, thực vật thưa 263.122 25,111% 236,367 4 Cây gỗ thấp 208.419 19,891% 187,227 5 Rừng trồng 174.337 16,638% 156,610 6 Thực vật dày, cây lâu năm 115.658 11,038% 103,898 Bảng 2. Chỉ số đánh giá chất lượng phân loại khu vực Quỳ Hợp. STT Chỉ số k-Means Iso-data FCM FSC 1 MSE 5,9821 3,6724 1,1893 0,1876 2 IQI -0.1237 0,3768 0,5652 0,7871 Bảng 2 là chỉ số đánh giá kết quả phân loại trên các thuật toán k-Means, Iso-data, FCM và FSC. Số liệu trong bảng 2 cho thấy kết quả phân loại trên thuật toán FSC cho kết quả tốt nhất với giá trị chỉ số MSE và IQI lần lượt là 0,1876 và 0,7871. Trong khi đó, thuật toán phân cụm mờ FCM cho kết quả tốt hơn các thuật toán Iso-data và k-Means, thuật toán k-Means cho kết quả phân loại kém nhất với chỉ số MSE và IQI là 5,9821 và -0,1237. 3.2. Thực nghiệm 2 Thực nghiệm 2 với dữ liệu ảnh viễn thám Landsat chụp năm 2014 khu vực huyện Bảo Lâm – Lâm Đồng. Tọa độ từ 107° 04' 21.7560" E, 11° 56' 32.3488" N và 108° 22' 40.0897" E, 11° 20' 22.1085" N, với diện tích 1465 km2. Dữ liệu ảnh vệ tinh sẽ được phân loại theo 6 đối tượng lớp phủ, bao gồm: mặt nước (1); Đất trống, đất ở (2); Đồng cỏ, cây bụi (3); Rừng nghèo (4); Rừng trồng, rừng tái sinh (5); Rừng tự nhiên (6). a) b) Hình 3. Ảnh màu RGB và ảnh kết quả phân loại khu vực Bảo Lâm năm 2014. Công nghệ thông tin & Cơ sở toán học cho tin học M. Đ. Sinh, Đ. V. Hội, “Phân loại lớp phủ từ dữ liệu ảnh phương pháp phân cụm phổ.” 160 Hình 3 là ảnh màu RGB của khu vực Bảo Lâm và ảnh kết quả sau khi phân loại, trên hình 3b chúng ta thấy khu vực có ít cây tập trung ở phía Đông Nam và phía Nam của huyện Bảo Lâm, khu vực rừng rậm tập trung nhiều ở khu vực đồi núi phía Bắc và phía Tây Bắc. Số liệu cụ thể các lớp phủ được thể hiện trên bảng 3. Bảng 4 là chỉ số đánh giá kết quả phân loại trên các thuật toán k-Means, Iso-data, FCM và FSC. Thuật toán k-Means cho kết quả kém nhất với giá trị chỉ số MSE là 4,9784 và chỉ số IQI là 0,0098. Thuật toán FSC cho kết quả phân loại tốt nhất với giá trị chỉ số MSE và IQI lần lượt là 0,1683 và 0,8429. Thuật toán phân cụm mờ FCM cho kết quả tốt hơn thuật toán Iso-data và k-Means. Bảng 3. Số liệu các lớp phủ năm 2014 của huyện Bảo Lâm. STT Tên đối tượng Màu sắc Số pixel Phần trăm Diện tích (km2) 1 Sông ngòi, ao hồ 384.914 5,078% 74,391 2 Đất trống, đất xây dựng 1.077.941 14,221% 208,331 3 Đồng cỏ, thực vật thưa 1.497.061 19,750% 289,333 4 Cây gỗ thấp 1.656.004 21,846% 320,051 5 Rừng trồng 1.701.277 22,444% 328,801 6 Thực vật dày, cây lâu năm 1.262.986 16,662% 244,094 Bảng 4. Chỉ số đánh giá chất lượng phân loại khu vực Bảo Lâm. STT Chỉ số k-Means Iso-data FCM FSC 1 MSE 4,9784 1,9768 1,3821 0,1683 2 IQI 0,0098 0,3329 0,5683 0,8429 Các thuật toán k-Means, Iso-data và FCM phân loại trực tiếp trên tập dữ liệu ban đầu, do đó kết quả phân cụm phụ thuộc nhiều vào chất lượng dữ liệu ban đầu và các tham số khởi tạo. Thuật toán FSC cho kết quả tốt hơn cả là vì dữ liệu ảnh vệ tinh ban đầu qua thuật toán phân cụm phổ đã chuyển từ không gian dữ liệu ban đầu về không gian dữ liệu mới với số chiều bằng số cụm cần phân loại, giúp cho việc phân loại dễ dàng và có độ chính xác cao hơn nhiều so với các thuật toán khác. Kết quả này cho thấy có thể áp dụng vào thành lập nhanh bản đồ lớp phủ từ dữ liệu ảnh vệ tinh, giảm thiểu tối đa thời gian so với phương pháp thành lập bản đồ lớp phủ dựa trên số liệu thống kê, đo đạc thực địa và vẫn đảm bảo độ chính xác cao hơn nhiều so với một số phương pháp phân loại phổ biến như k- Means, Iso-data, FCM. 4. KẾT LUẬN Trong bài báo này, chúng tôi đã nghiên cứu và áp dụng thuật toán phân cụm phổ vào giải quyết bài toán phân loại lớp phủ đất từ dữ liệu ảnh vệ tinh. Với yêu cầu độ chính xác không quá cao thì hoàn toàn có thể áp dụng phương pháp này để đưa ra bản đồ hiện trạng lớp phủ đất một cách nhanh chóng. Nghiên cứu này là tiền đề cho những nghiên cứu tiếp theo đó là kết hợp với mô hình số độ cao để đưa ra bản đồ số địa hình, hỗ trợ người chỉ huy trong việc vạch tuyến hành quân và xây dựng các phương án tác chiến. Trong thời gian tới, chúng tôi sẽ thử nghiệm trên nhiều loại ảnh vệ tinh khác và nghiên cứu kết hợp kết quả bản đồ lớp phủ với mô hình số độ cao trong việc phân tích địa hình. TÀI LIỆU THAM KHẢO [1]. Bezdek J., Pal N. – “Some new indexes of cluster validity”. IEEE Transactions on Systems, Man and Cybernetics 3 (1998) 301-315. Nghiên cứu khoa học công nghệ Tạp chí Nghiên cứu KH&CN quân sự, Số 50, 08 - 2017 161 [2]. Dinh-Sinh Mai and Long Thanh Ngo, “Semi-Supervised Fuzzy C-Means Clustering for Change Detection from Multispectral Satellite Image”, 2015 IEEE International Conference on Fuzzy Systems, 2015, pp.1-8. [3]. Eric K. Forkuo, Adubofour Frimpong – “Analysis of Forest Cover Change detection”, International Journal of Remote Sensing Applications 2(4) (2012) 82-92. [4]. Feng Zhao, Hanqiang Liu, Licheng Jiao, “Spectral clustering with fuzzy similarity measure”, Digital Signal Processing 21 (2011) 701–709. [5]. Grant J. Firl, Lane Carter. “Calculating Vegetation Indices from Landsat 5 TM and Landsat 7 ETM+ Data” (2011). [6]. James C. Bezdek, Robert Ehrlich and William Full. FCM: “The fuzzy c-means clustering algorithm”, Computers & Geosciences, Vol 10, Issues 2–3, 1984, Pages 191–203. [7]. Long Thanh Ngo and Dinh Dung Nguyen – “Land cover classification using interval type-2 fuzzy clustering for multi-spectral satellite imagery”, IEEE Conference on Systems, Man. and Cybernetics, 2012, pp. 2371 - 2376. [8]. M. Fiedler, “Algebraic connectivity of graphs”. Czechoslovak Math. J., 23, 298 – 305, 1973. [9]. Peng Yang, Qingsheng Zhu, Biao Huang, “Spectral clustering with density sensitive similarity function”, Knowledge-Based Systems 24 (2011) 621–628. [10]. W. E. Donath, A. J. Hoffman, “Lower bounds for the partitioning of graphs”. IBM J. Res. Develop., 17, 420 – 425, 1973. [11]. Wang Z. and Bovik A. C. “A universal image quality index.” IEEE signal processing letters, vol. 9, no. 3, 2002, 81-84. ABSTRACT LANDCOVER CLASSIFICATION FROM SATELLITE IMAGE DATA BASED ON THE SPECTRAL CLUSTERING METHOD Image Segmentation is to finding group structure with characteristics similar. There are many different methods of clustering, but almost all the same strategy is based on the difference in colors to assign the pixels into clusters. Due to the complexity of satellite image data, image information is often overlapping and complex shape of the objects in the image, so the use of traditional methods such as color combinations, thresholding has the advantage of easy installation but low precision. Spectral clustering is based on graph theory, have capability to classify well the data has structured and shapes complex, such as satellite image data. In the war, the commander need have immediate information about the status of the warfare region to constructing plan logical warfare. The article solve the problem faster landcover classification based on spectral clustering methods in service of camouflage using Landsat satellite image. Keywords: Spectral clustering, Satellite image, Fuzzy c-means, Landcover classification. Nhận bài ngày 05 tháng 01 năm 2017 Hoàn thiện ngày 06 tháng 02 năm 2017 Chấp nhận đăng ngày 18 tháng 8 năm 2017 Địa chỉ: 1 Học viện Kỹ thuật quân sự; 2 Học viện Lục quân ; 3 Lớp cao học CNTT Khóa 27 – Học viện Kỹ thuật quân sự. * Email: [email protected].

Các file đính kèm theo tài liệu này:

19_sinh_9978_2151740.pdf