Tài liệu Mạng nơron phân cụm Min-Max mờ dựa trên tâm cụm dữ liệu - Vũ Đình Minh: Công nghệ thông tin
V. Đ. Minh, N. D. Cường, N. T. L. Hương, “Mạng nơron phân cụm tâm cụm dữ liệu.” 20
MẠNG NƠRON PHÂN CỤM MIN-MAX MỜ
DỰA TRÊN TÂM CỤM DỮ LIỆU
Vũ Đình Minh1, Nguyễn Doãn Cường2*, Nguyễn Thị Lan Hương1
Tóm tắt: Mạng nơron min-max mờ (FMNN) là một loại mạng nơron dựa trên
hình thức các hyperbox cho phân loại và dự báo. Bài báo này trình bày một mạng
nơron được cải tiến từ mô hình mạng nơron phân cụm min-max mờ FMNN của
Simpson. Mô hình cải tiến được gọi là Centroid-based FMNN (CFMNN) nhằm cải
thiện hiệu suất phân cụm của FMNN. CFMNN sử dụng khoảng cách của mẫu dữ
liệu với tâm cụm dữ liệu thuộc hyperbox để điều chỉnh các hyperbox. Các thực
nghiệm đã được chúng tôi tiến hành trên các tập dữ liệu PID, Wine và tập dữ liệu
thực tế bao gồm 1.500 hồ sơ bệnh nhân để so sánh CFMNN với FMNN đã được
công bố trước đây. Các kết quả thử nghiệm cho thấy tiềm năng của CFMNN trong
phân cụm dữ liệu.
Từ khóa: Min-max mờ, Mạng nơron min-max mờ, Phân cụm, Tâm cụ...
13 trang |
Chia sẻ: quangot475 | Lượt xem: 486 | Lượt tải: 0
Bạn đang xem nội dung tài liệu Mạng nơron phân cụm Min-Max mờ dựa trên tâm cụm dữ liệu - Vũ Đình Minh, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
Công nghệ thông tin
V. Đ. Minh, N. D. Cường, N. T. L. Hương, “Mạng nơron phân cụm tâm cụm dữ liệu.” 20
MẠNG NƠRON PHÂN CỤM MIN-MAX MỜ
DỰA TRÊN TÂM CỤM DỮ LIỆU
Vũ Đình Minh1, Nguyễn Doãn Cường2*, Nguyễn Thị Lan Hương1
Tóm tắt: Mạng nơron min-max mờ (FMNN) là một loại mạng nơron dựa trên
hình thức các hyperbox cho phân loại và dự báo. Bài báo này trình bày một mạng
nơron được cải tiến từ mô hình mạng nơron phân cụm min-max mờ FMNN của
Simpson. Mô hình cải tiến được gọi là Centroid-based FMNN (CFMNN) nhằm cải
thiện hiệu suất phân cụm của FMNN. CFMNN sử dụng khoảng cách của mẫu dữ
liệu với tâm cụm dữ liệu thuộc hyperbox để điều chỉnh các hyperbox. Các thực
nghiệm đã được chúng tôi tiến hành trên các tập dữ liệu PID, Wine và tập dữ liệu
thực tế bao gồm 1.500 hồ sơ bệnh nhân để so sánh CFMNN với FMNN đã được
công bố trước đây. Các kết quả thử nghiệm cho thấy tiềm năng của CFMNN trong
phân cụm dữ liệu.
Từ khóa: Min-max mờ, Mạng nơron min-max mờ, Phân cụm, Tâm cụm, Tâm hộp.
1. ĐẶT VẤN ĐỀ
Từ lý thuyết tập mờ [15] được Zadeh đưa ra vào năm 1965, đã có nhiều nghiên
cứu về nhận biết và phân loại với tập mờ. Trong đó, có rất nhiều nhà khoa học chú
ý đến sự hợp nhất của logic mờ và mạng nơron để phát triển hệ thống thông minh
[3, 12, 14]. Lý do chính là khả năng kết hợp lý luận mờ trong xử lý thông tin
không chắc chắn với khả năng học của mạng nơron mờ [2, 13, 17, 16].
Dựa trên những ưu điểm của việc kết hợp logic mờ và mạng nơron, Simpson
đã đề xuất một mô hình mạng nơron mờ min-max (FMNN) [10, 11], cho phép kết
hợp mạng nơron và lý thuyết min-max mờ (FMM) để giải quyết bài toán phân lớp
và phân cụm.
Mô hình FMNN của Simpson sử dụng phương pháp dựa trên dữ liệu, là mô
hình mạng nơron học gia tăng cho khẳ năng xử lý các bộ dữ liệu quy mô lớn [14].
Học gia tăng là một kỹ thuật hiệu quả trong khám phá tri thức vì nó cho phép sử
dụng lại, bổ sung thông tin trong một lần duyệt [4]. Một lợi thế của việc học gia
tăng là tất cả các dữ liệu huấn luyện có thể ngay lập tức sử dụng cho việc học thay
vì chờ đợi cho một tập huấn được đào tạo lại.
FMNN dựa trên sự tổng hợp của các hyperbox mờ [1] để xác định và giới hạn
các không gian con trong không gian mẫu n-chiều. Mỗi hyperbox mờ là một không
gian con được xác định bằng hai điểm min và max. Kích thước của hyperbox mờ
là một giá trị trong khoảng từ 0 đến 1, mỗi mẫu vào được phân loại dựa trên mức
độ thuộc với các hyperbox mờ tương ứng.
Thuật toán học của FMNN nhằm mục tiêu tạo và điều chỉnh các hyperbox
trong không gian n-chiều. Nếu quá trình mở rộng tạo ra sự chồng lấn giữa các
hyperbox thì thực hiện quá trình co lại để khử chồng lấn. Nói cách khác, FMNN
phân cụm bằng cách tạo ra các hyperbox, mỗi hyperbox đại diện cho một cụm sẽ
tương ứng là một nơron trong lớp đầu ra.
Dựa trên mô hình FMNN gốc, một số biến thể đã được phát triển. Các nghiên
cứu trong [8, 9] đã cải tiến FMNN bằng cách sử dụng hệ số khoảng cách tương
quan CCC (Cophenetic Correlation Coefficient) so với tâm hình học của hyperbox.
Nghiên cứu khoa học công nghệ
Tạp chí Nghiên cứu KH&CN quân sự, Số Đặc san CNTT, 12 - 2017 21
Một mạng FMNN mới được Quteishat và Lim đề xuất để giải quyết hiện tượng
mạng chỉ có số ít hyperboxes có kích thước lớn được tạo ra [7]. Cả hai đề xuất trên
đều dựa trên tâm hình học của các hyperbox, các tác giả đã hiệu chỉnh điểm min
và max của hyperbox dựa trên khoảng cách giữa mẫu và tâm hyperbox. Điều này
thật tốt khi dữ liệu có độ nhiễu thấp, phân bố tương đối đều. Nhưng khi dữ liệu có
độ nhiễu cao, phân bố không đều trong hyperbox sẽ dẫn đến phân loại sai, làm
giảm hiệu quả thuật toán.
Trong bài báo này, chúng tôi đề xuất một mô hình nâng cao hiệu quả phân cụm
được cải tiến từ mô hình gốc của Simpson và các tác giả trong [7, 8, 9], bằng cách
xác định khoảng cách của các mẫu tới tâm của hyperbox và tâm của cụm dữ liệu
thuộc hyperbox tương ứng trong FMNN. Việc điều chỉnh điểm min và max của
hyperbox phụ thuộc vào khoảng cách giữa mẫu vào và tâm cụm và tâm hình học
của hyperbox khi giá trị hàm thuộc của hyperbox giảm nhiều. Hiệu quả được đánh
giá bằng cách sử dụng thuật toán sửa đổi để phân cụm trên các tập dữ liệu Wine,
PID từ UCI và tập dữ liệu thực tế bao gồm 1.500 hồ sơ bệnh nhân đến khám và
điều trị bệnh do tăng men gan tại bệnh viện Đa khoa TW Thái Nguyên và Bệnh
Viện Gang Thép Thái Nguyên.
Các phần còn lại của bài báo bao gồm: phần 2 tổng hợp lại nghiên cứu nền tảng
về thuật toán mờ min-max và mô hình mạng nơron phân cụm mờ min-max FMNN.
Phần 3 trình bày mô hình CFMNN đề xuất. Phần 4 trình bày các kết quả thực
nghiệm và phần 5 kết luận.
2. MẠNG NƠRON PHÂN CỤM MIN-MAX MỜ
2.1. Hàm thuộc hyperbox mờ
Một hyperbox là một vùng của không gian mẫu n-chiều với các mẫu đi kèm
với hàm thuộc. Kích thước mỗi chiều (ký hiệu là ) của hyperbox nhận giá trị
trong khoảng từ 0 đến 1. Không gian mẫu n-chiều có đơn vị là In. Hàm thuộc bj của
hyperbox mờ mô tả mức độ thuộc của mẫu vào hyperbox Bj, có giá trị trong
khoảng từ 0 đến 1. Hình 1 là ví dụ biểu diễn giá trị min-max của hyperbox trong
không gian 2-chiều với V điểm min và W là điểm max.
Hình 1. Hyperbox 2D.
Hyperbox mờ Bj thứ j được định nghĩa như sau:
, , , , ,j h j j j h j jB A V W b A V W
Trong đó:
- 1 2, ,...,
n
h h h hnA a a a I là mẫu dữ liệu thứ h trong tập dữ liệu.
- 1 2, ,...,j j j jnV v v v là điểm min của Bj
- 1 2, ,...,j j j jnW w w w là điểm max của Bj
Công nghệ thông tin
V. Đ. Minh, N. D. Cường, N. T. L. Hương, “Mạng nơron phân cụm tâm cụm dữ liệu.” 22
- , , Wj h j jb A V là hàm thuộc của mẫu vào Ah tương ứng với hyperbox Bj,
0 ≤ , , Wj h j jb A V ≤ 1.
Giá trị hàm thuộc bj mô tả độ thuộc của mẫu Ah vào hyperbox Bj được nghĩa
thông qua Vj và Wj theo (1):
1
1
, , W 1 , ,
n
j h j j hi ji ji hi
i
b A V f a w f v a
n
(1)
Trong đó:
- f(x,y) là hàm ngưỡng hai tham số, được xác định như sau:
- là tham số độ nhạy dùng để điều chỉnh giảm nhanh giá trị hàm thuộc khi
một mẫu vào bị tách ra khỏi hyperbox.
Hình 2 là một ví dụ mô phỏng hàm thuộc bj với hyperbox có điểm min
V=(0,3;0,3) và điểm max W=(0,7;0,5).
Hình 2. Ví dụ về độ thuộc của hyperbox có V=(0,3;0,3), W=(0,7;0,5).
2.2. Thuật toán học phân cụm min-max mờ
Thuật toán học phân cụm min-max mờ là quá trình điều chỉnh mở rộng/co lại
các hyperbox.
Giả sử tập huấn luyện D ban đầu gồm m mẫu, với 1 2, ,...,
n
h h h hnA a a a I là
mẫu vào thứ h (h = 1, 2,, m) của tập D. Quá trình học bắt đầu bằng việc lựa chọn
lần lượt các mẫu AhD và tìm các hyperbox gần nhất để có thể mở rộng thêm mẫu.
Nếu không thể tìm thấy một hyperbox nào thỏa mãn các tiêu chí mở rộng, một
hyperbox mới được tạo ra. Quá trình tăng trưởng này cho phép các cụm được tinh
chỉnh theo thời gian, và cho phép các cụm mới được thêm vào mà không cần đào
tạo lại.
Vấn đề xảy ra khi thực hiện mở rộng hyperbox tạo nên sự chồng lấn giữa các
hyperbox. Sự chồng lấn hyperbox tạo nên sự không rõ ràng, đây chính là điều gây
nên sự một mẫu có giá trị hàm thuộc như nhau tới các cụm khác nhau, giá trị hàm
thuộc bằng 1. FMNN thực hiện điều chỉnh co lại các hyperbox để loại trừ sự chồng
Nghiên cứu khoa học công nghệ
Tạp chí Nghiên cứu KH&CN quân sự, Số Đặc san CNTT, 12 - 2017 23
lấn. FMNN sử dụng 2 tập C (Committed) và U (Uncommitted), tập C gồm các
hyperbox có các điểm min, max đã được điều chỉnh và U gồm các hyperbox đang
chờ điều chỉnh. Với tập U do người dùng ước lượng số hyperbox tối đa có thể
được tạo ra.
Thuật toán học gồm 4 bước:
- Khởi tạo các hyperbox
- Mở rộng hyperbox
- Kiểm tra chồng lấn hyperbox
- Điều chỉnh chồng lấn
Các bước được mô tả chi tiết như sau:
Bước 1. Khởi tạo các hyperbox trong tập U: Khởi tạo giá trị ban đầu của các
hyperbox Bj U theo (2) và (3):
1jV (2)
0jW (3)
trong đó, 1 là vector n-chiều có các giá trị bằng 1; 0 là vector n-chiều có các giá
trị = 0.
Thuật toán học thực hiện chuyển hyperbox từ tập U đưa vào tập C. Khi một
hyperbox được chuyển, các điểm min và max được điều chỉnh theo (4).
Vj = Wj = Ah (4)
Bước 2. Mở rộng hyperbox: Với mỗi mẫu vào Ah, tìm một hyperbox Bj có độ
thuộc cao nhất theo (1) trong số các hyperbox thỏa mãn biểu thức điều kiện giới
hạn kích thước (5).
1
1
max , min ,
n
ji hi ji hi
i
w a v a
n
(5)
Điều chỉnh các điểm min, max của hyperbox Bj theo (6) và (7).
min , 1, 2,...,new oldji ji hiv v a i n (6)
max , 1, 2,...,new oldji ji hiw w a i n (7)
Nếu không có hyperbox nào thỏa mãn (5), tạo một hyperbox mới. Việc tạo ra
hyperbox mới trong C thực chất là chuyển hyperbox từ tập U đưa vào tập C. Khởi
tạo các điểm min, max của hyperbox đó theo (4).
Bước 3. Kiểm tra chồng lấn hyperbox: Giả sử hyperbox Bk vừa được điều chỉnh
cần được kiểm tra chồng lấn so với Bj. Thực hiện so sánh trên các chiều tương ứng
giữa Bj và Bk, nếu Bj và Bk có chồng lấn, thì xảy ra một trong các trường hợp sau
(trên mỗi chiều):
- Case 1: ji ki ji kiv v w w (8)
- Case 2: ki ji ki jiv v w w (9)
- Case 3: ji ki ki jiv v w w (10)
- Case 4: ki ji ji kiv v w w (11)
Công nghệ thông tin
V. Đ. Minh, N. D. Cường, N. T. L. Hương, “Mạng nơron phân cụm tâm cụm dữ liệu.” 24
- Case 5: ji ki ji kiv v w w (12)
- Case 6: ji ki ji kiv v w w (13)
- Case 7: ki ji ki jiv v w w (14)
- Case 8: ki ji ki jiv v w w (15)
- Case 9: ji ki ji kiv v w w (16)
- Case 10: ki ji ki jiv v w w (17)
Bước 4. Điều chỉnh chồng lấn: Nếu hyperbox Bj và Bk có chồng lấn, thực hiện
điều chỉnh để loại bỏ chồng lấn theo các trường hợp tương ứng:
- Case 1: if
ji ki ji kiv v w w then: ( ) / 2
new new old old
ki ji ki jiv w v w (18)
- Case 2: if
ki ji ki jiv v w w then:
( ) / 2new new old oldji ki ji kiv w v w (19)
- Case 3: if ki ji ji kiw v w v then:
new old
ji kiv w (20)
otherwise: new oldji kiw v (21)
- Case 4: if ji ki ki jiw v w v then:
new old
ki jiv w (22)
otherwise: new oldki jiw v
(23)
- Case 5: if w wji ki ji kiv v then ( ) / 2
new new old old
ki ji ki jiv w v w (24)
- Case 6: if = ji ki ji kiv v w w then ( ) / 2
new new old old
ji ki ki jiv w v w (25)
- Case 7: if ki ji ki jiv v w w then ( ) / 2
new new old old
ji ki ji kiv w v w (26)
- Case 8: if = ki ji ki jiv v w w then ( ) / 2
new new old old
ji ki ji kiv w v w (27)
- Case 9: if
ji ki ji kiv v w w
then ( ) / 2new new old oldji ki ji kiv w v w (28)
- Case 10: if = ji ki ji kiv v w w then ( )
new new old old
ki ji ki jiv w v w
(29)
Các bước từ 2 đến 4 được lặp lại đối với tất cả các mẫu trong tập dữ liệu. Điều
kiện dừng của thuật toán là khi các hyperbox ổn định, tức là tất cả các điểm min và
max của các hyperbox không thay đổi hoặc thay đổi dưới một ngưỡng cho phép
trong khi duyệt mẫu kế tiếp của tập dữ liệu.
2.3. Mạng nơron phân cụm min-max mờ
Cấu trúc mạng nơron FMNN [11] gồm 2 lớp được mô tả trên hình 3, lớp vào FA
gồm n nút (mỗi nút là một chiều của mẫu dữ liệu), lớp ra FB gồm m nút (mỗi nút là
một cụm).
a2
a3
b1
b2
bq
Ah2
Ah3
Ahn
a4
b3 Ah4
Hình 3. Mô hình mạng nơron FMNN.
Nghiên cứu khoa học công nghệ
Tạp chí Nghiên cứu KH&CN quân sự, Số Đặc san CNTT, 12 - 2017 25
Mỗi một nơron thứ j được kết nối với các đầu vào thông qua một bộ trọng số
kép, tương ứng là hai vector Vj và Wj (hình 4).
Hình 4. Minh họa cấu tạo của một nơron bj.
Mỗi đầu vào gắn với một thành phần của Ah. Kết nối giữa đầu vào thứ i và nút
thứ j trong FB thông qua hai trọng số min vij và max wij. Tức là các điểm min và
max của nút thứ j là các vector:
1 2, ,...,j j j jnV v v v
và
1 2, ,...,j j j jnW w w w .
Với mẫu vào Ah, giá trị ra của , , Wj h j jb A V được tính theo (1).
3. ĐỀ XUẤT CẢI TIẾN HÀM THUỘC
DỰA TRÊN TÂM CỤM DỮ LIỆU CỦA HYPERBOX
Trong giai đoạn dự báo của FMNN [11], các mẫu được phân cụm dựa trên các
giá trị hàm thuộc và mẫu sẽ thuộc về hyperbox có giá trị hàm thuộc cao nhất.
Bài báo đề xuất một phương pháp khác trong giai đoạn dự báo của FMNN.
Phương pháp này dựa trên khoảng cách giữa các mẫu vào và tâm cụm dữ liệu hay
tâm hình học của hyperbox tương ứng gọi là CFMNN. Ngoài hai điểm min và
max, mỗi cụm dữ liệu thuộc hyperbox tương ứng có tâm cụm được tính theo (30)
và tâm của hyperbox tính theo (31).
1
1 k
ji li
l
d a
k
(30)
2
ji ji
ji
v w
c
(31)
với dji là tâm cụm dữ liệu của hyperbox thứ j theo chiều thứ i, l là số mẫu thuộc
hyperbox j, cji là tâm hình học của hyperbox thứ j theo chiều thứ i, vji và wji là 2
điểm min, max của hyperbox j theo chiều thứ i.
Khoảng cách giữa mẫu vào thứ h và tâm hình học của hyperbox thứ j (ECjh)
được tính theo (32):
2
1
1
1
n
j ji hi
i
ED d a
n
(32)
Khoảng cách giữa mẫu vào thứ h và tâm của cụm dữ liệu thuộc hyperbox thứ j
(EDjh) được tính theo (33):
Công nghệ thông tin
V. Đ. Minh, N. D. Cường, N. T. L. Hương, “Mạng nơron phân cụm tâm cụm dữ liệu.” 26
2
1
1
1
n
j ji hi
i
EC c a
n
(33)
với Ejh là khoảng cách Euclidean giữa hyperbox thứ j và mẫu vào thứ h.
Hình 2 cho thấy, khi bj ≤ 0.6 thì giá trị của bj không giảm dần khi mẫu dời xa
hyperbox. Không những vậy, khi có nhiều hơn một bj đạt max, FMNN sẽ phân loại
một cách ngẫu nhiên. Đây chính là lý do khiến FMNN phân loại sai, làm giảm hiệu
suất của mạng FMNN.
Để khắc phục nhược điểm này, chúng tôi hiệu chỉnh như sau: Với mỗi mẫu vào
Ah thỏa mãn điều kiện gới hạn kích thước (5) mà giá trị hàm thuộc
bj ≤ 0.6 hoặc có nhiều hơn một bj là cực đại, khoảng cách EDj, ECj được tính toán
và so sánh. Mẫu vào Ah sẽ thuộc vào hyperbox nào có giá trị EDj, ECj lớn nhất
(hay khoảng cách bé nhất). Điều này có nghĩa, việc điều chỉnh các điểm min, điểm
max của hyperbox thuật toán học trong CFMNN không những phụ thuộc vào hàm
thuộc bj và còn phụ thuộc vào khoảng cách giữa mẫu với tâm cụm dữ liệu và tâm
hình học hyperbox tùy theo điều kiện cụ thể. Tâm cụm dữ liệu và tâm hình học của
hyperbox chỉ được tính toán khi có điều kiện phụ xảy ra.
Hình 5 mô phỏng trường hợp so sánh khoảng cách giữa mẫu vào Ah với hai
hyperbox. D1 là tâm dữ liệu của hyperbox 1, D2 là tâm dữ liệu của hyperbox 2, C1
là tâm hình học của hyperbox 1, C2 là tâm hình học của hyperbox 2. c1, c2 là
khoảng cách Euclidean giữa mẫu vào với tâm hình học của hyperbox 1, 2 tương
ứng. d1, d2 là khoảng cách Euclidean giữa mẫu vào Ah với tâm dữ liệu thuộc
hyperbox 1, 2 tương ứng. Vì d2 < c1 < c2 < d1 dẫn tới ED2 đạt max, mẫu vào được
đưa vào hyperbox 2 (mở rộng hyperbox 2).
Hình 5. Ví dụ mô tả so sánh khoảng cách mẫu vào với tâm cụm dữ liệu
và tâm hình học của hyperbox.
4. THỰC NGHIỆM
Trong phần này, hiệu năng của mô hình CFMNN được đánh giá và so sánh với
các phương pháp FMNN [11], M-FMN [8].
4.1. Dữ liệu thực nghiệm
Các thực hiện thực nghiệm được tiến hành trên các tập dữ liệu Wine, PID
(Pima Indian Diabetes), từ kho dữ liệu học máy UCI và một bộ dữ liệu được thu
thập tại bệnh viện TN.
Nghiên cứu khoa học công nghệ
Tạp chí Nghiên cứu KH&CN quân sự, Số Đặc san CNTT, 12 - 2017 27
- Tập dữ liệu PID gồm 768 mẫu với 8 thuộc tính được chia làm hai nhóm,
nhóm thứ nhất gồm 268 bệnh nhân bị mắc bệnh tiểu đường và nhóm còn lại
gồm 500 người được cho là khỏe mạnh.
- Tập dữ liệu Wine chứa các thông tin về các loại rượu vang được trồng ở
các khu vực tại Italy, nhưng xuất phát từ ba giống khác nhau. Các phân tích
xác định số lượng của 13 thành phần được tìm thấy trong mỗi loại rượu
vang của 178 mẫu với 13 thuộc tính chia làm 3 nhóm thuộc 3 trường hợp:
nhóm 1 gồm 59 mẫu, nhóm 2 gồm 71 mẫu, nhóm 3 gồm 48 mẫu.
Trong thực nghiệm với bộ dữ liệu của các bệnh nhân được bác sĩ chỉ định cận
lâm sàng với các xét nghiệm men gan để đánh giá chức năng gan. Từ đó có thể
đánh giá xơ hóa gan một cách rộng rãi, lặp lại nhiều lần đối với viêm gan mạn, do
đó rất có ý nghĩa trong việc phát hiện và theo dõi diễn tiến bệnh, nhất là theo dõi
đáp ứng về mặt giảm mức độ xơ hóa sau điều trị viêm gan mạn do vi-rút, bệnh gan
nhiễm mỡ không do rượu và bệnh gan rượu. Tập dữ liệu này gồm 1.500 bệnh nhân
đến khám và điều trị bệnh do rối loạn men gan tại Bệnh viện Gang thép Thái
Nguyên và Bệnh Viện Đa khoa Trung ương Thái Nguyên. Mỗi hồ sơ bệnh nhân
chứa các thông tin liên quan đến bệnh nhân đến khám và điều trị các bệnh do rối
loạn men gan. Trong số 1.500 hồ sơ bệnh nhân gồm 3 nhóm: nhóm 1 gồm 650 hồ
sơ bệnh nhân được cho là không mắc các bệnh; nhóm 2 gồm 450 hồ sơ bệnh nhân
được chuẩn đoán là viêm gan và nhóm 3 gồm 400 hồ sơ bệnh nhân được chuẩn
đoán là mắc bệnh xơ gan. Các thông tin sau được trích từ hồ sơ bệnh nhân, có liên
quan đến chuẩn đoán bệnh của bác sĩ (một số thông tin khác được bảo vệ vì lý do
bảo mật). Các thông tin bao gồm:
1) Tuổi: tính đến ngày làm xét nghiệm (tuổi lớn hơn 90 được coi là 90 tuổi)
2) Giới tính: mô tả giới tính của bệnh nhân (0: nam; 1: nữ)
3) Men AST (Aspartat transaminase) hay còn gọi là SGOT.
4) Men ALT(Alanin aminotransferase)
5) Chỉ số AST/ALT
6) Men GGT (Gamma Glutamyl Transferase hay gamma GT)
7) Albumin
8) Bilirubin toàn phần
9) Bilirubin trực tiếp
10) Chỉ số Bilirubin trực tiếp / Bilirubin toàn phần
Các thông tin trên được cấu thành 10 thuộc tính đầu vào cho thực nghiệm.
4.2. Thực nghiệm và đánh giá
4.2.1. Thực nghiệm trên bộ dữ liệu chuẩn
Thực nghiệm đầu tiên được tiến hành bằng cách sử dụng tập dữ liệu Wine và
PID. Các mẫu dữ liệu mắc lỗi (“missing values”) được loại bỏ khỏi tập dữ liệu
Công nghệ thông tin
V. Đ. Minh, N. D. Cường, N. T. L. Hương, “Mạng nơron phân cụm tâm cụm dữ liệu.” 28
thực nghiệm. Chúng tôi chia tập dữ liệu thành 5 phần có kích thước xấp xỉ nhau, 4
phần được sử dụng cho tập huấn luyện và phần còn lại là tập kiểm tra. Quá trình
học và kiểm tra được thực hiện 5 lần, với mỗi lần tập huấn luyện và tập kiểm tra
được hoán đổi cho nhau. Kết quả là giá trị trung bình của các lần thực nghiệm. Các
bộ dữ liệu đã được sử dụng sau khi chuẩn hóa mỗi giá trị thuộc tính cho một số
thực trong khoảng [1,0].
Bảng 1 là kết quả phân loại đúng trên tập dữ liệu Wine của mô hình FMNN,
M-FMN và CFMNN với = 0.7 và = 20. Acc là độ chính xác trên tập dữ liệu
Wine. AccC1, AccC2, AccC3 là độ chính xác trên tập dữ liệu Wine tính riêng cho
từng cụm tương ứng. Kết quả cho thấy CFMN tốt hơn hai phương pháp còn lại.
Bảng 1. Tỉ lệ nhận dạng đúng trên tập dữ liệu Wine khi = 0,7.
Mô hình Acc AccC1 AccC2 AccC3
FMNN 87,33 96,00 83,75 82,50
M-FMN 89,00 96,00 85,00 85,83
CFMN 91,00 97,00 85,00 90,00
Bảng 2 là kết quả thực nghiệm trên tập dữ liệu PID khi chúng tôi thay đổi giá
trị của tham số từ 0,1 đến 0,9. Kết quả nhận dạng tốt nhất của FMNN là 61,92%
và CFMNN là 70,49% đối với tập dữ liệu PID khi tham số kích thước hyperbox
là 0,4.
Bảng 2. Tỉ lệ nhận dạng đúng của FMNN, M-FMN[8],
CFMNN trên tập dữ liệu PID.
FMNN M-FMN CFMNN
0,1 59,01 63,70 64,35
0,2 60,34 64,63 65,95
0,3 60,84 66,56 68,62
0,4 61,92 69,08 70,49
0,5 60,92 67,68 69,78
0,6 60,18 67,15 68,53
0,7 56,86 62,82 63,46
0,8 52,62 57,92 59,72
0,9 50,13 53,69 55,36
Hình 6 biểu diễn kết quả nhận dạng đúng của FMNN và CFMNN trên tập dữ
liệu PID khi thay đổi tham số từ 0,1 đến 0,9 với bước thay đổi bằng 0,1.
Nghiên cứu khoa học công nghệ
Tạp chí Nghiên cứu KH&CN quân sự, Số Đặc san CNTT, 12 - 2017 29
Hình 6. Xu hướng biến động kết quả khi thay đổi tham số trên tập dữ liệu PID.
4.2.2. Thực nghiệm trên cơ sở dữ liệu bệnh nhân
Trong thực nghiệm với tập dữ liệu bệnh nhân, chúng tôi chọn ngẫu nhiên 400
mẫu từ mỗi nhóm hình thành tập dữ liệu với 1.200 mẫu chứa đầy đủ thông tin. Từ
1.200 mẫu được chọn, chúng tôi chia thành 5 phần có kích thước xấp xỉ nhau, 4
phần được sử dụng cho tập huấn luyện và phần còn lại là tập kiểm tra. Quá trình
học và kiểm tra được thực hiện 5 lần, với mỗi lần tập huấn luyện và tập kiểm tra
được hoán đổi cho nhau. Kết quả là giá trị trung bình sau 5 lần thực nghiệm. Trong
mỗi thực nghiệm.
Trong các thực nghiệm, phương pháp đánh giá các kết quả theo thống kê để tính
trung bình bao gồm các chỉ số: độ chính xác Acc (Test Accuracy), độ nhạy AccSe
(Accuracy Sensitivity), độ đặc hiệu AccSp (Accuracy Specificity), giá trị dự đoán
âm NPV (Negative predictive value), Giá trị dự đoán dương PPV (Positive
Predictive Value) số các hyperbox NoH (Number of Hyperboxes): Cách tính độ
nhạy và độ đặc hiệu như sau:
Acc =(a+d)/(a+b+c+d);
AccSe = a/(a+c);
AccSp = d/(b+d);
PPV = a / (a+b );
NPV = d/ (d+c)
trong đó a, b, c, d là các giá trị chuẩn đoán quy ước trên bảng 3.
Bảng 3. Các giá trị quy ước trong chuẩn đoán.
Kết quả Có bệnh Khỏe mạnh Tổng cộng
+ a b a+b
- c d c+d
Tổng cộng a+c b+d a+b+c+d
Bảng 4 là kết quả so sánh các chỉ số được thực hiện bởi FMM, M-FMM và
CFMNN. Tham số = 20, kích thước hyperbox =0.6.
Công nghệ thông tin
V. Đ. Minh, N. D. Cường, N. T. L. Hương, “Mạng nơron phân cụm tâm cụm dữ liệu.” 30
Bảng 4. Thống kê kết quả Acc, AccSp, AccSe, PPV, NPV, NoH được thực hiện bởi
FMNN, M-FMM, CFMNN.
Phương pháp Acc AccSe AccSp PPV NPV
FMNN 75,4 768,2 76,2 75,3 76,9
M-FMM 80,3 79,1 79,9 80,0 78,9
CFMNN 88,6 84,3 92,7 85,5 92,0
Bảng 5 là kết quả so sánh các chỉ số được thực hiện bởi FMM, M-FMM,
CFMNN. Trong thực nghiệm này, chúng tôi thay đổi kích thước hyperbox từ 0.05
đến 0.8 với bước thay đổi là 0,05. Kết quả thực nghiệm của
Bảng 5. Kết quả phân loại đúng được thực hiện bởi FMM, M-FMM, CFMNN khi
thay đổi tham số .
FMNN M-FMM CFMNN
0,05 77,28 76,97 89,68
0,10 79,12 78,50 90,75
0,15 80,49 80,34 91,51
0,20 81,41 82,02 91,97
0,25 82,48 81,72 92,89
0,30 83,10 83,86 93,81
0,35 79,58 80,03 92,89
0,40 76,52 77,28 92,12
0,45 74,98 75,90 91,05
0,50 71,92 73,30 90,59
0,55 68,86 67,64 89,22
0,60 67,33 66,42 87,07
0,65 64,27 63,51 85,08
0,70 62,44 62,13 80,95
0,75 61,52 60,91 77,28
0,80 58,15 57,85 74,22
5. KẾT LUẬN
Bài báo đã trình bày mô hình mạng nơron phân cụm dữ liệu min-max mờ
FMNN và CFMNN được cải tiến từ mô hình FMNN của Simson. Giá trị hàm
thuộc trong đề xuất của chúng tôi được tính toán dựa trên khoảng cách Euclidean
giữa các mẫu vào và tâm của hyperbox và tâm của cụm dữ liệu thuộc hyperbox
tương ứng. Các kết quả thực nghiệm cho thấy CFMNN có kết quả tốt hơn FMNN
và M-FMM khi thực nghiệm trên tập dữ liệu PID, Wine và 1.500 bệnh nhân đến
khám và điều trị bệnh do rối loạn men gan tại Bệnh viện Gang thép Thái Nguyên
và Bệnh Viện Đa khoa Trung ương Thái Nguyên.
Nghiên cứu khoa học công nghệ
Tạp chí Nghiên cứu KH&CN quân sự, Số Đặc san CNTT, 12 - 2017 31
Tuy nhiên, để đạt được kết quả phân cụm tốt thì cả hai mô hình CFMNN và
FMNN đòi hỏi thời gian và kinh nghiệm bằng việc “thử sai” nhiều lần để xác định
các tham số điều chỉnh. Đây cũng là hạn chế của thuật toán phân cụm min-max mờ
nói riêng và của hầu hết các mô hình mạng nơron nói chung. Ngoài ra, việc xác
định kích thước giới hạn chung cho tất cả các cụm (hyperbox) bằng ngưỡng là
một vấn đề cần phải xem xét, do thực tế kích thước và mật độ dữ liệu của mỗi cụm
dữ liệu trong không gian đầu vào là hoàn toàn khác nhau. Đây cũng là một hướng
nghiên cứu tiếp theo cần được xem xét.
TÀI LIỆU THAM KHẢO
[1]. B. Alpern and L. Carter, “The hyperbox,” in Proc. IEEE Conf. Visual., Oct.
1991, pp. 133–139. [12]
[2]. Kosko, B., & Burgess, J. C. (1998). “Neural networks and fuzzy systems”.
The Journal of the Acoustical Society of America, 103(6), 3131-3131. [5]
[3]. Lin, F. J., & Shen, P. H. (2006). “Robust fuzzy neural network sliding-mode
control for two-axis motion control system”. IEEE Transactions on Industrial
Electronics, 53(4), 1209-1225. [2]
[4]. Luo, C., Li, T., Chen, H., & Liu, D. (2013). “Incremental approaches for
updating approximations in set-valued ordered information systems”.
Knowledge-Based Systems, 50, 218-233. [15]
[5]. Martínez-Rego, D., Fontenla-Romero, O., & Alonso-Betanzos, A. (2012).
“Nonlinear single layer neural network training algorithm for incremental,
nonstationary and distributed learning scenarios”. Pattern Recognition, 45(12),
4536-4546. [14]
[6]. Quteishat, A. M., & Lim, C. P. (2007). “A modified fuzzy min-max neural
network and its application to fault classification”. In Soft computing in
industrial applications (pp. 179-188). Springer, Berlin, Heidelberg. [9]
[7]. Quteishat, A., & Lim, C. P. (2008). “A modified fuzzy min–max neural
network with rule extraction and its application to fault detection and
classification”. Applied Soft Computing, 8(2), 985-995. [16]
[8]. Seera, M., Lim, C. P., Loo, C. K., & Jain, L. C. (2016). “Data Clustering
Using a Modified Fuzzy Min-Max Neural Network”. In Soft Computing
Applications(pp. 413-422). Springer, Cham [17]
[9]. Seera, M., Lim, C. P., Loo, C. K., & Singh, H. (2015). “A modified fuzzy min–
max neural network for data clustering and its application to power quality
monitoring”. Applied Soft Computing, 28, 19-29. [13]
[10].Simpson, P. K. (1992). “Fuzzy min-max neural networks”. I. Classification.
IEEE transactions on Neural Networks, 3(5), 776-786. [10]
[11].Simpson, P. K. (1993). “Fuzzy min-max neural network—Part II: Clustering”.
IEEE Trans. Fuzzy Syst, 1(1), 32-45
[12]. Wai, R. J., & Lee, J. D. (2008). “Adaptive fuzzy-neural-network control for
maglev transportation system”. IEEE Transactions on Neural Networks,19(1),
54-70
Công nghệ thông tin
V. Đ. Minh, N. D. Cường, N. T. L. Hương, “Mạng nơron phân cụm tâm cụm dữ liệu.” 32
[13]. Wang, Z., Zhang, H., & Yu, W. (2009). “Robust stability of Cohen–
Grossberg neural networks via state transmission matrix”. IEEE Transactions
on Neural Networks, 20(1), 169-174
[14]. Yilmaz, S., & Oysal, Y. (2010). “Fuzzy wavelet neural network models for
prediction and identification of dynamical systems”. IEEE transactions on
neural networks, 21(10), 1599-1609
[15]. Zadeh, L. A. (1965). “Fuzzy sets”. Information and control, 8(3), 338-353.
[16]. Zhang, H., Luo, Y., & Liu, D. (2009). “Neural-network-based near-optimal
control for a class of discrete-time affine nonlinear systems with control
constraints”. IEEE Transactions on Neural Networks, 20(9), 1490-1503.
[17]. Zhang, H., Wang, Z., & Liu, D. (2008). “Global asymptotic stability of
recurrent neural networks with multiple time-varying delays”. IEEE
Transactions on Neural Networks, 19(5), 855-873.
ABSTRACT
FUZZY MIN-MAX NEURAL NETWORK CLUSTERING
BASED ON THE DATA CORE
The Fuzzy Min-max Neural Network (FMNN) is a neural network based
on the form of hyperboxes for classifier and prediction. An impoved fuzzy
min-max neural network FMNN of Simpson is presented in this paper. The
improved model is called centroid-based fuzzy min-max neural network
(CFMNN). CFMNN is used to improve its clustering performance by using
the distance between the pattern and the data core of the existing hyperbox
to adjust hyperbox. The experiments were conducted on data sets PID,
Wine and a real data including 1.500 samples of patients to compare
CFMNN and FMNN which have been published previously. The
experimental outcome positively indicates the potential of M-FMM in
undertaking data clustering tasks.
Keywords: Fuzzy min-max, Fuzzy min-max neural network, Clustering, data core, Hyperbox center.
Nhận bài ngày 16 tháng 8 năm 2017
Hoàn thiện ngày 26 tháng 11 năm 2017
Chấp nhận đăng ngày 28 tháng 11 năm 2017
Địa chỉ: 1 Trường Cao đẳng Công nghiệp Thái Nguyên;
2 Viện Khoa học và Công nghệ quân sự.
* Email: cuongvncntt@yahoo.com.
Các file đính kèm theo tài liệu này:
- 03_2897_2151873.pdf