Tài liệu Luận văn Ứng dụng mô hình nơron - mờ trong việc phát hiện tế bào cổ tử cung giai đoạn tiền ung thư: Luận văn
ứng dụng mô hình nơron -
mờ trong việc phát hiện tế
bào cổ tử cung giai đoạn
tiền ung thư
KH
OA
C
NT
T –
Đ
H
KH
TN
Trang 1
LỜI CẢM ƠN
Đầu tiên, em xin chân thành cám ơn Ban giám hiệu, các thầy cô trường Đại học
Khoa Học Tự Nhiên cùng các thầy cô Khoa Công Nghệ Thông Tin đã tận tình truyền
đạt những kiến thức quí báu cho chúng em trong suốt bốn năm học qua.
Tiếp đến, em xin gởi lời cám ơn chân thành nhất đến Tiến sĩ Lê Hoài Bắc. Thầy
đã cho em một định hướng đúng đắn cho đề tài của mình và luôn tận tình theo dõi quá
trình thực hiện đề tài cũng như giúp đỡ kịp thời khi cần thiết.
Em cũng xin chân thành cám ơn bác sĩ Trần Hòa, trưởng khoa Giải phẫu bệnh
(Bệnh viện C, Đà Nẵng) và Thạc sĩ Bác sĩ Nguyễn Thị Tuyết Mai (Bệnh viện Đa khoa,
Đà Nẵng) đã tận tình chỉ dẫn những kiến thức chuyên ngành cần thiết và tạo điều kiện
cho em tiếp cận thực tế.
Cuối cùng, em xin gởi tất cả tình cảm thân thương nhất đến gia đình, thầy cô và
bạn bè; nhữn...
87 trang |
Chia sẻ: haohao | Lượt xem: 1093 | Lượt tải: 2
Bạn đang xem trước 20 trang mẫu tài liệu Luận văn Ứng dụng mô hình nơron - mờ trong việc phát hiện tế bào cổ tử cung giai đoạn tiền ung thư, để tải tài liệu gốc về máy bạn click vào nút DOWNLOAD ở trên
Luận văn
ứng dụng mô hình nơron -
mờ trong việc phát hiện tế
bào cổ tử cung giai đoạn
tiền ung thư
KH
OA
C
NT
T –
Đ
H
KH
TN
Trang 1
LỜI CẢM ƠN
Đầu tiên, em xin chân thành cám ơn Ban giám hiệu, các thầy cô trường Đại học
Khoa Học Tự Nhiên cùng các thầy cô Khoa Công Nghệ Thông Tin đã tận tình truyền
đạt những kiến thức quí báu cho chúng em trong suốt bốn năm học qua.
Tiếp đến, em xin gởi lời cám ơn chân thành nhất đến Tiến sĩ Lê Hoài Bắc. Thầy
đã cho em một định hướng đúng đắn cho đề tài của mình và luôn tận tình theo dõi quá
trình thực hiện đề tài cũng như giúp đỡ kịp thời khi cần thiết.
Em cũng xin chân thành cám ơn bác sĩ Trần Hòa, trưởng khoa Giải phẫu bệnh
(Bệnh viện C, Đà Nẵng) và Thạc sĩ Bác sĩ Nguyễn Thị Tuyết Mai (Bệnh viện Đa khoa,
Đà Nẵng) đã tận tình chỉ dẫn những kiến thức chuyên ngành cần thiết và tạo điều kiện
cho em tiếp cận thực tế.
Cuối cùng, em xin gởi tất cả tình cảm thân thương nhất đến gia đình, thầy cô và
bạn bè; những người luôn ủng hộ em về mọi mặt.
TP. Hồ Chí Minh, ngày 1 tháng 7 năm 2004
Võ Thị Thuỷ Tú
KH
OA
C
NT
T –
Đ
H
KH
TN
Trang 2
LỜI NÓI ĐẦU
Ung thư là một nhóm các bệnh gồm hơn 100 căn bệnh khác nhau, trong đó các
bệnh này đều ảnh hưởng đến đơn vị cơ bản nhất của cơ thể sống, đó là tế bào. Ung thư
xuất hiện khi việc phân chia tế bào trở nên bất thường, không thể kiểm soát được từ đó
sẽ dẫn đến tử vong nhanh chóng. Tại hội thảo quốc tế “Ung thư phụ nữ và trẻ em” tổ
chức tại Hà Nội ngày 6 và 7 tháng 11 năm 2003, qua thống kê, mỗi năm Việt Nam có
100000 đến 150000 người mắc bệnh ung thư được phát hiện, trong đó số người tử
vong lên đến 70000 người. Các nghiên cứu đã chứng minh rằng nhiều loại bệnh ung
thư có thể ngăn chặn nếu được phát hiện và điều trị sớm, chẳng hạn như ung thư vú,
ung thư cổ tử cung, ung thư da, ung thư tuyến tiền liệt,… Khi các bệnh này được phát
hiện sớm và điều trị thích hợp, 95% bệnh nhân có thể sống thêm ít nhất 5 năm.
Ung thư cổ tử cung là loại ung thư phụ khoa nguy hiểm thứ hai sau ung thư vú,
chiếm khoảng 18% các trường hợp ung thư ở hệ cơ quan sinh dục nữ. Bệnh là nguyên
nhân gây tử vong do ung thư cao nhất cho phụ nữ ở các nước đang phát triển. Đó là do
những nước này chưa thực hiện chương trình khám sàng lọc nhằm phát hiện sớm ung
thư. Việc chẩn đoán và điều trị cho từng bệnh nhân bị chi phối bởi tiến triển bệnh tại
thời điểm chẩn đoán. Quá trình điều trị sẽ trở nên đơn giản, hiệu quả, với chi phí thấp
nếu bệnh được phát hiện trong giai đoạn tiền ung thư, ngược lại nếu không điều trị kịp
thời thì bệnh sẽ không chữa được. Vì vậy, phát hiện sớm ung thư cổ tử cung rất quan
trọng, liên quan đến lợi ích người bệnh và hiệu quả điều trị. Để làm được điều này, các
bác sĩ giải phẫu bệnh sẽ khám sàng lọc cho tất cả các bệnh nhân ở độ tuổi có thể mắc
bệnh.
Năm 1943, bác sĩ George Papanicolaou đã giới thiệu một phương pháp đơn
giản, hiệu quả, thích hợp cho việc chẩn đoán tế bào cổ tử cung trong giai đoạn tiền ung
thư; đó chính là xét nghiệm Pap. Xét nghiệm này thỉnh thoảng vẫn cho kết quả không
chính xác do nhiều nguyên nhân khách quan và chủ quan. Nhiều phụ nữ sau khi được
KH
OA
C
NT
T –
Đ
H
KH
TN
Trang 3
khám sàng lọc vẫn chết do bệnh này. Một trong những nguyên nhân chính là do các tế
bào ung thư phát triển rất phức tạp, nên tỷ lệ chẩn đoán âm tính giả và dương tính giả
rất cao. Tỷ lệ chẩn đoán sai có thể giảm xuống bằng cách kiểm tra lại toàn bộ các mẫu
đã khám sàng lọc. Giải pháp này không khả thi vì tốn nhiều thời gian và công sức mà
hiệu quả lại không cao. Do đó, một hệ thống nhận dạng tự động tế bào tiền ung thư là
rất cần thiết và rất hữu ích.
Bên cạnh đó, việc xác định các hệ thống tự động đang là một công cụ ứng dụng
rất quan trọng trong nhiều lĩnh vực của xã hội. Trong đó, mô hình nơron – mờ dần dần
được thiết lập không chỉ trong lĩnh vực nghiên cứu mà còn trong lĩnh vực ứng dụng. Cả
mạng nơron và hệ thống mờ đều được phát triển dựa trên qui trình lập luận của con
người. Ở hệ thống mờ, các mối liên hệ được mô tả rõ ràng bằng các luật nếu – thì
nhưng lại thiếu khả năng tự điều chỉnh (khả năng “học”). Còn ở mạng nơron, các mối
liên hệ thể hiện không rõ ràng mà chỉ có thể thiết lập được những mô hình liên quan
nhân quả, tuy nhiên dữ liệu lại được mã hóa vào mạng thành các tham số có khả năng
“học”. Như vậy, các hệ thống tích hợp mạng nơron và logic mờ sẽ kết hợp được khả
năng ngữ nghĩa của hệ thống mờ và khả năng “học” của mạng nơron để tạo ra được
một mô hình suy luận hiệu quả nhất.
Với tính chất phức tạp của hệ thống phân lớp tế bào cổ tử cung, một hệ thống
nơron - mờ có thể khắc phục được một số lỗi thường gặp trong chẩn đoán, mà bác sĩ
hay mắc phải. Mô hình nơron – mờ kiểu ANFIS (hệ suy luận mờ loại Sugeno dựa trên
mạng thích nghi) được dùng để thực hiện phân lớp tế bào là bình thường hay bất
thường.
Báo cáo sẽ gồm 5 phần chính và 3 phần phụ:
• Chương 1: Tổng quan
Giới thiệu sơ lược về đề tài và các kiến thức cơ bản liên quan đến đề tài.
KH
OA
C
NT
T –
Đ
H
KH
TN
Trang 4
• Chương 2: Hệ thống suy luận mờ dựa trên mạng thích nghi
Trình bày về lý thuyết mô hình ANFIS: cấu trúc ANFIS và thuật toán học.
• Chương 3: Trích chọn đặc trưng
Nêu phương pháp tạo dữ liệu cho hệ thống phân loại tế bào và cách tính các đặc
trưng được trích ra từ ảnh tế bào.
• Chương 4: Phân lớp tế bào cổ tử cung sử dụng mô hình ANFIS
Mô tả cách thức mà mô hình ANFIS thực hiện phân lớp tế bào cổ tử cung trên
một số hệ thống luật mờ: luật chuyên gia, luật chuyên gia biến đổi và luật trích
dẫn từ hệ thống.
• Chương 5: Tổng kết
Giới thiệu chương trình và đánh giá mức độ thực hiện của hệ thống, cũng như
một số ưu, khuyết điểm và định hướng.
KH
OA
C
NT
T –
Đ
H
KH
TN
Trang 5
MỤC LỤC
LỜI CẢM ƠN.................................................................................................................1
LỜI NÓI ĐẦU ................................................................................................................2
MỤC LỤC.......................................................................................................................5
DANH MỤC HÌNH ẢNH..............................................................................................6
DANH MỤC BẢNG BIỂU ............................................................................................7
BẢNG KÝ HIỆU CÁC CHỮ VIẾT TẮT ....................................................................8
Chương 1: TỔNG QUAN..............................................................................................9
1.1. Giới thiệu sơ lược đề tài ........................................................................................9
1.2. Mục đích của đề tài .............................................................................................10
1.3. Mẫu xét nghiệm Pap............................................................................................11
1.4. Một số nguyên nhân dẫn đến chẩn đoán sai........................................................16
1.5. Một số hệ thống phân lớp tế bào tự động và bán tự động...................................17
1.6. Phát biểu vấn đề ..................................................................................................19
1.7. Các tiêu chuẩn đánh giá mức độ thực hiện hệ thống ..........................................20
Chương 2: HỆ SUY LUẬN MỜ DỰA TRÊN MẠNG THÍCH NGHI ...................22
2.1. Giới thiệu sơ lược về mô hình nơron - mờ..........................................................22
2.2. Hệ thống suy luận mờ .........................................................................................23
2.3. Mạng thích nghi ..................................................................................................27
2.4. Hệ thống suy luận mờ dựa trên mạng thích nghi ................................................33
Chương 3: TRÍCH CHỌN ĐẶC TRƯNG.................................................................37
3.1. Giới thiệu sơ lược về trích đặc trưng ..................................................................37
3.2. Dữ liệu nhập của hệ thống ..................................................................................37
3.3. Dữ liệu xuất của hệ thống ...................................................................................39
3.4. Trích chọn đặc trưng ...........................................................................................40
3.5. Các đặc trưng rút trích.........................................................................................46
Chương 4: PHÂN LOẠI TẾ BÀO CỔ TỬ CUNG SỬ DỤNG MÔ HÌNH ANFIS48
4.1. Cấu trúc ANFIS trong phân loại tế bào cổ tử cung.............................................48
4.2. Các hệ thống luật mờ trong phân loại tế bào ......................................................54
Chương 5: TỔNG KẾT ...............................................................................................59
5.1. Chương trình .......................................................................................................59
5.2. Mức độ thực hiện chương trình...........................................................................66
5.3. Đánh giá đề tài ....................................................................................................75
5.4. Hướng phát triển cho đề tài.................................................................................75
PHỤ LỤC......................................................................................................................76
PHỤ LỤC A: MỘT SỐ KIẾN THỨC Y KHOA CƠ BẢN ......................................76
PHỤ LỤC B: PHÂN ĐOẠN ẢNH............................................................................80
PHỤ LỤC C: PHƯƠNG PHÁP LỌC KALMAN .....................................................82
TÀI LIỆU THAM KHẢO ...........................................................................................84
KH
OA
C
NT
T –
Đ
H
KH
TN
Trang 6
DANH MỤC HÌNH ẢNH
Hình 1-1: Cấu trúc mô tế bào ở cổ tử cung....................................................................12
Hình 1-2: Phân lớp trong mô tế bào gai .........................................................................13
Hình 1-3: (a) tế bào gai cận đáy, (b) tế bào gai trung gian, (c) tế bào gai bề mặt, ........14
Hình 1-4: Phân lớp trong mô tế bào trụ .........................................................................14
Hình 1-5: Sơ đồ các bước thực hiện chẩn đoán .............................................................19
Hình 2-1: Hệ thống suy luận mờ ....................................................................................25
Hình 2-2: Các luật mờ và các hệ thống suy luận ...........................................................27
Hình 2-3: Mạng thích nghi.............................................................................................27
Hình 2-4: (a) Suy luận mờ loại 3, (b) cấu trúc ANFIS tương ứng.................................34
Hình 3-1: Ảnh đã phân đoạn ..........................................................................................40
Hình 3-2: Ảnh đã gán nhãn ............................................................................................40
Hình 3-3: Các phép tính diện tích ..................................................................................41
Hình 3-4: Vị trí đường kính nhỏ nhất và lớn nhất .........................................................42
Hình 3-5: Tâm của trọng lực đối với nhân và bào tương...............................................44
Hình 3-6: Đường tròn cực tiểu cho nhân .......................................................................46
Hình 4-1: Ý nghĩa các tham số trong hàm dạng chuông................................................49
Hình 4-2: Cấu trúc ANFIS với 2 dữ liệu vào và 4 luật ..................................................50
KH
OA
C
NT
T –
Đ
H
KH
TN
Trang 7
DANH MỤC BẢNG BIỂU
Bảng 1-1: Thống kê kích thước tế bào...........................................................................16
Bảng 2-1: Hai quá trình trong thuật toán học lai............................................................36
Bảng 3-1 : Danh sách các đặc trưng trích chọn vào cơ sở dữ liệu.................................47
Bảng 4-1: Ví dụ luật mờ phân loại tế bào ......................................................................48
Bảng 4-2: Luật chuyên gia .............................................................................................54
Bảng 4-3: Luật chuyên gia biến đổi ...............................................................................55
Bảng 5-1: Luật chuyên gia số hóa..................................................................................66
Bảng 5-2: Mức độ thực hiện luật chuyên gia.................................................................67
Bảng 5-3: Mức độ kiểm nghiệm của luật chuyên gia ....................................................67
Bảng 5-4: Luật chuyên gia biến đổi số hóa....................................................................68
Bảng 5-5: Mức độ thực hiện luật chuyển gia biến đổi...................................................68
Bảng 5-6: Mức độ kiểm nghiệm của luật chuyên gia biến đổi ......................................69
Bảng 5-7: Luật trích từ hệ thống với 2 dữ liệu xuất.......................................................70
Bảng 5-8: Luật trích từ hệ thống với 7 dữ liệu xuất.......................................................72
Bảng 5-9: Mức độ thực hiện mạng của luật trích từ hệ thống .......................................72
Bảng 5-10: Mức độ kiểm nghiệm của luật trích từ hệ thống .........................................73
KH
OA
C
NT
T –
Đ
H
KH
TN
Trang 8
BẢNG KÝ HIỆU CÁC CHỮ VIẾT TẮT
ANFIS Adaptive – Network – Based Fuzzy Inference System
RMSE Root Mean Square Error
FN False Negative
FP False Positive
PP Positive Predictive
NP Negative Predictive
LSE Least squares estimate
FDA the Food and Drug Administration
KH
OA
C
NT
T –
Đ
H
KH
TN
Trang 9
Chương 1: TỔNG QUAN
Để có thể hiểu rõ về đề tài này, chương đầu tiên xin được trình bày về một số
kiến thức cơ bản liên quan đến ung thư cổ tử cung và một số công việc đã thực hiện
được trong lĩnh vực khám sàng lọc tự động. Tất cả những thông tin này phần nào nói
lên được những khó khăn, những tồn tại của các hệ thống chẩn đoán tự động, bán tự
động hoặc thủ công (do bác sĩ thực hiện), để từ đó nêu bật được sự cần thiết phải xuất
hiện một hệ thống mới.
1.1.Giới thiệu sơ lược đề tài
Ung thư cổ tử cung là loại bệnh nguy hiểm, chiếm tỉ lệ cao thứ hai sau ung thư
vú. Ở Úc, hơn một nghìn trường hợp ung thư cổ tử cung được chẩn đoán hằng năm, và
khoảng 350 phụ nữ chết vì bệnh này (Viện Sức khoẻ Úc, 1991). Độ tuổi trung bình
người bệnh là 52,2 và thường tập trung vào hai độ tuổi 35-39 và 60-64. Thống kê tại
Mĩ cho thấy, ở phụ nữ da trắng, 54% bệnh nhân ung thư cổ tử cung khi được chẩn đoán
bệnh còn ở giai đoạn khu trú (tiền ung thư), 31% có tổn thương trong vùng (ung thư)
và 8% có di căn xa (ung thư giai đoạn cuối); ở phụ nữ Mỹ gốc Phi, tỉ lệ này tương ứng
là 40%, 40% và 12%; Tỉ lệ mắc ung thư cổ tử cung theo độ tuổi cao nhất là ở những
phụ nữ gốc Việt sống ở Mỹ (43/100.000). Trong vòng 45 năm qua, tần xuất mắc ung
thư cổ tử cung giảm từ 45/100.000 xuống còn 8/100.000. Khi tần xuất mắc bệnh xâm
lấn (ung thư) giảm xuống thì tần xuất mắc bệnh tiền xâm lấn (tiền ung thư) lại tăng
đáng kể. Tỉ lệ sống 5 năm của bệnh nhân ung thư cổ tử cung mọi giai đoạn là 71% cho
phụ nữ da trắng và 57% cho phụ nữ Mỹ gốc Phi. Tỉ lệ sống phụ thuộc vào giai đoạn
của bệnh; khi bệnh còn khu trú tỷ lệ sống 5 năm là 92%, con số này giảm xuống 10%
khi bệnh đã di căn. Vì vậy, phát hiện ung thư cổ tử cung giai đoạn tiền ung thư là một
biện pháp hữu hiệu chăm sóc sức khỏe phụ nữ.
KH
OA
C
NT
T –
Đ
H
KH
TN
Trang 10
Năm 1943, Georges Papanicolaou đã đưa ra phương pháp chẩn đoán các tế bào
cổ tử cung giai đoạn tiền ung thư. Phương pháp này dựa vào mẫu xét nghiệm Pap để có
thể xác định các tế bào cổ tử cung tiền ung thư, nhằm đem lại hiệu quả điều trị cao cho
người bệnh. Chương trình tầm soát tế bào học British Columbia ở Canada
(www.chrcrm.org) đã chỉ ra rằng tỷ lệ tử vong và tình trạng bệnh tật giảm đi đáng kể
khi đưa việc khám sàng lọc Pap vào khu dân cư tại British Columbia. Do đó mà hiện
nay, phương pháp này được sử dụng phổ biến trên toàn thế giới không chỉ vì hiệu quả
của nó, mà còn vì giá thành của nó rẻ.
Tại Đan Mạch, mặc dù có chương trình khám sàng lọc trên diện rộng, nhưng
mỗi năm lại có hơn 500 ca mới được phát hiện, trong đó có khoảng 5% chẩn đoán âm
tính giả (không tìm ra bệnh). Cách hiệu quả nhất để khắc phục vấn đề này là thực hiện
tầm soát lại toàn bộ mẫu xét nghiệm bằng phương pháp thủ công. Tuy nhiên, điều này
khó có thể thực hiện được vì vấn đề chi phí và số lượng bác sĩ giải phẫu bệnh. Vì vậy,
việc khảo sát tự động bằng máy tính là một biến đổi lớn. Một số hệ thống chẩn đoán
ung thư cổ tử cung tự động và bán tự động cũng đã hoàn thành, nhưng chi phí cho
chúng lại đắt hơn chi phí đào tạo bác sĩ chuyên khoa. Do đó mà khoa Giải phẫu bệnh
của trường đại học Herlev kết hợp với công ty thương mại DIMAC đã thực hiện cơ sở
dữ liệu gồm các ảnh tế bào cổ tử cung cùng kết quả phân lớp loại tế bào chính xác để
có thể phát triển các ứng dụng công nghệ thông tin trong lĩnh vực này. Đề tài này sử
dụng toàn bộ dữ liệu lấy từ đây. Hệ thống suy luận mờ sẽ sử dụng bộ dữ liệu này để
thực hiện phân lớp tế bào cổ tử cung.
1.2.Mục đích của đề tài
Đề tài được thực hiện với một số mục đích sau:
¾ Phát hiện những tế bào cổ tử cung có thay đổi bất thường, và xác định mức
độ thay đổi của chúng (nhẹ, vừa, nặng), những thay đổi này còn gọi là loạn
sản và chúng cũng chính là nguyên nhân gây ra ung thư cổ tử cung sau này.
KH
OA
C
NT
T –
Đ
H
KH
TN
Trang 11
¾ Giảm tỷ lệ chẩn đoán âm tính giả và dương tính giả
¾ Giúp các sinh viên y khoa dễ dàng tiếp cận với việc chẩn đoán tế bào học,
giảm thiểu được chi phí đào tạo, huấn luyện bác sĩ
¾ Giúp các bác sĩ giải phẫu bệnh kiểm tra lại các mẫu xét nghiệm đã chẩn
đoán; và nếu được thử nghiệm nhiều thì chương trình có thể thực hiện sàng
lọc bước đầu, loại bỏ những mẫu xét nghiệm không nghi vấn và các bác sĩ
chỉ cần kiểm tra lại các mẫu có những thay đổi bất thường.
1.3.Mẫu xét nghiệm Pap
Xét nghiệm Pap là một phương pháp y khoa dùng để xác định ung thư cổ tử
cung trong giai đoạn tiến triển sớm. Nó có ý nghĩa rất lớn trong vấn đề y tế cộng đồng
vì thực hiện đơn giản và chi phí rẻ.
1.3.1.Mục đích thực hiện xét nghiệm Pap
Mục đích của việc khám sàng lọc bằng mẫu xét nghiệm Pap là nhằm chẩn đoán
các thay đổi “ác tính” trong tế bào ở giai đoạn tiền ung thư trước khi chúng tiến triển
thành ung thư.
1.3.2.Cách thực hiện mẫu xét nghiệm Pap
Dùng chổi y khoa hoặc que gỗ lấy mẫu xét nghiệm từ cổ tử cung, quét lên một
miếng thủy tinh mỏng, hình chữ nhật để thu được một mẫu Pap. Mẫu này sau đó sẽ
được nhuộm theo phương pháp Papanicolaou. Bằng cách này, đặc điểm của những tế
bào khác nhau sẽ có màu khác nhau, dễ phân biệt dưới kính hiển vi. Sau đó, các bác sĩ
giải phẫu bệnh sẽ khảo sát trực tiếp trên kính hiển vi. Việc này làm tốn nhiều thời gian
mà tỷ lệ lỗi lại rất cao khi mà mỗi mẫu như vậy có thể chứa đến 300000 tế bào.
KH
OA
C
NT
T –
Đ
H
KH
TN
Trang 12
1.3.3.Các tế bào trong mẫu xét nghiệm Pap
1.3.3.1.Cấu trúc cổ tử cung
Cổ tử cung được trải bởi các mô tế bào gai và mô tế bào trụ, trong đó mỗi mô
gồm nhiều loại tế bào khác nhau. Mô tế bào gai được tìm thấy ở phần dưới của cổ tử
cung, trái lại mô tế bào trụ được tìm thấy ở phần trên. Vùng chuyển tiếp (mô trung
gian) giữa hai phần trên và dưới là nơi có cả hai loại mô tế bào này, gọi là mô trung
gian (Hình 1.1).
Hình 1-1: Cấu trúc mô tế bào ở cổ tử cung
1.3.3.2.Mô tế bào gai
Mô tế bào gai có 4 lớp tế bào (Hình 1.2). Tế bào gai bắt đầu hình thành từ lớp
đáy, và khi trưởng thành chúng chuyển qua lớp cận đáy, lớp trung gian và cuối cùng là
lớp bề mặt. Như vậy, các tế bào lớp đáy sẽ phân chia và phân phát tế bào cho các lớp
trên nó. Khi các tế bào trưởng thành và di chuyển giữa các lớp, chúng thay đổi hình
dạng, màu sắc và các đặc tính khác. Khi đến lớp bề mặt, chúng sẽ bị đào thải và được
KH
OA
C
NT
T –
Đ
H
KH
TN
Trang 13
thay thế bằng các tế bào đến sau. Lớp đáy có các tế bào hình tròn nhỏ, với nhân lớn và
bào tương nhỏ. Khi trưởng thành, nhân sẽ càng lúc càng nhỏ, trong khi bào tương càng
lớn và hình dạng tế bào càng ít tròn đi. Tế bào cận đáy (Hình 1.3a) dạng tròn, kích
thước khoảng 300µm2 và kích thước nhân là 50µm2. Tế bào trung gian (Hình 1.3b) và
tế bào bề mặt (Hình 1.3c) có dạng đa giác, kích thuớc tương ứng 800 - 1200µm2 và
1600µm2, và kích thước nhân tương ứng là 35µm2 và 20µm2.
Hình 1-2: Phân lớp trong mô tế bào gai
KH
OA
C
NT
T –
Đ
H
KH
TN
Trang 14
Hình 1-3: (a) tế bào gai cận đáy, (b) tế bào gai trung gian, (c) tế bào gai bề mặt,
(d) tế bào trụ, (e) tế bào loạn sản nhẹ, (f) tế bào loạn sản vừa, (g) tế bào loạn sản nặng
1.3.3.3.Mô tế bào trụ
Mô tế bào trụ chỉ chứa một lớp tế bào duy nhất, lớp đáy (Hình 1.4). Lớp đáy ở
đây chứa các tế bào trụ (Hình 1.3d) và các tế bào dự trữ. Các tế bào dự trữ sẽ phân chia
thành các tế bào dự trữ mới và các tế bào trụ. Khi nhìn tế bào trụ từ bên hông, chúng có
hình trụ với nhân ở dưới đáy. Khi nhìn từ trên xuống, chúng nhỏ và có hình đa giác. Tế
bào chất có kích thước khoảng 180µm2 và nhân 50µm2.
Hình 1-4: Phân lớp trong mô tế bào trụ
KH
OA
C
NT
T –
Đ
H
KH
TN
Trang 15
1.3.3.4.Mô trung gian
Mô trung gian (vùng chuyển tiếp giữa mô tế bào gai và mô tế bào trụ) chứa các
tế bào dự trữ từ mô tế bào trụ. Khi các tế bào này trưởng thành, chúng trông như các tế
bào gai.
1.3.3.5.Các tế bào loạn sản
Khi thông tin di truyền của tế bào vì một lý do nào đó bị thay đổi, tế bào sẽ
không phân chia theo cách thông thường, và có thể tạo thành một tế bào tiền ung thư.
Những biến đổi ác tính trong tế bào ở giai đoạn tiền ung thư được gọi là loạn sản. Tùy
theo cách phân chia của các tế bào này mà nó sẽ được chẩn đoán là loạn sản hay ung
thư mô tế bào.
Loạn sản có nhiều mức độ khác nhau: loạn sản nhẹ, loạn sản vừa và loạn sản
nặng. Loạn sản chưa sừng hoá là loại phổ biến (chiếm 85% các ca loạn sản), phát triển
từ mô trung gian hoặc từ mô tế bào gai. Tế bào loạn sản nhẹ (Hình 1.3e) có nhân sáng
và lớn hơn tế bào bình thường. Tế bào loạn sản vừa (Hình 1.3f) có nhân tối và lớn hơn
tế bào loạn sản nhẹ. Tế bào loạn sản nặng (Hình 1.3g) có nhân giống như loạn sản vừa
nhưng bào tương nhỏ hơn.
1.3.3.6.Một số đặc điểm giải phẫu bệnh
Một số đặc điểm dưới đây được dùng cho các bác sĩ giải phẫu bệnh khi thực
hiện chẩn đoán trên xét nghiệm Pap bằng phương pháp thủ công:
¾ nhân mở rộng, tối hơn; tức là hình dạng và màu sắc của nhân biến đổi
¾ tỷ lệ nhân / bào tương tăng lên
Bảng 1.1 tóm tắt một số đánh giá các loại tế bào khác nhau và được sử dụng để
tham khảo.
KH
OA
C
NT
T –
Đ
H
KH
TN
Trang 16
Loại tế bào Diện tích nhân
trung bình µm2
Diện tích bào tương
trung bình µm2
Tỷ lệ nhân / bào
tương %
Cận đáy 50 300 20
Trung gian 35 1000 5
Bề mặt 20 1600 2
Trụ 50 180 30
Loạn sản nhẹ 175 1000 – 1500 10 – 20
Loạn sản vừa 175 1000 – 1500 20 – 50
Loạn sản nặng 175 1000 – 1500 trên 50
Bảng 1-1: Thống kê kích thước tế bào
1.4.Một số nguyên nhân dẫn đến chẩn đoán sai
1.4.1.Nguyên nhân khách quan
¾ Do điều kiện trang thiết bị y tế thấp kém như: các thiết bị lấy mẫu không
theo tiêu chuẩn, dính quá nhiều tạp chất,… làm cho chất lượng mẫu lấy
được thấp.
¾ Ý thức người dân không cao, không chấp nhận khám sàng lọc hoặc nếu có
thì cũng không thực hiện theo định kì, …
¾ Thiếu đội ngũ cán bộ y tế có chuyên môn để thực hiện khám sàng lọc
1.4.2.Nguyên nhân chủ quan
¾ Một chẩn đoán ung thư hay tiền ung thư dựa trên các tế bào bất thường
trong mẫu Pap được xác định bởi các bác sĩ giải phẫu bệnh. Một mẫu có thể
chứa hàng trăm đến hàng ngàn tế bào, nhưng đa số là tế bào bình thường,
chỉ có một số trong chúng ác tính, cho nên các tế bào bất thường có thể bị
bỏ sót do bác sĩ không tập trung hoặc mệt mỏi...
KH
OA
C
NT
T –
Đ
H
KH
TN
Trang 17
¾ Nếu mẫu xét nghiệm có chứa các tế bào ung thư hoặc tiền ung thư nhưng
trong mẫu nhỏ lấy ra để chẩn đoán lại không có thì chẩn đoán sẽ bị lỗi.
¾ Các thay đổi tế bào học do vi khuẩn, vi rút, thuốc, hoặc sự thay đổi hóc môn
có thể gần giống với các thay đổi ác tính, gây phức tạp thêm nhiệm vụ của
bác sĩ. Do đó, khi các tế bào bất thường được xác định, việc phân loại chính
xác mức độ thay đổi ác tính hay tiền ác tính mang tính chủ quan cao.
1.5.Một số hệ thống phân lớp tế bào tự động và bán tự động
1.5.1.Lịch sử phát triển
Hệ thống bán tự động đầu tiên là Cytoanalyzer, xuất hiện vào đầu thập niên 50,
do Mellors thực hiện. Hệ thống này đo được đường kính nhân và bào tương cùng với
độ sáng của chúng. Tuy nhiên nó không thể phân đoạn được các cụm tế bào gần nhau,
và đây cũng chính là mối quan tâm của các hệ thống hiện nay. Hệ thống tuy không đưa
ra được một kết quả mong muốn được nhưng nó là một bước ngoặt cho các hướng phát
triển kế tiếp.
Một sản phẩm khác xuất hiện vào giữa những năm 60 là TICAS. Hệ thống này
sử dụng máy tính loại DEC LINC – 8 để phát triển các phương pháp phân loại nhạy
cảm hơn so với các kĩ thuật tế bào học. Nhưng do giới hạn phần cứng của máy tính nên
việc khảo sát dữ liệu bị giới hạn trong 475 tế bào. Vì vậy mà việc ứng dụng vào thực tế
bị hạn chế. Tuy nhiên, sản phẩm đã thành công trong việc nghiên cứu các hệ thống
phân loại trong tương lai. Vào thập niên 80, TICAS được mở rộng thành microTICAS,
sử dụng kính hiển vi, kết hợp camera kĩ thuật số và máy IBM chạy trên DOS phiên bản
2.0.
Năm 1965, Husain đã xây dựng một hệ thống chẩn đoán tự động, phát hiện các
tế bào có nhân lớn và tối thông qua một hệ thống kính hiển vi điện tử, để có thể xác
định tế bào là ung thư hay tiền ung thư. Đầu những năm 70, ông tiếp tục phát triển các
KH
OA
C
NT
T –
Đ
H
KH
TN
Trang 18
khả năng của hệ thống này, giúp giảm tỷ lệ lỗi chẩn đoán một cách đáng kể (FN 17%,
FP 34%).
Giữa thập niên 70, Zahniser, Oud, Raajimakers, Vooys và van de Walle đã xây
dựng hệ thống BioPEPR, bao gồm các máy tính với bộ nhớ 28K, cho phép thực hiện
các phần mềm tinh vi, đưa ra kết quả từ 120 đến 180 mẫu xét nghiệm 1 giờ (FP 10%,
FN 1%).
Năm 1989, khi phần cứng và phần mềm được cải tiến đáng kể thì hệ thống
LEYTAS xuất hiện, cho kết quả FN là 0.3% và FP là 13%, nhưng do qui trình lấy mẫu
mất thời gian và đòi hỏi sự tác động đáng kể của con người nên không được ứng dụng
rộng rãi.
Tất cả những người thiết kế các hệ thống này đều nhận thấy rằng khám sàng lọc
cổ tử cung tự động là một vấn đề cực kì khó khăn. Từ đó đến nay cũng có nhiều hệ
thống mới ra đời, nhưng vẫn chỉ có thể cho hiệu suất cao khi có bàn tay con người trợ
giúp.
1.5.2.Một số hệ thống khám sàng lọc thương mại
Tổ chức FDA của Mĩ thông qua hai hệ thống khám sàng lọc tự động:
¾ Hệ thống PAPNET là một thiết bị khám sàng lọc nhằm bổ sung thêm cho hệ
thống khám thủ công. Từ mỗi mẫu, hệ thống chọn 128 vùng khả nghi và lưu
lại cho các bác sĩ giải phẫu học xem xét.
¾ Hệ thống AutoPap 300 nhận ra các mẫu âm tính, và được dùng cho việc sàng
lọc lại các mẫu đã khám bằng phương pháp thủ công.
Cả hai hệ thống đều làm giảm tỷ lệ chẩn đoán bệnh sai, nhưng đồng thời chúng
cũng làm tăng chi phí xét nghiệm.
KH
OA
C
NT
T –
Đ
H
KH
TN
Trang 19
1.6.Phát biểu vấn đề
Việc phân loại tế bào cổ tử cung dựa trên mẫu Pap được thực hiện theo 3 bước
chính:
¾ Phân đoạn ảnh: đánh dấu từng vùng ảnh riêng biệt: nhân, bào tương và nền
¾ Trích đặc trưng: dựa vào các vùng ảnh thu được ở bước trên, chúng ta có thể
trích ra các đặc trưng của tế bào để thực hiện phân loại
¾ Phân loại tế bào dựa trên các đặc trưng đã có, dùng hệ thống suy luận mờ sử
dụng mạng thích nghi để thực hiện.
Có thể hình dung các bước thực hiện theo sơ đồ sau:
Hình 1-5: Sơ đồ các bước thực hiện chẩn đoán
Dữ liệu thử nghiệm
Ảnh tiền xử lý Ảnh tiền xử lý
Trích đặc trưng Trích đặc trưng
Đặc trưng tế bào Đặc trưng tế bào
Huấn luyện phân lớp
Phân lớp tế bào
Dữ liệu huấn luyện
Phân lớp
Chuẩn đoán bệnh
KH
OA
C
NT
T –
Đ
H
KH
TN
Trang 20
1.7.Các tiêu chuẩn đánh giá mức độ thực hiện hệ thống
Các giá trị sau được dùng để đánh giá mức độ thực hiện việc phân lớp tự động
tế bào:
¾ Sai số trung bình bình phương lỗi (RMSE)
¾ Tỷ lệ âm tính giả (FN%)
¾ Tỷ lệ dương tính giả (FP%)
¾ Độ nhạy (Sensitivity)
¾ Độ đặc trưng (Specificity)
¾ Giá trị dự đoán dương tính (PP%)
¾ Giá trị dự đoán âm tính (NP%)
1.7.1.Sai số trung bình bình phương lỗi - RMSE
RMSE là độ sai khác giữa phân lớp d đích và giá trị thực y có được nhờ vào việc
phân lớp tự động tế bào. RMSE khác với độ lệch chuẩn σ ở chỗ σ là độ lệch chuẩn so
với giá trị µ của y:
( )
1
2
n
yd
RMSE
n
i ii∑ = −= (1.1)
( )
n
yn
i i∑= −= 1 2µσ (1.2)
trong đó, n = |d| = |y| là số lượng tế bào được phân lớp.
1.7.2.Tỷ lệ âm tính giả - FN%
FN% là tỷ lệ tế bào được phân lớp bình thường nhưng thực chất là loạn sản.
ySensitivit
FNTP
FNFN −=+
×= %100%100% (1.3)
với TP là số lượng tế bào phân lớp dương tính đúng.
KH
OA
C
NT
T –
Đ
H
KH
TN
Trang 21
FN là số lượng tế bào phân lớp âm tính sai.
1.7.3.Tỷ lệ dương tính giả - FP%
FP% là tỷ lệ tế bào được phân lớp loạn sản nhưng thực ra là bình thường.
ionSpecificat
FPTN
FPFP −=+
×= %100%100% (1.4)
với TN là số lượng tế bào phân lớp âm tính đúng.
FP là số lượng tế bào phân lớp dương tính sai.
1.7.4.Độ nhạy - Sensitivity
Độ nhạy đánh giá xác suất phân lớp tự động tìm thấy tế bào loạn sản.
FNTP
TPySensitivit +
×= %100 (1.5)
Như vậy, số lượng tế bào loạn sản trong cơ sở dữ liệu là P = TP + FN.
1.7.5.Độ đặc trưng - Specificity
Độ đặc trưng là xác suất phân lớp tự động tìm ra tế bào bình thường.
FPTN
TNySpecificit +
×= %100 (1.6)
Như vậy, số lượng tế bào bình thường trong cơ sở dữ liệu là N = TN + FP
1.7.6.Giá trị dự đoán dương tính – PP%
PP% là tỷ lệ tế bào được phân lớp loạn sản đúng.
FPTP
TPPP +
×= %100% (1.7)
1.7.7.Giá trị dự đoán âm tính – NP%
NP% là tỷ lệ tế bào được phân lớp bình thường đúng.
FNTN
TNNP +
×= %100% (1.8)
KH
OA
C
NT
T –
Đ
H
KH
TN
Trang 22
Chương 2: HỆ SUY LUẬN MỜ DỰA TRÊN MẠNG
THÍCH NGHI
Chương này đưa ra một cấu trúc và thủ tục học của hệ thống suy luận mờ dựa
trên mạng thích nghi, gọi tắt là ANFIS. Thông qua việc sử dụng thủ tục học lai ghép,
ANFIS có thể tạo một ánh xạ dữ liệu nhập - xuất dựa trên tri thức con người (dưới
dạng các luật mờ nếu - thì) và dữ liệu nhập - xuất thực. Cấu trúc ANFIS được dùng để
mô hình hóa các hàm phi tuyến, xác định trực tiếp các thành phần phi tuyến trong một
hệ thống điều khiển, và dự đoán một loạt sự kiện hỗn loạn với một hiệu quả nhất định.
2.1.Giới thiệu sơ lược về mô hình nơron - mờ
Một mạng nơron với các trọng số được điều chỉnh có thể xem như là một thiết
bị điều khiển tự động nhờ vào tính chất hồi qui phi tuyến của các đối tượng rời rạc.
Tuy nhiên tri thức được lưu trữ trong mạng không rõ ràng, không mô tả được những
mối liên hệ giữa dữ liệu nhập và dữ liệu xuất, mà chỉ có thể xác định các mối liên hệ
này thông qua những tham số thích nghi của mạng. Trái lại, một luật mờ nếu – thì lại
có thể diễn tả được các mối liên hệ đó dưới dạng ngôn ngữ tự nhiên, nhưng lại không
có khả năng điều chỉnh luật cho phù hợp. Hai vấn đề này được kết hợp lại tạo thành
một hệ thống nơron - mờ nhằm đạt được khả năng “đọc” và “học” cùng một lúc. Các
luật thu được từ hệ thống này có thể điều chỉnh phù hợp với dữ liệu phát sinh mô hình,
và đối với các ứng dụng điều khiển tự động, mô hình nơron - mờ có thể tích hợp với
các luật chuyên gia nhằm đưa ra những kết quả chính xác.
Bên cạnh các luật chuyên gia, các luật trích ra từ dữ liệu cũng là một hình thức
mô hình hoá hệ thống điều khiển tự động, chẳng hạn như trong Nhận dạng, khai mỏ dữ
liệu,... Mục tiêu đưa ra các luật này là nhằm giảm độ phức tạp của vấn đề cũng như
lượng dữ liệu liên quan đến vấn đề. Có rất nhiều phương pháp phân tích dữ liệu để đưa
KH
OA
C
NT
T –
Đ
H
KH
TN
Trang 23
ra hệ thống các luật để có thể thực hiện một sự kết hợp tối ưu giữa logic mờ và mạng
nơron.
Các nghiên cứu về mạng nơron đã bắt đầu từ thập niên năm 40, và logic mờ từ
thập niên 60, nhưng mô hình nơron - mờ là một lĩnh vực mới. Năm 1992, Roger Jang
đã đề xuất mô hình ANFIS nhằm đáp ứng việc xây dựng một tập luật mờ nếu - thì với
các hàm thành viên xấp xỉ dữ liệu nhập - xuất đích. Kết quả là, một hệ thống suy luận
mờ dựa trên mạng thích nghi không chỉ thể hiện tốt thông tin ngôn ngữ (các luật ngôn
ngữ) từ các chuyên gia, mà còn phù hợp với việc sử dụng dữ liệu dạng số để thu được
mức độ thực hiện tốt hơn.
2.2.Hệ thống suy luận mờ
2.2.1.Tập mờ
Trong tập rõ, chúng ta có thể xác định rõ một phần tử là thành viên hay không là
thành viên của một tập rõ cho trước. Tuy nhiên trong đời sống thực tế, có nhiều vấn đề
mà chúng ta không biết rõ là đúng hay sai, điều này đồng nghĩa với việc tồn tại một
phần tử x mà ta không thể xác định rõ ràng tính thành viên của x trong tất cả các tập rõ
mà chúng ta đã biết. Để giải thích vấn đề này, Dr. Zadeh đã đưa ra khái niệm tập mờ và
khái niệm hàm thành viên để thể hiện tính thành viên của biến trong tập mờ.
Tập mờ A trong X là tập các phần tử có dạng A = {(x, µA(x)) | x ∈ X}, trong đó x
là phần tử của tập vũ trụ X và µA(x) là giá trị thể hiện tính thành viên của x trong tập
mờ A, với ( ) 10 ≤≤ xAµ .
Nói cách khác, tập mờ A chính là nhãn được gán cho ánh xạ:
[ ]1,0: →XAµ
( )xyx Aµ=→
KH
OA
C
NT
T –
Đ
H
KH
TN
Trang 24
Xét về mặt ý nghĩa, tập mờ là một khái niệm dùng để thể hiện mức độ phụ thuộc
vào một tính chất nào đó của các phần tử trong khôn gian vũ trụ. Ví dụ như tính chất
nóng, mát, lạnh của tập nhiệt độ…
2.2.2.Luật mờ
Luật mờ là biểu thức điều kiện có dạng “NẾU A THÌ B”, trong đó A và B là
nhãn của các tập mờ được mô tả bằng cách xấp xỉ các hàm thành viên. Nhờ vào dạng
rút gọn, luật mờ thường được dùng để thiết lập những phương thức lập luận không
chính xác, nhằm thể hiện tính đa dạng trong tri thức của con người. Ví dụ sau mô tả
một sự kiện đơn giản là (đây là luật mờ loại Mamdani):
Nếu nhiệt độ cao, thì giá máy lạnh tăng.
trong đó nhiệt độ và giá máy lạnh là các biến ngôn ngữ, cao và tăng là các giá
trị ngôn ngữ hoặc các nhãn được mô tả bởi các hàm thành viên.
Một dạng khác của luật mờ do Takagi và Sugeno đề xuất, có các tập mờ chỉ
xuất hiện trong phần giả thuyết của luật. Ví dụ (đây là luật mờ loại Sugeno):
Nếu lưu lượng dòng chảy cao thì mực nước sông = k* lưu lượng dòng chảy.
trong đó, cao là phần giả thuyết được mô tả bởi hàm thành viên xấp xỉ. Tuy
nhiên, phần kết luận được định nghĩa bởi phương trình theo biến lưu lượng dòng chảy.
Cả hai loại luật mờ trên đều được mở rộng trong cả hai lĩnh vực mô hình hóa và
điều khiển tự động. Bởi vì lợi ích của các nhãn ngôn ngữ và các hàm thành viên, một
luật mờ có thể nắm bắt dễ dàng qui luật điều khiển của con người.
2.2.3.Hệ thống suy luận mờ
2.2.3.1.Cấu trúc
Một hệ thống suy luận mờ gồm 5 khối cơ bản sau (Hình 2.1):
¾ Một cơ sở luật chứa các luật mờ nếu - thì
KH
OA
C
NT
T –
Đ
H
KH
TN
Trang 25
¾ Một cơ sở dữ liệu định nghĩa các hàm thành viên của các tập mờ được sử
dụng trong các luật mờ
¾ Một đơn vị thực hiện quyết định thực hiện phép toán suy luận trên các
luật
¾ Một suy luận mờ chuyển đổi dữ liệu thô thành các mức độ kết nối với biến
ngôn ngữ
¾ Một suy luận khử mờ chuyển đối các kết quả mờ của suy luận thành dữ
liệu thô
Thông thường, cơ sở luật và cơ sở dữ liệu dựa trên tri thức chuyên gia.
Hình 2-1: Hệ thống suy luận mờ
2.2.3.2.Các bước thực hiện suy luận
Các bước lập luận mờ (phép toán suy luận trên các luật mờ) được thực hiện bởi
các hệ thống suy luận mờ (Hình 2.1):
1. So sánh dữ liệu nhập với các hàm thành viên trong phần giả thuyết để thu được
các giá trị hàm thành viên (độ đo tính tương thích) của mỗi nhãn ngôn ngữ
(bước này thường được gọi là mờ hóa).
Dữ liệu xuất Dữ liệu nhập
(mờ)
mờ
hoá
cơ sở tri thức
cơ sở dữ liệu cơ sở luật
đơn vị thực hiện quyết định
khử
mờ
hoá
(thô) (thô) (mờ)
KH
OA
C
NT
T –
Đ
H
KH
TN
Trang 26
2. Kết nối (thông qua toán tử chuẩn T, thường là toán tử nhân hoặc toán tử min)
các giá trị hàm thành viên trong phần giả thuyết để lấy ngưỡng kích hoạt của
mỗi luật.
3. Phát sinh các kết luận đủ tiêu chuẩn (hoặc mờ hoặc thô) của mỗi luật dựa trên
ngưỡng kích hoạt.
4. Tập hợp lại các kết luận đủ tiêu chuẩn để đưa ra một dữ liệu xuất thô (bước này
được gọi là khử mờ).
2.2.3.3.Các loại hệ thống suy luận mờ
Dựa trên các loại lập luận mờ và các luật mờ được dùng, hầu hết các hệ thống
suy luận mờ có thể được phân làm 3 loại chính:
Loại 1: Toàn bộ dữ liệu xuất là trung bình trọng số các dữ liệu xuất thô của mỗi
luật có được do ngưỡng kích hoạt của luật (toán tử tích hoặc min tổ hợp các giả thuyết)
và các hàm thành viên dữ liệu xuất.
Loại 2: Toàn bộ dữ liệu xuất thu được bằng cách dùng toán tử max cho các dữ
liệu xuất mờ đủ tiêu chuẩn (cực tiểu hóa độ ngưỡng kích hoạt và hàm thành viên dữ
liệu xuất của mỗi luật). Các ý tưởng khác nhau được đề xuất để chọn lựa dữ liệu xuất
thô cuối cùng dựa trên toàn bộ dữ liệu xuất mờ; một số trong chúng là tâm của diện
tích, đường phân giác của diện tích, trung bình cực đại, tiêu chuẩn cực đại,…
Loại 3: Các luật mờ loại Takagi và Sugeno được sử dụng. Dữ liệu xuất của mỗi
luật là một tổ hợp tuyến tính các dữ liệu nhập, cộng với một số hạng không đổi, và dữ
liệu xuất cuối cùng chính là trung bình trọng số các dữ liệu xuất trong mỗi luật.
Hình 2.2 ví dụ về một hệ thống suy luận mờ hai luật, hai dữ liệu nhập để chỉ ra
các loại luật mờ và lập luận mờ khác nhau. Chú ý rằng sự khác nhau là ở phần kết luận
(không giảm đều hoặc hàm thành viên dạng chuông, hoặc hàm thô) và do đó mà các ý
tưởng khử mờ (trung bình trọng, trọng tâm của diện tích…) cũng khác nhau.
KH
OA
C
NT
T –
Đ
H
KH
TN
Trang 27
Hình 2-2: Các luật mờ và các hệ thống suy luận
2.3.Mạng thích nghi
2.3.1.Cấu trúc mạng
Hình 2-3: Mạng thích nghi
Một mạng thích nghi (Hình 2.3) là một mạng nhiều lớp lan truyền tiến, trong đó
mỗi nút thực hiện một chức năng riêng (hàm nút) trên tín hiệu vào cũng như tập các
tham số gắn liền với nút. Trạng thái tự nhiên của hàm nút có thể biến đổi từ nút này
qua nút khác, và sự lựa chọn của mỗi hàm nút dựa trên hàm ánh xạ toàn cục nhập –
KH
OA
C
NT
T –
Đ
H
KH
TN
Trang 28
xuất để mạng thích nghi được yêu cầu thực hiện. Chú ý rằng các liên kết trong mạng
thích nghi chỉ xác định hướng dữ liệu của tín hiệu giữa các nút chứ không chứa trọng
số.
Để phản ánh các khả năng thích nghi khác nhau, các nút hình tròn và hình
vuông được dùng trong mạng thích nghi. Một nút hình vuông (nút thích nghi) có chứa
tham số còn một nút hình tròn (nút cố định) thì không. Tập tham số của mạng thích
nghi là hợp của các tập tham số của mỗi nút thích nghi. Để thu được ánh xạ nhập –
xuất đích, các tham số này được cập nhật theo dữ liệu huấn luyện đã cho và thủ tục học
dựa trên gradient được mô tả ở phần sau.
2.3.2.Các luật học cơ bản
Giả sử rằng một mạng thích nghi đã cho có L lớp và lớp thứ k có #(k) nút.
Chúng ta có thể biểu thị vị trí nút thứ i trong lớp thứ k bằng (k, i), và hàm nút của nó
(dữ liệu xuất của nút) bằng kiO . Khi một đầu ra của nút dựa trên tín hiệu vào và tập các
tham số của nó, chúng ta có:
( )( ),...,,,,... 1 1#11 cbaOOOO k kkkiki − −−= (2.1)
trong đó a, b, c,…là các tham số gắn liền với nút; kiO được dùng cho cả dữ liệu
nhập và dữ liệu xuất của nút và hàm nút.
Giả sử rằng dữ liệu huấn luyện đã cho có P mục, chúng ta có thể định nghĩa độ
đo lỗi (hoặc hàm năng lượng) cho mục thứ p (1 ≤ p ≤ P) của mục dữ liệu huấn luyện
như tổng các lỗi bình phương:
( )( ) 2#
1
,,∑
=
−=
L
m
L
pmpmp OTE (2.2)
trong đó pmT , là thành phần thứ m của vectơ ra đích thứ p, và L pmO , thành phần thứ m
của vectơ ra thực sự của vectơ vào thứ p. Vì vậy độ đo lỗi toàn cục là ∑
=
=
P
p
pEE
1
.
KH
OA
C
NT
T –
Đ
H
KH
TN
Trang 29
Để phát triển thủ tục học thực hiện giảm gradient trong E toàn bộ không gian
tham số, đầu tiên phải tính tỷ lệ lỗi
O
E p
∂
∂
cho dữ liệu huấn luyện thứ p và cho mỗi đầu
ra của nút O. Tỷ lệ lỗi cho nút đầu ra tại (L, i) được suy ra từ phương trình (2.2) là:
( )LpipiL
pi
p OT
O
E
,,
,
2 −−=∂
∂
(2.3)
Đối với nút ẩn tại (k, i), tỷ lệ lỗi được tính theo chuỗi vi phân:
( )
k
pi
k
pm
k
m
k
pm
p
k
pi
p
O
O
O
E
O
E
,
1
,
1#
1
1
,, ∂
∂
∂
∂=∂
∂ ++
=
+∑ (2.4)
trong đó 1 ≤ k ≤ L – 1. Chính là, tỷ lệ lỗi của nút ẩn có thể được mô tả như một tổ hợp
tuyến tính các tỷ lệ lỗi của các nút trong lớp kế tiếp. Vì vậy ∀k, ∀i, sao cho 1 ≤ k ≤ L
và 1 ≤ i ≤ #(k), chúng ta có thể tính k
pi
p
O
E
,∂
∂
qua phương trình (2.3) và (2.4).
Nếu α là một tham số của mạng thích nghi đã cho, ta có:
∑
∈
∗
∗∗ ∂
∂
∂
∂=∂
∂
SO
pp O
O
EE
αα (2.5)
trong đó S là tập các nút mà đầu ra của nó phụ thuộc α; Thì đạo hàm độ đo lỗi toàn cục
E tương ứng α là:
∑
= ∂
∂=∂
∂ P
p
pEE
1 αα (2.6)
Suy ra, công thức cập nhật cho tham số chung α là:
αηα ∂
∂−=∆ E (2.7)
trong đó η là tốc độ học được tính bằng:
∑ ⎟⎠⎞⎜⎝⎛ ∂
∂
=
α α
η
2E
k (2.8)
KH
OA
C
NT
T –
Đ
H
KH
TN
Trang 30
với k là kích thước bước, độ dài của mỗi thời kì chuyển tiếp gradient trong không gian
tham số. Thông thường, chúng ta có thể thay đổi giá trị của k để biến đổi tốc độ hội tụ
của thuật toán học.
Có hai mô hình học cho mạng thích nghi. Với học theo khối (hoặc học ngoại
tuyến), công thức cập nhật tham số α dựa trên phương trình (2.6) và hành động cập
nhật chỉ xảy ra sau khi toàn bộ tập dữ liệu huấn luyện được đưa vào, tức là sau mỗi chu
kì huấn luyện. Ngược lại, nếu cập nhật các tham số ngay khi dữ liệu nhập – xuất được
đưa vào, thì công thức cập nhật dựa trên phương trình (2.5) và dựa theo học theo mẫu
(hoặc học trực tuyến).
2.3.3.Luật học lai theo khối (học ngoại tuyến)
Mặc dù chúng ta có thể áp dụng phương pháp gradient để xác định các tham số
trong mạng thích nghi, nhưng phương pháp này nhìn chung rất chậm và có thể bị rơi
vào tình trạng cực tiểu địa phương. Ở đây, việc kết hợp phương pháp gradient và
phương pháp ước lượng bình phương cực tiểu (LSE) được dùng để xác định và điều
chỉnh các tham số của mạng.
Để đơn giản, giả sử rằng mạng thích nghi đang xét chỉ có một đầu ra:
( )SIFoutput ,= (2.9)
trong đó I là tập các biến và S là tập các tham số. Nếu tồn tại một hàm H để FH o
tuyến tính trong một số phần tử của S, thì các phần tử này có thể được định nghĩa bằng
phương pháp bình phương cực tiểu. Thông thường, tập tham số S có thể được phân tích
thành hai tập
21 SSS ⊕= (2.10)
(⊕ là phép tổng trực tiếp) để cho FH o là tuyến tính trong tập S2, sau đó áp dụng H
vào phương trình (2.9) ta có:
( ) ( )SIFHoutputH ,o= (2.11)
KH
OA
C
NT
T –
Đ
H
KH
TN
Trang 31
là tuyến tính trong tập S2. Dựa vào các giá trị đã cho của những phần tử S1, chúng ta có
thể chia dữ liệu huấn luyện P vào phương trình (2.11) và thu được phương trình ma
trận:
AX = B (2.12)
trong đó X là vectơ chưa biết mà các phần tử của nó là các tham số trong S2. Đặt |S2| =
M, thì kích thước tương ứng của A, X, và B là P × M, M × 1, và P × 1. Do P (số lượng
cặp dữ liệu huấn luyện) thường lớn hơn M (số lượng tham số tuyến tính), nên cần phải
có một giải pháp thực hiện tính phương trình (2.12). Một ước lượng bình phương cực
tiểu (LSE) của X và X*, được tìm để cực tiểu hóa lỗi bình phương ||AX – B||2; đây là
chuẩn để thiết lập cơ sở cho hồi qui tuyến tính, lọc thích nghi và xử lý tín hiệu. X* được
tính bằng cách sử dụng nghịch đảo giả của X:
( ) BAAAX TT 1−∗ = (2.13)
trong đó AT là ma trận chuyển vị của A, và (ATA)-1AT là ma trận nghịch đảo giả của A.
Mặc dù phương trình (2.13) rất ngắn gọn nhưng chi phí tính toán để xử lý nghịch đảo
ma trận lại quá lớn. Ở đây, công thức dãy được dùng để tính LSE của X. Phương pháp
dãy này hiệu quả hơn (đặc biệt khi M nhỏ) và có thể thay đổi dễ dàng thành một thuật
toán học trực tuyến (xem phần sau) cho hệ thống thay đổi đặc tính. Đặc biệt, nếu gọi
vectơ hàng thứ i của ma trận A được định nghĩa trong phương trình (2.12) là Tia , và
thành phần thứ i của B là Tib , thì X có thể được tính lặp đi lặp lại, dùng công thức dãy
mở rộng như sau:
( )
⎪⎭
⎪⎬
⎫
−=+−=
−+=
++
++
+
+++++
1,...,1,0,
1 11
11
1
11111
Pi
aSa
SaaSSS
XabaSXX
ii
T
i
i
T
iii
ii
i
T
i
T
iiiii
(2.14)
trong đó Si thường được gọi là ma trận hiệp phương sai và ước lượng bình phương cực
tiểu X* bằng Xp. Các điều kiện khởi tạo cho phương trình (2.14) là 00 =X và IS γ=0 ,
trong đó γ là một số dương lớn (chọn γ = 106) và I là ma trận đồng nhất kích
KH
OA
C
NT
T –
Đ
H
KH
TN
Trang 32
thước MM × . Khi giải quyết các mạng thích nghi nhiều dữ liệu xuất (dữ liệu xuất trong
phương trình (2.9) là một vectơ cột), phương trình (2.14) vẫn được áp dụng ngoại trừ
T
ib là hàng thứ i của ma trận B.
Bây giờ chúng ta có thể kết hợp phương pháp gradient và ước lượng bình
phương cực tiểu để cập nhật các tham số trong mạng thích nghi. Mỗi chu kì huấn luyện
của thủ tục học lai này bao gồm quá trình tiến và quá trình lùi. Trong quá trình tiến,
chúng ta cung cấp dữ liệu nhập và các tín hiệu hàm số đi tới để tính dữ liệu xuất của
mỗi nút cho đến khi thu được các ma trận A, B trong phương trình (2.12), và các tham
số trong S2 được xác định bởi phương trình (2.14). Sau khi xác định các tham số trong
S2, các tín hiệu hàm vẫn tiếp tục đi tới cho đến khi tính được độ đo lỗi. Trong quá trình
lùi, các tỷ lệ lỗi (phương trình (2.3) và (2.4)) truyền từ đầu ra cuối đến đầu ra đầu, và
các tham số trong S1 được cập nhật bằng phương pháp gradient theo phương trình
(2.7).
Đối với các giá trị cố định của các tham số trong S1, tham số trong S2 do đó
được bảo đảm là điểm tối ưu toàn cục trong không gian tham số S2 dựa trên việc lựa
chọn độ đo lỗi bình phương. Luật học này không chỉ giảm kích thước không gian tìm
kiếm trong phương pháp gradient mà về cơ bản nó còn giảm bớt thời gian hội tụ.
2.3.4.Luật học lai theo mẫu
Nếu các tham số được cập nhật sau mỗi biểu diễn dữ liệu, chúng ta có kiểu học
theo mẫu hoặc học trực tuyến. Mô hình học này quan trọng đối với việc xác định tham
số trực tuyến cho hệ thống đối với các hệ thống thay đổi. Để thay đổi luật học theo
khối thành trực tuyến, rõ ràng việc giảm gradient nên dựa theo Ep (phương trình (2.5))
thay vì dựa vào E. Nói cách khác, học theo mẫu không phải là thủ tục tìm kiếm
gradient đích thực để cực tiểu hoá E, nó sẽ xấp xỉ E nếu tốc độ học nhỏ.
Đối với công thức dãy bình phương cực tiểu dùng để giải thích các đặc tính biến
đổi theo thời gian của dữ liệu vào, chúng ta cần phân huỷ các ảnh hưởng của cặp dữ
KH
OA
C
NT
T –
Đ
H
KH
TN
Trang 33
liệu cũ khi có cặp dữ liệu mới xuất hiện. Điều kiện của “hệ số quên” λ cho công thức
dãy tổng quát:
( )
⎪⎭
⎪⎬
⎫
⎥⎦
⎤⎢⎣
⎡
+−=
−+=
++
++
+
+++++
11
11
1
11111
1
ii
T
i
i
T
iii
ii
i
T
i
T
iiiii
aSa
SaaSSS
XabaSXX
λλ
(2.16)
trong đó giá trị [ ]1,0∈λ . Lambda càng nhỏ thì ảnh hưởng của việc phân huỷ dữ liệu cũ
càng nhanh. Nhưng lambda nhỏ thỉnh thoảng gây tình trạng không ổn định về mặt số
học, nên tránh trường hợp này.
2.4.Hệ thống suy luận mờ dựa trên mạng thích nghi
2.4.1.Cấu trúc ANFIS
Không mất tính tổng quát, xét hệ thống suy luận mờ có hai dữ liệu nhập x và y,
và một dữ liệu xuất z. Giả sử rằng cơ sở luật chứa hai luật mờ loại Sugeno:
Nếu x là A1 và y là B1 thì f1 = p1x + q1y + r1.
Nếu x là A2 và y là B2 thì f2 = p2x + q2y + r2.
thì suy luận mờ loại 3 trong hình 2.4a sẽ tương ứng với cấu trúc ANFIS ở hình 2.4b.
Chú ý rằng, các hàm nút trong cùng một lớp có dạng hàm như nhau.
Lớp 1: Mọi nút i trong lớp này là nút hình vuông với hàm nút:
( )xO
iAi
µ=1 (2.17)
trong đó, x là dữ liệu nhập cho nút i, và Ai là nhãn ngôn ngữ (cao, nhỏ…) liên quan đến
hàm nút. Như vậy, 1iO còn gọi là hàm thành viên của Ai và thể hiện mức độ x thỏa Ai.
Thông thường, ( )xAµ có dạng hình chuông và nằm trong khoảng [0, 1]:
( )
ii b
i
i
A
a
cx
x
⎥⎥⎦
⎤
⎢⎢⎣
⎡
⎟⎟⎠
⎞
⎜⎜⎝
⎛ −+
=
2
1
1µ (2.18)
KH
OA
C
NT
T –
Đ
H
KH
TN
Trang 34
Hay
( )
ib
i
i
i
a
cx
A ex
2
⎟⎟⎠
⎞
⎜⎜⎝
⎛ −−=µ (2.19)
trong đó {ai, bi, ci} là tập tham số
Lớp 2: Mỗi nút trong lớp này là nút tròn, được gán nhãn ∏ có dữ liệu xuất là
tích các dữ liệu nhập:
( ) ( ) .2,1,2 =×== iyxwO
ii BAii
µµ (2.20)
Dữ liệu xuất của mỗi nút biểu diễn ngưỡng kích hoạt của luật.
Hình 2-4: (a) Suy luận mờ loại 3, (b) cấu trúc ANFIS tương ứng
Lớp 3: Mỗi nút trong lớp này là nút tròn, được gán nhãn N. Nút thứ i tính tỷ lệ
ngưỡng kích hoạt của luật thứ i so với tổng tất cả các ngưỡng kích hoạt của tất cả các
luật:
.2,1,
21
3 =+== iww
w
wO iii (2.21)
Dữ liệu xuất của lớp này được gọi là ngưỡng kích hoạt chuẩn hóa.
KH
OA
C
NT
T –
Đ
H
KH
TN
Trang 35
Lớp 4: Mọi nút i trong lớp này là nút vuông có hàm nút:
( )iiiiiii ryqxpwfwO ++==4 (2.22)
Trong đó iw là dữ liệu xuất của lớp 3, và {ai, bi, ci} là tập tham số kết quả.
Lớp 5: Nút duy nhất trong lớp này là nút tròn được gán nhãn ∑, để tính tổng dữ
liệu xuất:
∑
∑∑ ==
i
i ii
i
ii w
fw
fwO51 (2.23)
Trên đây vừa giới thiệu mô hình ANFIS áp dụng hệ thống suy luận mờ loại 3.
Những hệ thống suy luận mờ khác cũng thực hiện gần giống như hệ thống loại này.
2.4.2.Thuật toán học lai
Từ cấu trúc ANFIS trên (hình 2.4), giả sử đã có các tham số giả thuyết, như vậy
tổng dữ liệu xuất có thể xem như một tổ hợp tuyến tính các tham số kết quả. Dữ liệu
xuất f có thể được viết lại:
( ) ( ) ( ) ( ) ( ) ( ) 222222111111
22112
21
2
1
21
1
rwqywpxwrwqywpxw
fwfwf
ww
wf
ww
wf
+++++=
+=+++= (2.24)
là tuyến tính theo các tham số kết quả (p1, q1, r1, p2, q2 và r2). Kết quả là, chúng ta có:
S = tập toàn bộ tham số
S1 = tập tham số giả thuyết
S2 = tập tham số kết quả
trong phương trình 2.10; H(.) là hàm đồng nhất và F(., .) là hàm của hệ thống suy luận
mờ. Do đó mà thuật toán học lai được trình bày ở phần trước có thể được áp dụng trực
tiếp. Cụ thể hơn, trong quá trình lan truyền tiến của thuật toán học lai, tín hiệu hàm
truyền đến lớp 4 và các tham số kết quả được xác định bằng LSE. Trong quá trình lan
KH
OA
C
NT
T –
Đ
H
KH
TN
Trang 36
truyền ngược, tỷ lệ lỗi truyền ngược lại và các tham số giả thuyết được cập nhật bằng
phương pháp giảm gradient. Bảng 2.1 tóm tắt hoạt động của mỗi quá trình.
- Quá trình tiến Quá trình lùi
tham số giả thuyết cố định giảm gradient
tham số kết quả LSE cố định
tín hiệu dữ liệu xuất của nút tỷ lệ lỗi
Bảng 2-1: Hai quá trình trong thuật toán học lai
KH
OA
C
NT
T –
Đ
H
KH
TN
Trang 37
Chương 3: TRÍCH CHỌN ĐẶC TRƯNG
Để có thể thực hiện mô hình ANFIS, trước hết cần phải chuyển tất cả các dạng
dữ liệu nhập vào hệ thống sang dạng số. Chương này sẽ giới thiệu về dữ liệu nhập cho
hệ thống và cách thực hiện trích đặc trưng trên bộ dữ liệu lấy mẫu để tạo thành một cơ
sở dữ liệu chứa các con số đặc trưng cho dữ liệu nhập.
3.1.Giới thiệu sơ lược về trích đặc trưng
Trích chọn đặc trưng là chuyển đổi một ảnh đã phân đoạn thành tập hợp các con
số mô tả nội dung của đối tượng cần nhận dạng. Trong mẫu xét nghiệm Pap, nhân và
bào tương phải được nhận dạng đúng để phân biệt tế bào bình thường và tế bào bất
thường, cũng như để phân biệt được các loại tế bào khác nhau.
3.2.Dữ liệu nhập của hệ thống
3.2.1.Tạo dữ liệu
Các yêu cầu khi tạo dữ liệu ảnh tế bào:
¾ độ phản chiếu giữa nền và đối tượng có độ dao động thấp: điều chỉnh tự
động bằng camera và kính hiển vi
¾ độ phân giải của ảnh: sử dụng độ phóng đại kính hiển vi 400X và độ phân
giải 384 * 284 điểm ảnh 24 bit màu. Độ co giãn là 0.201µm / điểm ảnh.
¾ chỉ tạo ảnh gồm các tế bào đơn, không chứa cụm tế bào
Trong mẫu Pap, ngoài các tế bào cổ tử cung, còn có rất nhiều loại tế bào phụ
khác như hồng cầu, bạch cầu, xác tế bào, vi trùng,… Để đơn giản, dữ liệu nhập chỉ giới
hạn trong các loại sau: tế bào trụ, tế bào gai cận đáy, tế bào gai trung gian và tế bào gai
KH
OA
C
NT
T –
Đ
H
KH
TN
Trang 38
bề mặt, tế bào loạn sản nhẹ chưa sưng hoá, tế bào loạn sản vừa, tế bào loạn sản nặng.
Dữ liệu được tạo ra bằng cách quét một lượng lớn các mẫu xét nghiệm vào máy tính.
Dữ liệu này được thực hiện bởi bác sĩ khoa giải phẫu học của đại học Y khoa Herlev,
bằng cách sử dụng camera kĩ thuật số kết nối với kính hiển vi và máy tính.
3.2.2.Dữ liệu
Cơ sở dữ liệu ảnh bao gồm:
¾ 50 ảnh tế bào trụ
¾ 50 ảnh tế bào gai cận đáy
¾ 50 ảnh tế bào gai trung gian
¾ 50 ảnh tế bào gai bề mặt
¾ 100 ảnh tế bào loạn sản nhẹ chưa sừng hoá
¾ 100 ảnh tế bào loạn sản vừa chưa sừng hoá
¾ 100 ảnh tế bào loạn sản nặng chưa sừng hoá
Như vậy, cơ sở dữ liệu ảnh này gồm 200 ảnh tế bào bình thường và 300 ảnh tế
bào loạn sản. Trước khi sử dụng dữ liệu để xây dựng mô hình phân lớp, cơ sở dữ liệu
được chia thành hai tập bằng nhau: tập huấn luyện và tập kiểm nghiệm. Dữ liệu huấn
luyện dùng để xây dựng mô hình phân lớp tế bào. Dữ liệu kiểm nghiệm dùng để đánh
giá mức độ thực hiện của mô hình.
3.2.3.Các đặc tính tế bào học
Các đặc tính của tế bào được dùng để tạo cơ sở dữ liệu cho mô hình ANFIS:
¾ Diện tích nhân
¾ Diện tích bào tương
¾ Độ sáng nhân
¾ Độ sáng bào tương
¾ Đường kính ngắn nhất của nhân
KH
OA
C
NT
T –
Đ
H
KH
TN
Trang 39
¾ Đường kính dài nhất của nhân
¾ Đường kính ngắn nhất của bào tương
¾ Đường kính dài nhất của bào tương
¾ Chu vi nhân
¾ Chu vi bào tương
¾ Vị trí nhân
¾ Vị trí bào tương
¾ Cực đại trong nhân
¾ Cực tiểu trong nhân
¾ Cực đại trong bào tương
¾ Cực tiểu trong bào tương
3.3.Dữ liệu xuất của hệ thống
Cơ sở dữ liệu được tạo ra với 20 đặc trưng cùng với đặc trưng thứ 21, là con số
tượng trưng cho phân lớp của tế bào:
¾ 1: tế bào trụ
¾ 2: tế bào gai cận đáy
¾ 3: tế bào gai trung gian
¾ 4: tế bào gai bề mặt
¾ 5: tế bào loạn sản nhẹ chưa sừng hoá
¾ 6: tế bào loạn sản vừa chưa sừng hoá
¾ 7: tế bào loạn sản nặng chưa sừng hoá
Đây chính là dữ liệu xuất dùng cho phân lớp tế bào. Nếu chỉ phân lớp là âm tính
(tương ứng 1, 2, 3, 4 ở trên) hoặc dương tính (tương ứng 4, 6, 7) thì đặc trưng phân lớp
tế bào sẽ gồm:
¾ 1: tế bào bình thường
¾ 2: tế bào loạn sản
KH
OA
C
NT
T –
Đ
H
KH
TN
Trang 40
3.4.Trích chọn đặc trưng
Hình 3-1: Ảnh đã phân đoạn
Hãy xem hình 3.1 như một ví dụ về ảnh đã được phân đoạn. Ảnh được phân
đoạn thành 3 phần, tượng trưng cho nhân, bào tương và nền, trong đó mỗi phần đánh
dấu bằng một màu tương ứng. Trong ảnh này, màu xám sáng biểu thị cho nhân, màu
xám tối là bào tương và màu trắng là nền. Như vậy hình 3.1 có thể được gán nhãn lại
như hình 3.2.
Hình 3-2: Ảnh đã gán nhãn
Đối với những ảnh trong cơ sở dữ liệu này, ta có chiều dài một điểm ảnh là:
pixelm
pixels
m
width
width
a
pixel
m /201.0
384
16051.77 µµµ === (3.1)
Sau đây, các đặc trưng khác nhau sẽ được giải thích và mô phỏng bằng công
thức. Qui ước đặt tên cho các đặc trưng là nếu một đặc trưng bắt đầu bằng chữ N thì nó
mô tả nhân, C là bào tương.
KH
OA
C
NT
T –
Đ
H
KH
TN
Trang 41
3.4.1.Diện tích và tỉ lệ diện tích
Diện tích là số điểm ảnh thuộc một lớp nào đó của đối tượng. Hệ số phép biến
đổi được sử dụng để tính diện tích theo kích thước vật lý (µm2) bằng cách nhân số điểm
ảnh với a2.
Tỷ lệ giữa diện tích nhân Narea và diện tích bào tương Carea được định nghĩa:
CareaNarea
NareaCN +=/ (3.2)
Ví dụ:
Hình 3-3: Các phép tính diện tích
Hình 3.3 chỉ ra số điểm ảnh trong lớp nhân và lớp bào tương. Ta có:
297.0
818.1768.0
768.0/
818.145
768.019
22
2
22
22
=+=+=
=⋅=
=⋅=
mm
m
CareaNarea
NareaCN
maCarea
maNarea
µµ
µ
µ
µ
3.4.2.Độ sáng
Độ sáng là cường độ sáng trung bình của các điểm ảnh của lớp. Mỗi điểm ảnh
chứa thông tin về dải màu đỏ (R), xanh lá cây (G), xanh lục (B) với cường độ từ 0 đến
255.
Cường độ sáng (I) của một điểm ảnh là trung bình của 3 dải màu này:
Blue * 0.114 +Green * 0.587 + Red * .2990=I (3.3)
KH
OA
C
NT
T –
Đ
H
KH
TN
Trang 42
Cường độ sáng trung bình được tính:
∑
∈
==
componentyx
yx
p
I
N
CcolNcolbrightness
,
,
1)( (3.4)
trong đó, Np là số lượng điểm ảnh thuộc lớp.
3.4.3.Đường kính
Gồm hai loại: đường kính lớn nhất và đường kính nhỏ nhất. Đường kính lớn
nhất là khoảng cách lớn nhất giữa hai điểm tính từ biên. Đường kính nhỏ nhất thẳng
góc với đường kính lớn nhất và chiều dài vừa với một hình chữ nhật bao ngoài lớp.
Các đường kính được tìm thấy dựa theo biên của mỗi thành phần. Khoảng cách
Euclide của tất cả các điểm trên biên được tính và khoảng cách xa nhất chính là đường
kính lớn nhất. Đường kính nhỏ nhất ở một phía được tính bằng khoảng cách vuông góc
tính từ biên đến đường kính lớn nhất. Cuối cùng, đường kính nhỏ nhất được định nghĩa
là tổng hai khoảng cách lớn nhất từ hai phía của đường kính lớn nhất. Các đường kính
được tính theo kích thước vật lý bằng cách nhân với a.
Ví dụ:
Hình 3-4: Vị trí đường kính nhỏ nhất và lớn nhất
Trong hình 3.4 các đường kính tính cho bào tương được xác định theo phương
pháp trên. Chú ý hai đường kính nhỏ nhất đều thẳng góc với đường kính lớn nhất.
Đường kính nhỏ nhất và lớn nhất được tính theo khoảng cách Euclide:
KH
OA
C
NT
T –
Đ
H
KH
TN
Trang 43
( ) ( )
( ) ( ) ma
yyxxaClong
µ100.244.10201.036100
2max_1max_2max_1max_
22
22
=⋅=−+−⋅=
−+−⋅=
( ) ( )
( ) ( ) ma
yyxxaCshort
µ025.110.5201.05043
12min_11min_12min_11min_1
22
22
=⋅=−+−⋅=
−+−⋅=
( ) ( )
( ) ( ) ma
yyxxaCshort
µ636.016.3201.04767
22min_21min_22min_21min_2
22
22
=⋅=−+−⋅=
−+−⋅=
mCshortCshortCshort µ660.1636.0205.121 =+=+=
3.4.4.Chu vi
Chu vi là số điểm ảnh nằm ở biên của lớp. Biên được tính theo µm bằng cách
nhân với a.
Ví dụ:
Biên của bào tương được xác định khi tính đường kính lớn nhất và nhỏ nhất của
nó (xem hình 3.4). Như hình vẽ, biên của bào tương gồm 26 điểm ảnh. Như vậy chu vi
bào tương là:
maCperi µ225.526 =⋅=
3.4.5.Vị trí nhân
Tâm của một lớp ( )yx ˆ,ˆ được xem như tâm của trọng lực. Để tính tâm của trọng
lực, trước tiên cần tính các mô men:
∑
∈
⋅=
componentyx
qp
qp yxM
,
, (3.5)
areaM
componentyx
== ∑
∈,
0,0 1 (3.6)
∑
∈
=
componentyx
xM
,
0,1 (3.7)
∑
∈
=
componentyx
yM
,
1,0 (3.8)
KH
OA
C
NT
T –
Đ
H
KH
TN
Trang 44
0,0
0,1ˆ
M
M
x = (3.9)
0,0
1,0ˆ
M
M
y = (3.10)
Khi các tâm được tính cho cả nhân ( )nn yx ˆ,ˆ và bào tương ( )cc yx ˆ,ˆ , một vị trí
tương quan được tính theo đường kính lớn nhất cho bào tương:
( ) ( )
Clong
yyxxa
Npos cncn
22 ˆˆˆˆ2 −+−⋅= (3.11)
Đặc trưng này chứng tỏ vị trí của nhân trong bào tương.
Ví dụ:
Hình 3-5: Tâm của trọng lực đối với nhân và bào tương
Trong hình 3.5 tâm của trọng lực được tính cho cả lớp nhân và bào tương:
59.4
45
220ˆ ≈==cx
48.3
45
173ˆ ≈==cy
51.5
19
98ˆ ≈==nx
34.3
19
66ˆ ≈==ny
KH
OA
C
NT
T –
Đ
H
KH
TN
Trang 45
Cho nên, vị trí tương quan được tính:
( ) ( )
( ) ( )
191.0
100.2
4355201.02
ˆˆˆˆ2
22
22
=−+−⋅=
−+−⋅=
Clong
yyxxa
Npos cncn
3.4.6.Độ giãn dài
Độ giãn dài là tỷ lệ giữa chiều dài đường kính nhỏ nhất và chiều dài đường kính
lớn nhất. Khi tỷ lệ này tiến đến 1 thì lớp gần như là hình vuông.
long
shortelong = (3.12)
Ví dụ:
Đường kính lớn nhất và nhỏ nhất của bào tương được dùng để tính độ giãn dài:
79.0
100.2
660.1 ===
Clong
CshortCelong
3.4.7.Độ tròn
Độ tròn là tỷ lệ giữa diện tích đường tròn bao và diện tích lớp. Đường tròn bao
lấy đường kính lớn nhất của thành phần làm đường kính. Nếu tỷ lệ tiến đến 1 thì lớp là
tròn, và nếu tỷ lệ tiến đến 0 thì lớp gần như là đường thẳng.
22
4
2
long
area
long
arearound ⋅
⋅=
⎟⎠
⎞⎜⎝
⎛⋅
= ππ
(3.13)
KH
OA
C
NT
T –
Đ
H
KH
TN
Trang 46
Ví dụ:
Hình 3-6: Đường tròn cực tiểu cho nhân
Trong hình 3.6 đường tròn bao được sử dụng cho lớp nhân. Độ tròn được tính
sử dụng đường kính lớn nhất 1.35µm (chưa tính trong ví dụ trước), và diện tích nhân
0.768µm2 (từ ví dụ diện tích):
54.0
35.1
768.044
22 =⋅
⋅=⋅
⋅= ππ Nlong
NareaNround
3.4.8.Cực đại, cực tiểu
Cực đại, cực tiểu là giá trị số lượng giá trị cường độ xám lớn nhất, nhỏ nhất
thuộc đối tượng (nhân, bào tương). Chương trình sẽ kiểm tra tất cả các điểm ảnh thuộc
đối tượng. Nếu điểm ảnh có giá trị cường độ sáng lớn nhất / nhỏ nhất khi so sánh với
các điểm ảnh nằm trong bán kính 3 điểm ảnh, thì biến đếm tăng lên 1.
3.5.Các đặc trưng rút trích
STT Đặc trưng Viết tắt Được tính từ
1 Diện tích nhân Narea
2 Diện tích bào tương Carea
3 Tỷ lệ nhân / bào tương N/C Narea, Carea
4 Độ sáng nhân Ncol
KH
OA
C
NT
T –
Đ
H
KH
TN
Trang 47
5 Độ sáng bào tương Ccol
6 Đường kính ngắn nhất của nhân Nshort
7 Đường kính dài nhất của nhân Nlong
8 Độ giãn dài của nhân Nelong Nshort, Nlong
9 Độ tròn của nhân Nround Narea, Nlong
10 Đường kính ngắn nhất bào tương Cshort
11 Đường kính dài nhất của bào
tương
Clong
12 Độ giãn dài của bào tương Celong Cshort, Clong
13 Độ tròn của bào tương Cround Carea, Clong
14 Chu vi nhân Nperim
15 Chu vi bào tương Cperim
16 Vị trí nhân Npos
17 Cực đại trong nhân Nmax
18 Cực tiểu trong nhân Nmin
19 Cực đại trong bào tương Cmax
20 Cực tiểu trong bào tương Cmin
Bảng 3-1 : Danh sách các đặc trưng trích chọn vào cơ sở dữ liệu
KH
OA
C
NT
T –
Đ
H
KH
TN
Trang 48
Chương 4: PHÂN LOẠI TẾ BÀO CỔ TỬ CUNG SỬ
DỤNG MÔ HÌNH ANFIS
Phân loại tế bào ung thư cổ tử cung là giai đoạn quan trọng nhất trong hệ
thống khám sàng lọc tự động. Việc phân loại sử dụng mô hình ANFIS sẽ cho kết quả
tốt hơn những phương pháp gom cụm thông thường khác như: k – trung bình, láng
giềng gần nhất, gom cụm mờ… Chương này sẽ giới thiệu những hệ thống cơ sở luật
mà ANFIS thực hiện để cho kết quả tốt nhất có thể.
4.1.Cấu trúc ANFIS trong phân loại tế bào cổ tử cung
4.1.1.Hệ thống suy luận mờ
Không mất tính tổng quát, xét một hệ suy luận gồm 2 đặc trưng của nhân: kích
thước, độ sáng và 4 luật chuyên gia sau:
Luật Diện tích nhân Độ sáng nhân Phân lớp
1 nhỏ tối bình thường
2 lớn sáng loạn sản nhẹ
3 lớn trung bình loạn sản
4 lớn sáng loạn sản nặng
Bảng 4-1: Ví dụ luật mờ phân loại tế bào
Như vậy với cơ sở luật như trên thì các luật Sugeno bậc 0 tương ứng là:
1. Nếu x là A1 và y là B3 thì z1 = p1
2. Nếu x là A2 và y là B1 thì z2 = p2
KH
OA
C
NT
T –
Đ
H
KH
TN
Trang 49
3. Nếu x là A2 và y là B2 thì z3 = p3
4. Nếu x là A2 và y là B3 thì z4 = p4
với x là diện tích nhân và y là độ sáng nhân, và zi là dữ liệu xuất của luật thứ i.
Ngưỡng kích hoạt wi của mỗi luật được xác định trong phần giả thiết của luật và
được tính bằng:
( ) ( )
( ) ( )
( ) ( )
( ) ( )yxw
yxw
yxw
yxw
BA
BA
BA
BA
32
22
12
31
4
3
2
1
µµ
µµ
µµ
µµ
×=
×=
×=
×=
(4.1)
trong đó ( )xA 2,1µ và ( )yB 3,2,1µ là các hàm thành viên của dữ liệu nhập x và y, chúng thể
hiện mức độ thỏa mãn của dữ liệu nhập với tập A = {A1,A2,B1,B2,B3}. Các hàm thành
viên này được chọn theo dạng chuông:
ib
i
i
A
a
cx 2)(1
1
−+
=µ (4.2)
với {ai,bi,ci} là các tham số giả thiết, xác định hình dạng thật sự của các hàm thành
viên (Hình 4.1).
Với một bộ dữ liệu nhập bất kì, toàn bộ dữ liệu xuất z của hệ thống suy luận mờ
được xác định bằng cách dùng các ngưỡng kích hoạt trọng hoá của mỗi luật:
4321
44332211
wwww
zwzwzwzw
w
zw
z
i i
i ii
+++
+++== ∑
∑ (4.3)
Hình 4-1: Ý nghĩa các tham số trong hàm dạng chuông
KH
OA
C
NT
T –
Đ
H
KH
TN
Trang 50
4.1.2.Cấu trúc ANFIS
Hệ thống suy luận mờ mô tả ở phần trước có thể được thực hiện bằng một cấu
trúc ANFIS tương ứng hình sau:
Hình 4-2: Cấu trúc ANFIS với 2 dữ liệu vào và 4 luật
Mạng được chia thành 5 lớp như hình 4.2. Dữ liệu nhập được đưa vào lớp nhập,
và các phép tính được thực hiện từ trái sang phải. Dữ liệu xuất của lớp xuất là tổng dữ
liệu xuất z. Các lớp giữa lớp nhập và lớp xuất được gọi là các lớp ẩn. Mỗi lớp chứa một
hoặc nhiều nút. Dữ liệu xuất của nút thứ i trong lớp thứ k được kí hiệu là kiO .
Lớp 1: Các nút trong lớp nhập có dữ liệu xuất tính theo công thức (4.2):
( )
( ) 5,4,3
2,1
1
1
==
==
ikhiyO
ikhixO
i
i
Bi
Ai
µ
µ
(4.4)
Các nút trong lớp nhập thích nghi tương ứng các tham số giả thiết {ai,bi,ci}.
Lớp 2: Các nút trong lớp thứ hai chứa các ngưỡng kích hoạt của luật theo công
thức (4.1):
ii wO =2 (4.5)
KH
OA
C
NT
T –
Đ
H
KH
TN
Trang 51
Lớp 3: Các nút trong lớp thứ ba tính trọng hoá các ngưỡng kích hoạt:
∑== iiii w
wwO3 (4.6)
Lớp 4: Các nút trong lớp thứ tư tính trọng hoá dữ liệu xuất của mỗi luật:
iiiii pwzwO ==4 (4.7)
trong đó pi là các tham số kết quả của các hệ thống.
Lớp 5: Lớp thứ năm là lớp xuất. Hàm nút sẽ tính tổng dữ liệu xuất bằng tổng tất
cả các tín hiệu vào theo công thức (4.3):
∑ ∑
∑==
i i
i ii
ii w
zw
OO 45 (4.8)
4.1.3.Huấn luyện ANFIS
Mỗi chu kì huấn luyện cấu trúc ANFIS được thực hiện bởi 2 quá trình: quá trình
tiến và và quá trình lùi. Trong quá trình tiến, các tham số kết quả được xác định bằng
phương pháp bình phương cực tiểu. Trong quá trình lùi, các tín hiệu lỗi lan truyền
ngược và độ giảm gradient thường được dùng để xác định các tham số giả thiết. Chính
vì vậy mà phương pháp này được xem như một thuật toán học lai ghép. Dữ liệu huấn
luyện chứa tập các vector dữ liệu vào gồm P vectơ (mục).
4.1.3.1.Quá trình tiến
Trong quá trình tiến, dữ liệu nhập được đưa vào mạng, và dữ liệu xuất được tính
toán cho từng nút, từ lớp nhập đến lớp xuất. Các tham số kết quả thích nghi được tìm
thấy bằng cách tính phương trình ma trận AX = B, trong đó X là một vector M × 1 chứa
các tham số kết quả với M chưa biết, A là ma trận P × M chứa những dữ liệu xuất thực
KH
OA
C
NT
T –
Đ
H
KH
TN
Trang 52
sự (dữ liệu thực), được mô tả như một tổ hợp tuyến tính tương ứng với các tham số kết
quả, B là một vector P × 1, chứa dữ liệu xuất mong muốn (dữ liệu đích). Phương trình
ma trận được tính bằng phương pháp ước lượng bình phương cực tiểu (LSE – Least
squares estimate):
( )
1,...,1,0,
1 11
11
1
11111
−=+−=
−+=
++
++
+
+++++
Pi
aSa
SaaS
SS
XabaSXX
ii
T
i
i
T
iii
ii
i
T
i
T
iiiii
(4.9)
trong đó, LSE của X bằng Xp, và hàng thứ i của A và thành phần thứ i của B là a Ti và
b Ti . Giá trị khởi tạo của X là X0 = 0. S0 = γI, trong đó I là ma trận đồng nhất M x M, và
γ là số dương lớn.
4.1.3.2.Quá trình lùi
Quá trình lùi sẽ lan truyền ngược tín hiệu lỗi của dữ liệu xuất để tìm ra các tham
số giả thiết của mạng. Xét một mạng dữ liệu xuất đơn giản gồm L lớp, trong đó N(l) là
số lượng nút của lớp l. Nút thứ i tại lớp l có dữ liệu xuất xl,i và hàm truyền fl,i. Tập huấn
luyện có P mục, và dp biểu hiện dữ liệu đích cho mục p. Độ đo lỗi Ep tương ứng mục
thứ p trong dữ liệu huấn luyện là:
( )21,Lpp xdE −= (4.10)
Vấn đề của lan truyền ngược chính là phải cực thiểu hoá tổng lỗi ∑ == pp pEE 1
bằng cách thay đổi các tham số giả thiết. Để thực hiện điều này, chúng ta cần xem xét
các tín hiệu lỗi il ,ε , chính là đạo hàm riêng của Ep tương ứng với dữ liệu xuất của nút
thứ i tại lớp l:
il
p
il x
E
,
, ∂
+∂=ε (4.11)
KH
OA
C
NT
T –
Đ
H
KH
TN
Trang 53
Tín hiệu lỗi 1,Lε tại lớp xuất là:
( ) ( )1,
1,
2
1,
1, 2 Lp
L
Lp
L xdx
xd −−=∂
−∂=ε (4.12)
Đối với các nút ở lớp ẩn, tín hiệu lỗi là đạo hàm một luật dãy:
∑∑ +
=
+
+
+
=
+
+ ∂
∂=∂
∂
∂
+∂=∂
+∂=
)1(
1 ,
,1
,1
)1(
1 ,
,1
,1,
,
lN
m il
ml
il
lN
m il
ml
ml
p
il
p
il x
f
x
f
x
E
x
E
E ε (4.13)
Như vậy, các tín hiệu lỗi tại lớp l có thể được tìm thấy nếu biết các tín hiệu lỗi
của lớp l+1. Đây là trường hợp cho lớp xuất, và bằng cách dùng phương trình 4.12 cho
đến khi đến được lớp thứ l, và suy ra il ,ε . Bước kế tiếp để tìm vector gradient, tức là
tìm đạo hàm của độ đo lỗi tương ứng mỗi tham số lý thuyết α. Khi α là một tham số
thích nghi của nút i tại lớp l, chúng ta lấy (bằng cách dùng lại chuỗi luật) định nghĩa
sau:
αεαα ∂
∂=∂
∂
∂
+∂=∂
+∂ il
il
il
il
pp ff
x
EE ,
,
,
.
(4.14)
Đạo hàm của toàn bộ độ đo lỗi E tương ứng α là:
∑
= ∂
+∂=∂
+∂ P
p
pEE
1 αα
Dùng phương pháp giảm nhanh, công thức cập nhật cho một tham số lý thuyết α
trở thành:
αηα ∂
+∂−=∆ E (4.15)
ααα ∆+=new (4.16)
trong đó η là tốc độ học, được định nghĩa:
η =
∑ ∂∂α α 2)( E
k (4.17)
trong đó k là kích thước bước.
KH
OA
C
NT
T –
Đ
H
KH
TN
Trang 54
4.2.Các hệ thống luật mờ trong phân loại tế bào
4.2.1.Luật chuyên gia
Năm 1996, Voss đã đưa ra 4 luật cơ bản dùng cho phân lớp tế bào dựa vào
thông tin tế bào học ở bảng 1.1. Các luật này được trình này tại bảng 4.2. Các chuyên
gia sẽ dựa trên kiến thức và kinh nghiệm của bản thân để đề xuất ra các luật loại này.
Luật Diện tích
nhân
Tỉ lệ diện
tích
Độ sáng
bào tương
Độ sáng
nhân
Dữ liệu
xuất
1 nhỏ nhỏ sáng tối bình thường
2 lớn lớn sáng sáng loạn sản
3 lớn lớn sáng tối loạn sản
4 lớn lớn tối tối loạn sản
Bảng 4-2: Luật chuyên gia
4.2.2.Luật chuyên gia biến đổi
Luật chuyên gia chỉ có thể giải thích tốt khả năng suy luận của con người, chứ
không mô tả tốt dữ liệu đã được số hoá, nên khi thực hiện hệ thống, tuỳ theo kết quả
phân lớp của luật chuyên gia, chúng ta có thể bổ sung thêm dữ liệu huấn luyện cho
những phần mà luật thiếu hoặc tạo luật chuyên gia biến đổi như bảng 4.2.
Luật Diện tích
nhân
Tỉ lệ
diện tích
Độ sáng
nhân
Độ sáng
bào tương
Dữ liệu xuất
1 nhỏ không nhỏ sáng tối bình thường
2 nhỏ trung bình tối tối bình thường
3 nhỏ nhỏ tối sáng bình thường
KH
OA
C
NT
T –
Đ
H
KH
TN
Trang 55
4 lớn trung bình sáng sáng loạn sản
5 lớn không nhỏ sáng sáng loạn sản
6 lớn lớn sáng sáng loạn sản
7 lớn lớn tối tối loạn sản
Bảng 4-3: Luật chuyên gia biến đổi
4.2.3.Luật trích dẫn từ hệ thống
4.2.4.Lựa chọn tập đặc trưng
4.2.4.1.Giới thiệu chung về lựa chọn đặc trưng
Trong vấn đề mô hình hóa thế giới thực, việc một cấu trúc cần hàng chục thậm
chí hàng trăm đặc trưng nhập vào không phải là hiếm. Một số lượng đặc trưng lớn như
vậy không chỉ làm suy giảm tính rõ ràng của mô hình, mà còn làm tăng độ phức tạp
của việc tính toán trong quá trình xây dựng mô hình. Vì vậy, việc lựa chọn đặc trưng
rất cần thiết nhằm tìm ra độ ưu tiên cho mỗi đặc trưng ứng viên và sử dụng chúng một
cách thích hợp. Mục đích của việc lựa chọn đặc trưng:
¾ Loại bỏ các đặc trưng nhiễu / không thích hợp
¾ Loại bỏ các đặc trưng có thể suy ra được từ các đặc trưng khác
¾ Tạo mô hình cơ bản ngắn gọn và rõ ràng hơn
¾ Giảm thời gian xây dựng mô hình
4.2.4.2.Thuật giải chọn đặc trưng
Thuật giải chọn đặc trưng (simulated annealing) đơn giản gồm 6 bước:
1. Chọn một điểm khởi tạo ngẫu nhiên x. Đặt biến lặp k = 1
2. Xác định hàm đích: E = f(x)
3. Đặt xnew = x + ∆x, trong đó ∆x là thay đổi nhỏ ngẫu nhiên so với x
KH
OA
C
NT
T –
Đ
H
KH
TN
Trang 56
4. Tính giá trị mới của hàm đích: Enew = f(xnew)
5. Nếu Enew < E thì x = xnew và E = Enew
6. Tăng k = k + 1. Nếu k đạt giá trị cực đại K thì thuật toán ngừng. Ngược lại, quay
lại bước 3.
Trong đó, một giải pháp x là một tổ hợp của b đặc trưng chọn từ cơ sở dữ liệu.
Hàm đích f(x) bằng RMSE của quá trình phân lớp dùng các đặc trưng trong x. Chiến
lược lựa chọn điểm khởi tạo x là:
1. Cho s là danh sách các đặc trưng có sẵn (n = 20): s = [s1, s2, …, sn]
2. Cho x là danh sách b phần tử lựa chọn ngẫu nhiên từ s
3. Loại bỏ các phần tử thuộc x ra khỏi s
Chiến lược lựa chọn ∆x và xnew là:
1. Chọn ∆x là phần tử lựa chọn ngẫu nhiên từ s, và loại bỏ ∆x khỏi s
2. Chọn ∆s là phần tử lựa chọn ngẫu nhiên từ x, và loại bỏ ∆s khỏi x
3. Cộng ∆x vào x để lấy xnew = x + ∆x
4. Cộng ∆s vào s
4.2.5.Rút trích luật
4.2.5.1.Giới thiệu chung về trích luật
Việc mô hình hoá thế giới thực thường liên quan đến hàng chục (thậm chí hàng
trăm) đặc trưng cho cấu trúc của mô hình. Bên cạnh việc lựa chọn tốt tập đặc trưng, thì
việc trích luật từ hệ thống cũng rất đóng vai trò quan trọng vào hiệu quả của cấu trúc
ANFIS. Thuật toán gom cụm loại trừ (subtractive clustering) được dùng để phát sinh
số lượng luật và hệ thống luật cho cấu trúc ANFIS phân lớp tế bào. Từ một tập dữ liệu
nhập và xuất, gom cụm loại trừ có thể trích ra một tập luật mô tả hành vi của dữ liệu
cùng với số lượng luật và các hàm thành viên của chúng. Nó là một thuật toán học
không giám sát, dựa trên độ đo mật độ các điểm dữ liệu trong không gian đặc trưng.
KH
OA
C
NT
T –
Đ
H
KH
TN
Trang 57
4.2.5.2.Thuật toán gom cụm loại trừ
Xét tập gồm K điểm dữ liệu tượng trưng bởi các vectơ m chiều uk, k = 1, 2, …,
K. Không mất tính tổng quát, giả sử các điểm dữ liệu chuẩn hoá. Khi mỗi điểm dữ liệu
là một ứng viên cho một tâm nhóm, một độ đo mật độ tại điểm dữ liệu uk được định
nghĩa:
( )∑= ⎟⎟⎠
⎞
⎜⎜⎝
⎛ −−=
K
j a
jk
k r
uu
D
1
22/
exp (4.18)
trong đó ra là một hằng số dương. Vì vậy, một điểm dữ liệu sẽ có giá trị mật độ cao nếu
nó có nhiều điểm dữ liệu lân cận và chỉ những lân cận mờ trong bán kính ra góp phần
vào độ đo mật độ.
Sau khi tính độ đo mật độ cho mỗi điểm dữ liệu, điểm có mật độ cao nhất được
chọn làm tâm nhóm đầu tiên. Đặt
1c
u là điểm được chọn và
1c
D là độ đo mật độ. Kế
tiếp, độ đo mật độ cho mỗi điểm dữ liệu uk được sửa lại theo công thức:
( ) ⎟⎟⎠
⎞
⎜⎜⎝
⎛ −−−= 2' 2/exp
1
1
b
Ck
Ckk r
uu
DDD (4.19)
trong đó, rb là hằng số dương. Do đó, các điểm dữ liệu gần tâm nhóm đầu tiên 1cu sẽ
giảm đáng kể độ đo mật độ, bằng cách ấy tạo ra các điểm không thể được chọn làm
tâm kế tiếp. Hằng số rb định nghĩa một lân cận được giảm độ đo mật độ. Nó thường lớn
hơn ra để ngăn các tâm nhóm đặt gần nhau: rb = 1.5 * ra.
Sau khi độ đo mật độ của mỗi điểm được sửa lại, tâm nhóm thứ hai
2c
u được
chọn và tất cả các độ đo mật độ được cập nhật lại. Quá trình lặp lại cho đến khi không
còn điểm dữ liệu tiềm năng nào, thông thường sử dụng chuẩn Dk’ < 0.15D1.
4.2.5.3.Trích luật
Khi áp dụng gom cụm loại trừ vào tập dữ liệu nhập - xuất của một phân lớp, mỗi
tâm nhóm tượng trưng cho một luật của phân lớp đó. Để phát sinh luật, mỗi tâm nhóm
KH
OA
C
NT
T –
Đ
H
KH
TN
Trang 58
được xem như tâm của các tham số giả thiết trong loại luật mờ singleton. Giả sử
1c
u là
tâm nhóm nằm trong phân lớp c1 thì ta sẽ có luật:
Luật i: Nếu {u là
1c
u } thì phân lớp là c1.
Tương tự cho các luật nằm trong những phân lớp còn lại.
Với phương pháp chọn đặc trưng và trích luật như vậy, chương trình rút ra được
2 hệ thống luật: 9 đặc trưng, 27 luật, 2 dữ liệu xuất và 9 đặc trưng, 34 luật, 7 dữ liệu
xuất, tất cả được mô tả trong chương 5.
KH
OA
C
NT
T –
Đ
H
KH
TN
Trang 59
Chương 5: TỔNG KẾT
5.1.Chương trình
5.1.1.Công cụ sử dụng
¾ Môi trường lập trình: VC++.Net 2003
¾ Dữ liệu: 500 ảnh tế bào cổ tử cung
5.1.2.Cấu trúc thư mục và tập tin
Chương trình gồm 2 phần chính: huấn luyện và thử nghiệm (thư mục Learning),
và phân lớp tế bào (thư mục Checking). Dữ liệu xuất của Learning chính là dữ liệu
nhập (các tham số mạng thích nghi) của Checking. Sau đây là nội dung một số tập tin
tham số của chương trình:
Thư mục Learning:
alldata.dat: gồm 500 dòng, mỗi dòng chứa 21 dữ liệu nhập tương ứng 21 đặc
trưng.
anfis.conf: gồm 6 dòng, chứa thông tin mô hình ANFIS
¾ Dòng 1: Số đặc trưng được chọn (n_in)
¾ Dòng 2: Số lượng hàm thành viên (n_mf)
¾ Dòng 3: Số lượng luật (n_rule)
¾ Dòng 4: Số lượng phân lớp (n_class)
¾ Dòng 5: Đường dẫn tập tin para.inp
¾ Dòng 6: Đường dẫn tập tin rule.inp
KH
OA
C
NT
T –
Đ
H
KH
TN
Trang 60
para.inp: chứa các tham số nhập vào cho mô hình ANFIS
¾ Gồm (n_in * n_mf) dòng, mỗi dòng chứa 3 tham số a, b, c của hàm thành viên
¾ Dòng thứ (n_in * n_mf + 1) chứa (n_rule) số, thể hiện dữ liệu xuất của từng luật
para.fin: chứa các tham số của mô hình ANFIS
¾ Gồm (n_in * 4) dòng, mỗi dòng chứa 3 tham số a, b, c mới của hàm thành viên
¾ (n_rule) dòng kế tiếp lưu trữ tham số kết quả của mạng
rule.inp: gồm (n_rule) dòng, mỗi dòng chứa (n_in) số trong khoảng từ 0 đến 3,
thể hiện mức độ phụ thuộc của hàm thành viên.
trainning.conf: gồm 2 dòng
¾ Dòng 1: Số lượng dữ liệu huấn luyện
¾ Dòng 2: gồm 20 con số 1 hoặc 0 tương ứng 20 đặc trưng được chọn hoặc không.
Thư mục Checking:
alldata.dat, rule.inp: Giống phần Learning
anfis.conf: gồm 5 dòng, chứa thông tin mô hình ANFIS
¾ Dòng 1: Số đặc trưng được chọn (n_in)
¾ Dòng 2: Số lượng hàm thành viên (n_mf)
¾ Dòng 3: Số lượng luật (n_rule)
¾ Dòng 4: Đường dẫn tập tin para.inp
¾ Dòng 5: Đường dẫn tập tin rule.inp
mydata_f.dat: chứa các vectơ dữ liệu gồm 21 đặc trưng
KH
OA
C
NT
T –
Đ
H
KH
TN
Trang 61
mydata_n.dat: chứa tên tập tin ảnh tương ứng với dữ liệu ở mydata_f.dat.
para.inp: chính là para.fin của learning
5.1.3.Hướng dẫn sử dụng chương trình
Gồm 2 chương trình: Learning và Checking.
Giao diện của Learning:
Hình 5-1: Giao diện màn hình huấn luyện
Các bước thực hiện huấn luyện:
¾ Bước 1: Gõ đường dẫn thư mục chứa các tập tin tham số vào text box Data Path
(./Params/ là đường dẫn mặc định)
¾ Bước 2: Nhập vào số lượng chu kì huấn luyện tại text box Epochs
¾ Bước 3: Nhấn nút Start để bắt đầu huấn luyện
¾ Bước 4: Nếu muốn huấn luyện tiếp, lặp lại bước 2
Ngược lại, nhấn nút Exit để thoát khỏi chương trình.
thông
số mô
hình
kết quả
huấn
luyện
KH
OA
C
NT
T –
Đ
H
KH
TN
Trang 62
Sau khi thực hiện, learning sẽ cho các thông số kết quả của huấn luyện và thời
gian thực hiện:
Hình 5-2: Giao diện khi huấn luyện xong
Hình 5.2 thể hiện kết quả huấn luyện của mô hình ANFIS gồm 9 đặc trưng, mỗi
đặc trưng có 4 biến ngôn ngữ, và hệ thống 31 luật. Dữ liệu huấn luyện 250 mẫu, dữ
liệu kiểm tra 250 mẫu.
KH
OA
C
NT
T –
Đ
H
KH
TN
Trang 63
Giao diện của Checking:
Hình 5-3: Giao diện chính của Checking
Các bước thực hiện phân lớp tế bào:
¾ Bước 1: Load ảnh tế bào bằng cách bấm nút Load Image
Hình 5-4: Load ảnh
đặc
trưng
ảnh
KH
OA
C
NT
T –
Đ
H
KH
TN
Trang 64
¾ Bước 2: Phân đoạn ảnh bằng cách bấm nút Segmentation, màn hình phân đoạn
sẽ xuất hiện:
Hình 5-5: Phân đoạn ảnh
Để phân đoạn ảnh, cần phải nhấn Boudary để chọn tế bào cần tính đặc trưng (có
thể không chọn, nhưng việc tính đặc trưng tế bào ở bước sau sẽ không chính xác), sau
đó lần lượt đánh dấu các phần ảnh cần phân đoạn thành nhân, bào tương và nền.
Bấm nút Segment để phân đoạn ảnh, ta thu được ảnh đã phân đoạn chưa khử
nhiễu. Để loại bỏ nhiễu, chọn nút Remove Small với bán kính xóa nhiễu nhập tại
textbox Radius (thông thường là 12) tương ứng với nhân, bào tương và nền.
Khi đã hài lòng về kết quả phân đoạn, bấm Ok để tiếp tục thao tác chương trình.
Ngược lại, nếu muốn phân đoạn ảnh lại từ đầu, nhấn Reset.
KH
OA
C
NT
T –
Đ
H
KH
TN
Trang 65
Hình 5-6: Ảnh đã phân đoạn
Hình 5-7: Ảnh đã phân đoạn sau khi loại bỏ nhiễu
¾ Bước 3: Thực hiện tính đặc trưng tế bào bằng cách nhấn nút Calc Feas
¾ Bước 4: Phân lớp tế bào bằng cách nhấn nút Checking
¾ Bước 5: Lưu vào cơ sở dữ liệu bằng cách nhấn nút Update Features
¾ Bước 6: Nếu muốn tiếp tục, quay lại bước 1
Ngược lại, nhấn nút Exit để thoát khỏi chương trình
KH
OA
C
NT
T –
Đ
H
KH
TN
Trang 66
Sau khi thực hiện các bước như trên, hệ thống sẽ cho kết quả chẩn đoán tế bào
như sau:
Hình 5-8: Giao diện Checking sau khi chẩn đoán
Theo kết quả như vậy, chúng ta có thể xác định được tế bào này là tế bào bình
thường, không bị nghi ngờ tiền ung thư.
5.2.Mức độ thực hiện chương trình
5.2.1.Luật chuyên gia
Luật chuyên gia theo bảng 4.1 được số hóa thành bảng sau:
Luật #1 #4 #5 #3 2 dữ liệu xuất 7 dữ liệu xuất
1 0 3 0 0 1 1
2 3 0 0 3 2 5
3 3 3 0 3 2 6
4 3 3 3 3 2 7
Bảng 5-1: Luật chuyên gia số hóa
KH
OA
C
NT
T –
Đ
H
KH
TN
Trang 67
Mức độ huấn luyện mạng tốt nhất:
Tiêu chuẩn 2 dữ liệu xuất
(58 chu kì huấn luyện)
7 dữ liệu xuất
(124 chu kì huấn luyện)
RMSE 0.300950 0.543341
FN% 2.00% 63.16%
FP% 28.28% 12.72%
PP% 84.00% 56.00%
NP% 95.95% 75.88%
TRN% 87.20% 71.60%
Sensitivity 98.00% 36.84%
Specificity 71.72% 87.28%
Time trainning 2(s) 5(s)
Bảng 5-2: Mức độ thực hiện luật chuyên gia
Mức độ kiểm nghiệm tương ứng số chu kì huấn luyện, trên 250 mẫu khác:
Tiêu chuẩn 2 dữ liệu xuất 7 dữ liệu xuất
RMSE 0.360433 0.7181176
CHK% 85.60% 70.00%
Bảng 5-3: Mức độ kiểm nghiệm của luật chuyên gia
Nhận xét:
Bộ luật chuyên gia với 2 dữ liệu xuất phân loại tốt với những tế bào được chẩn
đoán là âm tính. Với 7 dữ liệu xuất, luật chuyên gia thực hiện kém đi rất nhiều. Lý do
chính là vì luật chuyên gia không mô tả tốt được dữ liệu nhập - xuất mà chỉ phụ thuộc
vào ý kiến chủ quan của con người. Do đó, cần phải thực hiện thêm nhiều bộ dữ liệu
huấn luyện để tăng khả năng thực hiện của mô hình.
KH
OA
C
NT
T –
Đ
H
KH
TN
Trang 68
5.2.2.Luật chuyên gia biến đổi
Luật chuyên gia biến đổi theo bảng 4.2 được số hóa như sau:
Luật #1 #3 #4 #5 2 dữ liệu xuất 7 dữ liệu xuất
1 0 1 0 3 1 1
2 0 2 3 3 1 2
3 0 0 3 0 1 3
4 3 2 0 0 2 5
5 3 1 0 0 2 6
6 3 3 0 0 2 7
7 3 3 3 3 2 7
Bảng 5-4: Luật chuyên gia biến đổi số hóa
Mức độ huấn luyện mạng tốt nhất:
Tiêu chuẩn 2 dữ liệu xuất
(123 chu kì huấn luyện)
7 dữ liệu xuất
(89 chu kì huấn luyện)
RMSE 0.299719 0.772719
FN% 10.23% 76.74%
FP% 23.29% 19.42%
NP% 75.68% 83.42%
PP% 90.29% 20.00%
TRN% 85.60% 70.40%
Sensitivity 89.77% 23.26%
Specificity 76.71% 80.58%
Time trainning 6(s) 5(s)
Bảng 5-5: Mức độ thực hiện luật chuyển gia biến đổi
KH
OA
C
NT
T –
Đ
H
KH
TN
Trang 69
Mức độ kiểm nghiệm tương ứng số chu kì huấn luyện, trên 250 mẫu khác:
Tiêu chuẩn 2 dữ liệu xuất 7 dữ liệu xuất
RMSE 0.381556 3.467845
CHK% 79.60% 68.00%
Bảng 5-6: Mức độ kiểm nghiệm của luật chuyên gia biến đổi
Nhận xét:
Luật chuyên gia biến đổi tuy làm tăng khả năng phân loại tế bào chẩn đoán
dương tính, nhưng đồng thời lại làm giảm khả năng nhận biết các tế bào âm tính, bởi vì
luật này thay đổi dựa trên những quan sát thông thường của con người nên vẫn không
mô tả tốt dữ liệu, nó chỉ có thể khắc phục được một số sai sót về một phương diện nào
đó mà thôi.
5.2.3.Luật trích từ hệ thống
Sử dụng thuật giải subtractive clustering, 9 đặc trưng sau là tập đặc trưng tốt
dùng cho phân lớp tế bào: #2, #4, #6, #9, #10, #11, #14, #16, #17.
Bảng sau mô tả các luật trích từ hệ thống, sử dụng thuật toán subtractive
clustering:
Luật #2 #4 #6 #9 #10 #11 #14 #16 #17 Dữ liệu xuất
1 3 0 0 1 3 3 0 0 0 1
2 0 3 0 1 0 0 0 3 0 1
3 1 2 1 2 1 0 2 3 1 1
4 0 0 1 2 0 0 0 1 1 1
5 0 0 0 1 0 0 0 1 0 1
KH
OA
C
NT
T –
Đ
H
KH
TN
Trang 70
6 2 0 1 1 1 1 1 0 2 1
7 2 0 0 1 1 1 0 1 1 1
8 2 0 1 0 2 2 3 1 2 1
9 2 0 1 0 2 2 3 1 3 1
10 3 0 1 3 3 3 0 0 0 1
11 3 1 0 2 3 3 0 1 0 1
12 3 0 1 1 3 3 0 2 1 1
13 3 3 2 2 3 3 0 1 1 1
14 3 2 1 3 3 3 1 1 1 1
15 3 0 0 2 3 3 0 0 0 1
16 3 3 1 2 3 3 0 0 1 1
17 2 2 2 1 2 2 1 2 2 2
18 2 1 2 2 2 2 1 0 3 2
19 2 1 2 2 2 1 2 0 2 2
20 2 3 2 0 2 3 3 1 2 2
21 3 0 0 3 3 3 0 2 0 2
22 3 0 0 3 3 3 0 3 0 2
23 3 1 0 0 3 3 0 0 0 2
24 3 3 2 2 3 2 2 0 2 2
25 1 1 3 1 2 1 3 0 3 2
26 2 3 2 0 2 1 3 3 3 2
27 2 3 1 2 2 1 2 2 1 2
Bảng 5-7: Luật trích từ hệ thống với 2 dữ liệu xuất
KH
OA
C
NT
T –
Đ
H
KH
TN
Trang 71
Luật #2 #4 #6 #9 #10 #11 #14 #16 #17 Dữ liệu xuất
1 0 1 0 0 0 0 0 3 0 1
2 0 3 0 0 0 0 1 3 0 1
3 0 2 1 2 0 0 1 3 0 1
4 1 3 1 1 0 0 1 3 1 1
5 0 0 0 2 0 0 0 3 0 2
6 1 0 1 2 1 0 0 0 0 2
7 2 0 0 1 1 2 1 1 1 2
8 2 0 1 2 2 1 1 1 1 2
9 3 0 0 1 3 2 0 2 0 3
10 3 1 0 0 3 2 0 1 0 3
11 3 1 1 3 3 3 0 2 0 3
12 3 2 1 3 3 3 1 0 1 3
13 3 0 0 1 3 3 0 0 0 3
14 3 1 0 3 3 3 0 1 0 3
15 3 3 1 2 3 3 0 0 1 3
16 3 0 0 3 3 2 0 0 0 4
17 3 0 0 3 3 3 0 2 0 4
18 3 0 0 2 3 3 0 3 0 4
19 3 0 0 2 3 3 0 0 0 4
20 3 0 0 3 3 3 0 3 0 4
21 3 0 0 3 3 3 0 2 0 4
22 3 1 0 0 3 3 0 0 0 4
23 2 2 3 2 2 3 3 1 3 5
24 2 1 3 0 3 3 3 2 3 5
25 3 3 1 0 2 3 3 0 1 5
KH
OA
C
NT
T –
Đ
H
KH
TN
Trang 72
26 3 3 3 3 3 3 3 2 3 5
27 3 3 3 2 3 3 2 1 3 5
28 2 2 2 0 2 2 2 1 3 6
29 2 3 3 3 2 2 2 3 3 6
30 2 3 3 3 2 2 2 2 3 6
31 3 3 3 2 3 3 3 1 3 6
32 2 1 2 2 2 1 2 0 2 7
33 2 3 1 0 1 1 3 3 2 7
34 2
3 1 1 1 3 3 1 2 7
Bảng 5-8: Luật trích từ hệ thống với 7 dữ liệu xuất
Mức độ huấn luyện mạng tốt nhất:
Tiêu chuẩn 2 dữ liệu xuất
(218 chu kì huấn luyện)
7 dữ liệu xuất
(76 chu kì huấn luyện)
RMSE 0.148221 0.462798
FN% 0.58% 34.00%
FP% 3.95% 8.54%
NP% 98.65% 91.46%
PP% 98.29% 66.00%
TRN% 98.00% 86.00%
Sensitivity 99.42% 66.00%
Specificity 96.05% 91.46%
Time trainning 98(s) 65(s)
Bảng 5-9: Mức độ thực hiện mạng của luật trích từ hệ thống
KH
OA
C
NT
T –
Đ
H
KH
TN
Trang 73
Mức độ kiểm nghiệm tương ứng số chu kì huấn luyện, trên 250 mẫu khác:
Tiêu chuẩn 2 dữ liệu xuất 7 dữ liệu xuất
RMSE 0.266052 3.083827
CHK% 92.40% 74.40%
Bảng 5-10: Mức độ kiểm nghiệm của luật trích từ hệ thống
Nhận xét:
Luật trích từ hệ thống mô tả rất tốt dữ liệu nhập - xuất. Do đó, mô hình ANFIS
sử dụng hệ thống luật này cho một kết quả tốt nhất. Khả năng phân loại tế bào dương
tính và âm tính đều tăng lên rõ rệt. Những trường hợp chẩn đoán sai giảm đáng kể.
Mức độ huấn luyện và kiểm nghiệm cũng tăng mạnh.
0
20
40
60
80
100
(%)
FN% FP% NP% PP%
Biểu đồ so sánh khả năng phân loại tế bào
Luật chuyên gia
Luật chuyên gia
biến đổi
Luật trích từ hệ
thống
Hình 5-9: So sánh khả năng phân loại tế bào
KH
OA
C
NT
T –
Đ
H
KH
TN
Trang 74
0
20
40
60
80
100
(%)
2 dữ liệu
xuất
7 dữ liệu
xuất
Biểu đồ thể hiện mức độ huấn
luyện mạng (TRN%)
Luật chuyên
gia
Luật chuyên
gia biến đổi
Luật trích từ hệ
thống
Hình 5-10: So sánh mức độ huấn luyện mạng
0
20
40
60
80
100
(%)
2 dữ liệu xuất 7 dữ liệu xuất
Biểu đồ thể hiện mức độ kiểm
nghiệm mạng (CHK%)
Luật chuyên gia
Luật chuyên gia
biến đổi
Luật trích từ hệ
thống
Hình 5-11: So sánh mức độ kiểm nghiệm mạng
KH
OA
C
NT
T –
Đ
H
KH
TN
Trang 75
5.3.Đánh giá đề tài
5.3.1.Ưu điểm
¾ Tốc độ học và tốc độ hội tụ của mô hình ANFIS rất nhanh
¾ Thử nghiệm nhiều hệ thống luật để đưa ra được kết quả phân lớp tốt nhất
5.3.2.Khuyết điểm
¾ Chưa thực hiện phân đoạn ảnh tự động vì độ biến thiên màu quá phức tạp
¾ Chưa thử nghiệm trên thủ tục học lai theo mẫu (học trực tuyến)
5.4. ướng phát triển cho đề tài
¾ Theo đề tài muốn xác định tình trạng của mẫu xét nghiệm Pap, vẫn còn một số
khâu bán tự động (phân đoạn ảnh,..). Do vậy định hướng phát triển đầu tiên của
đề tài sẽ là hoàn chỉnh quy trình chẩn đoán ung thư cổ tử cung hoàn toàn tự
động.
¾ Tích hợp thuật giải di truyền vào thủ tục học lai nhằm tận dụng khả năng chọn
lọc của GA để chọn được bộ tham số thích nghi tốt nhất, đồng thời có thể tận
dụng tính thích nghi của GA để phát sinh bộ tham số cho mạng.
¾ Nghiên cứu những thuật toán tối ưu hơn để sử dụng, rút gọn chi phí tính toán
cũng như thời gian thực hiện.
¾ Đưa vào thử nghiệm thực tế để có thể hoàn chỉnh mô hình phân lớp tế bào cổ tử
cung giai đoạn tiền ung thư.
KH
OA
C
NT
T –
Đ
H
KH
TN
Trang 76
PHỤ LỤC
PHỤ LỤC A: MỘT SỐ KIẾN THỨC Y KHOA CƠ BẢN
Ung thư và ung thư cổ tử cung
Ung thư là bệnh xuất hiện khi tế bào trở nên bất thường và việc phân chia không
thể kiểm soát được hoặc không theo trật tự. Giống như các bộ phận khác của cơ thể, cổ
tử cung bao gồm nhiều loại tế bào khác nhau. Thông thường, tế bào phân chia thành
nhiều tế bào hơn khi cơ thể có nhu cầu. Quá trình diễn ra theo trật tự này giữ cho cơ thể
chúng ta khoẻ mạnh.
Nếu tế bào cứ tiếp tục phân chia khi cơ thể không cần tế bào mới, một khối mô
được hình thành. Khối mô thừa này được gọi là khối u, có thể lành tính hoặc ác tính. U
lành tính không phải là ung thư. Chúng có thể dễ dàng được loại bỏ và trong hầu hết
các trường hợp không xuất hiện trở lại. Ðiều quan trọng nhất là tế bào ở khối u lành
tính không lan sang các bộ phận khác của cơ thể. Khối u lành tính không đe doạ đến
tính mạng. Ngược lại, khối u ác tính chính là ung thư. Tế bào ung thư có thể xâm lấn
và phá huỷ các mô, các cơ quan gần khối u. Ngoài ra, tế bào ung thư còn có thể tách
khỏi khối u ác tính và đi vào hệ thống bạch huyết hoặc là mạch máu. Ðây là cách thức
mà ung thư cổ tử cung có thể lan sang các bộ phận khác của cơ thể. Sự lan đi này được
gọi là sự di căn.
Giống như các loại ung thư khác, ung thư cổ tử cung được gọi tên theo bộ phận
của cơ thể mà ung thư xuất hiện. Ung thư cổ tử cung còn được gọi tên theo loại tế bào
mà nó bắt đầu phát triển. Hầu hết các loại ung thư cổ tử cung là ung thư biểu mô tế bào
gai.
Ðiều kiện tiền ung thư và ung thư cổ tử cung
Tế bào trên bề mặt cổ tử cung đôi khi trở nên bất thường nhưng vẫn chưa phải là
ung thư. Các nhà khoa học tin rằng một số thay đổi bất thường trong tế bào cổ tử cung
KH
OA
C
NT
T –
Đ
H
KH
TN
Trang 77
là bước đầu tiên trong một chuỗi thay đổi chậm có thể dẫn tới ung thư nhiều năm sau
đó. Nói cách khác, đó là một số thay đổi bất thường mang tính chất tiền ung thư; chúng
có thể trở thành ung thư theo thời gian.
Nhiều năm qua, các bác sĩ đã sử dụng những thuật ngữ khác nhau để nói tới
những thay đổi bất thường ở những tế bào trên bề mặt cổ tử cung. Một thuật ngữ được
sử dụng hiện nay là tổn thương trong biểu mô tế bào gai (SIL). Những thay đổi ở các tế
bào gai này có thể phân chia thành hai loại:
¾ SIL mức độ thấp đề cập tới những thay đổi sớm về kích thước, hình dáng, và
số lượng tế bào tạo nên bề mặt cổ tử cung. Một số tổn thương mức độ thấp
có thể tự biến mất hoặc có thể trở nên bất thường hơn, tạo nên tổn thương
mức độ cao. Tổn thương tiền ung thư mức độ thấp có thể gọi là hiện tượng
loạn sản nhẹ (CIN 1). Những thay đổi ban đầu như vậy thường xảy ra nhất ở
những phụ nữ tuổi từ 25-35 nhưng cũng có thể xuất hiện ở những nhóm tuổi
khác.
¾ SIL mức độ cao có nghĩa là có một số lượng lớn tế bào có dấu hiệu tiền ung
thư; chúng trông rất khác các tế bào thường. Giống như SIL mức độ thấp,
những thay đổi tiền ung thư này chỉ liên quan tới những tế bào trên bề mặt
cổ tử cung. Những tế bào này sẽ không trở thành ung thư và không xâm lấn
vào những lớp tế bào sâu hơn của cổ tử cung trong nhiều tháng, có thể trong
nhiều năm. Tổn thương mức độ cao còn được gọi là hiện tượng loạn sản mức
độ vừa hoặc nặng (CIN 2 hoặc 3). Chúng thường xuất hiện nhiều nhất ở
những phụ nữ trong độ tuổi từ 30 đến 40 nhưng cũng có thể xảy ra ở những
độ tuổi khác.
¾ Nếu những tế bào bất thường lan sâu hơn vào cổ tử cung hoặc tới các mô
khác hoặc các cơ quan khác, bệnh được gọi là ung thư cổ tử cung, hay ung
thư cổ tử cung thể xâm lấn. Nó thường xảy ra nhất ở những phụ nữ ở độ tuổi
ngoài 40.
KH
OA
C
NT
T –
Đ
H
KH
TN
Trang 78
Phát hiện sớm
Nếu tất cả phụ nữ được thăm khám vùng chậu và làm xét nghiệm Pap định kỳ
thì hầu hết các điều kiện tiền ung thư sẽ được phát hiện và được điều trị trước khi ung
thư xuất hiện. Hầu hết các loại ung thư thể xâm lấn có thể phòng ngừa được bằng cách
phát hiện bệnh ở giai đoạn sớm và có thể chữa khỏi.
Xét nghiệm Pap là một xét nghiệm đơn giản, không đau, dùng để phát hiện
những tế bào bất thường ở trong và xung quanh cổ tử cung. Nó có thể tiến hành phòng
mạch của bác sĩ hoặc trong bệnh viện. Phụ nữ nên đi khám định kỳ, bao gồm khám
vùng chậu và làm nghiệm pháp Pap, nếu họ ở độ tuổi hoặc đã ở độ tuổi có hoạt động
tình dục hay nếu họ >18 tuổi. Những người có nguy cơ ung thư cổ tử cung tăng cao cần
đặc biệt tuân theo lời khuyên của bác sĩ về việc khám định kỳ. Những phụ nữ đã được
cắt tử cung (phẫu thuật cắt tử cung và cả cổ tử cung) nên hỏi ý kiến bác sĩ về việc
khám vùng chậu và làm xét nghiệm Pap.
Triệu chứng
Những thay đổi tiền ung thư ở cổ tử cung thường không gây đau đớn. Thực tế là
chúng thường không gây ra bất kỳ triệu chứng nào và sẽ không được phát hiện nếu
người phụ nữ không đi khám và làm nghiệm pháp Pap.
Triệu chứng thường không xuất hiện cho đến khi tế bào bất thường ở cổ tử cung
trở thành ung thư và xâm lấn vào các mô bên cạnh. Khi điều này xảy ra thì hiện tượng
thường gặp nhất là ra máu một cách bất thường hoặc ra nhiều khí hư. Tuy nhiên, những
triệu chứng này có thể do ung thư hoặc các bệnh lý khác gây ra, chỉ có bác sĩ mới có
thể khẳng định được. Ðiều quan trọng là người phụ nữ phải đến khám bác sĩ ngay khi
có bất kỳ triệu chứng bất thường nào.
Những đối tượng của bệnh ung thư cổ tử cung
Lứa tuổi mắc ung thư cổ tử cung thường gặp là lứa tuổi trung niên, khoảng từ 48
đến 52. Phụ nữ có các yếu tố sau đây được coi là những nguy cơ có khả năng dễ mắc
bệnh:
KH
OA
C
NT
T –
Đ
H
KH
TN
Trang 79
¾ Những người phải sống trong điều kiện kinh tế - xã hội thấp kém: nghèo
túng, sống nơi chật chội, ô nhiễm, thiếu vệ sinh; những người ít hiểu biết,
trình độ văn hóa thấp.
¾ Những phụ nữ có quan hệ tình dục sớm.
¾ Những người có quan hệ tình dục với nhiều bạn tình hoặc người chồng có
nhiều bạn tình.
¾ Những người sinh đẻ nhiều lần.
KH
OA
C
NT
T –
Đ
H
KH
TN
Trang 80
PHỤ LỤC B: PHÂN ĐOẠN ẢNH
Giới thiệu
Phân đoạn ảnh là việc từ một ảnh lấy ra những đối tượng cần quan tâm để phục
vụ cho những bước phân tích tiếp theo. Nó có thể được xem như một quá trình phân
loại điểm ảnh, tức là phân biệt giữa điểm ảnh nền và điểm ảnh đối tượng.
Ở đây, quá trình phân đoạn ảnh là cơ sở để đánh giá các tế bào, bao gồm việc
nhận biết nhân, bào tương và nền. Đây là quá trình mang tính chủ quan cao nhưng cũng
rất quan trọng, vì nó giúp cho việc trích đặc trưng từ ảnh được thực hiện dễ dàng, đồng
thời nó cũng góp phần quan trọng cho việc thực hiện chính xác hệ thống tự động.
Có rất nhiều phương pháp phân đoạn ảnh, chẳng hạn như phân ngưỡng đối
tượng động hoặc tĩnh, xác định cạnh, tăng vùng… Hầu hết các thuật toán phân đoạn
ảnh thông thường này đều có một khuyết điểm chung là không xử lý tốt cho ảnh có độ
tương phản màu sắc giữa các đối tượng thấp. Do đặc tính ảnh tế bào cổ tử cung rất
phức tạp, độ sáng biến thiên không đồng đều, nên thuật toán láng giềng gần nhất sẽ
được sử dụng thay cho các thuật toán xử lý ảnh thông thường khác.
Thuật toán láng giềng gần nhất
Thuật toán láng giềng gần nhất gồm 5 bước:
1. Tính khoảng cách Euclide Di từ z đến từng phần tử xi, với i = 1, …, n
2. Tạo ma trận
⎥⎥
⎥
⎦
⎤
⎢⎢
⎢
⎣
⎡
=
nn
i
cD
cD
A ......
1
và sắp xếp các hàng trong A theo thứ tự tăng của cột 1.
Sau khi sắp xếp, A trở thành:
KH
OA
C
NT
T –
Đ
H
KH
TN
Trang 81
⎥⎥
⎥
⎦
⎤
⎢⎢
⎢
⎣
⎡
=
2,1,
2,11,1
1 ......
nn aa
aa
A
trong đó a1,1 ≤ a2,1 ≤ … ≤ an,1 là các khoảng cách có thứ tự tăng, và ai,2 là phân lớp
tương ứng của mỗi hàng.
3. cho bj = 0, j = 1, …, C, trong đó C là số nhóm được mô tả trong ci.
4. Lặp lại bước 4 với i = 1, …, k, tăng b(ai,2) với khoảng cách trọng hoá:
( ) ( ) ⎥⎥⎦
⎤
⎢⎢⎣
⎡ −+=
ki
i
ii a
a
abab
,
1,
2,2, 1
5. Ấn định điểm dữ liệu z vào nhóm j sao cho
( ) ( ) Cllbjb ,...,1, =∀≤
Các bước thực hiện phân đoạn ảnh (xem phần hướng dẫn sử dụng)
KH
OA
C
NT
T –
Đ
H
KH
TN
Trang 82
PHỤ LỤC C: PHƯƠNG PHÁP LỌC KALMAN
Giới thiệu
Lý thuyết thống kê LSE được trình bày bởi Adrien – M. Legen (1806) và Karl
F. Gauss (1809). Ý tưởng LSE cơ bản chính là một phương pháp toán dùng để chuẩn
hoá dữ liệu nhập bằng cách sử dụng một tập các trọng số tối ưu. Kết quả của LSE được
ứng dụng rất nhiều trong lĩnh vực tự động hoá. Tuy nhiên, để thực hiện một nguyên lý
đơn giản đôi khi lại cần hàng loạt những phép tính phức tạp.
Năm 1960, Rudolf E. Kalman đã đưa ra một phương pháp giải quyết tính toán
cho LSE gọi là bộ lọc Kalman. Bộ lọc Kalman là một công cụ toán học mạnh dùng cho
việc mô phỏng hệ thống thế giới thực.
Cơ sở toán học của bộ lọc Kalman
Phương trình độ đo tuyến tính hoá (phương trình quan sát) thể hiện cách mà
vectơ độ đo yt gồm n phần tử phụ thuộc vào vectơ trạng thái st gồm m phần tử và vectơ
lỗi et gồm n phần tử tại thời điểm t:
tttt esHy += , (1)
với t = 1, 2… và s0 cho trước và Ht là ma trận Jacobian.
Phương trình hệ thống tuyến tính hoá (phương trình trạng thái) mô tả sự tiến
triển theo thời gian của toàn hệ thống tại thời điểm t:
tttttt auBsAs ++= −− 11 , (2)
với t = 1, 2,… và s0 cho trước, At là ma trận chuyển tiếp trạng thái, Bt là ma trận gia
lượng điều khiển. Phương trình thể hiện cách mà vectơ trạng thái hiện tại st của toàn hệ
thống phát triển từ trạng thái st-1 trước đó khi nó chịu ảnh hưởng từ sự cưỡng bức điều
khiển ut-1 và các nhiễu ngẫu nhiên at.
Khi lỗi độ đo et và nhiễu hệ thống at hoặc tự động hoặc tương quan chéo, chúng
không tương quan với s0 và hiệp phương sai là:
KH
OA
C
NT
T –
Đ
H
KH
TN
Trang 83
( ) ( )
( ) ( )⎪⎭
⎪⎬
⎫
==
==
'
'
tttt
tttt
aaEaCovQ
eeEeCovR
(3)
thì phép đệ qui tiến Kalman từ phương trình (4) đến (7) cho ước lượng không lệch
tuyến tính tốt nhất tsˆ của trạng thái st hiện tại như sau:
( )tttttt sHyKss ~~ˆ −+= (4)
trong đó ts~ được dự đoán bằng phương trình trạng thái (2) như sau:
11ˆ~ −− += ttttt uBsAs (5)
trong đó, các ma trận hiệp phương sai lỗi và ước lượng không lệch tuyến tính tốt nhất
được cho:
( ) ( )( ){ }
( ) ( )( ){ } ⎪⎭
⎪⎬
⎫
−=−−=−=
+=−−=−= −
ttttttttttt
ttttttttttt
PHKPssssEssCovP
QAPAssssEssCovP
~~ˆˆˆˆ
ˆ~~~~
'
'
1
'
(6)
trong đó ma trận gia lượng Kalman Kt với t = 1, 2,… được tính là:
( ) 1'' ~~ −+= ttttttt RHPHHPK (7)
Các phép đệ qui từ (4) đến (7) thường được khởi tạo ( )0ˆ 00 ≅= Ess và 0ˆP =
( ) ( )000ˆ sCovssCov =− .
KH
OA
C
NT
T –
Đ
H
KH
TN
Trang 84
TÀI LIỆU THAM KHẢO
[1] António Dourado, Rui Pedro Paiva, “Structure and Parameter Learning of Neuro –
Fuzzy Systems: a methodology and a comparative study”, Dept. of Informatics
Engineering, Pólo II of University of Coimbra, P 3030 Coimbra Portugal, Journal of
Intelligent and Fuzzy Systems, IFS 01.383.06.
[2] Antti A.I.Lange, “Statictical calibration of observing systems”, the University of
Helsinki, the Faculty of Social Science, 1999.
[3] Erik Martin, “Pap – Smear classification”, Technical University of Denmark
(DTU), Dept. of Automation, Bldg 326, 2800 Lyngby, Denmark, 2003.
[4] Gary Bishop, Grep Welch, “An introduction to the Kalman filter”, University of
North Carolina at Chapel Hill, Dept. of Computer Science, Chapel Hill.
[5] Hoàng Kiếm, Đỗ Quang Dương, “Kết hợp mạng thần kinh, logic mờ và thuật toán
di truyền giải quyết bài toán tối ưu hoá công thức và quy trình”, Luận văn thạc sĩ, Đại
học Quốc gia TP. HCM, Đại học Khoa học Tự nhiên, Khoa Công nghệ thông tin, 2002.
[6] Jang Jantzen, “Neuronfuzzy Modelling”, Technical University of Denmark (DTU),
Dept. of Automation, Bldg 326, DK-280
Các file đính kèm theo tài liệu này:
- Luận văn-ứng dụng mô hình nơron - mờ trong việc phát hiện tế bào cổ tử cung giai đoạn tiền ung thư.pdf