Đề tài Trình bày về lý thuyết mô hình ANFIS

Tài liệu Đề tài Trình bày về lý thuyết mô hình ANFIS: KH OA C NT T – Đ H KH TN Trang 1 LỜI CẢM ƠN Đầu tiên, em xin chân thành cám ơn Ban giám hiệu, các thầy cô trường Đại học Khoa Học Tự Nhiên cùng các thầy cô Khoa Công Nghệ Thông Tin đã tận tình truyền đạt những kiến thức quí báu cho chúng em trong suốt bốn năm học qua. Tiếp đến, em xin gởi lời cám ơn chân thành nhất đến Tiến sĩ Lê Hoài Bắc. Thầy đã cho em một định hướng đúng đắn cho đề tài của mình và luôn tận tình theo dõi quá trình thực hiện đề tài cũng như giúp đỡ kịp thời khi cần thiết. Em cũng xin chân thành cám ơn bác sĩ Trần Hòa, trưởng khoa Giải phẫu bệnh (Bệnh viện C, Đà Nẵng) và Thạc sĩ Bác sĩ Nguyễn Thị Tuyết Mai (Bệnh viện Đa khoa, Đà Nẵng) đã tận tình chỉ dẫn những kiến thức chuyên ngành cần thiết và tạo điều kiện cho em tiếp cận thực tế. Cuối cùng, em xin gởi tất cả tình cảm thân thương nhất đến gia đình, thầy cô và bạn bè; những người luôn ủng hộ em về mọi mặt. TP. Hồ Chí Minh, ngày 1 tháng 7 năm 2004 Võ Thị Thuỷ Tú KH OA C...

pdf86 trang | Chia sẻ: hunglv | Lượt xem: 2006 | Lượt tải: 1download
Bạn đang xem trước 20 trang mẫu tài liệu Đề tài Trình bày về lý thuyết mô hình ANFIS, để tải tài liệu gốc về máy bạn click vào nút DOWNLOAD ở trên
KH OA C NT T – Đ H KH TN Trang 1 LỜI CẢM ƠN Đầu tiên, em xin chân thành cám ơn Ban giám hiệu, các thầy cô trường Đại học Khoa Học Tự Nhiên cùng các thầy cô Khoa Công Nghệ Thông Tin đã tận tình truyền đạt những kiến thức quí báu cho chúng em trong suốt bốn năm học qua. Tiếp đến, em xin gởi lời cám ơn chân thành nhất đến Tiến sĩ Lê Hoài Bắc. Thầy đã cho em một định hướng đúng đắn cho đề tài của mình và luôn tận tình theo dõi quá trình thực hiện đề tài cũng như giúp đỡ kịp thời khi cần thiết. Em cũng xin chân thành cám ơn bác sĩ Trần Hòa, trưởng khoa Giải phẫu bệnh (Bệnh viện C, Đà Nẵng) và Thạc sĩ Bác sĩ Nguyễn Thị Tuyết Mai (Bệnh viện Đa khoa, Đà Nẵng) đã tận tình chỉ dẫn những kiến thức chuyên ngành cần thiết và tạo điều kiện cho em tiếp cận thực tế. Cuối cùng, em xin gởi tất cả tình cảm thân thương nhất đến gia đình, thầy cô và bạn bè; những người luôn ủng hộ em về mọi mặt. TP. Hồ Chí Minh, ngày 1 tháng 7 năm 2004 Võ Thị Thuỷ Tú KH OA C NT T – Đ H KH TN Trang 2 LỜI NÓI ĐẦU Ung thư là một nhóm các bệnh gồm hơn 100 căn bệnh khác nhau, trong đó các bệnh này đều ảnh hưởng đến đơn vị cơ bản nhất của cơ thể sống, đó là tế bào. Ung thư xuất hiện khi việc phân chia tế bào trở nên bất thường, không thể kiểm soát được từ đó sẽ dẫn đến tử vong nhanh chóng. Tại hội thảo quốc tế “Ung thư phụ nữ và trẻ em” tổ chức tại Hà Nội ngày 6 và 7 tháng 11 năm 2003, qua thống kê, mỗi năm Việt Nam có 100000 đến 150000 người mắc bệnh ung thư được phát hiện, trong đó số người tử vong lên đến 70000 người. Các nghiên cứu đã chứng minh rằng nhiều loại bệnh ung thư có thể ngăn chặn nếu được phát hiện và điều trị sớm, chẳng hạn như ung thư vú, ung thư cổ tử cung, ung thư da, ung thư tuyến tiền liệt,… Khi các bệnh này được phát hiện sớm và điều trị thích hợp, 95% bệnh nhân có thể sống thêm ít nhất 5 năm. Ung thư cổ tử cung là loại ung thư phụ khoa nguy hiểm thứ hai sau ung thư vú, chiếm khoảng 18% các trường hợp ung thư ở hệ cơ quan sinh dục nữ. Bệnh là nguyên nhân gây tử vong do ung thư cao nhất cho phụ nữ ở các nước đang phát triển. Đó là do những nước này chưa thực hiện chương trình khám sàng lọc nhằm phát hiện sớm ung thư. Việc chẩn đoán và điều trị cho từng bệnh nhân bị chi phối bởi tiến triển bệnh tại thời điểm chẩn đoán. Quá trình điều trị sẽ trở nên đơn giản, hiệu quả, với chi phí thấp nếu bệnh được phát hiện trong giai đoạn tiền ung thư, ngược lại nếu không điều trị kịp thời thì bệnh sẽ không chữa được. Vì vậy, phát hiện sớm ung thư cổ tử cung rất quan trọng, liên quan đến lợi ích người bệnh và hiệu quả điều trị. Để làm được điều này, các bác sĩ giải phẫu bệnh sẽ khám sàng lọc cho tất cả các bệnh nhân ở độ tuổi có thể mắc bệnh. Năm 1943, bác sĩ George Papanicolaou đã giới thiệu một phương pháp đơn giản, hiệu quả, thích hợp cho việc chẩn đoán tế bào cổ tử cung trong giai đoạn tiền ung thư; đó chính là xét nghiệm Pap. Xét nghiệm này thỉnh thoảng vẫn cho kết quả không chính xác do nhiều nguyên nhân khách quan và chủ quan. Nhiều phụ nữ sau khi được KH OA C NT T – Đ H KH TN Trang 3 khám sàng lọc vẫn chết do bệnh này. Một trong những nguyên nhân chính là do các tế bào ung thư phát triển rất phức tạp, nên tỷ lệ chẩn đoán âm tính giả và dương tính giả rất cao. Tỷ lệ chẩn đoán sai có thể giảm xuống bằng cách kiểm tra lại toàn bộ các mẫu đã khám sàng lọc. Giải pháp này không khả thi vì tốn nhiều thời gian và công sức mà hiệu quả lại không cao. Do đó, một hệ thống nhận dạng tự động tế bào tiền ung thư là rất cần thiết và rất hữu ích. Bên cạnh đó, việc xác định các hệ thống tự động đang là một công cụ ứng dụng rất quan trọng trong nhiều lĩnh vực của xã hội. Trong đó, mô hình nơron – mờ dần dần được thiết lập không chỉ trong lĩnh vực nghiên cứu mà còn trong lĩnh vực ứng dụng. Cả mạng nơron và hệ thống mờ đều được phát triển dựa trên qui trình lập luận của con người. Ở hệ thống mờ, các mối liên hệ được mô tả rõ ràng bằng các luật nếu – thì nhưng lại thiếu khả năng tự điều chỉnh (khả năng “học”). Còn ở mạng nơron, các mối liên hệ thể hiện không rõ ràng mà chỉ có thể thiết lập được những mô hình liên quan nhân quả, tuy nhiên dữ liệu lại được mã hóa vào mạng thành các tham số có khả năng “học”. Như vậy, các hệ thống tích hợp mạng nơron và logic mờ sẽ kết hợp được khả năng ngữ nghĩa của hệ thống mờ và khả năng “học” của mạng nơron để tạo ra được một mô hình suy luận hiệu quả nhất. Với tính chất phức tạp của hệ thống phân lớp tế bào cổ tử cung, một hệ thống nơron - mờ có thể khắc phục được một số lỗi thường gặp trong chẩn đoán, mà bác sĩ hay mắc phải. Mô hình nơron – mờ kiểu ANFIS (hệ suy luận mờ loại Sugeno dựa trên mạng thích nghi) được dùng để thực hiện phân lớp tế bào là bình thường hay bất thường. Báo cáo sẽ gồm 5 phần chính và 3 phần phụ: • Chương 1: Tổng quan Giới thiệu sơ lược về đề tài và các kiến thức cơ bản liên quan đến đề tài. KH OA C NT T – Đ H KH TN Trang 4 • Chương 2: Hệ thống suy luận mờ dựa trên mạng thích nghi Trình bày về lý thuyết mô hình ANFIS: cấu trúc ANFIS và thuật toán học. • Chương 3: Trích chọn đặc trưng Nêu phương pháp tạo dữ liệu cho hệ thống phân loại tế bào và cách tính các đặc trưng được trích ra từ ảnh tế bào. • Chương 4: Phân lớp tế bào cổ tử cung sử dụng mô hình ANFIS Mô tả cách thức mà mô hình ANFIS thực hiện phân lớp tế bào cổ tử cung trên một số hệ thống luật mờ: luật chuyên gia, luật chuyên gia biến đổi và luật trích dẫn từ hệ thống. • Chương 5: Tổng kết Giới thiệu chương trình và đánh giá mức độ thực hiện của hệ thống, cũng như một số ưu, khuyết điểm và định hướng. KH OA C NT T – Đ H KH TN Trang 5 MỤC LỤC LỜI CẢM ƠN.................................................................................................................1 LỜI NÓI ĐẦU ................................................................................................................2 MỤC LỤC.......................................................................................................................5 DANH MỤC HÌNH ẢNH..............................................................................................6 DANH MỤC BẢNG BIỂU ............................................................................................7 BẢNG KÝ HIỆU CÁC CHỮ VIẾT TẮT ....................................................................8 Chương 1: TỔNG QUAN..............................................................................................9 1.1. Giới thiệu sơ lược đề tài ........................................................................................9 1.2. Mục đích của đề tài .............................................................................................10 1.3. Mẫu xét nghiệm Pap............................................................................................11 1.4. Một số nguyên nhân dẫn đến chẩn đoán sai........................................................16 1.5. Một số hệ thống phân lớp tế bào tự động và bán tự động...................................17 1.6. Phát biểu vấn đề ..................................................................................................19 1.7. Các tiêu chuẩn đánh giá mức độ thực hiện hệ thống ..........................................20 Chương 2: HỆ SUY LUẬN MỜ DỰA TRÊN MẠNG THÍCH NGHI ...................22 2.1. Giới thiệu sơ lược về mô hình nơron - mờ..........................................................22 2.2. Hệ thống suy luận mờ .........................................................................................23 2.3. Mạng thích nghi ..................................................................................................27 2.4. Hệ thống suy luận mờ dựa trên mạng thích nghi ................................................33 Chương 3: TRÍCH CHỌN ĐẶC TRƯNG.................................................................37 3.1. Giới thiệu sơ lược về trích đặc trưng ..................................................................37 3.2. Dữ liệu nhập của hệ thống ..................................................................................37 3.3. Dữ liệu xuất của hệ thống ...................................................................................39 3.4. Trích chọn đặc trưng ...........................................................................................40 3.5. Các đặc trưng rút trích.........................................................................................46 Chương 4: PHÂN LOẠI TẾ BÀO CỔ TỬ CUNG SỬ DỤNG MÔ HÌNH ANFIS48 4.1. Cấu trúc ANFIS trong phân loại tế bào cổ tử cung.............................................48 4.2. Các hệ thống luật mờ trong phân loại tế bào ......................................................54 Chương 5: TỔNG KẾT ...............................................................................................59 5.1. Chương trình .......................................................................................................59 5.2. Mức độ thực hiện chương trình...........................................................................66 5.3. Đánh giá đề tài ....................................................................................................75 5.4. Hướng phát triển cho đề tài.................................................................................75 PHỤ LỤC......................................................................................................................76 PHỤ LỤC A: MỘT SỐ KIẾN THỨC Y KHOA CƠ BẢN ......................................76 PHỤ LỤC B: PHÂN ĐOẠN ẢNH............................................................................80 PHỤ LỤC C: PHƯƠNG PHÁP LỌC KALMAN .....................................................82 TÀI LIỆU THAM KHẢO ...........................................................................................84 KH OA C NT T – Đ H KH TN Trang 6 DANH MỤC HÌNH ẢNH Hình 1-1: Cấu trúc mô tế bào ở cổ tử cung....................................................................12 Hình 1-2: Phân lớp trong mô tế bào gai .........................................................................13 Hình 1-3: (a) tế bào gai cận đáy, (b) tế bào gai trung gian, (c) tế bào gai bề mặt, ........14 Hình 1-4: Phân lớp trong mô tế bào trụ .........................................................................14 Hình 1-5: Sơ đồ các bước thực hiện chẩn đoán .............................................................19 Hình 2-1: Hệ thống suy luận mờ ....................................................................................25 Hình 2-2: Các luật mờ và các hệ thống suy luận ...........................................................27 Hình 2-3: Mạng thích nghi.............................................................................................27 Hình 2-4: (a) Suy luận mờ loại 3, (b) cấu trúc ANFIS tương ứng.................................34 Hình 3-1: Ảnh đã phân đoạn ..........................................................................................40 Hình 3-2: Ảnh đã gán nhãn ............................................................................................40 Hình 3-3: Các phép tính diện tích ..................................................................................41 Hình 3-4: Vị trí đường kính nhỏ nhất và lớn nhất .........................................................42 Hình 3-5: Tâm của trọng lực đối với nhân và bào tương...............................................44 Hình 3-6: Đường tròn cực tiểu cho nhân .......................................................................46 Hình 4-1: Ý nghĩa các tham số trong hàm dạng chuông................................................49 Hình 4-2: Cấu trúc ANFIS với 2 dữ liệu vào và 4 luật ..................................................50 KH OA C NT T – Đ H KH TN Trang 7 DANH MỤC BẢNG BIỂU Bảng 1-1: Thống kê kích thước tế bào...........................................................................16 Bảng 2-1: Hai quá trình trong thuật toán học lai............................................................36 Bảng 3-1 : Danh sách các đặc trưng trích chọn vào cơ sở dữ liệu.................................47 Bảng 4-1: Ví dụ luật mờ phân loại tế bào ......................................................................48 Bảng 4-2: Luật chuyên gia .............................................................................................54 Bảng 4-3: Luật chuyên gia biến đổi ...............................................................................55 Bảng 5-1: Luật chuyên gia số hóa..................................................................................66 Bảng 5-2: Mức độ thực hiện luật chuyên gia.................................................................67 Bảng 5-3: Mức độ kiểm nghiệm của luật chuyên gia ....................................................67 Bảng 5-4: Luật chuyên gia biến đổi số hóa....................................................................68 Bảng 5-5: Mức độ thực hiện luật chuyển gia biến đổi...................................................68 Bảng 5-6: Mức độ kiểm nghiệm của luật chuyên gia biến đổi ......................................69 Bảng 5-7: Luật trích từ hệ thống với 2 dữ liệu xuất.......................................................70 Bảng 5-8: Luật trích từ hệ thống với 7 dữ liệu xuất.......................................................72 Bảng 5-9: Mức độ thực hiện mạng của luật trích từ hệ thống .......................................72 Bảng 5-10: Mức độ kiểm nghiệm của luật trích từ hệ thống .........................................73 KH OA C NT T – Đ H KH TN Trang 8 BẢNG KÝ HIỆU CÁC CHỮ VIẾT TẮT ANFIS Adaptive – Network – Based Fuzzy Inference System RMSE Root Mean Square Error FN False Negative FP False Positive PP Positive Predictive NP Negative Predictive LSE Least squares estimate FDA the Food and Drug Administration KH OA C NT T – Đ H KH TN Trang 9 Chương 1: TỔNG QUAN Để có thể hiểu rõ về đề tài này, chương đầu tiên xin được trình bày về một số kiến thức cơ bản liên quan đến ung thư cổ tử cung và một số công việc đã thực hiện được trong lĩnh vực khám sàng lọc tự động. Tất cả những thông tin này phần nào nói lên được những khó khăn, những tồn tại của các hệ thống chẩn đoán tự động, bán tự động hoặc thủ công (do bác sĩ thực hiện), để từ đó nêu bật được sự cần thiết phải xuất hiện một hệ thống mới. 1.1.Giới thiệu sơ lược đề tài Ung thư cổ tử cung là loại bệnh nguy hiểm, chiếm tỉ lệ cao thứ hai sau ung thư vú. Ở Úc, hơn một nghìn trường hợp ung thư cổ tử cung được chẩn đoán hằng năm, và khoảng 350 phụ nữ chết vì bệnh này (Viện Sức khoẻ Úc, 1991). Độ tuổi trung bình người bệnh là 52,2 và thường tập trung vào hai độ tuổi 35-39 và 60-64. Thống kê tại Mĩ cho thấy, ở phụ nữ da trắng, 54% bệnh nhân ung thư cổ tử cung khi được chẩn đoán bệnh còn ở giai đoạn khu trú (tiền ung thư), 31% có tổn thương trong vùng (ung thư) và 8% có di căn xa (ung thư giai đoạn cuối); ở phụ nữ Mỹ gốc Phi, tỉ lệ này tương ứng là 40%, 40% và 12%; Tỉ lệ mắc ung thư cổ tử cung theo độ tuổi cao nhất là ở những phụ nữ gốc Việt sống ở Mỹ (43/100.000). Trong vòng 45 năm qua, tần xuất mắc ung thư cổ tử cung giảm từ 45/100.000 xuống còn 8/100.000. Khi tần xuất mắc bệnh xâm lấn (ung thư) giảm xuống thì tần xuất mắc bệnh tiền xâm lấn (tiền ung thư) lại tăng đáng kể. Tỉ lệ sống 5 năm của bệnh nhân ung thư cổ tử cung mọi giai đoạn là 71% cho phụ nữ da trắng và 57% cho phụ nữ Mỹ gốc Phi. Tỉ lệ sống phụ thuộc vào giai đoạn của bệnh; khi bệnh còn khu trú tỷ lệ sống 5 năm là 92%, con số này giảm xuống 10% khi bệnh đã di căn. Vì vậy, phát hiện ung thư cổ tử cung giai đoạn tiền ung thư là một biện pháp hữu hiệu chăm sóc sức khỏe phụ nữ. KH OA C NT T – Đ H KH TN Trang 10 Năm 1943, Georges Papanicolaou đã đưa ra phương pháp chẩn đoán các tế bào cổ tử cung giai đoạn tiền ung thư. Phương pháp này dựa vào mẫu xét nghiệm Pap để có thể xác định các tế bào cổ tử cung tiền ung thư, nhằm đem lại hiệu quả điều trị cao cho người bệnh. Chương trình tầm soát tế bào học British Columbia ở Canada (www.chrcrm.org) đã chỉ ra rằng tỷ lệ tử vong và tình trạng bệnh tật giảm đi đáng kể khi đưa việc khám sàng lọc Pap vào khu dân cư tại British Columbia. Do đó mà hiện nay, phương pháp này được sử dụng phổ biến trên toàn thế giới không chỉ vì hiệu quả của nó, mà còn vì giá thành của nó rẻ. Tại Đan Mạch, mặc dù có chương trình khám sàng lọc trên diện rộng, nhưng mỗi năm lại có hơn 500 ca mới được phát hiện, trong đó có khoảng 5% chẩn đoán âm tính giả (không tìm ra bệnh). Cách hiệu quả nhất để khắc phục vấn đề này là thực hiện tầm soát lại toàn bộ mẫu xét nghiệm bằng phương pháp thủ công. Tuy nhiên, điều này khó có thể thực hiện được vì vấn đề chi phí và số lượng bác sĩ giải phẫu bệnh. Vì vậy, việc khảo sát tự động bằng máy tính là một biến đổi lớn. Một số hệ thống chẩn đoán ung thư cổ tử cung tự động và bán tự động cũng đã hoàn thành, nhưng chi phí cho chúng lại đắt hơn chi phí đào tạo bác sĩ chuyên khoa. Do đó mà khoa Giải phẫu bệnh của trường đại học Herlev kết hợp với công ty thương mại DIMAC đã thực hiện cơ sở dữ liệu gồm các ảnh tế bào cổ tử cung cùng kết quả phân lớp loại tế bào chính xác để có thể phát triển các ứng dụng công nghệ thông tin trong lĩnh vực này. Đề tài này sử dụng toàn bộ dữ liệu lấy từ đây. Hệ thống suy luận mờ sẽ sử dụng bộ dữ liệu này để thực hiện phân lớp tế bào cổ tử cung. 1.2.Mục đích của đề tài Đề tài được thực hiện với một số mục đích sau: ¾ Phát hiện những tế bào cổ tử cung có thay đổi bất thường, và xác định mức độ thay đổi của chúng (nhẹ, vừa, nặng), những thay đổi này còn gọi là loạn sản và chúng cũng chính là nguyên nhân gây ra ung thư cổ tử cung sau này. KH OA C NT T – Đ H KH TN Trang 11 ¾ Giảm tỷ lệ chẩn đoán âm tính giả và dương tính giả ¾ Giúp các sinh viên y khoa dễ dàng tiếp cận với việc chẩn đoán tế bào học, giảm thiểu được chi phí đào tạo, huấn luyện bác sĩ ¾ Giúp các bác sĩ giải phẫu bệnh kiểm tra lại các mẫu xét nghiệm đã chẩn đoán; và nếu được thử nghiệm nhiều thì chương trình có thể thực hiện sàng lọc bước đầu, loại bỏ những mẫu xét nghiệm không nghi vấn và các bác sĩ chỉ cần kiểm tra lại các mẫu có những thay đổi bất thường. 1.3.Mẫu xét nghiệm Pap Xét nghiệm Pap là một phương pháp y khoa dùng để xác định ung thư cổ tử cung trong giai đoạn tiến triển sớm. Nó có ý nghĩa rất lớn trong vấn đề y tế cộng đồng vì thực hiện đơn giản và chi phí rẻ. 1.3.1.Mục đích thực hiện xét nghiệm Pap Mục đích của việc khám sàng lọc bằng mẫu xét nghiệm Pap là nhằm chẩn đoán các thay đổi “ác tính” trong tế bào ở giai đoạn tiền ung thư trước khi chúng tiến triển thành ung thư. 1.3.2.Cách thực hiện mẫu xét nghiệm Pap Dùng chổi y khoa hoặc que gỗ lấy mẫu xét nghiệm từ cổ tử cung, quét lên một miếng thủy tinh mỏng, hình chữ nhật để thu được một mẫu Pap. Mẫu này sau đó sẽ được nhuộm theo phương pháp Papanicolaou. Bằng cách này, đặc điểm của những tế bào khác nhau sẽ có màu khác nhau, dễ phân biệt dưới kính hiển vi. Sau đó, các bác sĩ giải phẫu bệnh sẽ khảo sát trực tiếp trên kính hiển vi. Việc này làm tốn nhiều thời gian mà tỷ lệ lỗi lại rất cao khi mà mỗi mẫu như vậy có thể chứa đến 300000 tế bào. KH OA C NT T – Đ H KH TN Trang 12 1.3.3.Các tế bào trong mẫu xét nghiệm Pap 1.3.3.1.Cấu trúc cổ tử cung Cổ tử cung được trải bởi các mô tế bào gai và mô tế bào trụ, trong đó mỗi mô gồm nhiều loại tế bào khác nhau. Mô tế bào gai được tìm thấy ở phần dưới của cổ tử cung, trái lại mô tế bào trụ được tìm thấy ở phần trên. Vùng chuyển tiếp (mô trung gian) giữa hai phần trên và dưới là nơi có cả hai loại mô tế bào này, gọi là mô trung gian (Hình 1.1). Hình 1-1: Cấu trúc mô tế bào ở cổ tử cung 1.3.3.2.Mô tế bào gai Mô tế bào gai có 4 lớp tế bào (Hình 1.2). Tế bào gai bắt đầu hình thành từ lớp đáy, và khi trưởng thành chúng chuyển qua lớp cận đáy, lớp trung gian và cuối cùng là lớp bề mặt. Như vậy, các tế bào lớp đáy sẽ phân chia và phân phát tế bào cho các lớp trên nó. Khi các tế bào trưởng thành và di chuyển giữa các lớp, chúng thay đổi hình dạng, màu sắc và các đặc tính khác. Khi đến lớp bề mặt, chúng sẽ bị đào thải và được KH OA C NT T – Đ H KH TN Trang 13 thay thế bằng các tế bào đến sau. Lớp đáy có các tế bào hình tròn nhỏ, với nhân lớn và bào tương nhỏ. Khi trưởng thành, nhân sẽ càng lúc càng nhỏ, trong khi bào tương càng lớn và hình dạng tế bào càng ít tròn đi. Tế bào cận đáy (Hình 1.3a) dạng tròn, kích thước khoảng 300µm2 và kích thước nhân là 50µm2. Tế bào trung gian (Hình 1.3b) và tế bào bề mặt (Hình 1.3c) có dạng đa giác, kích thuớc tương ứng 800 - 1200µm2 và 1600µm2, và kích thước nhân tương ứng là 35µm2 và 20µm2. Hình 1-2: Phân lớp trong mô tế bào gai KH OA C NT T – Đ H KH TN Trang 14 Hình 1-3: (a) tế bào gai cận đáy, (b) tế bào gai trung gian, (c) tế bào gai bề mặt, (d) tế bào trụ, (e) tế bào loạn sản nhẹ, (f) tế bào loạn sản vừa, (g) tế bào loạn sản nặng 1.3.3.3.Mô tế bào trụ Mô tế bào trụ chỉ chứa một lớp tế bào duy nhất, lớp đáy (Hình 1.4). Lớp đáy ở đây chứa các tế bào trụ (Hình 1.3d) và các tế bào dự trữ. Các tế bào dự trữ sẽ phân chia thành các tế bào dự trữ mới và các tế bào trụ. Khi nhìn tế bào trụ từ bên hông, chúng có hình trụ với nhân ở dưới đáy. Khi nhìn từ trên xuống, chúng nhỏ và có hình đa giác. Tế bào chất có kích thước khoảng 180µm2 và nhân 50µm2. Hình 1-4: Phân lớp trong mô tế bào trụ KH OA C NT T – Đ H KH TN Trang 15 1.3.3.4.Mô trung gian Mô trung gian (vùng chuyển tiếp giữa mô tế bào gai và mô tế bào trụ) chứa các tế bào dự trữ từ mô tế bào trụ. Khi các tế bào này trưởng thành, chúng trông như các tế bào gai. 1.3.3.5.Các tế bào loạn sản Khi thông tin di truyền của tế bào vì một lý do nào đó bị thay đổi, tế bào sẽ không phân chia theo cách thông thường, và có thể tạo thành một tế bào tiền ung thư. Những biến đổi ác tính trong tế bào ở giai đoạn tiền ung thư được gọi là loạn sản. Tùy theo cách phân chia của các tế bào này mà nó sẽ được chẩn đoán là loạn sản hay ung thư mô tế bào. Loạn sản có nhiều mức độ khác nhau: loạn sản nhẹ, loạn sản vừa và loạn sản nặng. Loạn sản chưa sừng hoá là loại phổ biến (chiếm 85% các ca loạn sản), phát triển từ mô trung gian hoặc từ mô tế bào gai. Tế bào loạn sản nhẹ (Hình 1.3e) có nhân sáng và lớn hơn tế bào bình thường. Tế bào loạn sản vừa (Hình 1.3f) có nhân tối và lớn hơn tế bào loạn sản nhẹ. Tế bào loạn sản nặng (Hình 1.3g) có nhân giống như loạn sản vừa nhưng bào tương nhỏ hơn. 1.3.3.6.Một số đặc điểm giải phẫu bệnh Một số đặc điểm dưới đây được dùng cho các bác sĩ giải phẫu bệnh khi thực hiện chẩn đoán trên xét nghiệm Pap bằng phương pháp thủ công: ¾ nhân mở rộng, tối hơn; tức là hình dạng và màu sắc của nhân biến đổi ¾ tỷ lệ nhân / bào tương tăng lên Bảng 1.1 tóm tắt một số đánh giá các loại tế bào khác nhau và được sử dụng để tham khảo. KH OA C NT T – Đ H KH TN Trang 16 Loại tế bào Diện tích nhân trung bình µm2 Diện tích bào tương trung bình µm2 Tỷ lệ nhân / bào tương % Cận đáy 50 300 20 Trung gian 35 1000 5 Bề mặt 20 1600 2 Trụ 50 180 30 Loạn sản nhẹ 175 1000 – 1500 10 – 20 Loạn sản vừa 175 1000 – 1500 20 – 50 Loạn sản nặng 175 1000 – 1500 trên 50 Bảng 1-1: Thống kê kích thước tế bào 1.4.Một số nguyên nhân dẫn đến chẩn đoán sai 1.4.1.Nguyên nhân khách quan ¾ Do điều kiện trang thiết bị y tế thấp kém như: các thiết bị lấy mẫu không theo tiêu chuẩn, dính quá nhiều tạp chất,… làm cho chất lượng mẫu lấy được thấp. ¾ Ý thức người dân không cao, không chấp nhận khám sàng lọc hoặc nếu có thì cũng không thực hiện theo định kì, … ¾ Thiếu đội ngũ cán bộ y tế có chuyên môn để thực hiện khám sàng lọc 1.4.2.Nguyên nhân chủ quan ¾ Một chẩn đoán ung thư hay tiền ung thư dựa trên các tế bào bất thường trong mẫu Pap được xác định bởi các bác sĩ giải phẫu bệnh. Một mẫu có thể chứa hàng trăm đến hàng ngàn tế bào, nhưng đa số là tế bào bình thường, chỉ có một số trong chúng ác tính, cho nên các tế bào bất thường có thể bị bỏ sót do bác sĩ không tập trung hoặc mệt mỏi... KH OA C NT T – Đ H KH TN Trang 17 ¾ Nếu mẫu xét nghiệm có chứa các tế bào ung thư hoặc tiền ung thư nhưng trong mẫu nhỏ lấy ra để chẩn đoán lại không có thì chẩn đoán sẽ bị lỗi. ¾ Các thay đổi tế bào học do vi khuẩn, vi rút, thuốc, hoặc sự thay đổi hóc môn có thể gần giống với các thay đổi ác tính, gây phức tạp thêm nhiệm vụ của bác sĩ. Do đó, khi các tế bào bất thường được xác định, việc phân loại chính xác mức độ thay đổi ác tính hay tiền ác tính mang tính chủ quan cao. 1.5.Một số hệ thống phân lớp tế bào tự động và bán tự động 1.5.1.Lịch sử phát triển Hệ thống bán tự động đầu tiên là Cytoanalyzer, xuất hiện vào đầu thập niên 50, do Mellors thực hiện. Hệ thống này đo được đường kính nhân và bào tương cùng với độ sáng của chúng. Tuy nhiên nó không thể phân đoạn được các cụm tế bào gần nhau, và đây cũng chính là mối quan tâm của các hệ thống hiện nay. Hệ thống tuy không đưa ra được một kết quả mong muốn được nhưng nó là một bước ngoặt cho các hướng phát triển kế tiếp. Một sản phẩm khác xuất hiện vào giữa những năm 60 là TICAS. Hệ thống này sử dụng máy tính loại DEC LINC – 8 để phát triển các phương pháp phân loại nhạy cảm hơn so với các kĩ thuật tế bào học. Nhưng do giới hạn phần cứng của máy tính nên việc khảo sát dữ liệu bị giới hạn trong 475 tế bào. Vì vậy mà việc ứng dụng vào thực tế bị hạn chế. Tuy nhiên, sản phẩm đã thành công trong việc nghiên cứu các hệ thống phân loại trong tương lai. Vào thập niên 80, TICAS được mở rộng thành microTICAS, sử dụng kính hiển vi, kết hợp camera kĩ thuật số và máy IBM chạy trên DOS phiên bản 2.0. Năm 1965, Husain đã xây dựng một hệ thống chẩn đoán tự động, phát hiện các tế bào có nhân lớn và tối thông qua một hệ thống kính hiển vi điện tử, để có thể xác định tế bào là ung thư hay tiền ung thư. Đầu những năm 70, ông tiếp tục phát triển các KH OA C NT T – Đ H KH TN Trang 18 khả năng của hệ thống này, giúp giảm tỷ lệ lỗi chẩn đoán một cách đáng kể (FN 17%, FP 34%). Giữa thập niên 70, Zahniser, Oud, Raajimakers, Vooys và van de Walle đã xây dựng hệ thống BioPEPR, bao gồm các máy tính với bộ nhớ 28K, cho phép thực hiện các phần mềm tinh vi, đưa ra kết quả từ 120 đến 180 mẫu xét nghiệm 1 giờ (FP 10%, FN 1%). Năm 1989, khi phần cứng và phần mềm được cải tiến đáng kể thì hệ thống LEYTAS xuất hiện, cho kết quả FN là 0.3% và FP là 13%, nhưng do qui trình lấy mẫu mất thời gian và đòi hỏi sự tác động đáng kể của con người nên không được ứng dụng rộng rãi. Tất cả những người thiết kế các hệ thống này đều nhận thấy rằng khám sàng lọc cổ tử cung tự động là một vấn đề cực kì khó khăn. Từ đó đến nay cũng có nhiều hệ thống mới ra đời, nhưng vẫn chỉ có thể cho hiệu suất cao khi có bàn tay con người trợ giúp. 1.5.2.Một số hệ thống khám sàng lọc thương mại Tổ chức FDA của Mĩ thông qua hai hệ thống khám sàng lọc tự động: ¾ Hệ thống PAPNET là một thiết bị khám sàng lọc nhằm bổ sung thêm cho hệ thống khám thủ công. Từ mỗi mẫu, hệ thống chọn 128 vùng khả nghi và lưu lại cho các bác sĩ giải phẫu học xem xét. ¾ Hệ thống AutoPap 300 nhận ra các mẫu âm tính, và được dùng cho việc sàng lọc lại các mẫu đã khám bằng phương pháp thủ công. Cả hai hệ thống đều làm giảm tỷ lệ chẩn đoán bệnh sai, nhưng đồng thời chúng cũng làm tăng chi phí xét nghiệm. KH OA C NT T – Đ H KH TN Trang 19 1.6.Phát biểu vấn đề Việc phân loại tế bào cổ tử cung dựa trên mẫu Pap được thực hiện theo 3 bước chính: ¾ Phân đoạn ảnh: đánh dấu từng vùng ảnh riêng biệt: nhân, bào tương và nền ¾ Trích đặc trưng: dựa vào các vùng ảnh thu được ở bước trên, chúng ta có thể trích ra các đặc trưng của tế bào để thực hiện phân loại ¾ Phân loại tế bào dựa trên các đặc trưng đã có, dùng hệ thống suy luận mờ sử dụng mạng thích nghi để thực hiện. Có thể hình dung các bước thực hiện theo sơ đồ sau: Hình 1-5: Sơ đồ các bước thực hiện chẩn đoán Dữ liệu thử nghiệm Ảnh tiền xử lý Ảnh tiền xử lý Trích đặc trưng Trích đặc trưng Đặc trưng tế bào Đặc trưng tế bào Huấn luyện phân lớp Phân lớp tế bào Dữ liệu huấn luyện Phân lớp Chuẩn đoán bệnh KH OA C NT T – Đ H KH TN Trang 20 1.7.Các tiêu chuẩn đánh giá mức độ thực hiện hệ thống Các giá trị sau được dùng để đánh giá mức độ thực hiện việc phân lớp tự động tế bào: ¾ Sai số trung bình bình phương lỗi (RMSE) ¾ Tỷ lệ âm tính giả (FN%) ¾ Tỷ lệ dương tính giả (FP%) ¾ Độ nhạy (Sensitivity) ¾ Độ đặc trưng (Specificity) ¾ Giá trị dự đoán dương tính (PP%) ¾ Giá trị dự đoán âm tính (NP%) 1.7.1.Sai số trung bình bình phương lỗi - RMSE RMSE là độ sai khác giữa phân lớp d đích và giá trị thực y có được nhờ vào việc phân lớp tự động tế bào. RMSE khác với độ lệch chuẩn σ ở chỗ σ là độ lệch chuẩn so với giá trị µ của y: ( ) 1 2 n yd RMSE n i ii∑ = −= (1.1) ( ) n yn i i∑= −= 1 2µσ (1.2) trong đó, n = |d| = |y| là số lượng tế bào được phân lớp. 1.7.2.Tỷ lệ âm tính giả - FN% FN% là tỷ lệ tế bào được phân lớp bình thường nhưng thực chất là loạn sản. ySensitivit FNTP FNFN −=+ ×= %100%100% (1.3) với TP là số lượng tế bào phân lớp dương tính đúng. KH OA C NT T – Đ H KH TN Trang 21 FN là số lượng tế bào phân lớp âm tính sai. 1.7.3.Tỷ lệ dương tính giả - FP% FP% là tỷ lệ tế bào được phân lớp loạn sản nhưng thực ra là bình thường. ionSpecificat FPTN FPFP −=+ ×= %100%100% (1.4) với TN là số lượng tế bào phân lớp âm tính đúng. FP là số lượng tế bào phân lớp dương tính sai. 1.7.4.Độ nhạy - Sensitivity Độ nhạy đánh giá xác suất phân lớp tự động tìm thấy tế bào loạn sản. FNTP TPySensitivit + ×= %100 (1.5) Như vậy, số lượng tế bào loạn sản trong cơ sở dữ liệu là P = TP + FN. 1.7.5.Độ đặc trưng - Specificity Độ đặc trưng là xác suất phân lớp tự động tìm ra tế bào bình thường. FPTN TNySpecificit + ×= %100 (1.6) Như vậy, số lượng tế bào bình thường trong cơ sở dữ liệu là N = TN + FP 1.7.6.Giá trị dự đoán dương tính – PP% PP% là tỷ lệ tế bào được phân lớp loạn sản đúng. FPTP TPPP + ×= %100% (1.7) 1.7.7.Giá trị dự đoán âm tính – NP% NP% là tỷ lệ tế bào được phân lớp bình thường đúng. FNTN TNNP + ×= %100% (1.8) KH OA C NT T – Đ H KH TN Trang 22 Chương 2: HỆ SUY LUẬN MỜ DỰA TRÊN MẠNG THÍCH NGHI Chương này đưa ra một cấu trúc và thủ tục học của hệ thống suy luận mờ dựa trên mạng thích nghi, gọi tắt là ANFIS. Thông qua việc sử dụng thủ tục học lai ghép, ANFIS có thể tạo một ánh xạ dữ liệu nhập - xuất dựa trên tri thức con người (dưới dạng các luật mờ nếu - thì) và dữ liệu nhập - xuất thực. Cấu trúc ANFIS được dùng để mô hình hóa các hàm phi tuyến, xác định trực tiếp các thành phần phi tuyến trong một hệ thống điều khiển, và dự đoán một loạt sự kiện hỗn loạn với một hiệu quả nhất định. 2.1.Giới thiệu sơ lược về mô hình nơron - mờ Một mạng nơron với các trọng số được điều chỉnh có thể xem như là một thiết bị điều khiển tự động nhờ vào tính chất hồi qui phi tuyến của các đối tượng rời rạc. Tuy nhiên tri thức được lưu trữ trong mạng không rõ ràng, không mô tả được những mối liên hệ giữa dữ liệu nhập và dữ liệu xuất, mà chỉ có thể xác định các mối liên hệ này thông qua những tham số thích nghi của mạng. Trái lại, một luật mờ nếu – thì lại có thể diễn tả được các mối liên hệ đó dưới dạng ngôn ngữ tự nhiên, nhưng lại không có khả năng điều chỉnh luật cho phù hợp. Hai vấn đề này được kết hợp lại tạo thành một hệ thống nơron - mờ nhằm đạt được khả năng “đọc” và “học” cùng một lúc. Các luật thu được từ hệ thống này có thể điều chỉnh phù hợp với dữ liệu phát sinh mô hình, và đối với các ứng dụng điều khiển tự động, mô hình nơron - mờ có thể tích hợp với các luật chuyên gia nhằm đưa ra những kết quả chính xác. Bên cạnh các luật chuyên gia, các luật trích ra từ dữ liệu cũng là một hình thức mô hình hoá hệ thống điều khiển tự động, chẳng hạn như trong Nhận dạng, khai mỏ dữ liệu,... Mục tiêu đưa ra các luật này là nhằm giảm độ phức tạp của vấn đề cũng như lượng dữ liệu liên quan đến vấn đề. Có rất nhiều phương pháp phân tích dữ liệu để đưa KH OA C NT T – Đ H KH TN Trang 23 ra hệ thống các luật để có thể thực hiện một sự kết hợp tối ưu giữa logic mờ và mạng nơron. Các nghiên cứu về mạng nơron đã bắt đầu từ thập niên năm 40, và logic mờ từ thập niên 60, nhưng mô hình nơron - mờ là một lĩnh vực mới. Năm 1992, Roger Jang đã đề xuất mô hình ANFIS nhằm đáp ứng việc xây dựng một tập luật mờ nếu - thì với các hàm thành viên xấp xỉ dữ liệu nhập - xuất đích. Kết quả là, một hệ thống suy luận mờ dựa trên mạng thích nghi không chỉ thể hiện tốt thông tin ngôn ngữ (các luật ngôn ngữ) từ các chuyên gia, mà còn phù hợp với việc sử dụng dữ liệu dạng số để thu được mức độ thực hiện tốt hơn. 2.2.Hệ thống suy luận mờ 2.2.1.Tập mờ Trong tập rõ, chúng ta có thể xác định rõ một phần tử là thành viên hay không là thành viên của một tập rõ cho trước. Tuy nhiên trong đời sống thực tế, có nhiều vấn đề mà chúng ta không biết rõ là đúng hay sai, điều này đồng nghĩa với việc tồn tại một phần tử x mà ta không thể xác định rõ ràng tính thành viên của x trong tất cả các tập rõ mà chúng ta đã biết. Để giải thích vấn đề này, Dr. Zadeh đã đưa ra khái niệm tập mờ và khái niệm hàm thành viên để thể hiện tính thành viên của biến trong tập mờ. Tập mờ A trong X là tập các phần tử có dạng A = {(x, µA(x)) | x ∈ X}, trong đó x là phần tử của tập vũ trụ X và µA(x) là giá trị thể hiện tính thành viên của x trong tập mờ A, với ( ) 10 ≤≤ xAµ . Nói cách khác, tập mờ A chính là nhãn được gán cho ánh xạ: [ ]1,0: →XAµ ( )xyx Aµ=→ KH OA C NT T – Đ H KH TN Trang 24 Xét về mặt ý nghĩa, tập mờ là một khái niệm dùng để thể hiện mức độ phụ thuộc vào một tính chất nào đó của các phần tử trong khôn gian vũ trụ. Ví dụ như tính chất nóng, mát, lạnh của tập nhiệt độ… 2.2.2.Luật mờ Luật mờ là biểu thức điều kiện có dạng “NẾU A THÌ B”, trong đó A và B là nhãn của các tập mờ được mô tả bằng cách xấp xỉ các hàm thành viên. Nhờ vào dạng rút gọn, luật mờ thường được dùng để thiết lập những phương thức lập luận không chính xác, nhằm thể hiện tính đa dạng trong tri thức của con người. Ví dụ sau mô tả một sự kiện đơn giản là (đây là luật mờ loại Mamdani): Nếu nhiệt độ cao, thì giá máy lạnh tăng. trong đó nhiệt độ và giá máy lạnh là các biến ngôn ngữ, cao và tăng là các giá trị ngôn ngữ hoặc các nhãn được mô tả bởi các hàm thành viên. Một dạng khác của luật mờ do Takagi và Sugeno đề xuất, có các tập mờ chỉ xuất hiện trong phần giả thuyết của luật. Ví dụ (đây là luật mờ loại Sugeno): Nếu lưu lượng dòng chảy cao thì mực nước sông = k* lưu lượng dòng chảy. trong đó, cao là phần giả thuyết được mô tả bởi hàm thành viên xấp xỉ. Tuy nhiên, phần kết luận được định nghĩa bởi phương trình theo biến lưu lượng dòng chảy. Cả hai loại luật mờ trên đều được mở rộng trong cả hai lĩnh vực mô hình hóa và điều khiển tự động. Bởi vì lợi ích của các nhãn ngôn ngữ và các hàm thành viên, một luật mờ có thể nắm bắt dễ dàng qui luật điều khiển của con người. 2.2.3.Hệ thống suy luận mờ 2.2.3.1.Cấu trúc Một hệ thống suy luận mờ gồm 5 khối cơ bản sau (Hình 2.1): ¾ Một cơ sở luật chứa các luật mờ nếu - thì KH OA C NT T – Đ H KH TN Trang 25 ¾ Một cơ sở dữ liệu định nghĩa các hàm thành viên của các tập mờ được sử dụng trong các luật mờ ¾ Một đơn vị thực hiện quyết định thực hiện phép toán suy luận trên các luật ¾ Một suy luận mờ chuyển đổi dữ liệu thô thành các mức độ kết nối với biến ngôn ngữ ¾ Một suy luận khử mờ chuyển đối các kết quả mờ của suy luận thành dữ liệu thô Thông thường, cơ sở luật và cơ sở dữ liệu dựa trên tri thức chuyên gia. Hình 2-1: Hệ thống suy luận mờ 2.2.3.2.Các bước thực hiện suy luận Các bước lập luận mờ (phép toán suy luận trên các luật mờ) được thực hiện bởi các hệ thống suy luận mờ (Hình 2.1): 1. So sánh dữ liệu nhập với các hàm thành viên trong phần giả thuyết để thu được các giá trị hàm thành viên (độ đo tính tương thích) của mỗi nhãn ngôn ngữ (bước này thường được gọi là mờ hóa). Dữ liệu xuất Dữ liệu nhập (mờ) mờ hoá cơ sở tri thức cơ sở dữ liệu cơ sở luật đơn vị thực hiện quyết định khử mờ hoá (thô) (thô) (mờ) KH OA C NT T – Đ H KH TN Trang 26 2. Kết nối (thông qua toán tử chuẩn T, thường là toán tử nhân hoặc toán tử min) các giá trị hàm thành viên trong phần giả thuyết để lấy ngưỡng kích hoạt của mỗi luật. 3. Phát sinh các kết luận đủ tiêu chuẩn (hoặc mờ hoặc thô) của mỗi luật dựa trên ngưỡng kích hoạt. 4. Tập hợp lại các kết luận đủ tiêu chuẩn để đưa ra một dữ liệu xuất thô (bước này được gọi là khử mờ). 2.2.3.3.Các loại hệ thống suy luận mờ Dựa trên các loại lập luận mờ và các luật mờ được dùng, hầu hết các hệ thống suy luận mờ có thể được phân làm 3 loại chính: Loại 1: Toàn bộ dữ liệu xuất là trung bình trọng số các dữ liệu xuất thô của mỗi luật có được do ngưỡng kích hoạt của luật (toán tử tích hoặc min tổ hợp các giả thuyết) và các hàm thành viên dữ liệu xuất. Loại 2: Toàn bộ dữ liệu xuất thu được bằng cách dùng toán tử max cho các dữ liệu xuất mờ đủ tiêu chuẩn (cực tiểu hóa độ ngưỡng kích hoạt và hàm thành viên dữ liệu xuất của mỗi luật). Các ý tưởng khác nhau được đề xuất để chọn lựa dữ liệu xuất thô cuối cùng dựa trên toàn bộ dữ liệu xuất mờ; một số trong chúng là tâm của diện tích, đường phân giác của diện tích, trung bình cực đại, tiêu chuẩn cực đại,… Loại 3: Các luật mờ loại Takagi và Sugeno được sử dụng. Dữ liệu xuất của mỗi luật là một tổ hợp tuyến tính các dữ liệu nhập, cộng với một số hạng không đổi, và dữ liệu xuất cuối cùng chính là trung bình trọng số các dữ liệu xuất trong mỗi luật. Hình 2.2 ví dụ về một hệ thống suy luận mờ hai luật, hai dữ liệu nhập để chỉ ra các loại luật mờ và lập luận mờ khác nhau. Chú ý rằng sự khác nhau là ở phần kết luận (không giảm đều hoặc hàm thành viên dạng chuông, hoặc hàm thô) và do đó mà các ý tưởng khử mờ (trung bình trọng, trọng tâm của diện tích…) cũng khác nhau. KH OA C NT T – Đ H KH TN Trang 27 Hình 2-2: Các luật mờ và các hệ thống suy luận 2.3.Mạng thích nghi 2.3.1.Cấu trúc mạng Hình 2-3: Mạng thích nghi Một mạng thích nghi (Hình 2.3) là một mạng nhiều lớp lan truyền tiến, trong đó mỗi nút thực hiện một chức năng riêng (hàm nút) trên tín hiệu vào cũng như tập các tham số gắn liền với nút. Trạng thái tự nhiên của hàm nút có thể biến đổi từ nút này qua nút khác, và sự lựa chọn của mỗi hàm nút dựa trên hàm ánh xạ toàn cục nhập – KH OA C NT T – Đ H KH TN Trang 28 xuất để mạng thích nghi được yêu cầu thực hiện. Chú ý rằng các liên kết trong mạng thích nghi chỉ xác định hướng dữ liệu của tín hiệu giữa các nút chứ không chứa trọng số. Để phản ánh các khả năng thích nghi khác nhau, các nút hình tròn và hình vuông được dùng trong mạng thích nghi. Một nút hình vuông (nút thích nghi) có chứa tham số còn một nút hình tròn (nút cố định) thì không. Tập tham số của mạng thích nghi là hợp của các tập tham số của mỗi nút thích nghi. Để thu được ánh xạ nhập – xuất đích, các tham số này được cập nhật theo dữ liệu huấn luyện đã cho và thủ tục học dựa trên gradient được mô tả ở phần sau. 2.3.2.Các luật học cơ bản Giả sử rằng một mạng thích nghi đã cho có L lớp và lớp thứ k có #(k) nút. Chúng ta có thể biểu thị vị trí nút thứ i trong lớp thứ k bằng (k, i), và hàm nút của nó (dữ liệu xuất của nút) bằng kiO . Khi một đầu ra của nút dựa trên tín hiệu vào và tập các tham số của nó, chúng ta có: ( )( ),...,,,,... 1 1#11 cbaOOOO k kkkiki − −−= (2.1) trong đó a, b, c,…là các tham số gắn liền với nút; kiO được dùng cho cả dữ liệu nhập và dữ liệu xuất của nút và hàm nút. Giả sử rằng dữ liệu huấn luyện đã cho có P mục, chúng ta có thể định nghĩa độ đo lỗi (hoặc hàm năng lượng) cho mục thứ p (1 ≤ p ≤ P) của mục dữ liệu huấn luyện như tổng các lỗi bình phương: ( )( ) 2# 1 ,,∑ = −= L m L pmpmp OTE (2.2) trong đó pmT , là thành phần thứ m của vectơ ra đích thứ p, và L pmO , thành phần thứ m của vectơ ra thực sự của vectơ vào thứ p. Vì vậy độ đo lỗi toàn cục là ∑ = = P p pEE 1 . KH OA C NT T – Đ H KH TN Trang 29 Để phát triển thủ tục học thực hiện giảm gradient trong E toàn bộ không gian tham số, đầu tiên phải tính tỷ lệ lỗi O E p ∂ ∂ cho dữ liệu huấn luyện thứ p và cho mỗi đầu ra của nút O. Tỷ lệ lỗi cho nút đầu ra tại (L, i) được suy ra từ phương trình (2.2) là: ( )LpipiL pi p OT O E ,, , 2 −−=∂ ∂ (2.3) Đối với nút ẩn tại (k, i), tỷ lệ lỗi được tính theo chuỗi vi phân: ( ) k pi k pm k m k pm p k pi p O O O E O E , 1 , 1# 1 1 ,, ∂ ∂ ∂ ∂=∂ ∂ ++ = +∑ (2.4) trong đó 1 ≤ k ≤ L – 1. Chính là, tỷ lệ lỗi của nút ẩn có thể được mô tả như một tổ hợp tuyến tính các tỷ lệ lỗi của các nút trong lớp kế tiếp. Vì vậy ∀k, ∀i, sao cho 1 ≤ k ≤ L và 1 ≤ i ≤ #(k), chúng ta có thể tính k pi p O E ,∂ ∂ qua phương trình (2.3) và (2.4). Nếu α là một tham số của mạng thích nghi đã cho, ta có: ∑ ∈ ∗ ∗∗ ∂ ∂ ∂ ∂=∂ ∂ SO pp O O EE αα (2.5) trong đó S là tập các nút mà đầu ra của nó phụ thuộc α; Thì đạo hàm độ đo lỗi toàn cục E tương ứng α là: ∑ = ∂ ∂=∂ ∂ P p pEE 1 αα (2.6) Suy ra, công thức cập nhật cho tham số chung α là: αηα ∂ ∂−=∆ E (2.7) trong đó η là tốc độ học được tính bằng: ∑ ⎟⎠⎞⎜⎝⎛ ∂ ∂ = α α η 2E k (2.8) KH OA C NT T – Đ H KH TN Trang 30 với k là kích thước bước, độ dài của mỗi thời kì chuyển tiếp gradient trong không gian tham số. Thông thường, chúng ta có thể thay đổi giá trị của k để biến đổi tốc độ hội tụ của thuật toán học. Có hai mô hình học cho mạng thích nghi. Với học theo khối (hoặc học ngoại tuyến), công thức cập nhật tham số α dựa trên phương trình (2.6) và hành động cập nhật chỉ xảy ra sau khi toàn bộ tập dữ liệu huấn luyện được đưa vào, tức là sau mỗi chu kì huấn luyện. Ngược lại, nếu cập nhật các tham số ngay khi dữ liệu nhập – xuất được đưa vào, thì công thức cập nhật dựa trên phương trình (2.5) và dựa theo học theo mẫu (hoặc học trực tuyến). 2.3.3.Luật học lai theo khối (học ngoại tuyến) Mặc dù chúng ta có thể áp dụng phương pháp gradient để xác định các tham số trong mạng thích nghi, nhưng phương pháp này nhìn chung rất chậm và có thể bị rơi vào tình trạng cực tiểu địa phương. Ở đây, việc kết hợp phương pháp gradient và phương pháp ước lượng bình phương cực tiểu (LSE) được dùng để xác định và điều chỉnh các tham số của mạng. Để đơn giản, giả sử rằng mạng thích nghi đang xét chỉ có một đầu ra: ( )SIFoutput ,= (2.9) trong đó I là tập các biến và S là tập các tham số. Nếu tồn tại một hàm H để FH o tuyến tính trong một số phần tử của S, thì các phần tử này có thể được định nghĩa bằng phương pháp bình phương cực tiểu. Thông thường, tập tham số S có thể được phân tích thành hai tập 21 SSS ⊕= (2.10) (⊕ là phép tổng trực tiếp) để cho FH o là tuyến tính trong tập S2, sau đó áp dụng H vào phương trình (2.9) ta có: ( ) ( )SIFHoutputH ,o= (2.11) KH OA C NT T – Đ H KH TN Trang 31 là tuyến tính trong tập S2. Dựa vào các giá trị đã cho của những phần tử S1, chúng ta có thể chia dữ liệu huấn luyện P vào phương trình (2.11) và thu được phương trình ma trận: AX = B (2.12) trong đó X là vectơ chưa biết mà các phần tử của nó là các tham số trong S2. Đặt |S2| = M, thì kích thước tương ứng của A, X, và B là P × M, M × 1, và P × 1. Do P (số lượng cặp dữ liệu huấn luyện) thường lớn hơn M (số lượng tham số tuyến tính), nên cần phải có một giải pháp thực hiện tính phương trình (2.12). Một ước lượng bình phương cực tiểu (LSE) của X và X*, được tìm để cực tiểu hóa lỗi bình phương ||AX – B||2; đây là chuẩn để thiết lập cơ sở cho hồi qui tuyến tính, lọc thích nghi và xử lý tín hiệu. X* được tính bằng cách sử dụng nghịch đảo giả của X: ( ) BAAAX TT 1−∗ = (2.13) trong đó AT là ma trận chuyển vị của A, và (ATA)-1AT là ma trận nghịch đảo giả của A. Mặc dù phương trình (2.13) rất ngắn gọn nhưng chi phí tính toán để xử lý nghịch đảo ma trận lại quá lớn. Ở đây, công thức dãy được dùng để tính LSE của X. Phương pháp dãy này hiệu quả hơn (đặc biệt khi M nhỏ) và có thể thay đổi dễ dàng thành một thuật toán học trực tuyến (xem phần sau) cho hệ thống thay đổi đặc tính. Đặc biệt, nếu gọi vectơ hàng thứ i của ma trận A được định nghĩa trong phương trình (2.12) là Tia , và thành phần thứ i của B là Tib , thì X có thể được tính lặp đi lặp lại, dùng công thức dãy mở rộng như sau: ( ) ⎪⎭ ⎪⎬ ⎫ −=+−= −+= ++ ++ + +++++ 1,...,1,0, 1 11 11 1 11111 Pi aSa SaaSSS XabaSXX ii T i i T iii ii i T i T iiiii (2.14) trong đó Si thường được gọi là ma trận hiệp phương sai và ước lượng bình phương cực tiểu X* bằng Xp. Các điều kiện khởi tạo cho phương trình (2.14) là 00 =X và IS γ=0 , trong đó γ là một số dương lớn (chọn γ = 106) và I là ma trận đồng nhất kích KH OA C NT T – Đ H KH TN Trang 32 thước MM × . Khi giải quyết các mạng thích nghi nhiều dữ liệu xuất (dữ liệu xuất trong phương trình (2.9) là một vectơ cột), phương trình (2.14) vẫn được áp dụng ngoại trừ T ib là hàng thứ i của ma trận B. Bây giờ chúng ta có thể kết hợp phương pháp gradient và ước lượng bình phương cực tiểu để cập nhật các tham số trong mạng thích nghi. Mỗi chu kì huấn luyện của thủ tục học lai này bao gồm quá trình tiến và quá trình lùi. Trong quá trình tiến, chúng ta cung cấp dữ liệu nhập và các tín hiệu hàm số đi tới để tính dữ liệu xuất của mỗi nút cho đến khi thu được các ma trận A, B trong phương trình (2.12), và các tham số trong S2 được xác định bởi phương trình (2.14). Sau khi xác định các tham số trong S2, các tín hiệu hàm vẫn tiếp tục đi tới cho đến khi tính được độ đo lỗi. Trong quá trình lùi, các tỷ lệ lỗi (phương trình (2.3) và (2.4)) truyền từ đầu ra cuối đến đầu ra đầu, và các tham số trong S1 được cập nhật bằng phương pháp gradient theo phương trình (2.7). Đối với các giá trị cố định của các tham số trong S1, tham số trong S2 do đó được bảo đảm là điểm tối ưu toàn cục trong không gian tham số S2 dựa trên việc lựa chọn độ đo lỗi bình phương. Luật học này không chỉ giảm kích thước không gian tìm kiếm trong phương pháp gradient mà về cơ bản nó còn giảm bớt thời gian hội tụ. 2.3.4.Luật học lai theo mẫu Nếu các tham số được cập nhật sau mỗi biểu diễn dữ liệu, chúng ta có kiểu học theo mẫu hoặc học trực tuyến. Mô hình học này quan trọng đối với việc xác định tham số trực tuyến cho hệ thống đối với các hệ thống thay đổi. Để thay đổi luật học theo khối thành trực tuyến, rõ ràng việc giảm gradient nên dựa theo Ep (phương trình (2.5)) thay vì dựa vào E. Nói cách khác, học theo mẫu không phải là thủ tục tìm kiếm gradient đích thực để cực tiểu hoá E, nó sẽ xấp xỉ E nếu tốc độ học nhỏ. Đối với công thức dãy bình phương cực tiểu dùng để giải thích các đặc tính biến đổi theo thời gian của dữ liệu vào, chúng ta cần phân huỷ các ảnh hưởng của cặp dữ KH OA C NT T – Đ H KH TN Trang 33 liệu cũ khi có cặp dữ liệu mới xuất hiện. Điều kiện của “hệ số quên” λ cho công thức dãy tổng quát: ( ) ⎪⎭ ⎪⎬ ⎫ ⎥⎦ ⎤⎢⎣ ⎡ +−= −+= ++ ++ + +++++ 11 11 1 11111 1 ii T i i T iii ii i T i T iiiii aSa SaaSSS XabaSXX λλ (2.16) trong đó giá trị [ ]1,0∈λ . Lambda càng nhỏ thì ảnh hưởng của việc phân huỷ dữ liệu cũ càng nhanh. Nhưng lambda nhỏ thỉnh thoảng gây tình trạng không ổn định về mặt số học, nên tránh trường hợp này. 2.4.Hệ thống suy luận mờ dựa trên mạng thích nghi 2.4.1.Cấu trúc ANFIS Không mất tính tổng quát, xét hệ thống suy luận mờ có hai dữ liệu nhập x và y, và một dữ liệu xuất z. Giả sử rằng cơ sở luật chứa hai luật mờ loại Sugeno: Nếu x là A1 và y là B1 thì f1 = p1x + q1y + r1. Nếu x là A2 và y là B2 thì f2 = p2x + q2y + r2. thì suy luận mờ loại 3 trong hình 2.4a sẽ tương ứng với cấu trúc ANFIS ở hình 2.4b. Chú ý rằng, các hàm nút trong cùng một lớp có dạng hàm như nhau. Lớp 1: Mọi nút i trong lớp này là nút hình vuông với hàm nút: ( )xO iAi µ=1 (2.17) trong đó, x là dữ liệu nhập cho nút i, và Ai là nhãn ngôn ngữ (cao, nhỏ…) liên quan đến hàm nút. Như vậy, 1iO còn gọi là hàm thành viên của Ai và thể hiện mức độ x thỏa Ai. Thông thường, ( )xAµ có dạng hình chuông và nằm trong khoảng [0, 1]: ( ) ii b i i A a cx x ⎥⎥⎦ ⎤ ⎢⎢⎣ ⎡ ⎟⎟⎠ ⎞ ⎜⎜⎝ ⎛ −+ = 2 1 1µ (2.18) KH OA C NT T – Đ H KH TN Trang 34 Hay ( ) ib i i i a cx A ex 2 ⎟⎟⎠ ⎞ ⎜⎜⎝ ⎛ −−=µ (2.19) trong đó {ai, bi, ci} là tập tham số Lớp 2: Mỗi nút trong lớp này là nút tròn, được gán nhãn ∏ có dữ liệu xuất là tích các dữ liệu nhập: ( ) ( ) .2,1,2 =×== iyxwO ii BAii µµ (2.20) Dữ liệu xuất của mỗi nút biểu diễn ngưỡng kích hoạt của luật. Hình 2-4: (a) Suy luận mờ loại 3, (b) cấu trúc ANFIS tương ứng Lớp 3: Mỗi nút trong lớp này là nút tròn, được gán nhãn N. Nút thứ i tính tỷ lệ ngưỡng kích hoạt của luật thứ i so với tổng tất cả các ngưỡng kích hoạt của tất cả các luật: .2,1, 21 3 =+== iww w wO iii (2.21) Dữ liệu xuất của lớp này được gọi là ngưỡng kích hoạt chuẩn hóa. KH OA C NT T – Đ H KH TN Trang 35 Lớp 4: Mọi nút i trong lớp này là nút vuông có hàm nút: ( )iiiiiii ryqxpwfwO ++==4 (2.22) Trong đó iw là dữ liệu xuất của lớp 3, và {ai, bi, ci} là tập tham số kết quả. Lớp 5: Nút duy nhất trong lớp này là nút tròn được gán nhãn ∑, để tính tổng dữ liệu xuất: ∑ ∑∑ == i i ii i ii w fw fwO51 (2.23) Trên đây vừa giới thiệu mô hình ANFIS áp dụng hệ thống suy luận mờ loại 3. Những hệ thống suy luận mờ khác cũng thực hiện gần giống như hệ thống loại này. 2.4.2.Thuật toán học lai Từ cấu trúc ANFIS trên (hình 2.4), giả sử đã có các tham số giả thuyết, như vậy tổng dữ liệu xuất có thể xem như một tổ hợp tuyến tính các tham số kết quả. Dữ liệu xuất f có thể được viết lại: ( ) ( ) ( ) ( ) ( ) ( ) 222222111111 22112 21 2 1 21 1 rwqywpxwrwqywpxw fwfwf ww wf ww wf +++++= +=+++= (2.24) là tuyến tính theo các tham số kết quả (p1, q1, r1, p2, q2 và r2). Kết quả là, chúng ta có: S = tập toàn bộ tham số S1 = tập tham số giả thuyết S2 = tập tham số kết quả trong phương trình 2.10; H(.) là hàm đồng nhất và F(., .) là hàm của hệ thống suy luận mờ. Do đó mà thuật toán học lai được trình bày ở phần trước có thể được áp dụng trực tiếp. Cụ thể hơn, trong quá trình lan truyền tiến của thuật toán học lai, tín hiệu hàm truyền đến lớp 4 và các tham số kết quả được xác định bằng LSE. Trong quá trình lan KH OA C NT T – Đ H KH TN Trang 36 truyền ngược, tỷ lệ lỗi truyền ngược lại và các tham số giả thuyết được cập nhật bằng phương pháp giảm gradient. Bảng 2.1 tóm tắt hoạt động của mỗi quá trình. - Quá trình tiến Quá trình lùi tham số giả thuyết cố định giảm gradient tham số kết quả LSE cố định tín hiệu dữ liệu xuất của nút tỷ lệ lỗi Bảng 2-1: Hai quá trình trong thuật toán học lai KH OA C NT T – Đ H KH TN Trang 37 Chương 3: TRÍCH CHỌN ĐẶC TRƯNG Để có thể thực hiện mô hình ANFIS, trước hết cần phải chuyển tất cả các dạng dữ liệu nhập vào hệ thống sang dạng số. Chương này sẽ giới thiệu về dữ liệu nhập cho hệ thống và cách thực hiện trích đặc trưng trên bộ dữ liệu lấy mẫu để tạo thành một cơ sở dữ liệu chứa các con số đặc trưng cho dữ liệu nhập. 3.1.Giới thiệu sơ lược về trích đặc trưng Trích chọn đặc trưng là chuyển đổi một ảnh đã phân đoạn thành tập hợp các con số mô tả nội dung của đối tượng cần nhận dạng. Trong mẫu xét nghiệm Pap, nhân và bào tương phải được nhận dạng đúng để phân biệt tế bào bình thường và tế bào bất thường, cũng như để phân biệt được các loại tế bào khác nhau. 3.2.Dữ liệu nhập của hệ thống 3.2.1.Tạo dữ liệu Các yêu cầu khi tạo dữ liệu ảnh tế bào: ¾ độ phản chiếu giữa nền và đối tượng có độ dao động thấp: điều chỉnh tự động bằng camera và kính hiển vi ¾ độ phân giải của ảnh: sử dụng độ phóng đại kính hiển vi 400X và độ phân giải 384 * 284 điểm ảnh 24 bit màu. Độ co giãn là 0.201µm / điểm ảnh. ¾ chỉ tạo ảnh gồm các tế bào đơn, không chứa cụm tế bào Trong mẫu Pap, ngoài các tế bào cổ tử cung, còn có rất nhiều loại tế bào phụ khác như hồng cầu, bạch cầu, xác tế bào, vi trùng,… Để đơn giản, dữ liệu nhập chỉ giới hạn trong các loại sau: tế bào trụ, tế bào gai cận đáy, tế bào gai trung gian và tế bào gai KH OA C NT T – Đ H KH TN Trang 38 bề mặt, tế bào loạn sản nhẹ chưa sưng hoá, tế bào loạn sản vừa, tế bào loạn sản nặng. Dữ liệu được tạo ra bằng cách quét một lượng lớn các mẫu xét nghiệm vào máy tính. Dữ liệu này được thực hiện bởi bác sĩ khoa giải phẫu học của đại học Y khoa Herlev, bằng cách sử dụng camera kĩ thuật số kết nối với kính hiển vi và máy tính. 3.2.2.Dữ liệu Cơ sở dữ liệu ảnh bao gồm: ¾ 50 ảnh tế bào trụ ¾ 50 ảnh tế bào gai cận đáy ¾ 50 ảnh tế bào gai trung gian ¾ 50 ảnh tế bào gai bề mặt ¾ 100 ảnh tế bào loạn sản nhẹ chưa sừng hoá ¾ 100 ảnh tế bào loạn sản vừa chưa sừng hoá ¾ 100 ảnh tế bào loạn sản nặng chưa sừng hoá Như vậy, cơ sở dữ liệu ảnh này gồm 200 ảnh tế bào bình thường và 300 ảnh tế bào loạn sản. Trước khi sử dụng dữ liệu để xây dựng mô hình phân lớp, cơ sở dữ liệu được chia thành hai tập bằng nhau: tập huấn luyện và tập kiểm nghiệm. Dữ liệu huấn luyện dùng để xây dựng mô hình phân lớp tế bào. Dữ liệu kiểm nghiệm dùng để đánh giá mức độ thực hiện của mô hình. 3.2.3.Các đặc tính tế bào học Các đặc tính của tế bào được dùng để tạo cơ sở dữ liệu cho mô hình ANFIS: ¾ Diện tích nhân ¾ Diện tích bào tương ¾ Độ sáng nhân ¾ Độ sáng bào tương ¾ Đường kính ngắn nhất của nhân KH OA C NT T – Đ H KH TN Trang 39 ¾ Đường kính dài nhất của nhân ¾ Đường kính ngắn nhất của bào tương ¾ Đường kính dài nhất của bào tương ¾ Chu vi nhân ¾ Chu vi bào tương ¾ Vị trí nhân ¾ Vị trí bào tương ¾ Cực đại trong nhân ¾ Cực tiểu trong nhân ¾ Cực đại trong bào tương ¾ Cực tiểu trong bào tương 3.3.Dữ liệu xuất của hệ thống Cơ sở dữ liệu được tạo ra với 20 đặc trưng cùng với đặc trưng thứ 21, là con số tượng trưng cho phân lớp của tế bào: ¾ 1: tế bào trụ ¾ 2: tế bào gai cận đáy ¾ 3: tế bào gai trung gian ¾ 4: tế bào gai bề mặt ¾ 5: tế bào loạn sản nhẹ chưa sừng hoá ¾ 6: tế bào loạn sản vừa chưa sừng hoá ¾ 7: tế bào loạn sản nặng chưa sừng hoá Đây chính là dữ liệu xuất dùng cho phân lớp tế bào. Nếu chỉ phân lớp là âm tính (tương ứng 1, 2, 3, 4 ở trên) hoặc dương tính (tương ứng 4, 6, 7) thì đặc trưng phân lớp tế bào sẽ gồm: ¾ 1: tế bào bình thường ¾ 2: tế bào loạn sản KH OA C NT T – Đ H KH TN Trang 40 3.4.Trích chọn đặc trưng Hình 3-1: Ảnh đã phân đoạn Hãy xem hình 3.1 như một ví dụ về ảnh đã được phân đoạn. Ảnh được phân đoạn thành 3 phần, tượng trưng cho nhân, bào tương và nền, trong đó mỗi phần đánh dấu bằng một màu tương ứng. Trong ảnh này, màu xám sáng biểu thị cho nhân, màu xám tối là bào tương và màu trắng là nền. Như vậy hình 3.1 có thể được gán nhãn lại như hình 3.2. Hình 3-2: Ảnh đã gán nhãn Đối với những ảnh trong cơ sở dữ liệu này, ta có chiều dài một điểm ảnh là: pixelm pixels m width width a pixel m /201.0 384 16051.77 µµµ === (3.1) Sau đây, các đặc trưng khác nhau sẽ được giải thích và mô phỏng bằng công thức. Qui ước đặt tên cho các đặc trưng là nếu một đặc trưng bắt đầu bằng chữ N thì nó mô tả nhân, C là bào tương. KH OA C NT T – Đ H KH TN Trang 41 3.4.1.Diện tích và tỉ lệ diện tích Diện tích là số điểm ảnh thuộc một lớp nào đó của đối tượng. Hệ số phép biến đổi được sử dụng để tính diện tích theo kích thước vật lý (µm2) bằng cách nhân số điểm ảnh với a2. Tỷ lệ giữa diện tích nhân Narea và diện tích bào tương Carea được định nghĩa: CareaNarea NareaCN +=/ (3.2) Ví dụ: Hình 3-3: Các phép tính diện tích Hình 3.3 chỉ ra số điểm ảnh trong lớp nhân và lớp bào tương. Ta có: 297.0 818.1768.0 768.0/ 818.145 768.019 22 2 22 22 =+=+= =⋅= =⋅= mm m CareaNarea NareaCN maCarea maNarea µµ µ µ µ 3.4.2.Độ sáng Độ sáng là cường độ sáng trung bình của các điểm ảnh của lớp. Mỗi điểm ảnh chứa thông tin về dải màu đỏ (R), xanh lá cây (G), xanh lục (B) với cường độ từ 0 đến 255. Cường độ sáng (I) của một điểm ảnh là trung bình của 3 dải màu này: Blue * 0.114 +Green * 0.587 + Red * .2990=I (3.3) KH OA C NT T – Đ H KH TN Trang 42 Cường độ sáng trung bình được tính: ∑ ∈ == componentyx yx p I N CcolNcolbrightness , , 1)( (3.4) trong đó, Np là số lượng điểm ảnh thuộc lớp. 3.4.3.Đường kính Gồm hai loại: đường kính lớn nhất và đường kính nhỏ nhất. Đường kính lớn nhất là khoảng cách lớn nhất giữa hai điểm tính từ biên. Đường kính nhỏ nhất thẳng góc với đường kính lớn nhất và chiều dài vừa với một hình chữ nhật bao ngoài lớp. Các đường kính được tìm thấy dựa theo biên của mỗi thành phần. Khoảng cách Euclide của tất cả các điểm trên biên được tính và khoảng cách xa nhất chính là đường kính lớn nhất. Đường kính nhỏ nhất ở một phía được tính bằng khoảng cách vuông góc tính từ biên đến đường kính lớn nhất. Cuối cùng, đường kính nhỏ nhất được định nghĩa là tổng hai khoảng cách lớn nhất từ hai phía của đường kính lớn nhất. Các đường kính được tính theo kích thước vật lý bằng cách nhân với a. Ví dụ: Hình 3-4: Vị trí đường kính nhỏ nhất và lớn nhất Trong hình 3.4 các đường kính tính cho bào tương được xác định theo phương pháp trên. Chú ý hai đường kính nhỏ nhất đều thẳng góc với đường kính lớn nhất. Đường kính nhỏ nhất và lớn nhất được tính theo khoảng cách Euclide: KH OA C NT T – Đ H KH TN Trang 43 ( ) ( ) ( ) ( ) ma yyxxaClong µ100.244.10201.036100 2max_1max_2max_1max_ 22 22 =⋅=−+−⋅= −+−⋅= ( ) ( ) ( ) ( ) ma yyxxaCshort µ025.110.5201.05043 12min_11min_12min_11min_1 22 22 =⋅=−+−⋅= −+−⋅= ( ) ( ) ( ) ( ) ma yyxxaCshort µ636.016.3201.04767 22min_21min_22min_21min_2 22 22 =⋅=−+−⋅= −+−⋅= mCshortCshortCshort µ660.1636.0205.121 =+=+= 3.4.4.Chu vi Chu vi là số điểm ảnh nằm ở biên của lớp. Biên được tính theo µm bằng cách nhân với a. Ví dụ: Biên của bào tương được xác định khi tính đường kính lớn nhất và nhỏ nhất của nó (xem hình 3.4). Như hình vẽ, biên của bào tương gồm 26 điểm ảnh. Như vậy chu vi bào tương là: maCperi µ225.526 =⋅= 3.4.5.Vị trí nhân Tâm của một lớp ( )yx ˆ,ˆ được xem như tâm của trọng lực. Để tính tâm của trọng lực, trước tiên cần tính các mô men: ∑ ∈ ⋅= componentyx qp qp yxM , , (3.5) areaM componentyx == ∑ ∈, 0,0 1 (3.6) ∑ ∈ = componentyx xM , 0,1 (3.7) ∑ ∈ = componentyx yM , 1,0 (3.8) KH OA C NT T – Đ H KH TN Trang 44 0,0 0,1ˆ M M x = (3.9) 0,0 1,0ˆ M M y = (3.10) Khi các tâm được tính cho cả nhân ( )nn yx ˆ,ˆ và bào tương ( )cc yx ˆ,ˆ , một vị trí tương quan được tính theo đường kính lớn nhất cho bào tương: ( ) ( ) Clong yyxxa Npos cncn 22 ˆˆˆˆ2 −+−⋅= (3.11) Đặc trưng này chứng tỏ vị trí của nhân trong bào tương. Ví dụ: Hình 3-5: Tâm của trọng lực đối với nhân và bào tương Trong hình 3.5 tâm của trọng lực được tính cho cả lớp nhân và bào tương: 59.4 45 220ˆ ≈==cx 48.3 45 173ˆ ≈==cy 51.5 19 98ˆ ≈==nx 34.3 19 66ˆ ≈==ny KH OA C NT T – Đ H KH TN Trang 45 Cho nên, vị trí tương quan được tính: ( ) ( ) ( ) ( ) 191.0 100.2 4355201.02 ˆˆˆˆ2 22 22 =−+−⋅= −+−⋅= Clong yyxxa Npos cncn 3.4.6.Độ giãn dài Độ giãn dài là tỷ lệ giữa chiều dài đường kính nhỏ nhất và chiều dài đường kính lớn nhất. Khi tỷ lệ này tiến đến 1 thì lớp gần như là hình vuông. long shortelong = (3.12) Ví dụ: Đường kính lớn nhất và nhỏ nhất của bào tương được dùng để tính độ giãn dài: 79.0 100.2 660.1 === Clong CshortCelong 3.4.7.Độ tròn Độ tròn là tỷ lệ giữa diện tích đường tròn bao và diện tích lớp. Đường tròn bao lấy đường kính lớn nhất của thành phần làm đường kính. Nếu tỷ lệ tiến đến 1 thì lớp là tròn, và nếu tỷ lệ tiến đến 0 thì lớp gần như là đường thẳng. 22 4 2 long area long arearound ⋅ ⋅= ⎟⎠ ⎞⎜⎝ ⎛⋅ = ππ (3.13) KH OA C NT T – Đ H KH TN Trang 46 Ví dụ: Hình 3-6: Đường tròn cực tiểu cho nhân Trong hình 3.6 đường tròn bao được sử dụng cho lớp nhân. Độ tròn được tính sử dụng đường kính lớn nhất 1.35µm (chưa tính trong ví dụ trước), và diện tích nhân 0.768µm2 (từ ví dụ diện tích): 54.0 35.1 768.044 22 =⋅ ⋅=⋅ ⋅= ππ Nlong NareaNround 3.4.8.Cực đại, cực tiểu Cực đại, cực tiểu là giá trị số lượng giá trị cường độ xám lớn nhất, nhỏ nhất thuộc đối tượng (nhân, bào tương). Chương trình sẽ kiểm tra tất cả các điểm ảnh thuộc đối tượng. Nếu điểm ảnh có giá trị cường độ sáng lớn nhất / nhỏ nhất khi so sánh với các điểm ảnh nằm trong bán kính 3 điểm ảnh, thì biến đếm tăng lên 1. 3.5.Các đặc trưng rút trích STT Đặc trưng Viết tắt Được tính từ 1 Diện tích nhân Narea 2 Diện tích bào tương Carea 3 Tỷ lệ nhân / bào tương N/C Narea, Carea 4 Độ sáng nhân Ncol KH OA C NT T – Đ H KH TN Trang 47 5 Độ sáng bào tương Ccol 6 Đường kính ngắn nhất của nhân Nshort 7 Đường kính dài nhất của nhân Nlong 8 Độ giãn dài của nhân Nelong Nshort, Nlong 9 Độ tròn của nhân Nround Narea, Nlong 10 Đường kính ngắn nhất bào tương Cshort 11 Đường kính dài nhất của bào tương Clong 12 Độ giãn dài của bào tương Celong Cshort, Clong 13 Độ tròn của bào tương Cround Carea, Clong 14 Chu vi nhân Nperim 15 Chu vi bào tương Cperim 16 Vị trí nhân Npos 17 Cực đại trong nhân Nmax 18 Cực tiểu trong nhân Nmin 19 Cực đại trong bào tương Cmax 20 Cực tiểu trong bào tương Cmin Bảng 3-1 : Danh sách các đặc trưng trích chọn vào cơ sở dữ liệu KH OA C NT T – Đ H KH TN Trang 48 Chương 4: PHÂN LOẠI TẾ BÀO CỔ TỬ CUNG SỬ DỤNG MÔ HÌNH ANFIS Phân loại tế bào ung thư cổ tử cung là giai đoạn quan trọng nhất trong hệ thống khám sàng lọc tự động. Việc phân loại sử dụng mô hình ANFIS sẽ cho kết quả tốt hơn những phương pháp gom cụm thông thường khác như: k – trung bình, láng giềng gần nhất, gom cụm mờ… Chương này sẽ giới thiệu những hệ thống cơ sở luật mà ANFIS thực hiện để cho kết quả tốt nhất có thể. 4.1.Cấu trúc ANFIS trong phân loại tế bào cổ tử cung 4.1.1.Hệ thống suy luận mờ Không mất tính tổng quát, xét một hệ suy luận gồm 2 đặc trưng của nhân: kích thước, độ sáng và 4 luật chuyên gia sau: Luật Diện tích nhân Độ sáng nhân Phân lớp 1 nhỏ tối bình thường 2 lớn sáng loạn sản nhẹ 3 lớn trung bình loạn sản 4 lớn sáng loạn sản nặng Bảng 4-1: Ví dụ luật mờ phân loại tế bào Như vậy với cơ sở luật như trên thì các luật Sugeno bậc 0 tương ứng là: 1. Nếu x là A1 và y là B3 thì z1 = p1 2. Nếu x là A2 và y là B1 thì z2 = p2 KH OA C NT T – Đ H KH TN Trang 49 3. Nếu x là A2 và y là B2 thì z3 = p3 4. Nếu x là A2 và y là B3 thì z4 = p4 với x là diện tích nhân và y là độ sáng nhân, và zi là dữ liệu xuất của luật thứ i. Ngưỡng kích hoạt wi của mỗi luật được xác định trong phần giả thiết của luật và được tính bằng: ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( )yxw yxw yxw yxw BA BA BA BA 32 22 12 31 4 3 2 1 µµ µµ µµ µµ ×= ×= ×= ×= (4.1) trong đó ( )xA 2,1µ và ( )yB 3,2,1µ là các hàm thành viên của dữ liệu nhập x và y, chúng thể hiện mức độ thỏa mãn của dữ liệu nhập với tập A = {A1,A2,B1,B2,B3}. Các hàm thành viên này được chọn theo dạng chuông: ib i i A a cx 2)(1 1 −+ =µ (4.2) với {ai,bi,ci} là các tham số giả thiết, xác định hình dạng thật sự của các hàm thành viên (Hình 4.1). Với một bộ dữ liệu nhập bất kì, toàn bộ dữ liệu xuất z của hệ thống suy luận mờ được xác định bằng cách dùng các ngưỡng kích hoạt trọng hoá của mỗi luật: 4321 44332211 wwww zwzwzwzw w zw z i i i ii +++ +++== ∑ ∑ (4.3) Hình 4-1: Ý nghĩa các tham số trong hàm dạng chuông KH OA C NT T – Đ H KH TN Trang 50 4.1.2.Cấu trúc ANFIS Hệ thống suy luận mờ mô tả ở phần trước có thể được thực hiện bằng một cấu trúc ANFIS tương ứng hình sau: Hình 4-2: Cấu trúc ANFIS với 2 dữ liệu vào và 4 luật Mạng được chia thành 5 lớp như hình 4.2. Dữ liệu nhập được đưa vào lớp nhập, và các phép tính được thực hiện từ trái sang phải. Dữ liệu xuất của lớp xuất là tổng dữ liệu xuất z. Các lớp giữa lớp nhập và lớp xuất được gọi là các lớp ẩn. Mỗi lớp chứa một hoặc nhiều nút. Dữ liệu xuất của nút thứ i trong lớp thứ k được kí hiệu là kiO . Lớp 1: Các nút trong lớp nhập có dữ liệu xuất tính theo công thức (4.2): ( ) ( ) 5,4,3 2,1 1 1 == == ikhiyO ikhixO i i Bi Ai µ µ (4.4) Các nút trong lớp nhập thích nghi tương ứng các tham số giả thiết {ai,bi,ci}. Lớp 2: Các nút trong lớp thứ hai chứa các ngưỡng kích hoạt của luật theo công thức (4.1): ii wO =2 (4.5) KH OA C NT T – Đ H KH TN Trang 51 Lớp 3: Các nút trong lớp thứ ba tính trọng hoá các ngưỡng kích hoạt: ∑== iiii w wwO3 (4.6) Lớp 4: Các nút trong lớp thứ tư tính trọng hoá dữ liệu xuất của mỗi luật: iiiii pwzwO ==4 (4.7) trong đó pi là các tham số kết quả của các hệ thống. Lớp 5: Lớp thứ năm là lớp xuất. Hàm nút sẽ tính tổng dữ liệu xuất bằng tổng tất cả các tín hiệu vào theo công thức (4.3): ∑ ∑ ∑== i i i ii ii w zw OO 45 (4.8) 4.1.3.Huấn luyện ANFIS Mỗi chu kì huấn luyện cấu trúc ANFIS được thực hiện bởi 2 quá trình: quá trình tiến và và quá trình lùi. Trong quá trình tiến, các tham số kết quả được xác định bằng phương pháp bình phương cực tiểu. Trong quá trình lùi, các tín hiệu lỗi lan truyền ngược và độ giảm gradient thường được dùng để xác định các tham số giả thiết. Chính vì vậy mà phương pháp này được xem như một thuật toán học lai ghép. Dữ liệu huấn luyện chứa tập các vector dữ liệu vào gồm P vectơ (mục). 4.1.3.1.Quá trình tiến Trong quá trình tiến, dữ liệu nhập được đưa vào mạng, và dữ liệu xuất được tính toán cho từng nút, từ lớp nhập đến lớp xuất. Các tham số kết quả thích nghi được tìm thấy bằng cách tính phương trình ma trận AX = B, trong đó X là một vector M × 1 chứa các tham số kết quả với M chưa biết, A là ma trận P × M chứa những dữ liệu xuất thực KH OA C NT T – Đ H KH TN Trang 52 sự (dữ liệu thực), được mô tả như một tổ hợp tuyến tính tương ứng với các tham số kết quả, B là một vector P × 1, chứa dữ liệu xuất mong muốn (dữ liệu đích). Phương trình ma trận được tính bằng phương pháp ước lượng bình phương cực tiểu (LSE – Least squares estimate): ( ) 1,...,1,0, 1 11 11 1 11111 −=+−= −+= ++ ++ + +++++ Pi aSa SaaS SS XabaSXX ii T i i T iii ii i T i T iiiii (4.9) trong đó, LSE của X bằng Xp, và hàng thứ i của A và thành phần thứ i của B là a Ti và b Ti . Giá trị khởi tạo của X là X0 = 0. S0 = γI, trong đó I là ma trận đồng nhất M x M, và γ là số dương lớn. 4.1.3.2.Quá trình lùi Quá trình lùi sẽ lan truyền ngược tín hiệu lỗi của dữ liệu xuất để tìm ra các tham số giả thiết của mạng. Xét một mạng dữ liệu xuất đơn giản gồm L lớp, trong đó N(l) là số lượng nút của lớp l. Nút thứ i tại lớp l có dữ liệu xuất xl,i và hàm truyền fl,i. Tập huấn luyện có P mục, và dp biểu hiện dữ liệu đích cho mục p. Độ đo lỗi Ep tương ứng mục thứ p trong dữ liệu huấn luyện là: ( )21,Lpp xdE −= (4.10) Vấn đề của lan truyền ngược chính là phải cực thiểu hoá tổng lỗi ∑ == pp pEE 1 bằng cách thay đổi các tham số giả thiết. Để thực hiện điều này, chúng ta cần xem xét các tín hiệu lỗi il ,ε , chính là đạo hàm riêng của Ep tương ứng với dữ liệu xuất của nút thứ i tại lớp l: il p il x E , , ∂ +∂=ε (4.11) KH OA C NT T – Đ H KH TN Trang 53 Tín hiệu lỗi 1,Lε tại lớp xuất là: ( ) ( )1, 1, 2 1, 1, 2 Lp L Lp L xdx xd −−=∂ −∂=ε (4.12) Đối với các nút ở lớp ẩn, tín hiệu lỗi là đạo hàm một luật dãy: ∑∑ + = + + + = + + ∂ ∂=∂ ∂ ∂ +∂=∂ +∂= )1( 1 , ,1 ,1 )1( 1 , ,1 ,1, , lN m il ml il lN m il ml ml p il p il x f x f x E x E E ε (4.13) Như vậy, các tín hiệu lỗi tại lớp l có thể được tìm thấy nếu biết các tín hiệu lỗi của lớp l+1. Đây là trường hợp cho lớp xuất, và bằng cách dùng phương trình 4.12 cho đến khi đến được lớp thứ l, và suy ra il ,ε . Bước kế tiếp để tìm vector gradient, tức là tìm đạo hàm của độ đo lỗi tương ứng mỗi tham số lý thuyết α. Khi α là một tham số thích nghi của nút i tại lớp l, chúng ta lấy (bằng cách dùng lại chuỗi luật) định nghĩa sau: αεαα ∂ ∂=∂ ∂ ∂ +∂=∂ +∂ il il il il pp ff x EE , , , . (4.14) Đạo hàm của toàn bộ độ đo lỗi E tương ứng α là: ∑ = ∂ +∂=∂ +∂ P p pEE 1 αα Dùng phương pháp giảm nhanh, công thức cập nhật cho một tham số lý thuyết α trở thành: αηα ∂ +∂−=∆ E (4.15) ααα ∆+=new (4.16) trong đó η là tốc độ học, được định nghĩa: η = ∑ ∂∂α α 2)( E k (4.17) trong đó k là kích thước bước. KH OA C NT T – Đ H KH TN Trang 54 4.2.Các hệ thống luật mờ trong phân loại tế bào 4.2.1.Luật chuyên gia Năm 1996, Voss đã đưa ra 4 luật cơ bản dùng cho phân lớp tế bào dựa vào thông tin tế bào học ở bảng 1.1. Các luật này được trình này tại bảng 4.2. Các chuyên gia sẽ dựa trên kiến thức và kinh nghiệm của bản thân để đề xuất ra các luật loại này. Luật Diện tích nhân Tỉ lệ diện tích Độ sáng bào tương Độ sáng nhân Dữ liệu xuất 1 nhỏ nhỏ sáng tối bình thường 2 lớn lớn sáng sáng loạn sản 3 lớn lớn sáng tối loạn sản 4 lớn lớn tối tối loạn sản Bảng 4-2: Luật chuyên gia 4.2.2.Luật chuyên gia biến đổi Luật chuyên gia chỉ có thể giải thích tốt khả năng suy luận của con người, chứ không mô tả tốt dữ liệu đã được số hoá, nên khi thực hiện hệ thống, tuỳ theo kết quả phân lớp của luật chuyên gia, chúng ta có thể bổ sung thêm dữ liệu huấn luyện cho những phần mà luật thiếu hoặc tạo luật chuyên gia biến đổi như bảng 4.2. Luật Diện tích nhân Tỉ lệ diện tích Độ sáng nhân Độ sáng bào tương Dữ liệu xuất 1 nhỏ không nhỏ sáng tối bình thường 2 nhỏ trung bình tối tối bình thường 3 nhỏ nhỏ tối sáng bình thường KH OA C NT T – Đ H KH TN Trang 55 4 lớn trung bình sáng sáng loạn sản 5 lớn không nhỏ sáng sáng loạn sản 6 lớn lớn sáng sáng loạn sản 7 lớn lớn tối tối loạn sản Bảng 4-3: Luật chuyên gia biến đổi 4.2.3.Luật trích dẫn từ hệ thống 4.2.4.Lựa chọn tập đặc trưng 4.2.4.1.Giới thiệu chung về lựa chọn đặc trưng Trong vấn đề mô hình hóa thế giới thực, việc một cấu trúc cần hàng chục thậm chí hàng trăm đặc trưng nhập vào không phải là hiếm. Một số lượng đặc trưng lớn như vậy không chỉ làm suy giảm tính rõ ràng của mô hình, mà còn làm tăng độ phức tạp của việc tính toán trong quá trình xây dựng mô hình. Vì vậy, việc lựa chọn đặc trưng rất cần thiết nhằm tìm ra độ ưu tiên cho mỗi đặc trưng ứng viên và sử dụng chúng một cách thích hợp. Mục đích của việc lựa chọn đặc trưng: ¾ Loại bỏ các đặc trưng nhiễu / không thích hợp ¾ Loại bỏ các đặc trưng có thể suy ra được từ các đặc trưng khác ¾ Tạo mô hình cơ bản ngắn gọn và rõ ràng hơn ¾ Giảm thời gian xây dựng mô hình 4.2.4.2.Thuật giải chọn đặc trưng Thuật giải chọn đặc trưng (simulated annealing) đơn giản gồm 6 bước: 1. Chọn một điểm khởi tạo ngẫu nhiên x. Đặt biến lặp k = 1 2. Xác định hàm đích: E = f(x) 3. Đặt xnew = x + ∆x, trong đó ∆x là thay đổi nhỏ ngẫu nhiên so với x KH OA C NT T – Đ H KH TN Trang 56 4. Tính giá trị mới của hàm đích: Enew = f(xnew) 5. Nếu Enew < E thì x = xnew và E = Enew 6. Tăng k = k + 1. Nếu k đạt giá trị cực đại K thì thuật toán ngừng. Ngược lại, quay lại bước 3. Trong đó, một giải pháp x là một tổ hợp của b đặc trưng chọn từ cơ sở dữ liệu. Hàm đích f(x) bằng RMSE của quá trình phân lớp dùng các đặc trưng trong x. Chiến lược lựa chọn điểm khởi tạo x là: 1. Cho s là danh sách các đặc trưng có sẵn (n = 20): s = [s1, s2, …, sn] 2. Cho x là danh sách b phần tử lựa chọn ngẫu nhiên từ s 3. Loại bỏ các phần tử thuộc x ra khỏi s Chiến lược lựa chọn ∆x và xnew là: 1. Chọn ∆x là phần tử lựa chọn ngẫu nhiên từ s, và loại bỏ ∆x khỏi s 2. Chọn ∆s là phần tử lựa chọn ngẫu nhiên từ x, và loại bỏ ∆s khỏi x 3. Cộng ∆x vào x để lấy xnew = x + ∆x 4. Cộng ∆s vào s 4.2.5.Rút trích luật 4.2.5.1.Giới thiệu chung về trích luật Việc mô hình hoá thế giới thực thường liên quan đến hàng chục (thậm chí hàng trăm) đặc trưng cho cấu trúc của mô hình. Bên cạnh việc lựa chọn tốt tập đặc trưng, thì việc trích luật từ hệ thống cũng rất đóng vai trò quan trọng vào hiệu quả của cấu trúc ANFIS. Thuật toán gom cụm loại trừ (subtractive clustering) được dùng để phát sinh số lượng luật và hệ thống luật cho cấu trúc ANFIS phân lớp tế bào. Từ một tập dữ liệu nhập và xuất, gom cụm loại trừ có thể trích ra một tập luật mô tả hành vi của dữ liệu cùng với số lượng luật và các hàm thành viên của chúng. Nó là một thuật toán học không giám sát, dựa trên độ đo mật độ các điểm dữ liệu trong không gian đặc trưng. KH OA C NT T – Đ H KH TN Trang 57 4.2.5.2.Thuật toán gom cụm loại trừ Xét tập gồm K điểm dữ liệu tượng trưng bởi các vectơ m chiều uk, k = 1, 2, …, K. Không mất tính tổng quát, giả sử các điểm dữ liệu chuẩn hoá. Khi mỗi điểm dữ liệu là một ứng viên cho một tâm nhóm, một độ đo mật độ tại điểm dữ liệu uk được định nghĩa: ( )∑= ⎟⎟⎠ ⎞ ⎜⎜⎝ ⎛ −−= K j a jk k r uu D 1 22/ exp (4.18) trong đó ra là một hằng số dương. Vì vậy, một điểm dữ liệu sẽ có giá trị mật độ cao nếu nó có nhiều điểm dữ liệu lân cận và chỉ những lân cận mờ trong bán kính ra góp phần vào độ đo mật độ. Sau khi tính độ đo mật độ cho mỗi điểm dữ liệu, điểm có mật độ cao nhất được chọn làm tâm nhóm đầu tiên. Đặt 1c u là điểm được chọn và 1c D là độ đo mật độ. Kế tiếp, độ đo mật độ cho mỗi điểm dữ liệu uk được sửa lại theo công thức: ( ) ⎟⎟⎠ ⎞ ⎜⎜⎝ ⎛ −−−= 2' 2/exp 1 1 b Ck Ckk r uu DDD (4.19) trong đó, rb là hằng số dương. Do đó, các điểm dữ liệu gần tâm nhóm đầu tiên 1cu sẽ giảm đáng kể độ đo mật độ, bằng cách ấy tạo ra các điểm không thể được chọn làm tâm kế tiếp. Hằng số rb định nghĩa một lân cận được giảm độ đo mật độ. Nó thường lớn hơn ra để ngăn các tâm nhóm đặt gần nhau: rb = 1.5 * ra. Sau khi độ đo mật độ của mỗi điểm được sửa lại, tâm nhóm thứ hai 2c u được chọn và tất cả các độ đo mật độ được cập nhật lại. Quá trình lặp lại cho đến khi không còn điểm dữ liệu tiềm năng nào, thông thường sử dụng chuẩn Dk’ < 0.15D1. 4.2.5.3.Trích luật Khi áp dụng gom cụm loại trừ vào tập dữ liệu nhập - xuất của một phân lớp, mỗi tâm nhóm tượng trưng cho một luật của phân lớp đó. Để phát sinh luật, mỗi tâm nhóm KH OA C NT T – Đ H KH TN Trang 58 được xem như tâm của các tham số giả thiết trong loại luật mờ singleton. Giả sử 1c u là tâm nhóm nằm trong phân lớp c1 thì ta sẽ có luật: Luật i: Nếu {u là 1c u } thì phân lớp là c1. Tương tự cho các luật nằm trong những phân lớp còn lại. Với phương pháp chọn đặc trưng và trích luật như vậy, chương trình rút ra được 2 hệ thống luật: 9 đặc trưng, 27 luật, 2 dữ liệu xuất và 9 đặc trưng, 34 luật, 7 dữ liệu xuất, tất cả được mô tả trong chương 5. KH OA C NT T – Đ H KH TN Trang 59 Chương 5: TỔNG KẾT 5.1.Chương trình 5.1.1.Công cụ sử dụng ¾ Môi trường lập trình: VC++.Net 2003 ¾ Dữ liệu: 500 ảnh tế bào cổ tử cung 5.1.2.Cấu trúc thư mục và tập tin Chương trình gồm 2 phần chính: huấn luyện và thử nghiệm (thư mục Learning), và phân lớp tế bào (thư mục Checking). Dữ liệu xuất của Learning chính là dữ liệu nhập (các tham số mạng thích nghi) của Checking. Sau đây là nội dung một số tập tin tham số của chương trình: Thư mục Learning: alldata.dat: gồm 500 dòng, mỗi dòng chứa 21 dữ liệu nhập tương ứng 21 đặc trưng. anfis.conf: gồm 6 dòng, chứa thông tin mô hình ANFIS ¾ Dòng 1: Số đặc trưng được chọn (n_in) ¾ Dòng 2: Số lượng hàm thành viên (n_mf) ¾ Dòng 3: Số lượng luật (n_rule) ¾ Dòng 4: Số lượng phân lớp (n_class) ¾ Dòng 5: Đường dẫn tập tin para.inp ¾ Dòng 6: Đường dẫn tập tin rule.inp KH OA C NT T – Đ H KH TN Trang 60 para.inp: chứa các tham số nhập vào cho mô hình ANFIS ¾ Gồm (n_in * n_mf) dòng, mỗi dòng chứa 3 tham số a, b, c của hàm thành viên ¾ Dòng thứ (n_in * n_mf + 1) chứa (n_rule) số, thể hiện dữ liệu xuất của từng luật para.fin: chứa các tham số của mô hình ANFIS ¾ Gồm (n_in * 4) dòng, mỗi dòng chứa 3 tham số a, b, c mới của hàm thành viên ¾ (n_rule) dòng kế tiếp lưu trữ tham số kết quả của mạng rule.inp: gồm (n_rule) dòng, mỗi dòng chứa (n_in) số trong khoảng từ 0 đến 3, thể hiện mức độ phụ thuộc của hàm thành viên. trainning.conf: gồm 2 dòng ¾ Dòng 1: Số lượng dữ liệu huấn luyện ¾ Dòng 2: gồm 20 con số 1 hoặc 0 tương ứng 20 đặc trưng được chọn hoặc không. Thư mục Checking: alldata.dat, rule.inp: Giống phần Learning anfis.conf: gồm 5 dòng, chứa thông tin mô hình ANFIS ¾ Dòng 1: Số đặc trưng được chọn (n_in) ¾ Dòng 2: Số lượng hàm thành viên (n_mf) ¾ Dòng 3: Số lượng luật (n_rule) ¾ Dòng 4: Đường dẫn tập tin para.inp ¾ Dòng 5: Đường dẫn tập tin rule.inp mydata_f.dat: chứa các vectơ dữ liệu gồm 21 đặc trưng KH OA C NT T – Đ H KH TN Trang 61 mydata_n.dat: chứa tên tập tin ảnh tương ứng với dữ liệu ở mydata_f.dat. para.inp: chính là para.fin của learning 5.1.3.Hướng dẫn sử dụng chương trình Gồm 2 chương trình: Learning và Checking. Giao diện của Learning: Hình 5-1: Giao diện màn hình huấn luyện Các bước thực hiện huấn luyện: ¾ Bước 1: Gõ đường dẫn thư mục chứa các tập tin tham số vào text box Data Path (./Params/ là đường dẫn mặc định) ¾ Bước 2: Nhập vào số lượng chu kì huấn luyện tại text box Epochs ¾ Bước 3: Nhấn nút Start để bắt đầu huấn luyện ¾ Bước 4: Nếu muốn huấn luyện tiếp, lặp lại bước 2 Ngược lại, nhấn nút Exit để thoát khỏi chương trình. thông số mô hình kết quả huấn luyện KH OA C NT T – Đ H KH TN Trang 62 Sau khi thực hiện, learning sẽ cho các thông số kết quả của huấn luyện và thời gian thực hiện: Hình 5-2: Giao diện khi huấn luyện xong Hình 5.2 thể hiện kết quả huấn luyện của mô hình ANFIS gồm 9 đặc trưng, mỗi đặc trưng có 4 biến ngôn ngữ, và hệ thống 31 luật. Dữ liệu huấn luyện 250 mẫu, dữ liệu kiểm tra 250 mẫu. KH OA C NT T – Đ H KH TN Trang 63 Giao diện của Checking: Hình 5-3: Giao diện chính của Checking Các bước thực hiện phân lớp tế bào: ¾ Bước 1: Load ảnh tế bào bằng cách bấm nút Load Image Hình 5-4: Load ảnh đặc trưng ảnh KH OA C NT T – Đ H KH TN Trang 64 ¾ Bước 2: Phân đoạn ảnh bằng cách bấm nút Segmentation, màn hình phân đoạn sẽ xuất hiện: Hình 5-5: Phân đoạn ảnh Để phân đoạn ảnh, cần phải nhấn Boudary để chọn tế bào cần tính đặc trưng (có thể không chọn, nhưng việc tính đặc trưng tế bào ở bước sau sẽ không chính xác), sau đó lần lượt đánh dấu các phần ảnh cần phân đoạn thành nhân, bào tương và nền. Bấm nút Segment để phân đoạn ảnh, ta thu được ảnh đã phân đoạn chưa khử nhiễu. Để loại bỏ nhiễu, chọn nút Remove Small với bán kính xóa nhiễu nhập tại textbox Radius (thông thường là 12) tương ứng với nhân, bào tương và nền. Khi đã hài lòng về kết quả phân đoạn, bấm Ok để tiếp tục thao tác chương trình. Ngược lại, nếu muốn phân đoạn ảnh lại từ đầu, nhấn Reset. KH OA C NT T – Đ H KH TN Trang 65 Hình 5-6: Ảnh đã phân đoạn Hình 5-7: Ảnh đã phân đoạn sau khi loại bỏ nhiễu ¾ Bước 3: Thực hiện tính đặc trưng tế bào bằng cách nhấn nút Calc Feas ¾ Bước 4: Phân lớp tế bào bằng cách nhấn nút Checking ¾ Bước 5: Lưu vào cơ sở dữ liệu bằng cách nhấn nút Update Features ¾ Bước 6: Nếu muốn tiếp tục, quay lại bước 1 Ngược lại, nhấn nút Exit để thoát khỏi chương trình KH OA C NT T – Đ H KH TN Trang 66 Sau khi thực hiện các bước như trên, hệ thống sẽ cho kết quả chẩn đoán tế bào như sau: Hình 5-8: Giao diện Checking sau khi chẩn đoán Theo kết quả như vậy, chúng ta có thể xác định được tế bào này là tế bào bình thường, không bị nghi ngờ tiền ung thư. 5.2.Mức độ thực hiện chương trình 5.2.1.Luật chuyên gia Luật chuyên gia theo bảng 4.1 được số hóa thành bảng sau: Luật #1 #4 #5 #3 2 dữ liệu xuất 7 dữ liệu xuất 1 0 3 0 0 1 1 2 3 0 0 3 2 5 3 3 3 0 3 2 6 4 3 3 3 3 2 7 Bảng 5-1: Luật chuyên gia số hóa KH OA C NT T – Đ H KH TN Trang 67 Mức độ huấn luyện mạng tốt nhất: Tiêu chuẩn 2 dữ liệu xuất (58 chu kì huấn luyện) 7 dữ liệu xuất (124 chu kì huấn luyện) RMSE 0.300950 0.543341 FN% 2.00% 63.16% FP% 28.28% 12.72% PP% 84.00% 56.00% NP% 95.95% 75.88% TRN% 87.20% 71.60% Sensitivity 98.00% 36.84% Specificity 71.72% 87.28% Time trainning 2(s) 5(s) Bảng 5-2: Mức độ thực hiện luật chuyên gia Mức độ kiểm nghiệm tương ứng số chu kì huấn luyện, trên 250 mẫu khác: Tiêu chuẩn 2 dữ liệu xuất 7 dữ liệu xuất RMSE 0.360433 0.7181176 CHK% 85.60% 70.00% Bảng 5-3: Mức độ kiểm nghiệm của luật chuyên gia Nhận xét: Bộ luật chuyên gia với 2 dữ liệu xuất phân loại tốt với những tế bào được chẩn đoán là âm tính. Với 7 dữ liệu xuất, luật chuyên gia thực hiện kém đi rất nhiều. Lý do chính là vì luật chuyên gia không mô tả tốt được dữ liệu nhập - xuất mà chỉ phụ thuộc vào ý kiến chủ quan của con người. Do đó, cần phải thực hiện thêm nhiều bộ dữ liệu huấn luyện để tăng khả năng thực hiện của mô hình. KH OA C NT T – Đ H KH TN Trang 68 5.2.2.Luật chuyên gia biến đổi Luật chuyên gia biến đổi theo bảng 4.2 được số hóa như sau: Luật #1 #3 #4 #5 2 dữ liệu xuất 7 dữ liệu xuất 1 0 1 0 3 1 1 2 0 2 3 3 1 2 3 0 0 3 0 1 3 4 3 2 0 0 2 5 5 3 1 0 0 2 6 6 3 3 0 0 2 7 7 3 3 3 3 2 7 Bảng 5-4: Luật chuyên gia biến đổi số hóa Mức độ huấn luyện mạng tốt nhất: Tiêu chuẩn 2 dữ liệu xuất (123 chu kì huấn luyện) 7 dữ liệu xuất (89 chu kì huấn luyện) RMSE 0.299719 0.772719 FN% 10.23% 76.74% FP% 23.29% 19.42% NP% 75.68% 83.42% PP% 90.29% 20.00% TRN% 85.60% 70.40% Sensitivity 89.77% 23.26% Specificity 76.71% 80.58% Time trainning 6(s) 5(s) Bảng 5-5: Mức độ thực hiện luật chuyển gia biến đổi KH OA C NT T – Đ H KH TN Trang 69 Mức độ kiểm nghiệm tương ứng số chu kì huấn luyện, trên 250 mẫu khác: Tiêu chuẩn 2 dữ liệu xuất 7 dữ liệu xuất RMSE 0.381556 3.467845 CHK% 79.60% 68.00% Bảng 5-6: Mức độ kiểm nghiệm của luật chuyên gia biến đổi Nhận xét: Luật chuyên gia biến đổi tuy làm tăng khả năng phân loại tế bào chẩn đoán dương tính, nhưng đồng thời lại làm giảm khả năng nhận biết các tế bào âm tính, bởi vì luật này thay đổi dựa trên những quan sát thông thường của con người nên vẫn không mô tả tốt dữ liệu, nó chỉ có thể khắc phục được một số sai sót về một phương diện nào đó mà thôi. 5.2.3.Luật trích từ hệ thống Sử dụng thuật giải subtractive clustering, 9 đặc trưng sau là tập đặc trưng tốt dùng cho phân lớp tế bào: #2, #4, #6, #9, #10, #11, #14, #16, #17. Bảng sau mô tả các luật trích từ hệ thống, sử dụng thuật toán subtractive clustering: Luật #2 #4 #6 #9 #10 #11 #14 #16 #17 Dữ liệu xuất 1 3 0 0 1 3 3 0 0 0 1 2 0 3 0 1 0 0 0 3 0 1 3 1 2 1 2 1 0 2 3 1 1 4 0 0 1 2 0 0 0 1 1 1 5 0 0 0 1 0 0 0 1 0 1 KH OA C NT T – Đ H KH TN Trang 70 6 2 0 1 1 1 1 1 0 2 1 7 2 0 0 1 1 1 0 1 1 1 8 2 0 1 0 2 2 3 1 2 1 9 2 0 1 0 2 2 3 1 3 1 10 3 0 1 3 3 3 0 0 0 1 11 3 1 0 2 3 3 0 1 0 1 12 3 0 1 1 3 3 0 2 1 1 13 3 3 2 2 3 3 0 1 1 1 14 3 2 1 3 3 3 1 1 1 1 15 3 0 0 2 3 3 0 0 0 1 16 3 3 1 2 3 3 0 0 1 1 17 2 2 2 1 2 2 1 2 2 2 18 2 1 2 2 2 2 1 0 3 2 19 2 1 2 2 2 1 2 0 2 2 20 2 3 2 0 2 3 3 1 2 2 21 3 0 0 3 3 3 0 2 0 2 22 3 0 0 3 3 3 0 3 0 2 23 3 1 0 0 3 3 0 0 0 2 24 3 3 2 2 3 2 2 0 2 2 25 1 1 3 1 2 1 3 0 3 2 26 2 3 2 0 2 1 3 3 3 2 27 2 3 1 2 2 1 2 2 1 2 Bảng 5-7: Luật trích từ hệ thống với 2 dữ liệu xuất KH OA C NT T – Đ H KH TN Trang 71 Luật #2 #4 #6 #9 #10 #11 #14 #16 #17 Dữ liệu xuất 1 0 1 0 0 0 0 0 3 0 1 2 0 3 0 0 0 0 1 3 0 1 3 0 2 1 2 0 0 1 3 0 1 4 1 3 1 1 0 0 1 3 1 1 5 0 0 0 2 0 0 0 3 0 2 6 1 0 1 2 1 0 0 0 0 2 7 2 0 0 1 1 2 1 1 1 2 8 2 0 1 2 2 1 1 1 1 2 9 3 0 0 1 3 2 0 2 0 3 10 3 1 0 0 3 2 0 1 0 3 11 3 1 1 3 3 3 0 2 0 3 12 3 2 1 3 3 3 1 0 1 3 13 3 0 0 1 3 3 0 0 0 3 14 3 1 0 3 3 3 0 1 0 3 15 3 3 1 2 3 3 0 0 1 3 16 3 0 0 3 3 2 0 0 0 4 17 3 0 0 3 3 3 0 2 0 4 18 3 0 0 2 3 3 0 3 0 4 19 3 0 0 2 3 3 0 0 0 4 20 3 0 0 3 3 3 0 3 0 4 21 3 0 0 3 3 3 0 2 0 4 22 3 1 0 0 3 3 0 0 0 4 23 2 2 3 2 2 3 3 1 3 5 24 2 1 3 0 3 3 3 2 3 5 25 3 3 1 0 2 3 3 0 1 5 KH OA C NT T – Đ H KH TN Trang 72 26 3 3 3 3 3 3 3 2 3 5 27 3 3 3 2 3 3 2 1 3 5 28 2 2 2 0 2 2 2 1 3 6 29 2 3 3 3 2 2 2 3 3 6 30 2 3 3 3 2 2 2 2 3 6 31 3 3 3 2 3 3 3 1 3 6 32 2 1 2 2 2 1 2 0 2 7 33 2 3 1 0 1 1 3 3 2 7 34 2 3 1 1 1 3 3 1 2 7 Bảng 5-8: Luật trích từ hệ thống với 7 dữ liệu xuất Mức độ huấn luyện mạng tốt nhất: Tiêu chuẩn 2 dữ liệu xuất (218 chu kì huấn luyện) 7 dữ liệu xuất (76 chu kì huấn luyện) RMSE 0.148221 0.462798 FN% 0.58% 34.00% FP% 3.95% 8.54% NP% 98.65% 91.46% PP% 98.29% 66.00% TRN% 98.00% 86.00% Sensitivity 99.42% 66.00% Specificity 96.05% 91.46% Time trainning 98(s) 65(s) Bảng 5-9: Mức độ thực hiện mạng của luật trích từ hệ thống KH OA C NT T – Đ H KH TN Trang 73 Mức độ kiểm nghiệm tương ứng số chu kì huấn luyện, trên 250 mẫu khác: Tiêu chuẩn 2 dữ liệu xuất 7 dữ liệu xuất RMSE 0.266052 3.083827 CHK% 92.40% 74.40% Bảng 5-10: Mức độ kiểm nghiệm của luật trích từ hệ thống Nhận xét: Luật trích từ hệ thống mô tả rất tốt dữ liệu nhập - xuất. Do đó, mô hình ANFIS sử dụng hệ thống luật này cho một kết quả tốt nhất. Khả năng phân loại tế bào dương tính và âm tính đều tăng lên rõ rệt. Những trường hợp chẩn đoán sai giảm đáng kể. Mức độ huấn luyện và kiểm nghiệm cũng tăng mạnh. 0 20 40 60 80 100 (%) FN% FP% NP% PP% Biểu đồ so sánh khả năng phân loại tế bào Luật chuyên gia Luật chuyên gia biến đổi Luật trích từ hệ thống Hình 5-9: So sánh khả năng phân loại tế bào KH OA C NT T – Đ H KH TN Trang 74 0 20 40 60 80 100 (%) 2 dữ liệu xuất 7 dữ liệu xuất Biểu đồ thể hiện mức độ huấn luyện mạng (TRN%) Luật chuyên gia Luật chuyên gia biến đổi Luật trích từ hệ thống Hình 5-10: So sánh mức độ huấn luyện mạng 0 20 40 60 80 100 (%) 2 dữ liệu xuất 7 dữ liệu xuất Biểu đồ thể hiện mức độ kiểm nghiệm mạng (CHK%) Luật chuyên gia Luật chuyên gia biến đổi Luật trích từ hệ thống Hình 5-11: So sánh mức độ kiểm nghiệm mạng KH OA C NT T – Đ H KH TN Trang 75 5.3.Đánh giá đề tài 5.3.1.Ưu điểm ¾ Tốc độ học và tốc độ hội tụ của mô hình ANFIS rất nhanh ¾ Thử nghiệm nhiều hệ thống luật để đưa ra được kết quả phân lớp tốt nhất 5.3.2.Khuyết điểm ¾ Chưa thực hiện phân đoạn ảnh tự động vì độ biến thiên màu quá phức tạp ¾ Chưa thử nghiệm trên thủ tục học lai theo mẫu (học trực tuyến) 5.4. ướng phát triển cho đề tài ¾ Theo đề tài muốn xác định tình trạng của mẫu xét nghiệm Pap, vẫn còn một số khâu bán tự động (phân đoạn ảnh,..). Do vậy định hướng phát triển đầu tiên của đề tài sẽ là hoàn chỉnh quy trình chẩn đoán ung thư cổ tử cung hoàn toàn tự động. ¾ Tích hợp thuật giải di truyền vào thủ tục học lai nhằm tận dụng khả năng chọn lọc của GA để chọn được bộ tham số thích nghi tốt nhất, đồng thời có thể tận dụng tính thích nghi của GA để phát sinh bộ tham số cho mạng. ¾ Nghiên cứu những thuật toán tối ưu hơn để sử dụng, rút gọn chi phí tính toán cũng như thời gian thực hiện. ¾ Đưa vào thử nghiệm thực tế để có thể hoàn chỉnh mô hình phân lớp tế bào cổ tử cung giai đoạn tiền ung thư. KH OA C NT T – Đ H KH TN Trang 76 PHỤ LỤC PHỤ LỤC A: MỘT SỐ KIẾN THỨC Y KHOA CƠ BẢN Ung thư và ung thư cổ tử cung Ung thư là bệnh xuất hiện khi tế bào trở nên bất thường và việc phân chia không thể kiểm soát được hoặc không theo trật tự. Giống như các bộ phận khác của cơ thể, cổ tử cung bao gồm nhiều loại tế bào khác nhau. Thông thường, tế bào phân chia thành nhiều tế bào hơn khi cơ thể có nhu cầu. Quá trình diễn ra theo trật tự này giữ cho cơ thể chúng ta khoẻ mạnh. Nếu tế bào cứ tiếp tục phân chia khi cơ thể không cần tế bào mới, một khối mô được hình thành. Khối mô thừa này được gọi là khối u, có thể lành tính hoặc ác tính. U lành tính không phải là ung thư. Chúng có thể dễ dàng được loại bỏ và trong hầu hết các trường hợp không xuất hiện trở lại. Ðiều quan trọng nhất là tế bào ở khối u lành tính không lan sang các bộ phận khác của cơ thể. Khối u lành tính không đe doạ đến tính mạng. Ngược lại, khối u ác tính chính là ung thư. Tế bào ung thư có thể xâm lấn và phá huỷ các mô, các cơ quan gần khối u. Ngoài ra, tế bào ung thư còn có thể tách khỏi khối u ác tính và đi vào hệ thống bạch huyết hoặc là mạch máu. Ðây là cách thức mà ung thư cổ tử cung có thể lan sang các bộ phận khác của cơ thể. Sự lan đi này được gọi là sự di căn. Giống như các loại ung thư khác, ung thư cổ tử cung được gọi tên theo bộ phận của cơ thể mà ung thư xuất hiện. Ung thư cổ tử cung còn được gọi tên theo loại tế bào mà nó bắt đầu phát triển. Hầu hết các loại ung thư cổ tử cung là ung thư biểu mô tế bào gai. Ðiều kiện tiền ung thư và ung thư cổ tử cung Tế bào trên bề mặt cổ tử cung đôi khi trở nên bất thường nhưng vẫn chưa phải là ung thư. Các nhà khoa học tin rằng một số thay đổi bất thường trong tế bào cổ tử cung KH OA C NT T – Đ H KH TN Trang 77 là bước đầu tiên trong một chuỗi thay đổi chậm có thể dẫn tới ung thư nhiều năm sau đó. Nói cách khác, đó là một số thay đổi bất thường mang tính chất tiền ung thư; chúng có thể trở thành ung thư theo thời gian. Nhiều năm qua, các bác sĩ đã sử dụng những thuật ngữ khác nhau để nói tới những thay đổi bất thường ở những tế bào trên bề mặt cổ tử cung. Một thuật ngữ được sử dụng hiện nay là tổn thương trong biểu mô tế bào gai (SIL). Những thay đổi ở các tế bào gai này có thể phân chia thành hai loại: ¾ SIL mức độ thấp đề cập tới những thay đổi sớm về kích thước, hình dáng, và số lượng tế bào tạo nên bề mặt cổ tử cung. Một số tổn thương mức độ thấp có thể tự biến mất hoặc có thể trở nên bất thường hơn, tạo nên tổn thương mức độ cao. Tổn thương tiền ung thư mức độ thấp có thể gọi là hiện tượng loạn sản nhẹ (CIN 1). Những thay đổi ban đầu như vậy thường xảy ra nhất ở những phụ nữ tuổi từ 25-35 nhưng cũng có thể xuất hiện ở những nhóm tuổi khác. ¾ SIL mức độ cao có nghĩa là có một số lượng lớn tế bào có dấu hiệu tiền ung thư; chúng trông rất khác các tế bào thường. Giống như SIL mức độ thấp, những thay đổi tiền ung thư này chỉ liên quan tới những tế bào trên bề mặt cổ tử cung. Những tế bào này sẽ không trở thành ung thư và không xâm lấn vào những lớp tế bào sâu hơn của cổ tử cung trong nhiều tháng, có thể trong nhiều năm. Tổn thương mức độ cao còn được gọi là hiện tượng loạn sản mức độ vừa hoặc nặng (CIN 2 hoặc 3). Chúng thường xuất hiện nhiều nhất ở những phụ nữ trong độ tuổi từ 30 đến 40 nhưng cũng có thể xảy ra ở những độ tuổi khác. ¾ Nếu những tế bào bất thường lan sâu hơn vào cổ tử cung hoặc tới các mô khác hoặc các cơ quan khác, bệnh được gọi là ung thư cổ tử cung, hay ung thư cổ tử cung thể xâm lấn. Nó thường xảy ra nhất ở những phụ nữ ở độ tuổi ngoài 40. KH OA C NT T – Đ H KH TN Trang 78 Phát hiện sớm Nếu tất cả phụ nữ được thăm khám vùng chậu và làm xét nghiệm Pap định kỳ thì hầu hết các điều kiện tiền ung thư sẽ được phát hiện và được điều trị trước khi ung thư xuất hiện. Hầu hết các loại ung thư thể xâm lấn có thể phòng ngừa được bằng cách phát hiện bệnh ở giai đoạn sớm và có thể chữa khỏi. Xét nghiệm Pap là một xét nghiệm đơn giản, không đau, dùng để phát hiện những tế bào bất thường ở trong và xung quanh cổ tử cung. Nó có thể tiến hành phòng mạch của bác sĩ hoặc trong bệnh viện. Phụ nữ nên đi khám định kỳ, bao gồm khám vùng chậu và làm nghiệm pháp Pap, nếu họ ở độ tuổi hoặc đã ở độ tuổi có hoạt động tình dục hay nếu họ >18 tuổi. Những người có nguy cơ ung thư cổ tử cung tăng cao cần đặc biệt tuân theo lời khuyên của bác sĩ về việc khám định kỳ. Những phụ nữ đã được cắt tử cung (phẫu thuật cắt tử cung và cả cổ tử cung) nên hỏi ý kiến bác sĩ về việc khám vùng chậu và làm xét nghiệm Pap. Triệu chứng Những thay đổi tiền ung thư ở cổ tử cung thường không gây đau đớn. Thực tế là chúng thường không gây ra bất kỳ triệu chứng nào và sẽ không được phát hiện nếu người phụ nữ không đi khám và làm nghiệm pháp Pap. Triệu chứng thường không xuất hiện cho đến khi tế bào bất thường ở cổ tử cung trở thành ung thư và xâm lấn vào các mô bên cạnh. Khi điều này xảy ra thì hiện tượng thường gặp nhất là ra máu một cách bất thường hoặc ra nhiều khí hư. Tuy nhiên, những triệu chứng này có thể do ung thư hoặc các bệnh lý khác gây ra, chỉ có bác sĩ mới có thể khẳng định được. Ðiều quan trọng là người phụ nữ phải đến khám bác sĩ ngay khi có bất kỳ triệu chứng bất thường nào. Những đối tượng của bệnh ung thư cổ tử cung Lứa tuổi mắc ung thư cổ tử cung thường gặp là lứa tuổi trung niên, khoảng từ 48 đến 52. Phụ nữ có các yếu tố sau đây được coi là những nguy cơ có khả năng dễ mắc bệnh: KH OA C NT T – Đ H KH TN Trang 79 ¾ Những người phải sống trong điều kiện kinh tế - xã hội thấp kém: nghèo túng, sống nơi chật chội, ô nhiễm, thiếu vệ sinh; những người ít hiểu biết, trình độ văn hóa thấp. ¾ Những phụ nữ có quan hệ tình dục sớm. ¾ Những người có quan hệ tình dục với nhiều bạn tình hoặc người chồng có nhiều bạn tình. ¾ Những người sinh đẻ nhiều lần. KH OA C NT T – Đ H KH TN Trang 80 PHỤ LỤC B: PHÂN ĐOẠN ẢNH Giới thiệu Phân đoạn ảnh là việc từ một ảnh lấy ra những đối tượng cần quan tâm để phục vụ cho những bước phân tích tiếp theo. Nó có thể được xem như một quá trình phân loại điểm ảnh, tức là phân biệt giữa điểm ảnh nền và điểm ảnh đối tượng. Ở đây, quá trình phân đoạn ảnh là cơ sở để đánh giá các tế bào, bao gồm việc nhận biết nhân, bào tương và nền. Đây là quá trình mang tính chủ quan cao nhưng cũng rất quan trọng, vì nó giúp cho việc trích đặc trưng từ ảnh được thực hiện dễ dàng, đồng thời nó cũng góp phần quan trọng cho việc thực hiện chính xác hệ thống tự động. Có rất nhiều phương pháp phân đoạn ảnh, chẳng hạn như phân ngưỡng đối tượng động hoặc tĩnh, xác định cạnh, tăng vùng… Hầu hết các thuật toán phân đoạn ảnh thông thường này đều có một khuyết điểm chung là không xử lý tốt cho ảnh có độ tương phản màu sắc giữa các đối tượng thấp. Do đặc tính ảnh tế bào cổ tử cung rất phức tạp, độ sáng biến thiên không đồng đều, nên thuật toán láng giềng gần nhất sẽ được sử dụng thay cho các thuật toán xử lý ảnh thông thường khác. Thuật toán láng giềng gần nhất Thuật toán láng giềng gần nhất gồm 5 bước: 1. Tính khoảng cách Euclide Di từ z đến từng phần tử xi, với i = 1, …, n 2. Tạo ma trận ⎥⎥ ⎥ ⎦ ⎤ ⎢⎢ ⎢ ⎣ ⎡ = nn i cD cD A ...... 1 và sắp xếp các hàng trong A theo thứ tự tăng của cột 1. Sau khi sắp xếp, A trở thành: KH OA C NT T – Đ H KH TN Trang 81 ⎥⎥ ⎥ ⎦ ⎤ ⎢⎢ ⎢ ⎣ ⎡ = 2,1, 2,11,1 1 ...... nn aa aa A trong đó a1,1 ≤ a2,1 ≤ … ≤ an,1 là các khoảng cách có thứ tự tăng, và ai,2 là phân lớp tương ứng của mỗi hàng. 3. cho bj = 0, j = 1, …, C, trong đó C là số nhóm được mô tả trong ci. 4. Lặp lại bước 4 với i = 1, …, k, tăng b(ai,2) với khoảng cách trọng hoá: ( ) ( ) ⎥⎥⎦ ⎤ ⎢⎢⎣ ⎡ −+= ki i ii a a abab , 1, 2,2, 1 5. Ấn định điểm dữ liệu z vào nhóm j sao cho ( ) ( ) Cllbjb ,...,1, =∀≤ Các bước thực hiện phân đoạn ảnh (xem phần hướng dẫn sử dụng) KH OA C NT T – Đ H KH TN Trang 82 PHỤ LỤC C: PHƯƠNG PHÁP LỌC KALMAN Giới thiệu Lý thuyết thống kê LSE được trình bày bởi Adrien – M. Legen (1806) và Karl F. Gauss (1809). Ý tưởng LSE cơ bản chính là một phương pháp toán dùng để chuẩn hoá dữ liệu nhập bằng cách sử dụng một tập các trọng số tối ưu. Kết quả của LSE được ứng dụng rất nhiều trong lĩnh vực tự động hoá. Tuy nhiên, để thực hiện một nguyên lý đơn giản đôi khi lại cần hàng loạt những phép tính phức tạp. Năm 1960, Rudolf E. Kalman đã đưa ra một phương pháp giải quyết tính toán cho LSE gọi là bộ lọc Kalman. Bộ lọc Kalman là một công cụ toán học mạnh dùng cho việc mô phỏng hệ thống thế giới thực. Cơ sở toán học của bộ lọc Kalman Phương trình độ đo tuyến tính hoá (phương trình quan sát) thể hiện cách mà vectơ độ đo yt gồm n phần tử phụ thuộc vào vectơ trạng thái st gồm m phần tử và vectơ lỗi et gồm n phần tử tại thời điểm t: tttt esHy += , (1) với t = 1, 2… và s0 cho trước và Ht là ma trận Jacobian. Phương trình hệ thống tuyến tính hoá (phương trình trạng thái) mô tả sự tiến triển theo thời gian của toàn hệ thống tại thời điểm t: tttttt auBsAs ++= −− 11 , (2) với t = 1, 2,… và s0 cho trước, At là ma trận chuyển tiếp trạng thái, Bt là ma trận gia lượng điều khiển. Phương trình thể hiện cách mà vectơ trạng thái hiện tại st của toàn hệ thống phát triển từ trạng thái st-1 trước đó khi nó chịu ảnh hưởng từ sự cưỡng bức điều khiển ut-1 và các nhiễu ngẫu nhiên at. Khi lỗi độ đo et và nhiễu hệ thống at hoặc tự động hoặc tương quan chéo, chúng không tương quan với s0 và hiệp phương sai là: KH OA C NT T – Đ H KH TN Trang 83 ( ) ( ) ( ) ( )⎪⎭ ⎪⎬ ⎫ == == ' ' tttt tttt aaEaCovQ eeEeCovR (3) thì phép đệ qui tiến Kalman từ phương trình (4) đến (7) cho ước lượng không lệch tuyến tính tốt nhất tsˆ của trạng thái st hiện tại như sau: ( )tttttt sHyKss ~~ˆ −+= (4) trong đó ts~ được dự đoán bằng phương trình trạng thái (2) như sau: 11ˆ~ −− += ttttt uBsAs (5) trong đó, các ma trận hiệp phương sai lỗi và ước lượng không lệch tuyến tính tốt nhất được cho: ( ) ( )( ){ } ( ) ( )( ){ } ⎪⎭ ⎪⎬ ⎫ −=−−=−= +=−−=−= − ttttttttttt ttttttttttt PHKPssssEssCovP QAPAssssEssCovP ~~ˆˆˆˆ ˆ~~~~ ' ' 1 ' (6) trong đó ma trận gia lượng Kalman Kt với t = 1, 2,… được tính là: ( ) 1'' ~~ −+= ttttttt RHPHHPK (7) Các phép đệ qui từ (4) đến (7) thường được khởi tạo ( )0ˆ 00 ≅= Ess và 0ˆP = ( ) ( )000ˆ sCovssCov =− . KH OA C NT T – Đ H KH TN Trang 84 TÀI LIỆU THAM KHẢO [1] António Dourado, Rui Pedro Paiva, “Structure and Parameter Learning of Neuro – Fuzzy Systems: a methodology and a comparative study”, Dept. of Informatics Engineering, Pólo II of University of Coimbra, P 3030 Coimbra Portugal, Journal of Intelligent and Fuzzy Systems, IFS 01.383.06. [2] Antti A.I.Lange, “Statictical calibration of observing systems”, the University of Helsinki, the Faculty of Social Science, 1999. [3] Erik Martin, “Pap – Smear classification”, Technical University of Denmark (DTU), Dept. of Automation, Bldg 326, 2800 Lyngby, Denmark, 2003. [4] Gary Bishop, Grep Welch, “An introduction to the Kalman filter”, University of North Carolina at Chapel Hill, Dept. of Computer Science, Chapel Hill. [5] Hoàng Kiếm, Đỗ Quang Dương, “Kết hợp mạng thần kinh, logic mờ và thuật toán di truyền giải quyết bài toán tối ưu hoá công thức và quy trình”, Luận văn thạc sĩ, Đại học Quốc gia TP. HCM, Đại học Khoa học Tự nhiên, Khoa Công nghệ thông tin, 2002. [6] Jang Jantzen, “Neuronfuzzy Modelling”, Technical University of Denmark (DTU), Dept. of Automation, Bldg 326, DK-2800 Lyngby, Denmark, 1998. [7] Jens Byriel, “Neuron – Fuzzy Classification of Cells in Cervical Smears”, Mast

Các file đính kèm theo tài liệu này:

  • pdfUnlock-0012185.pdf
Tài liệu liên quan