Đề tài Xây dựng mô hình mở rộng truy vấn trong truy xuất thông tin văn bản

Tài liệu Đề tài Xây dựng mô hình mở rộng truy vấn trong truy xuất thông tin văn bản: ĐẠI HỌC QUỐC GIA TP. HCM TRƯỜNG ĐẠI HỌC BÁCH KHOA TP.HCM NGUYỄN CHÁNH THÀNH XÂY DỰNG MƠ HÌNH MỞ RỘNG TRUY VẤN TRONG TRUY XUẤT THƠNG TIN VĂN BẢN LUẬN ÁN TIẾN SĨ KỸ THUẬT TP.HỒ CHÍ MINH – 2010 ĐẠI HỌC QUỐC GIA TP. HCM TRƯỜNG ĐẠI HỌC BÁCH KHOA TP.HCM NGUYỄN CHÁNH THÀNH XÂY DỰNG MƠ HÌNH MỞ RỘNG TRUY VẤN TRONG TRUY XUẤT THƠNG TIN VĂN BẢN Chuyên ngành: KHOA HỌC MÁY TÍNH Mã số: 62.48.01.01 LUẬN ÁN TIẾN SĨ KỸ THUẬT NGƯỜI HƯỚNG DẪN KHOA HỌC PGS.TS. PHAN THỊ TƯƠI TP.HỒ CHÍ MINH – 2010 LỜI CAM ĐOAN Tơi cam đoan rằng nội dung của luận án này là kết quả nghiên cứu của bản thân. Tất cả những tham khảo từ các nghiên cứu liên quan điều được nêu nguồn gốc một cách rõ ràng từ danh mục tài liệu tham khảo trong luận án. Những đĩng gĩp trong luận án là kết quả nghiên cứu của tác giả đã được cơng bố trong các bài báo khoa học trong phần “Các cơng trình khoa học” của luận án và chưa được cơng bố trong bất kỳ cơng trình khoa học nào khác. Tác giả luận án ...

pdf223 trang | Chia sẻ: hunglv | Lượt xem: 1378 | Lượt tải: 1download
Bạn đang xem trước 20 trang mẫu tài liệu Đề tài Xây dựng mô hình mở rộng truy vấn trong truy xuất thông tin văn bản, để tải tài liệu gốc về máy bạn click vào nút DOWNLOAD ở trên
ĐẠI HỌC QUỐC GIA TP. HCM TRƯỜNG ĐẠI HỌC BÁCH KHOA TP.HCM NGUYỄN CHÁNH THÀNH XÂY DỰNG MƠ HÌNH MỞ RỘNG TRUY VẤN TRONG TRUY XUẤT THƠNG TIN VĂN BẢN LUẬN ÁN TIẾN SĨ KỸ THUẬT TP.HỒ CHÍ MINH – 2010 ĐẠI HỌC QUỐC GIA TP. HCM TRƯỜNG ĐẠI HỌC BÁCH KHOA TP.HCM NGUYỄN CHÁNH THÀNH XÂY DỰNG MƠ HÌNH MỞ RỘNG TRUY VẤN TRONG TRUY XUẤT THƠNG TIN VĂN BẢN Chuyên ngành: KHOA HỌC MÁY TÍNH Mã số: 62.48.01.01 LUẬN ÁN TIẾN SĨ KỸ THUẬT NGƯỜI HƯỚNG DẪN KHOA HỌC PGS.TS. PHAN THỊ TƯƠI TP.HỒ CHÍ MINH – 2010 LỜI CAM ĐOAN Tơi cam đoan rằng nội dung của luận án này là kết quả nghiên cứu của bản thân. Tất cả những tham khảo từ các nghiên cứu liên quan điều được nêu nguồn gốc một cách rõ ràng từ danh mục tài liệu tham khảo trong luận án. Những đĩng gĩp trong luận án là kết quả nghiên cứu của tác giả đã được cơng bố trong các bài báo khoa học trong phần “Các cơng trình khoa học” của luận án và chưa được cơng bố trong bất kỳ cơng trình khoa học nào khác. Tác giả luận án Nguyễn Chánh Thành LỜI CẢM ƠN Trong quá trình hồn thành luận án này, tơi đã được các thầy cơ nơi cơ sở đào tạo giúp đỡ tận tình, cơ quan nơi cơng tác tạo mọi điều kiện thuận lợi và bạn bè cùng gia đình thường xuyên động viên khích lệ. Luận án này khơng thể hồn thành tốt nếu khơng cĩ sự tận tình hướng dẫn và sự giúp đỡ quí báu của PGS.TS. Phan Thị Tươi, giáo viên hướng dẫn mà tơi tơn vinh và muốn được bày tỏ lịng biết ơn sâu sắc nhất. Tơi cũng muốn được bày tỏ lịng biết ơn đối với tập thể các thầy cơ khoa Khoa học và Kỹ thuật Máy tính trường Đại học Bách khoa TP. Hồ Chí Minh đã giúp đỡ và tạo điều kiện cho tơi rất nhiều trong quá trình học tập và nghiên cứu ở Khoa; đặc biệt PGS.TS. Cao Hồng Trụ, PGS.TS. Dương Tuấn Anh, PGS.TS. Đỗ Phúc và TS. Đặng Trần Khánh đã cĩ những lời khuyên quý giá trong quá trình làm NCS và viết luận án này; cảm ơn Phịng quản lý Sau Đại học về sự hỗ trợ các thủ tục hồn thành luận án. Sự biết ơn của tơi xin được gửi đến gia đình, vợ con và người thân, đã hỗ trợ động viên và tạo mọi điều kiện thuận lợi cho tơi trong suốt quá trình hồn thành khĩa học NCS. Cuối cùng tơi cảm ơn anh Ngơ Hùng Phương cùng tất cả bạn bè, đặc biệt các thành viên trong nhĩm nghiên cứu BK-NLP (thuộc trường Đại học Bách khoa Tp.HCM) đã gĩp nhiều ý kiến thiết thực và cĩ những lời động viên khích lệ quý báu giúp tơi vượt qua khĩ khăn và hồn thành tốt luận án. Tác giả luận án Nguyễn Chánh Thành TĨM TẮT Trong truy xuất thơng tin (Information Retrieval, IR), do những yếu tố khác nhau, người sử dụng thường dùng các truy vấn dạng đơn giản biểu diễn yêu cầu cần tìm. Việc này dẫn đến kết quả tìm được khơng đáp ứng đủ nhu cầu mong muốn, hoặc chất lượng thấp. Do đĩ, mở rộng truy vấn là vấn đề cần thiết, để từ đĩ giúp hệ thống truy xuất thơng tin cĩ thêm thơng tin theo ngữ cảnh nhằm cải tiến các kết quả truy vấn. Thơng tin theo ngữ cảnh cĩ thể thu được từ những thơng tin phản hồi liên quan, từ đồng hiện hay mơ hình tri thức như bản thể học (ontology). Việc ứng dụng ontology để trợ giúp việc mở rộng truy vấn được nghiên cứu từ đầu thập niên 1990 với một số thành cơng. Trong bài tốn mở rộng truy vấn, một số nhĩm nghiên cứu trên thế giới đã sử dụng ontology WordNet. Một số nhĩm khác đã phát triển ontology để phục vụ nhu cầu mở rộng truy vấn. Những định hướng đặc biệt về cấu trúc ontology cần xây dựng bao gồm đề xuất về nhĩm thành phần lớp, thể hiện, thuộc tính, hay đề xuất về nhĩm thể hiện, thuộc tính, khái niệm và quan hệ rời rạc (disjointness), IS-A, và tương đương (equivalence), hoặc phát triển một mơ hình mới về mạng ngữ nghĩa dựa trên những quan hệ trích dẫn từ WordNet như quan hệ thượng danh (hypernymy), hạ danh (hyponymy) … cùng một số quan hệ được định nghĩa thêm như chú giải (gloss), chủ đề và miền (domain). Luận án này đề xuất phương pháp mở rộng truy vấn dựa trên cơ sở bản thể học (ontology-based query expansion). Để thực hiện mục tiêu trên, luận án phải giải quyết các vấn đề chính: (1) đề xuất cơ sở lý thuyết về các mơ hình mở rộng truy vấn dựa trên ontology; (2) phát triển và huấn luyện ontology bằng phương pháp khai thác kho ngữ liệu sẵn cĩ và phương pháp rút trích dữ liệu từ WordNet; (3) đề xuất phương pháp hồn thiện và mở rộng truy vấn. Phần thực nghiệm của luận án được tiến hành cho ngơn ngữ tiếng Anh dựa trên nguồn dữ liệu và truy vấn tiếng Anh từ nguồn TREC (Text REtrieval Conference) trong một số lĩnh vực. Các kết quả thực nghiệm phản ánh tính khả thi của những phương pháp đề xuất trong luận án, đồng thời cho thấy nhiều triển vọng phát triển của các đề xuất lý thuyết trong luận án. i MỤC LỤC MỤC LỤC ..................................................................................................................... i DANH MỤC CÁC BẢNG ............................................................................................... iii DANH MỤC CÁC HÌNH .................................................................................................. v DANH MỤC CÁC GIẢI THUẬT ................................................................................. vii DANH MỤC CÁC TỪ VIẾT TẮT ............................................................................... viii Chương 1 GIỚI THIỆU .............................................................................................. 1 1.1 Động cơ nghiên cứu ............................................................................................. 1 1.2 Mục tiêu và phạm vi nghiên cứu ......................................................................... 5 1.3 Đĩng gĩp chính của luận án ................................................................................ 8 1.4 Cấu trúc của luận án ........................................................................................... 10 1.5 Các quy ước ....................................................................................................... 13 1.6 Tĩm tắt nội dung luận án ................................................................................... 13 Chương 2 CÁC NGHIÊN CỨU LIÊN QUAN ........................................................ 14 2.1 Giới thiệu ........................................................................................................... 14 2.2 Các nghiên cứu liên quan trong nước ................................................................ 15 2.3 Các nghiên cứu về ontology .............................................................................. 19 2.4 Các nghiên cứu về mở rộng truy vấn ................................................................. 23 2.5 Khai thác dữ liệu từ WordNet ............................................................................ 39 2.6 Tĩm lược ............................................................................................................ 44 Chương 3 XÂY DỰNG NỀN TẢNG HỆ THỐNG ................................................. 46 3.1 Giới thiệu ........................................................................................................... 46 3.2 Bài tốn Xây dựng ontology và bài tốn Hồn chỉnh mở rộng truy vấn ........... 46 3.3 Các mơ hình cho bài tốn mở rộng truy vấn ...................................................... 60 3.4 Mẫu nhận dạng cụm danh từ .............................................................................. 65 3.5 Phương pháp thực nghiệm và đánh giá .............................................................. 70 3.6 Nguồn dữ liệu thực nghiệm ............................................................................... 74 3.7 Tĩm lược ............................................................................................................ 88 Chương 4 XÂY DỰNG ONTOLOGY OOMP ........................................................ 90 4.1 Giới thiệu ........................................................................................................... 90 4.2 Xây dựng ontology OOMP ................................................................................ 90 4.3 Phương pháp huấn luyện dựa trên kho ngữ liệu ................................................ 95 4.4 Phương pháp huấn luyện dựa trên WordNet ................................................... 100 4.5 Cơ chế tự huấn luyện của ontology OOMP ..................................................... 107 4.6 Các ứng dụng của ontology và quan hệ ........................................................... 109 4.7 Tĩm lược .......................................................................................................... 110 Chương 5 HỒN CHỈNH VÀ RÚT GỌN TRUY VẤN....................................... 112 5.1 Giới thiệu ......................................................................................................... 112 ii 5.2 Hồn chỉnh và rút gọn truy vấn ....................................................................... 113 5.3 Kiểm tra cụm danh từ hồn chỉnh .................................................................... 114 5.4 Tạo cụm danh từ hồn chỉnh ............................................................................ 121 5.5 Tạo cụm danh từ rút gọn .................................................................................. 122 5.6 Hồn chỉnh cụm danh từ .................................................................................. 123 5.7 Giải thuật rút gọn thành phần cụm danh từ...................................................... 135 5.8 Tĩm lược .......................................................................................................... 140 Chương 6 MỞ RỘNG TRUY VẤN ........................................................................ 142 6.1 Mở rộng truy vấn cho động cơ tìm kiếm trên Web ......................................... 142 6.2 Mở rộng truy vấn cho hệ thống truy xuất thơng tin cĩ sẵn .............................. 153 6.3 Tĩm lược .......................................................................................................... 165 Chương 7 KẾT LUẬN ............................................................................................. 167 7.1 Các kết quả đạt được ........................................................................................ 167 7.2 Hướng phát triển .............................................................................................. 171 7.3 Lời kết .............................................................................................................. 172 CÁC CƠNG TRÌNH KHOA HỌC CỦA TÁC GIẢ ................................................... 174 TÀI LIỆU THAM KHẢO ............................................................................................. 177 Phụ lục A. Tĩm lược về WordNet ............................................................................... a Phụ lục B. Cấu trúc cụm danh từ tiếng Anh .............................................................. c Phụ lục C. Danh mục từ loại tiếng Anh ...................................................................... g Phụ lục D. Danh mục luật sinh dạng cụm danh từ của văn phạm tiếng Anh xây dựng dựa trên TreeBank ................................................................................................... i Phụ lục E. Tính chất ảnh-tạo ảnh trong tốn học ..................................................... o Phụ lục F. Cấu trúc định dạng tài liệu TREC .......................................................... p Phụ lục G. Tổ chức cơ sở dữ liệu của thực nghiệm trong luận án ........................... s iii DANH MỤC CÁC BẢNG Bảng 3.1. Danh sách mã lỗi quy ước ................................................................................... 57 Bảng 3.2. Các trường hợp liên kết giữa q và q’ để tính )'|( qq℘ ...................................... 63 Bảng 3.3. Các trường hợp liên kết giữa q và q’ để tính )'(q℘ ............................................ 63 Bảng 3.4.Tập luật sinh tiếng Anh liên quan cụm danh từ (nguồn [2]) ................................ 67 Bảng 3.5. Danh sách mẫu cơ bản đặc tả cụm danh từ ......................................................... 68 Bảng 3.6. Thống kê thành phần dữ liệu từ TREC ............................................................... 76 Bảng 3.7. Danh sách tập chỉ mục xây dựng từ nguồn dữ liệu trong bảng 3.6 ..................... 78 Bảng 3.8. Thống kê mục từ, tài liệu và liên kết của nguồn dữ liệu ..................................... 79 Bảng 3.9. Thống kê các tài liệu liên quan theo nguồn dữ liệu ............................................. 81 Bảng 3.10. Danh sách mẫu sử dụng trong thực nghiệm ...................................................... 83 Bảng 3.11. Thống kê cụm danh từ phân biệt rút trích từ kho ngữ liệu tiếng Anh ............... 84 Bảng 4.1. Thống kê số lượng cụm danh từ theo dạng mẫu ................................................. 98 Bảng 4.2. Dữ liệu dự tuyển rút trích được trong giải thuật CB-KBT .................................. 99 Bảng 4.3. Dữ liệu dự tuyển rút trích được trong giải thuật CB-KBT .................................. 99 Bảng 4.4. Các thống kê cho dữ liệu huấn luyện ................................................................ 100 Bảng 4.5. Danh mục phân lớp từ vựng sử dụng trong WordNet ....................................... 105 Bảng 4.6.Thống kê các mục từ dùng trong quá trình huấn luyện WB-BKT ..................... 106 Bảng 4.7. Dữ liệu được rút trích từ WordNet trong giải thuật WB-KBT .......................... 106 Bảng 4.8. Các thống kê cho dữ liệu huấn luyện ................................................................ 106 Bảng 4.9. Dữ liệu bổ sung tạo bởi giải thuật A-KBT ........................................................ 108 Bảng 5.1. Thống kê về thời gian thực thi của giải thuật CNPV ........................................ 117 Bảng 5.2. Các trường hợp xử lý trong giải thuật CNPV theo dạng lỗi .............................. 117 Bảng 5.3. Các trường hợp xử lý trong giải thuật CNPV theo dạng lỗi và mẫu ................. 118 Bảng 5.4. Số liệu thống kê các phần tử phân tích trung gian ............................................ 120 Bảng 5.5. Thống kê về thời gian thực thi của giải thuật NPC ........................................... 129 Bảng 5.6. Thống kê các trường hợp xử lý trong giải thuật NPC theo dạng lỗi ................. 130 Bảng 5.7. Thống kê các trường hợp xử lý trong giải thuật NPC theo dạng mẫu ............... 130 Bảng 5.8. Thống kê các phần tử phân tích trung gian của giải thuật NPC ........................ 131 iv Bảng 5.9. Kết quả thực nghiệm của giải thuật CNPG trên dữ liệu trung gian của giải thuật NPC .................................................................................................................................... 131 Bảng 5.10. Phân tích kết quả thực nghiệm của giải thuật NPC ......................................... 133 Bảng 5.11. So sánh kết quả của phương pháp tìm kiếm thơ và NPC ................................ 134 Bảng 5.12. Thống kê về thời gian thực thi của giải thuật NPMR ...................................... 137 Bảng 5.13. Thống kê các phần tử phân tích trung gian của giải thuật NPMR .................. 137 Bảng 5.14. Kết quả thực nghiệm của giải thuật RNPG trên dữ liệu trung gian của giải thuật NPMR ................................................................................................................................ 137 Bảng 5.15. Phân tích kết quả thực nghiệm của giải thuật NPMR ..................................... 139 Bảng 5.16. So sánh kết quả của phương pháp tìm kiếm thơ và NPMR ............................. 140 Bảng 6.1. Thống kê về thời gian thực thi của giải thuật SNPE ......................................... 148 Bảng 6.2. Thống kê các trường hợp xử lý trong giải thuật SNPE theo dạng lỗi ............... 148 Bảng 6.3. Thống kê các phần tử phân tích trung gian của giải thuật SNPE ...................... 149 Bảng 6.4. Kết quả thực nghiệm của giải thuật CNPG trên dữ liệu trung gian của giải thuật SNPE .................................................................................................................................. 149 Bảng 6.5. Phân tích kết quả thực nghiệm của giải thuật SNPE ......................................... 151 Bảng 6.6. So sánh kết quả của phương pháp tìm kiếm thơ và SNPE ................................ 153 Bảng 6.7. Thống kê số liệu thực nghiệm trong giải thuật SIC........................................... 160 Bảng 6.8. Số liệu chi tiết của tập si_TermLink tạo ra từ giải thuật SIC ............................ 161 Bảng 6.9. Thống kê kết quả trong tập si_TermLink tạo ra từ giải thuật SIC .................... 161 Bảng 6.10. So sánh kết quả thực nghiệm 1 ........................................................................ 163 Bảng 6.11. So sánh kết quả thực nghiệm 2 ........................................................................ 164 Bảng 6.12. So sánh kết quả thực nghiệm 3 ........................................................................ 165 v DANH MỤC CÁC HÌNH Hình 1.1. Mối quan hệ giữa mơ hình của luận án và hệ thống truy xuất thơng tin ............... 6 Hình 1.2. Tĩm tắt phân bố nội dung các vấn đề trình bày trong luận án ............................. 13 Hình 2.1. Tổ chức hệ thống WordNet phiên bản 3.0 (*) ..................................................... 41 Hình 2.2. Cấu trúc ontology về hình ảnh của S.Zinger ....................................................... 43 Hình 2.3. Đồ thị quan hệ ngữ nghĩa của Boris .................................................................... 43 Hình 3.1. Quan hệ kết hợp OMP ......................................................................................... 55 Hình 3.2. Ví dụ về cây phân tích (hình b) được xây dựng từ quan hệ ROMP (hình a) .......... 56 Hình 3.3. Đồ thị ngữ nghĩa G cĩ phân lớp ........................................................................... 59 Hình 3.4. Tổ chức phân cấp các mơ hình ............................................................................ 61 Hình 3.5. Ví dụ về đặc tả các mẫu trong JAPE ................................................................... 70 Hình 3.6. Tỉ lệ phân bố các mục tài liệu .............................................................................. 76 Hình 3.7. Cài đặt chức năng xây dựng chỉ mục cho dữ liệu dạng XML ............................. 77 Hình 3.8. Tổ chức lưu trữ vật lý của các tập chỉ mục .......................................................... 78 Hình 3.9. Tổ chức cơ sở dữ liệu lưu trữ thơng tin của các chỉ mục ..................................... 79 Hình 3.10. Cài đặt chức năng nạp dữ liệu chỉ mục vào cơ sở dữ liệu ................................. 80 Hình 3.11. Thống kê số lượng tài liệu liên quan xác định được .......................................... 81 Hình 3.12. Tỉ lệ tài liệu liên quan xác định được ................................................................ 82 Hình 3.13. Thống kê tập mẫu sử dụng trong thực nghiệm .................................................. 82 Hình 3.14. Tỉ lệ chọn lọc cụm danh từ hợp lệ theo chiều dài cụm danh từ ......................... 85 Hình 3.15. Kết quả rút trích cụm danh từ hợp lệ trong huấn luyện ..................................... 85 Hình 3.16. Tổ chức lưu trữ cụm danh từ rút trích từ các nguồn dữ liệu .............................. 86 Hình 3.17. Phân bổ cụm danh từ trong tập TRAINING_DATA theo dạng mẫu ................ 86 Hình 3.18. Phân bổ cụm danh từ trong tập TEST_DATA theo các nhĩm mẫu .................. 87 Hình 4.1. Cấu trúc mức luận lý của ontology OOMP ......................................................... 91 Hình 4.2. Cấu trúc ontology OOMP về tổ chức cơ sở dữ liệu quan hệ ............................... 91 Hình 4.3. Đặc tả luận lý cho cấu trúc ontology OOMP ....................................................... 92 Hình 4.4. Các phương pháp huấn luyện ontology OOMP ................................................... 95 Hình 4.5. Phương pháp huấn luyện dựa trên kho ngữ liệu .................................................. 95 Hình 4.6. Quan hệ Rm được xây dựng từ quan hệ holonymy trong WordNet ................... 101 vi Hình 4.7. Quan hệ Rm được xây dựng từ quan hệ meronymy trong WordNet .................. 101 Hình 4.8. Quan hệ Rp được xây dựng từ quan hệ attribute trong WordNet....................... 101 Hình 4.9. Quan hệ Rm được xây dựng từ quan hệ similar trong WordNet ........................ 101 Hình 4.10. Quan hệ Rm và Rp được xây dựng từ quan hệ similar trong WordNet ............ 102 Hình 4.11. Quan hệ Rp được xây dựng từ quan hệ similar trong WordNet ....................... 102 Hình 4.12. Tổ chức dữ liệu của WordNet phiên bản 3.0 ................................................... 104 Hình 4.13. Thống kê số lượng các quan hệ trong WordNet .............................................. 104 Hình 5.1. Mơ hình hệ thống hồn chỉnh và rút gọn truy vấn ............................................. 113 Hình 5.2. Các trường hợp xử lý trong giải thuật CNPV theo dạng lỗi và mẫu ................. 120 Hình 5.3. Thống kê các trường hợp xử lý theo dạng lỗi ở mức chi tiết ............................. 129 Hình 5.4. Cài đặt chức năng tìm kiếm cho truy vấn sinh từ giải thuật NPC ..................... 132 Hình 5.5. Thống kê số liệu các độ đo theo nguồn dữ liệu ................................................. 132 Hình 5.6. Thống kê số lượng kết quả thực nghiệm theo nguồn dữ liệu............................. 133 Hình 5.7. Cài đặt chức năng tìm kiếm cho truy vấn sinh từ giải thuật NPMR .................. 138 Hình 5.8. Thống kê số liệu các độ đo theo nguồn dữ liệu ................................................. 139 Hình 5.9. Thống kê số lượng kết quả thực nghiệm theo nguồn dữ liệu............................. 140 Hình 6.1. Mơ hình hệ thống mở rộng truy vấn với động cơ tìm kiếm thơng tin ............... 143 Hình 6.2. Cài đặt chức năng tìm kiếm cho truy vấn sinh từ giải thuật SNPE ................... 150 Hình 6.3. Thống kê số lượng kết quả thực nghiệm theo nguồn dữ liệu............................. 152 Hình 6.4. Thống kê số liệu các độ đo theo nguồn dữ liệu ................................................. 152 Hình 6.5. Minh họa tính chất (6.1) .................................................................................... 154 Hình 6.6. Ứng dụng tính chất (6.1) vào mở rộng kết quả tìm kiếm .................................. 155 Hình 6.7. Mơ hình hệ thống mở rộng truy vấn kết hợp hệ thống truy xuất thơng tin dựng sẵn ...................................................................................................................................... 155 Hình 6.8. Mơ hình tổ chức chỉ mục hướng ngữ nghĩa ....................................................... 156 Hình 6.9. So sánh số liên kết tạo thành theo nguồn dữ liệu ............................................... 162 Hình 6.10. So sánh tỉ lệ liên kết tạo thành theo nguồn dữ liệu .......................................... 162 Hình 7.1. Phương pháp thực hiện của vấn đề 4 ................................................................. 172 vii DANH MỤC CÁC GIẢI THUẬT Giải thuật 4.1. Huấn luyện ontology dựa trên kho ngữ liệu .......................................... 96 Giải thuật 4.2. Huấn luyện ontology dựa trên WordNet .............................................. 103 Giải thuật 4.3. Huấn luyện ontology tự động ................................................................ 107 Giải thuật 5.1. Kiểm tra cụm danh từ hồn chỉnh ........................................................ 114 Giải thuật 5.2. Tạo cụm danh từ hồn chỉnh ................................................................. 121 Giải thuật 5.3. Tạo cụm danh từ rút gọn ....................................................................... 122 Giải thuật 5.4. Hồn chỉnh cụm danh từ ....................................................................... 123 Giải thuật 5.5. Rút gọn thành phần cụm danh từ ......................................................... 135 Giải thuật 6.1. Mở rộng cụm danh từ tương đương ..................................................... 144 Giải thuật 6.2. Tạo chỉ mục hướng ngữ nghĩa ............................................................... 157 Giải thuật 6.3. Tìm kiếm kết hợp ................................................................................... 158 viii DANH MỤC CÁC TỪ VIẾT TẮT STT Từ viết tắt Diễn giải tiếng Anh Diễn giải tiếng Việt 1 A-KBT Auto Knowledge Base Training Huấn luyện ontology tự động 2 CB-KBT Corpus-Based Knowledge Base Training Huấn luyện ontology dựa trên kho ngữ liệu 3 CL Concept Lattice Lưới khái niệm 4 CLIR Cross-Language Information Retrieval Truy xuất thơng tin xuyên ngơn ngữ 5 CNPV Complete Noun Phrase Verification Kiểm tra tính hồn chỉnh của cụm danh từ 6 CREOLE Collection of REusable Object for Language Engineering Tập đối tượng khả tái sử dụng cho động cơ ngơn ngữ 7 DC Dice Coefficient Hệ số khối 8 EEM External Expansion Model Mơ hình mở rộng ngoại vi 9 FCA Formal Concept Analysis Phân tích Khái niệm Chính quy 10 GATE General Architecture for Text Engineering Kiến trúc tổng quát cho động cơ văn bản 11 HS Hybrid Search Tìm kiếm kết hợp 12 IDF Inverse-Document Frequency Tần suất nghịch đảo tài liệu 13 IR Information Retrieval Truy xuất thơng tin 14 ISE Internal Search Engine Động cơ tìm kiếm thơng tin cục bộ 15 JAPE Java Annotation Patterns Engine Động cơ mẫu chú giải Java 16 MAP Mean Average Precision Độ chính xác trung bình bình quân 17 NPC Noun Phrase Completion Hồn chỉnh thành phần cụm danh từ 18 NPRM Noun Phrase Member Reduction Rút gọn thành phần cụm danh từ 19 OMP Object-Member-Property Đối tượng-Thành phần-Tính chất 20 OOMP Ontology of Object- Member-Property Cơ sở tri thức của Đối tượng-Thành phần-Tính chất 21 QEM Query Expansion Model Mơ hình mở rộng truy vấn 22 SIC Semantic Index Creation Tạo chỉ mục hướng ngữ nghĩa 23 SNPE Similar Noun Phrase Expansion Mở rộng cụm danh từ tương đương 24 TREC Text REtrieval Conference Hội nghị về Truy xuất văn bản 25 WB-KBT WordNet-Based Knowledge Base Training Huấn luyện ontology dựa trên WordNet 1 Chương 1 GIỚI THIỆU 1.1 Động cơ nghiên cứu Như chúng ta đã biết, internet (web)a được xem là nguồn thơng tin khổng lồ của nhân loại. Theo thời gian, nguồn thơng tin này khơng ngừng được chia sẻ, mở rộng và phát triển. Các thơng tin trên Web hầu hết được thể hiện ở dạng văn bản biểu diễn bởi ngơn ngữ tự nhiên, trong đĩ phần lớn là thơng qua các trang Web, thường chỉ phù hợp với khả năng đọc hiểu của người sử dụng. Đồng thời với sự phát triển của Web là sự gia tăng rất lớn về nhu cầu truy xuất thơng tin của người sử dụng, trong đĩ việc tìm kiếm các thơng tin thể hiện trong ngơn ngữ tiếng Anh chiếm tỉ lệ đáng kể. Đặc biệt trong những năm gần đây, nhu cầu truy cập tin tức trên Web của người dân Việt nam rất cao (theo [4], giai đoạn 1997-2007 internet Việt Nam đã liên tục phát triển với khoảng 18 triệu người tham gia sử dụng, tương đương 21% dân số) xuất phát từ các nhu cầu chủ yếu như xem tin tức, trao đổi thơng tin, và đặc biệt số lượng rất lớn là tác vụ tìm kiếm thơng tin cần thiết. Để phục vụ cho những nhu cầu tìm kiếm thơng tin của người sử dụng, các hệ thống truy xuất thơng tin (IR) đã được nghiên cứu và phát triển, trong đĩ thành cơng nhất là một số động cơ tìm kiếm (search engine) nổi tiếng như Google [148] – Yahoo [165] – Alta Vista [145] và Bing [152] trong thời gian gần đây... Tuy nhiên, thơng qua các hệ thống đĩ, việc tìm kiếm thơng tin thường khơng nhận được đầy đủ a internet cịn được gọi là World Wide Web, viết gọn là WWW hay Web 2 kết quả cần thiết như mong muốn cũng như hiệu suất của chúng cịn cĩ một số giới hạn nhất định. Nguyên nhân chủ yếu ảnh hưởng đến vấn đề này là: − Ngữ nghĩa của tài liệu bị mất đi do cách biểu diễn truy vấn dưới dạng một tập các từ khĩa. − Yêu cầu thơng tin (truy vấn) của người sử dụng thường chỉ bao gồm một vài từ khĩa cốt lõi, khơng thể hiện đủ ngữ nghĩa cần thiết. − Người sử dụng khơng cung cấp đủ thơng tin truy vấn cần thiết cho động cơ tìm kiếm. − Động cơ tìm kiếm thơng tin hoạt động dựa trên cơ chế so trùng từ khĩa và chưa quan tâm đúng mức đến yếu tố ngữ nghĩa trong tương tác và hỗ trợ người dùng. − Các động cơ tìm kiếm hiện cĩ thường hỗ trợ chính cho tiếng Anh, nhưng thiếu cơng cụ trợ giúp cho ngơn ngữ khác … Điều này dẫn đến tình trạng: − Người sử dụng phải dành một lượng thời gian khá lớn để đọc hiểu và chọn lọc lại các thơng tin để cĩ những kết quả mong muốn. − Người sử dụng gặp khĩ khăn trong việc diễn đạt nội dung của vấn đề cần tìm. − Người sử dụng khơng nhận được một kết quả trả lời trọn vẹn hồn chỉnh (dù chỉ cần ở mức tĩm lược ngắn gọn) như mong muốn về một vấn đề cần tìm. − Thiếu một hệ thống tìm kiếm thơng tin nhanh và linh hoạt để khơng chỉ cĩ thể tìm các thơng tin trong tài liệu tiếng Anh (như truyền thống) và tiếng Việt theo cơ chế so trùng từ khĩa, mà cịn cĩ thể trả lời các câu hỏi của người sử dụng (trong phạm vi xác định cho tiếng Việt). − Hệ thống chưa thực sự đủ mạnh để nhận biết ngữ nghĩa của truy vấn. 3 Từ các phân tích trên, chúng ta nhận thấy nguyên nhân chính là các hệ thống tìm kiếm thơng tin chưa đủ mạnh nên kết quả đưa ra khơng thể hỗ trợ người dùng như mong đợi. Truy vấn của người dùng cũng chưa phản ánh đầy đủ ngữ nghĩa để hỗ trợ cho các quá trình tìm kiếm và truy xuất thơng tin được tốt hơn. Vì vậy, việc bổ sung ngữ nghĩa vào truy vấn ban đầu của người dùng là yêu cầu cần thiết. Một bài tốn kinh điển trong lĩnh vực Truy xuất thơng tin là Mở rộng truy vấn. Đĩ là quá trình bổ sung một số từ vào truy vấn của người dùng nhằm tạo ra các truy vấn mới tương đồng ngữ nghĩa. Bài tốn này là vấn đề được quan tâm vì nĩ cĩ thể loại bỏ nhập nhằng ngữ nghĩa của truy vấn trong ngơn ngữ tự nhiên, cũng như khắc phục những hạn chế của việc sử dụng từ khĩa để thể hiện một khái niệm thơng tin. Krovetz và Croft [109] đã quan sát thấy phần lớn các lợi ích thu được trong việc tìm kiếm thơng tin cĩ độ truy hồi cao phụ thuộc vào việc so trùng các từ khĩa. Đối với việc mở rộng truy vấn, hệ thống xác định ngữ nghĩa truy vấn được chính xác hơn, điều đĩ cho phép kết quả truy vấn tốt hơn. Thơng qua kết quả truy vấn mở rộng, người dùng cĩ thể học tập cách phát biểu truy vấn rõ ràng và chính xác hơn để thu được các kết quả hữu ích. Từ một truy vấn của người dùng, mở rộng truy vấn sẽ bổ sung vào đĩ một số từ hay thuật ngữ liên quan và tạo ra dạng truy vấn mới cĩ thể bao phủ thơng tin rộng hơn. Như vậy, tài liệu mong đợi để thu nhận sẽ nhiều hơn dẫn đến tỉ lệ bao phủ thơng tin tăng lên tương ứng. Quá trình thêm những thuật ngữ này cĩ thể thực hiện bằng tay, tự động hoặc cĩ người dùng trợ giúp. Việc mở rộng truy vấn bằng tay dựa vào sự am hiểu và thành thạo của con người để đưa ra quyết định, nhằm nhúng các thuật ngữ vào truy vấn mới. Trong trường hợp mở rộng tự động truy vấn, các trọng số được tính cho tất cả các thuật ngữ nhằm giúp hệ thống thêm những thuật ngữ cĩ trọng số cao nhất vào truy vấn ban đầu. Các hàm tính trọng số khác nhau đưa ra những kết quả khác nhau, do đĩ hiệu suất của việc truy vấn phụ thuộc vào cách thức tính các trọng số. Với dạng mở rộng truy vấn cĩ người dùng trợ giúp, hệ thống sẽ sinh ra các thuật ngữ phù hợp cho việc mở rộng truy vấn và người dùng tự chọn một số trong các thuật ngữ đĩ để thêm vào. 4 Vấn đề cốt lõi của bài tốn mở rộng truy vấn là xác định các từ thích hợp để thêm vào truy vấn của người dùng. Nhiều nghiên cứu được cơng bố về mở rộng truy vấn trong đĩ hướng đến việc sử dụng thơng tin ngữ cảnh để xác định các từ cần thêm một cách hợp lý. Thơng tin theo ngữ cảnh cĩ thể thu được từ các thơng tin phản hồi liên quan (relevance feedback), từ các từ đồng hiện (co-occurrence term) và trong thời gian gần đây là từ các mơ hình tri thức như bản thể học (ontology). Hiện nay, thơng tin liên quan ngữ cảnh của truy vấn là một vấn đề đang được các nhà nghiên cứu khai thác nhằm cải tiến quá trình truy xuất thơng tin. Theo Finkelstein [92] ngữ cảnh chưa cĩ định nghĩa chuẩn xác, nhưng theo [124] thì cĩ hai định nghĩa về ngữ cảnh. Định nghĩa thứ nhất theo ngơn ngữ học “ngữ cảnh là các phần của bài luận bao quanh từ hay đoạn văn và cĩ thể làm sáng tỏ nghĩa của nĩ”b. Định nghĩa thứ hai dựa trên tình huống “các điều kiện tương quan trong đĩ một điều gì đĩ tồn tại hay xảy ra”c . Từ đĩ, một nhận định chung là thơng qua tương tác của người dùng lên hệ thống truy xuất thơng tin, ngữ cảnh tương ứng sẽ bao gồm những thơng tin liên quan đến những hành động, những quyết định của người dùng. Ngữ cảnh trong truy xuất thơng tin bao gồm nhiều vấn đề trong đĩ cĩ mở rộng truy vấn. Một khĩ khăn là làm sao biểu diễn được nghĩa của truy vấn bằng các thuật ngữ (term) một cách chính xác. Do vậy, mở rộng truy vấn cho phép người dùng thực hiện tìm kiếm thơng tin bằng truy vấn mới cĩ các thuật ngữ là sự biến đổi hình thái của thuật ngữ ban đầu và (hoặc) một số thuật ngữ mới được thêm vào truy vấn nhờ kết quả khử nhập nhằng nghĩa của truy vấn ban đầu. Nhiều phương pháp tiếp cận khác nhau được đề xuất hướng đến việc mở rộng truy vấn. Trong đĩ, cĩ nhiều nghiên cứu hướng đến việc sử dụng ontology để hỗ trợ suy luận ngữ cảnh cho các truy vấn nhập nhằng. Các khái niệm trong ontology được dùng để khử nhập nhằng ngữ nghĩa của từ và hỗ trợ để mở rộng truy vấn. Việc mở rộng truy vấn đạt thành cơng ở một mức độ nhất định nhưng vẫn cịn nhiều vấn đề cần cải thiện về kỹ b Nguyên văn: “the parts of a discourse that surround a word or passage and can throw light on its meaning” c Nguyên văn: “the interrelated conditions in which something exists or occurs” 5 thuật, giao diện hoặc giải thuật để xác định ngữ nghĩa một cách chính xác hơn từ đĩ cải tiến kết quả truy vấn. Từ tầm quan trọng về tính hiệu quả của quá trình truy xuất thơng tin (trên internet), cùng với hướng giải quyết làm sao để hệ thống IR cĩ thể hiểu nhiều hơn và thơng minh hơn khi xử lý truy vấn ban đầu của người dùng, thì yêu cầu về một hệ thống truy xuất thơng tin cĩ khả năng tạo ra những truy vấn tương đồng hoặc cùng mục tiêu là bài tốn quan trọng. Do đĩ, thơng qua những khảo sát phân tích nêu trên, vấn đề mở rộng truy vấn là bài tốn quan trọng mà luận án này nghiên cứu và đề xuất phương pháp giải quyết. 1.2 Mục tiêu và phạm vi nghiên cứu Từ động cơ nghiên cứu nêu trên, luận án đề xuất một số phương pháp mở rộng truy vấn ban đầu của người dùng. Đây là vấn đề cốt lõi và đồng thời là mục tiêu nghiên cứu của luận án. Hiện nay trên thế giới nhiều phương pháp tiếp cận bài tốn mở rộng truy vấn trên cơ sở sử dụng cơ sở tri thức đã được cơng bố như: − Mở rộng truy vấn sử dụng cơ sở tri thức cĩ tương tác kho ngữ liệu (cơng trình [11] [22] [60] [86] [61] [102] [106] [116] [137] và [141] ...) − Mở rộng truy vấn sử dụng các cơ sở tri thức khơng tương tác kho ngữ liệu (cơng trình [29] [53] [54] [56] [59] [66] [76] [89] [92] [110] [136] …) Mỗi phương pháp đều cĩ ưu, nhược điểm cùng với những cơng trình nghiên cứu và các thực nghiệm liên quan. Từ việc khảo sát phân tích những phương pháp này (xem chương 2), dựa trên những giải pháp khả thi đã được cơng bố trên thế giới, hướng tiếp cận chính của luận án là mở rộng truy vấn sử dụng cơ sở tri thức khơng tương tác kho ngữ liệu. Để luận án mang tính khả thi cả về lý thuyết lẫn thực tiễn và mang lại kết quả như mong muốn, tác giả đã thực hiện: 6 (a) Nghiên cứu và phát triển cơ sở lý thuyết của phương pháp tiếp cận mới cho việc mở rộng truy vấn, trên cơ sở kết hợp với ontologyd. (b) Nghiên cứu và phát triển cấu trúc tổ chức ontology cùng giải pháp huấn luyện tạo dữ liệu ban đầu nhằm kiểm chứng kết quả nghiên cứu ở (a) và cĩ thể triển khai trong thực tế để mang lại kết quả truy xuất thơng tin tốt hơn. Như định hướng nêu trên, phạm vi nghiên cứu của luận án được thể hiện trong hình 1.1 (trong khung đường gạch đứt nét). Hình 1.1. Mối quan hệ giữa mơ hình của luận án và hệ thống truy xuất thơng tin (A) Mơ hình xử lý của luận án (phạm vi nghiên cứu của luận án) (B) Động cơ tìm kiếm thơng tin (thuộc hệ thống truy xuất thơng tin) (C) Kết quả tìm kiếm thơng tin từ yêu cầu của các câu truy vấn đã mở rộng Với mơ hình được mơ tả ở hình 1.1, trong mục (A), câu truy vấn nhập (dạng cụm danh từ bao gồm các thành phần là tính từ hay chỉ cĩ danh từ đơn) được xử lý để trả về tập các câu truy vấn đã được mở rộng (cụm danh từ cĩ dạng truy vấn hồn chỉnhe). Trong phạm vi luận án, dựa trên giải pháp rút trích các từ đặc trưng cốt lõi d Khái niệm ontology cịn được diễn dịch là “cây phả hệ tri thức” hay “cơ sở tri thức” e Tham khảo thêm định nghĩa 3.10-Truy vấn hồn chỉnh, mục 3.2.6, chương 3. Nhập: Câu truy vấn dạng cụm danh từ Bộ xử lý mở rộng truy vấn trên cơ sở kết hợp với ontology Động cơ tìm kiếm thơng tin Kết quả trả về (tập tài liệu) Xuất: Các câu truy vấn: - dạng cụm danh từ, - đã được mở rộng cĩ dạng truy vấn hồn chỉnh. (A) (B) (C) 7 cho một câu ([23] [149]), câu truy vấn ban đầu của người dùng được tiền xử lý để loại bỏ các thành phần khơng quan trọng nhằm giữ lại những thành phần chính thỏa điều kiện truy vấn hồn chỉnh. Điều đĩ sẽ giúp giảm được độ phức tạp hay dạng biểu diễn phức hợp của truy vấn, đồng thời cịn giúp đảm bảo tính duy nhất của từng thành phần trong truy vấn thỏa điều kiện truy vấn hồn chỉnh. Mục (B) của hình trên gồm động cơ tìm kiếm thơng tin (search engine). Đây là một bộ phận quan trọng của hệ thống Truy xuất Thơng tin (Information Retrieval). Động cơ tìm kiếm thơng tin giải quyết ba vấn đề cốt lõi là mơ hình biểu diễn văn bản, thuật tốn tìm kiếm so trùng từ khĩa - đối sánh ngữ nghĩa tương ứng với các truy vấn và cơ chế lọc kết quả truy xuất. Hiện tại trên thế giới cĩ những động cơ tìm kiếm thơng tin nổi tiếng như Google, Yahoo, Microsoft Bing … Tuy nhiên, nghiên cứu của luận án chỉ sử dụng những động cơ này như một cơng cụ hỗ trợ việc tìm kiếm thơng tin cho truy vấn đã mở rộng bằng phương pháp xử lý của luận án và khơng đặt mục tiêu nghiên cứu ba vấn đề nêu trên. Vì vậy luận án đã khơng trình bày ba vấn đề này. Mơ hình xử lý của luận án (trong mục (A)) chỉ thực hiện việc mở rộng nội dung của truy vấn nhập nên hồn tồn khơng làm ảnh hưởng đến ba khía cạnh nêu trên trong quá trình vận hành của động cơ tìm kiếm ở mục (B). Điều này cịn cho thấy phạm vi nghiên cứu của luận án hướng đến bài tốn mở rộng truy vấn dựa trên ontology và hồn tồn khác biệt so với ba khía cạnh đã nêu. Từ những trình bày trên, các bài tốn chính cần giải quyết trong phạm vi luận án bao gồm: Bài tốn 1 - Xây dựng ontology OOMP Nghiên cứu và phát triển cấu trúc ontology OOMP (Ontology of Object- Member-Property) cùng cơ chế huấn luyện dữ liệu. Dựa trên tập tài liệu tiếng Anhf từ nguồn TREC và khai thác dữ liệu từ WordNet để huấn luyện dữ liệu ontology OOMP nhằm phục vụ yêu cầu của bài tốn 2. Nếu bài tốn 1 được giải quyết thành f Tham khảo phần giới thiệu của chương 4 về lý do sử dụng nguồn tài liệu tiếng Anh trong thực nghiệm. 8 cơng, một ontology cĩ chất lượng được tạo thành sẽ giúp cung cấp nhiều khả năng chọn lựa cho các thơng tin hơn, để bổ sung vào từ khĩa ban đầu của người dùng, dẫn đến việc nâng cao chất lượng của việc mở rộng truy vấn. Việc giải quyết bài tốn này được trình bày chi tiết trong chương 4 của luận án. Bài tốn 2 - Xây dựng phương pháp hồn chỉnh mở rộng truy vấn Dựa trên ontology ở bài tốn 1, nghiên cứu xây dựng phương pháp tiếp cận mới cho việc mở rộng truy vấn nhằm tạo truy vấn kết quả cĩ dạng truy vấn hồn chỉnh (biểu diễn ở dạng cụm danh từ về mặt ngơn ngữ học) và xây dựng các giải thuật hỗ trợ trong phạm vi bài tốn 2. Các chương 4, 5 và 6 sẽ lần lượt trình bày chi tiết từng phần của những phương pháp giải quyết bài tốn này. Luận án chủ yếu tập trung xử lý truy vấn ngắn với ba thành phần nên khơng nghiên cứu vấn đề ngữ cảnh của câu truy vấn. Và thực tế việc nghiên cứu về ngữ nghĩa của cụm từ và câu cĩ ảnh hưởng của ngữ cảnh là vấn đề rất khĩ và hiện nay cũng đang được nhiều nhà khoa học quan tâm, là lĩnh vực khác nằm ngồi phạm vi của luận án. 1.3 Đĩng gĩp chính của luận án Các vấn đề nghiên cứu của luận án đã cĩ một số đĩng gĩp mới về mặt khoa học từ phương pháp luận đến giải pháp thực hiện: * Đĩng gĩp thứ nhất: đề xuất phương pháp xác định các quan hệ của các khái niệm bao gồm: − Quan hệ mR xác định thành phần đặc trưng (member) của đối tượng (object). − Quan hệ pR tính chất đặc trưng (property) của thành phần. − Các quan hệ xác định tính chất trội mR f và pR f liên quan. Các phương pháp mà luận án đề xuất khơng những cĩ thể áp dụng trong phạm vi luận án để giải quyết Bài tốn 1 và Bài tốn 2 nêu trên mà cịn cĩ thể áp dụng trong một số lĩnh vực khác để tạo ontology cho một miền khái niệm (trong lĩnh vực xử lý ngơn ngữ tự nhiên). Ngồi ra, từ gĩc độ tốn học, việc xây dựng các lớp đồng dạng (liên quan đến nhĩm các đối tượng, nhĩm các thành phần đặc trưng 9 và nhĩm các tính chất đặc trưngg) từ các quan hệ nêu trên sẽ giúp cho việc phân loại đối tượng hiệu quả hơn. Cơng trình [ii], [iv], [v] và [ix]h đã giới thiệu phương pháp xác định các quan hệ cùng định nghĩa của những khái niệm này. Phần đĩng gĩp này sẽ khơng thực sự đầy đủ nếu khơng cĩ các định nghĩa OB IRMQE + − , POB IRMQE ++ − , OB IRMQE + + , POB IRMQE ++ + cùng khái niệm truy vấn hồn chỉnh, cây phân tích và dạng đồ thị ngữ nghĩa do tác giả đề xuất, liên quan đến việc mơ hình hĩa bài tốn mở rộng truy vấn. * Đĩng gĩp thứ hai: đề xuất mơ hình ontology OOMP cùng các phương pháp huấn luyện dữ liệu: − Phương pháp huấn luyện dựa trên kho ngữ liệu sẵn cĩ (Corpus-Based Knowledge Base Training, CB-KBT). − Phương pháp huấn luyện dựa trên ontology WordNet sẵn cĩ (WordNet- Based Knowledge Base Training, WB-KBT). − Phương pháp tự huấn luyện dựa trên nội dung sẵn cĩ của ontology từ hai phương pháp CB-KBT và WB-KBT cùng WordNet (Auto Knowledge Base Training, A-KBT). Ontology OOMP khơng những được dùng để phục vụ bài tốn mở rộng truy vấn mà cịn cĩ thể được sử dụng cho những bài tốn khác theo hướng khai thác các quan hệ khái niệm. Ngồi ra, từ gĩc độ ngơn ngữ học, các thành phần của ontology OOMP được phân lớp dựa trên một số dạng từ loại chính (như danh từ, tính từ) nên cấu trúc của chúng ít phụ thuộc vào sự khác nhau của các ngơn ngữ tự nhiên. Do đĩ, việc phát triển ontology trên những ngơn ngữ tự nhiên khác (như tiếng Việt hay Pháp …) tương đối thuận lợi. Nội dung liên quan đến đĩng gĩp này được cơng bố trong [iv], [v] và [ix]. * Đĩng gĩp thứ ba: đề xuất mơ hình xử lý truy vấn (truy vấn tiếng Anh, dạng cụm danh từ) trên ontology OOMP, gồm các giải thuật: g Tham khảo thêm hình 3.3, trang 59 về các lớp này. h Tham khảo thêm phần Các cơng trình khoa học. 10 − Kiểm tra tính hồn chỉnh của cụm danh từ (Complete Noun Phrase Verification, CNPV) − Hồn chỉnh cụm danh từ (Noun Phrase Completion, NPC) − Mở rộng cụm danh từ tương tự (Similar Noun Phrase Expansion, SNPE) Mơ hình cùng các phương pháp xử lý truy vấn này cĩ thể áp dụng trong Bài tốn 2, cũng như trong các bài tốn khác như: − Kiểm tra tính hồn chỉnh của cụm danh từ tiếng Anh theo quan điểm ngơn ngữ học tính tốn (ứng dụng trong lĩnh vực xử lý ngơn ngữ tự nhiên: truy xuất thơng tin, rút trích thơng tin, tĩm lược nội dung văn bản). − Hồn chỉnh và mở rộng cụm danh từ tương đương (ứng dụng trong lĩnh vực xử lý ngơn ngữ tự nhiên: truy xuất thơng tin, rút trích thơng tin, tĩm lược nội dung văn bản) …. Các phương pháp và giải thuật liên quan đến đĩng gĩp này được giới thiệu trong [ii], [v] và [ix]. * Đĩng gĩp thứ tư: Phương pháp xây dựng chỉ mục hướng ngữ nghĩa (Semantic Index Creation, SIC) thơng qua việc mở rộng cấu trúc chỉ mục để lưu trữ thêm thơng tin liên quan ngữ nghĩa đến ontology xác định. Đây chính là cầu nối giúp triển khai những nghiên cứu lý thuyết vào ứng dụng thực tiễn trong lĩnh vực truy xuất thơng tin. Kết quả thu được từ phương pháp này tạo tiền đề cho nhiều nghiên cứu ứng dụng liên quan đến truy xuất thơng tin. Phương pháp này được trình này trong cơng trình [iv] và được phát triển trong [iii] và [viii]. Những kết quả đạt được này đồng thời được áp dụng cho cơng trình [xii] và dự định áp dụng cho cơng trình [xiii]. 1.4 Cấu trúc của luận án Luận án được chia thành bảy chương và bảy phụ lục. Chương 1 trình bày mục tiêu, phạm vi và những đĩng gĩp chính của luận án; giới thiệu cấu trúc của luận án; liệt kê các qui ước về ký hiệu viết tắt và tên các thuật ngữ ở dạng tiếng nước ngồi. Trong mỗi chương tiếp theo, từ chương 2 đến chương 6 đều cĩ phần giới thiệu và phần tĩm lược. Chương 7 là kết luận của luận án. 11 Chương 2 tổng thuật các nghiên cứu ở trong nước và ngồi nước liên quan đến luận án. Chương này trình bày một bức tranh tổng quan các hướng nghiên cứu về vấn đề mở rộng truy vấn, đặc biệt là hướng kết hợp ontology, những ưu nhược điểm của các phương pháp nghiên cứu hiện nay. Chương 3 trình bày cơ sở tốn học để phát triển mơ hình mở rộng truy vấn cùng một số đề xuất về lý thuyết liên quan đến hướng nghiên cứu của luận án. Những đề xuất lý thuyết được trình bày theo từng khái niệm thơng qua các định nghĩa, tính chất và ví dụ minh hoạ. Phần khảo sát WordNet được trình bày trong chương này bao gồm cấu trúc tổ chức và các tính năng cũng như ưu khuyết điểm. Việc vận dụng ngơn ngữ học tính tốn vào đề xuất mẫu nhận dạng cụm danh từ của tác giả được trình bày chi tiết ở cuối chương để làm nổi bật tập luật sinh của mẫu. Kết quả những đề xuất về các phương pháp đã được cơng bố trong báo cáo khoa học [ii], [iv], [v] và [ix]. Các đề xuất này gĩp phần tạo cơ sở cho những phương pháp tiếp cận (trình bày ở các chương sau) để giải quyết Bài tốn 1 Xây dựng ontology OOMP và Bài tốn 2 Xây dựng phương pháp hồn chỉnh mở rộng truy vấn đề ra trong Luận án. Ngồi ra, chương này cịn trình bày phương pháp đánh giá các thực nghiệm của luận án cùng những vấn đề liên quan đến thực nghiệm như xác định nguồn dữ liệu sử dụng, xây dựng tập dữ liệu huấn luyện, xây dựng tập dữ liệu thử nghiệm và các cơng cụ hỗ trợ thực nghiệm. Chương 4 trình bày mơ hình ontology OOMP cùng các phương pháp huấn luyện dữ liệu. Chương này trình bày về thiết kế tổ chức của ontology dựa trên các quan hệ đã được đề xuất ở chương 3 và phương pháp huấn luyện dữ liệu là CB-KBT thực hiện trên tập dữ liệu TREC cùng phương pháp WB-KBT để rút trích dữ liệu từ WordNet. Các giải thuật này thể hiện phương pháp tiếp cận giải quyết Bài tốn 1 trong mục tiêu đề ra của Luận án. Nội dung chương này dựa trên [iv], [v] và [ix]. Chương 5 trình bày hai phần, trong đĩ phần một giới thiệu các bài tốn hỗ trợ để xây dựng cụm danh từ hồn chỉnh và rút gọn, tạo cơ sở để tiếp cận các phương pháp hồn chỉnh và mở rộng truy vấn. Phần hai trình bày các phương pháp hồn chỉnh và rút gọn truy vấn. Phương pháp hồn chỉnh truy vấn đĩng vai trị quan 12 trọng ảnh hưởng tích cực đến vấn đề làm đầy đủ thơng tin hơn cho một truy vấn. Cịn phương pháp rút gọn truy vấn sẽ gĩp phần tạo nên một truy vấn cơ đọng nhưng vẫn đầy đủ thơng tin hơn. Những phương pháp này đã gĩp phần giải quyết mục tiêu tạo truy vấn hồn chỉnh của Bài tốn 2 nêu trên, đồng thời đã được giới thiệu trong [v] và [xii]. Chương 6 trình bày phương pháp mở rộng truy vấn trực tiếp và gián tiếp . Trong đĩ, phương pháp đầu tiên quan tâm đến việc kết hợp ontology OOMP, để bổ sung các thơng tin về đối tượng, thành phần cùng thuộc tính đặc trưng vào truy vấn ban đầu. Từ đĩ, các truy vấn đã được mở rộng cĩ thể tương tác với các động cơ tìm kiếm thơng tin cĩ sẵn để khai thác thơng tin trên Web. Phương pháp thứ hai thực hiện việc kết hợp ontology OOMP với hệ thống chỉ mục của một hệ thống truy xuất thơng tin cĩ sẵn để tạo chỉ mục hướng ngữ nghĩa từ đĩ mở rộng tập dữ liệu truy xuất được. Mục tiêu mở rộng truy vấn và mở rộng kết quả tìm kiếm của Bài tốn 2 được giải quyết bởi hai phương pháp này với những kết quả ban đầu được giới thiệu trong [iv] và [ix]. Ngồi ra [iii] và [viii] trình bày các phát triển từ hướng tiếp cận chỉ mục hướng ngữ nghĩa để áp dụng cho cơng trình [xiii]. Chương 7 là phần tổng kết, trong đĩ trình bày tĩm lược kết quả luận án và những đề nghị hướng nghiên cứu trong tương lai, liên quan đến luận án. Ngồi những kết quả nêu trong các chương trên đã được trình bày trong cơng trình [xii], những kết quả bước đầu của hướng nghiên cứu tiếp theo cũng được giới thiệu trong [i], [iii], [vii], [viii], [x], [xi] và dự định áp dụng cho cơng trình [xiii]. Phần cuối của luận án là các phụ lục. Trong đĩ, phụ lục A trình bày tĩm lược về WordNet. Phụ lục B giới thiệu cấu trúc cụm danh từ tiếng Anh. Phần phụ lục C và D lần lượt trình bày danh mục các từ loại tiếng Anh và tập luật sinh trong văn phạm tiếng Anh dựa trên Penn TreeBank. Phụ lục E tĩm lược kiến thức về khái niệm ảnh và tạo ảnh của ánh xạ trong tốn học. Phụ lục F giới thiệu cấu trúc định dạng tài liệu trong nguồn tài liệu TREC. Phần cuối là phụ lục G cung cấp sơ đồ minh hoạ về tổ chức cơ sở dữ liệu thực nghiệm của luận án. 13 1.5 Các quy ước Các khái niệm hay thuật ngữ được sử dụng trong luận án được đồng thời ghi cả bằng tiếng Việt và tiếng Anh (hoặc ký hiệu viết tắt tương ứng nếu cĩ) ở lần liệt kê đầu tiên trong luận án, sau đĩ chúng sẽ được dùng thống nhất theo một tên gọi tiếng Việt hay tiếng Anh. 1.6 Tĩm tắt nội dung luận án Truy vấn tiếng Anh (dạng cụm danh từ) Ontology OOMP (Ch.4: gt.CB-KBT, gt.WB-KBT, gt.A-KBT) Bài tốn 1: xây dựng ontology OOMP Xây dựng chỉ mục hướng ngữ nghĩa (Ch.6: gt.SIC) Tìm kiếm mở rộng (Ch.6: gt.HS) Bài tốn 2B: mở rộng truy vấn dựa trên ontology OOMP (cục bộ) Kho ngữ liệu TREC (c) Truy vấn hồn chỉnh [ từ (a) ] hoặc truy vấn rút gọn [ từ (b) ] Động cơ tìm kiếm thơng tin cục bộ (ISE) (Ch.3) Tập chỉ mục [ tạo từ (c) ] Kết quả & đánh giá (thực nghiệm trong các chương 5, 6) Truy vấn hồn chỉnh? (Ch.5: gt.CNPV) Hồn chỉnh truy vấn (Ch.5: gt.NPC) Rút gọn truy vấn (Ch.5: gt.NPMR) Mở rộng truy vấn (Ch.6: gt.SNPE) Y N Tạo truy vấn hồn chỉnh (a) (Ch.5: gt.CNPG) Tạo truy vấn rút gọn (b) (Ch.5: gt.CNPG) Bài tốn 2A: mở rộng truy vấn dựa trên ontology OOMP (tồn cục) Chương 3 giới thiệu: - Các định nghĩa lý thuyết về dạng quan hệ ngữ nghĩa, dạng mơ hình mở rộng truy vấn - Phương pháp đánh giá thực nghiệm - Nguồn dữ liệu thực nghiệm và các hỗ trợ Viết tắt: Ch=chương, gt=giải thuật Một phần kết quả cơng bố trong [ii], [iv], [v] và [ix] Một phần kết quả cơng bố trong [iv] và [ix] Một phần kết quả cơng bố trong [iv], [ix] Hình 1.2. Tĩm tắt phân bố nội dung các vấn đề trình bày trong luận án 14 Chương 2 CÁC NGHIÊN CỨU LIÊN QUAN 2.1 Giới thiệu Nội dung trong chương 2 là phân tích một số nghiên cứu liên quan đến luận án theo hướng mở rộng truy vấn dựa trên ontology và khai thác WordNet để phục vụ cho việc huấn luyện ontology. Mục đích của việc phân tích nhằm xác định những ưu điểm của các nghiên cứu cĩ ảnh hưởng tích cực đến hướng nghiên cứu của luận án cũng như những hạn chế và các khĩ khăn, để từ đĩ luận án đưa ra các giải pháp nhằm giảm thiểu những tác động khơng tích cực. Trong chương này, phần 2.2 trình bày tĩm lược về các nghiên cứu trong nước cĩ liên quan đến luận án. Phần 2.3 giới thiệu một số nghiên cứu về ontology và những vấn đề liên quan đồng thời cung cấp các kiến thức tổng quan về ontology, để từ đĩ làm cơ sở cho việc phát triển ontology của đối tượng – thuộc tính – tính chất đặc trưng (Ontology of Object – Member – Property, OOMP) đề xuất trong chương 4. Phần 2.4 sẽ đặt vấn đề về bài tốn mở rộng truy vấn theo một số cách tiếp cận khác nhau để làm rõ cơ sở lý thuyết của phương pháp mở rộng truy vấn dựa trên ontology (ontology-based query expansion) cũng như sự đĩng gĩp của ontology trong việc giải quyết bài tốn mở rộng truy vấn. Với cấu trúc và nội dung được trình bày như trên sẽ đưa đến phương pháp hồn chỉnh mở rộng truy vấn mà luận án đề xuất trong chương 5 và 6. Cuối cùng phần 2.5 trình bày các khảo sát tiếp theo về vấn đề khai thác dữ liệu và quan hệ ngữ nghĩa trong WordNet để huấn luyện dữ liệu cho ontology chuyên dụng. Thơng qua phần này, tác giả sẽ làm sáng tỏ phương pháp huấn luyện ontology OOMP của luận án trong chương 4. 15 2.2 Các nghiên cứu liên quan trong nước 2.2.1 Tĩm lc v nhng nghiên cu liên quan Ở Việt nam hiện cĩ các nhĩm nghiên cứu với nhiều cơng trình cơng bố trong và ngồi nước. Tuy hướng nghiên cứu và kết quả cơng bố của những nhĩm này khơng hồn tồn liên quan đến các bài tốn mở rộng truy vấn của luận án, nhưng trong mỗi hướng xử lý cĩ liên quan đến một số phần của luận án về ontology, truy xuất và rút trích thơng tin cũng như ứng dụng xử lý ngơn ngữ tự nhiên. Họ đã đạt được những kết quả quan trọng cùng với nhiều cơng trình khoa học cơng bố trong và ngồi nước, được tĩm lược như sau: − Đại học Bách khoa Tp.HCM: o Nhĩm 1- PGS.TS.Phan Thị Tươi: Xử lý ngơn ngữ tự nhiên (dịch máy, truy xuất và rút trích thơng tin, phân loại văn bản), Web ngữ nghĩa. o Nhĩm 2 - PGS.TS.Cao Hồng Trụ, TS. Quản Thành Thơ: Web ngữ nghĩa (semantic web), truy xuất– rút trích thơng tin về thực thể cĩ tên (named-entity). o Nhĩm 3 - TS.Đặng Trần Khánh: Khai thác và thơng tin ngữ nghĩa và bảo mật thơng tin. − Đại học Cơng nghệ Thơng tin Tp.HCM: o Nhĩm 4 - PGS.TS.Đỗ Phúc: Xử lý ngơn ngữ tự nhiên (dịch máy, tĩm lược văn bản, rút trích thơng tin, khai khống dữ liệu (data mining)) o Nhĩm 5 - TS.Nguyễn Tuấn Đăng: Xử lý ngơn ngữ tự nhiên (dịch máy, truy xuất thơng tin, thư viện số (digital library)). − Đại học Khoa học Tự nhiên Tp.HCM o Nhĩm 6 - PGS.TS.Đinh Điền: Xử lý ngơn ngữ tự nhiên (dịch máy, ngữ pháp tiếng Việt), WordNet. o Nhĩm 7 - PGS.TS.Đồng Thị Bích Thủy, TS.Hồ Bảo Quốc: Truy xuất thơng tin, truy xuất thơng tin xuyên ngơn ngữ. − Viện Cơng nghệ Thơng tin Việt nam: 16 o Nhĩm 8 - PGS.TS. Lương Chi Mai: Xử lý ngơn ngữ tự nhiên (dịch máy, ngữ pháp tiếng Việt), xử lý tiếng nĩi. − Phân viện Cơ học và Tin học Ứng dụng Tp. HCM: o Nhĩm 9 - TS. Nguyễn Xuân Dũng: Xử lý ngơn ngữ tự nhiên (dịch máy, ngữ pháp tiếng Việt) − Viện JAIST (Nhật bản): o Nhĩm 10 - GS.TS.Hồ Tú Bảo, TS. Nguyễn Lê Minh: Xử lý ngơn ngữ tự nhiên (dịch máy, tĩm lược văn bản, rút trích thơng tin). − Một số nhĩm nghiên cứu khác ở trong và ngồi nước với những nghiên cứu liên quan đến tiếng Việt. Cơng trình [24] năm 2009 của Nhĩm 1 là một nghiên cứu về việc ứng dụng kết hợp ontology và xử lý ngơn ngữ tự nhiên vào việc xác định các cụm từ đặc trưng trong một câu văn bản. Trong phương pháp xử lý, họ đã khai thác Wikipedia tiếng Việt để phục vụ việc xây dựng một danh mục từ tiếng Việt đồng thời hỗ trợ huấn luyện ontology ViO &ViDic. Kết quả đạt được của nhĩm này tương đối khả quan với độ chính xác 89.6% và độ bao phủ 87.8% trên tập dữ liệu thử nghiệm 2079 câu truy vấn trong ngơn ngữ tiếng Việt. Một định hướng nghiên cứu mà nhĩm này cần thực hiện trong tương lai là việc mở rộng khả năng xử lý cho câu truy vấn dài hay cĩ dạng phức tạp. Một số kết quả khác từ nhĩm này gồm cơng trình [2] [3] [5] [6] [23] [24] (trong các năm 2007-2009) và [133] (năm 2009-2010) phản ánh hướng nghiên cứu nhiều triển vọng liên quan đến ứng dụng xử lý ngơn ngữ tự nhiên trong các vấn đề khai thác, phân tích và xử lý thơng tin tiếng Việt. Các nghiên cứu tiếp theo của Nhĩm 2 theo định hướng xây dựng và phát triển chuyên sâu về bài tốn thực thể cĩ tên và ontology VN-KIM, để từ đĩ đề xuất các dạng ứng dụng truy xuất thơng tin liên kết với ontology đĩ. Cơng trình [42] (năm 2008) của nhĩm này giới thiệu tổng thể về việc xây dựng, huấn luyện và quản trị ontology VN-KIM KBM dựa trên cơ sở lý thuyết về các nghiên cứu và thực thể cĩ tên cùng những quan hệ ngữ nghĩa tương ứng cùng nền tảng Sesame cùng cơ chế phịng chống lỗi khác hiệu quả. Từ cơ sở này, kết quả từ [63] đã phát triển theo một 17 định hướng mới dựa trên việc tiếp cận khai thác dữ liệu từ Wikipedia nhằm phục vụ bài tốn khử nhập nhằng tự động cho thực thể cĩ tên. Đây là một trong những định hướng mới của nhĩm này. Cơng trình [131] (năm 2008) khảo sát các hướng nghiên cứu khác nhau về mở rộng mơ hình khơng gian véc-tơ trong lĩnh vực truy xuất thơng tin, từ đĩ đề xuất mở rộng cho mơ hình này thơng qua việc kết hợp với ontology theo hướng xử lý thơng tin về thực thể cĩ tên. So sánh với Lucene, mơ hình này đạt được nhiều ưu điểm hơn trong việc truy xuất văn bản, biểu diễn văn bản và truy vấn. Một nghiên cứu khác của nhĩm này là [132] (năm 2008) đề xuất một phương pháp chuyển đổi truy vấn dạng ngơn ngữ tự nhiên sang dạng biểu diễn đồ thị ý niệm, để từ đĩ tìm kiếm thơng tin trong ontology nhằm phục vụ việc tìm kiếm hướng ngữ nghĩa. Việc thực nghiệm cho phương pháp này bước đầu được tiến hành trên tập dữ liệu TREC 2002 cùng TREC 2007 và đang được mở rộng. Nghiên cứu [85] của Nhĩm 3 quan tâm xử lý bảo mật cho cây chỉ mục dữ liệu thơng qua việc cải tiến hệ thống dựa trên các tính chất dữ liệu. Qua đĩ cho thấy vai trị quan trọng của hệ thống chỉ mục cùng những khả năng cải tạo và tái cấu trúc hệ thống chỉ mục trong một hệ thống thơng tin. Trong năm 2008 và 2009, Nhĩm 4 cĩ nghiên cứu [26] [32] [33] [34] [35] [36] [37] [38] [39] [40] và [41] theo hướng ứng dụng xử lý ngơn ngữ tự nhiên vào việc phát triển hệ thống truy xuất thơng tin (xuyên ngơn ngữ) và hệ thống hỏi đáp hỗ trợ tiếng Việt. Các kết quả đạt được của nhĩm này cho thấy một triển vọng rất lớn trong việc ứng dụng xử lý ngơn ngữ tự nhiên vào các lĩnh vực khác nhau. Cơng trình [128] của nhĩm Thành Trần tập trung theo hướng thư viện số với một hướng tiếp cận đề xuất về truy vấn thơng tin chuyên biệt dựa trên ontology để xử lý truy vấn ở dạng tự nhiên dựa trên đồ thị ý niệm. Kết quả thực nghiệm cho thấy đây là phương pháp cĩ nhiều triển vọng trong việc mang lại kết quả tìm kiếm tốt hơn cho người sử dụng. Một nghiên cứu khác, [47], của nhĩm Dung Tran về hướng rút trích thơng tin trong lĩnh vực chăm sĩc sức khỏe. Nghiên cứu này sử dụng ontology để phục vụ giải thuật “Semantic Elements Extracting” và “New Semantic Elements Learning”, 18 qua đĩ rút trích các thơng tin về khái niệm, mơ tả khái niệm, liên kết giữa khái niệm và mơ tả, tên bệnh từ các trang web. Thực nghiệm của họ trên dữ liệu tiếng Việt cho thấy phương pháp tối ưu với việc khai thác thơng tin và làm giàu ontology cĩ độ chính xác cao. Các nghiên cứu gần đây của nhĩm 4 đều tập trung xử lý những bài tốn con trong lĩnh vực xử lý ngơn ngữ tự nhiên như rút trích thơng tin và phân loại văn bản. Cơng trình [104] đề xuất một hệ thống gom nhĩm đồ thị dựa trên phương pháp gom nhĩm tài liệu tương tự và từ đĩ rút trích các ý tưởng chính . Đây là một hướng nghiên cứu khá mới về rút trích thơng tin thơng qua việc sử dụng đồ thị để biểu diễn các tài liệu và quan hệ ngữ nghĩa nhằm khắc phục các nhược điểm của những giải pháp truyền thống như vị trí từ, quan hệ nghĩa giữa các từ … Từ đĩ, họ đề xuất dùng một bảng đồ tự tổ chức (Self Organizing Map, SOM) với tầng dữ liệu xuất hai chiều để phục vụ việc gom nhĩm đồ thị. Dựa trên SOM, họ triển khai các tính tốn về khoảng cách đồ thị (graph distance) dựa trên các đồ thị con chung cực đại cùng đồ thị ngữ nghĩa trọng số (weighted means graphs) cùng giải thuật Gen để giải quyết vấn đề rút trích thơng tin chính yếu của tài liệu. Nghiên cứu [105] quan tâm đến vấn đề phân loại văn bản. Dựa trên các kỹ thuật và cơng cụ trong lĩnh vực xử lý ngơn ngữ tự nhiên, hướng tiếp cận của họ quan tâm đến việc biểu diễn mơ hình xác suất Nạve Bayes dựa trên các danh từ và cụm danh từ rút trích từ những mẫu tin. Qua đĩ, cùng với các quan hệ ngữ nghĩa giữa các khai thác được, họ đã cải thiện đáng kể được chất lượng của việc phân loại văn bản. Một nghiên cứu của nhĩm 7 là [134] (năm 2008) trong lĩnh vực truy xuất thơng tin xuyên ngơn ngữ (Cross-Language Information Retrieval) hướng đến việc chuyển ngữ các thành phần của truy vấn trong hệ thống truy xuất thơng tin xuyên ngơn ngữ Anh-Việt. Ngồi từ điển song ngữ, nhĩm này cịn xây dựng kho ngữ liệu song ngữ Anh-Việt (dựa trên cơ sở khai khống dữ liệu web). Từ đĩ, ba phương pháp đề xuất liên quan đến việc chỉ sử dụng từ điển, hay chỉ sử dụng kho ngữ liệu song ngữ, hoặc kết hợp kho ngữ liệu song ngữ để khử nhập nhằng trong bước chuyển ngữ dựa trên từ điển. Kết quả thử nghiệm của cơng trình này cho thấy 19 phương pháp đề xuất rất khả thi và ảnh hưởng tích cực đến việc phát triển hệ thống lĩnh vực truy xuất thơng tin xuyên ngơn ngữ Anh-Việt. Nghiên cứu [64] của nhĩm Hồng Hữu Hạnh ở Đại học Huế về khung ứng dụng ngữ nghĩa quản lý thơng tin cục bộ (SemaDesk) theo hướng ứng dụng các kết quả nghiên cứu về Web ngữ nghĩa. Hướng tiếp cận của họ bao gồm thực hiện phân tích và chú giải cho truy vấn của người dùng, từ đĩ kết hợp tìm kiếm mở rộng kết quả dựa trên ontology và kết hợp với động cơ tìm kiếm thơng tin cục bộ của Google (Google Desktop Search [148]). Nghiên cứu này được cài đặt và thử nghiệm chỉ trên dữ liệu cá nhân tiếng Anh trong máy tính cá nhân của người sử dụng. Cuối cùng là các nghiên cứu [3] và [16] của nhĩm 8, nhĩm 9 và nhĩm 10 về hướng ứng dụng xử lý ngơn ngữ tự nhiên tiếng Việt. Kết quả từ các nghiên cứu này đã gĩp phần vào đặt nền mĩng cho các hướng nghiên cứu liên quan tiếng Việt. 2.2.2 Mt s vn đ c a nhng nghiên cu trong n c cĩ liên quan đ n phơng pháp nghiên cu c a lun án Những hướng nghiên cứu nêu trên tuy khơng hồn tồn liên quan đến vấn đề mở rộng truy vấn của luận án, nhưng kết quả của một số phần của các nghiên cứu trên về ontology, truy xuất và rút trích thơng tin cũng như ứng dụng xử lý ngơn ngữ tự nhiên (đặc biệt cho tiếng Việt) đã được luận án tham khảo, áp dụng, cụ thể trong việc phân đoạn từ, gán nhãn từ loại và rút trích thơng tin từ văn bản, từ đĩ phục vụ phương pháp CB-KBT huấn luyện ontology OOMP trong chương 4 của luận án. 2.3 Các nghiên cứu về ontology Phần này trình bày các khái niệm về ontology và những nghiên cứu liên quan nhằm làm rõ hơn các ưu điểm và hạn chế của ontology và khả năng áp dụng chúng vào luận án. 2.3.1 Khái nim v ontology Khái niệm ontology được nhiều nhĩm nghiên cứu định nghĩa. Năm 2002, Bates đề xuất rằng một ontology sẽ được mơ tả một cách chính xác hơn (như) là 20 “một sự phân loại, các từ điển chuyên ngành hay là tập các nhĩm khái niệm”i. Một định nghĩa khác của ontology là sự phân loại, các danh mục của các thuật ngữ chỉ mục, hay các cụm thuật ngữ khái niệmj (trích từ nguồn [30]). Một ontology là một mơ hình của thực tế, nhưng tự nĩ khơng là thực tế. Bates (trong cơng bố [93] năm 2002) cũng đề nghị dùng một khái niệm mới thay ontology. Theo đĩ, hệ thống nên được gán một nhãn mơ tả chính xác hơn – một sự phân loại, các từ điển chuyên ngành hay là tập các cụm khái niệm (trong cơng trình [31] của Soegel, năm 1999). Theo [10] (2001) của Leger và cộng sự, các ontology cải thiện độ chính xác trong tìm kiếm thơng tin mờ và thuận tiện hố việc đối thoại đơn-đa ngơn ngữ người-máy bởi diễn giải truy vấn của người dùng thơng qua các sự nhận dạng ngữ cảnh và khử nhập nhằng. Năm 2003, Guber [130] định nghĩa một ontology là một đặc tả của khái niệm, và giải thích rằng các ontology được sử dụng trước tiên trong triết học rồi đến trí tuệ nhân tạo. Trong ngơn ngữ tự nhiên, một từ cĩ thể cĩ nhiều nghĩa phụ thuộc trên ngữ cảnh thích hợp. Ontology là một tổ chức chặt chẽ và tồn diện về một hoặc vài miền tri thức, bao gồm các thực thể tương ứng trong miền đĩ và các mối quan hệ giữa chúng. Trong ngành khoa học máy tính, ontology là một kho dữ liệu biểu diễn một tập các khái niệm và các quan hệ, dùng để mơ tả, định nghĩa các tính chất của miền (domain). Ontology cung cấp những từ vựng và cách biểu diễn thơng tin cần thiết, phù hợp cho việc giao tiếp tường minh trong một miền tri thức. Ontology cải tiến tính chính xác trong tìm kiếm thơng tin mờ và làm cho việc đối thoại giữa người và máy dễ dàng hơn bằng cách chú giải câu truy vấn của người dùng thơng qua việc xử lý nhập nhằng và xác định ngữ cảnh. Trong ngơn ngữ tự nhiên, một từ cĩ thể cĩ nhiều nghĩa phụ thuộc vào ngữ cảnh. Theo đĩ, ontology cĩ thể cung cấp ngữ cảnh liên quan để hỗ trợ xác định nghĩa phù hợp cho từ. Trong một hệ thống máy tính, ngữ cảnh cĩ thể được biểu diễn hay ràng buộc bởi một i Nguyên văn: “a classification, thesaurus or a set of concept clusters” j Nguyên văn: “classification, lists of indexing terms, or concept term clusters” 21 ontology, vì thế mơ hình ontology hiệu quả trong việc xử lý nhập nhằng về nghĩa của từ trong một câu bất kỳ. 2.3.2 Tính cht và các vn đ liên quan đ n ontology Các ontology cĩ dạng tổng quát (general ontology) hoặc dạng chuyên biệt (specific ontology). WordNet, EuroWordNet và Cyc là các ví dụ của ontology tổng quát. Nhiều ontology chuyên biệt đã được xây dựng, ví dụ như ontology về y khoa và luật pháp. Trong [99], năm 2003 Buckland phân biệt ba kiểu ontology là: − Ontology tiên đề: chứa các khái niệm trừu tượng được hợp lý hố từ các biện giải (reasoning); − Ontology thuật ngữ: bao gồm cấu trúc của các khái niệm từ vựng (lexicalised concepts). − Ontology về lĩnh vực (domain ontology): thể hiện hệ thống tổ chức tri thức dùng cho các mục đích cung cấp tài liệu cho một vấn đề, như là hệ thống Dewey Decimal Classification (DDC) sử dụng chú thích dạng số để biểu thị số lượng khơng giới hạn các chủ đề với chỉ mục ngơn ngữ tiếng Anh cho các số phân loại. Cũng theo Buckland, các kiểu phân biệt nêu trên dẫn đến các phân loại ontology gồm: − Axiomatic: chứa các khái niệm trừu tượng. − Terminological: gồm cấu trúc của những khái niệm được từ vựng hĩa. − Domain: biểu diễn những hệ thống tổ chức tri thức dùng cho mục đích lưu trữ, tài liệu). Kashyap [136] (cơng bố năm 2001) đề nghị một giải pháp xây dựng ontology từ việc sử dụng lại những thơng tin cĩ sẵn dựa trên nền tảng cơ sở dữ liệu quan hệ như các giản đồ (schema), truy vấn của người dùng, từ điển dữ liệu (data dictionary) và từ điển thuật ngữ (thesauri). Tuy cơng trình này khơng nêu bật được kết quả thực nghiệm liên quan, nhưng kết quả của nghiên cứu này cho thấy tính khả thi của phương án đề xuất về mặt thực tiễn, đặt cơ sở cho các nghiên cứu khác. 22 Ưu điểm của ontology là tính sẵn sàng, nhiều cơng cụ phần mềm cĩ sẵn, hỗ trợ hoặc tạo mới ontology. Ngồi ra, những ưu điểm hứa hẹn khác như: − Cĩ khả năng sẵn sàng cho việc truy cập (theo Bateman [74], năm 2005). − Cĩ khả năng chứa số lượng lớn các danh từ riêng, tên cá nhân nơi chốn. − Cĩ nhiều phần mềm trợ giúp tạo tự động và hỗ trợ phát triển của ontology. − Hầu hết các ontology được biểu diễn trong một ngơn ngữ khả chuyển như là XML [164] hoặc các ngơn ngữ phát triển trên nền tảng XML như RDF [159], OWL [155]. Nhờ đĩ, các tính năng của XML cĩ thể được dùng để thực hiện sự thay đổi trong việc phát triển các ontology. Tuy nhiên, như đã nêu trong phần trên, ontology cũng cĩ một số hạn chế sau: − Từ vựng khơng phù hợp giữa từ khĩa trong truy vấn và ngữ cảnh, cần một quá trình ánh xạ để xử lý cho trường hợp này. − Sự khơng tương thích giữa các thuật ngữ (của) truy vấn và các khái niệm trong ontology. Giải pháp xử lý là cần cĩ một quy trình liên kết nhằm giải quyết vấn đề này. − Nếu một ontology cho một miền cụ thể chưa tồn tại thì phải hao tốn rất nhiều cơng sức cần thiết cho việc xây dựng ontology từ đầu khơng chỉ từ quan điểm kỹ thuật mà cịn từ quy trình rút trích tri thức từ các chuyên gia và sự đồng thuận trong cách nhìn nhận. Ontology cũng được sử dụng cho các nghiên cứu về truy xuất thơng tin như tĩm lược theo chủ đề (thematic summarisation), khử nhập nhằng nghĩa của từ (word sense disambiguation), lập chỉ mục, phân loại văn bản, truy vấn hình ảnh, truy xuất thơng tin xuyên ngơn ngữ, và mở rộng truy vấn. Mơ tả chi tiết cho mở rộng truy vấn sẽ được trình bày trong các mục tiếp theo. 2.3.3 Ontology và phơng pháp ti p cn c a lun án Với những phân tích nêu trên về các ưu nhược điểm của ontology đã giúp xác định những tiêu chí để xây dựng ontology OOMP trong Bài tốn 1 của luận án, cụ thể như sau: 23 − Khả năng xây dựng, phát triển tự động và bán tự động; − Khả năng tổ chức lưu trữ và sẵn sàng cho việc sử dụng; − Khả năng đáp ứng nguồn tri thức phong phú với độ tin cậy cao; − Đồng thời giảm thiểu các chi phí và cơng sức cho việc huấn luyện, làm giàu nội dung cho ontology. Những tiêu chí này cĩ ý nghĩa quan trọng đến hướng giải quyết Bài tốn 1 của luận án (trình bày ở chương 4) trong việc tổ chức cấu trúc của ontology và đề xuất những phương pháp huấn luyện CB-KBT, WB-KBT và A-KBT. Ngồi ra, phương pháp tìm kiếm chuyên sâu là một tham khảo phù hợp cho cách tiếp cận mở rộng truy vấn theo hướng gián tiếp (thơng qua giải thuật HSk trong chương 6) của luận án, vì chúng dựa trên việc định vị các thơng tin đặc biệt. Tuy nhiên, một giải pháp kết hợp (trình bày trong giải thuật SIC ở chương 6) về việc định vị các mục thơng tin (trong kho tài liệu) kết hợp với ontology sẽ cĩ thể giúp việc tìm kiếm chuyên sâu thu thập được nhiều thơng tin hữu ích hơn và ảnh hưởng tích cực đến chất lượng của quá trình tìm kiếm thơng tin của người dùng. 2.4 Các nghiên cứu về mở rộng truy vấn Nhiều nghiên cứu trên thế giới đề xuất các nhĩm giải pháp và hướng tiếp cận khác nhau cho bài tốn mở rộng truy vấn. Mỗi nhĩm phương pháp cĩ ưu nhược điểm riêng. Từ nghiên cứu [67], phần 2.4.1, 2.4.2 và 2.4.3 trình bày những phương pháp và các phân tích về mở rộng truy vấn. Tiếp theo, phần 2.4.4 sẽ nhấn mạnh các yếu tố ảnh hưởng đến sự thành cơng của những phương pháp mở rộng truy vấn dựa trên ontology. Cuối cùng, mục 2.4.5 tĩm lược những phương pháp được luận án áp dụng và phát triển. 2.4.1 Nhĩm phơng pháp m rng truy vn s dng mơ hình tri thc ph thuc kho ng liu Những phương pháp mở rộng truy vấn trong nhĩm này được trình bày trong phần 2.4.1.1 và 2.4.1.2. Việc mở rộng truy vấn theo hướng sử dụng mơ hình tri thức k HS là tên viết tắt của cụm từ “Hybrid Search” 24 phụ thuộc kho ngữ liệu sẽ phù hợp hơn cho nhĩm tài liệu tĩnh. Với các nhĩm tài liệu web trên internet, các mơ hình này phải được tái-tạo và cập nhật thường xuyên vì tập tài liệu luơn biến đổi linh động trong tự nhiên. Nếu các cụm từ đề xuất cĩ tính chọn lọc nhiều hơn do giá trị IDF (inverse-document frequency) cao hơn, thì phạm vi của mở rộng truy vấn dựa trên cụm từ cĩ thể được nghiên cứu sâu hơn. 2.4.1.1 Phương pháp sử dụng cụm từ dựa trên từ đồng hiện trong mở rộng truy vấn Từ đồng hiện tham chiếu đến hai hay nhiều từ được xuất hiện cạnh nhau hay gần các từ khác trong tài liệu nguồn. Nghiên cứu [11] (năm1983) về mở rộng truy vấn của Smeaton và Van Rijsbergen chỉ thu được mức cải thiện rất ít khi dùng các từ mới được tạo từ những cây mở rộng cực đại (maximum spanning trees). Cơng trình [61] (1991) của Peat và Willett cho thấy rằng khi các từ cĩ tần xuất cao khơng phân biệt giữa tài liệu liên quan và khơng liên quan, thì việc thêm vào những từ này cho việc mở rộng truy vấn là khơng hiệu quả. Năm [22] (1996), Schatz và cộng sự sử dụng hai đề xuất bổ sung là: − Từ điển chuyên đề chủ đề (subject thesauri): được tạo bởi các chuyên gia dựa trên kiến thức chủ đề để quyết định vị trí một từ trong phân cấp chỉ mục. − Danh mục đồng hiện (co-occurence list): được máy tính tạo ra trong đĩ các từ được đặt theo thứ tự tần xuất đồng hiện. Kết luận của họ là trong từ điển chuyên đề càng cĩ nhiều khái niệm do các chuyên gia lập chỉ mục xây dựng thì kết quả tìm kiếm càng cĩ chất lượng tốt hơn. Năm 1999, Mandala [106] đề nghị nên sử dụng tích hợp các kỹ thuật mở rộng truy vấn sẽ tốt hơn thay vì sử dụng các kỹ thuật một cách riêng lẻ. Tương tự, cơng bố [141] của nhĩm Huang năm 2005 cho ra các kết quả thực nghiệm dựa trên sự kết hợp phương pháp tạo chỉ mục cho từ khố và cho khái niệm. Nghiên cứu [137] (2000) của Chu giới thiệu một kỹ thuật mở rộng truy vấn dựa trên tri thức để cải tiến hiệu quả truy vấn tài liệu, theo đĩ các thuật ngữ cĩ khái niệm tổng quát trong một truy vấn lại được thay thế bằng một tập các thuật ngữ cĩ khái niệm cụ thể (detail concept term) của kho ngữ liệu các từ đồng xuất hiện với 25 ngữ cảnh truy vấn cụ thể. Thực nghiệm của phương pháp này cho thấy sự hiệu quả của mở rộng truy vấn, nhưng cũng chỉ ra rằng độ truy hồi bị suy giảm trong trường hợp truy vấn cĩ các từ đặc biệt. Phương pháp này chỉ thích hợp cho các trường hợp khi độ chính xác quan trọng hơn độ truy hồi. Năm 2003, Vechtomova [102] giới thiệu hướng tiếp cận mới cho mở rộng truy vấn với việc gom nhĩm từ thơng dụng (long-span collocates) theo phương pháp tồn cục và cục bộ, khi các từ đồng hiện với mức đáng kể trong các cửa sổ chủ đề (topic-size windows) với các từ trong truy vấn. Thực nghiệm của họ cho thấy rằng kết quả truy hồi được từ những truy vấn đã mở rộng của phương pháp tồn cục thể hiện chất lượng kém hơn và phương pháp cục bộ cho kết quả tốt hơn. Tuy nhiên nếu các tài liệu thuộc nhĩm trên khơng đủ phong phú và phù hợp thì phương pháp này cĩ thể vẫn loại bỏ những tài liệu thực sự cĩ liên quan đến truy vấn. Một vấn đề cĩ ảnh hưởng đến độ phức tạp của giải thuật mở rộng truy vấn là cụm từ tổ hợp (compositional) hay khơng tổ hợp. Với cụm từ tổ hợp, mỗi từ trong cụm cĩ thể được mở rộng bằng từ thay thế mà cụm mở rộng sau cùng sẽ giữ được nghĩa. Nhĩm của Cui [78] (2003) nhận biết các cụm từ bằng việc sử dụng n-gram trong danh mục lưu trữ truy vấn (query log). Các tìm kiếm tổng quát cho thấy các cụm ngắn sẽ thể hiện chính xác hơn thơng tin được yêu cầu, và cĩ hệ số tần xuất nghịch đảo tài liệu (IDF) cao hơn. Trong [86] (2005), Eguchi nêu rõ mở rộng truy vấn bằng các cụm từ cùng với thơng tin phản hồi giả lập (pseudo relevance feedback) sẽ tốt hơn dùng các cụm từ đứng đơn lẻ. Một trường hợp đặc biệt trong mở rộng truy vấn là sử dụng cụm từ thành ngữ (idiomatic phrase). Đây là dạng cụm từ diễn đạt nghĩa cho tồn bộ cụm nghĩa cụm từ mà khơng được tạo bởi nghĩa của từng từ trong cụm. Lin định nghĩa (trong [45], 1999) cụm từ thành ngữ là cụm mà thơng tin chung của nĩ khác một cách rõ nét với thơng tin chung của các cụm thu được bằng việc thay thế một từ trong cụm bởi từ khác tương tự. Ví dụ, cụm red tape cĩ thể được dùng để tham khảo đến nghĩa cơng việc bàn giấy. Nếu thay màu đỏ (red) bởi màu khác, ví dụ yellow tape thì cụm này sẽ khơng cĩ nghĩa như nghĩa ban đầu. 26 2.4.1.2 Phương pháp sử dụng các cấu trúc nút khái niệm trong mở rộng truy vấn Mạng từ vựng (lexical network) là một nguồn ngữ liệu quan trọng cho việc rút trích nghĩa của từ. Chúng chứa các tập từ vựng của miền đặc trưng (domain- specific vocabulary) và các quan hệ, được tự động rút trích từ các tập tài liệu. Các cơng cụ phân tích văn bản cĩ thể được dùng để rút trích thơng tin từ các kho ngữ liệu nhằm phát triển tập từ vựng cho mạng từ vựng. Các mạng từ vựng đĩng vai trị quan trọng định hướng quá trình mở rộng truy vấn. Các quan hệ giữa các từ được tận dụng nhằm đề xuất các từ cần thêm vào truy vấn ban đầu. Trong những năm đầu thập niên 60 thế kỷ trước, ngữ cảnh từ được xếp vào phần từ vựng. Tuy nhiên đến những năm đầu thập niên 90, các nhà nghiên cứu nhận ra rằng nguồn tri thức từ vựng đầy đủ được đến từ chính các văn bản. Coates- Stephens ([113], 1991) thiết lập một giải thuật rút trích nghĩa của các danh từ riêng trong văn bản. Trong [69] (1995) nhĩm Pustejovsky đề xuất việc dùng tập từ vựng khả sinh (generative lexicon) để khử nhập nhằng nghĩa của từ. Trong nghiên cứu [68] (1992) của Callan đã trình bày hệ thống truy vấn “INQUERY” cung cấp các hỗ trợ truy vấn phức tạp. Hệ thống này dựa trên dạng mơ hình truy vấn xác suất gọi là mạng suy diễn (inference net) cĩ thành phần cho nhĩm tài liệu và cho mỗi truy vấn. Phương pháp mở rộng truy vấn của hệ thống này là kết hợp xử lý hình thái (morphological) và khả năng vận dụng các cụm từ. Các phân cấp khái niệm cĩ thể được dùng để thực hiện các kỹ thuật mở rộng truy vấn (như [95] của Sanderson, năm 2004). Với kỹ thuật này, thay cho việc tìm kiếm trên cơ sở chuỗi từ, việc tìm kiếm trên cơ sở khái niệm được tiến hành để tạo tự động ra nhiều kết quả tốt hơn những giải pháp trước đĩ (như [80] của Jarvelin năm 2001, [96] của Sanderson & Lawrie năm 2000, Alta Vista). 2.4.2 Nhĩm phơng pháp m rng truy vn s dng các mơ hình tri thc đc lp kho ng liu Các nghiên cứu trong nhĩm phương pháp này được phân loại như sau. 27 2.4.2.1 Phương pháp mở rộng truy vấn thơng qua xây dựng các ontology chuyên biệt độc lập với WordNet Việc thiết kế và xây dựng ontology miền chuyên biệt địi hỏi nhiều cơng sức và thời gian, như trình bày [136] của Kashyap năm 2001. Vì thế, Kashyap đề xuất một phương thức tạo ontology với sự tham gia của các chuyên gia ở mức độ tối thiểu bằng việc tái sử dụng các thơng tin sẵn cĩ một cách dễ dàng như các giản đồ, các truy vấn, các từ điển dữ liệu và từ điển chuyên đề. Việc hiện thực giải pháp này của Kashyap dựa trên lược đồ biểu diễn cơ sở dữ liệu thơng thường, điều này cĩ thể bị ảnh hưởng bởi tính chất rời rạc của nhĩm dữ liệu trong tổ chức cơ sở dữ liệu quan hệ, điều này tác động đến tính hiệu quả của ontology. Trong [29] (1999), Hwang đề xuất một phương pháp sinh tự động ontology dựa trên các từ hạt giống của các chuyên gia và áp dụng cho các tài liệu liên quan trên Web. Nhược điểm của phương pháp này là phụ thuộc hồn tồn vào từ hạt giống do chuyên gia cung cấp. Lame ([59], 2003) giới thiệu một phương pháp để xác định thành phần của ontology là dựa vào phân tích văn bản để rút trích các khái niệm và quan hệ giữa các khái niệm này và áp dụng để xây dựng một ontology chuyên dụng trong lĩnh vực luật pháp cho truy xuất thơng tin. Tuy nhiên hướng nghiên cứu tiếp theo mà nhĩm tác giả này đề xuất phần nào cho thấy ontology kết quả cần hồn thiện hơn về dạng quan hệ ngữ nghĩa. Giải pháp của nhĩm Saias ([76], 2002) là xây dựng tập luật suy diễn dựa trên phân tích các cụm động từ và những thành phần liên quan trong tài liệu. Phương pháp đề xuất trong [52] là một phần trong quá trình nghiên cứu đang hiện thực. Nĩ cần hồn thiện hơn về các khái niệm ngữ nghĩa và việc chuẩn hĩa chúng cũng như tương tác WordNet (bản tiếng Anh), và ngồi ra cũng cần cĩ giao diện thân thiện với ngơn ngữ tự nhiên hơn. Nhĩm nghiên cứu của Fu giới thiệu (trong [56] năm 2005) kỹ thuật mở rộng truy vấn dựa trên một ontology địa lý và lĩnh vực liên quan. Trong nghiên cứu của họ, một truy vấn được mở rộng dựa trên việc thu dấu vết địa lý. Thực nghiệm cho thấy phương pháp này cho kết quả tốt trong tìm kiếm thơng tin. Ưu điểm của 28 phương pháp này là dạng truy vấn định nghĩa cĩ cấu trúc bộ ba cĩ dạng <what, rel, where> cĩ khả năng bao quát các vấn đề cần tìm cũng như các thành phần quan hệ xác định. Tuy nhiên, quan hệ rel chỉ hỗ trợ trong vấn đề xác định phương hướng trong lĩnh vực địa lý. Việc tái định nghĩa quan hệ “rel” rất cần thiết khi ứng dụng và phát triển phương pháp này cho bài tốn khác. Đây cũng chính là một vấn đề hạn chế cần được quan tâm. Trong TREC Genomics Track năm 2003, nhĩm của Hersh [138] làm một thực nghiệm sử dụng các cụm từ dựa trên cơ sở các đồng nghĩa tên gen và một thực nghiệm khác đánh giá mở rộng truy vấn sử dụng các nguồn tri thức bên ngồi. Các kết quả cho thấy thực nghiệm đầu tiên tốt hơn thực nghiệm mở rộng truy vấn. Hersh, Bhupatiraju và Price kết luận rằng các kết quả mở rộng truy vấn cĩ thể được cải thiện nếu truy vấn là dành cho một cơng việc chuyên biệt. Kết quả thực nghiệm của nghiên cứu này cho thấy độ chính xác trung bình (Mean Average Precision, MAP) dao động từ 0,0741% đến 0,1747% trong thực nghiệm và từ 0,1584% đến 0,3351% trong huấn luyện. Kết quả này cho thấy cải tiến giải pháp nâng cao chất lượng thực nghiệm là một định hướng nghiên cứu cần thiết. Huang mơ tả trong [141] (2000) về các thư mục thừa kế như ontology của web. Mỗi nút trên hệ thống thừa kế này hoạt động như là một cổng của các nội dung liên quan đến một thể loại tài liệu riêng. Ưu điểm tiếp theo của các hệ thống thư mục thừa kế là chúng cĩ thể được tìm kiếm để trước tiên cung ứng một danh sách các đường dẫn chủ đề. Tuy nhiên, các thư mục thừa kế như vậy cần được giữ lại để chứa đựng các thơng tin mới nhất và quy trình cập nhật tự động được ưu tiên quan tâm trong bối cảnh web phát triển liên tục khơng ngừng so với việc cập nhập được thực hiện thủ cơng. Điều này hạn chế độ bao phủ trong miền tri thức liên quan của ontology mà giải pháp hướng tới, ảnh hưởng đến nội dung thơng tin được gom nhĩm theo chủ đề cũng như chất lượng thơng tin. Cơng trình [9] của Agrawal (1998) (được trích dẫn trong [89] bởi Huang năm 2000) mơ tả hệ thống TAPER như một ví dụ của hệ thống phân loại thơng tin tự động, trong đĩ cĩ hỗ trợ tổ chức lưu trữ thơng tin trong hệ thống chủ đề cĩ phân cấp thừa kế trong cơ sở dữ liệu kích 29 thước lớn cho văn bản. Kết quả thu được từ thực nghiệm nghiên cứu này cho thấy mức độ lỗi tỉ lệ nghịch với số nét ngữ nghĩa, tương ứng trong khoảng 25,1% cho 160 từ của nhĩm mẫu Patent, 11,7% cho 200 từ của nhĩm mẫu Communication, 17,8% cho 890 từ của nhĩm mẫu Electricity và 16,6% cho 9.130 từ của nhĩm mẫu Electronics. Ngồi ra, kết quả trung bình đạt được 76% về độ phủ và độ chính xác phản ánh độ tin cậy của nhĩm phương pháp trong TAPPER. Tuy nhiên, nghiên cứu này thiên về hướng nghiên cứu phân loại văn bản trong đĩ giải pháp Support Vector Machines [161] cĩ thể là một định hướng nghiên cứu hỗ trợ phát triển các kết quả hiện nay. 2.4.2.2 Phương pháp mở rộng truy vấn thơng qua việc sử dụng WordNet Ontology đã được sử dụng trợ giúp mở rộng truy vấn từ những năm đầu thập niên 1990 và đã cĩ một số thành cơng. WordNet là một ontology tổng quát phổ dụng dùng trong bài tốn mở rộng truy vấn và đã được áp dụng trong một số nghiên cứu sau. Trong [78] (1998), Gonzalo dùng bộ thử nghiệm khử nhập nhằng bằng tay cho truy vấn và các tài liệu thu được từ mục lục ngữ nghĩa SEMCOR trong nghiên cứu về khai thác WordNet phục vụ nâng cao chất lượng tìm kiếm thơng tin. Thực nghiệm của họ bao phủ ba dạng khơng gian chỉ mục: từ nguyên gốc, ngữ cảnh từ thu được từ việc khử nhập nhằng bằng tay và tập synset của WordNet. Các tác giả nhận thấy rằng nếu những truy vấn khơng được khử nhập nhằng, thì chỉ mục dựa vào synset chỉ thực hiện chỉ tốt nếu chúng giống như chỉ mục các từ chuẩn. Cũng theo Gonzalo, việc tạo chỉ mục cĩ ngữ cảnh của từ đã cải thiện chất lượng truy xuất thơng tin với kết quả đạt được hơn 29% so với hệ thống chỉ mục SMART chuẩn. Nghiên cứu này cùng kết quả đạt được đã mở đường cho những nghiên cứu kết tiếp về hệ thống chỉ mục hướng ngữ nghĩa. Thực nghiệm trong [53] (1993) của Voorhees đã khai thác các ngữ nghĩa chứa trong WordNet nhằm cải tiến hiệu quả của truy vấn bằng chỉ mục với các ngữ nghĩa của từ thay cho các từ gốc. Kết quả cho thấy hiệu quả của những véc-tơ tạo ra 30 bởi kỹ thuật khử nhập nhằng cĩ phần xấu hơn các véc-tơ từ gốc. Qua thực nghiệm, các tác giả nhận thấy những phát biểu truy vấn ngắn cĩ thể gặp khĩ khăn trong bước khử nhập nhằng khi tìm kiếm thơng tin, vì quan hệ phân cấp IS-A khơng đủ mạnh cho việc chọn các nghĩa chính xác của từ. Từ đĩ, trong vấn đề về giải pháp mở rộng truy vấn sử dụng tự động các synset được tạo hoặc vấn đề giải quyết các ngữ nghĩa khơng chính xác, việc so trùng chính xác các thiếu sĩt cĩ hiệu suất truy hồi thơng tin thấp hơn so với các giải pháp so trùng khơng chính xác. Năm 1994, Voorhees [54] đã sử dụng WordNet để tiến hành thực nghiệm trên các tập TREC trong miền chuyên biệt. Các kết quả cho thấy việc mở rộng truy vấn cĩ thể cải tiến những vấn đề từ vựng khơng trùng khớp, đặc biệt trong trường hợp các từ được mở rộng cĩ liên quan về từ vựng với các từ trong truy vấn. Ngược lại, việc mở rộng truy vấn cho các truy vấn dài chỉ cải thiện rất nhỏ tính hiệu quả của truy xuất thơng tin, vì bản thân truy vấn nguyên thủy đã mơ tả đầy đủ yêu cầu thơng tin. Voorhees thấy rằng việc mở rộng bằng các kỹ thuật khác như thơng tin phản hồi liên quan cho một số truy vấn dài cĩ thể cho kết quả truy vấn thơng tin tốt hơn. Điều này cĩ thể ảnh hưởng đến định hướng khai thác WordNet để phục vụ việc mở rộng truy vấn của các nhĩm nghiên cứu khác. Hearst mơ tả (trong [97] năm 1992) phương pháp so trùng mẫu cho việc thu thập tự động mối quan hệ từ vựng bao hàm trong văn bản. Các kết quả thực nghiệm đã thể hiện mức tương đồng cao giữa phương pháp của Hearst và việc phân cấp danh từ trong WordNet. Điều này phản ánh ưu điểm của phương pháp mà Hearst đề xuất, từ đĩ dẫn đến việc mở rộng áp dụng kỹ thuật so trùng mẫu trong các bài tốn khai thác dữ liệu từ WordNet phục vụ truy xuất thơng tin. 2.4.2.3 Phương pháp mở rộng truy vấn thơng qua xây dựng ontology chuyên biệt kết hợp khai thác ngữ nghĩa dữ liệu và ngữ nghĩa quan hệ từ WordNet Năm 2002 Finkelstein mơ tả hệ thống “Intellizap” tìm kiếm dựa trên ngữ cảnh [92], trong đĩ thực hiện rút trích từ khố theo ngữ nghĩa và phân nhĩm để mở rộng truy vấn (cĩ khử nhập nhằng) thành các truy vấn mới, sau đĩ gửi chúng đến 31 các động cơ tìm kiếm thơng tin khác nhau và tái xếp hạng kết quả thu được. Intellizap sử dụng mơ hình khơng gian véc-tơ để thể hiện 27 lĩnh vực, trong đĩ, các thơng tin ngơn ngữ học cũng được lấy trong WordNet. Hệ thống đã tích hợp các độ đo của WordNet và độ đo tương quan để phân tích về thống kê những quan hệ của các từ. Thực nghiệm so sánh giữa Intellizap và các hệ thống Google, Northern Light, Yahoo, Alta Vista phản ánh kết quả trội hơn đáng kể của Intellizap. Điều này thể hiện rằng việc dùng ngữ nghĩa để thực hiện quy trình tìm kiếm thơng tin của người dùng tạo ra những cải thiện nhất định. Tuy nhiên những định hướng nghiên cứu của họ đã cho thấy những hạn chế của hệ thống Intellizap ban đầu về việc tận dụng thơng tin ngữ cảnh trong mở rộng truy vấn cũng như khử nhập nhằng. Navigli và Velardi (trong [110] năm 2003) đã sử dụng thơng tin ngữ nghĩa và ontology cho việc mở rộng truy vấn. Họ phát biểu rằng tác dụng sử dụng từ đồng nghĩa và từ bao hàm nghĩa cho mở rộng vẫn cịn hạn chế hiệu suất trong tìm kiếm thơng tin web, từ đĩ khẳng định rằng các kiểu thơng tin ngữ nghĩa khác nhau thu được từ ontology sẽ cĩ hiệu quả hơn là từ chú giải (gloss word) và những nút chung trong mạng ngữ nghĩa, và việc dùng ontology để nâng cao hiệu quả cho kết quả truy vấn phụ thuộc vào kiểu tác vụ và độ dài truy vấn. Điều này cũng phù hợp với cách nhìn nhận rằng mở rộng truy vấn sẽ thích hợp cho các truy vấn ngắn. Thực nghiệm của Navigli và Velardi đã sử dụng kho ngữ liệu TREC2001 web track, ontology WordNet 1.6, và động cơ tìm kiếm thơng tin Google. Kết quả thực nghiệm cho thấy cĩ sự cải tiến tốt hơn một cách cĩ hệ thống cho các truy vấn chưa được mở rộng. Tuy nhiên, như trình bày của nhĩm tác giả, các kết quả dừng lại ở mức thử nghiệm cho 52 từ trong 24 truy vấn của TREC2001 web track. Kết quả này cĩ thể thay đổi đáng kể trong trường hợp kích thước tập dữ liệu thử nghiệm lớn hơn. Nhĩm Baziz nêu rõ (trong [17], 2005) truy xuất thơng tin dựa trên ontology đang cĩ nhiều hứa hẹn trong việc cải thiện chất lượng của kết quả khi các ngữ nghĩa tài liệu được ghi nhận lại. Họ khai thác WordNet để phục vụ việc xây dựng một mạng ngữ nghĩa tối ưu (gọi là lõi ngữ nghĩa tài liệu) nhằm biểu hiện nội dung của các tài liệu trong kho ngữ liệu cĩ số lượng nhỏ. Để tạo ra lõi này, các khái niệm của 32 WordNet, gồm từ và cụm từ, được rút trích và được khử nhập nhằng thơng qua các tham khảo đến các từ trong tài liệu. Ưu điểm của phương pháp này là khai thác triệt để những thành phần chính như từ và cụm từ trong WordNet để hỗ trợ giải quyết nhập nhằng trong việc truy xuất thơng tin. Tuy nhiên, nếu một số quan hệ ngữ nghĩa khác trong WordNet (như Meronymy, Holonymy hay Hypernymy, Hyponymy) được sử dụng hiệu quả hơn trong phương pháp xử lý của nhĩm nghiên cứu, kết quả thực nghiệm của họ sẽ cĩ chất lượng tốt hơn. Theo phân tích [107] (1998) của nhĩm Mandala, WordNet cĩ nhược điểm là các danh từ riêng khơng đầy đủ và khơng cĩ khả năng để hình thức hố các quan hệ giữa các từ thuộc các phần khác nhau của từ loại. Ngồi ra, quan hệ bộ phận (meronymy) bị hạn chế trong sự diễn dịchl của nĩ. Để giải quyết vấn đề này, năm 2006 Grootjen và Van De Weider [55] dùng giải pháp kết hợp bao gồm một từ điển chuyên đề tồn cục và từ điển chuyên đề cục bộ được tạo tự động. Điều này dẫn đến việc bổ sung những khiếm khuyết về từ vựng trong quá trình khai thác WordNet. Tuy nhiên chất lượng và độ tin cậy của hai từ điển này là vấn đề đáng quan tâm. Nghiên cứu [125] (1995) của Jones phân tích từ điển chuyên đề INSPEC và dùng tám bảng cơ sở dữ liệu quan hệ để lưu thơng tin của từ điển chuyên đề này gồm từ, sự tương đương, sự thừa kế, sự liên kết, sự cấu thành, các lớp, các khía cạnh và từ. Các thực nghiệm cho thấy rằng khơng cĩ sự tương ứng nào giữa số lượng từ được chọn và hiệu suất truy xuất và số từ được chọn phụ thuộc vào khoảng cách từ nút ban đầu. Jones và các cộng sự đã phát biểu rằng một trong các yếu tố thành cơng chính trong việc sử dụng từ điển chuyên ngành cho mở rộng truy vấn là sự so trùng tốt trong từ điển chuyên ngành. Vì lý do này, theo Jones [126], các thuật ngữ sẽ được mở rộng trước khi tiến hành việc tìm kiếm trong cơ sở dữ liệu tài liệu, điều này nhằm giải quyết vấn đề thuật ngữ truy vấn cĩ thể khơng cĩ một sự so trùng chính xác nào với một nút trong WordNet. Kết quả này cho thấy tính bao quát của phương pháp tìm kiếm thơng tin, tuy nhiên cũng cho thấy sự phụ thuộc vào chất lượng từ điển chuyên ngành mà phương pháp sử dụng. l “diễn dịch” được tạm dịch từ “Interpretation” 33 Trong [87] (2005), nhĩm của Nilsson dùng một ontology miền đặc trưng dựa trên hệ thống SUiS (Stockholm University Information System) để thực hiện mở rộng truy vấn. SUiS chỉ cho phép các kiểu câu hỏi gồm who, what, when, và where và chỉ cĩ các từ đồng nghĩa và trái nghĩa được sử dụng để tăng độ chính xác. Thực nghiệm chứng tỏ rằng cĩ sự cải tiến kết quả. Tuy nhiên, kết quả đạt được cũng phản ánh sự giới hạn của phương pháp khi thu hẹp nội dung truy vấn sang dạng câu nghi vấn WH thay cho dạng truy vấn tự do biểu diễn bằng ngơn ngữ tự nhiên. Nghiên cứu của nhĩm Sandhya Revuri [115] hướng đến việc mở rộng truy vấn thơng qua đề xuất mở rộng quan hệ IS-A. Họ đã tiến hành xây dựng ontology dựa trên các khái niệm Instance, Property, Concept và một số quan hệ như IS-A, DISJOINTNESS và EQUIVALENCE cùng một số giải thuật xử lý cho ra kết quả cĩ độ chính xác 23% và độ triệu hồi 34%. Đây là một phương pháp khá hiệu quả khi xây dựng ontology cĩ khả năng bao phủ các đối tượng và các thuộc tính liên quan, nĩi cách khác là ontology hướng đối tượng. Nếu nhĩm tác giả phát triển phương pháp này theo hướng phân tích các tính chất dữ liệu cũng như khai thác các quan hệ ngữ nghĩa khác trong WordNet, kết quả thực nghiệm sẽ cĩ thể tốt hơn đáng kể. 2.4.2.4 Các phương pháp nghiên cứu khác về mở rộng truy vấn dựa trên ontology Phương pháp tiếp cận của Stefania [119] (năm 2009) là khai thác nhật ký truy vấn của người dùng và ứng dụng xử lý ngơn ngữ tự nhiên để xác định các ứng viên đồng dạng cĩ giá trị trong ngữ cảnh của một cơ sở tri thức. Trong phương pháp này, một số định hướng nghiên cứu cần thiết kế tiếp liên quan đến việc số lượng quy tắc đồng dạng độc lập ngữ cảnh chiếm tỉ lệ khá cao so với số quy tắc phụ thuộc ngữ cảnh trong đĩ đặc biệt liên quan đến ngữ cảnh trong truy vấn, tỉ lệ áp dụng các quy tắc chỉ chiếm 30% tổng số phiên làm việc của chuyên gia, và cần xây dựng cây thể hiện ngữ cảnh. 34 Phương pháp tiếp cận của nhĩm Wouter [139] [140] (năm 2008) là xây dựng mơ hình truy vấn khả sinh cho việc mở rộng truy vấnm, với định hướng tiếp cận mở rộng truy vấn cục bộ. Một nền tảng lý thuyết về truy hồi thơng tin được họ đề xuất thơng qua các mơ hình mở rộng ngoại vi (External Expansion Model) EEM1, EEM2, EEM3 và EEM4 dựa trên cơ sở xác suất nhằm tính độ phụ thuộc giữa từ khĩa cần bổ sung và truy vấn được mở rộng. Nhĩm Krisztian [87] (năm 2008) cũng đã đề xuất mơ hình tài liệu và mơ hình truy vấn trên cơ sở xác suất nhằm xác định độ phụ thuộc giữa từ khĩa và truy vấn mở rộng. Đây là những mơ hình đề xuất tương đối tốt cho hướng nghiên cứu về mở rộng truy vấn độc lập với ontology. Hai nghiên cứu [43] và [44] của HPLab (năm 2009) quan tâm đến vấn đề tìm kiếm kết hợp trên kho văn bản cĩ cấu trúc và văn bản trơn (plain text) dựa trên ontology mơ tả bởi RDF và ngơn ngữ truy vấn dữ liệu SPARQL [160]. Định hướng của các nghiên cứu này là việc mở rộng kết quả tài liệu tìm kiếm, nĩi cách khác là mở rộng truy vấn gián tiếp, dựa trên một ontology về chủ đề, cá nhân, sản phẩm. Họ cịn đồng thời xây dựng mơ hình tương tác người dùng thơng qua các trạng thái tương tác, từ đĩ cĩ thể giúp tinh chỉnh truy vấn. Tuy nhiên, hệ thống này khơng chỉ nên dừng ở mức độ đề xuất ý tưởng về mơ hình và kiến trúc nền tảng mà cịn cần được quan tâm nhiều hơn về tính hiệu quả cũng như kích thước của ontology phục vụ hệ thống đồng thời các kết quả thực nghiệm liên quan. Nghiên cứu của nhĩm Edgar [48] (năm 2009) đề xuất phương pháp mới về việc mơ hình hĩa truy vấn trên cơ sở tương tác giữa các nguồn tài liệu theo nguyên tắc tác động lên khoảng cách giữa mỗi tài liệu liên quan với tập tài liệu liên quan, từ đĩ tác động đến việc ước lượng mơ hình truy vấn tốt hơn các nghiên cứu khác. Cơng trình của Kevyn [84] năm 2008 hướng đến việc đề xuất phương pháp thu thập mẫu để dự báo các rủi ro cho các biến trong mơ hình truy vấn thơng tin, từ đĩ cực tiểu hĩa các nhiễu trong các mơ hình ngơn ngữ đã kết hợp (combined language models). Tuy nhiên vấn đề hỗ trợ các ràng buộc trong quá trình tìm kiếm, m Nguyên văn: “generative model for expanding queries using external collections” 35 mở rộng việc học bán-hướng dẫn cũng như học chủ động là các vấn đề mà cơng trình này cần quan tâm thêm trong các nghiên cứu kế tiếp. Cơng trình của Jun [78] tận dụng giải pháp Phân tích Khái niệm Chính quy (Formal Concept Analysis, FCA) và Lưới Khái niệm (Concept Lattice, CL) để xử lý mở rộng truy vấn. Cơng trình này cịn trình bày một số giải thuật cải tiến như iPred và Boarder với mức cải thiện tương ứng là 31% thời gian tính tốn cho các so sánh. 2.4.3 Mt s kho sát m rng v ng dng c a ontology trong m rng truy vn Sự đầu tư nghiên cứu chi tiết trong mở rộng truy vấn sử dụng ontology là cần thiết để học tập các nguyên nhân của vấn đề thành cơng và thất bại. Một mơ hình truy vấn hiệu quả ở mức độ cao là mơ hình truy vấn thống kê với một mơ tả chi tiết cĩ thể được tìm thấy ở cơng bố [82] của Sparck-Jones và cộng sự năm 2000. Các thực nghiệm nghiên cứu cần thiết được thực hiện để kiểm tra tính hiệu quả của việc dùng ontology cho mở rộng truy vấn trong miền tin tức rộng lớn (newswide). Tuy các từ tổ hợp tạo thêm sự phức tạp vào quá trình mở rộng truy vấn, nhưng các nghiên cứu tiếp theo là cần thiết để triển khai một cách hiệu quả các từ tổ hợp trong mở rộng truy vấn. Jones [126] lưu ý rằng các cơng việc tiếp theo được yêu cầu với từ tổ hợp thơng dụng trong từ điển chuyên đề. Trong [143] năm 1993, Qiu và Frei luận chứng rằng việc chọn từ mở rộng truy vấn dựa trên mối quan hệ đến tồn bộ truy vấn sẽ hiệu quả hơn. Khi nghiên cứu về sự nhập nhằng bất kỳ trong các từ đa nghĩa (polysemous), Mandala, Tokunaga và Tanaka chỉ mở rộng những thuật ngữ cĩ độ tương đồng cao để đưa vào truy vấn hiện hành. Okapi dùng từ điển đồng nghĩa (theo [123] của Walker & Jones, năm 1987) và các thuật ngữ trong danh sách này được tính trọng lượng bởi cơng thức BM25 dưới đây, trong đĩ BM25 là hàm xếp hạng một tập tài liệu dựa trên từ khĩa của truy vấn: . Ở đây qi là các từ khĩa trong truy vấn Q, D là tài liệu, |D| là độ dài tài liệu, avgdl là độ dài bình quân của tài liệu trong tập văn bản mà trong đĩ tài liệu được xử lý, k1 và 36 b là các tham số tự do thường được gán giá trị k1=2.0 và b=0.75, IDF(qi) là trọng lượng IDF của từ khĩa qi, thường được tính theo cơng thức: với N là số tài liệu trong tập văn bản, n(qi) là số tài liệu chứa qi. Okapi cịn mở rộng truy vấn thơng qua việc chọn các thuật ngữ tốt nhất từ danh sách. Nghiên cứu này hướng đến mục tiêu nâng cao chất lượng từ điển đồng nghĩa dựa trên ontology. Phương pháp người dùng trợ giúp mở rộng truy vấn, được Hancock-Beaulieu và Walker [99] sử dụng. Phương pháp này cho phép người dùng cĩ thể điều khiển quá trình tìm kiếm và các tiện ích tương tác người dùng của Okapi giúp cho hệ thống tận dụng được khả năng mở rộng truy vấn của con người. 2.4.4 Các k t qu c a vic áp dng ontology cho bài tốn m rng truy vn Ontology được xem như một giải pháp hứa hẹn trong mở rộng truy vấn. Trong [10] năm 2001, Leger đã cải thiện độ chính xác của việc tìm kiếm thơng tin mờ nhờ sự diễn giải chi tiết truy vấn ban đầu của người dùng thơng qua việc nhận dạng ngữ cảnh và khử nhập nhằng. Thành cơng của việc dùng ontology cho mở rộng truy vấn phụ thuộc vào nhiều yếu tố được mơ tả sau đây. 2.4.4.1 Chất lượng mơ hình tri thức Theo [25] của Cheng và Pan: Chất lượng việc diễn dịch (interpretation) của văn bản tự do phụ thuộc rất nhiều vào chất lượng của mơ hình. Độ gắn kết (coherence), tính ổn định (stability), và tính đối kháng (resistance) với sự khơng đồng nhất và sự nhập nhằng là các đặc trưng của mơ hình ontology lý tưởng. Điều này được Jones khẳng định trong nghiên cứu [126] năm 1993, trong đĩ nêu rõ rằng chất lượng của mơ hình tri thức hay từ điển chuyên đề là quan trọng bậc nhất. Mơ hình này cần phải chính xác, ổn định, bao hàm tồn diện và luơn được cập nhật. Nếu một mơ hình dữ liệu khơng bao phủ các miền chủ đề trong hướng bao hàm tồn diện thì các truy vấn (liên quan đến một miền chủ đề) sẽ khơng nhận được bất kỳ kết quả nào, bởi vì mơ hình bị mất chất lượng từ những thiếu sĩt đĩ. 37 2.4.4.2 Sự am hiểu mơ hình tri thức Trong [124] cơng bố năm 2005, Suomela và Kekalainen biện luận rằng quá trình tìm kiếm thơng tin cĩ cơ hội thành cơng nếu người dùng hiểu rõ mơ hình tri thức. Quan điểm này được chia sẻ bởi Sihvonen và Vakkari trong cơng bố [14] năm 2004 – họ nêu rõ rằng mở rộng truy vấn sử dụng từ điển chuyên đề chỉ thực sự hữu ích nếu người dùng thân thiện với chủ đề tìm kiếm. 2.4.4.3 Khả năng định hướng của mơ hình tri thức Vì một số ontology cĩ kích thước hàng trăm mega byte, nên cần cĩ các cơ chế phù hợp để cho phép các ontology lớn hiển thị nội dung hợp lý trong một trang màn hình của máy tính, ngược lại sẽ làm cho người dùng dễ bị mất phương hướng trong khơng gian thơng tin rộng lớn, dẫn đến sự khĩ khăn trong việc định hướng các mơ hình tri thức lớn. Việc xây dựng cơ chế đề xuất các từ được dù

Các file đính kèm theo tài liệu này:

  • pdfLATS_CB_BVNN_NCThanh.pdf
Tài liệu liên quan