Đề tài Xây dựng bộ ngữ liệu để đánh giá bằng tiếng Việt và chương trình trợ giúp đánh giá các hệ tìm kiếm thông tin

Tài liệu Đề tài Xây dựng bộ ngữ liệu để đánh giá bằng tiếng Việt và chương trình trợ giúp đánh giá các hệ tìm kiếm thông tin: TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN KHOA CÔNG NGHỆ THÔNG TIN BỘ MÔN HỆ THỐNG THÔNG TIN TSÀN QUẾ HƯƠNG – 0112385 VÕ HỒ BẢO KHANH – 0112387 XÂY DỰNG BỘ NGỮ LIỆU ĐỂ ĐÁNH GIÁ BẰNG TIẾNG VIỆT VÀ CHƯƠNG TRÌNH TRỢ GIÚP ĐÁNH GIÁ CÁC HỆ TÌM KIẾM THÔNG TIN KHÓA LUẬN CỬ NHÂN TIN HỌC GIÁO VIÊN HƯỚNG DẪN T.S HỒ BẢO QUỐC NIÊN KHÓA 2001 - 2005 Luận văn : Đánh giá các hệ thống tìm kiếm thông tin Trang 2 Ý KIẾN CỦA GIÁO VIÊN PHẢN BIỆN ……………………………………………………………………………………… ….………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ………………………………………………………………...

187 trang | Chia sẻ: hunglv | Lượt xem: 1098 | Lượt tải: 1

Bạn đang xem trước 20 trang mẫu tài liệu Đề tài Xây dựng bộ ngữ liệu để đánh giá bằng tiếng Việt và chương trình trợ giúp đánh giá các hệ tìm kiếm thông tin, để tải tài liệu gốc về máy bạn click vào nút DOWNLOAD ở trên

TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN KHOA CƠNG NGHỆ THƠNG TIN BỘ MƠN HỆ THỐNG THƠNG TIN TSÀN QUẾ HƯƠNG – 0112385 VÕ HỒ BẢO KHANH – 0112387 XÂY DỰNG BỘ NGỮ LIỆU ĐỂ ĐÁNH GIÁ BẰNG TIẾNG VIỆT VÀ CHƯƠNG TRÌNH TRỢ GIÚP ĐÁNH GIÁ CÁC HỆ TÌM KIẾM THƠNG TIN KHĨA LUẬN CỬ NHÂN TIN HỌC GIÁO VIÊN HƯỚNG DẪN T.S HỒ BẢO QUỐC NIÊN KHĨA 2001 - 2005 Luận văn : Đánh giá các hệ thống tìm kiếm thơng tin Trang 2 Ý KIẾN CỦA GIÁO VIÊN PHẢN BIỆN ……………………………………………………………………………………… ….………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… Xác nhận của GVPB Luận văn : Đánh giá các hệ thống tìm kiếm thơng tin Trang 3 ĐỀ CƯƠNG CHI TIẾT Thơng tin chung về đề tài: Tên đề tài: Xây dựng bộ ngữ liệu để đánh giá (test collection) bằng tiếng Việt và chương trình trợ giúp đánh giá các hệ tìm kiếm thơng tin GVHD: Tiến sĩ Hồ Bảo Quốc Sinh viên thực hiện: 1. MSSV: 0112385 Họ và tên: Tsàn Quế Hương 2. MSSV: 0112387 Họ và tên: Võ Hồ Bảo Khanh Tĩm tắt nội dung luận văn: Đề tài gồm 2 phần : 1. Xây dựng bộ ngữ liệu để đánh giá các hệ thống tìm kiếm thơng tin tiếng Việt. Việc xây dựng bộ ngữ liệu gồm ba phần : _ Xây dựng ngữ liệu mẫu tiếng Việt _ Xây dựng tập câu truy vấn mẫu tiếng Việt _ Xây dựng một bảng đánh giá bằng thủ cơng 2.Xây dựng một hệ thống chương trình trợ giúp việc đánh giá các hệ thống tìm kiếm thơng tin với thành phần đầu vào : ngữ liệu mẫu, câu truy vấn mẫu, hệ thống tìm kiếm thơng tin ; các thành phần đầu ra : kết quả truy vấn, kết quả đánh giá, nội dung tập tài liệu, câu truy vấn Một số từ khĩa chính liên quan đến nội dung đề tài: Đánh giá các hệ thống tìm kiếm thơng tin (information retrieval systems evaluation) Lĩnh vực áp dụng: Đánh giá các hệ thống tìm kiếm thơng tin tiếng Việt. Các thuật tốn, phương pháp, quy trình chính được nghiên cứu, ứng dụng trong đề tài _ Tìm hiểu về tìm kiếm thơng tin (information retrieval), đánh giá các hệ thống tìm kiếm thơng tin (information retrieval systems evaluation) _ Tìm hiểu cấu trúc của bộ ngữ liệu, phương pháp xây dựng bộ ngữ liệu của TREC (Text REtrieval Conference) _ Tìm hiểu và sử dụng các hệ thống tìm kiếm : SMART, IOTA ,Lucene,Terrier… _ Xây dựng bộ ngữ liệu kiểm tra bằng tiếng Việt Luận văn : Đánh giá các hệ thống tìm kiếm thơng tin Trang 4 _ Xây dựng một hệ chương trình phục vụ việc kiểm tra và đánh giá các hệ thống tìm kiếm thơng tin. Chương trình phải chạy được trên hai hệ điều hành : Windows và Linux, chương trình viết bằng ngơn ngữ Java Các cơng cụ, cơng nghệ chính được nghiên cứu, ứng dụng trong đề tài Borland Jbuider X Visual Studio . NET Microsoft Visio 2003 Rational Rose Microsoft Word, Power Point Xác nhận của GVHD Luận văn : Đánh giá các hệ thống tìm kiếm thơng tin Trang 5 Lời cám ơn Z X   Chúng em xin chân thành cảm ơn các Thầy Cơ Khoa Cơng nghệ Thơng tin đã hướng dẫn và giảng dạy rất nhiệt tình cho chúng em trong suốt bốn năm học ở Trường Đại học Khoa học Tự nhiên. Những kiến thức mà chúng em đã học được trên giảng đường sẽ là hành trang quý báu trên bước đường đời của chúng em. Chúng em xin cảm ơn Thầy Hồ Bảo Quốc đã tạo cơ hội cho chúng em được nghiên cứu học hỏi về lĩnh vực tìm kiếm thơng tin bằng Tiếng Việt, một lĩnh vực tương đối mới và hấp dẫn ở Việt Nam . Một lần nữa chúng em xin cảm ơn Thầy vì Thầy đã tận tình hướng dẫn chúng em đề tài luận văn “Xây dựng bộ ngữ liệu dùng để đánh giá bằng tiếng Việt và chương trình trợ giúp đánh giá các hệ thống tìm kiếm thơng tin”. Chúng em xin cảm ơn gia đình, các anh chị, bạn bè đã động viên, giúp đỡ chúng em để hồn thành tốt đề tài luận văn này. Nhĩm sinh viên thực hiện Tsàn Quế Hương – Võ Hồ Bảo Khanh Luận văn : Đánh giá các hệ thống tìm kiếm thơng tin Trang 6 MỤC LỤC MỞ ĐẦU ............................................................................................................10 Chương 1 : TỔNG QUAN .................................................................................13 1.1. Tổng quan về tìm kiếm thơng tin và hệ thống tìm kiếm thơng tin ........................13 1.2. Tổng quan về đánh giá các hệ thống tìm kiếm thơng tin ......................................14 1.2.1. Lý do để tiến hành đánh giá các hệ thống tìm kiếm thơng tin........................14 1.2.2. Các tiêu chuẩn được dùng để đánh giá .........................................................15 1.2.3. Các mơ hình đánh giá...................................................................................15 1.2.4. Các độ đo dùng để đánh giá .........................................................................18 1.2.5. Các phương pháp xây dựng bộ ngữ liệu dùng để đánh giá ............................18 1.2.6. Phương pháp xây dựng bộ ngữ liệu được chọn.............................................20 1.2.7. Phương pháp đánh giá tầm quan trọng của kết quả trả về .............................21 Chương 2 : CƠ SỞ LÝ THUYẾT.......................................................................22 2.1. Tìm kiếm thơng tin và các hệ thống tìm kiếm thơng tin.......................................22 2.1.1. Lịch sử tìm kiếm thơng tin và hệ thống tìm kiếm thơng tin ...........................22 2.1.2. Hệ thống tìm kiếm thơng tin.........................................................................25 2.1.2.1. Khái niệm về hệ thống tìm kiếm thơng tin .............................................25 2.1.2.2. Cách thức hoạt động của hệ thống tìm kiếm thơng tin............................25 2.1.2.3. Các phương tiện tìm kiếm thơng tin (Search Engines) ...........................27 2.1.3. So sánh tìm kiếm thơng tin cổ điển và tìm kiếm thơng tin trên Web .............29 2.1.4. So sánh tìm kiếm thơng tin với tìm kiếm dữ liệu ..........................................30 2.1.5. Cơng thức trừu tượng trong tìm kiếm thơng tin ............................................31 2.1.6. Các mơ hình tìm kiếm thơng tin cổ điển để sắp thứ tự liên quan ...................32 2.1.6.1. Mơ hình Đại số Bool .............................................................................32 2.1.6.2. Mơ hình khơng gian vec-tơ....................................................................33 2.2. Đánh giá các hệ thống tìm kiếm thơng tin ...........................................................36 2.2.1. Nền tảng đánh giá các hệ thống tìm kiếm thơng tin ......................................36 2.2.2. Mơ hình đánh giá hướng hệ thống ................................................................37 2.2.2.1. Từ Cranfield đến TREC ........................................................................37 2.2.2.2. Thủ tục đánh giá....................................................................................39 2.2.2.3. Đánh giá sự liên quan............................................................................40 2.2.3. Thực hiện đo khả năng tìm kiếm ..................................................................41 2.2.3.1. Các khái niệm về độ đo và liên quan .....................................................41 2.2.3.2. Cách tính độ bao phủ (R) và độ chính xác (P)........................................42 2.2.3.3. Phương pháp tính độ chính xác dựa trên 11 điểm chuẩn của độ bao phủ 44 2.2.3.3.1. Đồ thị biểu diễn hiệu suất thực thi hệ thống tìm kiếm .....................44 2.2.3.3.2. Đường cong độ bao phủ và độ chính xác RP...................................45 2.2.3.3.3. Đường cong RP cho tập truy vấn ....................................................47 2.2.3.3.4. Đánh giá hệ thống tìm kiếm thơng tin dựa vào đồ thị ......................48 2.2.3.4. Sự liên quan giữa câu hỏi và tài liệu ......................................................49 2.2.3.4.1. Các độ liên quan .............................................................................49 2.2.3.4.2. Các vấn đề về độ liên quan .............................................................49 2.2.3.4.3. Đánh giá với độ liên quan nhiều cấp độ ..........................................51 2.2.3.4.4. Phương pháp đo độ bao phủ (R), độ chính xác (P) dựa trên độ liên quan nhiều cấp độ ..........................................................................................53 Luận văn : Đánh giá các hệ thống tìm kiếm thơng tin Trang 7 2.2.4. TREC và đánh giá theo chuẩn TREC ...........................................................54 2.2.4.1. TREC là gì? ..........................................................................................54 2.2.4.2. Cách xây dựng ngữ liệu của TREC........................................................56 2.2.4.2.1. Xây dựng tập hợp các tài liệu..........................................................57 2.2.4.2.2. Xây dựng các chủ đề.......................................................................57 2.2.4.2.3. Xây dựng bảng đánh giá liên quan chuẩn........................................58 2.3. Ngữ liệu tiếng Việt .............................................................................................59 2.3.1. Từ ................................................................................................................60 2.3.1.1. Quan niệm về từ ....................................................................................60 2.3.1.2. Quan niệm về hình vị ............................................................................61 2.3.1.3. Khái niệm về cấu tạo từ.........................................................................61 2.3.2. Ranh giới từ .................................................................................................62 Chương 3 : THIẾT KẾ VÀ CÀI ĐẶT.................................................................63 3.1. Xây dựng bộ ngữ liệu dùng để đánh giá ..............................................................63 3.1.1. Xây dựng kho ngữ liệu bằng tiếng Việt ........................................................63 3.1.1.1. Chuẩn hĩa ngữ liệu ...............................................................................63 3.1.1.1.1. Chuẩn hĩa dạng ngữ liệu ................................................................63 3.1.1.1.2. Định dạng ngữ liệu .........................................................................64 3.1.2. Xây dựng tập câu hỏi bằng tiếng Việt...........................................................64 3.1.3. Tách từ tiếng Việt ........................................................................................65 3.1.4. Xây dựng bảng đánh giá...............................................................................65 3.1.4.1. Hệ thống SMART .................................................................................66 3.1.4.1.1. Giới thiệu hệ thống SMART...........................................................66 3.1.4.1.2. Quá trình tìm kiếm thơng tin của SMART ......................................66 3.1.4.1.3. Mơ hình vec-tơ của hệ thống SMART ............................................67 3.1.4.1.4. Sử dụng mơ hình vec-tơ..................................................................69 3.1.4.2. Hệ thống Search4Vn .............................................................................73 3.1.4.3. Hệ thống TERRIER ..............................................................................73 3.1.4.4. Hệ thống X-IOTA .................................................................................74 3.1.4.5. Hệ thống LUCENE ...............................................................................74 3.2. Phân tích hệ thống đánh giá các hệ thống tìm kiếm thơng tin ..............................74 3.2.1. Mơ tả hệ thống trợ giúp đánh giá..................................................................74 3.2.1.1. Phát biểu bài tốn..................................................................................74 3.2.1.2. Mục tiêu................................................................................................75 3.2.1.3. Phạm vi .................................................................................................75 3.2.1.4. Chức năng .............................................................................................75 3.2.1.5. Tính khả dụng .......................................................................................76 3.2.1.6. Hiệu suất ...............................................................................................76 3.2.1.7. Tính bảo mật .........................................................................................76 3.2.2. Phân tích hệ thống đánh giá..........................................................................76 3.2.2.1. Chức năng của hệ thống ........................................................................76 3.2.2.2. Chức năng yêu cầu ................................................................................77 3.2.2.2.1. Chức năng đánh giá một hệ thống IR..............................................77 3.2.2.2.2. Chức năng so sánh nhiều hệ thống IR .............................................77 3.2.2.2.3. Sơ đồ use case ................................................................................77 3.2.2.2.4. Sơ đồ tuần tự hoạt động usecase .....................................................79 Luận văn : Đánh giá các hệ thống tìm kiếm thơng tin Trang 8 3.3. Thiết kế hệ thống đánh giá ..................................................................................86 3.3.1. Các chức năng của chương trình...................................................................86 3.3.1.1. Chức năng “Định dạng cơ sở dữ liệu tài liệu” ........................................86 3.3.1.2. Chức năng “Định dạng kết quả trả về”...................................................86 3.3.1.3. Chức năng “Định dạng file index”.........................................................87 3.3.1.4. Chức năng “Thực thi hệ thống IR” ........................................................87 3.3.1.5. Chức năng “Xử lý kết quả trả về” ..........................................................87 3.3.1.6. Chức năng ”Đánh giá một hệ thống IR”.................................................87 3.3.1.7. Chức năng “Đánh giá nhiều hệ thống IR”..............................................87 3.3.2. Thiết kế hệ thống .........................................................................................88 3.3.2.1. Sơ đồ kiến trúc tổng thể.........................................................................88 3.3.2.1.1. Danh sách các lớp đối tượng...........................................................88 3.3.2.1.2. Lớp đối tượng thể hiện....................................................................88 3.3.2.1.3. Lớp đối tượng xử lý........................................................................91 3.3.2.1.4. Lớp đối tượng lưu trữ .....................................................................99 3.3.2.2. Sơ đồ kiến trúc tổng quát cho từng chức năng của chương trình ............99 3.3.2.2.1. Chức năng “Định dạng tài liệu” ......................................................99 3.3.2.2.2. Chức năng “Định dạng câu hỏi”....................................................100 3.3.2.2.3. Chức năng “Thực thi hệ thống” ....................................................101 3.3.2.2.4. Chức năng “Định dạng kết quả”....................................................102 3.3.2.2.5. Chức năng “Định dạng file index” ................................................103 3.3.2.2.6. Chức năng “Đánh giá và hiện thi kết quả đánh giá” ......................103 3.3.2.2.7. Chức năng ”So sánh các hệ thống IR đã được thực thi” ................104 3.3.2.3. Thiết kế dữ liệu – tổ chức lưu trữ.........................................................105 3.3.2.3.1. Mơ hình dữ liệu ............................................................................105 3.3.2.3.2. Sơ đồ logic dữ liệu........................................................................107 3.3.2.4. Tố chức lưu trữ dữ liệu........................................................................110 3.3.2.4.1. System..........................................................................................110 3.3.2.4.2. Topic ............................................................................................112 3.3.2.4.3. Index_topic...................................................................................113 3.3.2.4.4. Document .....................................................................................114 3.3.2.4.5. Index_Doc....................................................................................115 3.3.2.4.6. relevant_TT..................................................................................115 3.3.2.4.7. relevant_LT..................................................................................116 3.3.2.4.8. evaluation.....................................................................................117 3.3.2.5. Thiết kế giao diện................................................................................119 3.3.2.5.1. Sơ đồ liên hệ giữa các màn hình ...................................................119 3.3.2.6. Thiết kế màn hình................................................................................ 122 3.3.2.6.1. Màn hình chính (TH_Main) ..........................................................122 3.3.2.6.2. Màn hình định dạng tài liệu (TH_DDTaiLieu) ..............................122 3.3.2.6.3. Màn hình tạo thuộc tính cho tài liệu (TH_TTTaiLieu) ..................124 3.3.2.6.4. Màn hình định dạng câu hỏi (TH_DDCauHoi)..............................125 3.3.2.6.5. Màn hình tạo thuộc tính cho câu hỏi (TH_TTCauHoi) ..................127 3.3.2.6.6. Màn hình xử lý điều kiện để thực thi hệ thống IR..........................128 3.3.2.6.7. Màn hình thực thi hệ thống (TH_ThucThiHT) ..............................129 3.3.2.6.8. Màn hình định dạng kết quả (TH_DDKetQua)..............................130 Luận văn : Đánh giá các hệ thống tìm kiếm thơng tin Trang 9 3.3.2.6.9. Màn hình định dạng thơng tin index (TH_DDIndex).....................131 3.3.2.6.10. Màn hình đánh giá hệ thống (TH_KqDanhGia)...........................133 3.3.2.6.11. Màn hình xem đồ thị của hệ thống ..............................................136 3.3.2.6.12. Màn hình xem chi tiết (TH_XemChiTiet) ...................................136 3.3.2.6.13. Màn hình so sánh hệ thống (TH_SoSanhHT) ..............................138 3.3.2.7. Thiết kế hệ thống lớp đối tượng...........................................................139 3.3.2.7.1. Các lớp đối tượng xử lý ................................................................139 3.3.2.7.2. Các lớp đối tượng lưu trữ..............................................................169 Chương 4 : KẾT QUẢ ĐÁNH GIÁ .................................................................. 171 4.1. Ngưỡng đánh giá ..............................................................................................171 4.2. Đánh giá hệ thống tìm kiếm thơng tin search4VN .............................................171 4.3. So sánh hệ thống tìm kiếm search4VN và hệ thống Lucene............................... 177 4.4. Nhận xét chương trình hỗ trợ đánh giá hệ thống tìm kiếm thơng tin ..................179 4.4.1. Ưu điểm.....................................................................................................179 4.4.2. Khuyết điểm ..............................................................................................179 Chương 5 : KẾT LUẬN .................................................................................... 181 Chương 6 : HƯỚNG PHÁT TRIỂN.................................................................. 182 PHỤ LỤC ......................................................................................................... 183 Tài liệu tham khảo .......................................................................................... 186 Luận văn : Đánh giá các hệ thống tìm kiếm thơng tin Trang 10 MỞ ĐẦU Tìm kiếm thơng tin là nhu cầu thiết thực của tất cả mọi người. Đặc biệt trong bối cảnh bùng nổ thơng tin như hiện nay, gồm cĩ sự ra đời của internet và sáng kiến về thư viện điện tử, nhu cầu tìm kiếm thơng tin lại càng phát triển. Nhưng nhờ cĩ sự trợ giúp của cơng nghệ thơng tin con người cĩ thể thỏa mãn nhu cầu này một cách dễ dàng. Thật vậy, cĩ rất nhiều hệ thống tìm kiếm thơng tin (Information Retrieval system hay IR system) trên máy tính đang tồn tại để trợ giúp con người. Tuy nhiên, khả năng tìm kiếm thơng tin của các hệ thống này chắc chắn khác nhau. Do đĩ, việc đánh giá các hệ thống tìm kiếm thơng tin (Evaluation of Information Retrieval systems) là một nhu cầu khơng thể thiếu nhằm xác định các hệ thống tìm kiếm thơng tin hiệu quả. Việc đánh giá này cĩ ý nghĩa rất lớn đối với sự tồn tại và phát triển của các hệ thống tìm kiếm thơng tin. Nĩ giúp xác định khả năng tìm kiếm của các hệ thống tìm kiếm thơng tin từ đĩ mà các tổ chức, cơng ty, trường học tạo ra hệ thống này cĩ thể phát triển, thay đổi hệ thống để đưa ra khả năng tìm kiếm thơng tin tốt nhất. Ngồi ra, việc xác định các hệ thống tìm kiếm thơng tin hiệu quả rất hữu ích đối với người dùng, họ sẽ cảm thấy tin tưởng vào kết quả tìm kiếm mà hệ thống tìm được. Xa hơn nữa, việc đánh giá sẽ tạo ra một cuộc cách mạng trong lĩnh vực tìm kiếm thơng tin; giúp đưa tìm kiếm thơng tin vào trong thế giới thực của đời sống. Chẳng hạn, khi các hệ thống tìm kiếm thơng tin tiến bộ chuyển từ nghiên cứu sang thế giới thực của cạnh tranh thương mại thì những nhà thiết kế, nhà phát triển, người bán hàng, và những đại diện bán hàng của các sản phẩm thơng tin mới như sách điện tử, và các phương tiện tìm kiếm (Search engines) … muốn biết sản phẩm của họ cĩ cung cấp cho những người sử dụng và người mua hàng tiềm năng các lợi thế cạnh tranh hay khơng, sẽ được thỏa mãn nhu cầu thơng tin này một cách dễ dàng, chính xác. Khả năng tìm kiếm của hệ thống tìm kiếm thơng tin chúng tơi vừa đề cập được nghiên cứu ở nhiều cấp độ: thứ nhất là về khả năng xử lý tức thời gian tìm kiếm và khơng gian lưu trữ hay cịn gọi là hiệu năng; thứ hai là về khả năng tìm Luận văn : Đánh giá các hệ thống tìm kiếm thơng tin Trang 11 kiếm hay hiệu quả của kết quả trả về; thứ ba là khả năng về hệ thống tức hệ thống cĩ thỏa mãn nhu cầu thơng tin của người dùng hay khơng. Hiện nay, trên thế giới đã cĩ rất nhiều hệ thống đánh giá các hệ thống tìm kiếm thơng tin nhưng chủ yếu là đánh giá các hệ thống tìm kiếm thơng tin tiếng Anh, tiếng Pháp. Đối với tiếng Việt, theo chúng tơi được biết, chưa cĩ một hệ thống nào được dùng để đánh giá các hệ thống tìm kiếm thơng tin tiếng Việt. Nhưng theo xu hướng phát triển của đất nước và nhu cầu tìm kiếm thơng tin thì các hệ thống tìm kiếm thơng tin tiếng Việt bắt buộc phải tồn tại và phát triển. Vì vậy, Việt Nam chúng ta rất cần các hệ thống được dùng để đánh giá hiệu năng, hiệu quả của các hệ thống tìm kiếm thơng tin tiếng Việt. Do ý nghĩa to lớn của lĩnh vực nghiên cứu đánh giá này, chúng tơi đã quyết định chọn đề tài đánh giá các hệ thống tìm kiếm thơng tin. Chúng tơi nghĩ rằng hệ thống đánh giá của chúng tơi sẽ là cơ sở để đánh giá tất cả các hệ thống tìm kiếm thơng tin, nhất là hệ thống tìm kiếm thơng tin tiếng Việt. Chúng tơi cũng hy vọng hệ thống của chúng tơi sẽ gĩp phần vào sự phát triển của các hệ thống tìm kiếm thơng tin, của tìm kiếm thơng tin và của cơng nghệ thơng tin nước ta. Thực hiện đánh giá khả năng tìm kiếm, chúng tơi tập trung vào đánh giá hiệu quả của kết quả tìm kiếm được trả về (cấp độ thứ hai trong khả năng tìm kiếm của hệ thống thơng tin ở trên). Hiệu quả của kết quả trả về được định nghĩa là khả năng hệ thống tìm kiếm thơng tin tìm được các tài liệu liên quan (Relevant Documents) và loại bỏ đi những tài liệu khơng liên quan (Irrelevant Documents). Đây là mơ hình hướng hệ thống trong nghiên cứu tìm kiếm thơng tin. Mơ hình này mơ hình đánh giá được sử dụng nhiều nhất và hiệu quả nhất trên thế giới. Và để xây dựng hệ thống đánh giá các hệ thống tìm kiếm thơng tin tiếng Việt theo mơ hình hướng hệ thống, trước hết, chúng tơi cần phải xây dựng bộ ngữ liệu dùng để đánh giá bằng tiếng Việt (a Vietnamese Test collection). Bộ ngữ liệu dùng để đánh giá gồm cĩ kho ngữ liệu mẫu bằng tiếng Việt (a Vietnamese Luận văn : Đánh giá các hệ thống tìm kiếm thơng tin Trang 12 Corpus hay a set of Vietnamese documents), tập câu truy vấn mẫu bằng tiếng Việt (a set of Vietnamese queries), và bảng đánh giá liên quan chuẩn (Relevance Judgment). Chúng tơi tìm hiểu và thực hiện xây dựng bộ ngữ liệu dùng để đánh giá theo tiêu chuẩn của Hội nghị về Tìm kiếm thơng tin Văn bản (Text REtrieval Conference hay TREC) của Hoa Kỳ, một trong những Hội nghị hàng đầu trên thế giới về Tìm kiếm Thơng tin. Tiếp theo, chúng tơi xây dựng chương trình trợ giúp đánh giá các hệ thống tìm kiếm thơng tin, cho phép người dùng thao tác, thực hiện đánh giá các hệ thống một cách dễ dàng. Kết quả trả về của chương trình đánh giá cĩ được dựa vào bộ ngữ liệu mẫu được dùng đánh giá. Kết quả trả về này gồm cĩ kết quả truy vấn của hệ thống tìm kiếm thơng tin và kết quả đánh giá. Kết quả đánh giá được tính dựa trên sự kết hợp của hai độ đo: độ bao phủ (Recall) và độ chính xác (Precision). Từ kết quả trả về, chúng ta cĩ thể biết được khả năng tìm kiếm của riêng từng hệ thống tìm kiếm thơng tin và so sánh khả năng của các hệ thống tìm kiếm với nhau. Luận văn : Đánh giá các hệ thống tìm kiếm thơng tin Trang 13 Chương 1 : TỔNG QUAN 1.1. Tổng quan về tìm kiếm thơng tin và hệ thống tìm kiếm thơng tin Tìm kiếm thơng tin liên quan đến việc biểu diễn, lưu trữ, tổ chức và tiếp cận các yếu tố thơng tin (một tài liệu cĩ thể cĩ một hoặc nhiều yếu tố thơng tin) [1 ]. Theo lý thuyết, khơng cĩ giới hạn về các loại yếu tố thơng tin trong tìm kiếm thơng tin. Trên thực tế, các loại yếu tố thơng tin ngày càng trở nên đa dạng cùng với sự phát triển của xã hội. Ngồi ra, một tập hợp các yếu tố thơng tin được gọi là hữu dụng khi và chỉ khi nĩ đầy đủ và luơn được cập nhật. Đầy đủ ở đây cĩ nghĩa là tập hợp này phải chứa một tỉ lệ lớn các yếu tố thơng tin được xem là cĩ khả năng liên quan đến các lĩnh vực xác định. Hơn nữa, việc biểu diễn và tổ chức các yếu tố thơng tin nên cung cấp cho người dùng cách truy cập dễ dàng nhất đến thơng tin mà người đĩ quan tâm. Nhưng khơng may là tính chất của nhu cầu thơng tin người dùng khơng phải đơn giản. Chúng ta xem xét một ví dụ về một nhu cầu thơng tin hiển nhiên của người sử dụng trong ngữ cảnh tìm kiếm World Wide Web hay chỉ là Web: Tìm tất cả các trang hay tài liệu chứa thơng tin về bệnh ung thư phổi và nguyên nhân dẫn đến ung thư phổi, các tài liệu được xem là liên quan phải vừa nĩi đến các triệu chứng ung thư phổi, vừa nĩi đến nguyên nhân dẫn đến căn bệnh này gồm cả tác hại của việc hút thuốc và ơ nhiễm mơi trường. Từ ví dụ trên, chúng ta thấy rõ ràng là sự mơ tả đầy đủ nhu cầu thơng tin người dùng khơng thể được sử dụng trực tiếp để tìm kiếm trên bình diện của các phương tiện tìm kiếm Web (Web Search Engine) hay hệ thống tìm kiếm thơng tin (IR system) hiện nay. Thay vào đĩ, người sử dụng phải dịch nhu cầu thơng tin của mình sang một câu truy vấn cĩ thể được xử lý bằng phương tiện tìm kiếm hay hệ thống tìm kiếm thơng tin. Điều này tạo ra một tập các từ khĩa tĩm tắt mơ tả nhu cầu thơng tin người dùng hay cịn gọi là câu truy vấn. Dựa trên câu truy vấn của người sử dụng, mục đích chính của hệ thống tìm kiếm thơng tin là tìm kiếm các thơng tin hữu ích hay liên quan cho người sử dụng. Luận văn : Đánh giá các hệ thống tìm kiếm thơng tin Trang 14 Vậy cĩ thể nĩi một cách tổng quát, hệ thống tìm kiếm thơng tin là một hệ thống cho phép người sử dụng tìm kiếm tài liệu để thỏa mãn nhu cầu thơng tin từ một kho ngữ liệu lớn. Để tìm kiếm thơng tin, hệ thống tìm kiếm phải thực hiện các cơng việc sau. Trước hết, hệ thống tìm kiếm xử lý tài liệu thơ thành những tài liệu được tách từ, phân đoạn (tokenized documents) và sau đĩ lập chỉ mục (index) dựa trên vị trí của từ. Khi người dùng đưa vào câu truy vấn, hệ thống tìm kiếm thơng tin cũng sẽ xử lý các câu truy vấn thành ngơn ngữ chỉ mục mơ tả các yếu tố thơng tin cần tìm kiếm và thực hiện đối chiếu với chỉ mục tài liệu để tìm ra các tài liệu liên quan. Cuối cùng, các tài liệu liên quan sẽ được trả về cho người dùng theo một danh sách được sắp xếp theo độ ưu tiên chính xác giảm dần (ranked list). 1.2. Tổng quan về đánh giá các hệ thống tìm kiếm thơng tin 1.2.1. Lý do để tiến hành đánh giá các hệ thống tìm kiếm thơng tin Khi nhu cầu tìm kiếm thơng tin phát triển, cĩ rất nhiều mơ hình, thuật tốn, hệ thống tìm kiếm thơng tin ra đời. Do đĩ, việc đánh giá các mơ hình, thuật tốn, hệ thống tìm kiếm thơng tin là điều bắt buộc phải làm. Chúng ta so sánh một hệ thống (cĩ thể là một hệ thống mới) với các hệ thống khác đã tồn tại về phương diện: tính hiệu quả, chi phí, thời gian , tốc độ xử lý… Hệ thống tìm kiếm thơng tin thường thực hiện hai quá trình: quá trình lập chỉ mục và quá trình tìm kiếm. Mỗi một quá trình sẽ cĩ nhiều phương pháp để thực hiện, đánh giá hệ thống cũng cĩ thể dùng để xác định tính tối ưu của các phương pháp trên. Lý do khác để tiến hành đánh giá là để so sánh các thành phần của hệ thống. Do hệ thống gồm nhiều thành phần, đánh giá hệ thống để xác định cách mỗi thành phần của hệ thống thực thi để khi cĩ sự thay đổi một thành phần bởi một thành phần khác thì sự thay đổi đĩ ảnh hưởng đến hệ thống như thế nào, từ đĩ ta cĩ thể quyết định cĩ nên thay đổi thành phần đĩ khơng. Luận văn : Đánh giá các hệ thống tìm kiếm thơng tin Trang 15 Đánh giá để tìm kiếm thành phần nào là tốt nhất cho hàm xếp thứ tự (dot- product, cosine…); thành phần nào là tốt nhất cho lựa chọn thuật ngữ (loại bỏ stopword, phương pháp lấy gốc từ stemming …); thành phần nào là tốt nhất trong lựa chọn phương pháp đánh giá thuật ngữ (term weighting) như TF, IDF … (các thành phần này sẽ được nĩi rõ hơn trong chương sau). So sánh để biết người sử dụng cần danh sách các tài liệu trả về (ranked list) dài cỡ bao nhiêu để họ cĩ thể nhìn dễ dàng nhất. Đánh giá để biết hệ thống nào thật sự tốt, người dùng cĩ thể tin tưởng kết quả trả về được. 1.2.2. Các tiêu chuẩn được dùng để đánh giá Hiện nay, trên thế giới cĩ ba tiêu chuẩn được dùng để đánh giá hệ thống tìm kiếm thơng tin. Thứ nhất là tiêu chuẩn về tính hiệu quả tức sự chính xác, tính đầy đủ của kết quả trả về so với mục đích tìm kiếm của người sử dụng, và giá trị vẫn cĩ thể đốn được trong các tình huống khác cĩ nghĩa là khi đưa vào các câu truy vấn khác, tập tài liệu khác thì hệ thống vẫn cĩ thể tìm ra kết quả chính xác. Thứ hai là tiêu chuẩn về hiệu năng, gồm cĩ tốc độ tìm kiếm của thuật tốn, khả năng lưu trữ, thời gian trả về cho người sử dụng, thời gian lập chỉ mục, kích thước chỉ mục… Thứ ba là tiêu chuẩn về khả năng sử dụng hệ thống tức là cĩ thể nghiên cứu, học hỏi trên hệ thống tìm kiếm, người khơng biết tin học hay các chuyên gia tin học đềi cĩ thể sử dụng hệ thống. 1.2.3. Các mơ hình đánh giá Theo chúng tơi được biết, trên thế giới cĩ tất cả bốn mơ hình đánh giá các hệ thống tìm kiếm thơng tin. Chúng bao gồm : đánh giá hộp kính, đánh giá hộp đen, đánh giá hướng hệ thống, đánh giá hướng người dùng hay cịn gọi là đánh giá nghiên cứu người dùng [ 2]. Đánh giá hộp kính (glass box evaluation) : đánh giá hệ thống dựa trên việc đánh giá tất cả mọi thành phần của hệ thống. Cĩ nghĩa là khi biết rõ các thành phần của hệ thống, chúng ta tiến hành đánh giá các thành phần đĩ. Luận văn : Đánh giá các hệ thống tìm kiếm thơng tin Trang 16 Đánh giá hộp đen (black box evaluation) : đánh giá hệ thống bằng cách xem hệ thống như là một thực thể hợp nhất, khơng đánh giá chính xác các thành phần bên trong hệ thống. Đánh giá hướng hệ thống (system-oriented evaluation) là xu hướng đánh giá chính từ khi các hệ thống tìm kiếm và lập chỉ mục tự động được phát triển vào những năm 1960. Một trong những mục đích chính của hướng đánh giá này là kiểm tra các hệ thống tự động cũng như các thủ tục thủ cơng thực thi như thế nào. Ngồi ra, mơ hình này cịn đánh giá so sánh các cách thực hiện liên quan đến các ngơn ngữ chỉ mục, xử lý tìm kiếm của hệ thống của các hệ thống khác nhau hay đánh giá so sánh các lược đồ chỉ mục tự động khác nhau. Đánh giá hướng hệ thống cĩ một điểm lợi là điều kiện mơi trường kiểm tra được quản lý chặt chẽ, sử dụng phương pháp đánh giá theo lơ hay cịn gọi là đánh giá dựa trên tập câu truy vấn; cĩ nghĩa là hệ thống tìm kiếm thơng tin lần lượt thực hiện các câu truy vấn, tìm kiếm trên tập dữ liệu đã được xây dựng và ghi lại kết quả những tài liệu nào liên quan đến câu truy vấn nào rồi đem so sánh với Bảng Đánh giá liên quan chuẩn (Relevance judgment) đã được xây dựng. Với mỗi câu truy vấn tính tốn độ chính xác và độ bao phủ dựa trên kết quả trả về và bảng đánh giá liên quan chuẩn để nhận xét hiệu quả tìm kiếm của hệ thống tìm kiếm thơng tin. Hướng đánh giá này được thực hiện rất phổ biến ở các dự án, hội nghị về nghiên cứu hệ thống tìm kiếm thơng tin như: Cranfield , MEDLARS, SMART, STAIRS và TREC. Đánh giá hướng người dùng (user studies evaluation): Hướng nghiên cứu người dùng ra đời vào những năm 1970 khi mà nhiều hệ thống tìm kiếm thơng tin thương mại ra đời. Mục đích chính của hướng nghiên cứu này là nhằm xác định cách thức tìm kiếm của người sử dụng [ 3]. Hướng đánh giá này cịn cho phép xem xét hệ thống ở khía cạnh người dùng; tức là đánh giá về mặt tương tác với người sử dụng như giao diện của hệ thống tìm kiếm thơng tin, thời gian hệ thống tìm kiếm đối với một câu truy vấn, Luận văn : Đánh giá các hệ thống tìm kiếm thơng tin Trang 17 mức độ hài lịng của người sử dụng… Hướng nghiên cứu này cho rằng nhu cầu của người dùng được thoả mãn tương đương với hiệu quả của hệ thống. Chỉ khi nhu cầu thơng tin người dùng được thỏa mãn, khi ấy tìm kiếm thơng tin mới được gọi là cĩ ích. Hội nghị quốc tế về Tìm kiếm Thơng tin trong Ngữ cảnh (Information Seeking in Context) được tổ chức như là một diễn đàn cho các nhà nghiên cứu lĩnh vực này khám phá các phương pháp và các kết quả nghiên cứu. Một hội nghị khác mới được thành lập tên là Nhĩm Quan tâm Đặc biệt (Special Interest Group - SIG) đến tìm kiếm, nhu cầu và sử dụng thơng tin của Xã hội Hoa Kỳ về Khoa học Thơng tin (American Society of Information Science). Những hội nghị này cũng tương tự như TREC trong việc cố gắng khuyến khích nghiên cứu hướng người dùng, để phát triển mối liên hệ giữa các nhà nghiên cứu trong kỹ thuật, giáo dục và chính phủ, và để xác định, cải tiến các kỹ thuật tìm kiếm thích hợp. Nhưng các hội nghị này khác nhau ở chỗ các hội nghị mới chưa cĩ phương pháp luận đánh giá chuẩn nào được xúc tiến. Đánh giá hướng người dùng cĩ đĩng gĩp rất lớn đến lĩnh vực tìm kiếm thơng tin. Đĩng gĩp này gồm cĩ việc xác định cách thức tìm kiếm thơng tin của con người, nối liền khoảng cách giữa nhu cầu thơng tin giữa các cá nhân và các hệ thống tìm kiếm thơng tin, dẫn đến một thế hệ mới của các hệ thống tìm kiếm thơng tin bao gồm các giao diện đồ hoạ máy tính-người sử dụng. Hiện nay, trong số bốn mơ hình trên thì hai mơ hình đánh giá hướng hệ thống và hướng người dùng đang được sử dụng chính và rộng rãi nhất. Trong phạm vi đề tài của chúng tơi, chúng tơi chỉ sử dụng mơ hình đánh giá hướng hệ thống vì mơ hình đánh giá hướng người dùng cần cĩ sự hợp tác của rất nhiều người dùng để lấy thơng tin phản hồi sau khi sử dụng hệ thống tìm kiếm thơng tin đĩ hoặc cần phải tham gia trao đổi về hiệu năng tìm kiếm tại các hội nghị. Nhưng các hội nghị dành cho mơ hình đánh giá hướng người dùng đa số chưa cĩ một phương pháp luận cụ thể nào dùng để đánh giá. Ngồi ra, với mơ hình hướng hệ thống, chúng Luận văn : Đánh giá các hệ thống tìm kiếm thơng tin Trang 18 tơi cĩ thể xây dựng ứng dụng để đánh giá nhiều hệ thống tìm kiếm thơng tin một cách tự động. 1.2.4. Các độ đo dùng để đánh giá Độ bao phủ (Recall) và độ chính xác (Precision) là 2 đơn vị đo cơ bản nhất để đánh giá chất lượng một hệ thống tìm kiếm thơng tin [4 ]. Độ bao phủ là tỉ lệ giữa các tài liệu liên quan được trả về trên tổng số các tài liệu liên quan thật sự. Trong khi đĩ, độ chính xác là tỉ lệ giữa các tài liệu liên quan được trả về trên tổng số tài liệu được trả về. Cĩ nhiều phương pháp sử dụng một hoặc các độ đo này để tính tốn đánh giá, chẳng hạn phương pháp Độ chính xác trung bình (Mean Average Precision – MAP) chỉ sử dụng độ chính xác, khơng quan tâm đến độ bao phủ. Phương pháp đo dựa trên giá trị đơn Swet’s E-Measure hoặc chiều dài tìm kiếm trung bình thì cũng chỉ sử dụng một giá trị để tính tốn. Phương pháp tính độ chính xác dựa trên 11 điểm chuẩn của độ bao phủ sử dụng cả hai độ đo độ bao phủ và độ chính xác. Chúng tơi thực hiện đánh giá theo phương pháp tính độ chính xác dựa trên 11 điểm chuẩn của độ bao phủ bởi vì phương pháp này khá đơn giản, dễ thực hiện tính tốn, đo và đánh giá. Ngồi ra, phương pháp này trực quan với cách biểu diễn đồ thị của các điểm bao phủ, chính xác từ đĩ dễ dàng thấy hiệu quả tìm kiếm của riêng từng hệ thống và so sánh các hệ thống đánh giá với nhau. 1.2.5. Các phương pháp xây dựng bộ ngữ liệu dùng để đánh giá Theo mơ hình hướng hệ thống, trước hết phải xây dựng bộ ngữ liệu dùng để đánh giá (test collection). Bộ ngữ liệu dùng để đánh giá gồm cĩ tập các tài liệu mẫu, tập câu truy vấn mẫu, và bảng đánh giá liên quan chuẩn. • Tập tài liệu dùng để đánh giá được thu thập từ các nguồn khác nhau, gồm nhiều chủ đề khác nhau. Tập tài liệu này phải là những tài liệu mẫu bao quát càng nhiều lĩnh vực càng tốt, phản ánh được các vấn đề đa dạng khác nhau, các phong cách văn chương khác nhau … Điều này cĩ nghĩa là tập Luận văn : Đánh giá các hệ thống tìm kiếm thơng tin Trang 19 tài liệu mẫu này phải cĩ kích thước lớn, vì vậy tập tài liệu này cịn được gọi là kho ngữ liệu mẫu. • Tập câu truy vấn mẫu là những câu hỏi được tạo ra phù hợp với tập tài liệu mẫu. Tập câu truy vấn này sau đĩ sẽ được sử dụng để tìm kiếm. • Bảng đánh giá liên quan chuẩn là bảng chứa thơng tin về số thứ tự câu hỏi và các tài liệu liên quan thật sự của câu hỏi đĩ. Bảng Đánh giá liên quan chuẩn được dùng như là bảng đối chiếu để tính độ bao phủ và độ chính xác. Cĩ nhiều cách khác nhau để tạo bảng đánh giá liên quan chuẩn hay bảng Relevance judgment. Các phương pháp này gồm cĩ: 8 Phương pháp đánh giá tồn bộ, phương pháp này thường khơng khả thi vì tỉ lệ tập câu hỏi*tập tài liệu là quá lớn. Phương pháp này rất tốn chi phí. 8 Phương pháp Pooling hay cịn gọi là phương pháp lấy một số tài liệu liên quan nhất để làm bảng đánh giá liên quan chuẩn. Phương pháp này sử dụng tốt cho đánh giá nhiều hệ thống tìm kiếm thơng tin. Phương pháp này địi hỏi phải cĩ một sự đa dạng các hệ thống tìm kiếm thơng tin. Bước đầu tiên của phương pháp này là tìm thấy các tài liệu liên quan cho mỗi hệ thống. Các hệ thống khác nhau tìm thấy các tài liệu liên quan khác nhau. Bước tiếp theo là tổng hợp các kết quả của tất cả các hệ thống lại và lấy phần giao của các bảng đánh giá liên quan của các hệ thống. Nhưng phần giao này cĩ thể chỉ là một số lượng nhất định các tài liệu gần như chính xác nhất. Việc đánh giá dựa trên phương pháp này thật sự khách quan khi đánh giá các hệ thống khơng được chọn để giao lấy bảng Đánh giá liên quan chuẩn. 8 Phương pháp đánh giá hướng dẫn chỉ tìm kiếm thỉnh thoảng cho kết quả tốt. Phương pháp này cho phép tương tác giữa nghiên cứu truy vấn, tìm kiếm, đánh giá. Tăng cường thêm bằng cách xem lại, điều chỉnh, đánh giá lại. Nĩi chung, khi sử dụng phương pháp này, người đánh giá Luận văn : Đánh giá các hệ thống tìm kiếm thơng tin Trang 20 phải thao tác bằng tay rất nhiều, xem các tài liệu trả về cĩ thật sự là liên quan hay chưa để đưa vào bảng Đánh giá liên quan chuẩn. 8 Các đánh giá dựa trên những thành phần đã biết, phương pháp này tốn ít chi phí nhất. Phương pháp này cho phép thay đổi câu hỏi để tìm ra một tài liệu đã biết. 1.2.6. Phương pháp xây dựng bộ ngữ liệu được chọn Kể từ năm 1992, khi Hội nghị về Tìm kiếm thơng tin Văn bản (Text REtrieval Conference hay TREC) của Hoa Kỳ ra đời, mơ hình hướng hệ thống mới thật sự phát triển. Bởi vì hằng năm, TREC tổ chức hội nghị để kêu gọi tham gia đánh giá các hệ thống tìm kiếm thơng tin, đặc biệt kêu gọi đánh giá theo mơ hình hướng hệ thống. Nhờ đĩ mà mỗi năm khối lượng, kích thước bộ ngữ liệu dùng để đánh giá tăng lên rất đáng kể cùng với sự phát triển về số lượng các tổ chức, trường Đại học tham gia TREC. TREC được xem là Hội nghị lớn nhất thế giới về đánh giá các hệ thống tìm kiếm thơng tin và là một trong những Hội nghị cĩ uy tín trong lĩnh vực tìm kiếm thơng tin. TREC xây dựng bảng đánh giá liên quan chuẩn theo phương pháp Pooling. TREC cịn đưa ra các tiêu chuẩn, định dạng cho ngữ liệu rất rõ ràng, và dễ tuân theo. Vì vậy, chúng tơi quyết định chọn phương pháp xây dựng ngữ liệu theo tiêu chuẩn và cách làm của TREC. Chúng tơi định dạng câu hỏi và tài liệu theo tiêu chuẩn định dạng mà TREC đưa ra, đồng thời làm bảng đánh giá liên quan chuẩn theo phương pháp Pooling hay phương pháp lấy một số tài liệu liên quan nhất để làm bảng Đánh giá liên quan giống TREC vì cách tạo bảng đánh giá khách quan mà nĩ mang lại và khơng phải tốn nhiều thời gian, chi phí. Tuy nhiên, đối với tiếng Việt, việc xây dựng bộ ngữ liệu đánh giá phức tạp hơn là xây dựng bộ ngữ liệu tiếng Anh, tiếng Pháp trong trường hợp dùng các hệ thống tìm kiếm phổ biến, nổi tiếng sẵn cĩ cho tiếng Anh, Pháp để tìm kiếm thơng tin tiếng Việt. Bởi vì đặc thù loại hình ngơn ngữ khác nhau giữa tiếng Anh, Pháp và tiếng Việt. Chẳng hạn, trong tiếng Anh, Pháp mỗi từ là một từ đơn, cách nhau bởi Luận văn : Đánh giá các hệ thống tìm kiếm thơng tin Trang 21 một khoảng trắng nhưng tiếng Việt thì hồn tồn khác, một từ cĩ thể gồm từ một từ đơn trở lên. Do đĩ, để những hệ thống tìm kiếm thơng tin, ngữ liệu phải được chuẩn hĩa về giống với tiêu chuẩn ngữ liệu dùng để tìm kiếm của hệ thống đĩ. Nhưng cũng chính điều này làm cho ngữ liệu của chúng tơi cĩ thể được sử dụng linh hoạt để đánh giá nhiều hệ thống tìm kiếm thơng tin cho nhiều thứ tiếng khác nhau. Điều này cịn cĩ ý nghĩa rất lớn trong tìm kiếm thơng tin vì chúng ta cĩ thể sử dụng hệ thống tìm kiếm hiệu quả của nước ngồi để tìm kiếm thơng tin tiếng Việt. 1.2.7. Phương pháp đánh giá tầm quan trọng của kết quả trả về Các độ đo thực hiện tồn bộ hệ thống tìm kiếm chủ yếu được lấy trung bình trên tập câu hỏi. Vì tính chất biến đổi của các câu hỏi là rất lớn, và sự thay đổi của các độ đo tính tốn là rất cao, nên địi hỏi một phương pháp phân tích thống kê thích hợp để đánh giá xem sự khác biệt được đo giữa các hệ thống cĩ phải là cĩ ý nghĩa thống kê đến một độ tin cậy nhất định khơng. Vì vậy, phương pháp đánh giá tầm quan trọng của kết quả trả về được sử dụng là phương pháp thống kê. Luận văn : Đánh giá các hệ thống tìm kiếm thơng tin Trang 22 Chương 2 : CƠ SỞ LÝ THUYẾT 2.1. Tìm kiếm thơng tin và các hệ thống tìm kiếm thơng tin 2.1.1. Lịch sử tìm kiếm thơng tin và hệ thống tìm kiếm thơng tin Tìm kiếm thơng tin cĩ một lịch sử lâu đời gắn liền với các thư viện và trung tâm tìm kiếm thơng tin. Trước đây, khi mà máy tính và internet chưa ra đời, những người cĩ nhu cầu thơng tin ngồi việc nhờ sự trợ giúp thơng tin từ bạn bè, người thân cịn cĩ thể tìm đến thư viện hoặc các trung tâm thơng tin để tìm kiếm thơng tin cần thiết. Cách biểu diễn, lưu trữ, tổ chức và phổ biến thơng tin của thư viện được xem là cách làm truyền thống của một hệ thống tìm kiếm thơng tin. Thư viện, khi tiếp nhận các yếu tố thơng tin hay tài liệu mới, trước hết là phân tích yếu tố thơng tin đĩ. Sau đĩ, những mơ tả thích hợp sẽ được chọn ra để mơ tả, phản ánh nội dung của yếu tố thơng tin đĩ. Dựa trên những mơ tả này, mỗi yếu tố thơng tin sẽ được phân loại theo những thủ tục đã được thiết lập rồi sáp nhập vào tập hợp các yếu tố thơng tin đã tồn tại. Các thủ tục này được tạo ra để hệ thống hĩa các yêu cầu (các yêu cầu được thiết kế để thay thế cho một nhu cầu thơng tin ) và để so sánh những yêu cầu, truy vấn đĩ với mơ tả của các yếu tố thơng tin đã lưu trữ. Việc so sánh này chính là cơ sở để quyết định các yếu tố thơng tin thích hợp với câu truy vấn tương ứng. Cuối cùng, một cơ chế tìm kiếm và phổ biến thơng tin sẽ được dùng để trả các yếu tố thơng tin cần thiết đến người sử dụng hệ thống. Tuy nhiên, chúng ta phải xem xét vấn đề nảy sinh về vị trí thật sự của một yếu tố thơng tin mới được thêm vào trong tập hợp tài liệu. Cĩ nhiều cơ chế tiếp cận khác nhau để giải quyết vấn đề này nhưng chúng đều liên quan đến cách tổ chức vật lý hoặc luận lý các yếu tố thơng tin. Trong thư viện, cách tổ chức vật lý chính là việc lập chỉ mục cho tài liệu, tức là sự sắp xếp các con số của các quyển sách, cách đánh số thường được quy định bởi các thư viện lớn. Những quyển sách sẽ được đặt vào những vị trí xác định dựa vào những con số này. Ngồi ra, cách tổ chức luận lý dữ liệu phải được thêm vào với cách tổ chức vật lý để giúp người sử Luận văn : Đánh giá các hệ thống tìm kiếm thơng tin Trang 23 dụng tìm kiếm thơng tin dễ dàng hơn. Chẳng hạn, những quyển sách ấn bản về tìm kiếm thơng tin cĩ thể được xác định bằng cách nhìn vào danh mục các chủ đề của thư viện với thuật ngữ cần tìm là “tìm kiếm thơng tin”. Một khi ta tìm thấy thuật ngữ thích hợp, các thẻ số kế tiếp nhau sẽ xác định những quyển sách liên quan đến chủ đề đang tìm kiếm. Những quyển sách này phụ thuộc vào các con số và chúng sẽ được tìm thấy tại những vị trí xác định. Bên cạnh đĩ, mỗi khi muốn thay đổi thuật ngữ chủ đề của sách, chúng ta khơng cần thay đổi vị trí của sách trên kệ sách; tức là, các yếu tố thơng tin cĩ thể được tổ chức luận lý lại bằng cách thay đổi danh mục thư viện mà khơng cần thay đổi sắp xếp vật lý. Xã hội ngày càng phát triển do đĩ thơng tin rất đa dạng phong phú, bài tốn đặt ra là chúng ta phải làm sao để quản lý được số lượng thơng tin khổng lồ một cách cĩ hiệu quả. Từ đĩ dẫn đến nhu cầu làm giảm một lượng các yếu tố thơng tin đến một kích thước cĩ thể quản lý, các yếu tố thơng tin cịn lại được xem là cĩ liên quan nhiều nhất đến lĩnh vực tìm kiếm. Mặt khác, chúng ta rất khĩ dự đốn mẫu, trạng thái phát triển tương lai của thơng tin, hoặc nếu cĩ thể dự đốn thì tỉ lệ rủi ro rất cao. Khĩ khăn tiếp theo trong việc tổ chức thơng tin hiệu quả là ước muốn giữ những yếu tố liên quan gần nhau. Ví dụ, những chủ đề liên quan đến nhiều lĩnh vực như phân tích hệ thống (nĩ liên quan đến khoa học máy tính, vận trù học, kỹ thuật học, khoa học quản lý, giáo dục và các hệ thống thơng tin) khơng thể để gần nhau được mà phải để riêng ra theo từng lĩnh vực : đây là một khĩ khăn. Cịn rất nhiều khĩ khăn nữa, chẳng hạn các khĩ khăn trong phân loại, so sánh tài liệu, yếu tố thơng tin; lập chỉ mục, đánh số cho tài liệu. Và những khĩ khăn này sẽ khơng được giải quyết nếu khơng cĩ sự ra đời của máy tính. Quả thật, nhờ cĩ máy tính mà việc lưu trữ, tìm kiếm thơng tin trở nên dễ dàng hơn. Máy tính cĩ thể thao tác trên tất cả các loại thơng tin và cĩ thể lưu trữ một cách nhanh chĩng một số lượng thơng tin khổng lồ. Ngồi ra, cơ chế tìm kiếm thơng tin trên máy tính cĩ thể rất nhanh chĩng và hiệu quả tùy thuộc mơ hình cài đặt, thuật tốn của cơ chế đĩ. Cơ chế tìm kiếm này cũng khá giống với cơ chế tìm kiếm thơng tin của thư viện. Trước hết, dựa trên ngơn ngữ chỉ mục và các yếu tố thơng tin đại diện cho nội Luận văn : Đánh giá các hệ thống tìm kiếm thơng tin Trang 24 dung của tài liệu, tập tài liệu sẽ được biểu diễn dưới dạng tập hợp các chỉ mục đại diện cho tập tài liệu đĩ. Trong khi đĩ, nhu cầu tìm kiếm thơng tin được biểu diễn dưới dạng câu truy vấn cĩ cấu trúc hoặc khơng cấu trúc mà máy cĩ thể hiểu được. Sau đĩ, máy sẽ so sánh hai dạng biểu diễn trên, biểu diễn tài liệu và biểu diễn câu truy vấn, để biết được tài liệu nào phù hợp với truy vấn nào. Sau khi so sánh, máy sẽ định vị được vị trí vật lý của yếu tố thơng tin cần tìm kiếm và phổ biến nĩ đến người sử dụng. Đây là cơ chế tìm kiếm chung cho mọi hệ thống tìm kiếm thơng tin. Tuy nhiên, cách đây khơng quá 20 năm, sau khi máy tính ra đời, các hệ thống tìm kiếm thơng tin chủ yếu được sử dụng trong phịng thí nghiệm để tìm kiếm một kho ngữ liệu sách và tài liệu. Mặc dù chúng khơng bao hàm các phương pháp tốn phức tạp, nhưng khi Internet phát triển thì kỹ thuật tìm kiếm chủ yếu trên World Wide Web chính là các kỹ thuật tìm kiếm thơng tin. Quả thật, các hệ thống tìm kiếm thơng tin ngày càng phát triển về thuật tốn, kỹ thuật tìm kiếm thơng tin nhờ cĩ sự ra đời của Internet. Vì nhu cầu tìm kiếm thơng tin của con người trên Internet là một nhu cầu phổ biến, thiết thực, khơng thể thiếu nên các nhà phát triển hệ thống tìm kiếm thơng tin cũng phải nỗ lực để mang lại hiệu năng, hiệu quả cho người sử dụng. Chúng ta thấy rõ ràng là nghiên cứu tìm kiếm thơng tin cĩ truyền thống tập trung vào tìm kiếm thơng tin dạng văn bản (Text Retrieval) hay tài liệu văn bản (Document Retrieval). Trong một thời gian dài, tìm kiếm thơng tin gần như đồng nghĩa với tìm kiếm tài liệu hay tìm kiếm văn bản. Trong thời gian gần đây, các viễn cảnh ứng dụng mới như ứng dụng trả lời câu hỏi (question answering), ứng dụng nhận dạng chủ đề (topic detection), hay ứng dụng lưu vết (tracking) trở thành các lĩnh vực hoạt động mạnh mẽ trong nghiên cứu tìm kiếm thơng tin. Càng ngày ranh giới giữa cộng đồng tìm kiếm thơng tin hay cộng đồng tìm kiếm thơng tin và các cộng đồng nghiên cứu xử lý ngơn ngữ tự nhiên, cộng đồng nghiên cứu cơ sở dữ liệu trở nên mờ nhạt khi các cộng đồng này cùng nhau phát triển các Luận văn : Đánh giá các hệ thống tìm kiếm thơng tin Trang 25 lĩnh vực quan tâm chung; ví dụ như trả lời câu hỏi, tĩm tắt và tìm kiếm thơng tin từ các tài liệu cĩ cấu trúc. Một lĩnh vực phát triển khác mà các kỹ thuật tìm kiếm thơng tin đang kế tục và phát huy, đĩ là tìm kiếm thơng tin khơng văn bản hay cịn gọi là tìm kiếm thơng tin đa phương tiện. Loại hình tìm kiếm này sẽ dựa trên rút trích tự động các phần văn bản hay lời nĩi của các tài liệu đa phương tiện, sau đĩ được xử lý bởi các kỹ thuật tìm kiếm thơng tin dựa văn bản (text-based IR techniques). Tuy nhiên, người ta ngày càng quan tâm đến sự phát triển các kỹ thuật phơi bày cụ thể thơng tin phương tiện truyền thơng rồi tích hợp chúng với các phương pháp tìm kiếm đã được thiết lập tốt hơn là cách rút trích chúng tơi đã trình bày. Trong phạm vi đề tài, chúng tơi chỉ giới hạn tìm kiếm thơng tin trên văn bản. 2.1.2. Hệ thống tìm kiếm thơng tin 2.1.2.1. Khái niệm về hệ thống tìm kiếm thơng tin Theo lý thuyết, hệ thống tìm kiếm thơng tin là một hệ thống thơng tin. Nĩ được sử dụng để lưu trữ, xử lý, tra cứu, tìm kiếm, và phổ biến các yếu tố thơng tin đến người sử dụng. Hệ thống tìm kiếm thơng tin thường thao tác với các dữ liệu dạng văn bản và khơng cĩ sự giới hạn về các yếu tố thơng tin trong văn bản. Hệ thống thơng tin bao gồm một tập hợp các yếu tố thơng tin, một tập các yêu cầu, và một vài cơ chế tìm kiếm để quyết định yếu tố thơng tin nào liên quan đến các yêu cầu. Theo nguyên tắc, mối quan hệ giữa các câu truy vấn và tài liệu cĩ được từ sự so sánh trực tiếp. Nhưng trên thực tế, sự liên quan giữa các câu truy vấn và tài liệu xác định khơng phải được quyết định trực tiếp; mà gián tiếp bằng cách : các tài liệu, yếu tố thơng tin phải chuyển sang ngơn ngữ chỉ mục trước khi xác định mức độ liên quan. 2.1.2.2. Cách thức hoạt động của hệ thống tìm kiếm thơng tin Hình 1 minh họa cấu trúc, cách hoạt động cơ bản của một hệ thống tìm kiếm thơng tin cổ điển. Luận văn : Đánh giá các hệ thống tìm kiếm thơng tin Trang 26 Hình 1. Ở giai đoạn đầu tiên, giai đoạn tiền xử lý, tài liệu thơ của ngữ liệu được xử lý thành các tài liệu được tách từ, phân đoạn (tokenized documents) và sau đĩ được lập chỉ mục thành một danh sách các vị trí của từ (postings per terms). Ở giai đoạn thứ hai, người sử dụng đưa ra một câu truy vấn (phi cấu trúc bằng ngơn ngữ tự nhiên) mơ tả nhu cầu thơng tin của họ. Hệ thống tìm kiếm thơng tin sẽ biểu diễn câu truy vấn này thành những câu truy vấn cĩ hoặc khơng cĩ cấu trúc mà máy cĩ thể hiểu được. Hệ thống tìm kiếm thơng tin bắt đầu thực hiện chất vấn, đối chiếu để tìm ra tài liệu, các yếu tố thơng tin cĩ thể trả lời và liên quan đến câu truy vấn. Các thủ tục được dùng để quyết định các yếu tố thơng tin cĩ liên quan đến câu truy vấn đều dựa trên biểu diễn của các câu truy vấn và các yếu tố thơng tin cĩ chứa các thành phần ngơn ngữ chỉ mục. Cuối cùng, các tài liệu, yếu tố thơng tin được tìm thấy được hiển thị thành một danh sách tài liệu và được sắp xếp theo thứ tự liên quan (ranked retrieved documents). Thơng thường, những tài liệu, yếu tố thơng tin cĩ Luận văn : Đánh giá các hệ thống tìm kiếm thơng tin Trang 27 liên quan nhiều nhất được xếp trên những tài liệu ít liên quan hơn. Tùy vào các hệ thống tìm kiếm thơng tin khác nhau mà chúng hiển thị thơng tin liên quan theo những cách khác nhau. Chẳng hạn, cĩ hệ thống chỉ hiển thị tên tiêu đề và đường dẫn đến tài liệu đĩ, hoặc cĩ hệ thống vừa hiển thị tên, đường dẫn, vừa hiển thị một ít nội dung liên quan đến câu truy vấn, hoặc cĩ những hệ thống phục vụ tìm kiếm thơng tin trên mạng thì thêm vào các liên kết đến các trang web khác nhau. Nhiều hệ thống thơng tin cịn cĩ cả cơ chế cho phép người sử dụng cung cấp phản hồi đến chất lượng của kết quả trả về. Sử dụng phản hồi, hệ thống cố gắng thích ứng và nỗ lực tìm ra những kết quả tốt nhất cho câu truy vấn. Việc lập chỉ mục trong giai đoạn tiền xử lý chúng tơi vừa đề cập về nguyên tắc thì giống nhau đối với từng hệ thống nhưng về thuật tốn, cách thức thì khác nhau. Nguyên tắc lập chỉ mục: Tài liệu hay yếu tố thơng tin phi cấu trúc khi thêm mới sẽ được hệ thống tìm kiếm thơng tin chuyển sang một thể đặc biệt, đĩ là ngơn ngữ chỉ mục. Việc chuyển đổi thành phần thơng tin thành ngơn ngữ chỉ mục được thực hiện thủ cơng, hay tự động hoặc cả hai và nĩ được gọi là tiến trình lập chỉ mục. Tiến trình lập chỉ mục này được thực hiện dựa trên các yếu tố thơng tin đại diện cho nội dung của tài liệu. Do đĩ, kết quả của tiến trình này là một tập chỉ mục đại diện cho tài liệu đĩ. 2.1.2.3. Các phương tiện tìm kiếm thơng tin (Search Engines) Hình 2 minh họa cấu trúc cơ bản của các phương tiện tìm kiếm. Một phương tiện tìm kiếm là một hệ thống tìm kiếm thơng tin, tuy nhiên, nĩ khơng giống hồn tồn với hệ thống tìm kiếm thơng tin cổ điển đã mơ tả ở trên. Sự khác biệt giữa các hệ thống tìm kiếm thơng tin cổ điển và các phương tiện tìm kiếm bắt nguồn từ sự khác biệt nguồn gốc dữ liệu, cĩ nghĩa là một kho lưu trữ khép kín được định nghĩa tốt trái ngược với World Wide Web. Vì khơng cĩ cách tiếp cận trực tiếp đến các tài liệu trên Web (như là cĩ trong kho ngữ liệu thư viện), phương tiện tìm kiếm phải cần đến thành phần crawler ( tạm gọi là đường chạy của xích). Thành phần Luận văn : Đánh giá các hệ thống tìm kiếm thơng tin Trang 28 phần mềm này chịu trách nhiệm lấy các trang web về và lưu trữ chúng trong một kho nội bộ. Cơ chế crawling (đường chạy của xích) đưa ra các thách thức cơng nghệ liên quan đến hiệu năng của quá trình và đến sự liên quan của tài liệu – vì các trang web là động, nên crawler phải giữ cho kho nội bộ luơn được cập nhật hằng ngày. Việc crawling các tài liệu ngồi Web thì khơng đủ bởi vì dữ liệu web gồm cĩ nhiều thơng tin dư thừa. Phân tích tồn cục cĩ trách nhiệm loại bỏ dữ liệu khơng quan trọng như các trang Web giống nhau và các trang bao gồm sách báo khơng lành mạnh. Ngồi ra, phân tích tồn cục cũng chịu trách nhiệm tính tốn tồn cục được dùng trong các hệ thống tìm kiếm thơng tin như sắp xếp thứ tự trang (thứ tự trang hầu hết được xác định bởi những trang cĩ liên kết với nĩ và những trang nĩ liên kết tới). Hình 2. Luận văn : Đánh giá các hệ thống tìm kiếm thơng tin Trang 29 2.1.3. So sánh tìm kiếm thơng tin cổ điển và tìm kiếm thơng tin trên Web Bảng dưới đây biểu diễn sự khác biệt giữa các hệ thống tìm kiếm thơng tin cổ điển (IR cổ điển) và các hệ thống tìm kiếm thơng tin Web (Web IR). IR cổ điển Web IR Kích thước Lớn Khổng lồ Chất lượng dữ liệu Sạch, khơng trùng lắp Lộn xộn, trùng lắp Tỉ lệ thay đổi dữ liệu Hiếm Liên tục Khả năng truy cập dữ liệu Cĩ thể Truy cập một phần Đa dạng định dạng Đồng nhất, cùng nguồn gốc Rất đa dạng Tài liệu Văn bản HTML # liên quan Nhỏ Lớn Kỹ thuật IR Dựa nội dung Dựa liên kết Khối lượng dữ liệu trong một hệ thống IR cổ điển khá lớn, trong khi đĩ khối lượng dữ liệu này trong hệ thống Web IR là khổng lồ. Khác biệt lớn nhất trong khối lượng dữ liệu, chính là các thứ tự của lượng, ảnh hưởng đến phần cứng được địi hỏi (một máy tính thì khơng bao giờ đủ, bộ nhớ khơng thể chứa tồn bộ dữ liệu) và các thuật tốn (các định nghĩa hiệu năng của thời gian và khơng gian bị thay đổi). Một khác biệt nữa là khác biệt của dữ liệu. Trong hệ thống IR cổ điển dữ liệu được làm sạch, trong khi đĩ dữ liệu trên Web IR thì phức tạp, cả hai đều do sự trùng lắp vơ ý và do các spam cĩ dụng ý tăng thứ hạng của trang đĩ hoặc chỉ tạo sự lộn xộn . Như đã đề cập ở trên, sự thay đổi dữ liệu trong IR cổ điển là khơng thường xuyên ,do đĩ nĩ thường được lập chỉ mục 1 lần. Ngược lại, dữ liệu trên Web thì Luận văn : Đánh giá các hệ thống tìm kiếm thơng tin Trang 30 thay đổi thường xuyên nên chỉ mục cũng cần được cập nhật. Hơn nữa, tính khả truy cập của dữ liệu là khơng quan trọng trong Web IR. Tài liệu trong IR cổ điển thường đồng nhất về định dạng cịn tài liệu trong Web IR gồm nhiều loại khác nhau: bất cứ ai cũng cĩ thể tạo một trang web trong bất kì định dạng nào và bất kì ngơn ngữ nào. Một điểm khác biệt quan trọng nữa là tài liệu web khơng thường xuyên được viết ở dạng văn bản thơ như trong tài liệu IR cổ điển. Trang Web thường được viết bằng HTML (Hypertext Markup Language) , vừa cĩ những lợi ích và bất lợi đối với hệ thống tìm kiếm thơng tin : một mặt, nĩ bao gồm dữ liệu cĩ cấu trúc giúp việc phân tích dễ dàng hơn ; mặt khác, nĩ thường khơng chứa nhiều văn bản (hệ thống IR dựa trên thứ này), do đĩ khĩ phân loại hơn. Kết quả trả về trong Web IR cũng nhiều hơn so với IR cổ điển, do đĩ khĩ để sắp thứ tự danh sách kết quả hơn. Và cuối cùng, IR cổ điển sử dụng kĩ thuật sắp thứ tự chỉ dựa trên nội dung (content-based). Tuy nhiên, kĩ thuật này khơng thể áp dụng với Web IR. Nĩ đã từng là một kĩ thuật thơng dụng cho đến khi Google giới thiệu kĩ thuật sắp thứ tự mới dựa trên liên kết (link-based) . Kĩ thuật sắp thứ tự dựa trên liên kết sử dụng siêu liên kết (hyperlink) giữa các tài liệu web để sắp thứ tự các trang web một cách hiệu quả và chắc chắn hơn. 2.1.4. So sánh tìm kiếm thơng tin với tìm kiếm dữ liệu Một hệ thống tìm kiếm thơng tin khơng phải là một hệ thống tìm kiếm dữ liệu. Bảng dưới đây trình bày một số thuộc tính khác nhau giữa hệ thống tìm kiếm thơng tin và hệ thống tìm kiếm dữ liệu. Tìm kiếm thơng tin Tìm kiếm dữ liệu Dữ liệu Văn bản tự do, khơng cấu trúc Các bảng dữ liệu, cĩ cấu trúc Truy vấn Từ khĩa, ngơn ngữ tự nhiên SQL, đại số quan hệ Kết quả Liên quan tương đối, xấp xỉ Liên quan chính xác Luận văn : Đánh giá các hệ thống tìm kiếm thơng tin Trang 31 Kết quả Sắp xếp theo mức độ liên quan Khơng sắp xếp Truy cập Những người khơng phải chuyên gia Người sử dụng cĩ kiến thức hoặc các tiến trình tự động Hệ thống tìm kiếm thơng tin thu thập tài liệu dựa trên yêu cầu thơng tin của người dùng. Câu truy vấn trên dữ liệu khơng cĩ cấu trúc (thường là dạng văn bản tự do), sử dụng từ khĩa hoặc ngơn ngữ tự nhiên và do vậy cĩ thể được viết bởi người dùng khơng thơng thạo. Vì cú pháp của câu truy vấn khơng được định nghĩa chính xác nên kết quả cĩ thể bao gồm các kết hợp khơng chính xác và thứ tự liên quan hay tương quan (relevance) của chúng chỉ là gần đúng. Hệ thống tìm kiếm dữ liệu thu thập một tập hợp các tài liệu phù hợp về mặt cú pháp với câu truy vấn của người sử dụng. Câu truy vấn trên dữ liệu cĩ cấu trúc ( hường là bảng trong cơ sở dữ liệu) và thường sử dụng một ngơn ngữ truy vấn được định nghĩa hồn chỉnh như là SQL hay đại số quan hệ. Người sử dụng phải quen thuộc với cú pháp và hiểu được ngữ nghĩa của ngơn ngữ truy vấn. Vì vậy, câu truy vấn thường được viết bởi người am hiểu hoặc một quá trình tự động. Kết quả trả về bao gồm tất cả các tài liệu chính xác phù hợp với ngữ nghĩa của câu truy vấn, thứ tự bất kì. 2.1.5. Cơng thức trừu tượng trong tìm kiếm thơng tin Gọi D là tập hợp các tài liệu và Q là tập hợp các câu truy vấn. Hàm f: D × Q → R là hàm tính độ tương quan của một cặp (tài liệu, câu truy vấn) bởi mức độ tương quan của tài liệu đối với câu truy vấn. Đối với mỗi câu truy vấn q trong Q , f chỉ ra một thứ tự ( riêng phần) qπ trên D. Hoạt động của một hệ thống tìm kiếm thơng tin bao gồm 2 pha chính. Trong suốt pha đầu tiên, D được tiền xử lí và chỉ mục I được tạo ra tương ứng. Trong pha thứ 2 , cho trước một câu truy vấn trong Q, I được dùng để xuất ra một hốn vị π trên D. Luận văn : Đánh giá các hệ thống tìm kiếm thơng tin Trang 32 Mục tiêu chính của một hệ thống tìm kiếm thơng tin là xuất ra một hốn vị π gần với qπ bằng cách sử dụng một chỉ mục đặc và phản hồi trong một thời gian ngắn. Chẳng hạn, chúng ta khơng muốn đạt độ chính xác cao bằng cách sử dụng chỉ mục lớn trong đĩ bao gồm một hốn vị trên D cho mỗi câu truy vấn cĩ thể cĩ hoặc bằng cách duyệt tồn bộ chỉ mục cho mỗi câu truy vấn. Chúng ta sử dụng khái niệm tokens để biểu diễn tài liệu. Đặt T là khơng gian tokens. Khơng gian tokens cĩ thể bao gồm , ví dụ như là :tồn bộ từ trong tiếng Anh, một tập hợp các cụm từ hoặc một tập hợp các URLs. Chúng ta định nghĩa một tài liệu là một vec-tơ thực d trong kR (k là số tokens trong khơng gian tokens). Goị id là trọng lượng của it trong d. Cĩ rất nhiều cách để tính id ,cách dễ nhất là tính số lần xuất hiện của it trong d. 2.1.6. Các mơ hình tìm kiếm thơng tin cổ điển để sắp thứ tự liên quan Nghiên cứu tìm kiếm thơng tin dựa trên rất nhiều mơ hình khác nhau. Ở đây, chúng tơi xin nêu ra hai mơ hình được sử dụng nhiều nhất. 2.1.6.1. Mơ hình Đại số Bool Mơ hình liên quan (relevance) cơ bản nhất trong hệ thống tìm kiếm thơng tin cổ điển là mơ hình Đại số Bool hay Boolean. Một tài liệu được định nghĩa là một vec-tơ boolean d trong (trọng lượng boolean) trong đĩ id =1 khi id cĩ mặt trong d. Một câu truy vấn được định nghĩa là một cơng thức boolean q trên các tokens :q: k}1,0{ → {0,1} .Nghĩa là, q là một hàm mà khi cho trước một vec-tơ trong k}1,0{ biểu diễn một tài liệu thì sẽ trả về một giá trị boolean phụ thuộc vào độ liên quan giữa tài liệu và câu truy vấn. Hàm tính độ liên quan được định nghĩa đơn giản bằng cách áp dụng hàm này trên một tài liệu, f(d,q) = q(d). Ví dụ như ,một câu truy vấn trong mơ hình boolean cĩ thể là “Micheal Jordan” AND (Not basketball). Lợi ích chính của mơ hình boolean là tính đơn giản cho người sử Luận văn : Đánh giá các hệ thống tìm kiếm thơng tin Trang 33 dụng, tuy nhiên hàm tính độ liên quan của nĩ quá tồi khi nĩ chỉ trả về một giá trị boolean. 2.1.6.2. Mơ hình khơng gian vec-tơ Mơ hình thơng dụng trong hệ thống tìm kiếm thơng tin cổ điển dùng để sắp thứ tự liên quan là mơ hình khơng gian vectơ hay vec-tơ (VSM). Một tài liệu là một vec-tơ thực d trong kR (trọng lượng thực), id được xác định dựa trên một hàm tính tốn, thường là điểm TF-IDF (sẽ được đề cập sau trong phần này). Tương tự như một tài liệu, một câu truy vấn cũng là một vec-tơ thực trong kR trong đĩ iq là trọng lượng của it trong q. Hàm tính độ liên quan là f(d,q) = sim (d,q) trong đĩ sim(d,q) là mức độ giống nhau giữa d và q. Tiếp theo chúng ta sẽ phương thức để đo sự giống nhau của một vec-tơ tài liệu và một vec-tơ truy vấn, sau đĩ trình bày điểm TF-IDF dùng để tính trọng lượng của tokens trong tài liệu. Trực giác cĩ thể dẫn ta đến cách định nghĩa sự giống nhau giữa một vec-tơ tài liệu và một vec-tơ truy vấn bằng vec-tơ khác biệt của chúng (hình bên dưới) Phương thức này sẽ gán một trọng lượng đáng kể cho các tokens xuất hiện trong tài liệu nhưng khơng xuất hiện trong câu truy vấn. Vec-tơ truy vấn thường thưa thớt hơn nhiều so với vec-tơ tài liệu, vì vậy một phương thức tốt hơn nên loại bỏ hiệu ứng của các tokens khơng xuất hiện trong câu truy vấn. (a) Vec-tơ khác nhau (b) Cosin Hình biểu diễn độ tương tự của vec-tơ tài liệu d và vec-tơ truy vấn q Luận văn : Đánh giá các hệ thống tìm kiếm thơng tin Trang 34 Phương thức đo sự giống nhau cosine (hình 5b) dựa trên quan sát ở trên, là phương thức thơng dụng để đo sự giống nhau giữa một vec-tơ tài liệu và một vec- tơ truy vấn. Chú ý là nếu gĩc giữa 2 vec-tơ nhỏ thì cosine gần tới 1, là giá trị lớn nhất của sự giống nhau. Nếu 2 vec-tơ gần như vuơng gĩc thì cosine gần tới khơng,nghĩa là sự giống nhau nhỏ nhất. TF-IDF là phương pháp thơng dụng để “cân nặng” (đánh giá) các thuật ngữ (term) trong một tài liệu. Ý tưởng cơ bản của phương pháp này là xem xét tính phổ biến của một thuật ngữ trong một tài liệu khi so sánh với tính phổ biến của thuật ngữ đĩ trong các tài liệu khác. Ví dụ như , xem xét một tài liệu 1d cĩ 100 thuật ngữ, 10 trong số đĩ là “java” và một tài liệu 2d cĩ 100000 thuật ngữ, 10 trong số đĩ là “java”. Vì tần số xuất hiện (tính phổ biến) của thuật ngữ “java” trong 1d cao hơn đáng kể so với trong 2d nên trọng lượng của thuật ngữ “java” trong 1d phải cao hơn trong 2d .Bây giờ xem xét một sự thật là thuật ngữ “the” ,cũng xuất hiện 10 lần trong 1d . Vì nĩ là một thuật ngữ thơng dụng trong các tài liệu nên nĩ khơng nên cĩ trọng lượng bằng thuật ngữ “java” mặc dù mức độ phổ biến của chúng là như nhau. Định nghĩa chính qui của điểm TF-IDF cho một tài liệu được định nghĩa như sau. Gọi n(d, it ) là số lần xuất hiện của it trong d và ),(∑= i itdnN là tổng số tokens trong d. iD chỉ số tài liệu chứa it và D là tổng số tài liệu cĩ trong tập hợp. Tần số thuật ngữ ( term frequency) TF (d, it ) ,là tần số xuất hiện của it trong d. Cĩ một vài cách để tính tần số thuật ngữ. 2 cách thơng dụng nhất là chia số lần xuất hiện của token trong tài liệu cho hoặc là tổng số token cĩ trong tài liệu hoặc là số lần xuất hiện của token xuất hiện nhiều nhất trong tài liệu: Luận văn : Đánh giá các hệ thống tìm kiếm thơng tin Trang 35 Trong bất kì trường hợp nào, thuật ngữ xuất hiện nhiều hơn sẽ cĩ điểm TF cao (cao nhất là 1) và thuật ngữ ít xuất hiện sẽ cĩ điểm TF gần bằng 0. Ngược lại, IDF( it ) (Inverse Document Frequency) là tần số nghịch đảo của it trong tất cả các tài liệu cĩ trong tập hợp. Nĩ thường được đo bằng loga của tỉ số giữa tổng số tài liệu cĩ trong tập hợp và số tài liệu trong tập hợp cĩ chứa it . IDF ( it ) = log ( D / iD ) Chú ý là hàm loga được áp dụng chỉ vì những lí do số học. Thuật ngữ thường xuyên xuất hiện trong tài liệu như là “the” vì vậy sẽ cĩ điểm IDF gần bằng 0 và thuật ngữ hiếm gặp sẽ cĩ IDF gần bằng 1. Điểm TF-IDF được tính bằng cách nhân điểm TF và điểm IDF: TF-IDF (d, it ) = TF (d, it ) × IDF ( it ) Qua cơng thức trên, ta cĩ thể thấy rằng TF-IDF sẽ cho điểm một thuật ngữ cao hơn nếu nĩ xuất hiện thường xuyên trong một tài liệu và khơng xuất hiện thường xuyên trong các tài liệu khác. Mơ hình khơng gian vec-tơ , thường xuyên sử dụng TF-IDF để đánh giá các thuật ngữ và hàm cosine là hàm đo mức độ giống nhau, thể hiện là một phương thức tính độ liên quan giữa một tài liệu và một câu truy vấn tin cậy hơn mơ hình boolean ở trên. Bên cạnh đĩ, VSM cĩ những hiện thực hiệu quả và thể hiện hiệu suất tốt trong thực tế. Nhược điểm chính của phương pháp này là nĩ giả định các thuật ngữ độc lập nhau. Trong thực tế, các thuật ngữ thường cĩ liên quan với nhau và hiểu được điều này cĩ thể dẫn đến việc tính độ liên quan tốt hơn. Luận văn : Đánh giá các hệ thống tìm kiếm thơng tin Trang 36 2.2. Đánh giá các hệ thống tìm kiếm thơng tin 2.2.1. Nền tảng đánh giá các hệ thống tìm kiếm thơng tin Một trong những giới thiệu tốt nhất về đánh giá các hệ thống tìm kiếm thơng tin cĩ trong chương 7 của [ 5 ] . Ở đây, chúng tơi tập trung chủ yếu vào những gì cĩ thể được đánh giá trong tìm kiếm thơng tin. Mức độ bao phủ của bộ ngữ liệu: mở rộng đến mức hệ thống bao gồm các thành phần liên quan. Vì vậy, mức độ bao phủ của tài liệu phải xử lý với vấn đề chất lượng của bộ ngữ liệu. Điều này quan trọng trong tìm kiếm thơng tin dạng Web vì mỗi phương tiện tìm kiếm (Search engine) được biết là cĩ thể bao phủ 16% khơng gian Web. Hiệu năng: Khoảng thời gian trung bình giữa thời gian một yêu cầu được đưa ra và câu trả lời được trả về. Hiệu năng được xem như thời gian thực hiện tìm kiếm, sử dụng bộ nhớ, v.v .. Biểu diễn của kết quả trả về. Kết quả liên quan đến người dùng trong việc lấy câu trả lời cho một yêu cầu. Độ bao phủ của hệ thống: tỉ lệ các tài liệu liên quan được trả về. Độ chính xác của hệ thống :tỉ lệ các tài liệu trả về thật sự liên quan. Cả độ bao phủ và độ chính xác đều liên quan đến hiệu quả tìm kiếm. Trong đề tài luận văn của chúng tơi, chúng tơi tập trung vào hai khía cạnh cuối cùng (độ bao phủ, độ chính xác của hệ thống) vì chúng chiếm ưu thế nhiều nhất trong đánh giá các hệ thống tìm kiếm thơng tin. Hai khía cạnh này là một phần của mơ hình đánh giá hướng hệ thống mà chúng tơi đã đề cập trong phần tổng quan. Chúng tơi xin được nĩi rõ hơn về mơ hình này. Luận văn : Đánh giá các hệ thống tìm kiếm thơng tin Trang 37 2.2.2. Mơ hình đánh giá hướng hệ thống Kỹ thuật của hướng đánh giá tìm kiếm hướng hệ thống và các độ đo khả năng thực thi kết hợp của nĩ được phát triển trong một số lượng các dự án nghiên cứu thời gian dài : Cranfield , MEDLARS, SMART, STAIRS và TREC. Ý tưởng chính là để đo khả năng thực hiện của hệ thống tìm kiếm thơng tin bằng cách chạy một tập các câu hỏi trong bộ ngữ liệu dùng để đánh giá, được chỉ mục bởi hệ thống và lưu lại kết quả. Đối với mỗi câu truy vấn, cĩ thể tính được độ chính xác và độ bao phủ của tập kết quả được lưu lại. Như đã được định nghĩa ở chương 1, độ chính xác (precision) là tỉ lệ của tập tài liệu liên quan được trả về so với tập tài liệu kết quả, độ bao phủ (recall) là tỉ lệ của tập tài liệu liên quan được trả về trên tổng số tài liệu liên quan. Những định nghĩa chính xác hơn của phần này và các độ đo liên quan sẽ được trình bày ở mục 2.2.3. 2.2.2.1. Từ Cranfield đến TREC Dự án Cranfield do Cleverdon thực hiện thường được đánh giá như là mơ hình chủ lực của TREC. Cleverdon tạo ra các cuộc kiểm thử Cranfield, Cranfield chủ yếu được dùng trong thí nghiệm với mục đích chính là xem xét, đánh giá các hàm, chức năng lập chỉ mục khác nhau thực hiện khác nhau như thế nào. Mục đích chính là xác định thuật tốn nào là tối ưu nhất, phù hợp nhất với các tiêu chuẩn đo lường và độ đo. Từ đĩ truyền thống nghiên cứu thử nghiệm hướng hệ thống ra đời. Salton ở Hoa Kỳ là người đầu tiên mở rộng phương pháp thử nghiệm cho đánh giá các thuật tốn tìm kiếm thơng tin theo mơ hình Khơng gian Vec-tơ [6] . Ơng bắt đầu nghiên cứu tìm kiếm thơng tin tại Đại học Harvard năm 1961. Ơng muốn phát triển một khung làm việc (framework) cho so sánh khả năng lập chỉ mục và các kỹ thuật tìm kiếm thơng tin của hệ thống. Khung làm việc được thực hiện bởi một loạt các thuật tốn và được biết đến như là hệ thống SMART. Dự án SMART cĩ lẽ là nghiên cứu tìm kiếm thơng tin kéo dài nhất cho đến ngày hơm nay, trong khoảng thời gian từ 1961 đến khi Salton mất năm 1996, nhĩm SMART đã thử nghiệm nhiều khía cạnh của tìm kiếm thơng tin: đánh giá thuật ngữ (term Luận văn : Đánh giá các hệ thống tìm kiếm thơng tin Trang 38 weighting), mở rộng câu hỏ (query expansion), phản hồi tương quan (relevance feedback), phân lớp (clustering) v.v. Tất cả các thử nghiệm đều dựa trên hệ thống tìm kiếm thơng tin SMART, chi tiết của hệ thống này sẽ được trình bày ở mục 3.1.4.1. Dự án SMART đạt được kết quả tốt nhất trong mơ hình Khơng gian vec-tơ trực quan và hiệu quả. Chương trình TREC đang tiến hành hiện nay đã được thơi thúc bởi các nghiên cứu Cranfield và SMART. TREC bắt đầu năm 1992 với hai nhiệm vụ chính: nghiên cứu “ad-hoc” và nghiên cứu “routing”. Kể từ đĩ, nhiều nhiệm vụ mới được kiểm tra trong nhiều track khác nhau. Ưu điểm chính của TREC là kích thước của ngữ liệu dùng để đánh giá thực tế hơn những dự án khác và việc đánh giá thì mở cho bất kỳ nhĩm nghiên cứu nào. Những người tham gia vào TREC qua các năm tăng lên một cách nhanh chĩng. Số lượng cĩ ý nghĩa các nhĩm tham gia mỗi năm, bảo đảm sự ổn định và cĩ thể so sánh qua các năm. TREC sử dụng ủy ban đánh giá từ Viện Quốc gia về Tiêu chuẩn và Cơng nghệ Hoa Kỳ (National Institute of Standard and Technology - NIST) để thực hiện đánh giá. Nghiên cứu STAIR là một trong những nghiên cứu đầu tiên phát triển thủ tục mới để đo độ bao phủ, bởi vì kích thước lớn của ngữ liệu làm cho việc tạo bảng Đánh giá liên quan chuẩn quá tốn nhiều chi phí. TREC cũng bố trí các độ đo bao phủ của nĩ trên việc xem xét một tập nhỏ các tài liệu (pool - gọi là “hồ” hay tập hợp xác định) nhưng sử dụng các phương pháp khác nhau để tạo nĩ. Tập hợp xác định này được tạo từ một mẫu các việc chạy hệ thống tìm kiếm khác nhau (càng khác nhau càng tốt). Đối với mỗi câu truy vấn, danh sách các tài liệu trả về được kết hợp với nhau bằng cách trộn vào nhau và loại bỏ các tài liệu lặp lại. Kết quả là một danh sách các tài liệu thống nhất. Cuối cùng, người đánh giá xem lại để đánh giá là các tài liệu trong danh sách này (cĩ một danh sách các câu hỏi) cĩ thật sự liên quan đến câu hỏi tương ứng khơng. Ảnh hưởng của TREC trong tìm kiếm thơng tin là rất lớn và chất lượng của bộ ngữ liệu kiểm tra là rất tốt vì cĩ nhiều hệ thống tham gia đĩng gĩp vào tập hợp xác định các tài liệu và do tính chất tiếp tục của chương trình TREC. TREC đã tạo Luận văn : Đánh giá các hệ thống tìm kiếm thơng tin Trang 39 ra một tài sản lớn bộ ngữ liệu dùng để đánh giá mà cĩ thể được dùng trong số lượng lớn các thử nghiệm được kiểm sốt. Ưu điểm lớn của các thử nghiệm được kiểm sốt là nĩ cĩ thể được lặp lại. Trước khi TREC ra đời, cĩ nhiều bộ ngữ liệu kiểm tra nhỏ, rất khĩ để so sánh các phương pháp giữa các nhĩm khác nhau. Tình trạng này ngăn cản sự phát triển của đánh giá các hệ thống tìm kiếm thơng tin. TREC cĩ mục tiêu là xây dựng một số lượng các bộ ngữ liệu đánh giá lớn cho tìm kiếm thơng tin, chủ yếu là để thực hiện đánh giá dưới các điều kiện được kiểm sốt và cho phép thực hiện lại việc đánh giá. Nhìn vào những kết quả mà các nhĩm tham gia TREC từ khi TREC bắt đầu, chúng ta cĩ thể thấy một sự tiến bộ đáng kể. Chi tiết về TREC sẽ được giới thiệu trong mục 2.2.4 . 2.2.2.2. Thủ tục đánh giá Phương pháp thử nghiệm hướng hệ thống được thực hiện qua các bước phân biệt sau: • Trước hết, xây dựng một bộ ngữ liệu dùng để đánh giá. Bộ ngữ liệu dùng để đánh giá gồm cĩ tập các tài liệu mẫu, tập câu truy vấn mẫu, và bảng đánh giá liên quan chuẩn. Theo lý thuyết, mỗi kết hợp câu truy vấn-tài liệu đều được kiểm tra liên quan. Nhưng trên thực tế, chỉ một phần tập tài liệu được xem xét cho mỗi câu truy vấn. • Các hệ thống tìm kiếm thực hiện tìm kiếm trên bộ ngữ dùng để đánh giá: lập chỉ mục tập tài liệu, tạo các câu hỏi từ chủ đề (topic), tạo bảng liên quan cĩ thứ tự các tài liệu cho mỗi câu hỏi. • Đánh giá các độ đo thực hiện: Các độ đo cổ điển là độ bao phủ và độ chính xác, nhưng cĩ một số lượng lớn các độ đo khác. Đĩ là độ đo trung bình nghiêm ngặt (Mean average precision). • Đánh giá tầm quan trọng của kết quả trả về bằng phương pháp thống kê. Các độ đo thực hiện tồn bộ hệ thống tìm kiếm chủ yếu được lấy trung bình Luận văn : Đánh giá các hệ thống tìm kiếm thơng tin Trang 40 trên tập câu hỏi. Vì tính chất biến đổi của các câu hỏi là rất lớn, và sự thay đổi của các độ đo tính tốn là rất cao, nên địi hỏi một phương pháp phân tích thống kê thích hợp để đánh giá xem sự khác biệt được đo giữa các hệ thống cĩ phải là cĩ ý nghĩa thống kê đến một độ tin cậy nhất định khơng. 2.2.2.3. Đánh giá sự liên quan Trong đánh giá các hệ thống tìm kiếm thơng tin theo kiểu của TREC, cĩ hai giả định quan trọng, mà khơng cĩ trong các thiết lập ở thế giới thực : • Sự liên quan hồn tồn theo khái niệm: một tài liệu chỉ cĩ thể là liên quan hoặc khơng liên quan. • Sự liên quan của một tài liệu hồn tồn độc lập với các tài liệu khác. Các giả định này làm đơn giản việc đo các hệ thống tìm kiếm. Nhiều nhà nghiên cứu đã thử nghiệm với nhiều tỉ lệ khác nhau của sự liên quan. Các tỉ lệ này được trình bày rõ hơn trong mục 2.2.3.4. Giả định về sự liên quan của một tài liệu hồn tồn độc lập với các tài liệu khác khơng thực tế trong hầu hết các trường hợp. Trong hầu hết các trường hợp tìm kiếm thơng tin cơ bản, chẳng hạn tìm kiếm thơng tin trên web, những người tìm kiếm muốn tìm một câu trả lời cho một câu hỏi xác định hay một vài tham khảo. Giả sử rằng người sử dụng sẽ bắt đầu duyệt qua các tài liệu được tìm thấy bắt đầu từ những tài liệu liên quan nhất, các tài liệu ít liên quan hơn thì phụ thuộc vào tài liệu liên quan đã đọc. Xác suất cĩ tài liệu mới giảm dần theo danh sách tài liệu. Sự phụ thuộc này thường bị bỏ qua bởi các nhà nghiên cứu tìm kiếm thơng tin. Cĩ nhiều mối quan tâm về tính chủ quan của thủ tục đánh giá. Con ngừơi thường cĩ những ý kiến khác nhau về sự liên quan. Điều này cĩ ảnh hưởng xấu đến sự phát triển của các đánh giá của TREC. Tuy nhiên, đã cĩ nhiều nghiên cứu để giải quyết vấn đề này và thấy rằng ảnh hưởng trên tập các hệ thống cĩ kết quả sắp thứ tự liên quan thì cĩ thể bỏ qua. Một nghiên cứu gần đây liên quan đến bộ ngữ liệu để đánh giá của TREC kiểm thử nhiều vấn đề khác nhau: • Đánh giá bởi tác giả khác với khơng phải tác giả Luận văn : Đánh giá các hệ thống tìm kiếm thơng tin Trang 41 • Đánh giá một bảng khác với đánh giá nhĩm bảng đánh giá • Đánh giá trong cùng một mơi trường khác với đánh giá nhiều mơi trường Những yếu tố này ảnh hưởng đến giá trị tuyệt đối của các độ đo khả năng thực hiện, nhưng thứ tự liên quan của các hệ thống vẫn ổn định. 2.2.3. Thực hiện đo khả năng tìm kiếm Các độ đo cổ điển cho khả năng tìm kiếm của các thử nghiệm hệ thống thơng tin là độ bao phủ và độ chính xác. Trong những phần tiếp theo, chúng tơi mơ tả các thủ tục để đo độ chính xác và độ bao phủ và tính độ đo cho các hệ thống tìm kiếm cĩ kết quả được sắp thứ tự trong tình huống khơng thể đánh giá tất cả các tài liệu trong bộ ngữ liệu kiểm tra. Từ độ bao phủ và độ chính xác, chúng tơi dùng phương pháp tính độ chính xác dựa trên 11 điểm của độ bao phủ để tính độ chính xác. Kết quả trả về từ phương pháp này là một bảng biến thiên của độ chính xác và độ bao phủ hay là một hàm số của độ chính xác dựa trên độ bao phủ. Cĩ thể biểu diễn đồ thị liên hệ giữa độ chính xác và độ bao phủ từ hàm số này để cho biết hiệu quả trả về của hệ thống một cách trực quan, và cĩ thể so sánh nhiều hệ thống với nhau dựa trên đồ thị. 2.2.3.1. Các khái niệm về độ đo và liên quan Tính liên quan của tài liệu (relevant ): Một tài liệu được gọi là cĩ liên quan khi nội dung của tài liệu đĩ cĩ đề cập đến vấn đề mà câu truy vấn của người dùng quan tâm. Độ bao phủ (Recall - R): Cho biết khả năng của hệ thống tìm kiếm được những tài liệu cĩ liên quan. Độ chính xác (Precision - P): Cho biết khả năng của hệ thống tìm được những tài liệu chính xác Khả năng loại bỏ: (Fall out - F): Cho biết khả năng của hệ thống loại bỏ những tài liệu khơng liên quan Luận văn : Đánh giá các hệ thống tìm kiếm thơng tin Trang 42 2.2.3.2. Cách tính độ bao phủ (R) và độ chính xác (P) Độ bao phủ (R): Độ chính xác (P): Khả năng loại bỏ: (Fall out - F): Tập tài liệu trả về Tập tài liệu trả về cĩ liên quan Tập tài liệu cĩ liên quan Tập dữ liệu về tài liệu Cĩ liên quan Khơng liên quan (Relevant) (non- relevant) Tìm thấy (retrieved) Khơng tìm thấy (not retrieved) B A A ∩ B A ∩ ∩ ∩ B R = A ∩ B B ( 1 ) P = A ∩ B A ( 2 ) F = ∩B ( 3 ) A ∩ B A B Luận văn : Đánh giá các hệ thống tìm kiếm thơng tin Trang 43 Mối liên hệ giữa R, P, F: G : là nhân tố tổng quát đo độ dày đặc của tài liệu liên quan trong tập dữ liệu Ù G cho biết độ liên quan của tài liệu so với câu truy vấn là cao hay thấp Vấn đề đo độ bao phủ: Tính độ bao phủ là một vấn đề khĩ khăn trong việc đánh giá hệ thống tìm kiếm thơng tin bởi vì nĩ liên quan đến việc định giá thủ cơng tổng số tài liệu liên quan trong tập tài liệu đối với mỗi câu truy vấn (vấn đề tạo bảng liên quan lý thuyết) , việc định giá như vậy rất tốn kém nếu tập dữ liệu lớn. Để giải quyết vấn đề này người ta đưa ra phương pháp “pooling”.Ý tưởng của phương pháp “pooling” là trong danh sách tài liệu trả về chỉ lấy n tài liệu đầu, n được gọi là chiều dài của “pool”. Việc tạo bảng liên quan lý thuyết áp dụng phương pháp “pooling” được tiến hành như sau: tiến hành tìm kiếm trên nhiều hệ thống áp dụng phương pháp “pooling”, cĩ thể tài liệu liên quan được trả về của một hệ thống là cao, ta tiến hành giao các tập tài liệu liên quan trả về của các hệ thống đĩ và chỉ lấy n tài liệu đầu. Bởi vì tập kết quả trả về được sắp xếp theo thứ tự nên độ chính xác và độ bao phủ cĩ thể tính được tại các ngưỡng vị trí thứ tự thứ i tài liệu. Vấn đề bảng liên quan thực tế Đối với cách tính trên ta phải quan niệm về độ liên quan của tài liệu trên 2 mức độ : hoặc là tài liệu cĩ liên quan hoặc là tài liệu khơng liên quan. Cách G = A S Với S là tập tài liệu F = R * G R * G + F* (1-G) ( 4 ) ( 5 ) Luận văn : Đánh giá các hệ thống tìm kiếm thơng tin Trang 44 quy ước như vậy nhằm làm đơn giản hố cách đánh giá. Trên thực tế , độ liên quan của tài liệu khơng chỉ là 2 mức độ mà cĩ thể cĩ nhiều mức độ. 2.2.3.3. Phương pháp tính độ chính xác dựa trên 11 điểm chuẩn của độ bao phủ 2.2.3.3.1. Đồ thị biểu diễn hiệu suất thực thi hệ thống tìm kiếm Ứng với 1 câu truy vấn được thực hiện bởi hệ thống sẽ cĩ 1 độ bao phủ (Ri) , độ chính xác (Pi) cụ thể . Với 1 cặp (Ri,Pi) biểu diễn trên hệ trục toạ độ ROP tương ứng với 1 điểm. Biểu diễn kết quả của tập câu truy vấn trên ROP ta sẽ cĩ 2 đường cong mơ tả hiệu suất thực thi của hệ thống. Đường cong cĩ dạng: Từ đồ thị ta cĩ thể rút ra kết luận: độ bao phủ vả độ chính xác cĩ mối quan hệ gần như tỷ lệ nghịch, khi R tăng thì P cĩ thể sẽ giảm và ngược lại. Khi ta cố gắng làm tăng R bằng cách tăng số tài liệu trả về (N), theo cơng thức (1) : N tăng nên cơ may số tài liệu cĩ liên quan sẽ tăng trên tổng số tài liệu cĩ liên quan so với câu truy vấn trong bảng liên quan chuẩn là khơng đổi Luận văn : Đánh giá các hệ thống tìm kiếm thơng tin Trang 45 Ư R sẽ cĩ thể tăng Mặt khác theo cơng thức (2) do N tăng cĩ nghĩa là số tài liệu trả về tăng mặc dù số tài liệu cĩ liên quan tăng nhưng khơng đáng kể so với số tài liệu trả về (lúc này cũng tăng) nên P sẽ giảm. Nĩi cách khác, khi cho hệ thống thực thi 1 câu truy vấn mà ta tăng số tài liệu trả về thì kết quả sẽ cĩ được nhiều tài liệu cĩ ích nhiều hơn nhưng số tài liệu khơng liên quan (tài liệu rác) cũng sẽ tăng. 2.2.3.3.2. Đường cong độ bao phủ và độ chính xác RP Cơ sở tính bảng giá trị cho đường cong RP dựa vào bảng liên quan lý thuyết và danh sách tài liệu liên quan đã được sắp thứ tự do hệ thống tìm kiếm thơng tin trả về(cịn gọi là bảng liên quan thực tế). Xét ví dụ sau: Thực hiện kiểm tra hệ thống tìm kiếm thơng tin với tập câu hỏi. Xét câu hỏi thứ k, cách tính như sau: Tài liệu liên quan được trả về là phần giao của danh sách tài liệu liên quan theo lý thuyết và theo thực tế => Tổng số tài liệu liên quan được trả về : 5 Bảng giá trị R,P tính với n tài liệu được trả về n Doc ID Liên quan theo lý thuyết ? Số tài liệu liệu liên quan được trả về Số tài liệu trả về Độ bao phủ (R) Độ chính xác (P) 1 588 true 1 1 1/5=0.2 1/1=1.00 2 589 true 2 2 2/5=0.4 2/2=1.00 3 576 false 2 3 2/5=0.4 2/3=0.67 4 590 true 3 4 3/5=0.6 3/4=0.75 5 986 false 3 5 3/5=0.6 3/5=0.60 6 592 true 4 6 4/5=0.8 4/6=0.67 Luận văn : Đánh giá các hệ thống tìm kiếm thơng tin Trang 46 7 984 false 4 7 4/5=0.8 4/7=0.57 8 988 false 4 8 4/5=0.8 4/8=0.50 9 578 false 4 9 4/5=0.8 4/9=0.44 10 985 false 4 10 4/5=0.8 4/10=0.40 11 103 false 4 11 4/5=0.8 4/11=0.36 12 591 false 4 12 4/5=0.8 4/12=0.33 13 772 true 5 13 5/5=1.0 5/13=0.38 14 990 false 5 14 5/5=1.0 5/14=0.36 Nhìn bảng giá trị trên, ta thấy tại giá trị R=0.6 cĩ 2 giá trị P (P=0.75 và P=0.6) và ngược lại tại giá trị P=1.0 cĩ 2 giá trị R (R=0.2, R=0.4) Để xây dựng đường cong cho một câu truy vấn ta dùng phương pháp tính nội suy độ chính xác dựa trên 11 điểm chuẩn của độ bao phủ: Xét các giá trị R tại các điểm chuẩn 0.0, 0.1, 0.2, 0.3, 0.4,0.5,0.6,0.7,0.8,0.9, 1.0, tại các vị trí tính giá trị P theo cơng thức sau: Ta cĩ bảng nội suy các giá trị P cho câu hỏi thứ k như sau: N Doc ID Độ bao phủ (R) Độ chính xác (P) Độ bao phủ chuẩn hố Độ chính xác đã nội suy 1 588 1/5=0.2 1/1=1.00 0.0 1.00 2 589 2/5=0.4 2/2=1.00 0.1 1.00 3 576 2/5=0.4 2/3=0.67 0.2 1.00 4 590 3/5=0.6 3/4=0.75 0.3 1.00 5 986 3/5=0.6 3/5=0.60 0.4 1.00 6 592 4/5=0.8 4/6=0.67 0.5 0.75 7 984 4/5=0.8 4/7=0.57 0.6 0.75 P = max P với j ≥ i R( i ) R( j ) Luận văn : Đánh giá các hệ thống tìm kiếm thơng tin Trang 47 8 988 4/5=0.8 4/8=0.50 0.7 0.67 9 578 4/5=0.8 4/9=0.44 0.8 0.67 10 985 4/5=0.8 4/10=0.40 0.9 0.38 11 103 4/5=0.8 4/11=0.36 1.0 0.38 12 591 4/5=0.8 4/12=0.33 13 772 5/5=1.0 5/13=0.38 14 990 5/5=1.0 5/14=0.36 Đồ thị RP cho câu hỏi thứ k: P re ci si on 0. 2 0. 4 0. 6 0. 8 1. 0 2.2.3.3.3. Đường cong RP cho tập truy vấn Xét tập câu truy vần gổm N câu truy vấn - Lần lượt tính bảng giá trị RP nội suy như trên (tính P dựa trên 11 điểm chuẩn của R) - Tính giá trị trung bình P tại các điểm chuẩn của R như sau: Luận văn : Đánh giá các hệ thống tìm kiếm thơng tin Trang 48 Nhận xét: Phương pháp đánh giá hệ thống dựa vào bảng giá trị RP nội suy khơng đánh giá một cách chính xác hiệu suất tìm kiếm thơng tin của hệ thống tìm kiếm thơng tin bởi vì các giá trị của R,P là các giá trị nội suy. 2.2.3.3.4. Đánh giá hệ thống tìm kiếm thơng tin dựa vào đồ thị Ta tiến hành kiểm tra 2 hệ thống với cùng 1 tập tài liệu mẫu và tập câu truy vấn mẫu. Giả sử đồ thị diễn của 2 hệ thống như sau: Nhìn trên đồ thị : Đường cong A biểu diễn hiệu suất thực thi của hệ thống A Đường cong B biểu diễn hiệu suất thực thi của hệ thống B Do đường A nằm trên đường B nên hiệu suất của hệ thống A lớn hơn hệ thống B Ư Một cách tổng quát : đường cong nào càng gần về phía gĩc trên bên phải của hệ trục toạ độ (cĩ nghĩa là độ chính xác và độ bao phủ là lớn nhất) thì đĩ chính là đường cong biểu diễn hiệu suất thực thi tốt nhất. Với cách biểu diễn trên đồ thị như vậy ta cĩ thể đánh giá nhiều hệ thống hoặc đánh giá 1 hệ thống trong những điều kiện thực thi khác nhau. Luận văn : Đánh giá các hệ thống tìm kiếm thơng tin Trang 49 2.2.3.4. Sự liên quan giữa câu hỏi và tài liệu 2.2.3.4.1. Các độ liên quan Các độ liên quan được nĩi đến rất rõ trong [ 7 ]. Độ liên quan nhị phân (binary relevance): là độ liên quan chỉ cĩ 2 giá trị : hoặc là cĩ liên quan (relevant _ 1), hoặc khơng liên quan (not relevant _ 0). Độ liên quan nhiều mức độ (độ liên quan đa cấp độ) : (multiple degree relevance, multiple level relevance): độ liên quan được xét ở nhiều mức độ ,cĩ nhiều giá trị . Ví dụ độ liên quan 3 mức độ : - Mức độ cĩ liên quan (relevant): 2 - Mức độ liên quan bộ phận (partically relevant): 1 - Khơng liên quan (not relevant) : 0 2.2.3.4.2. Các vấn đề về độ liên quan Cơ sở đánh giá hệ thống tìm kiếm thơng tin: một tập tài liệu (document) đại diện một tập chủ đề (topic) đại diện một vài câu truy vấn cho mỗi chủ đề bảng đánh giá độ liên quan của mỗi tài liệu với mỗi chủ đề Do đĩ vấn đề cơ bản của việc đánh giá là phải thống nhất quan điểm về mức độ liên quan. Độ liên quan là một khái niệm đa khía cạnh (multifaceted), đa chiều (multidimensional). Khái niệm về độ liên quan đến nay vẫn là một vấn đề khĩ khăn trong lĩnh vực khoa học thơng tin.Những cuộc nghiên cứu gần đây đã tập trung vào nhân tố ảnh hưởng lên việc đánh giá độ liên quan và chiều (hoặc tiêu chuấn) của độ liên quan. Cĩ nhiều loại độ liên quan: độ liên quan thuật tốn, độ liên quan chủ đề, độ liên quan nhận thức, độ liên quan tình huống, độ liên quan động cơ. Luận văn : Đánh giá các hệ thống tìm kiếm thơng tin Trang 50 Độ liên quan vốn mang tính chủ quan, đánh giá độ liên quan thường khơng thống nhất do tính cá nhân và nhân tố thời gian : - Một tài liệu được đánh giá là cĩ liên quan với tỉ lệ nào đĩ nhưng đồi với người khác tỉ lệ này sẽ khác => độ liên quan phủ thuộc tính cá nhân - Một tài liệu được đánh giá là cĩ liên quan với tỉ lệ nào đĩ tại thời điểm t , nhưng tại thời điểm t’ tỉ lệ đĩ sẽ thay đổi => độ liên quan phụ thuộc nhân tố thời gian . Tuy nhiên sự thay đổi này cĩ thể chấp nhận được do nĩ tương đối thấp Trong hầu hết các thử nghiệm đánh giá hệ thống tìm kiếm thơng tin (bao gồm cả những thử nghiệm của TREC) người ta thường quan tâm độ liên quan nhị phân (cĩ nghĩa là tài liệu hoặc là được đánh giá là cĩ liên quan (1) hoặc khơng cĩ liên quan (0)). Ưu điểm của dộ liên quan nhị phân là việc tính tốn R, P đơn giản ; khuyết điểm là khơng thể phản ánh được khả năng liên quan của tài liệu ở nhiều mức độ đúng với thực tế. Trong cách đánh giá tìm kiếm thơng tin của TREC, khái niệm “liên quan” là một khái niệm tuyệt đối: một tài liệu hoặc là liên quan hoặc là khơng liên quan. Điều giả sử này nhằm làm đơn giản hĩa việc tính tốn các độ đo. Nhiều cuộc kiềm tra khác đã tiến hành đánh giá với tỷ lệ độ liên quan nhiều mức độ. Độ liên quan 3 cấp độ đã được thực hiện ở Hội nghị NTCIR 1999 (NII- NACSIS Test Collection for IR systems), WEB track của TREC-9. Độ liên quan 4 cấp được dùng trong NTCIR 2000. Tỷ lệ độ liên quan của một tài liệu tại vị trí thứ N sẽ được trừ hao, điều này phản ánh một tình trạng là tài liệu trả về càng phía dưới danh sách càng cĩ ít giá trị hơn đối với người sử dụng : mặc dù do mức độ tương quan khơng giảm nhưng sự trùng lắp thống tin với những tài liệu phía trên cũng làm cho tài liệu phìa dưới kém phần giá trị hơn. Giả sử rằng sự liên quan của một tài liệu là độc lập với các tài liệu khác là khơng thực tế trong hầu hết các trường hợp. Trong hầu hết các nhiệm vụ tìm kiếm Luận văn : Đánh giá các hệ thống tìm kiếm thơng tin Trang 51 thơng tin cơ bản giống như tìm kiếm trên mạng, tìm kiếm câu trả lời cho một câu hỏi đặc biệt nào đĩ hoặc cho một vài sự tham khảo nào đĩ, giả sử rắng một người dùng đọc lướt qua các tài liệu được trả về sẽ bắt đầu với tài liệu dễ thấy nhất ,nổi bật nhất (ở phía trên danh sách) do đĩ độ liên quan của tài liệu phía dưới danh sách sẽ phụ thuộc vào những tài liệu đã được đọc. Khả năng một tài liệu chứa những thơng tin mới sẽ giảm xuống đến cuối danh sách tài liệu. Sự phụ thuộc này thường được bỏ qua trong những lần nghiên cứu tìm kiếm thơng tin. Ngồi ra việc định giá độ liên quan này mang tính chủ quan. Chúng ta thường cĩ nhiều ý kiến khác nhau về mức độ liên quan. Do đĩ mức độ liên quan của tài liệu được phân biệt: bảng liên quan đươc định giá do tác giả của tài liệu hay khơng phải tác giả bảng liên quan được định giá bởi một nhĩm đánh giá bảng liên quan được định giá trong cùng điều kiện hay được định giá trong các điều kiện khác nhau 2.2.3.4.3. Đánh giá với độ liên quan nhiều cấp độ (Multiple degree relevance or non-binary relevance) Trong một vài thử nghiệm về đánh giá độ liên quan nhiều cấp độ chỉ cĩ một vài thí nghiệm thực sự cho thấy lợi ích của việc đánh giá độ liên quan ở nhiều cấp độ khác nhau. Độ bao phủ (R) , độ chính xác (P) là phương pháp cổ điển để đánh giá khả năng thực thi của IR và thường được tính dựa trên việc đánh giá độ liên quan nhị phân. Do đĩ việc đánh giá độ liên quan nhiều cấp độ chỉ được tiến hành ở bước đầu , sau đĩ những giá trị mức độ sẽ được qui về 2 giá trị 0,1 để đánh giá Ví dụ : đánh giá độ liên quan được tiến hành 3 mức độ: o cĩ liên quan (relevant) => ký hiệu A o liên quan một phần (partically relevant ) => ký hiệu B o khơng liên quan (not relevant) => ký hiệu C Luận văn : Đánh giá các hệ thống tìm kiếm thơng tin Trang 52 Mức độ liên quan sẽ được qui về 2 giá trị để tính R , P. Cĩ 2 cách tính: A, B mang giá trị 1 (cĩ liên quan) C mang giá trị 0 (khơng liên quan) hoặc A mang giá giá trị 1 (cĩ liên quan) B,C mang giá trị 0 (khơng liên quan) Với cách tiến hành như vậy để duy trì mức độ liên quan của tài liệu, định dạng một tập tin đánh giá độ liên quan (relevant judgement) như sau: topic-ID dumy doc-ID relevant assessment Trong đĩ : topic-ID : chỉ số của chủ đề (topic) dumy : là trường cho biết tài liệu đĩ cĩ mức độ liên quan là bao nhiêu (A,hoặc B ,hoặc C) doc-ID : chỉ số tài liệu relevant assessment: mang giá trị 0 hoặc 1 , giá trị đánh giá độ liên quan sau khi được qui về độ liên quan nhị phân. Một ví dụ khác về đo độ liên quan của tài liệu ở 4 mức độ: o độ liên quan cao (highly relevant) o độ liên quan vừa (fairly relevant) o độ liên quan trung bình (marginally relevant) o khơng liên quan (irrelevant) Tuy nhiên trong các Hội nghị về Đánh giá các hệ thống thơng tin gần đây, độ liên quan nhị phân vẫn cịn được xem là một cách đánh giá chuẩn, thậm chí nhiều trường hợp đánh giá độ liên quan ở nhiều cấp độ nhưng cũng được qui về đánh giá nhị phân để tính độ bao phủ và độ chính xác. Cách tiến hành này cĩ khuyết điểm là nĩ khơng kiểm tra được từng mức độ cụ thể của độ liên quan. Một số người cĩ quan điểm là cách đo độ R và P dựa vào việc đánh giá nhị phân là nên tránh vì cách tính như vậy khơng quan tâm đến sự thay đổi và độ Luận văn : Đánh giá các hệ thống tìm kiếm thơng tin Trang 53 phức tạp của mức độ liên quan, làm sai lệch tính tự nhiên và thực tế của độ liên quan. Một giải pháp để giải quyết vấn đề này là tổng quát hố độ R và P. Dựa vào lý thuyết, thực nghiệm, nghiên cứu, mức độ liên quan của tài liệu thay đổi một cách rõ ràng, một vài tài liệu thì liên quan nhiều hơn, một số khác thì ít hơn. Thật là khĩ để xác định mức độ liên quan khi tiến hành đánh giá. Điều này cịn tuỳ thuộc vào tình huống đánh giá hệ thống của chúng ta. 2.2.3.4.4. Phương pháp đo độ bao phủ (R), độ chính xác (P) dựa trên độ liên quan nhiều cấp độ Phương pháp đo dựa vào độ bao phủ (R ) và độ chính xác (P) là một phương pháp truyền thống nhưng độ đo R,P chỉ được tính dựa vào độ liên quan nhị phân Đối với trường hợp độ liên quan nhiều cấp độ ta cĩ 2 cách giải quyết sau: - qui tất cả mức độ liên quan về 2 giá trị 0,1 (giống như đưa về dộ liên quan nhị phân ) => cách này theo Schamber là nên tránh - tổng quát hố R và P Độ bao phủ tổng quát và độ chính xác tổng quát: (generalized , non-binary recall and precision) Gọi R là tập n tài liệu được phục hồi từ cơ sở dữ liệu tài liệu D= { d1, d2, …, dN } với một câu truy vấn thuộc về một chủ đề nào đĩ , R ≤ D Gọi tài liệu di trong cơ sở dữ liệ tài liệu cĩ tỉ lệ độ liên quan là r(di) Độ bao phủ tổng quát gR và độ chính xác tổng quát gP được tính theo cơng thức như sau: d є R n ∑ r(d) gP = d є R d є D ∑r(d) ∑r(d) gR= Luận văn : Đánh giá các hệ thống tìm kiếm thơng tin Trang 54 Cách tính này cũng tương tự tính R, P nhị phân truyền thống , nĩ cũng cho phép tính R trung bình và P trung bình của tập câu truy vấn, tính P dựa trên R, hoặc tính dựa trên ngưỡng giới hạn số tài liệu trả về và cũng cho phép biểu diễn đường cong PR Ghi chú : r(d) là một con số thực cĩ giá trị trong khoảng (0.0, 1.0) Ví dụ với mức độ liên quan là 4. Tính r(d) o Mức độ liên quan cao : 3 => r(d)=3/4 o Mức độ liên quan vừa : 2 => r(d)=2/4 o Mức độ liên quan trung bình : 1 => r(d)=1/4 Khơng liên quan :0 => r(d)=0 2.2.4. TREC và đánh giá theo chuẩn TREC 2.2.4.1. TREC là gì? TREC là viết tắt của Text REtrieval Conference, cĩ nghĩa là Hội nghị về Tìm kiếm Thơng tin Văn bản, được tổ chức hằng năm tại Viện Quốc gia về Tiêu chuẩn và Cơng nghệ Hoa Kỳ (NIST _ National Institute Standard and Technology) [ 8]. TREC là một loạt Hội nghị chuyên cung cấp cơ sở hạ tầng cho việc kiểm tra, đánh giá quy mơ lớn về cơng nghệ tìm kiếm (chủ yếu là tìm kiếm văn bản). Hội nghị TREC được tạo ra để thúc đẩy nghiên cứu về các cơng nghệ tìm kiếm thơng tin. Các mục tiêu chính của TREC là : • Khuyến khích các nghiên cứu trong tìm kiếm thơng tin dựa trên ngữ liệu đánh giá qui mơ lớn. • Phát triển giao tiếp, liên lạc giữa các ngành cơng nghiệp, giáo dục và chính phủ bằng cách cung cấp một diễn đàn mở để trao đổi các ý kiến nghiên cứu. • Hỗ trợ trao đổi cơng nghệ từ những phịng thí nghiệm nghiên cứu thành những sản phẩm thương mại. • Cải thiện vượt bật các phương pháp luận tìm kiếm trên các vấn đề thế giới thực và các độ đo cho tìm kiếm thơng tin. Luận văn : Đánh giá các hệ thống tìm kiếm thơng tin Trang 55 • Tạo ra một loạt ngữ liệu đánh giá liên quan các khía cạnh khác nhau của tìm kiếm thơng tin. • Phát triển các cơng nghệ đánh giá thích hợp sẵn cĩ mà được sử dụng bởi ngành cơng nghệp và giáo dục, bao gồm cả việc phát triển các cơng nghệ đánh giá mới thích hợp hơn với các hệ thống hiện tại. Chu trình Hội nghị hằng năm của TREC : TREC gồm các lĩnh vực tập trung khác nhau gọi là TRACK. Nhiệm vụ của các TRACK chủ yếu là tập trung vào vấn đề con của tìm kiếm thơng tin văn bản. Chính những TRACK này tiếp thêm sinh lực, và làm cho TREC tiếp tục phát triển vì những TRACK này thực hiện : + Ngữ liệu chuyên mơn hĩa hỗ trợ nghiên cứu trong các lĩnh vực mới. + Những thí nghiệm qui mơ lớn gỡ những lỗi mà cơng việc gặp phải. + Cung cấp những dấu hiệu về sự phát triển của cơng nghệ đánh giá. Kêu gọi tham gia Xác định cơng việc Kiếm được tài liệu Thử nghiệm tìm kiếm thơng tin Phát triển chủ đề Đánh giá độ liên quan Đánh giá kết quả Phân tích kết quả Hội nghị TREC Tiến hành cơng bố Luận văn : Đánh giá các hệ thống tìm kiếm thơng tin Trang 56 Tuy nhiên, sự phát triển tập hợp TRACK trong một TREC cụ thể phụ thuộc vào : + Sự hưởng ứng của những ngườ

Các file đính kèm theo tài liệu này:

Unlock-0112385-0112387.pdf