Luận văn Học xếp hạng trong tính hạng đối tượng và tạo nhãn cụm tài liệu

Tài liệu Luận văn Học xếp hạng trong tính hạng đối tượng và tạo nhãn cụm tài liệu: ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN THU TRANG HỌC XẾP HẠNG TRONG TÍNH HẠNG ĐỐI TƯỢNG VÀ TẠO NHÃN CỤM TÀI LIỆU Ngành: Công nghệ Thông tin Chuyên ngành: Hệ thống Thông tin Mã số: 60 48 05 luận văn thạc sĩ NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS Hà Quang Thụy Hà Nội - 2008 Lời cam đoan Tôi xin cam đoan đây là công trình nghiên cứu của bản thân. Các số liệu, kết quả trình bày trong luận văn này là trung thực và chưa từng được ai công bố trong bất kỳ công trình luận văn nào trước đây. Học Viên Nguyễn Thu Trang ii Lời cảm ơn Trước tiên, em muốn gửi lời cảm ơn sâu sắc nhất đến PGS.TS Hà Quang Thụy - Người thầy kính yêu, người hướng dẫn, chỉ bảo em tận tình từ những bước nghiên cứu đầu tiên và hoàn thành luận văn. Tôi chân thành cảm ơn các thầy cô trong bộ môn Các Hệ Thống Thông Tin, và phòng thí nghiệm SISLAB, nhóm xemina Data Mining và đặc biệt gửi lời cảm ơn tới ThS.Nguyễn Cẩm Tú đã giúp đỡ, hỗ trợ tôi trong quá trình nghiên cứu, hoàn thành đề tài. Tôi...

71 trang | Chia sẻ: hunglv | Lượt xem: 1273 | Lượt tải: 0

Bạn đang xem trước 20 trang mẫu tài liệu Luận văn Học xếp hạng trong tính hạng đối tượng và tạo nhãn cụm tài liệu, để tải tài liệu gốc về máy bạn click vào nút DOWNLOAD ở trên

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN THU TRANG HỌC XẾP HẠNG TRONG TÍNH HẠNG ĐỐI TƯỢNG VÀ TẠO NHÃN CỤM TÀI LIỆU Ngành: Công nghệ Thông tin Chuyên ngành: Hệ thống Thông tin Mã số: 60 48 05 luận văn thạc sĩ NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS Hà Quang Thụy Hà Nội - 2008 Lời cam đoan Tôi xin cam đoan đây là công trình nghiên cứu của bản thân. Các số liệu, kết quả trình bày trong luận văn này là trung thực và chưa từng được ai công bố trong bất kỳ công trình luận văn nào trước đây. Học Viên Nguyễn Thu Trang ii Lời cảm ơn Trước tiên, em muốn gửi lời cảm ơn sâu sắc nhất đến PGS.TS Hà Quang Thụy - Người thầy kính yêu, người hướng dẫn, chỉ bảo em tận tình từ những bước nghiên cứu đầu tiên và hoàn thành luận văn. Tôi chân thành cảm ơn các thầy cô trong bộ môn Các Hệ Thống Thông Tin, và phòng thí nghiệm SISLAB, nhóm xemina Data Mining và đặc biệt gửi lời cảm ơn tới ThS.Nguyễn Cẩm Tú đã giúp đỡ, hỗ trợ tôi trong quá trình nghiên cứu, hoàn thành đề tài. Tôi cảm ơn các thầy cô và các cán bộ của trường Công nghệ đã tạo cho tôi những điều kiện thuận lợi để học tập và nghiên cứu. Cuối cùng, xin gửi lời cảm ơn tới gia đình, GB và bạn bè nguồn động viên tinh thần to lớn với tôi, luôn cổ vũ và tin tưởng tôi. Nguyễn Thu Trang iii Mục lục MỞ ĐẦU 1 1 Xếp hạng đối tượng 2 1.1 Giới thiệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 1.2 Phương pháp PageRank . . . . . . . . . . . . . . . . . . . . . . . . . 3 1.3 Xếp hạng đối tượng . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 1.4 Phương pháp đánh giá xếp hạng . . . . . . . . . . . . . . . . . . . . . 6 1.5 Tổng kết . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 2 Học xếp hạng 9 2.1 Giới thiệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 2.2 Phương pháp học xếp hạng . . . . . . . . . . . . . . . . . . . . . . . 11 2.2.1 Hồi quy có thứ tự và Pairwise . . . . . . . . . . . . . . . . . . 11 2.2.2 Học xếp hạng danh sách Listwise . . . . . . . . . . . . . . . . 13 2.3 Tổng kết chương . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 3 Xếp hạng trong máy tìm kiếm thực thể 16 3.1 Máy tìm kiếm thực thể . . . . . . . . . . . . . . . . . . . . . . . . . . 17 iv MỤC LỤC v 3.2 Xếp hạng thực thể . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 3.2.1 Mô hình Impression . . . . . . . . . . . . . . . . . . . . . . . . 22 3.2.2 Nhận xét, đánh giá mô hình Impression . . . . . . . . . . . . . 27 3.2.3 Mô hình đề xuất . . . . . . . . . . . . . . . . . . . . . . . . . 29 3.3 Thực nghiệm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 3.3.1 Công cụ sử dụng . . . . . . . . . . . . . . . . . . . . . . . . . 32 3.3.2 Dữ liệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 3.3.3 Kết quả và đánh giá . . . . . . . . . . . . . . . . . . . . . . . 34 3.4 Tổng kết chương . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36 4 Tạo nhãn cụm tài liệu 37 4.1 Giới thiệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 4.2 Phương pháp lựa chọn nhãn . . . . . . . . . . . . . . . . . . . . . . . 39 4.3 Học xếp hạng nhãn cụm . . . . . . . . . . . . . . . . . . . . . . . . . 42 4.3.1 Các đặc trưng . . . . . . . . . . . . . . . . . . . . . . . . . . . 42 4.3.2 Học hàm tính hạng . . . . . . . . . . . . . . . . . . . . . . . . 44 4.4 Thực nghiệm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 4.4.1 Nguồn dữ liệu . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 4.4.2 Dữ liệu học . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 4.4.3 Kết quả và đánh giá . . . . . . . . . . . . . . . . . . . . . . . 47 4.5 Tổng kết chương . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 Kết luận 49 Tài liệu tham khảo 51 A Dữ liệu 59 MỤC LỤC vi A.1 Dữ liệu tìm kiếm thuốc . . . . . . . . . . . . . . . . . . . . . . . . . . 59 A.2 Cây wiki . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60 Danh sách hình vẽ 62 Danh sách bảng 63 Bảng ký hiệu và từ viết tắt Từ viết tắt Mô tả Trang định nghĩa IR Information Retrieval 6 SVM Suport Vector Machine 2 LTR Learning To Rank 1 MAP Mean Average Precision 7 OR Ordinal Regression 10 vii MỞ ĐẦU Xếp hạng các đối tượng (trang Web, tác giả, chủ đề, trường đại học, công ty...) có ý nghĩa quan trọng trong lĩnh vực khai phá dữ liệu, là trung tâm của nhiều ứng dụng - điển hình là máy tìm kiếm. Các phương pháp tính hạng được nghiên cứu và phát triển từ rất nhiều năm trước, nhưng khoảng 3 năm trở lại đây, hướng tiếp cận sử dụng phương pháp học máy để xếp hạng đối tượng trở thành một vấn đề thu hút được rất nhiều sự quan tâm như trong SIGIR 2007 và SIGIR 2008 đã tổ chức hội thảo chuyên đề về học xếp hạng (learning to rank: LTR)[49]. Học xếp hạng đang được nhiều nhà khoa học trên thế giới quan tâm nghiên cứu và ứng dụng, như cải tiến hàm tính hạng trong máy tìm kiếm của nhóm Yuehua Xu tại ICML năm 2007 [59], mô hình tính hạng thực thể trong máy tìm kiếm thực thể của nhóm các tác giả Tao Cheng, Kevin Chang trong [17, 18, 19], và sử dụng học xếp hạng để đánh giá trọng số của các cụm từ [65, 53]. Luận văn Học xếp hạng trong tính hạng đối tượng và tạo nhãn cụm tài liệu thực hiện khảo sát, phân tích các phương pháp học xếp hạng đang được quan tâm hiện nay và từ đó đưa ra mô hình xếp hạng thực thể áp dụng vào máy tìm kiếm thực thể trong tiếng Việt, cụ thể là tìm kiếm thực thể thuốc và học xếp hạng để tạo nhãn cho cụm tài liệu. Qua đó cho thấy ứng dụng to lớn và ý nghĩa quan trọng của bài toán học xếp hạng. Luận văn này gồm bốn chương, nội dung được mô tả như dưới đây. Chương 1. Tổng quan về xếp hạng đối tượng giới thiệu những nội dung cơ bản nhất về bài toán xếp hạng và đặt vấn đề học xếp hạng đối tượng. 1 MỞ ĐẦU 2 Chương 2. Học xếp hạng đối tượng trình bày hai phương pháp học xếp hạng cơ bản. Đồng thời, chương này cũng giới thiệu thuật toán học được sử dụng nhiều trong học xếp hạng là máy véc-tơ hỗ trợ (SVM) và hồi quy tuyến tính. Chương 3. Học xếp hạng trong máy tìm kiếm thực thể đưa ra mô hình học xếp hạng đối tượng và thực nghiệm tính hạng thực thể thuốc trong máy tìm kiếm thực thể. Chương 4. Gán nhãn cụm tài liệu phân tích, áp dụng và báo cáo kết quả thực nghiệm học xếp hạng từ/cụm từ để tạo nhãn cho các cụm tài liệu. Phần kết luận tổng kết và tóm lược nội dung chính của luận văn. C h ư ơ n g 1 Xếp hạng đối tượng 1.1 Giới thiệu Trong nhiều ứng dụng cần xếp hạng các đối tượng theo tiêu chí nào đó, đơn giản như việc xếp hạng học sinh trong một lớp theo điểm trung bình, hay xếp hạng các trường đại học,.. và đặc biệt là việc xếp hạng các kết quả trả về của máy tìm kiếm. Xếp hạng đối tượng là việc sắp xếp các đối tượng theo độ phù hợp với tiêu chí tùy vào từng ứng dụng cụ thể. Do đó cần xác định hàm tính giá trị về độ phù hợp để sắp xếp của các đối tượng theo tiêu chí đã đặt ra, và hàm đó được gọi là hàm tính hạng (ranking function: RF). Mỗi khi nói tới xếp hạng đối tượng chúng ta quan tâm tới hàm tính hạng. Một điển hình của bài toán xếp hạng là việc xếp hạng các kết quả trả về của máy tìm kiếm. Trong máy tìm kiếm thông thường (như Google, Yahoo) độ quan trọng hay còn gọi hạng trang là đại lượng cơ sở để xếp hạng. Giá trị này được xác định dựa vào việc phân tích đồ thị liên kết giữa các trang web. Với tập các tài liệu D = d1, ..dn, khi có truy vấn q của người dùng máy tìm kiếm cần tìm những tài liệu 2 CHƯƠNG 1. XẾP HẠNG ĐỐI TƯỢNG 3 trong D phù hợp với truy vấn q, và sau đó sắp xếp các tài liệu theo độ phù hợp với truy vấn và độ quan trọng giảm dần. Đó là quá trình xếp hạng và hàm tính hạng là hàm kết hợp của giá trị độ tương tự giữa tài liệu với truy vấn similarity(q, di) và hạng trang thành chỉ số xếp hạng được Arvind Arasu và các tác giả đề cập tới trong [6]. Việc xác định hàm tính hạng đóng vai trò quan trọng và quyết định đối với chất lượng của máy tìm kiếm. Từ những năm 98, Cohen [21] đã đưa ra nhận định rằng có nhiều ứng dụng cần sắp xếp các đối tượng hơn là cần phân lớp chúng. Mọi ứng dụng mà kết quả trả về cho người dùng là một danh sách các đối tượng cần được sắp xếp, xếp hạng giúp người dùng nhanh chóng tiếp cận với kết quả gần với yêu cầu của mình nhất có thể. Thực tế chúng ta gặp rất nhiều các bảng xếp hạng như ví dụ ở trên. Điều đó cho thấy, xếp hạng là một bài toán quan trọng và có ý nghĩa. Tuy nhiên khái niệm xếp hạng (ranking) ra đời ban đầu với định hướng xếp hạng các đối tượng trên Web - cụ thể là các trang web. Các trang web cần được sắp xếp theo độ quan trọng giảm dần. Giá trị độ quan trọng đó gọi là hạng trang và PageRank [43] là phương pháp tính hạng đầu tiên, tính hạng trang các trang web dựa vào phân tích mối liên kết giữa các trang web trong đồ thị Web. 1.2 Phương pháp PageRank Page và các đồng tác giả [43] đã đưa ra ý tưởng: độ quan trọng của một trang chịu ảnh hưởng của độ quan trọng từ các trang liên kết đến nó. Và công thức tính PageRank cho một trang u, gọi là piu được tính như sau: piu = ∑ i∈BI (i) pii Ni (1.1) Với BI(i) là tập hợp các trang có liên kết đến trang i và Ni là số trang liên kết ra từ trang i. Biểu diễn đồ thị Web bởi ma trận chuyển P , khi đó phương trình 1.1 được viết lại dưới dạng ma trận: pi = piP (1.2) CHƯƠNG 1. XẾP HẠNG ĐỐI TƯỢNG 4 Trong đó: pi = (pi1, pi2, . . . pin) là véc-tơ hạng các trang web, với thành phần pii là hạng của trang i. Từ 1.2 cho thấy véc-tơ hạng trang pi chính là véc-tơ riêng của ma trận chuyển P tương ứng với giá trị riêng λ = 1. Do tính chất của chuỗi Markov, để tính véc-tơ riêng của P thuật toán giả thiết rằng đồ thị trang web là liên thông, tức với cặp hai trang web i, j bất kì luôn có đường đi từ i tới j và ngược lại. Tuy nhiên thực tế trên World Wide Web (WWW) vẫn tồn tại không ít các trang web không có liên kết đến hoặc liên kết ra nên việc giả thiết đồ thị Web liên thông là không hợp lý. Và trong ma trận P vẫn tồn tại hàng chỉ toàn số 0, nên không tồn tại một phân phối xác suất dừng ổn định của P hay chính là véc-tơ hạng trang. Vì vậy cần phải biến đổi ma trận P thành P ′ sao cho phù hợp. Định nghĩa véc-tơ v, được chuẩn hóa ‖v‖ = 1, xác định xác suất phân phối với vi là xác suất trang web i được gọi đến ở lần duyệt web đầu tiên. véc-tơ v có vai trò trong việc hướng kết quả PageRank theo chủ đề, lĩnh vực mong muốn. Khi không xét đến ngữ cảnh đó có thể chọn vi = 1n với ∀i = 1, 2..n . Gọi d là véc-tơ n× 1 xác định các trang không có liên kết ra (dangling nút trên đồ thị Web): di = { 1 nếu N(i) = 0 0 ngược lại Ma trận P ′ được xác định: P ′ = P + dv (1.3) Khi thay đổi ma trận P như vậy tức thêm các liên kết ảo từ các dangling nút tới tất cả các nút khác trong đồ thị Web theo phân phối xác suất v. Điều đó giúp tránh việc khi duyệt các trang không có liên kết ra sẽ không duyệt tiếp được. Để đảm bảo phân phối dừng ổn định (duy nhất), chuỗi Markov tương ứng với quá trình duyệt Web của người dùng cần có tính chất ergodic, tức từ một trang web người dùng có thể chuyển tới một trang bất kì khác. Do vậy ma trận Markov P˜ được xác định như sau: P˜ = αP ′ + (1− α) J (1.4) CHƯƠNG 1. XẾP HẠNG ĐỐI TƯỢNG 5 Với: J = [1]n×1 v và α: là hệ số hãm α thường được chọn giá trị 0.85, với ý nghĩa tại mỗi bước duyệt Web người dùng có thể chuyển tới một trang trong các liên kết ra từ trang hiện tại với xác suất α và chuyển tới các trang khác trong đồ thị Web với xác suất (1− α) theo phân phối v. Khi đó, thay vì tính vector riêng của ma trận P ta tính vector riêng pi của ma trận P˜ : pi = piP˜ . Theo tính chất của chuỗi Markov, tổng các thành phần của véc-tơ pi bằng 1:∑n i=1 pii = 1 Vậy véc-tơ hạng trang chính là véc-tơ riêng của ma trận P˜ . 1.3 Xếp hạng đối tượng Hạng trang PageRank là độ đo đầu tiên để xếp hạng các trang web. Và vì vậy, có thể coi hạng trang là hàm xếp hạng các đối tượng - cụ thể đối tượng trong trường hợp này là các trang web. Và ngày càng có nhiều các nghiên cứu về xếp hạng không chỉ là các trang web như xếp hạng các trường đại học [4, 3, 55], xếp hạng các nhà khoa học, bài báo [48]... Với những xếp hạng đơn giản như xếp hạng học sinh theo điểm trung bình, xếp hạng các doanh nghiệp theo doanh thu năm...có một tiêu chí xếp hạng rõ ràng và hàm tính hạng "dễ dàng" xác định. Tuy nhiên trong nhiều ứng dụng như xếp hạng các trường đại học, xếp hạng các nhà khoa học, xếp hạng các kết quả trả về của máy tìm kiếm,...mỗi loại đối tượng cần xếp hạng có nhiều đặc trưng khác nhau, cần tìm ra mối quan hệ về độ quan trọng của các đặc trưng đó. Và từ đó kết hợp các đặc trưng thành một hàm gọi l hàm tính hạng để xếp hạng các đối tượng. Đối tượng có giá trị hạng càng cao thì có thứ hạng càng cao (thứ hạng cao nhất là 1, và lần lượt giảm dần 2, 3 ..) Ví dụ, vấn đề xếp hạng các trường đại học đang nhận được nhiều sự quan tâm. Webometric [55, 4] là một phương pháp xếp hạng trường đại học dựa vào các thông tin trên web với có 4 chỉ số đặc trưng được xác định. Hàm xếp hạng các trường là CHƯƠNG 1. XẾP HẠNG ĐỐI TƯỢNG 6 một hàm tuyến tính của 4 chỉ số đó và Webometric cũng đưa ra hệ số cụ thể cho từng chỉ số. Việc xếp hạng các trường đại với độ đo Webometric vẫn đang được các nhà khoa học quan tâm nghiên cứu [55, 4] với các nghiên cứu về các chỉ số và xác định hàm xếp hạng. Học xếp hạng được Joachims [36, 49] đánh giá là lĩnh vực nổi lên với sự phát triển lớn mạnh trong các nghiên cứu về truy tìm thông tin (information retrieval)và học máy (machine learning). Nói một cách khác, học hàm tính hạng hiện đang là vấn đề được quan tâm trong lĩnh vực học máy và có nhiều ứng dụng trong truy tìm thông tin, theo [61]. Học xếp hạng là học hàm của các đặc trưng để sắp xếp các đối tượng theo độ phù hợp, ưu tiên hay độ quan trọng...tùy vào từng ứng dụng cụ thể. Hiện nay nghiên cứu các phương pháp học tính hạng đang được nhiều nhà khoa học trên thế giới quan tâm [8, 12, 16, 26, 37, 44, 46, 45, 50], có nhiều phương pháp học xếp hạng được đưa ra như RankSVM [34], SVM-MAP [62].. Chương sau sẽ giới thiệu cụ thể các phương pháp học xếp hạng hiện nay. 1.4 Phương pháp đánh giá xếp hạng Để đánh giá chất lượng một xếp hạng, các độ đo thông dụng trong học máy như độ chính xác (precision), độ hồi tưởng (recall), độ đo F không sử dụng. Xếp hạng yêu cầu các đối tượng "đúng" (phù hợp tiêu chí) cần được xếp ở các vị trí đầu tiên của bảng xếp hạng càng tốt. Giả sử 6 đối tượng tương ứng là: a, b, c, d, e Trong đó a, b, c là các đối tượng phù hợp và d, e là các đối tượng không phù hợp. Một xếp hạng của các đối tượng cần đánh giá là: c, a, d, b, e. Các độ đo về độ chính xác của xếp hạng thường được sử dụng: CHƯƠNG 1. XẾP HẠNG ĐỐI TƯỢNG 7 Độ chính xác mức K: P@K Độ chính xác xếp hạng ở mức K - Precision@K (P@K): độ chính xác của K đối tượng đầu bảng xếp hạng. Xác định số đối tượng đúng ở K vị trí đầu tiên của xếp hạng và gọi là Match@K, và độ chính xác mức K: P@K = Match@K K Với ví dụ trên ta có: P@3 = 2/3 ; P@4 = 3/4; P@5 = 3/5; Độ chính xác trung bình: MAP Độ chính xác trung bình là giá trị trung bình của các P@K tại các mức K có đối tượng đúng. Gọi I(K) là hàm xác định đối tượng ở vị trí hạng K nếu đúng I(K) =1 và ngược lại I(K) = 0. Độ chính xác trung bình: AP = ∑n K=1 P@K × I(K)∑n j=1 I(j) Với n là số đối tượng được xét. Giá trị trung bình trên m xếp hạng (với bài toán tìm kiếm thì đó là giá trị trung bình của AP trên các truy vấn): MAP = ∑m i=1 APi m Ví dụ trên có: MAP = 1 3 .( 1 1 + 2 2 + 3 4 ) Trung bình nghịch đảo thứ hạng: MRR Xác định vị trí hạng của đối tượng đúng đầu tiên trong bảng xếp hạng: r, khi đó nghịch đảo hạng: RR = 1/r. Với ví dụ trên, ta có RR = 1/1. Trung bình nghịch đảo thứ hạng là giá trị trung bình nghịch đảo thứ hạng RR của tất cả các truy vấn/hay xếp hạng đang xét. MRR = ∑m i=1 RRi m CHƯƠNG 1. XẾP HẠNG ĐỐI TƯỢNG 8 Một số độ đo khác Các độ đo ít được sử dụng hơn như: • Số đối tượng đúng ở mức K: Match@K. • Trung bình tổng nghịch đảo thứ hạng của các đối tượng đúng (MTRR): Với giá trị tổng nghịch đảo được xác định: TRR = n∑ i=1 ( 1 i × I(i)) Trong ví dụ ta có TRR = 1/1 + 1/2 1.5 Tổng kết Xếp hạng là một bài toán phổ biến, có ý nghĩa quan trọng và có nhiều ứng dụng trong thực tế. Vấn đề học xếp hạng là vấn đề thời sự đang nhận được nhiều sự quan tâm của các nhà khoa học. Hướng tiếp cận bài toán học xếp hạng đã được giới thiệu trong chương này, các chương sau tiếp tục làm rõ hơn về bài toán học xếp hạng và ứng dụng. C h ư ơ n g 2 Học xếp hạng 2.1 Giới thiệu Các nghiên cứu về học xếp hạng chủ yếu tập trung vào ứng dụng xếp hạng các tài liệu trả về từ máy tìm kiếm dựa theo truy vấn. Có tập các tài liệu D = {d1, d2, ..., dn} và với truy vấn q, cần xác định hàm xếp hạng r để sắp xếp các tài liệu D theo độ phù hợp với truy vấn. Tổng quát bài toán xếp hạng đối tượng nói chung, ta có: tập X ⊂ Rn của các đối tượng x = (x1, .., xn) ∈ Rn, với n là số đặc trưng của mỗi đối tượng. Cần tìm hàm h(x) : X → R để sắp xếp các đối tượng x theo độ phù hợp. Dữ liệu học S là xếp hạng đúng của một tập các đối tượng X ′ ⊂ X được đưa ra để học hàm h(x). Tùy từng ứng dụng mà người dùng có các mức yêu cầu khác nhau về sắp xếp thứ hạng đúng và có các kiểu dữ liệu học: 1. Xác định giá trị độ phù hợp y cụ thể của từng đối tượng trong S. Do trong ứng dụng xếp hạng, người dùng quan tâm nhiều tới thứ tự thay vì giá trị xếp 9 CHƯƠNG 2. HỌC XẾP HẠNG 10 hạng (độ phù hợp) nên y thường được xác định: • Hai giá trị tương ứng xếp hạng phù hợp (releval) và không phù hợp (inreleval). Người dùng chỉ quan tâm các đối tượng có phù hợp tiêu chí đặt ra hay không (2 hạng). • N giá trị xác định tương ứng N hạng nhất định, ví dụ: rất phù hợp, phù hợp, có thể phù hợp, không phù hợp. 2. Đưa ra các so sánh độ phù hợp của từng cặp đối tượng. 3. Danh sách sắp thứ tự đúng của "tất cả" các đối tượng theo độ phù hợp. Với mỗi kiểu dữ liệu trên, xác định các kiểu ràng buộc xếp hạng khác nhau và có các phương pháp học xếp hạng tương ứng. Các phương pháp học xếp hạng theo Soumen Chakrabarti [14] và Tie-Yan Liu [40]: Hồi quy (Regression): Có S = {(xi, yi)} mỗi đối tượng xi xác định giá trị yi tương ứng về độ phù hợp. Học hàm h(x) thỏa mãn: h(xi) = yi với ∀x ∈ X ′ Trong học xếp hạng, khi giá trị yi xác định thứ hạng của đối tượng xi thì phương pháp gọi là hồi quy có thứ tự (Ordinal Regression). Cặp thứ tự (Pairwise): Có S = {(xi, xj)} là tập các cặp đối tượng được sắp thứ tự, với mỗi cặp (xi, xj) có nghĩa xi có thứ hạng cao hơn xj (xi phù hợp hơn xj : xi xj). Tìm h(x): ∀(xi, xj) ∈ S có xi xj thì h(xi) > h(xj) Danh sách sắp xếp (Listwise): Một thứ tự sắp xếp của tất cả các đối tượng được xác định [62]. Tuy nhiên trong nhiều ứng dụng (ví dụ máy tìm kiếm), việc sắp thứ tự của tất cả các đối tượng là không khả thi, thì một xếp hạng của K đối tượng đầu tiên được xác định, và tất cả các đối tượng khác đều có hạng thấp hơn [12] Có S = {x1, x2, ..., xm} với xi ∈ X ′ là một sắp thứ tự (x1 x2 ... xm) tìm hàm h(x) sao cho: h(x1) > h(x2) > ... > h(xm) CHƯƠNG 2. HỌC XẾP HẠNG 11 2.2 Phương pháp học xếp hạng 2.2.1 Hồi quy có thứ tự và Pairwise Học xếp hạng với phương pháp hồi quy có thứ tự: tập dữ dữ liệu học S = {(xi, yi)}li=1với yi ∈ 1, 2, ...R là một tập sắp thứ tự, cần học hàm h(x) thỏa mãn: Với mọi cặp (xi, yi) và (xj , yj) thuộc S thì yi > yj ⇔ h(xi) > h(xj) Gọi P là tập hợp tất cả các cặp (i, j) mà thứ hạng của xi cao hơn của xj (xi xj) trong S: P = {(i, j) : yi > yj} và |P | = m. Do vậy có thể phát biểu lại bài toán: có các cặp so sánh thứ tự S ′ = {(xi, xj) ∣∣xi xj}, tìm h(x) thỏa mãn: ∀(xi, xj) ∈ S ′ có xi xj thì h(xi) > h(xj) Như vậy, từ bài toán hồi quy có thứ tự đã được chuyển về bài toán Pairwise. Ví dụ có tập sắp thứ tự S = {(d1, 2), (d2, 1), (d3, 1)} khi đó có các cặp so sánh thứ tự S ′ = {(d2, d1), (d3, d1)}. Với ví dụ này có d2 và d3 không xác định thứ tự so sánh (cùng thứ hạng trong S). Để giải quyết bài toán Pairwise, vấn đề xếp hạng (ranking) được đưa về bài toán phân lớp cho từng cặp đối tượng [40, 66, 34, 9, 30, 33, 22]. Giá trị của hàm phân lớp là giá trị xếp hạng đối tượng. Hàm tính hạng h : X → R h(x) = wTx SVM[33] (Support Vector Machine - máy véc-tơ hỗ trợ) là phương pháp học máy học bộ phân lớp nhị phân (chia các đối tượng thành hai lớp). Tư tưởng chính của SVM là xác định biên (siêu phẳng) chia không gian các đối tượng thành hai nửa và tìm siêu phẳng tốt nhất (tối ưu) mà khoảng cách từ siêu phẳng tới đối tượng gần nhất trong cả 2 tập phân chia là lớn nhất. Với dữ liệu có thể phân tách tuyến tính, siêu phẳng có dạng wTx + b = 0. Dễ dàng nhận thấy mối liên hệ giữa hàm tính hạng h(x) và siêu phẳng. Do vậy với phương pháp SVM tìm được siêu phẳng ta suy ra hàm tính hạng h(x). CHƯƠNG 2. HỌC XẾP HẠNG 12 Để xác định siêu phẳng tối ưu, Joachims [33] đưa ra công thức tối ưu: min w,ξi≥0 (1 2 wTw + C n n∑ i=1 ξi ) Với ∀i ∈ {1, ..., n} : yi.(wTxi) ≥ 1− ξij. Trong đó ξi là hệ số nới lỏng được mô tả như trong hình 2.2. Herbrich [30] đã dựa vào công thức tối ưu trên của Joachims để đưa ra tối ưu tương tự trong hồi quy có thứ tự gọi là ordinal regression SVM (OR-SVM): min w,ξi,j≥0 (1 2 wTw + C m ∑ (i,j)∈P ξij ) Với ∀(i, j) ∈ P : (wTxi) ≥ (wTxj) + 1− ξij Thuật toán SVM với tối ưu này tìm hàm h(x) tuyến tính, siêu phẳng tốt nhất mà làm cực tiểu số cặp đối tượng x phải hoán đổi vị trí trong sắp xếp được dùng bởi siêu phẳng. Mô tả ý tưởng như hình 2.1. Viết lại ràng buộc của công thức tối ưu trên ta có: với ∀(i, j) ∈ P : wT (xi − xj) ≥ 1− ξij Công thức tương tự với công thức của ràng buộc trong tối ưu phân lớp SVM [33]. Do vậy mọi biến đổi tối ưu trên phân lớp SVM đều có thể được thực hiện đối với hồi quy có thứ tự như các biến đổi của Joachims [34]. Vậy hồi quy có thứ tự đã được đưa về bài toán học phân lớp nhị phân, sử dụng phân lớp SVM để học được mô hình tham số w cho hồi quy tuyến tính, được gọi là phương pháp RankSVM. Wei Chu và S. Sathiya Keerthi [20] năm 2005 cũng đưa ra phương pháp học hồi quy có thứ tự dựa vào SVM với việc xác định các ngưỡng phân chia thứ hạng: Với r thứ hạng trong S cần tối ưu (r − 1) ngưỡng để phân các đối tượng vào từng lớp, mô tả trong hình 2.2. Ngoài ra, các phương pháp trong [11, 35] cũng dựa vào tối ưu của SVM tương tự như trên. Công cụ SVM light do Joachims [34] cung cấp đã cho người dùng lựa chọn học xếp hạng đối tượng dựa vào phương pháp này. CHƯƠNG 2. HỌC XẾP HẠNG 13 Hình 2.1: Xếp hạng với SVM [34] b 2 b1 y=1 y=2 y=3 b 2 -1 b 2 +1b 1 -1 b 1 +1 ξ i *1+1 ξ i2 ξ i *2+1 ξ i1 f(x) = w φ(x). Hình 2.2: Xác định ngưỡng phân thứ hạng [20] 2.2.2 Học xếp hạng danh sách Listwise Với các ứng dụng xếp hạng, như xếp hạng các trang web trả về cho người dùng trong máy tìm kiếm, người dùng nhận được danh sách các kết quả được sắp xếp theo thứ tự độ phù hợp giảm dần thay vì so sánh thứ hạng của mỗi cặp kết quả. Xét ví dụ các đối tượng được xếp thành 3 thứ hạng (p: rất tốt, g: tốt và b: không tốt), khi đó giả sử có 5 đối tượng được xếp hạng lần lượt: (p, g, g, b, b). Có hai danh sách xếp hạng được đưa ra như sau: (g, p, g, b, b) và (p, g, b, g, b). CHƯƠNG 2. HỌC XẾP HẠNG 14 Hai xếp hạng trên đều chỉ xếp hạng sai một cặp đối tượng, nhưng có thể thấy việc xếp sai g,p là lỗi lớn hơn so với xếp sai b,g. Đây chính là điểm yếu của phương pháp Pairwise. Do chỉ xét từng cặp đối tượng để so sánh nên phương pháp Pairwise không tối ưu các độ đo đánh giá chất lượng xếp hạng ví dụ như MAP, vì vậy không phân biệt được sự khác nhau giữa hai xếp hạng trên [40]. Do đó, thay vì chuyển bài toán xếp hạng về bài toán hồi quy và phân lớp, học xếp hạng từ danh sách sắp thứ hạng đã được các tác giả [62, 12, 10, 50] quan tâm. Với Listwise, dữ liệu học là tập S = {x1, ..., xn} các đối tượng thuộc X với thứ hạng sắp xếp tương ứng Y = {y1, ..., yn} Phương pháp học xếp hạng trực tiếp từ danh sách xếp hạng do Yisong Yue và các đồng tác giả [62] đưa ra sử dụng SVM để tìm tối ưu và ràng buộc về độ đo đánh giá MAP trên danh sách xếp hạng. Yisong Yue đã dựa vào tối ưu Multivar [35] của Joachims, công thức: minw,ξi,j≥0 1 2 wTw + C m N∑ i=1 ξij Với ràng buộc: ∀i, ∀y ∈ Y có wTΨ(xi, yi) ≥ wTΨ(xi, y) + ∆(yi, y)− ξi Trong đó Ψ(x, y) là độ đo xác định độ khác biệt giữa các sắp xếp thứ hạng với sắp thứ hạng đúng. Yisong Yue hướng tối ưu độ đo MAP và xác định: Ψ(x, y) = ∑ i:rel ∑ j:!rel yij.(xi − xj) và ∆(y, y′) = 1−MAP (y′) Với MAP (y′) là độ chính xác trung bình của xếp hạng y′. (i : rel) có nghĩa thứ hạng i được xếp đúng và (j :!rel) là thứ hạng j xếp sai. yij = 1 nếu xi có thứ hạng cao hơn xj và ngược lại yij = −1 nếu xi có thứ hạng thấp hơn xj . Khi số lượng đối tượng được xếp hạng tăng thì số ràng buộc cũng tăng nhanh, do vậy Yisong Yue và các đồng tác giả đưa ra phương pháp học từng bước. Mỗi bước, xác định ràng buộc mà bị vi phạm lớn nhất (lỗi nhất) trong tập các ràng buộc CHƯƠNG 2. HỌC XẾP HẠNG 15 và tìm tối ưu thỏa mãn ràng buộc đó. Và quá trình tối ưu trên từng ràng buộc như vậy được lặp đi lặp lại tới khi không tìm được ràng buộc bị vi phạm. Đó là học xếp hạng Listwise với tối ưu MAP, ngoài ra có các phương pháp với các tối ưu khác như các phương pháp AdaRank [58], SoftRank [50], ListNet [12],... Với kết quả do Yisong Yue đưa ra và qua phân tích các kết quả công bố trên LETOR∗ (một dự án về học xếp hạng), phương pháp SVM-MAP có chất lượng cao (so với các phương pháp đã công bố kết quả của cùng dữ liệu của LETOR). 2.3 Tổng kết chương Chương này đã giới thiệu chung về các phương pháp học xếp hạng hiện nay và hai phương pháp học xếp hạng SVM-MAP, RankSVM được đề cập. Đó là hai phương pháp được áp dụng vào hai ứng dụng học xếp hạng được trình bày ở chương sau. ∗ C h ư ơ n g 3 Xếp hạng trong máy tìm kiếm thực thể Các máy tìm kiếm thông dụng hiện nay như Google, Yahoo, MSN, truy vấn người dùng đưa vào là tập các từ khóa và kết quả trả về là danh sách các địa chỉ tới các trang web. Do vậy để nhận được thông tin mong muốn, người dùng phải duyệt qua từng địa chỉ web đó, và có thể phải duyệt qua nhiều trang không có thông tin mong muốn. Với sự phát triển của các kỹ thuật rút trích thông tin (Information Extraction- IE) cụ thể là rút trích các thực thể, hướng phát triển máy tìm kiếm thực thể đã được Kevin Chang và các cộng sự [17, 18, 19] nghiên cứu, xây dựng. Truy vấn của người dùng trên máy tìm kiếm thực thể không đơn thuần là các từ khóa mà người dùng xác định rõ hơn về loại đối tượng dữ liệu đang muốn tìm và ngữ cảnh tìm kiếm. Kết quả trả về cho người dùng thay vì chỉ là các địa chỉ web, người dùng còn nhận được các thông tin cụ thể về đối tượng mình mong muốn tìm kiếm. Cũng như với máy tìm kiếm thông thường xếp hạng là vấn đề quan trọng, xếp hạng thực thể 16 CHƯƠNG 3. XẾP HẠNG TRONG MÁY TÌM KIẾM THỰC THỂ 17 là cốt lõi và quan trọng của máy tìm kiếm thực thể. Không chỉ các tác giả T.Cheng, X.Yan, K.Chang [17, 18, 19] mà xếp hạng thực thể thu hút được sự quan tâm của nhiều nhà khoa học với các nghiên cứu xếp hạng thực thể trên các trang web của wikipedia∗ [51, 23, 68, 24, 54, 64]. Đặc điểm dữ liệu wiki là các trang web đều được xác định chủ đề/thể loại (category) và trong mỗi trang có các khái niệm (concept) được đánh dấu (tag) hay tạo liên kết tới các trang mô tả khái niệm đó. Do vậy, với cấu trúc web giàu ngữ nghĩa đó, việc xếp hạng các thực thể trên wikipedia thường dựa trên các liên kết giữa các thực thể (hay các khái niệm), liên kết giữa các trang web, độ tương đồng ngữ nghĩa giữa các khái niệm như được đề cập trong [23]. Song song với các nghiên cứu đó là các nghiên cứu xếp hạng thực thể dựa trên việc xây dựng đồ thị quan hệ giữa các thực thể, mạng xã hội các thực thể trên web [47, 15, 13, 2, 7]. Qua phân tích các nghiên cứu [51, 23, 24, 54, 47, 13, 15, 17, 18, 19], với định hướng xây dựng hệ tìm kiếm thực thể trên web nói chung, việc xếp hạng trong tìm kiếm thực thể của nhóm T.Cheng, X.Yan và K.Cheng được quan tâm và phân tích. 3.1 Máy tìm kiếm thực thể Người dùng thường tìm kiếm thông tin về đối tượng nào đó, ví dụ như khi sử dụng truy vấn "thuốc chống viêm", người dùng muốn tìm các thực thể thuốc mà có tác dụng chống viêm. Và các máy tìm kiếm hiện nay (như Google, Yahoo, MSN) bằng cách so sánh văn bản (text) trên từng trang web với truy vấn và trả về cho người dùng địa chỉ các trang mà có chứa từ khóa trong truy vấn. Do vậy người dùng không trực tiếp nhận được thông tin mong muốn mà phải duyệt qua nội dung các trang web trả về đó và không chắc chắn có được thông tin mong muốn ở những kết quả đầu tiên. Đó là nhược điểm của các máy tìm kiếm này, không hiểu mục đích tìm kiếm của người dùng, và tìm kiếm trên các trang web độc lập chỉ dựa vào từ khóa. Theo [17] máy tìm kiếm thực thể hướng người dùng tốt hơn, cho phép chỉ ra trong truy vấn đối tượng mà người dùng muốn tìm. Và kết quả trả về của máy tìm kiếm là ∗ CHƯƠNG 3. XẾP HẠNG TRONG MÁY TÌM KIẾM THỰC THỂ 18 các thực thể của đối tượng cần tìm, mỗi thực thể được xác định không chỉ xét trên một trang độc lập mà có thể được tổng hợp qua nhiều trang web. Ví dụ máy tìm kiếm thực thể của dự án WISDM∗ của nhóm T.Cheng, X.Yan và K.Chang. Với truy vấn thông thường q = "phone number of New York Department of Motor Vehices" tức người dùng đang cần tìm điện thoại của văn phòng của "Motor Vehices" ở "New York". Khi đó truy vấn của người dùng tương ứng trong máy tìm kiếm thực thể WISDM là q = "New York DMV #phone", chỉ rõ đối tượng muốn tìm "phone" và ngữ cảnh xuất hiện của đối tượng "New York DMV". Kết quả trả về của máy tìm kiếm là các số điện thoại, và với mỗi số điện thoại có danh sách các địa chỉ web tương ứng chứa thông tin điện thoại đó như bảng 3.1. Bảng 3.1: Ví dụ kết quả trả về của truy vấn q phone urls 1-800-225-5368 https://www.nysdot.gov/about-nysdot/contact, ... ... Sơ đồ hình 3.2 cho thấy sự khác biệt cơ bản giữa máy tìm kiếm thông thường với máy tìm kiếm thực thể. Máy tìm kiếm thực thể đã xem không gian web không chỉ là tập các trang web với các từ khóa như máy tìm kiếm thông thường mà còn là tập các đối tượng hay các kiểu thực thể E = E1, E2, ..., En như hình 3.1. Mỗi đối tượng Ei có các thực thể ei tương ứng được trích ra từ các trang web, ví dụ đối tượng thuốc #drug có các thực thể {"Diclofenac", "Steroid", "Chloramphenicol",...}. Khi đó ngoài chỉ mục (index) từ, máy tìm kiếm còn có chỉ mục cho thực thể. Bài toán tìm kiếm thực thể được phát biểu [18]: • Giả thiết: Có tập các tài liệu D = {d1, ..., dn} và các kiểu thực thể E = {E1, ..., EN} • Input: Truy vấn q = α(E1, ..., Em, k1, ..., kl) là một hàm của các kiểu thực thể và các từ khóa thể hiện yêu cầu của người dùng tìm kiếm các loại thực thể ∗ CHƯƠNG 3. XẾP HẠNG TRONG MÁY TÌM KIẾM THỰC THỂ 19 Hình 3.1: Đồ thị web với khung nhìn thực thể [18] Tìm kiếm truyền thống Tìm kiếm thực thể Các từ khóa Thực thể Kết quả Kết quả Hình 3.2: Mô hình tìm kiếm truyền thống và tìm kiếm thực thể [56] E1, ..., Em với ngữ cảnh các từ khóa k1, ..., kl. • Output: Danh sách đã xếp hạng của các bộ t = (e1, ..., em). Tao Cheng, X.Yan và Kevin C.C Chang tại SIGMOD’07 [19] đã đưa ra kiến trúc cơ bản của hệ thống tìm kiếm thực thể hình 3.3. Hệ thống được chia thành hai phần: một phần xử lý ngoại tuyến (offline) gồm rút trích thực thể (Entity extraction) và CHƯƠNG 3. XẾP HẠNG TRONG MÁY TÌM KIẾM THỰC THỂ 20 Global Query Processing Ranking Model Keyword&Entity Indexer entity query results, scores Entity Extractor Local Query Local Index Local Index… Processing Local Query Processing … Aggregation Local Index Local Query Processing Sort Merge Join , 05, 71,, 21 62 ddamazon ,...8 0 ,123,, 32# 6dphone ...... Hình 3.3: Kiến trúc hệ thống[19] đánh chỉ mục (indexing) (khối được bao nét đứt), và phần xử lý trực tuyến (online) đó là xếp hạng thực thể (khối bao nét liền Ranking Model). Entity Extraction thực hiện việc rút trích các thực thể từ các trang tài liệu được lấy về. Indexing tạo chỉ mục và chỉ mục ngược của các thực thể được trả về từ mô-dul rút trích trên. Ranking xếp hạng các thực thể, với hai bước chính: cục bộ (locally), và toàn cục CHƯƠNG 3. XẾP HẠNG TRONG MÁY TÌM KIẾM THỰC THỂ 21 (globally). Như kiến trúc được đề cập ở phần trên do T.Cheng, X.Yan và K.Chang [19] đưa ra, modul xếp hạng gồm có hai thành phần chính: xử lý truy vấn cục bộ (local) và xử lý truy vấn toàn cục (global). 1. Xử lý cục bộ: Từ chỉ mục ngược của tất cả các thực thể thuộc kiểu Ei và từ khóa kj, modul thực hiện phép nối trên tài liệu để tìm các tài liệu chứa các thực thể thuộc Ei, và các từ khóa kj thỏa mãn hàm α. Trọng số cục bộ (local score) được xác định dựa vào độ tin cậy của thực thể được rút trích và mối quan hệ ngữ cảnh giữa các thực thể đó với các từ khóa trong từng tài liệu. 2. Xử lý toàn cục: Module thực hiện nhận truy vấn người dùng, gửi truy vấn cho modul xử lý cục bộ, sau đó đợi kết quả trả về từ modul xử lý cục bộ. Sau khi nhận được tất cả các trọng số cục bộ, modul tiến hành tổng hợp trọng số cho từng bộ thực thể t, kết hợp trọng số cục bộ với trọng số xác định cho t trên toàn tập tài liệu để có giá trị Score cuối cùng cho xếp hạng. Trong giới hạn của luận văn này, tôi tập trung phân tích thành phần xếp hạng. Vấn đề xếp hạng thực thể được phân tích ở phần tiếp sau và mô hình áp dụng vào bài toán xếp hạng thực thể thuốc được đề cập. 3.2 Xếp hạng thực thể Máy tìm kiếm thực thể trả về cho người dùng kết quả là danh sách các thực thể. Không chỉ tìm được thực thể mà vấn đề của máy tìm kiếm là những thực thể phù hợp nhất với truy vấn cần được đưa lên từ những kết quả đầu tiên trả về cho người dùng. Do đó xếp hạng thực thể là vấn đề quan trọng, cốt lõi của máy tìm kiếm thực thể. Giả thiết có tập tài liệuD = {d1, d2, ..., dn}, tập các kiểu thực thểE = {E1, ..., EN}, truy vấn q = α(E1, ..., Em, k1, ..., kl) với kj là các từ khóa, và bộ các thực thể t = (e1, ..., em). Khi đó độ phù hợp của t đối với truy vấn q trên tập tài liệu D được CHƯƠNG 3. XẾP HẠNG TRONG MÁY TÌM KIẾM THỰC THỂ 22 xác định bởi: Score(q(t)) = p(q(t)|D) = ∑ d∈D p(d)× p(q(t)|d) (3.1) Với p(q(t)|d) là xác suất xảy ra quan hệ α của t trên tài liệu d. Giá trị của Score(q(t)) được dùng để xếp hạng các bộ kết quả trả về, do đó việc xác định hàm Score(q(t)) là vấn đề quan trọng chúng ta quan tâm. Những đặc điểm của tìm kiếm thực thể có ảnh hưởng tới giá trị xếp hạng Score() đã được đưa ra trong [18]: R-Contextual : Xác suất liên kết giữa thực thể và từ khóa phụ thuộc vào các ngữ cảnh khác nhau và ảnh hưởng bởi hai yếu tố chính: • Pattern: Từ khóa và thực thể có thể liên kết với nhau theo các mẫu, ví dụ: tên thường xuất hiện liền trước số điện thoại. • Proximity: Từ khóa và thực thể có thể xuất hiện nhiều lần trong trang web và không giống nhau, khi chúng càng gần nhau thì mối quan hệ càng có ý nghĩa cao hơn. R-Holistic: Một thực thể có thể xuất hiện cùng với từ khóa nhiều lần trong một trang, do đó cần ước lượng tìm liên kết phù hợp nhất R-Uncertainty: Việc rút trích thực thể không chính xác tuyệt đối, do đó cần có giá trị độ tin cậy tương ứng cho mỗi thực thể. R-Associative: Cần phân biệt liên kết giữa từ khóa và thực thể là liên kết mang ý nghĩa thực hay chỉ là sự xuất hiện ngẫu nhiên giữa chúng. Do đó cần có kiểm định để loại bỏ những liên kết ngẫu nhiên. R-Discriminative: Các thực thể trên các trang phổ biến hơn sẽ được đánh giá cao hơn so với trên trang ít phổ biến hơn. 3.2.1 Mô hình Impression Từ những phân tích về máy tìm kiếm thực thể, nhóm tác giả Tao Cheng[18] đã đưa ra mô hình xếp hạng "Impression Model" hình 3.4. Mô hình gồm 3 tầng: Truy CHƯƠNG 3. XẾP HẠNG TRONG MÁY TÌM KIẾM THỰC THỂ 23 Global Access Layer Local Recognition Layer Global Access Layer Local Recognition Layer Validation Layer Collection E over D Virtual Collection E’ over D’ ... ... ... ... ... ... : ?? : ?? ... ... ... ... ... ... : ?? : ?? ... ... ... ... ... ... : ?? : ?? randomize Hình 3.4: Impression model [18] nhập toàn cục (Global Access), nhận dạng cục bộ (Local Recognition), đánh giá (Validation). Tầng truy nhập Để đảm bảo tính "R-Discriminative" của tìm kiếm thực thể, nhiệm vụ của modul này xác định trọng số toàn cục p(d), là khả năng để một tài liệu d được quan sát, xét tới. Trong ngữ cảnh máy tìm kiếm với các tài liệu web, giá trị này là độ phổ biến của trang web, hay chính là độ quan trọng của trang web - hạng trang. Và do đó tác giả Tao Cheng đã chọn PageRank (PR) [43] để xác định: p(d) = PR[d]. Ta có: Score(q(t)) = ∑ d∈D PR[d]× p(q(t)|d) (3.2) CHƯƠNG 3. XẾP HẠNG TRONG MÁY TÌM KIẾM THỰC THỂ 24 DICLOFENAC Tên gốc: Diclofenac Tên thương mại: VOLTAREN, CATAFLAM, VOLTAREN-XR Nhóm thuốc và cơ chế: Diclofenac là một thuốc chống viêm phi steroid (NSAID) hiệu quả trong điều trị sốt, đau và viêm trong cơ thể. Các NSAID là những thuốc không gây ngủ giảm các chứng đau từ nhẹ đến vừa do nhiều nguyên nhân gây ra, như chấn thương, thống kinh, viêm khớp và các chứng bệnh cơ xương khác. Vì mỗi bệnh nhân có đáp ứng khác nhau với NSAID, O1 O2 . . . Hình 3.5: Ví dụ rút trích thực thể thuốc Tầng nhận dạng Với mỗi tài liệu d được xét ở tầng truy nhập, trọng số cục bộ - xác suất xuất hiện của từng bộ thực thể t = (e1, ..., em) với các từ khóa k = {k1, ..., kl} trong tài liệu đó được xác định bởi p(q(t)|d). Gọi γ = (o1, ..., og) là một quan sát (xuất hiện) của q(t) = α(e1, ..., em, k1, ..., kl) trên d (có g = m + l). Ví dụ: trong hình 3.5 với E = {#drug}, k ="viêm", q = {"viêm"#drug} thì ta có một quan sát γ = (o1, o2). Trong mỗi tài liệu có thể có nhiều quan sát γ (tính chất R-Holistic) và do đó p(q(t)|d) cần được ước lượng trên tất cả các quan sát γ đó, [18] đưa ra công thức ước lượng: p(q(t)|d) = max γ p(α(γ)) (3.3) Với p(α(γ)) là xác suất/khả năng mà một quan sát γ phù hợp với hàm ngữ cảnh α. Tuy nhiên khi được rút trích từ tài liệu d, các quan sát oi biểu diễn một thực thể ei là một thể hiện của kiểu Ei và được xác định với một xác suất p(ei ∈ Ei|d) (tính chất R-Uncertainty). Giá trị này do modul rút trích xác định, và lưu lại trong khi đánh chỉ mục nên có thể được xác định một cách đơn giản bằng ei.conf . Vì vậy, ta có: p(α(γ)) = ∏ ei∈γ ei.conf × pcontext(α(γ) (3.4) CHƯƠNG 3. XẾP HẠNG TRONG MÁY TÌM KIẾM THỰC THỂ 25 Thay vào công thức 3.3 suy ra: p(q(t)|d) = max γ (∏ ei∈γ ei.conf × pcontext(α(γ) ) (3.5) Theo tính chất R-Contextual, độ phù hợp của γ trong ngữ cảnh α phụ thuộc vào hai yếu tố: độ phù hợp mẫu (pattern) gọi là αB và độ gần nhau (proximity) giữa thực thể và từ khóa gọi là αP . Do đó ta có: pcontext(α(γ)) = αB(γ)× αP (γ) • αB là hàm lô-gic trả về giá trị 0 hoặc 1, cho biết quan sát γ với các oi có thỏa mãn ràng buộc về mẫu không. Ví dụ mẫu phrase(o1, ..., om) yêu cầu các oi phải xuất hiện đúng thứ tự như xác định. • αP là xác suất quan sát γ phù hợp với t trong cửa sổ quan sát s. Để đơn giản, trong [18] các tác giả đã sử dụng mô hình Span Proximity để ước lượng xác suất này, và đưa ra công thức: αP (γ) = p(s|γ). Thay vào công thức 3.5 ta được: p(q(t)|d) = max γ (∏ ei∈γ ei.conf × αB(γ)× p(s|γ) ) (3.6) Vậy công thức Score(q(t)) được xác định: Score(q(t)) = ∑ d∈D PR[d]×max γ (∏ ei∈γ ei.conf × αB(γ)× p(s|γ) ) (3.7) Tầng đánh giá Phía bên phải của mô hình (hình 3.4) gọi là một quan sát ảo, tập dữ liệu D′ được lấy ngẫu nhiên từ D để làm đối chứng so sánh những nhận định trên D. Tầng đánh giá kiểm định giả thuyết thống kê, với giả thuyết không H0 (null hypothesis) và G-test theo [18] để đánh giá độ tin cậy thông tin nhận được từ D. Giả thuyết không: giả thiết rằng liên kết giữa các thực thể, từ khóa trong t = (e1, ..., em, k1, ..., kl) xảy ra ngẫu nhiên. Tập D′ được lấy ngẫu nhiên từ tập D, D′ CHƯƠNG 3. XẾP HẠNG TRONG MÁY TÌM KIẾM THỰC THỂ 26 cần "giống" với D ngoại trừ trong D′ liên kết của các từ khóa và các thực thể hoàn toàn là ngẫu nhiên. Xây dựng tập D′ từ D bằng việc tạo các tài liệu d′ ngẫu nhiên: Đưa ngẫu nhiên các thực thể và từ khóa vào d′, mỗi thực thể, từ khóa được đưa vào độc lập, với xác suất giống như xác suất xuất hiện của chúng trong D. Do đó mối liên hệ giữa thực thể và từ khóa là ngẫu nhiên, nhưng vẫn đảm bảo xác suất quan sát một từ khóa, hay thực thể trong D′ cũng giống như trong D: p(ei ∈ d ′) = ∑ ei∈d,d∈D p(d) ; p(kj ∈ d ′) = ∑ kj∈d,d∈D p(d) Do đặc điểm của D′ trên nên giá trị trung bình của độ tin cậy của tất cả các thực thể ej trong D cũng là độ tin cậy của các thực thể ej (xác suất ej là Ej) trong D′: ej .conf . Và ta có nếu q(t) không xuất hiện trong d′ thì p(q(t)|d′) = 0, ngược lại nếu q(t) ∈ d′ thì p(q(t)|d′) là như nhau với mọi d′. Do đó: p(q(t)|D′) = ∑ d′∈D′&q(t)∈d′ p(d′)× p(q(t)|d′) = p(q(t)|d′)× ∑ d′∈D′&q(t)∈d′ p(d′) = p(q(t)|d′)× p(q(t) ∈ d′) (3.8) Trong đó p(q(t) ∈ d′) là xác suất của t xuất hiện trong d′. Do từ khóa và các thực thể được lấy độc lập vào d′ nên xác suất xuất hiện của q(t) trong d′ được tính bởi: p(q(t) ∈ d′) = j=1∏ m p(ej ∈ d ′) l∏ i=1 p(ki ∈ d ′) Tương tự như công thức 3.5, lấy giá trị trung bình ta có: p(q(t)|d′) = ( m∏ j=1 ej.conf)× pcontext(q(t)|d ′) Trong đó, với q(t) ∈ d′, tương tự công thức tính pcontext(q(t)|d) có: pcontext(q(t)|d ′) = p(q(t)|s) Từ đó suy ra: pcontext(q(t)|d ′) = p(q(t)|s) = ∑ s p(q(t)|s) |s| CHƯƠNG 3. XẾP HẠNG TRONG MÁY TÌM KIẾM THỰC THỂ 27 Với |s| là số các giá trị s được xét. Thay các công thức trên vào 3.8 được: p(q(t)|D′) = j=1∏ m p(ej ∈ d ′) l∏ i=1 p(ki ∈ d ′)× × ( m∏ j=1 ej .conf)× ∑ s p(q(t)|s) |s| (3.9) Sử dụng kiểm định giả thiết thống kê G-test so sánh quan sát p0 với ngẫu nhiên pr để kiểm tra quan sát p0 có phải là ngẫu nhiên không: Score(q(t)) = 2(p0 log p0 pr + (1− po) log 1− p0 1− pr ) (3.10) Do p0, pr 1 nên công thức 3.10 có thể ước lượng: Score(q(t)) ∝ p0 log p0 pr Trong đó: p0 = p(q(t)|D) = ∑ d∈D PR(d)×max γ ( ∏ ei∈γ ei.conf × αB(γ)× p(s|γ)) pτ = p(q(t)|D ′) = m∏ j=1 ( ∑ ej∈d,d∈D p(d))× l∏ i=1 ( ∑ ki∈d,d∈D p(d))× × m∏ j=1 ej.conf × ∑ s p(q(t)|s) |s| 3.2.2 Nhận xét, đánh giá mô hình Impression Ưu điểm Với những đặc điểm của tìm kiếm thực thể được phân tích, mô hình Impression đã bám sát và xác định hàm tính hạng Score(q(t)) để đảm bảo các tính chất đó: 1. Tính chất R-Contextual được thể hiện ở các trọng số αB và p(s|γ) 2. Xác định giá trị cực đại theo γ để chọn ra quan sát "phù hợp" nhất (R-Holistic) CHƯƠNG 3. XẾP HẠNG TRONG MÁY TÌM KIẾM THỰC THỂ 28 3. Tính chất R-Uncertainty của việc rút trích các thực thể và đánh giá các thực thể được thể hiện ở trọng số ei.conf 4. Bằng kiểm định giả thiết thống kê trong tầng đánh giá (Validate), tính chất R-Associative được đảm bảo 5. Sử dụng trọng số PR - độ quan trọng/phổ biến của trang web (đảm bảo tính chất R-Discriminative) Đánh giá chất lượng của xếp hạng các bộ thực thể t tìm được, [18] giới thiệu các phương pháp xếp hạng làm đối sánh: • N (Naive): xếp hạng theo phần trăm các tài liệu có chứa t. • L (Local Model Only): xếp hạng dựa theo trọng số cục bộ cao nhất của t trong từng tài liệu. • G (Global Aggregation Only): xếp hạng theo tổng trọng số của các tài liệu có chứa t. Và PR được chọn là trọng số cho mỗi tài liệu. • C (Combination of Local Model and Global Aggregation): xếp hạng theo tổng trọng số cục bộ của t trong tất cả các tài liệu chứa t. • W (EntityRank Without G-test): xếp hạng theo trọng số tổng hợp của Entity Rank nhưng không sử dụng đánh giá G-test (p0). Và theo đánh giá trong [18] (hình 3.6) độ chính xác kết quả xếp hạng của thuật toán EntityRank (xếp hạng với mô hình Impression) có MRR u 0.65 cao hơn gấp nhiều lần những phương pháp xếp hạng đối sánh được đưa ra. Nhược điểm Trong tài liệu d, một thực thể có thể xuất hiện nhiều lần và phù hợp với ngữ cảnh truy vấn (các quan sát γ) theo tính chất R-Holistic. Việc ước lượng với công thức 3.5 chỉ mang ý nghĩa lựa chọn quan sát phù hợp nhất trong tài liệu. Tuy nhiên, ta CHƯƠNG 3. XẾP HẠNG TRONG MÁY TÌM KIẾM THỰC THỂ 29 Measure EntityRank L N G C W M R R 0.648 0.047 0.037 0.050 0.266 0.379 M R R 0.648 0.125 0.106 0.138 0.316 0.387 Query Type I MRR Comparison Measure EntityRank L N G C W M R R 0.659 0.112 0.451 0.053 0.573 0.509 M R R 0.660 0.168 0.454 0.119 0.578 0.520 Query Type II MRR Comparison Hình 3.6: So sánh độ chính xác MRR [18] có thể dễ dàng nhận thấy số lần xuất hiện trong tài liệu của thực thể mà phù hợp ngữ cảnh cũng có một vai trò quan trọng, ảnh hưởng hạng của thực thể. Ví dụ: trong tài liệu trích chọn các thực thể thuốc hình 3.5, với truy vấn q = {"viêm"#drug}. Nếu chỉ xét trên tài liệu này thì một cách trực giác ta thấy các thực thể thuốc nên được xếp hạng {"Diclofenac", "NSAID", "Voltaren", "Catafram","Voltaren-XR","steroid"}. Nếu chỉ dựa vào công thức 3.5, thì rõ ràng ở đây thuốc "steroid" được xếp hạng đầu tiên- như vậy không hợp lý. Thêm nữa, từ bảng so sánh độ chính xác của một số phương pháp xếp hạng hình 3.6, ta dễ dàng nhận thấy độ đo C có ý nghĩa cao hơn hẳn L, tức độ đo dựa vào tổng trọng số cục bộ trong từng tài liệu có ý nghĩa cao hơn lấy trọng số cục bộ cao nhất. 3.2.3 Mô hình đề xuất Mô hình xếp hạng Impression, công thức xác định giá trị để xếp hạng thực thể được đưa ra hoàn toàn dựa vào việc phân tích các đặc điểm và tìm công thức để thỏa mãn các nhận định đó. Tuy nhiên sau khi phân tích nhược điểm ở trên đã cho thấy như vậy là chưa đầy đủ. Học xếp hạng cho ta giải pháp để giải quyết vấn đề, tìm hàm tính hạng "tốt nhất" với các đặc trưng xác định. Qua phân tích các đặc điểm của CHƯƠNG 3. XẾP HẠNG TRONG MÁY TÌM KIẾM THỰC THỂ 30 tìm kiếm để đưa ra các trọng số tương ứng với các đặc trưng của thực thể. Mô hình học xếp hạng thực thể trong máy tìm kiếm thực thể đề xuất hình 3.7. Trong mô Learning Ranking Mô hình ),( tqf ),(, ),(, 22 11 tqft tqft ii ii )1( 2 )1( 1 )1( t t q )( 2 )( 1 )( m m m t t q Truy vấn Dữ liệu học ?),(......, ?),(?),,( 21 nt tt q Hàm th ự c th ể ... .. . ... .. . ... .. . Hình 3.7: Mô hình học xếp hạng trong máy tìm kiếm thực thể hình, thành phần được bao đen là một thành phần xếp hạng trong máy tìm kiếm. Mô-dul học xếp hạng độc lập với phần tìm kiếm, có nhiệm vụ học hàm xếp hạng (có thể chỉ cần một lần) để đưa ra mô hình/hàm xếp hạng phù hợp cho mô-dul xếp hạng của máy tìm kiếm. Dữ liệu học Tập dữ liệu học gồm DT tài liệu- đã xác định các thực thể trong mỗi tài liệu, và tập truy vấn QT . Với mỗi truy vấn q ∈ QT , q = α(e1, ..., em, k1, ..., kl) có danh sách các thực thể (t(1..m)i ) tương ứng phù hợp truy vấn q và được sắp xếp giảm dần độ phù hợp. Mỗi bộ thực thể t có các đặc trưng tương ứng với mỗi truy vấn q, từ những phân tích về máy tìm kiếm thực thể và xếp hạng thực thể, tôi xác định các đặc trưng của thực thể: CHƯƠNG 3. XẾP HẠNG TRONG MÁY TÌM KIẾM THỰC THỂ 31 1. Tỷ lệ trang tài liệu chứa t phù hợp với q: N = |D′| |DT | với ∀d ∈ D′có q(t) ∈ d 2. Tổng trọng số PR của các trang tài liệu chứa t phù hợp với q: G = ∑ d∈DT , q(t)∈d PR[d] 3. Trọng số cục bộ lớn nhất (công thức 3.3) của t với truy vấn q trên tất cả các tài liệu: L = max d∈DT , q(t)∈d max γ∈d p(α(γ)) Với γ là một quan sát của t trên tài liệu d 4. Tổng trọng số cục bộ của t trong tất cả các tài liệu chứa t phù hợp q: SL = ∑ d∈DT , q(t)∈d, γ∈d p(α(γ)) 5. Tổng các tích trọng số cục bộ của t trong từng tài liệu chứa t phù hợp q nhân với PR của tài liệu đó: GL = ∑ d∈DT , q(t)∈d, γ∈d ( p(α(γ))×PR[d] ) 6. Giá trị cực đại của tích trọng số cục bộ của t nhân PR của tài liệu chứa t tương ứng: M = max d∈DT , q(t)∈d, γ∈d ( p(α(γ))×PR[d] ) Trong các công thức trên, p(α(γ)) là trọng số cục bộ của thực thể t ứng với quan sát γ trong tài liệu d đang xét. Với các phạm vi (domain ) tìm kiếm thực thể khác nhau, giá trị trọng số cục bộ có thể được thay đổi phù hợp. Thực nghiệm với domain cụ thể dưới đây, tôi sẽ đưa ra cách tính cho đại lượng này. CHƯƠNG 3. XẾP HẠNG TRONG MÁY TÌM KIẾM THỰC THỂ 32 3.3 Thực nghiệm Hiện nay, đang có một dự án nghiên cứu xây dựng "hệ theo dõi sức khỏe toàn cầu" mang tên BioCaster∗ giúp tìm kiếm những thông tin về y-sinh học một cách chính xác hơn các máy tìm kiếm thông thường. Điều đó cho thấy việc xây dựng hệ tìm kiếm y tế đang rất được quan tâm. Tiếp cận vấn đề thời sự về xếp hạng thực thể và tìm kiếm y tế, tôi tiến hành thử nghiệm mô hình xếp hạng thực thể của mình vào máy tìm kiếm trong lĩnh vực y tế tiếng Việt, mà cụ thể là tìm kiếm thực thể thuốc. Vấn đề rút trích thực thể không nằm trong phạm vi của luận văn này, với thử nghiệm của mình, khi khảo sát dữ liệu, tôi đưa ra cách xác định thực thể thuốc đơn giản như sau: • Thực thể thuốc trên trang web tiếng Việt: tên thuốc thường là tiếng Anh, ngoại trừ tên các nước, tên viết tắt của doanh nghiệp (tuân theo một số mẫu xác định, ví dụ: "Rottapharm., Ltd", "dược phẩm Hà Nội HAPHARCO"). • Một thực thể đã được xác định là thuốc thì chắc chắn đó là thuốc. Như mô hình đã đưa ra, trọng số cục bộ của một quan sát γ trên d cần được xác định. Với quan nhận định: mối liên kết giữa thực thể và từ khóa ngữ cảnh càng khăng khít khi chúng càng gần nhau, nên trọng số cục bộ được xách định: p(α(γ)) = 1 Sγ Với Sγ là kích thước của đoạn tài liệu bao quan sát γ, ví dụ hình 3.8. 3.3.1 Công cụ sử dụng Các chương trình phần mềm mã mở đã được sử dụng trong thực nghiệm này: SVMmap† là công cụ (tool) học giám sát với tối ưu MAP để học xếp hạng tài liệu. Trong thực nghiệm tôi sử dụng công cụ này áp dụng vào học mô hình xếp hạng thực thể. ∗ † CHƯƠNG 3. XẾP HẠNG TRONG MÁY TÌM KIẾM THỰC THỂ 33 Tài liệu: d = “Desipramin1 là2 thuốc3 được4 dùng5 điều6 trị7 trầm8 cảm9” Truy vấn: q=("trầm cảm" #drug) Với quan sát: γ=(o1,o2) thì o1 o2 Hình 3.8: Ví dụ xác định trọng số cục bộ p(α(γ)) Lucene‡ là một máy tìm kiếm văn bản (text) mã mở được lựa chọn để tiến hành cài đặt các modul: • Rút trích thực thể thuốc • Đánh chỉ mục (index) thực thể • Xếp hạng thực thể thuốc 3.3.2 Dữ liệu Dữ liệu tìm kiếm Tiến hành thu thập (crawl) các trang web về y tế tiếng Việt, từ nguồn của 10 web site (phụ lục A.1) • Tổng số trang web tiếng Việt được crawl và index: 6217 trang (không index những trang web có nội dung quá ngắn- dưới 20 từ, và các trang web chỉ chứa liên kết) • Kích thước dữ liệu: sấp xỉ 180MB • Số thể hiện của thực thể thuốc được index: 14794 ‡ CHƯƠNG 3. XẾP HẠNG TRONG MÁY TÌM KIẾM THỰC THỂ 34 Các mẫu truy vấn được sử dụng 1. q=(context #drug): Tìm thực thể thuốc với ngữ cảnh context mà truy vấn xác định. 2. q=(context #drug=[Thuoc] #drug): Tìm thực thể thuốc có quan hệ với thực thể thuốc Thuoc trong ngữ cảnh context được xác định trong truy vấn. Xây dựng tập dữ liệu học đưa vào mô-dul học hàm tính hạng Tạo 5 truy vấn cho mỗi mẫu truy vấn trên, với mỗi truy vấn xác định 10 thực thể trả về đầu tiên tương ứng và sắp xếp theo độ phù hợp giảm dần. Khi tìm kiếm người dùng quan tâm tới các kết quả trả về đầu tiên, việc xếp hạng đúng các thực thể vào 10 kết quả đầu tiên quan trọng hơn việc các xếp hạng sau đó. Do giới hạn thời gian làm thực nghiệm, nên tôi chỉ xây dựng tập dữ liệu học với 10 thực thể xếp hạng đầu tiên cho mỗi truy vấn. Cách xác định 10 thực thể đầu tiên: • Tìm kiếm thực thể với mô hình xếp hạng Impression (Cài đặt Impression với hàm p(s|γ) = 1 s ) để tìm các thực thể với các trang chứa thực thể tương ứng • Tìm kiếm thuốc với máy tìm kiếm thông thường (cài đặt Lucene với hàm xếp hạng BM25[63]) có được các trang tốt nhất theo đánh giá BM25. • Từ 2 kết quả trên, lựa chọn 10 thực thể tốt nhất và sắp xếp để được kết quả trả về "đúng" cần có. 3.3.3 Kết quả và đánh giá Kết quả có hàm tính hạng: rf(t) = 0.0010×N + 0.0011×G + 0.0120× L+ + 0.3305× SL+ 0.2953×GL + 0.3601×M CHƯƠNG 3. XẾP HẠNG TRONG MÁY TÌM KIẾM THỰC THỂ 35 Bảng 3.2: So sánh MRR, MAP của BM25, Impression, LTR Phương pháp BM25 Impression LTR MRR 0.283 0.767 0.800 MAP 0.275 0.651 0.705 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 2 3 4 5 A v e ra g e P re ce si o n Query BM25 ER LTR Hình 3.9: So sánh độ chính xác trung bình AP trên 5 query Từ hàm tính hạng trên, cho ta thấy vai trò quan trọng của trọng số: M, SL và GL. Trọng số N, G ít quan trọng nhất, có thể bỏ qua - do giá trị N, G thường rất nhỏ, mà hệ số lại nhỏ nên thành phần đó không có ảnh hưởng lớn tới kết quả xếp hạng. Và trọng số L (cực đại trọng số cục bộ) có ít giá trị hơn trọng số SL (tổng trọng số cục bộ) Áp dụng hàm tính hạng vào mô-dul xếp hạng thực thể trong máy tìm kiếm, thực hiện tìm kiếm trên 5 query khác nhau để đánh giá. Bảng 3.2 so sánh MRR và MAP của ba phương pháp sử dụng Okapi BM25 để xếp hạng, với mô hình Impression của EntityRank trong phần trước và với mô hình học xếp hạng (gọi tắt LTR: Learn To Rank). Các nhận xét: • LTR và Impression có MRR, MAP hơn hẳn BM25, cho thấy việc tìm kiếm CHƯƠNG 3. XẾP HẠNG TRONG MÁY TÌM KIẾM THỰC THỂ 36 thực thể trả lại kết quả tốt hơn cho người dùng. • MRR của LTR là 0.8 cao hơn của mô hình Impression bằng 0.767 (+0.023) chứng tỏ kết quả đúng đầu tiên của LTR trả về xuất hiện ở thứ hạng tốt hơn (thấp hơn) của Impression. • So sánh MAP cho thấy độ chính xác trung bình của LTR cũng cao hơn của Impression (+0.054). • Biểu đồ so sánh chi tiết độ chính xác trung bình AP trên từng truy vấn (hình 3.9) càng cho ta khẳng định phương pháp LTR đã học hàm tính hạng thực thể hiệu quả. 3.4 Tổng kết chương Qua phân tích một mô hình xếp hạng thực thể trong máy tìm kiếm thực thể [17, 18, 19], và học xếp hạng để học hàm tính hạng thực thể hiệu quả trên lĩnh vực tìm kiếm thực thể thuốc. Các kết quả thu được đã chứng minh vai trò và hiệu quả của học xếp hạng áp dụng vào máy tìm kiếm. C h ư ơ n g 4 Tạo nhãn cụm tài liệu Chương này giới thiệu các phương pháp tạo nhãn cụm tài liệu, và tự động tạo nhãn cho cây phân cấp tài liệu. 4.1 Giới thiệu Máy tìm kiếm ngày nay được sử dụng rộng rãi và trở thành một công cụ không thể thiếu của người dùng khi tìm kiếm thông tin trên môi trường web. Kết quả trả về của máy tìm kiếm cho mỗi truy vấn thường rất lớn (từ vài nghìn tới hàng triệu kết quả). Với cùng truy vấn nhưng mỗi người dùng khác nhau có thể có mong muốn khác nhau, ví dụ khi tìm kiếm "phân cụm" (cluster) có người quan tâm tới các phương pháp và thuật toán phân cụm nhưng có người lại quan tâm tới tính toán cụm. Để nâng cao chất lượng của máy tìm kiếm và giúp định hướng chủ đề cho người dùng, một nhu cầu đặt ra đó là phân cụm kết quả trả về của máy tìm kiếm 37 CHƯƠNG 4. TẠO NHÃN CỤM TÀI LIỆU 38 giống như Vivisimo∗ hay Carrot†. Phân cụm không phải là lĩnh vực mới nhưng vấn đề phân cụm các kết quả trả về từ máy tìm kiếm được nhiều nhà khoa học quan tâm trong những năm gần đây, với các nghiên cứu về phân cụm để cải tiến chất lượng tìm kiếm web [65, 41, 31, 28, 27, 67]. Kết quả trả về của máy tìm kiếm được phân thành các tập nhỏ hơn, mỗi cụm này bao gồm các tài liệu tương tự nhau, khi đó các tài liệu trong một cụm sẽ cùng hướng tới một chủ đề chung nào đó. Mỗi cụm cần được tạo nhãn chủ đề giúp định hướng nội dung cho người dùng về các tài liệu thuộc cụm đó. Do đó việc tạo nhãn cho cụm tài liệu là một bài toán quan trọng, và nó cũng thể hiện chất lượng phân cụm tài liệu. Vấn đề tạo nhãn cho cụm tài liệu cũng được nhiều nhà khoa học [28, 42, 39, 38, 65, 5] quan tâm. Không chỉ tạo nhãn cho các kết quả trả về từ máy tìm kiếm, vấn đề tạo nhãn có thể được áp dụng để tạo nên các danh bạ web (Web directory) như Dmoz của ODP∗ hay Yahoo!Directory† mà hiện nay trong tiếng Việt có Zing‡ đang phát triển một danh bạ web. Và các trang web cũng thường được phân loại (category) và tổ chức thành cấu trúc cây phân loại như các trang tin tức (vietnamnet, vnexpress). Tất cả đều được tổ chức dạng cấu trúc cây phân cấp gọi là cây phân cấp chủ đề. Cách tổ chức dạng cây phân cấp khá phổ biến bởi nó biểu diễn thông tin ở các mức chi tiết khác nhau: từ đỉnh của cây càng đi xuống sâu hơn càng nhận được thông tin chi tiết hơn về chủ đề riêng giúp người dùng tiếp cận thông tin có định hướng và dễ dàng hơn. Mỗi đỉnh của cây phân cấp có một tập các tài liệu và có nhãn tương ứng về chủ để các tài liệu đó (cụm tài liệu). Ví dụ của báo vnexpress có: mục "Văn hóa" chứa các mục con "âm nhạc", "thời trang", "điện ảnh",... Mục tiêu của phân cấp tài liệu là để cải thiện khả năng cho người dùng hiển thị thông tin, vì vậy một cây tốt cần có mô tả tốt - tức có nhãn cụm tài liệu ở các đỉnh tốt. Dmoz[25] là cây phân cấp chủ đề Web lớn nhất đã được xây dựng và được tổ chức theo từng ngôn ngữ khác nhau Anh, Pháp, Nhật, Trung Quốc, Hàn Quốc,...chưa ∗http:/vivisimo.com † ∗ † ‡ CHƯƠNG 4. TẠO NHÃN CỤM TÀI LIỆU 39 có tiếng Việt. Dmoz cung cấp cấu trúc phân cấp chủ đề cho các trang Web từ tổng quát tới chi tiết và được sử dụng trong tìm kiếm nâng cao của Google. Nhu cầu xây dựng cây phân cấp chủ đề Web tiếng Việt được đặt ra, nhằm mục đích hỗ trợ người dùng việc tìm kiếm theo từng chủ đề. Và Zing!Directory là một cây phân cấp chủ đề Web tiếng Việt đang được xây dựng. Với sự phát triển của các danh bạ web (tiếng Anh), C.Yang và J.Lin [60] năm 2007, T.C. Wu và W.L. Hsu [57] năm 2006 đã đưa ra hướng tích hợp các danh bạ web có sẵn để tạo một cây phân cấp chủ đề duy nhất, hỗ trợ người dùng tìm kiếm thông tin từ nhiều nguồn khác nhau. Kỹ thuật tích hợp cho phép mở rộng, sửa đổi cây phân loại bằng cách học cách tổ chức các tài liệu từ các cây nguồn để tạo cây mới [60], và dựa vào mô hình trường ngẫu nhiên (CRFs: Conditional Random Fields)[57]. Trong tiếng Việt, danh bạ web của trang tin tức việt nam§ là danh bạ trang web của các tổ chức đã đăng ký, hoạt động trong các lĩnh vực khác nhau và được cấu trúc dạng cây phân cấp chủ đề nhưng mới chỉ có chủ đề tới mức 3. Hay một số danh bạ web tiếng Việt khác như vnn777.com hướng các chủ đề về tin tức và giải trí, và các danh bạ đó chỉ có phân cấp cao nhất tới mức 3. Nên không đặt vấn đề tích hợp các danh bạ web cho tiếng Việt. Một câu hỏi đưa ra: làm thế nào tạo cây phân cấp chủ đề cho các trang web tiếng Việt giống như Dmoz? Qua các phân tích về phân cụm và tạo nhãn cụm tài liệu, một phương pháp khả thi đó là phân cụm phân cấp các trang web [1], sau đó xác định chủ đề cho từng cụm ở mỗi cấp. Vấn đề tạo nhãn cụm tài liệu có vai quan trọng trong cả bài toán phân cụm kết quả trả về của máy tìm kiếm và xây dựng cây phân cấp chủ đề. Nghiên cứu và đưa ra mô hình học tạo nhãn cho cụm tài liệu được đề cập trong các phần tiếp theo. 4.2 Phương pháp lựa chọn nhãn Trong tạo nhãn cụm phân cấp, giả thiết đã có sẵn một cây phân cấp tốt các cụm tài liệu và cần tạo mô tả tốt cho mỗi cụm tài liệu trên cây gọi là nhãn cụm. Nhãn cụm §httt://tintuc.vnn.vn/danhbaweb CHƯƠNG 4. TẠO NHÃN CỤM TÀI LIỆU 40 có thể là cụm từ hoặc danh sách các từ, cụm từ nói lên chủ đề chung của cụm, ví dụ: cụm các tài liệu về xử lý ngôn ngữ tự nhiên có nhãn "xử lý ngôn ngữ tự nhiên" hoặc danh sách cụm từ "thẻ, ngôn ngữ, từ vựng, tạo nhãn, từ, cấu trúc, ngữ pháp". Danh sách các cụm từ thường ít hữu dụng hơn là một nhãn chủ đề bởi nó yêu cầu người dùng phải tự xác định khái niệm tương ứng. Tuy nhiên danh sách các cụm từ là lựa chọn phổ biến cho tạo nhãn tự động các cụm theo [53, 65, 42, 28]. Khái niệm nhãn cụm tốt: ko chỉ mô tả chủ đề chính được đề cập trong cụm các tài liệu mà còn phân biệt cụm đó với các cụm cùng cấp và cụm cha. Xác định nhãn duy nhất tốt cho một cụm tức chọn một từ/cụm từ xuất hiện trong các tài liệu thuộc cụm có ý nghĩa bao quát nội dung cho cụm đó là việc khó khả thi. Một ví dụ đơn giản như đã đưa ra ở trên: một cụm các tài liệu về xử lý ngôn ngữ tự nhiên, nhãn tốt cho cụm là "xử lý ngôn ngữ tự nhiên". Nhưng có thể trong các tài liệu thuộc cụm không tài liệu có chính xác cụm từ này, trong khi dễ dàng thấy sự xuất hiện nhiều của các từ "ngôn ngữ, từ vựng, corpus, tạo nhãn, cấu trúc, ngữ pháp". Do vậy nhãn được tạo thường là danh sách các từ có khả năng làm nhãn cao được lựa chọn. Tuy nhiên, số lượng nhãn khả năng được lựa chọn cần vừa đủ, vì nếu quá nhiều sẽ gây nhiễu, khó hiểu cho người dùng nhưng nếu quá ít (ví dụ một từ "cấu trúc"), nhãn trở thành trừu tượng và cũng khó hiểu với người dùng. P.Treeratpituk và J.Callan [53] đưa ra phương pháp xác định nhãn cho mỗi cụm: là danh sách các nhãn khả năng được xếp hạng theo độ phù hợp với cụm và đưa ra cách xác định số lượng nhãn phù hợp vì danh sách nhãn này nên ngắn nhất có thể để mô tả chủ đề của cụm. Vì vậy tạo nhãn cụm tài liệu là xác định các nhãn khả năng và xếp hạng chúng theo độ phù hợp làm nhãn cho cụm giảm dần. Sau đó chọn một số lượng nhất định nhãn khả năng đầu tiên làm nhãn cho cụm tài liệu đó. Theo [53], Popescul sử dụng phương pháp thống kê để lựa chọn nhãn dựa trên ngữ cảnh của các cụm liên quan (cụm cha và các cụm con cùng cấp): loại bỏ các cụm từ có xác suất xuất hiện như nhau ở các cụm khác nhau. Do đó các từ đồng thời xuất hiện ở nhiều cụm không được lựa chọn làm nhãn, tránh trường hợp nhãn quá tổng quát. Và Glover [29] phân tích tần số xuất hiện của các từ đơn có thể dự đoán nhãn cho các cụm, với nhận định một từ phổ biết trong cụm và ít quan hệ với CHƯƠNG 4. TẠO NHÃN CỤM TÀI LIỆU 41 các cụm khác thì là đặc trưng tốt cho cụm. Các từ/cụm từ (gọi chung là cụm từ) được ứng cử làm nhãn cụm được chọn dựa vào tiêu chuẩn: Candidates = { p ∣∣DFC |C| < maxColPos & DFS |S| > minSelfPos } Trong đó: • DFC : số tài liệu trong cả tất cả các cụm tài liệu mà chứa cụm từ p • DFS: số tài liệu trong cụm đang xét có chứa cụm từ p • |C|, |S|: lần lượt số tài liệu của tất cả các cụm và của cụm đang xét. • maxColPos, minSelfPos : ngưỡng tần suất xuất hiện lớn nhất, nhỏ nhất của các nhãn được chọn. Những từ được chọn để có thể làm nhãn có tính chất xuất hiện hơn minSelPos lần, và nhỏ hơn maxColPos lần ở mỗi tài liệu trong cụm. Sau đó các nhãn khả năng p này được xếp hạng theo DFS. Phương pháp của Glover đơn giản nhưng còn hạn chế: cần xác định giá trị ngưỡng và tối ưu ngưỡng đó cho mọi cụm, khi xếp hạng dựa theo DFS dễ dàng thấy các từ đơn thường có hạng tốt hơn trong khi các cụm từ thường mang ý nghĩa cao hơn khi làm nhãn. Filippo Geraci và các cộng sự [28] sử dụng độ đo Information Gain để chọn các từ "giàu thông tin nhất" trong cụm làm nhãn. Dawn.J.Lawrie và W.Bruce Croft [39] xây dựng mô hình thống kê để xác định các từ chủ đề cho mỗi cụm (dùng độ đo Kullback–Leibler). Các phương pháp này dựa vào phân phối của các từ, cụm từ trên các cụm để lựa chọn các nhãn ứng viên cho mỗi cụm. P.Treeratpituk và J.Callan [52] đã đưa ra thuật toán tự động tạo nhãn cụm tài liệu dựa vào học xếp hạng, và trong phương pháp phân cụm của H.Zeng và Q.He [65] cũng sử dụng học xếp hạng các cụm từ làm nhãn. CHƯƠNG 4. TẠO NHÃN CỤM TÀI LIỆU 42 4.3 Học xếp hạng nhãn cụm Nhãn của cụm tài liệu là các từ, cụm từ được xác định từ các tài liệu thuộc cụm. Tất cả các từ, cụm từ đều có khả năng làm nhãn, cần tìm nhãn tốt nhất có thể, đó là bài toán xếp hạng nhãn cụm. Với S là cụm đang xét, có cụm cha là P: bao gồm tất cả tài liệu của cụm S và các cụm cùng cấp với S, thuật toán chọn nhãn cho cụm S được P.Treeratpituk và J.Callan trong [52] đưa ra gồm 4 bước như sau: 1. Thống kê tất cả các cụm từ: 1-3 gram (gram trong tiếng Việt có thể hiểu là tiếng) trong cụm S, tính tần số xuất hiện của cụm từ trong mỗi tài liệu, trong cụm đang xét, cụm cha và trên tập dữ liệu chung (corpus E). 2. Chọn các nhãn khả năng: Chọn tập ứng cử từ các cụm trên dựa vào tần số xuất hiện của tài liệu trong cụm và trong ngôn ngữ. 3. Tính trọng số DScore cho mỗi ứng cử làm nhãn trên và sắp xếp theo trọng số đó. 4. Tính điểm cắt: Quyết định bao nhiêu ứng cử được chọn dựa trên DScore. Với mỗi cụm từ p, và cụm tài liệu C, ký hiệu DFC là số tài liệu trong cụm C có chứa cụm từ p, và TFC là số lần xuất hiện của p trong tất cả các tài liệu của cụm C. Ngoài ra, các tác giả còn dựa vào một tập dữ liệu chung (corpus E) để xác định độ phổ biến của các cụm từ trong ngôn ngữ đang xét (tiếng Anh), những từ xuất hiện với tần suất hơn 20% trong E gọi là từ dừng và sẽ không được xét làm nhãn. Không phải tất cả các cụm từ đều được chọn, chỉ những từ 1-gram xuất hiện ở ít nhất 20% tài liệu trong cụm và những từ 2,3-gram xuất hiện ở ít nhất 5% tài liệu trong cụm mới được coi là mô tả tốt và được chọn là nhãn ứng viên. 4.3.1 Các đặc trưng Hàm xếp hạng có ý nghĩa xác định khả năng là một nhãn của cụm từ với một cụm tài liệu xác định, và là một hàm của các đặc trưng của cụm từ. Với mỗi cụm từ p, CHƯƠNG 4. TẠO NHÃN CỤM TÀI LIỆU 43 P.Treeratpituk và J.Callan [52] xác định các đặc trưng: nDFC tỷ lệ của số tài liệu trong cụm C chứa cụm từ trên tổng số tài liệu trong cụm C đó. Một cụm từ có khả năng mô tả tốt nếu xảy ra tương đối thường xuyên ở cụm cha P nhưng rất thường xuyên ở cụm đang xét S. nDFC = DFC |C| TFIDF là độ đo tương tự của tích tần số và nghịch đảo tần số xuất hiện được xác định bởi công thức: TFIDFC = TFC ∗ log |C| DFC r(TFIDF), r(nDF) thứ hạng của TFIDF, nDF trong sắp xếp giảm dần. Sử dụng r(TFIDF), r(nDF) có thể đem lại ý nghĩa cao hơn khi so sánh các giá trị thực TFIDF, nDF. Boost Rank nDF : độ đo về tính gia tăng của nDF . Một mô tả tốt cần có nDFP khá cao, nDFS cao hơn. Để xác định tính chất này sử dụng độ đo về tính gia tăng log[r(DFp/|p|]− log[r(DFs/|S|)] Công thức trên xác định độ thay đổi hạng nDF của cụm từ ở cụm cha với cụm đang xét, và hạng nDF được tính log bởi những thay đổi thứ hạng càng ở phần đầu (top rank) thì càng có ý nghĩa. Ví dụ: một nhãn mà thay đổi từ thứ hạng thứ 200 trong cụm cha tới thứ 100 trong cụm con thì khả năng mô tả ít hơn nhãn có thứ hạng 100 ở cụm cha và thứ hạng ở cụm con là 5. Boost Rank TFIDF độ đo về tính gia tăng của TFIDF . Một cụm từ là mô tả tốt thì cần có thứ hạng TFIDF cao hơn trong cụm con so với ở cụm cha. Độ đo được xác định: log[r(TFIDFp)]− log[r(TFIDFs)] LEN độ dài của cụm từ p. LEN càng lớn càng tốt, do ưu tiên các cụm từ dài hơn làm nhãn. CHƯƠNG 4. TẠO NHÃN CỤM TÀI LIỆU 44 H.Zeng và Q.He [65] cũng chọn độ đo TFIDF và LEN như P.Treeratpituk và J.Callan đã đưa ra làm các đặc trưng của cụm từ, và ngoài ra còn có một số đặc trưng về xác định cụm như độ co cụm của các tài liệu chứa cụm từ (Intra-cluster similarity ICS). Do H.Zeng và Q.He sử dụng phương pháp xếp hạng cụm từ để tiến hành phân cụm tài liệu nên đã sử dụng các độ đo đó để xác định các tài liệu thuộc cùng cụm. Và trong ngữ cảnh của chúng ta, không cần thiết xét tới các độ đo cụm đó. Kết hợp giá trị các đặc trưng bằng hàm tuyến tính gọi là hàm DScore- mô tả một cụm từ có khả năng tạo nhãn cho cụm S như thế nào với cụm cha P theo công thức: DScorep = m∑ i=1 (αi × fi(p)) + α0 Với fi(p) là đặc trưng thứ i của cụm từ p, m là số đặc trưng. Sau đó các nhãn được sắp xếp theo DScore nên được gọi là hàm tính hạng. 4.3.2 Học hàm tính hạng Hàm DScore với các trọng số αi của các đặc trưng được P.Treeratpituk và J.Callan ước lượng dựa vào phương pháp quy hồi tuyến tính. Ước lượng DScore∗ của nhãn L được xác định dựa vào việc so sánh độ tương đồng của nhãn đó với nhãn đúng CL đã được cho trong dữ liệu học, DScore∗ được tính bỏi ước lượng nhãn L với nhãn đúng là CL: DScore∗L = max SL∈Synonym(L) overlap(SL,CL) max (len(SL), len(CL)) Trong đó, overlap(SL,CL) là số các từ mà xuất hiện trong cả SL và CL, và len(x) là độ dài của x, Synonym(L) là hàm xác định các cụm từ đồng nghĩa với L. Nếu nhãn được chọn đồng nghĩa của nhãn đúng thì DScore=1 và ngược lại DScore =0. Mỗi cụm được xác định một nhãn đúng duy nhất CL, trong khi thực tế có thể có một số nhãn cùng tốt như nhau. Để xử lý trường hợp này, hàm ước lượng đã sử dụng hàm xác định từ đồng nghĩa, để xác định các nhãn tốt là các nhãn đồng nghĩa với nhãn đúng. Tuy nhiên vẫn còn nhiều trường hợp lỗi- nhãn tốt có DScore = 0, ví CHƯƠNG 4. TẠO NHÃN CỤM TÀI LIỆU 45 dụ: cụm tài liệu có nhãn đúng "cardiovascular disorder" (rối loạn tim), thuật toán đưa ra các nhãn cho cụm là "heart" và "heart disease" (bệnh tim). Với chúng ta, trong trường hợp này nhãn "heart" và "heart disease" là hoàn toàn phù hợp nhưng với đánh giá tự động trên thì nhãn này bị bỏ qua bởi "cardiovascular" và "heart" không thực sự đồng nghĩa. Phương pháp học hàm xếp hạng RankingSVM[34] được tôi lựa chọn học hàm xếp hạng nhãn tài liệu. Đây là phương pháp học ghép cặp, dữ liệu học các đối tượng là nhãn cần được sắp xếp theo độ phù hợp giảm dần. Số lượng cụm từ được chọn làm nhãn cho cụm chỉ nên có từ 3 tới 5 cụm từ được xác định trong [52, 28] nên dữ liệu học: mỗi cụm tài liệu với các nhãn ứng viên được sắp xếp theo độ phù hợp giảm dần. Đặc biệt cần đảm bảo 5 nhãn đầu tiên là 5 nhãn tốt nhất và thứ tự sắp xếp 5 nhãn này có thể chỉ là tương đối - khi các nhãn đều phù hợp làm nhãn tốt nhất ví dụ: "giáo dục" với "dạy học" hay "công nghệ", "thông tin" và "tin học". 4.4 Thực nghiệm 4.4.1 Nguồn dữ liệu Trên wikipedia tiếng Việt¶ các trang web được xác định chủ đề, và mỗi chủ đề có trang web tương ứng tên chủ đề chứa thông tin các chủ đề con của chủ đề đó nếu có. Ví dụ: chủ đề "dược khoa" gồm có các chủ đề con ("dược phẩm", "dược điển", "công ty dược"). Do đó ta dễ dàng xây dựng cấu trúc phân cấp chủ đề của các trang web trên wikipedia. Mỗi chủ đề được coi là một cụm các tài liệu thuộc chủ đề đó. Tiến hành thu thập (crawl) các trang web của wikipedia tiếng Việt: • 5280 trang web • 15 chủ đề mức 1 (mức 0 là gốc) • 870 chủ đề các mức ¶ CHƯƠNG 4. TẠO NHÃN CỤM TÀI LIỆU 46 • Độ sâu phân cấp cây chủ đề: 5 mức (ví dụ: 1. Địa chất học | 2. Niên đại địa chất| 3. Liên đại Hiển Sinh | 4. Đại Cổ Sinh | 5. Kỷ Cambri) Các trang web được lọc bỏ thẻ html, lấy nội dung chính và cho đi qua modul thống kê ngram [32] (thực hiện thống kê 1-gram, 2-gram, 3-gram). 4.4.2 Dữ liệu học Lấy một phần dữ liệu cây phân cấp chủ đề của wikipedia trên để tạo nhãn cho các cụm (dựa trên chủ đề của cụm được wiki xác định): 1. Các cụm có chủ đề rõ ràng dễ phân tách- các chủ đề mức 1 của cây phân cấp chủ đề của wikipedia: 232 trang web, 8 cụm mức 1 và 5 cụm mức 2 (bảng A.1). 2. Các cụm chủ đề gần nhau ở mức 2 của cây phân cấp wikipedia: chủ đề giáo dục gồm 6 cụm con và 75 trang web (bảng A.2). 3. Các cụm thuộc chủ đề "động vật học" được chọn làm dữ liệu đánh giá: động vật học gồm 8 cụm con và 76 trang web (bảng A.3). Mỗi cụm trong dữ liệu học được xác định danh sách các nhãn ứng viên (có khả năng làm nhãn) dựa vào giới hạn nDFC lớn hơn 20%. Tuy nhiên do một số cụm trong wiki có số lượng tài liệu ít (nhỏ hơn 10), khi đó nDFC được xác định phải lớn hơn 40% Sau khi có danh sách nhãn ứng viên, tiến hành sắp xếp các nhãn ứng viên theo độ phù hợp giảm dần (đặc biệt quan trọng cần xác định 5 nhãn đầu tiên tốt nhất), rồi thực hiện tính các giá trị đặc trưng để tạo dữ liệu học đưa vào mô-dul học hàm xếp hạng của SVM light ‖. ‖ CHƯƠNG 4. TẠO NHÃN CỤM TÀI LIỆU 47 Các đặc trưng được xác định đưa vào hàm học lần lượt: f1 = LEN f2 = r(nDFS) f3 = r(nDFP ) f4 = r(TFIDFS) f5 = r(TFIDFP ) f6 = log(r(nDFP )− log(r(nDFS)) f7 = log(r(TFIDFP )− log(r(TFIDFS)) Trong thực nghiệm, P.Treeratpituk và J.Callan chỉ sử dụng 6 đặc trưng f2 tới f7, và bỏ qua một đặc trưng rất quan trọng là độ dài LEN của cụm từ được chọn. 4.4.3 Kết quả và đánh giá Hàm xếp hạng thu được: RF (p) = 0.0150× LEN(p)+ + 0.0210× r(nDFS)+ − 0.0011× r(nDFP )+ + 0.2470× r(TFIDFS)+ − 0.0524× r(TFIDFP )+ + 0.1932× [log(r(nDFP )− log(r(nDFS))]+ + 0.5713× [log(r(TFIDFP )− log(r(TFIDFS))] Sau khi có được hàm xếp hạng, tiến hành tạo nhãn cho cụm dữ liệu kiểm tra (chủ đề "động vật"). Kết quả tạo nhãn cụm tài liệu được tiến hành đánh giá so sánh với phương pháp của Glover (chỉ dựa vào xác định ngưỡng tần suất xuất hiện) đã được trình bày ở trên. Các độ đo đánh giá chất lượng tạo nhãn: • Match@N: số nhãn đúng ở N nhãn đầu tiên CHƯƠNG 4. TẠO NHÃN CỤM TÀI LIỆU 48 • MRR: Là trung bình của nghịch đảo thứ hạng nhãn đúng đầu tiên. • MTRR: Nếu có hơn một nhãn đúng, MTRR là trung bình của tổng nghịch đảo thứ hạng của tất cả nhãn đúng. Bảng 4.1 so sánh độ đo MRR và MTRR giữa phương pháp của Glover và phương pháp sử dụng hàm RF(p), cho thấy với hàm RF kết quả xếp hạng cụm từ để tạo nhãn có chất lượng tốt hơn. Với MRR, MTRR cao hơn chứng tỏ các nhãn đúng xuất hiện ở thứ hạng nhỏ hơn (ở hạng đầu). Bảng 4.2 so sánh về số nhãn trung bình Bảng 4.1: So sánh MRR, MTRR MRR MTRR Glover 0.51 0.57 RF 0.69 0.90 phù hợp ở N hạng đầu tiên, cho thấy các nhãn đúng thường được xác định ở hạng 1, 2. Với kết quả này cho thấy hiệu quả của việc học hàm xếp hạng, cho chúng ta Bảng 4.2: So sánh Match@N Match@N N=1 N=2 N=3 N=4 Glover 0.29 0.43 0.57 1.00 RF 0.43 1.00 1.00 1.00 hàm xết hạng tốt hơn. 4.5 Tổng kết chương Xếp hạng các nhãn ứng viên để tạo nhãn cụm tài liệu là một trong các ứng dụng của học xếp hạng đối tượng, cụ thể đối tượng ở đây là "nhãn" của cụm tài liệu. Với kết quả đạt được của chất lượng tạo nhãn, cho ta cơ sở để xây dựng cây phân cấp chủ đề web cho các trang web tiếng Việt một cách tự động. KẾT LUẬN Học xếp hạng là một lĩnh vực đang rất được quan tâm. Vấn đề xác định hạng của các đối tượng mà cụ thể trong máy tìm kiếm là các trang web và các thực thể có một vai trò quan trọng bởi nó giúp định hướng, chỉ dẫn người dùng đến với những thông tin phù hợp theo nhu cầu. Bên cạnh đó cùng sự phát triển của các phương pháp phân cụm, đặt ra vấn đề gán nhãn cụm tài liệu nhằm hỗ trợ người dùng tiếp cận kết quả phân cụm và định hướng tạo cây phân cấp chủ đề web tiếng Việt. Luận văn này đã tiếp cận vấn đề học xếp hạng và nghiên cứu, đưa ra mô hình, áp dụng vào máy tìm kiếm để nâng cao chất lượng của máy tìm kiếm. Luận văn đã đạt được những kết quả: • Phân tích các vấn đề thời sự nhất về bài toán xếp hạng, trình bày các phương pháp học xếp hạng trong vài năm gần đây. • Đưa ra mô hình học xếp hạng thực thể và thực nghiệm tìm kiếm thực thể trong lĩnh vực y tế - cụ thể là thuốc trong tiếng Việt. • Mô-dul tạo nhãn cụm tài liệu có ứng dụng không chỉ trong máy tìm kiếm mà còn trong việc tạo tạo danh bạ web (web directory). 49 Các công trình công bố của tác giả [TTT08 ]Nguyen, C.-T., Nguyen, T.-T., Ha, Q.-T., Phan, X.-H., and Horiguchi,S. Web Search Clustering and Labeling with Hidden Topics. Journal of ACM Transaction on Asian Language Information Processing (ACM- TALIP), 2008. (TALIP-08-0036, Resubmit after reviewed). [CTT08 ] Nguyễn Thi Thu Chung, Nguyễn Thu Trang, Nguyễn Cẩm Tú, Hà Quang Thụy. Đánh giá chất lượng phân cụm trên máy tìm kiếm tiếng Việt VNSEN Kỷ yếu Hội thảo Quốc gia Một số vấn đề chọn lọc về Công nghệ thông tin và Truyền thông lần thứ XI. (Huế, 12-13/6/2008 2008), [TNT06 ] Q.Ha, T., H.Nguyen, N., and T.Nguyen, T. Improve Performance of PageRank Computation with Connected-Component PageRank. Interna- tional Journal of Natural Sciences and Technology, 1(1):53-60, 2006. [NNT05 ]Đỗ Thị Diệu Ngọc, Nguyễn Hoài Nam, Nguyễn Thu Trang, Nguyễn Yến Ngọc Giải pháp tính hạng trang modified adaptive pagerank trong máy tìm kiếm. Chuyên sang "Các công trình nghiên cứu về CNTT và truyền thông". Tạp chí Bưu chính Viễn thông, 14: 65-71, 4-2005 50 Tài liệu tham khảo [1] Adami, G., Avesani, P., and Sona, D. Clustering documents in a web directory. In WIDM ’03: Proceedings of the 5th ACM international workshop on Web information and data management (New York, NY, USA, 2003), ACM, pp. 66–73. [2] Agarwal, A., Chakrabarti, S., and Aggarwal, S. Learning to rank networked entities. In KDD ’06: Proceedings of the 12th ACM SIGKDD inter- national conference on Knowledge discovery and data mining (New York, NY, USA, 2006), ACM, pp. 14–23. [3] Aguillo, I., Ortega, J. L. L., and Fernandez, M. Webometric ranking of world universities: Introduction, methodology, and future developments. Higher Education in Europe 33, 2-3 (July 2008), 233–244. [4] Aguillo, I. F. Webometrics ranking of world universities. In 3rd Meeting of the International Rankings Expert Group (IREG-3), (2007), Shanghai Jiao Tong University. [5] Amini, M. R., Usunier, N., and Gallinari, P. Automatic text summa- rization based on word clusters and ranking algorithms. In In Proceedings of the 27 th European Conference on Information Retrieval (2005), pp. 142–156. [6] Arasu, A., Cho, J., Garcia-Molina, H., Paepcke, A., and Raghavan, S. Searching the web. ACM Trans. Interet Technol. 1, 1 (2001), 2–43. 51 TÀI LIỆU THAM KHẢO 52 [7] Balmin, A., Hristidis, V., and Papakonstantinou, Y. Objectrank: authority-based keyword search in databases. In VLDB ’04: Proceedings of the Thirtieth international conference on Very large data bases (2004), VLDB Endowment, pp. 564–575. [8] Burges, C. Learning to rank for web search: Some new directions. Keynote talk at SIGIR Ranking Workshop, 7 2007. [9] Burges, C., Shaked, T., Renshaw, E., Lazier, A., Deeds, M., Hamil- ton, N., and Hullender, G. Learning to rank using gradient descent. In ICML ’05: Proceedings of the 22nd international conference on Machine learn- ing (New York, NY, USA, 2005), ACM, pp. 89–96. [10] Burges, C. J. C., Ragno, R., and Le, Q. V. Learning to rank with non- smooth cost functions. In NIPS (2006), B. Scho¨lkopf, J. C. Platt, T. Hoffman, B. Scho¨lkopf, J. C. Platt, and T. Hoffman, Eds., MIT Press, pp. 193–200. [11] Cao, Y., Xu, J., Liu, T.-Y., Li, H., Huang, Y., and Hon, H.-W. Adapt- ing ranking svm to document retrieval. In SIGIR ’06: Proceedings of the 29th annual international ACM SIGIR conference on Research and development in information retrieval (New York, NY, USA, 2006), ACM, pp. 186–193. [12] Cao, Z., Qin, T., Liu, T.-Y., Tsai, M.-F., and Li, H. Learning to rank: from pairwise approach to listwise approach. In ICML ’07: Proceedings of the 24th international conference on Machine learning (New York, NY, USA, 2007), ACM, pp. 129–136. [13] Chakrabarti, S. Dynamic personalized pagerank in entity-relation graphs. In WWW ’07: Proceedings of the 16th international conference on World Wide Web (New York, NY, USA, 2007), ACM, pp. 571–580. [14] Chakrabarti, S. Learning to rank in vector spaces and social networks. In WWW ’07: Tutorial - 16th international conference on World Wide Web (2007). [15] Chakrabarti, S., and Agarwal, A. Learning parameters in entity rela- tionship graphs from ranking preferences. In PKDD (2006), pp. 91–102. TÀI LIỆU THAM KHẢO 53 [16] Chakrabarti, S., Khanna, R., Sawant, U., and Bhattacharyya, C. Structured learning for non-smooth ranking losses. In KDD ’08: Proceeding of the 14th ACM SIGKDD international conference on Knowledge discovery and data mining (New York, NY, USA, 2008), ACM, pp. 88–96. [17] Cheng, T., and Chang, K. C.-C. Entity search engine: Towards agile best- effort information integration over the web. In CIDR (2007), pp. 108–113. [18] Cheng, T., Yan, X., and Chang, K. C.-C. Entityrank: searching entities directly and holistically. In VLDB ’07: Proceedings of the 33rd international conference on Very large data bases (2007), VLDB Endowment, pp. 387–398. [19] Cheng, T., Yan, X., and Chang, K. C.-C. Supporting entity search: a large-scale prototype search engine. In SIGMOD ’07: Proceedings of the 2007 ACM SIGMOD international conference on Management of data (New York, NY, USA, 2007), ACM, pp. 1144–1146. [20] Chu, W., and Keerthi, S. S. New approaches to support vector ordinal regression. In In ICML ’05: Proceedings of the 22nd international conference on Machine Learning (2005), pp. 145–152. [21] Cohen, W. W., Schapire, R. E., and Singer, Y. Learning to order things. In NIPS ’97: Proceedings of the 1997 conference on Advances in neural information processing systems 10 (Cambridge, MA, USA, 1998), MIT Press, pp. 451–457. [22] Collins, M., Schapire, R. E., and Singer, Y. Logistic regression, ad- aboost and bregman distances. In Machine Learning (2000), pp. 158–169. [23] Demartini, G., Firan, C. S., Iofciu, T., Krestel, R., and Nejdl, W. A model for ranking entities and its application to wikipedia. Web Congress, Latin American 0 (2008), 29–38. [24] Demartini, G., Firan, C. S., Iofciu, T., and Nejdl, W. Semantically enhanced entity ranking. In WISE ’08: Proceedings of the 9th international con- ference on Web Information Systems Engineering (Berlin, Heidelberg, 2008), Springer-Verlag, pp. 176–188. TÀI LIỆU THAM KHẢO 54 [25] Dmoz. [26] Duh, K., and Kirchhoff, K. Learning to rank with partially-labeled data. In SIGIR ’08: Proceedings of the 31st annual international ACM SIGIR con- ference on Research and development in information retrieval (New York, NY, USA, 2008), ACM, pp. 251–258. [27] Gelgi, F., Davulcu, H., and Vadrevu, S. Term ranking for clustering web search results. In WebDB (2007). [28] Geraci, F., Pellegrini, M., Maggini, M., and Sebastiani, F. Cluster generation and cluster labelling for web snippets: A fast and accurate hierar- chical solution. In SPIRE (2006), pp. 25–36. [29] Glover, E., Pennock, D. M., Lawrence, S., and Krovetz, R. Infer- ring hierarchical descriptions. In CIKM ’02: Proceedings of the eleventh in- ternational conference on Information and knowledge management (New York, NY, USA, 2002), ACM, pp. 507–514. [30] Herbrich, R., Graepel, T., and Obermayer, K. Support vector learn- ing for ordinal regression. In In International Conference on Artificial Neural Networks (1999), pp. 97–102. [31] Jiang, Z., Joshi, A., Krishnapuram, R., and Yi, L. Retriever: Improv- ing Web Search Engine Results Using Clustering. Tech. rep., University of Maryland Baltimore County, October 2000. [32] JNSP. [33] Joachims, T. Making large-scale support vector machine learning practical. Advances in kernel methods: support vector learning (1999), 169–184. [34] Joachims, T. Optimizing search engines using clickthrough data. In KDD ’02: Proceedings of the eighth ACM SIGKDD international conference on Knowledge discovery and data mining (New York, NY, USA, 2002), ACM, pp. 133–142. TÀI LIỆU THAM KHẢO 55 [35] Joachims, T. A support vector method for multivariate performance mea- sures. In Proceedings of the 22nd International Conference on Machine Learn- ing (2005), ACM Press, pp. 377–384. [36] Joachims, T., Li, H., Liu, T.-Y., and Zhai, C. Learning to rank for information retrieval (lr4ir 2007). SIGIR Forum 41, 2 (2007), 58–62. [37] Klementiev, A., Roth, D., and Small, K. An unsupervised learning algorithm for rank aggregation. Machine Learning: ECML 2007 (2007), 616– 623. [38] Lawrie, D., Croft, W. B., and Rosenberg, A. Finding topic words for hierarchical summarization. In SIGIR ’01: Proceedings of the 24th annual inter- national ACM SIGIR conference on Research and development in information retrieval (New York, NY, USA, 2001), ACM, pp. 349–357. [39] Lawrie, D. J., and Croft, W. B. Generating hierarchical summaries for web searches. In SIGIR ’03: Proceedings of the 26th annual international ACM SIGIR conference on Research and development in informaion retrieval (New York, NY, USA, 2003), ACM, pp. 457–458. [40] Liu, T.-Y. Learning to rank in information retrieval. In WWW ’08: Tutorial - 17th international conference on World Wide Web (2008). [41] Mecca, G., Raunich, S., and Pappalardo, A. A new algorithm for clus- tering search results. Data Knowl. Eng. 62, 3 (2007), 504–522. [42] Mei, Q., Shen, X., and Zhai, C. Automatic labeling of multinomial topic models. In KDD ’07: Proceedings of the 13th ACM SIGKDD international conference on Knowledge discovery and data mining (New York, NY, USA, 2007), ACM, pp. 490–499. [43] Page, L., Brin, S., Motwani, R., and Winograd, T. The pagerank citation ranking: Bringing order to the web. Tech. rep., Stanford University, 1998. TÀI LIỆU THAM KHẢO 56 [44] Qin, T., Liu, T.-Y., Zhang, X.-D., Wang, D.-S., Xiong, W.-Y., and Li, H. Learning to rank relational objects and its application to web search. In WWW ’08: Proceeding of the 17th international conference on World Wide Web (New York, NY, USA, 2008), ACM, pp. 407–416. [45] Radlinski, F., and Joachims, T. Active exploration for learning rankings from clickthrough data. In KDD ’07: Proceedings of the 13th ACM SIGKDD international conference on Knowledge discovery and data mining (New York, NY, USA, 2007), ACM, pp. 570–579. [46] Raykar, V. C., Duraiswami, R., and Krishnapuram, B. A fast algo- rithm for learning a ranking function from large-scale data sets. IEEE Trans. Pattern Anal. Mach. Intell. 30, 7 (2008), 1158–1170. [47] Rode, H., Serdyukov, P., Hiemstra, D., and Zaragoza, H. Entity ranking on graphs: Studies on expert finding. Tech. Rep. TR-CTIT-07-81, University of Twente, 2007. [48] Sciencegateway. [49] SIGIR. on LR4IR. [50] Taylor, M., Guiver, J., Robertson, S., and Minka, T. Softrank: op- timizing non-smooth rank metrics. In WSDM ’08: Proceedings of the interna- tional conference on Web search and web data mining (New York, NY, USA, 2008), ACM, pp. 77–86. [51] Thom, J. A., Pehcevski, J., and Vercoustre, A.-M. Use of wikipedia categories in entity ranking. CoRR abs/0711.2917 (2007). [52] Treeratpituk, P., and Callan, J. Automatically labeling hierarchical clusters. In dg.o ’06: Proceedings of the 2006 international conference on Digital government research (New York, NY, USA, 2006), ACM, pp. 167–176. [53] Treeratpituk, P., and Callan, J. An experimental study on automat- ically labeling hierarchical clusters using statistical features. In SIGIR ’06: TÀI LIỆU THAM KHẢO 57 Proceedings of the 29th annual international ACM SIGIR conference on Re- search and development in information retrieval (New York, NY, USA, 2006), ACM, pp. 707–708. [54] Vercoustre, A.-M., Thom, J. A., and Pehcevski, J. Entity ranking in wikipedia. In SAC ’08: Proceedings of the 2008 ACM symposium on Applied computing (New York, NY, USA, 2008), ACM, pp. 1101–1106. [55] Webometrics. [56] WISDM. [57] Wu, T. C.-W., and Hsu, W.-L. Web directory integration using conditional random fields. In WI ’06: Proceedings of the 2006 IEEE/WIC/ACM Interna- tional Conference on Web Intelligence (Washington, DC, USA, 2006), IEEE Computer Society, pp. 540–543. [58] Xu, J., and Li, H. Adarank: a boosting algorithm for information retrieval. In SIGIR ’07: Proceedings of the 30th annual international ACM SIGIR con- ference on Research and development in information retrieval (New York, NY, USA, 2007), ACM, pp. 391–398. [59] Xu, Y., and Fern, A. On learning linear ranking functions for beam search. In ICML ’07: Proceedings of the 24th international conference on Machine learning (New York, NY, USA, 2007), ACM, pp. 1047–1054. [60] Yang, C. C., and Lin, J. Integrating web directories by learning their structures. In WWW ’07: Proceedings of the 16th international conference on World Wide Web (New York, NY, USA, 2007), ACM, pp. 1239–1240. [61] Yu, H. Svm selective sampling for ranking with application to data retrieval. In KDD ’05: Proceedings of the eleventh ACM SIGKDD international conference on Knowledge discovery in data mining (New York, NY, USA, 2005), ACM, pp. 354–363. TÀI LIỆU THAM KHẢO 58 [62] Yue, Y., Finley, T., Radlinski, F., and Joachims, T. A support vector method for optimizing average precision. In ACM Conference on Research and Development in Information Retrieval (SIGIR) (2007), pp. 271–278. [63] Zaragoza, H., and Robertson, S. The probabilistic relevance model: Bm25 and beyond, 2007. [64] Zaragoza, H., Rode, H., Mika, P., Atserias, J., Ciaramita, M., and Attardi, G. Ranking very many typed entities on wikipedia. In CIKM ’07: Proceedings of the sixteenth ACM conference on Conference on information and knowledge management (New York, NY, USA, 2007), ACM, pp. 1015–1018. [65] Zeng, H.-J., He, Q.-C., Chen, Z., Ma, W.-Y., and Ma, J. Learning to cluster web search results. In SIGIR ’04: Proceedings of the 27th annual inter- national ACM SIGIR conference on Research and development in information retrieval (New York, NY, USA, 2004), ACM, pp. 210–217. [66] Zheng, Z., Chen, K., Sun, G., and Zha, H. A regression framework for learning ranking functions using relative relevance judgments. In SIGIR ’07: Proceedings of the 30th annual international ACM SIGIR conference on Re- search and development in information retrieval (New York, NY, USA, 2007), ACM, pp. 287–294. [67] Zhu, D., and Dreher, H. Improving web search by categorization, cluster- ing, and personalization. In ADMA ’08: Proceedings of the 4th international conference on Advanced Data Mining and Applications (Berlin, Heidelberg, 2008), Springer-Verlag, pp. 659–666. [68] Zhu, J., Song, D., and Ru¨ger, S. Integrating document features for entity ranking. Focused Access to XML Documents: 6th International Workshop of the Initiative for the Evaluation of XML Retrieval, INEX 2007 Dagstuhl Castle, Germany, December 17-19, 2007. Selected Papers (2008), 336–347. P h ụ l ụ c A Dữ liệu A.1 Dữ liệu tìm kiếm thuốc Tập nhân các trang web để thu thập dữ liệu cho tìm kiếm thực thể thuốc: 1. 2. 3. pham/giathuoc/Index.htm 4. pham/Thuoc goc/Thuocgoc1.asp 5. pham/Phan loai thuoc/Phanloaithuoc.asp 6. pham/Thongbao/index.asp 7. pham/Danhmucthuoc/index.asp 8. Pham.html 59 PHỤ LỤC A. DỮ LIỆU 60 9. 10. 11. 12. 13. 14. 15. A.2 Cây wiki Cây phân mục được lấy từ vn.wikipedia.com Nhãn Số tài liệu trong cụm Cong nghe thong tin (36) Internet (35) Sinh hoa hoc (14) Sinh hoc (61) Sinh hoc phan tu (27) Te bao hoc (23) Tin sinh hoc (12) Duoc pham (20) Bảng A.1: Dữ liệu học: cụm mức 1 PHỤ LỤC A. DỮ LIỆU 61 Nhãn Số tài liệu trong cụm Dai hoc (20) Mon hoc (6) Truong trung hoc (14) Hoc vi (24) Phuong phap giao duc (3) Tu duy (8) Bảng A.2: Dữ liệu học - cụm chủ đề giáo dục Nhãn Số tài liệu trong cụm lop thu (13) ho trau bo (10) dong vat thuan hoa (8) dong vat nguyen sinh (5) dong vat ky sinh (2) bo se (31) bo ca da tron (7) Bảng A.3: Dữ liệu kiểm tra - cụm chủ đề động vật học Nhãn Số tài liệu trong cụm Cong nghe thong tin (778) Internet (210) Sinh hoa hoc (14) Sinh hoc (1283) Sinh hoc phan tu (27) Te bao hoc (23) Tin sinh hoc (12) Duoc khoa (25) Y hoc (13) Vien thong (23) Thuc vat hoc (6) Khoa hoc suc khoe (4) Dong vat hoc (339) Giao duc (2457) Bảng A.4: Dữ liệu wiki đầy đủ mức 1 Danh sách hình vẽ 2.1 Xếp hạng với SVM [34] . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 2.2 Xác định ngưỡng phân thứ hạng [20] . . . . . . . . . . . . . . . . . . . . 13 3.1 Đồ thị web với khung nhìn thực thể [18] . . . . . . . . . . . . . . . . . . 19 3.2 Mô hình tìm kiếm truyền thống và tìm kiếm thực thể [56] . . . . . . . . 19 3.3 Kiến trúc hệ thống[19] . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 3.4 Impression model [18] . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 3.5 Ví dụ rút trích thực thể thuốc . . . . . . . . . . . . . . . . . . . . . . . . 24 3.6 So sánh độ chính xác MRR [18] . . . . . . . . . . . . . . . . . . . . . . . 29 3.7 Mô hình học xếp hạng trong máy tìm kiếm thực thể . . . . . . . . . . . 30 3.8 Ví dụ xác định trọng số cục bộ p(α(γ)) . . . . . . . . . . . . . . . . . . . 33 3.9 So sánh độ chính xác trung bình AP trên 5 query . . . . . . . . . . . . . 35 62 Danh sách bảng 3.1 Ví dụ kết quả trả về của truy vấn q . . . . . . . . . . . . . . . . . . . . . 18 3.2 So sánh MRR, MAP của BM25, Impression, LTR . . . . . . . . . . . . . 35 4.1 So sánh MRR, MTRR . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 4.2 So sánh Match@N . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 A.1 Dữ liệu học: cụm mức 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . 60 A.2 Dữ liệu học - cụm chủ đề giáo dục . . . . . . . . . . . . . . . . . . . . . 61 A.3 Dữ liệu kiểm tra - cụm chủ đề động vật học . . . . . . . . . . . . . . . . 61 A.4 Dữ liệu wiki đầy đủ mức 1 . . . . . . . . . . . . . . . . . . . . . . . . . . 61 63

Các file đính kèm theo tài liệu này:

MSc09_Nguyen_Thu_Trang.pdf