Đề tài Thuật toán phân lớp văn bản Web và thực nghiệm trong máy tìm kiếm VietSeek

Tài liệu Đề tài Thuật toán phân lớp văn bản Web và thực nghiệm trong máy tìm kiếm VietSeek: Thuật toán phân lớp văn bản Web và thực nghiệm trong máy tìm kiếm VietSeek Khóa luận tốt nghiệp đại học Đặng Thanh Hải 1 LỜI CẢM ƠN Em xin bày tỏ lòng kính trọng và biết ơn sâu sắc tới thầy giáo tiến sĩ Hà Quang Thụy và thầy Nguyễn Trí Thành, khoa Công nghệ, ĐHQG Hà nội đã hướng dẫn và động viên em rất nhiều trong quá trình làm luận văn. Em xin cảm ơn các Thầy Cô trong khoa Công nghệ, Đại học Quốc Gia Hà Nội, và nhóm Xemina "Máy tìm kiếm VietSeek" thuộc bộ môn Các Hệ thống Thông tin, khoa Công nghệ, những người đã giúp đỡ cho em trong suốt quá trình học tập và nghiên cứu. Cuối cùng, em xin bày tỏ lòng biết ơn tới gia đình và các bạn bè đã giúp đỡ, động viên em rất nhiều trong suốt quá trình học tập. Hà Nội ngày 28/05/2003 Sinh viên Đặng Thanh Hải Thuật toán phân lớp văn bản Web và thực nghiệm trong máy tìm kiếm VietSeek Khóa luận tốt nghiệp đại học Đặng Thanh Hải 2 TÓM TẮT NỘI DUNG Do kích thước khổng lồ của dữ liệu Web, việc xây dựng cũng như tíc...

78 trang | Chia sẻ: hunglv | Lượt xem: 1632 | Lượt tải: 0

Bạn đang xem trước 20 trang mẫu tài liệu Đề tài Thuật toán phân lớp văn bản Web và thực nghiệm trong máy tìm kiếm VietSeek, để tải tài liệu gốc về máy bạn click vào nút DOWNLOAD ở trên

Thuật tốn phân lớp văn bản Web và thực nghiệm trong máy tìm kiếm VietSeek Khĩa luận tốt nghiệp đại học Đặng Thanh Hải 1 LỜI CẢM ƠN Em xin bày tỏ lịng kính trọng và biết ơn sâu sắc tới thầy giáo tiến sĩ Hà Quang Thụy và thầy Nguyễn Trí Thành, khoa Cơng nghệ, ĐHQG Hà nội đã hướng dẫn và động viên em rất nhiều trong quá trình làm luận văn. Em xin cảm ơn các Thầy Cơ trong khoa Cơng nghệ, Đại học Quốc Gia Hà Nội, và nhĩm Xemina "Máy tìm kiếm VietSeek" thuộc bộ mơn Các Hệ thống Thơng tin, khoa Cơng nghệ, những người đã giúp đỡ cho em trong suốt quá trình học tập và nghiên cứu. Cuối cùng, em xin bày tỏ lịng biết ơn tới gia đình và các bạn bè đã giúp đỡ, động viên em rất nhiều trong suốt quá trình học tập. Hà Nội ngày 28/05/2003 Sinh viên Đặng Thanh Hải Thuật tốn phân lớp văn bản Web và thực nghiệm trong máy tìm kiếm VietSeek Khĩa luận tốt nghiệp đại học Đặng Thanh Hải 2 TĨM TẮT NỘI DUNG Do kích thước khổng lồ của dữ liệu Web, việc xây dựng cũng như tích hợp các yếu tố khai phá dữ liệu Web vào cơng cụ tìm kiếm trên mạng Internet đang thu hút được sự quan tâm rất lớn của rất nhiều nhà nghiên cứu. Khĩa luận đề cập tới vấn đề cải tiến chất lượng và tốc độ của máy tìm kiếm bằng việc nghiên cứu bài tốn phân lớp trong máy tìm kiếm. Nội dung chính của khĩa luận trình bày cấu trúc cũng như mơ hình hoạt động của modul đánh chỉ mục trong máy tìm kiếm VietSeek, các kỹ thuật cơ bản và các thuật tốn thơng dụng liên quan đến quá trình khai phá dữ liệu Web trong máy tìm kiếm, mà cụ thể là bài tốn phân lớp trang văn bản Web. Đặc biệt khĩa luận tập trung vào giải pháp phân lớp theo phương pháp Bayes thứ nhất. Xuất phát từ cơng thức (3.8) [1], khĩa luận đề xuất các cơng thức (3.15), (3.16) và chứng minh tính đúng đắn của chúng, với giả thiết về tính độc lập của các biến cố. Đi kèm với giải pháp phân lớp Bayes là các đề xuất nhằm giải quyết vấn đề tính ngưỡng cho các lớp. Khĩa luận đã tích hợp thành cơng các đề xuất này vào máy tìm kiếm VietSeek và thu được kết quả rất khả quan. Thuật tốn phân lớp văn bản Web và thực nghiệm trong máy tìm kiếm VietSeek Khĩa luận tốt nghiệp đại học Đặng Thanh Hải 3 PHẦN MỞ ĐẦU Ngày nay sự phát triển vượt bậc của cơng nghệ thơng tin, đặc biệt là sự ra đời và phát triển như vũ bão của mạng Internet đã tạo ra một cuộc cách mạng trong mọi lĩnh vực đời sống xã hội. Cĩ thể nĩi rằng Internet là một thế giới ảo với vơ vàn các thơng tin về mọi mặt của đời sống kinh tế, chính trị, xã hội được trình bày dưới dạng văn bản, hình ảnh, âm thanh,... Internet luơn biến đổi khơng ngừng cả về kích thước lẫn nội dung. Đến nay khơng cĩ một ai biết được chính xác kích thước của Internet là bao nhiêu, cĩ bao nhiêu Website và bao nhiêu trang Web. Bên cạnh đĩ, thơng tin trong chính các trang Web cũng được cập nhật liên tục. Theo kết quả nghiên cứu , hơn 500.000 trang Web trong hơn 4 tháng thì 23% các trang thay đổi hàng ngày, và khoảng hơn 10 ngày thì 50% các trang trong tên miền đĩ biến mất, nghĩa là địa chỉ URL của nĩ khơng cịn tồn tại nữa [2]. Một điều thực tế là khối lượng dữ liệu tăng lên gấp nhiều lần, nhưng tỷ lệ các thơng tin cĩ ích so với khối lượng dữ liệu đĩ lại giảm đi rất nhiều. Theo thống kê, 99% của thơng tin Web là vơ ích với 99% người dùng Web [2]. Rõ ràng với một khối lượng khổng lồ dữ liệu được lưu trữ trên Internet thì vấn đề tìm kiếm thơng tin cĩ ích đang trở thành một vấn đề nghiên cứu cĩ tính thời sự cao. Người dùng khơng thể tự tìm kiếm địa chỉ trang Web chứa thơng tin mà mình cần, do vậy địi hỏi cần phải cĩ một trình tiện ích quản lý nội dung của các trang Web và cho phép tìm thấy các địa chỉ trang Web cĩ nội dung giống với yêu cầu của người tìm kiếm. Hiện nay, trên thế giới cĩ một số máy tìm kiếm thơng dụng như Yahoo, Google, Alvista,...đã được xây dựng và triển khai nhằm đáp ứng nhu cầu tìm kiếm thơng tin của người dùng. Mặc dù đã đáp ứng ứng được phần lớn nhu cầu tìm kiếm thơng tin của người dùng, tuy nhiên hầu hết các máy hiện nay mới chỉ hỗ trợ việc tìm kiếm theo từ khĩa, mà chưa xét đến vấn đề ngữ nghĩa của các từ cần tìm kiếm. Với việc tìm kiếm bằng cách đối sánh các từ khĩa, kết quả tìm kiếm cĩ thể khơng bao gồm tất cả các tài liệu như ý muốn của người dùng (do vấn đề từ đồng nghĩa). Thậm chí các tài liệu tìm thấy cĩ thể khơng liên quan đến yêu cầu của người dùng (do vấn đề từ đa nghĩa). Mặc khác các máy tìm kiếm thơng dụng hiện nay đều chưa cĩ chức năng lưu trữ và phân tích tiểu sử của người dùng, để từ đĩ cĩ khả năng hỗ trợ tốt hơn với từng lớp người dùng. Cụ thể, giả sử chúng ta cĩ các trang Web về các vấn đề Tin học, Thể thao, Kinh tể-Xã hội và Xây dựng...Căn cứ vào nội dung của các tài liệu mà khách Thuật tốn phân lớp văn bản Web và thực nghiệm trong máy tìm kiếm VietSeek Khĩa luận tốt nghiệp đại học Đặng Thanh Hải 4 hàng xem hoặc tải về, sau khi phân lớp chúng ta sẽ biết khách hàng hay tập trung vào nội dung gì, từ đĩ chúng ta sẽ bổ sung thêm nhiều các tài liệu về các nội dung mà khách hàng quan tâm. Từ những nhu cầu thực tế trên, phân lớp và tìm kiếm trang Web vẫn là bài tốn hay, cĩ tính thời sự cao, cần được phát triển và nghiên cứu hiện nay. Đề tài khĩa luận tốt nghiệp ‘Thuật tốn phân lớp văn bản Web và thực nghiệm trong máy tìm kiếm VietSeek (Vinahoo)’ cũng khơng nằm ngồi mục đích trên. Ngồi phần mở đầu và phần kết luận, nội dung của khĩa luận được tổ chức thành 4 chương với nội dung chính như sau: Chương 1, với tên gọi Máy tìm kiếm VietSeek, nhằm mục đích giới thiệu một cách chi tiết cấu trúc cũng như cơ chế hoạt động của các máy tìm kiếm VietSeek. Ngồi ra, phần đầu của chương cịn giới thiệu tổng quát về cấu trúc chung của các máy tìm kiếm đang được sử dụng rộng rãi hiện nay. Chương 2 cĩ tên gọi là Khai phá dữ liệu Web trong máy tìm kiếm. Nội dung chính của chương trình bày các kỹ thuật cơ bản liên quan dến bài tốn khai phá dữ liệu Web trong máy tìm kiếm. Chương 3, tích hợp giải pháp phân lớp trang văn bản vào máy tìm kiếm VietSeek, giới thiệu các thuật tốn điển hình được áp dụng để giải quyết bài tốn phân lớp văn bản. Trong đĩ đặc biệt tập trung vào giải pháp phân lớp theo phương pháp Bayes thứ nhất. Các cơng thức đề xuất (3.15) và (3.16), cùng với quá trình chứng minh tính đúng đắn của chúng được trình bày một cách chi tiết trong chương này. Đi kèm với giải pháp phân lớp Bayes là các đề xuất nhằm giải quyết vấn đề tính ngưỡng cho các lớp. Phần cuối của chương giới thiệu quá trình tích hợp giải pháp phân lớp trang văn bản vào máy tìm kiếm VietSeek. Chương 4 với tựa đề Kết qủa thực nghiệm và đánh giá sẽ giới thiệu các kết quả thực nghiệm thu được khi tiến hành tích hợp giải pháp phân lớp văn bản Web vào máy tìm kiếm VietSeek. Sau đĩ đưa ra các đánh giá về các cơng thức đề xuất dựa trên kết quả thực nghiệm. Thuật tốn phân lớp văn bản Web và thực nghiệm trong máy tìm kiếm VietSeek Khĩa luận tốt nghiệp đại học Đặng Thanh Hải 5 Chương 1. MÁY TÌM KIẾM VIETSEEK 1.1. Giới thiệu máy tìm kiếm VietSeek Hiện nay, trên thế giới cĩ một số máy tìm kiếm thơng dụng như Yahoo, Google, Alvista,...đã được xây dựng và triển khai nhằm đáp ứng nhu cầu tìm kiếm thơng tin ngày càng lớn của người dùng. Máy tìm kiếm là một hệ thống được xây dựng cĩ khả năng tiếp nhận các yêu cầu tìm kiếm từ phía người dùng (thường là một tập các từ khố), phân tích nội dung câu truy vấn và tiến hành tìm kiếm trong cơ sở dữ liệu đã được xây dựng sẵn từ trước. Kết quả trả về cho người sử dụng bởi máy tìm kiếm là tập hợp các trang Web liên quan hoặc cĩ chứa các từ khĩa xuất hiện trong câu truy vấn. Đối với các máy tìm kiếm, vấn đề biểu diễn dữ liệu là rất quan trọng. Biểu diễn các trang Web như thế nào để vừa cĩ khả năng lưu trữ được một số lượng khổng lồ các trang Web, vừa cho phép máy tìm kiếm thực hiện việc tìm kiếm nhanh chĩng và chính xác. Cấu trúc điển hình của một máy tìm kiếm được mơ tả như trong hình (1.0 ) Trong thực tế thì mỗi máy tìm kiếm lại cĩ các sửa đổi riêng theo cách riêng, tuy nhiên về cơ bản vẫn dựa trên các bộ phận được mơ tả trong hình (1.0 ) Kho trang web Bé t×m duyƯt Hình 1.0. Mơ hình cấu trúc hoạt động của máy tìm kiếm Thuật tốn phân lớp văn bản Web và thực nghiệm trong máy tìm kiếm VietSeek Khĩa luận tốt nghiệp đại học Đặng Thanh Hải 6 Bộ dị tìm trang Web (Crawler): Hầu hết các máy tìm kiếm hoạt động dựa vào các bộ dị tìm trang Web, là các chương trình cĩ kích thước nhỏ đảm nhận chức năng cung cấp dữ liệu (các trang web) cho máy tìm kiếm hoạt động. Bộ dị tìm trang Web thực hiện cơng việc duyệt web. Hoạt động của nĩ tương tự như hoạt động của con người khi truy cập web là dựa vào các mối liên kết để đi từ trang web này tới trang web khác. Modul đánh chỉ mục (Indexer) thực hiện việc khảo sát tất cả các từ khĩa trong từng trang web cĩ trong kho trang Web, và ghi lại các địa chỉ URL của các trang web cĩ chứa mỗi từ. Kết quả sinh ra một bảng chỉ mục rất lớn gọi là chỉ mục ngược. Nhờ cĩ bảng chỉ mục này, máy tìm kiếm cung cấp tất cả các địa chỉ URL của các trang web khi cĩ yêu cầu: Khi cho một từ khĩa bất kỳ thì qua bảng chỉ mục, máy tìm kiếm sẽ nhận được tất cả các địa chỉ URL của các trang web cĩ chứa từ khĩa đĩ. Bộ phân tích tập (Collection Analysis Module) hoạt động dựa vào thuộc tính của bộ truy vấn (Query Engine). Ví dụ nếu bộ truy vấn chỉ địi hỏi việc tìm kiếm hạn chế trong một số Website đặc biệt, hoặc giới hạn trong một tên miền thì cơng việc sẽ nhanh và hiệu quả hơn nếu tồn tại một bảng chỉ mục các Website mà trong đĩ mỗi tên miền được gắn với một danh sách các trang Web thuộc miền đĩ. Cơng việc như thế được thực hiện bởi bộ phân tích tập. Bộ truy vấn chịu trách nhiệm nhận các yêu cầu của người sử dụng. Bộ phận này hoạt động thường xuyên dựa vào bảng chỉ mục và thỉnh thoảng dựa vào kho trang Web. Do số lượng các trang web là rất lớn, và trong thực tế thì người sử dụng chỉ đưa vào khoảng một hoặc vài từ khố, cho nên tập kết quả thường rất lớn. Vì vậy bộ xếp hạng (Rangking) cĩ chức năng sắp xếp kết quả thành một danh sách các trang web theo thứ tự giảm dần về độ liên quan (theo máy tìm kiếm) tới vấn đề mà người sử dụng đang quan tâm, và sau đĩ hiển thị danh sách kết quả tìm được cho người sử dụng. VietSeek là một trong số ít các máy tìm kiếm tiếng Việt đã được xây dựng và đưa vào sử dụng hiện nay (như PanVietNam của NetNam, HoaTieu của Vương Quang Khải). VietSeek được phát triển dựa trên ASPSeek, là một phần mềm mã nguồn mở, bởi nhĩm Vinahoo (ban đầu do Bùi Quang Minh thực hiện ) trong khuơn khổ của đề tài QG-02-02 và cơng ty TTVNOnline [7]. Là một máy tìm kiếm trên Internet với tất cả các đặc tính mong muốn từ phía người dùng, VietSeek được viết bằng ngơn ngữ C++, sử dụng thư viện STL, và kết hợp giữa hệ quản trị cơ sở dữ liệu MySQL và các file nhị phân cho mục đích lưu trữ. VietSeek bao gồm ba modul chính: modul đánh chỉ Thuật tốn phân lớp văn bản Web và thực nghiệm trong máy tìm kiếm VietSeek Khĩa luận tốt nghiệp đại học Đặng Thanh Hải 7 mục (indexer), modul tìm kiếm chạy ngầm (search deamon), và modul CGI chạy ở phía người dùng. • Modul đánh chỉ mục Modul này sẽ lần theo các Web site, tải về các trang Web mà nĩ bắt gặp, phân tích và lưu trữ nội dung các trang Web đĩ trong một cấu trúc dữ liệu đặc biệt(một số dữ liệu được lưu trữ trong cơ sỡ dữ liệu MySQL, số cịn lại được lưu trong các file nhị phân được gọi là “file delta” ở thư mục “/usr/local/aspseek/var”). Khi khơng cịn trang Web nào để đánh chỉ số, modul này sẽ sắp xếp các file delta và trộn nội dung trong các file delta vào cơ sỡ dữ liệu MySQL để xây dựng chỉ số ngược. Modul đánh chỉ mục hỗ trợ các giao thức HTTP, HTTPS và cĩ thể phân tích được các tài liệu full text cũng như các tài liệu HTML. Hầu hết các chức năng của modul index đều được điều khiển bởi nội dung file cấu hình “vinaseek.conf”. • Modul tìm kiếm Modul tìm kiếm chạy ngầm để lắng nghe và trả lời các câu truy vấn đến từ modul đầu cuối “s.cgi”. Modul phía người dùng (s.cgi) nhận kết quả tìm kiếm, định dạng và hiện thị kết quả tìm kiếm dưới dạng trang Web. Hình 1.1. Giao diện một trang kết quả tìm kiếm của máy tìm kiếm Vietseek Thuật tốn phân lớp văn bản Web và thực nghiệm trong máy tìm kiếm VietSeek Khĩa luận tốt nghiệp đại học Đặng Thanh Hải 8 1.2. Một số tính chất của máy tìm kiếm VietSeek VietSeek được tối ưu hĩa để cĩ thể làm việc với nhiều Website, và cĩ thể tiến hành tìm kiếm trên hàng triệu trang Web. Người sử dụng cĩ thể yêu cầu VietSeek tìm kiếm các từ, cụm từ, sử dụng các ký tự đại diện cũng như các phép tốn Logic. Dưới đây là một số tính năng của máy tìm kiếm VietSeek: Khả năng đánh chỉ mục và tìm kiếm trên hàng triệu trang tài liệu Kết quả tìm kiếm trả về rất tốt, được sắp xếp theo độ liên quan đến câu truy vấn Khả năng tìm kiếm nâng cao Người sử dụng cĩ thể yêu cầu máy tìm kiếm VietSeek tìm kiếm khơng chỉ một từ mà cĩ thể là một cụm từ. Để tìm kiếm một cụm từ, người dùng chỉ cần thêm dấu mở ngoặc và đĩng ngoặc vào cụm từ đĩ. Ví dụ, ‘many years ago’. Nếu người dùng biết chính xác cụm từ cần tìm, nhưng lại quên một từ trong cụm từ đĩ thì cĩ thể sử dụng dấu (*) để thay thế cụm từ đĩ. Bởi vậy câu truy vấn sẽ là: “many * ago” . Người dùng cĩ thể sử dụng biểu thức tìm kiếm logic để yêu cầu tìm kiếm. Biểu thức logic cĩ thể được kết hợp dựa trên các phép tốn logic như AND, OR, và các dấu ngoặc. Ví dụ, (some OR any) AND (days OR months OR years). Người dùng cũng cĩ thể loại trừ các từ khơng muốn xuất hiện trong kết quả tìm kiếm bằng cách đặt dấu “-“ trước các từ đĩ.Với câu truy vấn dạng này, các trang Web chứa các từ đĩ sẽ bị loại bỏ khỏi kết quả tìm kiếm. Ví dụ: search engine –prorietary Đặc tính tìm kiếm theo khuơn mẫu cho phép tìm các tài liệu chứa các từ phù hợp với khuơn mẫu được xác định trước. Ký tự “?” đại diện cho một ký tự bất kỳ, ký tự “*” đại diện cho một chuỗi các ký tự bất kỳ. Ví dụ, để tìm kiếm tất cả các tài liệu cĩ chứa các từ bắt đầu bằng ‘provider’ ta đánh: provider* VietSeek cho phép người dùng giới hạn việc tìm kiếm trong một vài site cụ thể. Ví dụ để tìm kiếm tất cả các tài liệu cĩ chứa từ ‘bubble’ trong site www.mysite.org người dùng đánh câu truy vấn: bubble site: www.mysite.org bubble site: mysite.org Thuật tốn phân lớp văn bản Web và thực nghiệm trong máy tìm kiếm VietSeek Khĩa luận tốt nghiệp đại học Đặng Thanh Hải 9 bubble –site: mysite.org site: www.fotech.edu.vnn.vn Cuối cùng người sử dụng cĩ thể tiến hành tìm kiếm tất cả các trang Web chứa các liên kết tới các trang Web đặc biệt khác. Ví dụ: link: www.aspseek.org Hỗ trợ các giao thức HTTP,HTTPS,HTTP proxy, FTP proxy Hỗ trợ hai loại tài liệu full text và html Sử dụng đa tuyến Modul đánh chỉ mục tải về các tài liệu từ nhiều Website và modul tìm kiếm cĩ khả năng xử lý nhiều câu truy vấn đồng thời. Đặc điểm này sẽ giúp chúng ta cải thiện tốc độ của modul đánh chỉ mục vì trong trường hợp sử dụng chỉ một luồng, phần lớn thời gian được dành cho việc chờ dữ liệu từ mạng. Nhân tố làm chậm tốc độ của modul đánh chỉ mục chính là việc phải tìm các máy chủ phục vụ tên miền nhiều lần. Để tránh điều này, quá trình tìm kiếm khơng đồng bộ ( việc tìm kiếm DNS được thực hiện bởi một số tiến trình riêng biệt được xác định trước ) và bộ nhớ đệm chứa các ánh xạ từ tên máy sang địa chỉ IP được triển khai trong máy tìm kiếm VietSeek Hỗ trợ các từ dừng ( stopword ) Từ dừng là các từ mà bản thân nĩ khơng cĩ ý nghĩa hồn chỉnh. Ví dụ :’is, are,at,this’. Việc tìm kiếm trên các từ dừng là hồn tồn vơ nghĩa, bởi vậy các từ dừng sẽ bị loại bỏ khỏi câu truy vấn. Các từ dừng cũng bị loại bỏ ra khỏi cơ sở dữ liệu trong suốt quá trình đánh chỉ mục, bởi vậy cơ sỡ dữ liệu sẽ nhỏ hơn và nhanh hơn. Khơng cĩ tập các từ dừng được xây dựng sẵn trong VietSeek, người sử dụng phải xây dựng tập hợp các từ dừng tương ứng với từng ngơn ngữ và lưu vào file. Hỗ trợ việc đốn nhận mã chữ cái Một số máy chủ bị hỏng hoặc do cấu hình sai sẽ khơng cho máy khách biết bộ mã chữ cái của tài liệu mà chúng cung cấp. Nếu người quản trị hệ thống tìm kiếm VietSeek đang đánh chỉ mục các máy chủ này, hay sử dụng VietSeek để đánh chỉ mục Thuật tốn phân lớp văn bản Web và thực nghiệm trong máy tìm kiếm VietSeek Khĩa luận tốt nghiệp đại học Đặng Thanh Hải 10 các máy chủ FTP (giao thức FTP khơng cho biết thơng tin về bộ mã chữ cái), bộ đốn nhận mã chữ cái cĩ thể được sử dụng để giải quyết điều này. Bộ đốn nhận sẽ sử dụng các bảng chứa tần số các từ ( được gọi là ‘langmaps’ ) để tìm ra tập chữ cái đúng. Hỗ trợ việc sử dụng “robots” của các máy chủ phục vụ Web Máy tìm kiếm VietSeek sẽ tiến hành kiểm tra một file đặc biệt trong thư mục gốc của mày chủ phục vụ Web cĩ tên là “robots.txt”. Nội dung của file “robots.txt” thơng báo cho máy tìm kiếm VietSeek khơng được thăm một tập hợp các trang Web cụ thể trên máy chủ này. File “robots.txt” sử dụng giao thức “Robots Exclusion Protocol”, giao thức này cho phép người quản trị Website cĩ thể xác định máy tìm kiếm nào khơng được thăm phần nào của site. Giao thức “Robots Exclusion Protocol” được miêu tả như sau: Ví dụ Ý nghĩa User-agent: * Disallow: Dấu (*) cĩ ý nghĩa “bất cứ máy tìm kiếm nào” User-agent: * Disallow: /cgi-bin/ Disallow: /tmp/ Disallow:/private/ Tất cả các máy tìm kiếm cĩ thể thăm tất cả các thư mục ngoại trừ ba thư mục đề cập ở đây User-agent: BadBot Disallow: / Máy tìm kiếm BadBot khơng được phép thăm bất cứ thư mục nào. User-agent: BadBot Disallow: / User-agent:* Disallow : /private/ Riêng máy tìm kiếm BadBot khơng được phép thăm bất cứ thư mục nào cịn tất cả các máy tìm kiếm cịn lại đều cĩ quyền thăm tất cả các thư mục ngoại trừ thư mục “private” Cĩ thể điều khiển việc sử dụng độ rộng băng thơng mạng Nhà quản trị hệ thống VietSeek cĩ thể điều khiển độ rộng băng thơng mạng để modul đánh chỉ mục sử dụng. Chính xác nhà quản trị máy tìm kiếm VietSeek cĩ thể giới hạn độ rộng băng thơng (số byte trên một giây ) được sử dụng bởi modul đánh chỉ mục trong một ngày xác định. Hỗ trợ chế độ đánh chỉ mục khơng đồng bộ theo thời gian thực Một số máy tìm kiếm yêu cầu việc tìm kiếm phải dừng lại trong suốt thời gian cập nhật cơ sở dữ liệu. VietSeek khơng yêu cầu điều này bằng cách hỗ trợ chế độ thời Thuật tốn phân lớp văn bản Web và thực nghiệm trong máy tìm kiếm VietSeek Khĩa luận tốt nghiệp đại học Đặng Thanh Hải 11 gian thực cho modul đánh chỉ mục. Trong chế độ thời gian thực chúng ta sử dụng một cơ sở dữ liệu giống hệt cơ sở dữ liệu ban đầu để lưu trữ nỗi dung đã được đánh chỉ số ngược của các trang Web. Tính năng này sẽ rất cĩ ích khi tiến hành xây dựng một máy tìm kiếm chuyên biệt cho các trang Web cĩ nội dung thay đổi liên tục ví dụ như các trang tin trực tuyến. Chú ý rằng số lượng tài liệu trong cơ sở dữ liệu thời gian thực bị giới hạn vào khoảng 1000 tài liệu. Nếu cĩ càng nhiều tài liệu trong cơ sở dữ liệu thời gian thực thì tốc độ index vào cơ sở dữ liệu chính sẽ càng bị chậm. Sắp xếp kết quả trả về theo độ liên qua hoặc theo ngày tháng Các máy tìm kiếm thường trả về các kết quả liên quan nhất trước tiên. Nhưng nếu muốn tìm kiếm các trang mới nhất, người dùng cĩ thể yêu cầu VietSeek sắp xếp kết quả trả về theo thời gian thay đổi gần đây nhất, do đĩ các trang Web bị thay đổi gần đây nhất sẽ được trình bày đầu tiên. Chắt lọc nội dung và tơ sáng các từ trong câu truy vấn khi trình bày kết quả tìm kiếm Với VietSeek người dùng cĩ thể tùy biến độ dài nội dung tổng quát cho các tài liệu. Mỗi tài liệu tìm thấy đều được đi kèm với một liên kết tới cơ sở dữ liệu của VietSeek. VietSeek lưu trữ một bản sao được nén của các tài liệu đã được xử lý, do đĩ người dùng cĩ thể xem tồn bộ nội dung của trang Web cả trong trường hợp các trang Web đĩ đã bị loại bỏ khỏi Website. Khả năng nhĩm các kết quả theo site Hỗ trợ các trang Web nhân bản (clone- origin) Hỗ trợ tìm kiếm tiếng Việt Tính năng này được phát triển bởi Bùi Quang Minh, bằng việc cài đặt thêm một số thuật tốn nhận dạng các chuẩn tiếng Việt và chuyển tất cả các chuẩn đĩ về cùng chuẩn UNICODE 1.3. Cấu trúc máy tìm kiếm VietSeek Như đã trình bày ở trên, vấn đề biểu diễn dữ liệu trong máy tìm kiếm là rất quan trọng. Biểu diễn các trang Web như thế nào để vừa cĩ khả năng lưu trữ được một số lượng khổng lồ các trang Web, vừa cho phép máy tìm kiếm thực hiện việc tìm Thuật tốn phân lớp văn bản Web và thực nghiệm trong máy tìm kiếm VietSeek Khĩa luận tốt nghiệp đại học Đặng Thanh Hải 12 kiếm nhanh chĩng và chính xác. Đối với máy tìm kiếm VietSeek, dữ liệu được tổ chức, lưu trữ trong cơ sở dữ liệu MySQL và hệ thống file nhị phân xác định. 1.3.1. Cơ sở dữ liệu sử dụng trong máy tìm kiếm VietSeek • Bảng wordurl: chứa các thơng tin về mỗi từ khĩa Tên trường Miêu tả word bản thân các từ khĩa,khơng phải từ dừng word_id Số định danh của từ(khĩa chính) urls Thơng tin về các site và các url mà từ khĩa này xuất hiện.Trường này sẽ rỗng nếu như kích thước của nĩ lớn hơn 1000 byte, trong trường hợp này thơng tin sẽ được lưu trữ trong các file nhị phân. urlcount Số lượng các url cĩ chứa từ khĩa này totalcount Tổng số lần xuất hiện của từ khĩa này trong tất cả các tài liệu mà nĩ xuất hiện Trong đĩ trường wordurl.urls và wordurl1.urls cĩ cấu trúc dữ liệu như sau: Địa chỉ tương đối Độ dài Miêu tả 0 4 Địa chỉ tương đối của vùng thơng tin URL cho site thứ nhất 4 4 Số định danh của site thứ nhất cĩ chứa từ khĩa này 8 4 Địa chỉ tương đối của vùng thơng tin URL cho site thứ hai 12 4 Số định danh của site thứ hai cĩ chứa từ khĩa này ....... .... ...................................................... (N-1)*8 4 Địa chỉ tương đối của vùng thơng tin URL cho site thứ N (N-1)*8+4 4 Số định danh của site thứ N cĩ chứ từ khĩa này (N-1)*8+12 4 Địa chỉ tương đối của cuối vùng thơng tin URL cho site thứ N. VÙNG THƠNG TIN URL 0 4 URLID của site thứ nhất cĩ chứa từ khĩa 4 2 Số lần xuất hiện của từ khĩa trong URLID này 6 2 Vị trí của lần xuất hiện thứ nhất 8 2 Vị trí của lần xuất hiện thứ hai ..... ... ...... 6+(N-1)*2 2 Vị trí của lần xuất hiện thứ N Lặp lại các thơng tin như trên cho các URL khác cĩ chứa từ khĩa này của site thứ nhất ................... .......................... .......................................... Lặp lại các thơng tin trên cho các URL cĩ chứa từ khĩa này của các site tiếp theo • Bảng urlword Chứa thơng tin về tất cả các URL đã hoặc chưa được đánh chỉ số bởi máy tìm kiếm VietSeek, thỏa mãn một điều kiện đặc biệt nào đĩ Thuật tốn phân lớp văn bản Web và thực nghiệm trong máy tìm kiếm VietSeek Khĩa luận tốt nghiệp đại học Đặng Thanh Hải 13 Tên trường Miêu tả url_id Số định danh của URL site_id Số định danh của site deleted =1 nếu máy chủ trả về lỗi 404 và tùy chọn “deleteBad” được thiết lập, hoặc cĩ thể do file “robots.txt” khơng cho phép được đánh chỉ số trang Web này url Nội dung của chính URL next_index_time Thời điểm tiếp theo cần index, tính theo giây status =Trạng thái HTTP trả về bởi máy chủ hoặc =0 nếu trang Web này chưa được đánh chỉ số crc chuỗi đại diện MD5 của tài liệu last_modified tiêu đề chứa thơng tin về lần thay đổi nội dung gần đây nhất(Last_Modified) được trả về từ máy chủ phục vụ Web etag tiêu đề “Etag” được trả về bởi máy chủ last_index_time thời điểm tiến hành đánh chỉ số cuối cùng referre Số định danh của URL tham chiếu đầu tiên đến trang Web này hops độ sâu của URL trong cây siêu liên kết redir =URLID mới nếu trang Web này bị chuyển hướng nếu khơng sẽ bằng 0 origin =URLID của trang Web ban đầu nếu trang Web này là một bản sao =0 nếu trang Web này khơng phải là bản sao • Bảng urlwordNN (với NN là các số 00,01,...15) Bảng này chứa thơng tin về các URL đang được đánh chỉ số. Số NN của bảng chính là URL_ID mod 16 Tên trường Miêu tả url_id Số định danh của URL deleted =1 nếu máy chủ trả về lỗi 404 và tùy chọn “deleteBad” được thiết lập, hoặc cĩ thể do file “robots.txt” khơng cho phép được đánh chỉ số trang Web này wordcount Số lượng các từ khác nhau trong nội dung đã được đánh chỉ số của URL totalcount Tổng tất cả các từ trong nội dung đã được đánh chỉ số của URL content-type Tiêu đề “Content-Type” được trả về bởi máy chủ charset Bộ chữ cái được sử dụng trong nội dung tài liệu, thơng tin này được lấy từ thẻ META title 128 ký tự đầu tiên trong tiêu đề của trang Web txt 255 ký tự đầu tiên,khơng tính các thẻ HTML, trong nội dung của trang Web docsize Kích thước của tài liệu description 100 ký tự đầu tiên trong phần mơ tả trang Web words Nội dung được nén của các URL hrefs Danh sách đã sắp xếp của các liên kết (URLID) tìm thấy trong phần đã được đánh chỉ số của trang Web này Thuật tốn phân lớp văn bản Web và thực nghiệm trong máy tìm kiếm VietSeek Khĩa luận tốt nghiệp đại học Đặng Thanh Hải 14 1.3.2. Hệ thống file nhị phân được sử dụng trong máy tìm kiếm VietSeek Hệ thống file tạm, delta Để nâng cao tốc độ của quá trình xây dựng cơ sở dữ liệu chỉ mục ngược cho tất cả các từ khĩa trong tồn bộ các trang Web đã được phân tích bởi bộ dị tìm, máy tìm kiếm VietSeek sử dụng hệ thống gồm 100 file nhị phân delta để lưu trữ nội dung đã được phân tích của các trang Web trong mỗi lần thực thi modul đánh chỉ mục. Một trăm file delta (d00,,d99) trong thư mục ‘usr/local/aspseek/var/aspseek12’ được dùng để thu thập các thơng tin về các URL mới hoặc bị thay đổi cho các từ khĩa. Sau khi tải một Url về, nội dung của nĩ sẽ được lưu vào 100 file ‘delta’. Chúng ta xem nội dung của 100 file ‘delta’ như là nội dung mới cần được trộn với nội dung cũ trong trường ‘wordurl.urls’. Để xây dựng chỉ số ngược chúng ta sẽ dùng nội dung của 100 file ‘delta’ để cập nhật nội dung trường ‘urls’ của bảng ‘wordurl’ cho các từ xuất hiện trong 100 file ‘delta’. File ‘delta’ thứ i sẽ chứa các từ khĩa thỏa mãn điều kiện ‘(word_ID mod 100)=i’. Các file delta cĩ cấu trúc như sau: Địa chỉ tương đối Độ dài Miêu tả 0 4 Site_id 4 8 Url_id 8 2 Số lượng các từ khác nhau trong Url_id này cĩ giá trị “word_id %100” bằng chỉ số của file 10 4 word_id 14 2 Số lần xuất hiện của từ khĩa này trong nội dung xác định bởi Url_id 16 2 Vị trí thứ nhất của từ ........ ........ ........ 16+(N-1)*2 2 Vị trí cuối cùng của từ ----Lặp lại các thơng tin trên cho các từ khĩa tiếp theo, bắt đầu bằng Word_ID---- ................. .................... .......................... ----------Lặp lại các thơng tin trên cho các URL khác, bắt đầu bằng Site_ID------- ........... ........................ ..................................... Hệ thống file lưu trữ chỉ mục ngược Với cơ sở dữ liệu chỉ mục ngược của các từ khĩa được lưu trữ trong cơ sở dữ liệu MySQL, quá trình tìm kiếm sẽ được thực hiện một cách nhanh chĩng. Tuy nhiên, kích thước của cơ sở dữ liệu chỉ mục ngược thường rất lớn và vượt quá khả năng lưu Thuật tốn phân lớp văn bản Web và thực nghiệm trong máy tìm kiếm VietSeek Khĩa luận tốt nghiệp đại học Đặng Thanh Hải 15 trữ của hệ quản trị cơ sở dữ liệu MySQL. Để giải quyết khĩ khăn này, máy tìm kiếm VietSeek sử dụng thêm hệ thống file nhị phân để lưu trữ cơ sở dữ liệu chỉ mục ngược. Với việc sử dụng thêm hệ thống file nhị phân này, máy tìm kiếm VietSeek sẽ cĩ khả năng lưu trữ cơ sở dữ liệu chỉ mục ngược cĩ kích thước khơng giới hạn. Cách thức lưu trữ dữ liệu chỉ số ngược trong máy tìm kiếm VietSeek được điều khiển bởi giá trị tham số CompactStorage. Tùy thuộc vào giá trị của tham số CompactStorage, chúng ta cĩ hai cơ chế lưu trữ như sau: 1. Cơ chế lưu trữ thơng thường Cơ chế này được sử dụng khi giá trị tham số CompactStorage bằng 0. Với cơ chế này, nếu kích thước dữ liệu chỉ số ngược (nội dung trường urlword.urls) tương ứng với một từ khĩa (word_id) nào đĩ lớn hơn 10000 byte, thì nĩ sẽ được lưu trong một file nhị phân cĩ tên trùng với ‘word_id’ của từ khĩa đĩ,và được đặt trong thư mục ‘/usr/local/aspseek/var/aspseek12/wNN, với NN=’word_id’ % 100. 2. Cơ chế lưu trữ CompactStorage Được sử dụng khi giá trị tham số CompactStorage bằng 1. Thay vì lưu trữ nội dung chỉ số ngược (trường “urlword.urls”) của các từ khĩa trong một file nhị phân riêng biệt, modul đánh chỉ mục sẽ kết hợp nội dung tất cả các file nhị phân cĩ trong thư mục ‘/usr/local/aspseek/var/aspseek12/wNN’ vào ba file nhị phân đặc biệt cĩ tên là ‘ind’, ‘urls’ và ‘sites’. Cấu trúc của ban file nhị phân này được mơ tả như hình (1.2): • File ‘ind’: dùng để lưu cấu trúc dữ liệu “WordInd” như sau: struct{ ULONG m_offset; ULONG m_siteCount; ULONG m_urlCount; ULONG m_totalCount; }WordInd; • File ‘sites’: dùng để lưu trữ cấu trúc dữ liệu “SiteInd” như sau: struct{ ULONG m_siteID; ULONG m_offset; }SiteInd; Thuật tốn phân lớp văn bản Web và thực nghiệm trong máy tìm kiếm VietSeek Khĩa luận tốt nghiệp đại học Đặng Thanh Hải 16 • File ‘urls’: dùng để lưu trữ vùng thơng tin về Url trong nội dung của trường ‘urlword.urls’ cho tất cả các từ khĩa, word_id của tất cả các từ khĩa này lập thành một cấp số cộng với cơng sai là d=100. File ‘urls’ cĩ cấu trúc như sau: (Giả sử file nằm trong thư mục “.../wNN”) Địa chỉ tương đối Độ dài Miêu tả 0 4 Url_id trong Site_id1 4 8 Số lần xuất hiện của từ cĩ “word_id”=NN 8 2 Vị trí lần xuất hiện thứ nhất 10 2 Vị trí lần xuất hiện thứ hai ..... ..... .............. 8+(N-1)*2 2 Vị trí lần xuấ hiện cuối cùng của từ Lặp lại các thơng tin như trên cho các Url_ID trong cùng một Site(Site_id1) cĩ chứa từ khĩa “word_id”=NN .............. ............. ........................... Lặp lại các thơng tin trên cho một Site khác(site_id2) cĩ chứa từ khĩa “word_id”=NN ................. .................... .......................... Lặp lại vùng thơng tin URl trên cho từ khĩa cĩ “word_id”=NN+100 ................ .......................... ..................................... • Mối liên hệ giữa ba file nhị phân: IND Site_id Offset ....... Site_id Offset Site_id Offset ..... Site_id Offset ............. Thơng tin về vùng Site của từ cĩ Thơng tin về vùng Site của từ cĩ word_id = NN word_id = NN+100 SITES Url_id Count 1st position .... n th pos ... Url_id Count 1st pos .... n th pos .... Url_id ..... Thơng tin về vùng Url của từ cĩ Thơng tin về vùng Url của từ cĩ word_id = NN word_id = NN+100 URLS Biểu diễn cho từ cĩ word id = NN Biểu diễn cho từ cĩ word id =NN+100 Offset SiteCount UrlCount TotalCount .... ...... ...... ...... Hình 1.2. Mối quan hệ giữa ba file nhị phân trong cơ chế CompactStorage Thuật tốn phân lớp văn bản Web và thực nghiệm trong máy tìm kiếm VietSeek Khĩa luận tốt nghiệp đại học Đặng Thanh Hải 17 File nhị phân ’ ./dev/zero’ Trong quá trình đánh chỉ số các trang Web, máy tìm kiếm VietSeek thường xuyên thêm mới các Url vào bảng ‘urlword’ và ‘urlwordNN”, hoặc xĩa các Url sẵn cĩ trong hai bảng đĩ (chỉ cĩ trong quá trình đánh chỉ mục theo cơ chế ‘CompactStorage’) Do vậy miền khơng gian các ‘Url_id’ hiện được sử dụng trong bảng ‘urlword’ sẽ khơng liên tục. Thơng thường khi thêm mới một Url, máy tìm kiếm VietSeek sử dụng cơ chế tự động tăng khĩa của hệ quản trị cơ sở dữ liệu MySQL. Nếu số lượng các trang Web cần đánh chỉ số là rất lớn (khoảng vài triệu trang) thì việc sử dụng cơ chế tự động tăng khĩa của hệ quản trị cơ sở dữ liệu MySQL sẽ khơng hợp lý, gây ra sữ lãng phí về tài nguyên ‘url_id’ dùng để cấp cho các trang Web. Trong nhiều trường hợp, cĩ thể khơng chèn được các trang Web mới vào cơ sở dữ liệu. VietSeek giải quyết vấn đề trên bằng cách lưu lại tất cả các ulr_id bị đánh dấu xĩa hoặc bị xĩa khỏi bảng urlword(urlwordsNN) trong file nhị phân ‘./dev/zero’. File ‘./dev/zero’ chứa cấu trúc ULONG(4 byte). Mỗi bít trong một ULONG được đánh chỉ số theo thứ tự tăng dần từ phải qua trái. Chỉ số của tất cả các bít trong file nhị phân này tăng liên tục từ trái sang phải trên tất cả các ULONG(4 byte). Cấu trúc và chức năng quản lý tài nguyên urlID của file ’./dev/zero’ theo thứ tự được thể hiện thơng qua lớp CDelMap và CDelMapReuse: Lớp CDelMap class CDelMap { public: ULONG*m_chunks[DELMAP_SIZE];///<Chứanộidungfile“./dev/zero” pthread_mutex_t m_mutex; ///< Mutex để đồng bộ hĩa các thao tác trên m_chunks int m_fd; ///< Số mơ tả file “.../dev/zero” } Trong cấu trúc m_chunks[DELMAP_SIZE] được mơ tả trong hình (1.3), mỗi bít được gán một chỉ số theo một qui tắc thống nhất, bít cĩ chỉ số thứ ‘i’ sẽ đại diện cho ‘Url_id = i’ theo qui tắc sau: Url_id = i sẽ bị đánh dấu xĩa trong bảng ‘urlword’ và bảng urlwordsNN tương ứng nếu giá trị của bít thứ ‘i’ bằng 1. Thuật tốn phân lớp văn bản Web và thực nghiệm trong máy tìm kiếm VietSeek Khĩa luận tốt nghiệp đại học Đặng Thanh Hải 18 Lớp CDelMapReuse Lớp CDelMapReuse được thiết kế để tối ưu việc sử dụng khơng gian “Url_id” để cấp phát cho các trang Web mới. Bằng cách lưu lại và cập nhật giá trị Url_id nhỏ nhất đã bị xĩa trong file nhị phân “./dev/zero”, VietSeek sẽ sử dụng Url_id nhỏ nhất này làm khĩa định danh cho các trang Web được chèn mới, thay vì sử dụng khĩa tự sinh ra do hệ quản trị cơ sở dữ liệu MySQL. class CDelMapReuse { public: int m_file; //< chỉ số mơ tả file “.../dev/zero” Hình 1.3. Cấu trúc biến thành viên DelMap::m chunks Bít 31 .......... Bit 0 Bít 63 ......... Bit 32 .............................................. 215 ULONG (15=DEL_CHUNK_SHIFT –3 –2) Bít 2*(1<<DEL_CHUNK_SHIFT) Bít 2*(1<<DEL_CHUNK_SHIFT)+31 ....... ..................... m_chunks[DELMAP_SIZE] ....... ..................... .... ... ... ... ... .. ... ... ... m_chunks NULL Thuật tốn phân lớp văn bản Web và thực nghiệm trong máy tìm kiếm VietSeek Khĩa luận tốt nghiệp đại học Đặng Thanh Hải 19 long m_length; //< Kích thước dữ liệu trong file “.../dev/zero” ULONG* m_map;//<Bộ đệm chứa nội dung của file ULONG m_urlID; //< Miền [ 0, m_urlID) khơng cĩ Url_id nào bị xĩa hoặc bị đánh dấu xĩa pthread_mutex_t m_mutex; //<mutex dùng để đồng bộ hĩa các thao tác trên bộ đệm ULONG Get(); ///<Lấy giá trị Url_id nhỏ nhất đã bị xĩa, hoặc bị đánh dấu xĩa void Put(ULONG urlID); ///<Thiết lập giá trị bít tương ứng với Url_id bằng 1, cập nhật lại giá trị m_urlID } 1.3.3. Bộ dị tìm trang Web (Crawler) trong máy tìm kiếm VietSeek Bộ dị tìm trang Web là một chượng trình cĩ nhiệm vụ dị tìm và tải về các trang Web mà nĩ bắt gặp trong quá trình hoạt động. Ban đầu, bộ dị tìm trang Web sẽ tải về nội dung của một địa chỉ Url ban đầu (Url hạt nhân), phân tích nội dung Url này qua đĩ tìm ra tất cả các siêu liên kết trỏ tới các trang Web khác. Tất cả các siêu liên kết tìm thấy này sẽ được lưu trữ trong một hàng đợi theo một chiến lược nhất định. Sau khi phân tích xong nội dung một Url, bộ dị tìm trang Web sẽ tiến hành lấy địa chỉ Url đầu tiên trong hàng đợi ra để tiếp tục hoạt động. Quá trình này sẽ được thực hiện cho tới khi thỏa mãn một điều kiện cụ thể nào đĩ hoặc hàng đợi rỗng, tức là khơng cĩ địa chỉ Url nào để tải về. Như vậy cĩ thể kết luận rằng bộ dị tìm trang Web là một chương trình duyệt cây Website theo chiều rộng. Trong máy tìm kiếm VietSeek, bộ dị tìm trang Web cĩ các đặc điểm sau: Danh sách các Url hạt nhân được lấy từ lệnh ‘Server’ trong quá trình tải file cấu hình ‘vinahoo.conf’ Sử dụng hàng đợi (m_queue) cĩ cấu trúc CSitesQueue Mỗi urlID trong hàng đợi được gắn với hai trọng số đánh giá: độ sâu của trang Web trong cây Website và giá trị thời gian đánh chỉ mục tiếp theo (next_index_time) Sơ đồ tổng quát quá trình hoạt động của bộ dị tìm trong máy tìm kiếm VietSeek được trình như hình (1.4): Thuật tốn phân lớp văn bản Web và thực nghiệm trong máy tìm kiếm VietSeek Khĩa luận tốt nghiệp đại học Đặng Thanh Hải 20 • Hàng đợi m_queue Hàng đợi m_queue được khởi tạo với tư cách là một biến thành viên của lớp ‘CMySQLDatabaseI’. Nĩ là một thể hiện của lớp CSiteQueues và cĩ thể được mơ tả bằng hình (1.5): m_first m_last 1 100 m_first m_last 1 100 m_first m_last 1 100 UrlLink Site_id Site_id Site id CSiteUrl m_first m_last Hàng đợi các Url thuộc Site_id m_first m_last m_current m_currentFail Hình 1.5. Cấu trúc hàng đợi m_queue Url id Url id url hạt nhân Tải nội dung file cấu hình ‘vinahoo.conf’ Lưu vào hàng đợi và cơ sở dữ liệu Lấy thơng tin về tài liệu tiếp theo cần đánh chỉ mục Tải trang Web về và tạo chỉ số xuơi và lưu vào 100 file tạm deta d/sách hàng đợi m_queue Hình 1.4. Sơ đồ tổng quát quá trình hoạt động của VietSeek Crawler Thuật tốn phân lớp văn bản Web và thực nghiệm trong máy tìm kiếm VietSeek Khĩa luận tốt nghiệp đại học Đặng Thanh Hải 21 • Chiến lược dị tìm trang Web trong máy tìm kiếm VietSeek Bộ dị tìm trang Web trong máy tìm kiếm VietSeek cĩ hai chiến lược hoạt động dựa trên nguyên tắc lưu trữ các urlID trong hàng đợi ‘ m_queue’. 1. Chiến lược thứ nhất Bộ dị tìm tiến hành dị tìm các trang Web theo độ ưu tiên về giá trị thời gian đánh chỉ mục tiếp theo (next_index_time). Với chiến lược này, các urlID trong hàng đợi m_queue được sắp xếp theo thứ tự tăng dần của giá trị next_index_time. Tại một thời điểm nào đấy, máy tìm kiếm VietSeek sẽ chọn urlID cĩ giá trị next_index_time bé nhất trong tất cả các urlID, đang cần được đánh chỉ mục, là trang Web tiếp theo sẽ được đánh chỉ mục. Đặc trưng của chiến lược phần này cĩ thể được mơ tả thơng qua sơ đồ thuật tốn lấy urlID tiếp theo từ hàng đợi m_queue để tiến hành đánh chỉ mục trong hình (1.6) 2. Chiến lược thứ hai Bộ dị tìm tiến hành dị tìm các trang Web trước tiên theo độ ưu tiên về độ sâu trang Web và sau đĩ theo độ ưu tiên về giá trị thời gian đánh chỉ mục tiếp theo (next_index_time). Trong chiến lược này, các urlID trong hàng đợi m_queue được sắp xếp theo thứ tự tăng dần của giá trị độ sâu trong cây Website. Trong cùng một độ sâu, các urlID lại được sắp xếp theo thứ tự tăng dần của giá trị next_index_time. Tại một thời điểm nào đấy, máy tìm kiếm VietSeek sẽ chọn urlID cĩ giá trị next_index_time bé nhất trong tất cả các urlID thuộc về độ sâu thấp nhất, đang cần được đánh chỉ mục, là trang Web tiếp theo sẽ được đánh chỉ mục. Đặc trưng của chiến lược thứ hai này phần nào cĩ thể được mơ tả thơng qua sơ đồ thuật tốn lấy urlID tiếp theo từ hàng đợi m_queue để tiến hành đánh chỉ mục trong hình 1.7 1.4. Mơ hình hoạt động của máy tìm kiếm VietSeek 1.4.1 Modul đánh chỉ mục các trang Web Mơ hình mức cao(Hình 1.8) Mơ hình mức thấp (Hình 1.9) kết quả DS các sites nếu thay đổi Internet Index File cấu hình CSDL lấy 1 URL 2 3 1 4 Hình 1.8. Mơ hình hoạt động mức cao của modul index Thuật tốn phân lớp văn bản Web và thực nghiệm trong máy tìm kiếm VietSeek Khĩa luận tốt nghiệp đại học Đặng Thanh Hải 22 Tải file cấu hình 1.Khởi tạo biến “Hrefs” 2.Khởi tạo biến “ServerD” 1.Khởi tạo biến “resolverList” 2. Tạo cơ sở dữ liệu nếu chưa tồn tại 3. Lưu nội dung “Hrefs” vào CSDL, hàng đợi Hàng đợi rỗng? Lấy thơng tin tài liệu tiếp theo để đánh chỉ số Tìm thơng tin về Server chứa tài liệu này Nội dung mới khác n/d cũ thơng tin về tài liệu 1.Xĩa nội dung tài liệu trong file delta 2.Đánh dấu xĩa url DomainName Resolving Tải nội dung mới của tài liệu IP Phân tích nội dung mới Đọc và phân tích nội dung cũ từ CSDL Lưu nội dung mới vào CSDL <Một số điều kiện> N 1.Kết hợp nội dung cũ vào nội dung mới và lưu vào file delta Lưu các siêu liên kết tìm thấy vào file nhị phân 010101 File nhị phân Database url Database Database nội dung url_id Internet Request content siêu liên kết Từ vựng Y Y N Y N 1.Xây dựng dữ liệu chỉ số ngược 2.Tính hạng tất cả Wp END Database Hàng đợi Hình 1.9. Mơ hình hoạt động mức thấp của modul index Hàng đợi Bộ đệm từ vựng ResoverList Thuật tốn phân lớp văn bản Web và thực nghiệm trong máy tìm kiếm VietSeek Khĩa luận tốt nghiệp đại học Đặng Thanh Hải 23 BEGIN Số lượng các Site chưa được kết nối trong hàng đợi < numthreads *4 1.Lấy ra tất cả các url trong bảng “urlword” thỏa mãn điều kiện : m_maxtime < ”next_index_time” <= now(), sắp xếp theo thứ tự tăng dần của “next_index_time” và lưu một số lượng nhất định các Url đầu tiên vào hàng đợi CSQLDatabaseI::m_queue 2.Cập nhật giá trị CSQLDatabaseI::m_maxtime 3.numr <= Số lượng các Url được thêm mới vào hàng đợi CSQLDatabaseI::m_queue Y numr > 0 1.Lọc ra các Url thỏa mãn điều kiện “next_index_time”=maxtime 2.Lưu một số lượng nhất định các Url này vào hàng đợi 3.Cập nhật giá trị CSQLDatabaseI::m_maxtime Y Lấy và trả về Url_id đầu tiên trong hàng đợi CSQLDatabaseI::m_queue END Hình 1.6. Chiến lược lấy urlID tiếp theothứ nhất để tiến hành đánh chỉ mục numthreads Thuật tốn phân lớp văn bản Web và thực nghiệm trong máy tìm kiếm VietSeek Khĩa luận tốt nghiệp đại học Đặng Thanh Hải 24 Hình 1.7. Chiến lược lấy urlID tiếp theothứ hai để tiến hành đánh chỉ mục BEGIN (Số lượng các Site chưa được kết nối trong hàng đợi < numthreads *4) AND (m_maxhops < 65536) 1.maxtime <= giá trị “next_index_time” lớn nhất trong tất cả các trang Web cĩ cùng độ sâu bằng m_maxhops, xuất hiện trong hàng đợi Y maxtime < now 1.Lọc ra các Url thỏa mãn điều kiện maxtime<“next_index_time”<=now() và hops=m_maxhops 2.Sắp xếp theo thứ tự tăng dần của “next_index_time” 3.Lưu một số lượng nhất định các Url đầu tiên vào hàng đợi CSQLDatabaseI::m_queue 4.Cập nhật giá trị CSQLDatabaseI::m_maxtime 5. numr <= số lượng các Url được thêm vào hàng đợi Y Lấy và trả về Url_id đầu tiên trong hàng đợi CSQLDatabaseI:: m_queue END 1.Lọc ra các Url thỏa mãn điều kiện “next_index_time”=maxtime và hops = m_maxhops 2.Lưu một số lượng nhất định các Url này vào hàng đợi 3.Cập nhật giá trị CSQLDatabaseI::m_queue numr > 0 Y m_maxhops <=m_maxhops+1 numthreads Thuật tốn phân lớp văn bản Web và thực nghiệm trong máy tìm kiếm VietSeek Khĩa luận tốt nghiệp đại học Đặng Thanh Hải 25 Chương 2. KHAI PHÁ DỮ LIỆU WEB TRONG MÁY TÌM KIẾM 2.1. Quá trình khai phá dữ liệu Web Hệ thống các Website trên Internet được xem như là một trung tâm dịch vụ thơng tin tồn cầu rộng lớn, phân tán một cách rỗng rãi, về mọi mặt của đời sống xã hội như tin tức, quảng cáo, thơng tin khách hàng, quản lý tài chính, giáo dục, chính phủ, thương mại điện tử, và nhiều dịch vụ thơng tin khác. Ngồi ra, nội dung các trang Web cũng bao hàm một tập hợp phong phú, luơn biến đổi khơng ngừng các siêu liên kết, các truy xuất trang Web và các thơng tin sử dụng trang Web. Chính những thơng tin này là nguồn tài nguyên phong phú cho quá trình khai phá dữ liệu (data mining). Tuy nhiên, dựa trên các đặc điểm được trình bày sau đây, chúng ta thấy rằng hệ thống các Website cịn ẩn chứa rất nhiều thách thức cho quá trình khai phá tri thức: Hệ thống trang Web dường như quá lớn để phục vụ một cách cĩ hiệu quả quá trình xây dựng kho dữ liệu (data warehouse), cũng như quá trình khai phá dữ liệu (data mining) Các CSDL truyền thống thường cĩ kích thước khơng lớn lắm và được lưu trữ tập trung ở một nơi. Trong khi đĩ kích thước Web rất lớn, tới hàng terabytes và thay đổi liên tục, khơng những thế cịn phân tán trên rất nhiều máy tính khắp nơi trên thế giới. Một vài nghiên cứu về kích thước của Web đã đưa ra các số liệu như sau: Hiện nay trên Internet cĩ khoảng hơn một tỷ các trang Web được cung cấp cho người sử dụng., giả sử kích thước trung bình của mỗi trang là 5-10Kb thì tổng kích thước của nĩ ít nhất là khoảng 10 terabyte[2]. Cịn tỷ lệ tăng của các trang Web thì thật sự gây ấn tượng. Hai năm gần đây số các trang Web tăng gấp đơi và cịng tiếp tục tăng trong hai năm tới. Nhiều tổ chức và xã hội đặt hầu hết những thơng tin cơng cộng của họ lên Web. Như vậy việc xây dựng một kho dữ liệu (datawarehouse) để lưu trữ, sao chép hay tích hợp các dữ liệu trên Web là gần như khơng thể Độ phức tạp của trang Web lớn hơn rất nhiều so với những tài liệu văn bản truyền thống khác Các dữ liệu trong các CSDL truyền thống thì thường là loại dữ liệu đồng nhất (về ngơn ngữ, định dạng,…), cịn dữ liệu Web thì hồn tồn khơng đồng nhất. Ví dụ về Thuật tốn phân lớp văn bản Web và thực nghiệm trong máy tìm kiếm VietSeek Khĩa luận tốt nghiệp đại học Đặng Thanh Hải 26 ngơn ngữ dữ liệu Web bao gồm rất nhiều loại ngơn ngữ khác nhau (Cả ngơn ngữ diễn tả nội dung lẫn ngơn ngữ lập trình), nhiều loại định dạng khác nhau (Text, HTML, PDF, hình ảnh âm thanh,…), nhiều loại từ vựng khác nhau (Địa chỉ Email, các liên kết (links), các mã nén (zipcode), số điện thoại) Nĩi cách khác, trang Web thiếu một cấu trúc thống nhất. Chúng được coi như một thư viện kỹ thuật số rộng lớn, tuy nhiên con số khổng lồ các tài liệu trong thư viện thì khơng được sắp xếp tuân theo một tiêu chuẩn đặc biệt nào, khơng theo phạm trù, tiêu đề, tác giả, số trang hay nội dung,... Điều này là một thử thách rất lớn cho việc tìm kiếm thơng tin cần thiết trong một thư viện như thế. Web là một nguồn tài nguyên thơng tin cĩ độ thay đổi cao Web khơng chỉ cĩ thay đổi về độ lớn mà thơng tin trong chính các trang Web cũng được cập nhật liên tục. Theo kết quả nghiên cứu , hơn 500.000 trang Web trong hơn 4 tháng thì 23% các trang thay đổi hàng ngày, và khoảng hơn 10 ngày thì 50% các trang trong tên miền đĩ biến mất, nghĩa là địa chỉ URL của nĩ khơng cịn tồn tại nữa[2]. Tin tức, thị trường chứng khốn, các cơng ty quản cáo và trung tâm phục vụ Web thường xuyên cập nhật trang Web của họ. Thêm vào đĩ sự kết nối thơng tin và sự truy cập bản ghi cũng được cập nhật Web phục vụ một cộng đồng người dùng rộng lớn và đa dạng Internet hiện nay được nối với khoảng 50 triệu trạm làm việc, và cộng đồng người dùng vẫn đang nhanh chĩng lan rộng[2]. Mỗi người dùng cĩ nền tảng kiến thức, mối quan tâm, sở thích khác nhau. Nhưng hầu hết người dùng khơng cĩ kiến thức tốt về cấu trúc mạng thơng tin, hoặc khơng ý thức được cơng sức của quá trình tìm kiếm, rất dễ bị "lạc" khi đang "mị mẫm"trong "bĩng tối" của mạng hoặc dễ cảm thấy chán khi tiến hành tìm kiếm mà chỉ nhận những mảng thơng tin khơng mấy hữu ích. Chỉ một phần rất nhỏ của thơng tin trên Web là thực sự hữu ích. Theo thống kê, 99% của thơng tin Web là vơ ích với 99% người dùng Web[2]. mặc dù điều này cĩ thể khơng chính xác, nhưng cĩ một sự thật là mỗi người dùng nhất định chỉ quan tâm đến một phần nhỏ lượng thơng tin trên Web, trong khi phần cịn lại chứa những thơng tin khơng phù hợp với nhu cầu của người dùng lại cĩ thể xuất hiện Thuật tốn phân lớp văn bản Web và thực nghiệm trong máy tìm kiếm VietSeek Khĩa luận tốt nghiệp đại học Đặng Thanh Hải 27 trong kết quả tìm kiếm. Vậy thì ta cần phải khai phá Web như thế nào để nhận được trang web chất lượng cao nhất theo tiêu chuẩn của người dùng? Tất cả những thách thức trên đã thúc đẩy lĩnh vực khai phá dữ liệu Web (web mining) phát triển một cách mãnh mẽ trong những năm gần đây. Hiện nay cĩ rất nhiều máy tìm kiếm dựa trên quá trình đánh chỉ mục các trang Web, chúng được xây dựng và lưu trữ cơ sở dữ liệu chỉ mục ngược của tất cả các từ khĩa nhằm mục đích xác định tập hợp các trang Web cĩ chứa các từ khĩa nhất định. Với những máy tìm kiếm như thế, một người dùng cĩ kinh nghiệm trong quá trình tìm kiếm cĩ thể nhanh chĩng tìm thấy các tài liệu mong muốn bằng cách cung cấp một tập hợp các từ khĩa hoặc cụm từ khĩa. Mặc dù vậy, các máy tìm kiếm dựa trên từ khĩa vẫn cịn một vài thiếu sĩt. Thứ nhất, một chủ đề cĩ thể bao gồm hàng trăm ngàn tài liệu. Do đĩ, một số lượng rất lớn các tài liệu cĩ thể được trả về bởi máy tìm kiếm, tuy nhiên phần lớn các tài liệu đĩ cĩ thể liên quan rất ít hay thậm chí khơng liên quan đến yêu cầu của người dùng. Thứ hai, cĩ thể cĩ nhiều tài liệu thực sự liên quan đến yêu cầu tìm kiếm của người dùng nhưng lại khơng được trả về bởi máy tìm kiếm, bởi vì các tài liệu đĩ khơng chứa các từ khĩa tìm kiếm. Điều này cho thấy rằng, các máy tìm kiếm hiện tại chưa đáp ứng đầy đủ cho quá trình khai phá dữ liệu Web. 2.2. Các nội dung liên quan đến khai phá dữ liệu Web 2.2.1. Khai phá nội dung trang Web (Web Content mining) Quá trình khai phá nội dung trang Web liên quan đến các vấn đề như khai phá chính bản thân nội dung của trang web (text mining) mà khơng tính đến các siêu liên kết, nghiên cứu và xây dựng hệ thống tìm kiếm trang web theo yêu cầu người dùng. Ngồi ra, một cơng việc khơng kém phần quan trọng của quá trình khai phá nội dung trang web là tính hạng các trang web trả về theo kết quả tìm kiếm. 2.2.2. Khai phá cấu trúc của hệ thống các trang web (web structure mining) Là quá trình khám phá ra các thơng tin cĩ ích từ cấu trúc siêu liên kết trong hệ thống các trang web. 2.2.3. Khai phá quá trình sử dụng Web (WebUusage Mining) Thuật tốn phân lớp văn bản Web và thực nghiệm trong máy tìm kiếm VietSeek Khĩa luận tốt nghiệp đại học Đặng Thanh Hải 28 Quá trình này chủ yếu cĩ chức năng lưu trữ và phân tích tiểu sử của người dùng, để từ đĩ cĩ khả năng hỗ trợ tốt hơn với từng loại người dùng. 2.3. Cơ sở dữ liệu Fulltext 2.3.1 Giới thiệu về cơ sở dữ liệu Fulltext Cơ sỡ dữ liệu Fulltext là cơ sở dữ liệu phi cấu trúc mà dữ liệu chứa trong đĩ bao gồm các nội dung text và các thuộc tính về tài liệu văn bản của nội dung đĩ. Dữ liệu trong cơ sở dữ liệu Fulltext thường được tổ chức thành hai phần: phần cơ sở dữ liệu thơng thường quản lý thuộc tính của tài liệu, và phần tập hợp nội dung của các tài liệu được quản lý. Chúng ta cĩ thể hình dung một cơ sở dữ liệu Fulltext được tổ chức như hình (2.2)[6]: Web Mining Web Content Mining Web Structure Mining Web Usage Mining Text Mining Information Retrieval System Hình 2.1. Các nội dung chính của quá trình khai phá dữ liệu Web Cơ sở dữ liệu Fulltext CSDL về thuộc tính tài liệu Tập hợp nội dung các tài liệu Hình 2.2. Mơ hình tổ chức cơ sở dữ liệu Fulltext Thuật tốn phân lớp văn bản Web và thực nghiệm trong máy tìm kiếm VietSeek Khĩa luận tốt nghiệp đại học Đặng Thanh Hải 29 Trong trường hợp phổ biến, nội dung tài liệu được lưu trữ gián tiếp trong cơ sở dữ liệu theo nghĩa hệ thống chỉ quản lý các con trỏ(địa chỉ) trỏ tới các địa chỉ chứa nội dung tài liệu (một ví dụ dễ thấy nhất là mạng Internet, các trang Web thường lưu giữ các địa chỉ tới nơi cĩ lưu nội dung cụ thể). Cịn các con trỏ (địa chỉ) và các thuộc tính khác về nĩ được lưu trữ trực tiếp trong cơ sở dữ liệu bằng hệ quản trị cơ sở dữ liệu cĩ cấu trúc. Nội dung của dữ liệu Fulltext (văn bản) khơng cĩ cấu trúc nội tại, được coi như là một dãy các từ, các dấu ngăn cách. Ngữ nghĩa của văn bản được quyết định dựa trên ngữ nghĩa của các từ mang nghĩa cĩ trong văn bản (các từ này được gọi là từ khĩa) và cách bố trí các từ khĩa đĩ trong văn bản. Do khơng cĩ cấu trúc nên bài tốn “tổ chức theo cấu trúc hồn tồn” các từ khĩa trong văn bản là khơng thích hợp do tính quá phức tạp khi thực hiện điều đĩ. Do đĩ phổ biến hiện hơn người ta sử dụng các phương pháp biểu diễn ngữ nghĩa văn bản thơng qua tập các từ khĩa cĩ trong văn bản đĩ. Phần lớn tri thức của lồi người được lưu trữ bằng cơ sở dữ liệu Fulltext như sách báo, tạp chí, bài viết. Ngày nay do sự phát triển như vũ bào của cơng nghệ thơng tin và mạng Internet, cơ sở dữ liệu nĩi chung và cơ sở dữ liệu Fulltext nĩi riêng đang tăng lên với một tốc độ rất nhanh, vượt ra khỏi sự kiểm sốt của con người. Việc nghiên cứu các phương pháp tổ chức, lưu trữ và biểu diễn cơ sở dữ liệu Fulltext (trang văn bản) đã, đang ,và sẽ là một lĩnh vực cĩ tính thời sự nhằm mục đích nâng cao khả năng khai phá tri thức để từ đĩ đáp ứng được tốt hơn nhu cầu thực tiễn của con người. 2.3.2. Quá trình xử lý từ vựng Là quá trình cần được thực hiện trước khi tiến hành đánh chỉ mục các tài liệu hay trước quá trình chuyển tài liệu sang một mơ hình biểu diễn nào đĩ, nhằm mục đích thu được tất cả các từ đơn cũng như các cụm từ cĩ mặt trong tài liệu. Ngồi ra quá trình này cũng nhằm loại bỏ các siêu dữ liệu và các thành phần cĩ cấu trúc hoặc cĩ chuẩn biểu diễn. Mặc dù đây là một vấn đề dễ hiểu, tuy nhiên trong thực tế chúng ta lại gặp rất nhiều khĩ khăn khi tiến hành phân tích từ vựng đối với các trang văn bản cĩ định dạng PS, PDF,...,và một số lượng lớn các định dạng văn bản khơng được cơng bố. Thơng thường các thẻ gắn với trang HTML cĩ thể được khai thác để ánh xạ tài liệu vào một biểu diễn bán cấu trúc bằng việc để ý tới sự xuất hiện của các từ trong các thành phần đặc biệt của tài liệu. Phương pháp biểu diễn này cho phép trả lời các câu hỏi phức tạp của người dùng như “Tìm các tài liệu cĩ chứa từ dân số trong phần đầu và từ gia đình trong câu tiêu đề?”. Quá trình xây dựng biểu diễn bán cấu trúc từ trang tài liệu HTML về mặt lý thuyết là rất đơn giản, vì các thẻ HTML sẽ cung cấp tất cả các Thuật tốn phân lớp văn bản Web và thực nghiệm trong máy tìm kiếm VietSeek Khĩa luận tốt nghiệp đại học Đặng Thanh Hải 30 thơng tin cĩ cấu trúc. Tuy nhiên, chúng ta phải chú ý rằng mặc dù cấu trúc ngữ pháp của HTML đã được định nghĩa một cách rõ ràng, tuy nhiên hầu hết các trình duyệt Web đều khơng kiểm tra tính đúng đắn về mặt cấu trúc một cách chặt chẽ. Do đĩ bộ phân tích từ vựng phải cĩ khả năng bỏ qua các lỗi cấu trúc và phục hồi lại các thơng tin cĩ ích. Sau khi đã thu được tất cả các từ vựng cĩ mặt trong tài liệu, chúng ta cĩ thể tiến hành chắt lọc nội dung tài liệu và giảm kích thước bộ từ vựng bằng các cách sau: Loại bỏ các dấu câu, các ký tự đặc biệt Chuyển tất cả các ký tự in hoa về dạng chữ thường. Loại bỏ các từ phát sinh, chỉ lưu từ gốc trong số chúng vào bộ từ vựng , ví dụ như: fish, fishes, fisher và fishers Với mỗi từ khĩa, chúng ta sẽ lưu lại các từ phát sinh từ nĩ nhằm nâng cao khả năng tìm kiếm. Ví dụ: fish ==>(fisher, fishes,fishing) Loại bỏ các từ dừng như các giới từ, trạng từ, liên từ. Sau quá trình này, một bộ từ điển các từ khĩa sẽ được tạo ra và cĩ cấu trúc như hình (2.3). Máy tính Security Sách protected DocID Offset 2 57 3 245 2 78 2 83 1 278 1 319 3 142 3 167 DocID=1 DocID=2 DocID=3 Hình 2.3. Cấu trúc chung của một bộ từ điển từ vựng Thuật tốn phân lớp văn bản Web và thực nghiệm trong máy tìm kiếm VietSeek Khĩa luận tốt nghiệp đại học Đặng Thanh Hải 31 2.3.3. Mơ hình khơng gian vector Các trang tài liệu văn bản cĩ thể được biểu diễn một cách đơn giản trong khơng gian vector nhiều chiều, trong đĩ mỗi từ vựng được gắn với một thành phần của vector. Cụ thể, mỗi tài liệu d cĩ thể được biểu diễn như là một chuỗi các từ khĩa: )||,......,2,1( ωωω dd = , trong đĩ |d| là độ dài của tài liệu và ω i là một từ khĩa thứ i trong bộ từ vựng. Một biểu diễn vector của d khi đĩ sẽ được định nghĩa như là một vector Rx V ||∈ , trong đĩ mỗi thành phần x j biểu diễn sự liên quan về mặt thống kê tới sự xuất hiện của từ khĩa thứ j trong tài liệu. Mơ hình biểu diễn vector đơn giản nhất là mơ hình lơgic 0-1, ví dụ { }1,0∈x j sẽ cho chúng ta biết từ khĩa thứ j cĩ xuất hiện trong tài liệu hay khơng. Mơ hình biểu diễn vector thường được đề cập như là cái túi chứa từ khĩa (bag of words) nhằm nhấn mạnh rằng vector biểu diễn tài liệu khơng phụ thuộc vào thứ tự các từ khĩa trong tài liệu. Mặc dù đây là một phương pháp đơn giản, khơng chặt chẽ đối với cơ sở lý thuyết thơng tin, nhưng nhiều hệ thống phân loại và tìm kiếm văn bản trong thực tế đã hoạt động tương đối tốt với mơ hình vector. Chú ý rằng, số lượng các từ khĩa trong tập tất cả các tài liệu thường lớn hơn rất nhiều so với số lượng các từ khác nhau trong một tài liệu cụ thể, |V|>>|d|, bởi vậy biểu diễn vector của tài liệu cĩ xu hướng phân bố rất lỗng trong khơng gian |V| chiều. Đặc tính này cĩ thể được khai thác triệt để cho việc lưu trữ lẫn thiết kế thuật tốn. Mơ hình vector Boolean cĩ thể được mở rộng bằng việc xem xét các trọng số cĩ giá trị cụ thể đi kèm với mỗi từ khĩa trong tài liệu. Lúc này Njx ∈ chính là số lần xuất hiện của từ khĩa thứ j trong tài liệu tương ứng đang xét. Ngồi ra x j cĩ thể được nhân với một hằng số 1/|d| để xây dựng vector tần số xuất hiện (TF) của tất cả từ khĩa trong tài liệu. Cĩ một lược đồ đánh trọng số quan trọng khác nhằm kết hợp tần số xuất hiện của các từ khĩa (trong một tài liệu nhất định) với số đo độ quan trọng của từ khĩa, được gọi là IDF(Inverse Document Frequency)[3]. Với một tập hợp các tài liệu cho trước, IDF sẽ giảm khi số lượng các tài liệu cĩ chứa từ khĩa tăng lên. Do vậy các từ ít xuất hiện trong tập hợp tài liệu cho trước này sẽ được đánh trọng số cao. Thuật tốn phân lớp văn bản Web và thực nghiệm trong máy tìm kiếm VietSeek Khĩa luận tốt nghiệp đại học Đặng Thanh Hải 32 Giả sử { }dddD n,.....,2,1= là tập hợp các trang văn bản cho trước, nij là số lần xuất hiện của từ khĩa ω j trong tài liệu d i và n j là số tài liệu cĩ chứa từ khĩa ω j ít nhất một lần. Khi đĩ[3]: n n IDF d n TF j i ij j ij log || = = Hàm logarit được sử dụng như là hệ số hãm. Trọng số TF-IDF (Salton et al.1983) của từ khĩa ω j trong tài liệu d i cĩ thể được tính theo cơng thức sau: IDFTFx jijij *= hoặc là[3]: IDF IDF TF TF x kdik j ikdik ij ij maxmax * ∈∈ = ωω 2.3.4. Độ gần nhau giữa các tài liệu Chúng ta cĩ thể định nghĩa độ gần nhau của hai tài liệu d và d’ như là một hàm s(d, d’) ∈R. Hàm này sẽ cho phép chúng ta đánh giá độ tương tự của tài liệu so với câu truy v vấn.Với mơ hình khơng gian vector chúng ta sẽ cĩ kết quả như sau[3]: '*'* '* '. '*)',cos()',( . xxxx xx xx xxxxdds === Trong đĩ X, X’ là hai biểu diễn vector tương ứng của các tài liệu d và d’ Thuật tốn phân lớp văn bản Web và thực nghiệm trong máy tìm kiếm VietSeek Khĩa luận tốt nghiệp đại học Đặng Thanh Hải 33 2.3.5. Vấn đề từ đồng nghĩa và đa ngơn ngữ trong mơ hình vector Giải pháp cho vấn đề từ đồng nghĩa và đa ngơn ngữ trong bài tốn khai phá dữ liệu Fulltext được thực hiện bằng cách liệt kê danh sách các từ đồng nghĩa đối với mỗi từ khĩa trong bộ từ điển. Các từ đồng nghĩa được gắn với một trọng số thể hiện sự tương quan về mặt ngữ nghĩa giữa chúng với nhau. Cụ thể, trong một nhĩm các từ đồng nghĩa, mặc dù cùng biểu đạt một nội dung nhưng vì một số từ cĩ thể được sử dụng nhiều hơn các từ khác trong nhĩm, do đĩ vai trị ngữ nghĩa của các từ cĩ thể sẽ khác nhau. Ví dụ: trong nhĩm từ đồng nghĩa (du lịch, du ngoạn, du hành) thì từ du lịch được sử dụng nhiều hơn các từ cịn lại. Sau khi đã phân tích như trên ta cĩ thể biểu diễn hệ số của các từ trong nhĩm từ đồng nghĩa trên như sau: Từ ‘du lịch’ cĩ hệ số = 1.0 Từ ‘du ngoạn’ cĩ hệ số = 0.8 Từ ‘du hành’ cĩ hệ số = 0.7 Từ ‘travel’ cĩ hệ số = 1.0 Từ ‘tour’ cĩ hệ số = 0.9 Việc thống kê các từ đồng nghĩa và đánh giá về hệ số của các từ đồng nghĩa trong nhĩm là một việc khá phức tạp địi hỏi phải cĩ một số kiến thức về ngữ nghĩa của từ trong nhiều thứ tiếng. Vì vậy các nhĩm từ đồng nghĩa trong hệ thống cần phải thơng qua sự đánh giá bởi những nhà ngơn ngữ học. Trong hệ thống tìm kiếm, mỗi từ thuộc câu hỏi đưa vào, việc tìm kiếm sẽ được tiến hành khơng chỉ trên các từ được hỏi mà cịn được tìm kiếm trên tất cả các từ đồng nghĩa với nĩ trong bảng từ đồng nghĩa. Ngồi ra, cách tính các thành phần của vector biểu diễn tài liệu trong bài tốn sử dụng từ đồng nghĩa cũng khác so với cách tính trong bài tốn thơng thường, và được tính theo cách sau: Giả sử trong một nhĩm từ đồng nghĩa gồm : Từ thứ nhất với hệ số là H1 Từ thứ hai với hệ số là H2 ............................... Từ thứ n với hệ số là Hn Thuật tốn phân lớp văn bản Web và thực nghiệm trong máy tìm kiếm VietSeek Khĩa luận tốt nghiệp đại học Đặng Thanh Hải 34 Khi đĩ độ sai khác về nghĩa của từ thứ i so với từ thứ j trong nhĩm trên được tính theo cơng thức sau: Aij = 1 - |Hi-Hj|/ Hj Lúc này tài liệu d sẽ được biểu diễn bằng vector V(d) = (v1, v2, v3,....., vm), trong đĩ vi được tính bằng tần suất của từ khố i trong tài liệu d + ∑ (tần suất của từ đồng nghĩa với từ i) * hệ số (của từ đĩ so với từ i). Với cách biểu diễn này, những từ khơng xuất hiện trong tài liệu vẫn cĩ thể gián tiếp được xem là một thành phần của tài liệu thơng qua tất cả các từ đồng nghĩa với nĩ xuất hiện trong tài liệu. 2.3.6. Chuỗi các từ khĩa Ngồi việc sử dụng các từ khĩa, chúng ta cĩ thể sử dụng các chuỗi từ, đựoc gọi là n-grams, để xây dựng vector biểu diễn cho tài liệu, ví dụ như “machine learning”, “world wide web”. Trong quá trình xây dựng chuỗi các từ, chúng ta sẽ loại bỏ tất cả các từ dừng (stop-word) xuất hiện trong chuỗi đĩ. Điều này cĩ nghĩa là nội dung các chuỗi từ thu được khơng chứa bất cứ từ dừng nào.Ví dụ chuỗi từ “Word for Window” hoặc “winners will be posted at the end of each two-week period” sẽ được thay bằng các chuỗi từ tương ứng như sau: ”Word Window” và “winners posted end two-week period”[1]. Nếu số lần xuất hiện của một chuỗi các từ trong một tài liệu bé hơn một số cho trước, chuỗi từ đĩ cũng sẽ bị loại bỏ. Bằng việc sử dụng chuỗi các từ khĩa để xây dựng biểu diễn vector của tài liệu, chúng ta cĩ thể thu được nhiều tính chất liên quan đến sự kết hợp giữa các từ với nhau. Quá trình xây dựng vector biểu diễn tài liệu cĩ sử dụng chuỗi các từ khĩa được thực hiện từ dưới lên, trong đĩ các chuỗi gồm ‘i’ từ ở bước thứ ‘i’ được xây dựng dựa trên các chuỗi cĩ ‘i-1’ từ ở bước trước đĩ. Quá trình này được mơ tả bởi thuật tốn sau[1]: Input: MinNGramOcc– Số lần xuất hiện nhỏ nhất của các chuỗi từ, N-Grams, trong tập các chuỗi từ kết quả (LargeNGramSet) MaxNGramSize – kích thước tối đa của các chuỗi từ (N-Gram) StopWordSet – tập hợp các từ dừng của một ngơn ngữ xác định Thuật tốn phân lớp văn bản Web và thực nghiệm trong máy tìm kiếm VietSeek Khĩa luận tốt nghiệp đại học Đặng Thanh Hải 35 DocVec – vector biểu diễn tất cả các tài liệu SymVec– vector biểu diễn nội dung các tài liệu trong DocVec Biến phụ: Sym – các từ khĩa trong tài liệu CandNGramMap – ánh xạ từ một chuỗi các từ, N-Gram, vào số lần xuất hiện của nĩ trong tài liệu NGramQueue – hàng đợi chứa “NGramSize” từ cuối cùng (khơng tính từ dừng) Output: LargeNGramSet–tập các chuỗi từ (N-Gram) cĩ số lần xuất hiện >=MinNGramOcc Thuật tốn: (1).LargeNGramSet := tất cả các từ đơn khác từ dừng trong DocVec và số lần xuất hiện >= MinNGramOcc; (2).For NGramSize=2 to MaxNGramSize do{ (3). CandNGramMap=[]; (4). For SymVec=DocVec[1] to DocVec[|DocVec|] do{ (5). NGramQueue=[]; (6). For Sym=SymVec[1] to SymVec[|SymVec|] do{ (7). if(TypeOf(Sym)==word){ (8). if(Sym not in StopWordSet){ (9). if(Sym in LargeNGramSet) { (10). if(|NGramQueue|+1==NGramSize){ (11). if(Concatenated(NGramQueue) in LargeNGramSet){ (12). NGramQueue.Push(Sym); Thuật tốn phân lớp văn bản Web và thực nghiệm trong máy tìm kiếm VietSeek Khĩa luận tốt nghiệp đại học Đặng Thanh Hải 36 (13). CandNGramMap[Concatenated(NGramQueue)]++; (14). NGramQueue.Pop(); (15). }else {NGramQueue.Push(Sym);NGramQueue.Pop();} (16). }else {NGramQueue.Push();} (17). }else{NGramQueue=[];}//xem lại (18). } (19) }else {NGramQueue=[];} (20) } (21).LargeNGramSet+={NGram:CandNGramMap[NGram]>=MinNGramOcc}; (22)} (23).return LargeNGramSet; 2.4. Cơ sở dữ liệu hypertext 2.4.1. Giới thiệu về cơ sở dữ liệu hypertext Hypertext là thuật ngữ được Theodore Nelson đưa ra lần đầu tiên vào năm 1965 tại Hội thảo của Hội tốn học Mỹ ACM lần thứ 20[6]. Theo Nelson thì Hypertext là các tài liệu dạng chữ viết khơng liên tục. Chúng được phân nhánh và cho phép người đọc cĩ thể chọn cách đọc theo ý muốn của mình, tốt nhất là nên đọc nĩ trên các màn hình cĩ khả năng tương tác. Sáng kiến tạo ra một tập hợp các văn bản cùng với con trỏ trỏ tới các văn bản khác nhằm phản ánh mối liên quan giữa các trang văn bản với nhau thực sự là một giải pháp sáng tạo để tổ chức thơng tin. Với người viết cách này cho phép người dùng cĩ thể thoải mái loại bỏ những băn khoăn về thứ tự trình bày những vấn đề liên quan đến nhau để tập trung vào hồn thành các vấn đề nhỏ, và sau đĩ cĩ thể sử dụng các liên kết để chỉ cho người đọc thấy được các vấn đề nhỏ đĩ cĩ mối quan hệ với nhau như thế nào. So sánh với cách đọc tuyến tính, thì Hyperlext đã cung cấp cho chúng ta một giao diện để cĩ thể tiếp xúc với nội dung thơng tin hiệu quả hơn rất nhiều. Một cơ sở dữ liệu Hypertext bao gồm hai thành phần chính sau: Thuật tốn phân lớp văn bản Web và thực nghiệm trong máy tìm kiếm VietSeek Khĩa luận tốt nghiệp đại học Đặng Thanh Hải 37 Hình 2.4. Đồ thị mơ tả cây Website Tài liệu Hypertext: là một tài liệu Text đơn nằm trong một cơ sở dữ liệu Hypertext. Nếu chúng ta tưởng tượng cơ sở dữ liệu Hypertext như một đồ thị thì một tài liệu Text đơn là một nút trong đồ thị[6]. Siêu liên kết (Hyperlink): là một sự kết nối giữa các tài liệu Hypertext với nhau. Các siêu liên kết đĩng vai trị là các cung trong đồ thị cĩ hướng[6]. 2.4.2. Phương pháp biểu diễn trang Web theo mơ hình vector Xuất pháp từ mục tiêu sử dụng phương pháp biểu diễn trang Web bằng vector, cùng với quan điểm sử dụng các thơng tin về liên kết nhằm tăng độ chính xác tìm kiếm cũng như phân lớp các trang Web, chúng ta cĩ bốn cách biểu diễn các trang Web như sau: Hình 2.5. Mơ hình minh họa cho các phương pháp biểu diễn trang Web Trang đang xét (A) a, b, b c, c d, e b, g a, c, f Thuật tốn phân lớp văn bản Web và thực nghiệm trong máy tìm kiếm VietSeek Khĩa luận tốt nghiệp đại học Đặng Thanh Hải 38 Cách biểu diễn thứ nhất: Cách này khơng quan tâm đến bất cứ một liên kết nào cũng như bất cứ một trang láng giềng nào mà chỉ đơn giản biểu diễn nội dung của chính trang Web đĩ. Đây chính là phương pháp biểu diễn vector cho tài liệu Fulltext đã được đề cập ở trên. Cách biểu diễn thứ hai Cách đơn giản nhất để sử dụng thơng tin về các liên kết trong trang Web là kết hợp trang web đĩ với tất cả các trang láng giềng của nĩ để tạo ra một siêu trang (super-document). Nếu sử dụng phương pháp này ta sẽ cĩ vector biểu diễn cho trang web A như sau: a b c d e f g 2 3 3 1 1 1 1 Điểm yếu của phương pháp này là làm lỗng đi nội dung của trang A, và cĩ thể tạo thêm nhiễu cho việc phân lớp. Cách biểu diễn này là sự lựa chọn rất tốt trong trường hợp cần biểu diễn một tập các trang Web cĩ cùng một chủ đề. Cách biểu diễn thứ ba Cấu trúc của vector biểu diễn được chia làm hai phần, phần thứ nhất dùng để biểu diễn các từ xuất hiện trong bản thân trang A, cịn phần thứ hai được dùng để biểu diễn các từ xuất hiện trong tất cả các trang láng giềng của A. Cách biểu diễn này tránh được khả năng các trang láng giềng cĩ thể làm lỗng nội dung của trang A. Theo cách này, trang web A sẽ cĩ vector biểu diễn như sau: a b c d e f g a b c d e f g 1 2 2 0 0 0 0 1 1 1 1 1 1 1 Thuật tốn phân lớp văn bản Web và thực nghiệm trong máy tìm kiếm VietSeek Khĩa luận tốt nghiệp đại học Đặng Thanh Hải 39 Cách biểu diễn thứ tư Chúng ta xây dựng một vector biểu diễn cĩ cấu trúc theo các bước sau: •Xác định bậc cao nhất d của các trang web trong tập tài liệu Hypertext •Xây dựng một vector cấu trúc với d+1 thành phần như sau: ∗Phần đầu biểu diễn cho chính tài liệu A ∗Các phần từ 2 đến d+1 biểu diễn các tài liệu láng giềng của A, mỗi tài liệu được biểu diễn bởi một phần. Phương pháp biểu diễn này cĩ hai khĩ khăn chính sau: ∗Kích thước của vector thường là rất lớn ∗Mỗi trang web cĩ thể cĩ nhiều vector biểu diễn nếu chúng ta hốn đổi thứ tự các phần từ 2 cho đến d+1 2.4.3. Khai thác các siêu liên kết Chúng ta cĩ thể tận dụng cấu trúc liên kết giữa các trang Web với nhau để thu được các thơng tin cĩ ích về tài liệu, mặc dù bản các thơng tin này khơng xuất hiện trong bản thân tài liệu đĩ. Ví dụ như đoạn văn bản cĩ chứa các siêu liên kết thường mơ tả một cách tổng quát nhất nội dung của trang Web được trỏ tới bởi siêu liên kết này. Mặc dù chúng ta khơng cần đọc nội dung của trang Web đích v, nhưng chúng ta cĩ thể biết được nội dung tổng quát của trang Web này thơng qua các đoạn văn bản chứa siêu liên kết tới v trong tất cả các trang Web w là cha của trang Web v. Ví dụ: trong bài tốn tìm kiếm, đoạn văn bản chứa các siêu liên kết này đã được phân tích và khai thác một cách triệt để nhằm đánh giá trang Web đích. Học quan hệ Học quan hệ là một phương pháp tiếp cận thích hợp cho việc khai thác thơng tin cĩ ích từ các cấu trúc siêu liên kết. Với phương pháp này, dữ liệu được xem như tồn tại trong một mối quan hệ nào đĩ, và thuật tốn học cĩ thể khai thác tối đa quan hệ giữa các đối tượng. Đối với tập dữ liệu Web, ngồi các quan hệ được mã hĩa dưới dạng cấu trúc siêu liên kết giữa các trang Web cịn cĩ các quan hệ cục bộ thể hiện tính bán cấu trúc của tài liệu Web thơng qua các thẻ HTML đặc trưng. Năm 1990, Quinlan Thuật tốn phân lớp văn bản Web và thực nghiệm trong máy tìm kiếm VietSeek Khĩa luận tốt nghiệp đại học Đặng Thanh Hải 40 đã đưa ra thuật tốn dựa trên lý thuyết logic vị từ cấp một (FOIL) để giải quyết bài tốn phân tích và khai thác các mối quan hệ trong tập dữ liệu Web. Ví dụ: nếu nội dung của trang Web A cĩ chứa siêu liên kết trỏ tới trang Web B thì chúng ta sẽ biểu diễn mối quan hệ đĩ bằng vị từ Link_to(A, B). Thuật tốn phân lớp văn bản Web và thực nghiệm trong máy tìm kiếm VietSeek Khĩa luận tốt nghiệp đại học Đặng Thanh Hải 41 Chương 3. TÍCH HỢP GIẢI PHÁP PHÂN LỚP TRANG VĂN BẢN VÀO MÁY TÌM KIẾM VIETSEEK 3.1. Bài tốn phân lớp văn bản Phân lớp trang văn bản là quá trình gồm hai bước, với mục đích phân các tài liệu văn bản vào các lớp cố định cĩ sẵn. Trong bước thứ nhất, một mơ hình được xây dựng nhằm miêu tả một tập hợp ban đầu các lớp tài liệu. Mơ hình này được xây dựng bằng cách phân tích nội dung các trang văn bản trong tập dữ liệu huấn luyện. Tập dữ liệu huấn luyện là tập hợp các trang văn bản trong cơ sở dữ liệu đã được gán nhãn từ trước dựa trên sự kết hợp giữa các tri thức chuyên gia với một hay nhiều thuộc tính nào đĩ. Do đĩ giai đoạn thứ nhất thường được đề cập như là việc học cĩ giám sát (Việc học của mơ hình được giám sát thơng qua việc nĩ được cho biết mỗi trang văn bản trong tập huấn luyện thuộc vào lớp nào). Trong bước thứ hai, mơ hình này được sử dụng cho việc phân lớp các trang văn bản chưa được gán nhãn hoặc các tài liệu sẽ xuất hiện trong tương lai. Điều này thực sự rất hữu ích, ví dụ để đốn nội dung của một trang Web, hay quyết định xem nội dung của trang Web đĩ cĩ phù hợp với lĩnh vực của người dùng hay khơng?. Hiện nay cĩ rất nhiều phương pháp được áp dụng vào quá trình phân lớp trang văn bản như [3]: ♦ K người láng giềng gần nhất (K- Nearest Neighbours) ♦ Naive Bayes ♦ Support Vector Machines ♦ Cây quyết định (Decision Tree) ♦ Mang nơron ♦ Phương pháp tìm luất kết hợp Chương này chủ yếu tập trung vào thuật tốn Naive Bayes được áp dụng trong quá trình xây dựng bộ phân lớp trang văn. Phần đầu của chương giới thiệu tổng quát một số thuật tốn thơng dụng được áp dụng hiệu quả trong bài tốn phân lớp trang văn bản. Trong đĩ, đặc biệt tập trung vào việc chứng minh cơng thức phân lớp (3.15) và đề xuất cơng thức phân lớp (3.16) dựa trên thuật tốn Naive Bayes. Ngồi ra cịn đề xuất các thuật tốn ước lượng và làm mịn giá trị ngưỡng cho các lớp trong bài tốn phân lớp. Phần cịn lại của chương đề cập đến các chiến lược đánh giá bộ phân lớp. Thuật tốn phân lớp văn bản Web và thực nghiệm trong máy tìm kiếm VietSeek Khĩa luận tốt nghiệp đại học Đặng Thanh Hải 42 3.2. Thuật tốn K người láng giềng gần nhất (K-Nearst Neighbors) Bộ phân lớp dựa trên thuật tốn K người láng giềng gần nhất là một bộ phân lớp dựa trên bộ nhớ, đơn giản vì nĩ được xây dựng bằng cách lưu trữ tất cả các đối tượng trong tập huấn luyện. Để phân lớp cho một điểm dữ liệu mới x, trước hết bộ phân lớp sẽ tính khoảng cách từ điểm x đến tất cả các điểm dữ liệu trong tập huấn luyện. Qua đĩ tìm được tập N(x, D, k) gồm k điểm dữ liệu mẫu cĩ khoảng cách đến x là gần nhất. Ví dụ nếu các dữ liệu mẫu được biểu diễn bởi khơng gian vector thì chúng ta cĩ thể sử dụng khoảng cách Euclian để tính khoảng cách giữa các điểm dữ liệu với nhau. Sau khi xác định được tập N(x, D, k), bộ phân lớp sẽ gán nhãn cho điểm dữ liệu x bằng lớp chiếm đại đa số trong tập N(x, D, k). Mặc dù rất đơn giản, nhưng thuật tốn K người láng giềng gần nhất đã cho kết quả tốt trong nhiều ứng dụng thực tế. Để áp dụng thuật tốn k-NN vào tài liệu văn bản, chúng ta cĩ sử dụng hàm tính trọng số cho mỗi lớp theo biểu thức (3.1). Trong đĩ ),,( kDxcN là tập con chỉ chứa các đối tượng thuộc lớp c của tập ),,( kDxN . )1.3(),cos()|( ),,( xxxcScore kDxNcx ′∑= ∈′ Khi đĩ tài liệu x sẽ được phân vào lớp oc nếu: { }CcxcscoreMaxxocscore ∈= ),|()|( 3.3. Bộ phân lớp sử dụng vector hỗ trợ Máy sử dụng vector hỗ trợ (SVM) được giới thiệu bởi Cortes và Vapnik vào năm 1995[3]. SVM thực sự hiệu quả khi giải quyết vấn đề trên dữ liệu cĩ số chiều lớn, ví dụ như biểu diễn vector của các trang tài liệu văn bản. Ban đầu, SVM chỉ được thiết kế để giải quyết các bài tốn phân lớp cĩ số lớp bằng 2, vấn đề phân lớp nhị phân.Giả sử tập dữ liệu huấn luyện được biểu diễn như sau: { }niiyixD ...1),,( == Trong đĩ mRix ∈ và { }1,1−∈iy sẽ xác định điểm dữ liệu ix là ví dụ dương hay ví dụ âm. Khi đĩ bộ phân cách tuyến tính sẽ là một siêu phẳng được định nghĩa như sau: { }00)(: =+= wxTwxfx Thuật tốn phân lớp văn bản Web và thực nghiệm trong máy tìm kiếm VietSeek Khĩa luận tốt nghiệp đại học Đặng Thanh Hải 43 Với mRw ∈ và Rw ∈0 là các hệ số thích nghi, đĩng vai trị như là các tham số biểu diễn mơ hình cho máy phân lớp sử dụng vector hỗ trợ(SVM). Ta cĩ thể định nghĩa một hàm phân lớp nhị phân: )2.3( .0 0)(.1 )( ⎩⎨ ⎧ >= otherwise xfif xh Giai đoạn học của mơ hình này bao gồm việc ước lượng các tham số mRw ∈ và Rw ∈0 từ tập dữ liệu huấn luyện. Một tập dữ liệu huấn luyện được gọi là cĩ thể phân tách tuyến tính nếu tồn tại một siêu phẳng cĩ hàm phân lớp h(x) bền vững với tất cả các nhãn, ví dụ hàm phân lớp đĩ cĩ thể thỏa mãn điều kiện sau đây: niixfiy ..10)(* =∀> . Sử dụng giả thuyết này, Rosenblartt đã chứng minh được rằng thuật tốn lặp đơn giản sau cĩ thể tạo ra siêu phẳng phân cách[3]. Thuật tốn tạo siêu phẳng phân cách: 1. 0←w 2. 00 ←w 3. repeat 4. e ← 0 5. for i ← 1 to n do 6. s ← sgn( )0( wixTwiy + ) 7. if(s < 0) then 8. ixiyww *+← 9. iyww +← 00 10. e ← e+1 11.untill e=0 12.return )0,( ww Thuật tốn phân lớp văn bản Web và thực nghiệm trong máy tìm kiếm VietSeek Khĩa luận tốt nghiệp đại học Đặng Thanh Hải 44 Cĩ thể thấy rằng điều kiện đủ để tập dữ liệu huấn luyện D cĩ thể phân cách tuyến tính được là số lượng các đối tượng dữ liệu trong D, n=|D| phải bé hơn hoặc bằng m+1. Điều kiện này thường đúng với bài tốn phân lớp trang văn bản, nơi cĩ số lượng các từ khĩa rất lớn, khoảng vài ngàn từ, và lớn hơn rất nhiều so với số lượng các đối tượng trong tập huấn luyện. Trong hình (3.1), giả sử rằng các dữ liệu mẫu thuộc lớp âm và lớp dương đều tuân theo luật phân bố chuẩn Gaussian với cùng một ma trận tương quan, và được tạo ra với cùng một xác suất. Khi đĩ một siêu phẳng phân cách được gọi là lý tưởng nếu nĩ làm cực tiểu hĩa xác suất phân lớp sai cho một điểm dữ liệu mới. Với giả thuyết ở trên thì siêu phẳng phân cách lý tưởng sẽ trực giao với đoạn thẳng nối tâm của hai vùng cĩ mật độ xác suất lớn nhất. Rõ ràng các siêu phẳng mà chúng ta xây dựng nhằm phân cách các điểm dữ liệu mẫu cĩ thể lệch đi rất nhiều so với siêu phẳng lý tưởng, do đĩ sẽ dẫn tới việc phân lớp khơng tốt trên dữ liệu mới sau này. Độ phức tạp của quá trình xác định siêu phẳng lý tưởng sẽ tăng theo số chiều của khơng gian đầu vào, m. vì với một số lượng các dữ _ _ _ _ _ _ _ _ _ _ _ _ + + + + + + ++ + + + + + + _ Siêu phẳng phân cách lý tưởng Siêu phẳng thực tế Hình 3.1. Mối quan hệ giữa các siêu phẳng phân cách Thuật tốn phân lớp văn bản Web và thực nghiệm trong máy tìm kiếm VietSeek Khĩa luận tốt nghiệp đại học Đặng Thanh Hải 45 liệu mẫu cố định, tập hợp các siêu phẳng thực tế sẽ tăng theo hàm mũ với lũy thừa m. Với bài tốn phân lớp trang văn bản, m thường rất lớn, vào khoảng vài ngàn hay thậm chí là hàng triệu từ. Trên cơ sở lý thuyết học theo xác suất được phát triển bởi Vapnik năm 1998, chúng ta cĩ thể định nghĩa một siêu phẳng phân cách lý tưởng bằng hai đặc tính sau: Là duy nhất đối với mỗi tập dữ liệu huấn luyện cĩ thể phân tách tuyến tính. Xác suất phân lớp sai cho các dữ liệu mới của nĩ là bé nhất so với tất cả các siêu phẳng phân cách khác. Biên giới M của bộ phân lớp được định nghĩa là khoảng cách giữa siêu phẳng phân cách và điểm dữ liệu mẫu gần với nĩ nhất. Như vậy siêu phẳng phân cách lý tưởng là siêu phẳng cĩ biên giới M lớn nhất (Hình 3.2). Cĩ thể thấy rằng khoảng cách từ một điểm dữ liệu x đến siêu phẳng được tính theo cơng thức: )0(|||| 1 wxTw w + . Bởi vậy siêu phẳng phân cách lý tưởng cĩ thể được tìm thấy bằng việc giải quyết bài tốn tối ưu cĩ điều kiện sau: + + + + + + + + + + + + + + MwwTx =+ 0 MwwTx −=+ 0 00 =+ wwTx M w 2 |||| 2 = Hình 3.2. Biên giới của siêu phẳng phân cách Thuật tốn phân lớp văn bản Web và thực nghiệm trong máy tìm kiếm VietSeek Khĩa luận tốt nghiệp đại học Đặng Thanh Hải 46 MMax ww 0, trong đĩ: )3.3(....1,)0(|||| 1 niMwix Twiyw =≥+ Với mỗi siêu phẳng, bao giờ cũng tồn tại một điểm x’ sao cho: |||| 1 |||| )0(|||| 1 ww ConstwxTwiyw M ⇐=+′= Thay vào (3.3) ta cĩ: wwMin ww rr.2 1 0, với )4.3(....1,1)0( niwixTwiy =≥+ Theo Lemma thì nghiệm w& của bài tốn tối ưu (3.4) bao giờ cũng được biểu diễn tuyến tính theo các vector niix ...1= bằng biểu thức[3]: )5.3(0 1 ≥ = = ∑ iixiyin i w αα r& Trong đĩ iα được gọi là các hệ số quyết định Lagrang. Bài tốn tối ưu đối ngẫu với (3.4) cĩ dạng như sau[3]: ∑+∑∑ === − n i i n j jxixjyiyji n i Max 11 . 12 1 ααα α rr trong đĩ )6.3(0,0 1 ≥= = ∑ iiyin i αα Theo lý thuyết đại số tuyến tính thì bài tốn tối ưu (3.4) và (3.6) là tương đương với nhau. Nĩi cách khác nếu α& là nghiệm của bài tốn tối ưu (3.6) thì ⎟⎠ ⎞⎜⎝ ⎛ += = = ∑ posxwnegxwowixiyin i w .. 2 1, 1 &&&r&& α là nghiệm của bài tốn (3.4). Mặt khác bài tốn tối ưu (3.6) là bài tốn bậc hai (quadratic programming), về nguyên tắc cĩ thể giải được bằng các phương pháp tối ưu chuẩn. Khi đĩ vector α& được gọi là vector hỗ trợ (support vector). Mỗi thành phần iα& được gắn với một điểm dữ liệu mẫu ix , thể hiện độ ảnh hưởng của điểm dữ liệu mẫu này tới kết quả của việc phân lớp sau này. Hàm quyết định phân lớp h(x) cĩ thể được tính bằng biểu thức (3.2) hoặc bằng dạng đối ngẫu tương đương (3.7) : Thuật tốn phân lớp văn bản Web và thực nghiệm trong máy tìm kiếm VietSeek Khĩa luận tốt nghiệp đại học Đặng Thanh Hải 47 )7.3( 1 )( ∑ = = n i ixTixiiyxf α Trong trường hợp dữ liệu huấn luyện khơng cĩ khả năng phân cách tuyến tính, phương pháp phân tích này vẫn cĩ khả năng áp dụng bằng cách bổ sung n biến khơng âm iξ , khi đĩ bài tốn tối ưu sẽ được phát biểu lại như sau: ∑ = + n i iC ww wwMin 12 1 0, . ξrr với niiwixTwiy ....1,1)0( =−≥+ ξ và bài tốn đối ngẫu sẽ là: ∑+∑∑ === − n i i n j jxixjyiyji n i Max 11 . 12 1 ααα α rr với điều kiện niCi ...1,0 =≤≤α Việc giải quyết bài tốn tối ưu bậc hai sử dụng các phương pháp chuẩn cĩ độ phức tạp )3(nΟ , với giả thuyết rằng số lượng các vector hỗ trợ tăng tuyến tính với số lượng các đối tượng trong tập dữ liệu huấn luyện. Đây là một vấn đề khĩ khăn của phương pháp SVM. Bộ phân lớp SVM mà chúng ta đang thảo luận chỉ cĩ thể được áp dụng cho các bài tốn phân lớp nhị phân. Với các ứng dụng cĩ số lớp lớn hơn hai, phương pháp tiếp cận truyền thống là tiến hành chuyển bài tốn này thành một số bài tốn phân lớp nhị phân nhỏ hơn, mỗi lớp được biểu diễn bởi một xâu nhị phân. Sau đĩ áp dụng bộ phân lớp SVM nhị phân cho từng nhãn bộ phận. Ví dụ về SVM giải quyết bài tốn cĩ nhiều lớp Tập dữ liệu mẫu huấn luyện: [ ] { }{ }1,12,1,...1),2,1,( −∈== iyiyniiyiyixD A A A D D D D B B B C C C C Lớp Nhãn A B C D (1, 1) (1, -1) (-1, 1) (-1,-1) Hình 3.3. Tập dữ liệu huấn luyện nhiều lớp Thuật tốn phân lớp văn bản Web và thực nghiệm trong máy tìm kiếm VietSeek Khĩa luận tốt nghiệp đại học Đặng Thanh Hải 48 3.4. Bộ phân lớp sử dụng cây quyết định Cây quyết định là một cấu trúc cây giống biểu đồ luồng, trong đĩ mỗi nút trong là một bộ kiểm tra giá trị cho một thuộc tính xác định, mỗi nhánh thể hiện một kết quả của quá trình kiểm tra và mỗi lá đại diện cho các lớp hoặc sự phân bố của lớp. Nút trên cùng của cây là nút gốc. Thuật tốn: Decision_Tree[2] Input: samples: tập dữ liệu huấn luyện attributes_list: tập hợp các thuộc tính Output: Cây quyết định (1)Tạo ra một nút N (2)If (tất cả dữ liệu mẫu trong “samples” đều thuộc lớp C) then (3) Nhãn(N) ← C ; Xác định N là nút lá ; Thốt (4)If(attribute_list rỗng) then (5) Nhãn(N) ← Lớp chiếm đại đa số trong “sample”; Xác định N là nút lá;Thốt (6)test_attribute ←thuộc tính trong “attribute_list” cĩ độ đo InformationGain lớn nhất (7)Nhãn(N) ←”test_attribute” (8)For mỗi giá trị ai của thuộc tính “test_attribute” do (9) Xây dựng một nhánh từ nút N (10) si ← tập các dữ liệu thuộc “samples” cĩ giá trị của thuộc tính “test_attribute”=ai (11) If(si rỗng) then (12) Gắn thêm một nút lá cĩ nhãn là lớp chiếm đại đa số trong “samples” vào cây quyết định (13) else (14) Nút M ← Decision_Tree(si, attribute_list-test_attribute); (15) Gắn thêm nút M vào cây. Thuật tốn phân lớp văn bản Web và thực nghiệm trong máy tìm kiếm VietSeek Khĩa luận tốt nghiệp đại học Đặng Thanh Hải 49 Thuật tốn trên hoạt động theo chiến lược tham lam, xây dựng cây quyết định theo phương pháp đệ quy từ trên xuống dưới. Độ đo Information Gain Độ đo Information Gain được sử dụng để lựa chọn thuộc tính làm nhãn cho mỗi nút trong thuật tốn xây dựng cây quyết định. Nĩ thể hiện khả năng quyết định tới việc phân lớp của các thuộc tính. Thuộc tính cĩ độ đo Information Gain lớn nhất sẽ được chọn làm thuộc tính phục vụ việc kiểm tra (phân hoạch)dữ liệu tại nút hiện thời. Thuộc tính này sẽ làm cực tiểu hĩa lượng thơng tin cần thiết để cĩ thể phân lớp các dữ liệu huấn luyện trong kết quả của quá trình phân hoạch hiện tại. Phương pháp tiếp cận dựa trên lý thuyết thơng tin này sẽ làm cực tiểu hĩa số lần kiểm tra trung bình cần thiết để phân lớp một đối tượng dữ liệu và đảm bảo rằng cây quyết định đơn giản(khơng nhất thiết phải tối ưu) sẽ được tạo ra. Giả sử S là một tập gồm s đối tượng dữ liệu huấn luyện, C là tập hợp các lớp gồm m phần tử khác nhau. Gọi is là số lượng các dữ liệu mẫu trong S thuộc về lớp iC . Khi đĩ lượng thơng tin trung bình cần thiết để phân lớp một dữ liệu mẫu sẽ được tính theo cơng thức (x.y)[2]: ∑ = −= m i ipipmssisI 1 )(2log),......,2,( Trong đĩ ip là xác suất để một đối tượng dữ liệu mẫu thuộc về lớp iC và được ước lượng bởi sis . Ở đây chúng ta sử dụng hàm logarit theo cơ số 2 là vì thơng tin được mã hĩa bằng dãy các bít. Giả sử thuộc tính A cĩ v giá trị phân biệt, { }vaaa ,....,2,1 , và cĩ thể được sử dụng để phân hoạch S thành v tập con, { }vSSS ,.....,2,1 , trong đĩ iS là tập chứa các dữ liệu mẫu cĩ giá trị của thuộc tính A bằng ia . Nếu A được chọn để kiểm tra việc phân hoạch tập dữ liệu mẫu, thì các tập con này sẽ tương ứng với các nhánh được tạo ra từ nút chứa tập S. Gọi ijs là số lượng các mẫu thuộc tập jS cĩ nhãn là iC .Độ đo Entropy, hay lượng thơng tin trung bình, dựa trên sự phân hoạch bởi thuộc tính A được tính theo cơng thức sau[2]: Thuật tốn phân lớp văn bản Web và thực nghiệm trong máy tìm kiếm VietSeek Khĩa luận tốt nghiệp đại học Đặng Thanh Hải 50 ∑ = +++= v j mjsjsIs mjsjsjsAE 1 ),.....,1( ....21)( Đại lượng s mjsjsjs +++ .....21 đĩng vai trị là trọng số của tập con thứ j, chính là số lượng các mẫu trong tập con jS chia cho tổng số các mẫu trong S. Giá trị độ đo Entropy của một thuộc tính càng nhỏ, thì sự phân hoạch tập dữ liệu mẫu theo thuộc tính này càng tốt. Chú ý, với tập con jS cho trước ta cĩ: ∑ = −= m i ijpijpmjsjsjsI 1 )(2log.),.......,2,1( Với || jS ijs ijp = là xác suất để một mẫu trong tập jS thuộc về lớp iC .Khi đĩ độ đo Information Gain của thuộc tính A được tính theo cơng thức sau[2]: Gain(A)= )(),......,2,1( AEmsssI − Ví dụ về cây quyết định Qua quá trình theo dõi việc đi chơi Tennis của một vận động viên, giả sử chúng ta cĩ bảng thống kê như sau (xxx ví dụ phân lớp văn bản: xem luận văn anh Đồn Sơn): Thời tiết Nhiệt độ Độ ẩm(%) Cĩ giĩ? Lớp Cĩ nắng 75 70 đúng Đi chơi Cĩ nắng 80 90 đúng Khơng đi Cĩ nắng 85 85 sai Khơng đi Cĩ nắng 72 95 sai Khơng đi Cĩ nắng 69 70 sai Đi chơi U ám 72 90 đúng Đi chơi U ám 83 78 sai Đi chơi U ám 64 65 đúng Đi chơi U ám 81 75 sai Đi chơi Mưa 71 80 đúng Khơng đi Mưa 65 70 đúng Khơng đi Mưa 75 80 sai Đi chơi Mưa 68 80 sai Đi chơi Mưa 70 96 sai Đi chơi Thuật tốn phân lớp văn bản Web và thực nghiệm trong máy tìm kiếm VietSeek Khĩa luận tốt nghiệp đại học Đặng Thanh Hải 51 Sử dụng thuật tốn xây dựng cây quyết định ở trên chúng ta sẽ cĩ cây quyết định như hình (3.4): Để gán nhãn cho một dữ liệu mới, các giá trị thuộc tính của dữ liệu này sẽ được kiểm tra trên cây quyết định(tiến hành duyệt cây quyết định theo chiều sâu dựa trên giá trị các thuộc tính của dữ liệu). Một đường đi trên cây sẽ được xây dựng từ nút gốc cho đến nút lá. Nhãn của nút lá này chính là lớp được gán cho dữ liệu mới. 3.5. Bộ phân lớp dựa trên thuật tốn Naive Bayes Năm 1998, trong luận án tiến sỹ [ Machine learning on non-homogenous, distributed text data ], Dunja Mladenic đã sử dụng cơng thức (3.8) để tiến hành xây dựng bộ phân lớp dựa trên thuật tốn Naive Bayes: )8.3()()|().( )()|().( )|( ∑ ∏ ∏ ∈ ∈= i dj jTF icjPicP dj jTFcjPcP dcP ω ωω ω ωω Trong phần sau, khĩa luận sẽ tập trung vào việc chứng minh cơng thức phân lớp (3.15) và đưa ra cơng thức đề xuất (3.16), được áp dụng để xây dựng bộ phân lớp dựa trên thuật tốn Naive Bayes. Thời tiết Độ ẩm Cĩ giĩ? Đi chơi U ám MưaNắng Khơng đi Đi chơi Đi chơi Khơng đi <=75 >75 sai đúng Hình 3.4. Cây quyết định Thuật tốn phân lớp văn bản Web và thực nghiệm trong máy tìm kiếm VietSeek Khĩa luận tốt nghiệp đại học Đặng Thanh Hải 52 Khi muốn gán nhãn cho một tài liệu d nào đĩ, bộ phân lớp sẽ tính xác suất cĩ điều kiện của mỗi một lớp c với điều kiện đã cĩ tài liệu d. Theo lý thuyết xác suất Bayes ta cĩ: )9.3()|( )|().,|( ),|( θ θθθ dP cPcdP dcP = Trong đĩ θ là mơ hình tham số của bộ phân lớp mà chúng ta cần phải xây dựng. Tuy nhiên, sự xuất hiện của θ sẽ được ngầm hiểu trong các cơng thức đề cập sau này. Do tập các lớp C lập thành một hệ đầy đủ về xác suất, nên theo cơng thức tính xác suất tồn phần ta cĩ: )10.3()(*)|()( || 1 ∑ = = C i cPcdPdP ii Một cách trực quan ta cĩ thể biểu diễn tài liệu d bằng một tập hợp các từ khĩa xuất hiện trong tài liệu )||,......,2,1( ωωω d , trong đĩ mỗi từ khĩa ω i được gắn với một trọng số ni là số lần xuất hiện của từ khĩa đĩ trong tài liệu d . Theo quan điểm của lý thuyết xác suất tài liệu d được xem là một sự kiện xác suất (biến cố xác suất) với mỗi từ khĩa và số lần xuất hiện của từ khĩa đĩ là những tính chất của nĩ. Như vậy tài liệu d cĩ thể được thay thế tương đưong bằng một tập hợp các tính chất sau: Gọi W i là biến ngẫu nhiên chỉ số lần xuất hiện của từ khĩa ω i và X là biến ngẫu nhiên chỉ số lượng từ khĩa cần dùng để xây dựng tài liệu. Do đĩ ta cĩ: d ⇔ 2. Số lần xuất hiện của )( 1ω = n1 3.Số lần xuất hiện của )( 2 ω =n2 ......................... .............................. |d|+1.Số lần xuất hiện của )( ||ω d = n d || 1.Số lượng từ khĩa =|d| Thuật tốn phân lớp văn bản Web và thực nghiệm trong máy tìm kiếm VietSeek Khĩa luận tốt nghiệp đại học Đặng Thanh Hải 53 )|,....,,|,|()|( ||||2211 cnWnWnWdXPcdP dd ===== Do số lượng từ khĩa cần dùng độc lập xác suất với số lần xuất hiện của tất cả các từ khĩa trong tài liệu cũng như với ngữ nghĩa của tài liệu nên ta cĩ thể viết lại cơng thức trên như sau: )11.3()|,....,,(|).|()|( ||||2211 cnWnWnWPdXPcdP dd ===== Giả sử rằng số lần xuất hiện của các từ khĩa trong tài liệu là độc lập với nhau từng đơi một khi cho biết trước ngữ nghĩa (tên lớp) của các tài liệu. Khi đĩ kết hợp giả thiết này với cơng thức (3.11) chúng ta cĩ: )12.3()|(*...*)|(*)|(*|)|()|( ||||2211 cnWPcnWPcnWPdXPcdP dd ===== Giả thiết rằng xác suất xuất hiện từ khĩa ω i trong một miền ngữ nghĩa cho trước là một hằng số , constciwP =)|( . Giả thiết này thường khơng đúng trong nhiều trường hợp thực tế. Ví dụ: trong một tập hợp S gồm rất nhiều (đủ lớn cho việc thống kê) các tài liệu liên quan đến chủ đề “văn hĩa ẩm thực” cĩ chứa từ khĩa “ăn”. Tuy nhiên cĩ khả năng vào một thời điểm nào đĩ, từ khĩa “ăn” sẽ được thay thế bằng từ đồng nghĩa khác, ví dụ “xơi”, “chén”, “nhậu”. Rõ ràng trong trường hợp này xác suất xuất hiện từ khĩa “ăn” đã thay đổi. Mặc dù vậy sự thay đổi này vơ cùng bé vì mỗi một từ trong số các từ đồng nghĩa đĩ đều cĩ một sắc thái tình cảm riêng, khơng thể tùy tiện thay thế cho nhau được. Như vậy giả thiết trên hồn tồn cĩ thể chấp nhận được. Chúng ta hãy thực hiện lược đồ xác suất S như sau: ♦ Chọn ngẫu nhiên giá trị của |d| ♦ Thực hiện |d| lần một phép thử cĩ đặc điểm như sau: xác suất xuất hiện từ khĩa iω trong miền ngữ nghĩa c cho trước là constciP =)|(ω và xác suất xuất khơng xuất hiện từ khĩa iω trong miền ngữ nghĩa này là )|(1 ciP ω− . Thuật tốn phân lớp văn bản Web và thực nghiệm trong máy tìm kiếm VietSeek Khĩa luận tốt nghiệp đại học Đặng Thanh Hải 54 Lược đồ S chính là lược đồ Becnulli, do đĩ theo cơng thức của lược đồ Becnulli ta cĩ: )13.3( || )(1)|(*|)(|)|( || nd PncPCdPcnWP i i i i n i dii − −== ⎥⎦⎤⎢⎣⎡ ωω Kết hợp các cơng thức (3.9), (3.10), (3.12) và (3.13) ta cĩ = −−∏∑ −−∏= ⎥⎥ ⎥ ⎦ ⎤ ⎢⎢ ⎢ ⎣ ⎡ ⎟⎠ ⎞⎜⎝ ⎛ ⎥⎥ ⎥ ⎦ ⎤ ⎢⎢ ⎢ ⎣ ⎡ ⎟⎠ ⎞⎜⎝ ⎛ ∈ n cP cPd cPCdPdPcP n cP cPd cPCdPdPcP dcP i ik i ki ki ki n i dk i i i n i ddi )|(1 )|(|| )|(1|)(||)(|)( )|(1 )|(|| |(1|)(||)(|)( )|( || || ω ωω ω ωω ω ω )14.3( )|(1 )|(|| )|(1)( )|(1 )|(|| |(1)( n cP cPd cPcP n cP cPd cPcP i k i ki ki kidik i i idi ⎥⎥ ⎥ ⎦ ⎤ ⎢⎢ ⎢ ⎣ ⎡ ⎟⎠ ⎞⎜⎝ ⎛ ⎥⎥ ⎥ ⎦ ⎤ ⎢⎢ ⎢ ⎣ ⎡ ⎟⎠ ⎞⎜⎝ ⎛ −−∏∑ −−∏= ∈ ∈ ω ωω ω ωω ω ω Chúng ta ánh xạ giá trị in trong miền [ 0, |d|] vào một giá trị tương ứng in′ trong miền [0, 1] theo cơng thức sau: )|(001 0|| 0 dTF d n n i i i ω=−−=′ +⎟⎠ ⎞⎜⎝ ⎛− Thay vào cơng thức (3.14) ta cĩ: )15.3()( )|(1 )|( )|(1)( )( )|(1 )|( )|(1)( )|( ω ω ωω ω ω ωω ω ω i ki ki kidik i i i idi TF cP cP cPcP TF cP cP cPcP dcP k ⎥⎥ ⎥ ⎦ ⎤ ⎢⎢ ⎢ ⎣ ⎡ ⎟⎠ ⎞⎜⎝ ⎛ ⎥⎥ ⎥ ⎦ ⎤ ⎢⎢ ⎢ ⎣ ⎡ ⎟⎠ ⎞⎜⎝ ⎛ −−∏∑ −−∏= ∈ ∈ Thuật tốn phân lớp văn bản Web và thực nghiệm trong máy tìm kiếm VietSeek Khĩa luận tốt nghiệp đại học Đặng Thanh Hải 55 Gọi )( iCF ω là số lượng miền ngữ nghĩa cĩ chứa từ khĩa iω . Cĩ thể nhận thấy rằng, tham số )( iCF ω cũng phần nào ảnh hưởng tới việc quyết định ngữ nghĩa cho tài liệu d của từ khĩa này. Từ cơng thức đề xuất thứ nhất (3.15) kết hợp với trọng số )( iCF ω , khĩa luận đã đề xuất cơng thức thứ hai như sau: )16.3()()( )|(1 )|( )|(1)( )()( )|(1 )|( )|(1)( )|( i i ki ki kidik i i i i idi CFTF cP cP cPcP CFTF cP cP cPcP dcP k ωω ω ωω ωω ω ωω ω ω ⎥⎥ ⎥⎥ ⎥ ⎦ ⎤ ⎥⎥ ⎥ ⎦ ⎤ ⎢⎢ ⎢ ⎣ ⎡ ⎟⎠ ⎞⎜⎝ ⎛ ⎢⎢ ⎢⎢ ⎣ ⎡ ⎥⎥ ⎥⎥ ⎥ ⎦ ⎤ ⎥⎥ ⎥ ⎦ ⎤ ⎢⎢ ⎢ ⎣ ⎡ ⎟⎠ ⎞⎜⎝ ⎛ ⎢⎢ ⎢⎢ ⎢⎢ ⎣ ⎡ −−∏∑ −−∏ = ∈ ∈ Như vậy bộ phân lớp cĩ thể được biểu diễn bằng một mơ hình θ bao gồm tập hợp các tham số sau đây: )|();( cjPcjcPc ωθθ == . Các tham số của mơ hình cĩ thể được ước lượng dựa trên tập dữ liệu huấn luyện ban đầu gồm n tài liệu theo cơng thức sau: nV n nK N il n cc ii V l ij n cc ii cj c c ∑∑+ ∑+= + += == = : || 1 : || 1 1 θ θ 3.5.1. Ước lượng ngưỡng cho các lớp Sau khi xây dựng được mơ hình tham số cho bộ phân lớp, chúng ta cĩ thể tiến hành phân lớp cho các tài liệu mới thu được. Tài liệu d sẽ được phân vào lớp c nếu như { }CicdicPMaxdcP ∈∀= ),|()|( . Phương pháp này đơn giản, dễ hiểu và phù hợp với suy luận logic của chúng ta. Vì mỗi tài liệu chỉ thuộc về một lớp duy nhất, nên phương pháp này chỉ phù hợp với các ứng dụng cĩ mật độ phân bố tài liệu khơng đều, ♦Nc: là số tài liệu thuộc lớp c ♦|V|: số từ khĩa trong tập dữ liệu huấn luyện ♦K: hằng số tùy chọn Thuật tốn phân lớp văn bản Web và thực nghiệm trong máy tìm kiếm VietSeek Khĩa luận tốt nghiệp đại học Đặng Thanh Hải 56 các lớp hồn tồn khơng giao nhau. Trong thực tế do ngơn ngữ tự nhiên thường cĩ tính đa nghĩa, một tài liệu cĩ thể cĩ nhiều ngữ nghĩa khác nhau nên phương pháp này sẽ khơng chính xác. Để khắc phục điều này mỗi lớp c sẽ được gán một giá trị ngưỡng, thc .Tài liệu d sẽ được gán vào lớp c nếu như thdcP c≥)|( . Với phương pháp thứ hai này, điều khĩ khăn nhất là chúng ta phải ước lượng được chính xác giá trị ngưỡng thc . Đề xuất giải pháp ước lượng giá trị ban đầu cho các ngưỡng thc Gọi T là tập các trang văn bản dùng để huấn luyện bộ học, C là tập các lớp cho trước. Quá trình ước lượng giá trị ban đầu cho các ngưỡng được thực hiện theo thuật tốn sau: Thuật tốn: (1). Xây dựng mơ hình tham số θ cho bộ phân lớp (2). For mỗi lớp c ∈ C do (3). { (4). thc← 1; (5). For mỗi tài liệu d ∈ T, cĩ nhãn là c do (6). { (7). Tính giá trị P(c|d) theo cơng thức (3.16); (8). if (P(c|d) < thc ) then thc ← P(c|d); (9). } (10). } Thuật tốn phân lớp văn bản Web và thực nghiệm trong máy tìm kiếm VietSeek Khĩa luận tốt nghiệp đại học Đặng Thanh Hải 57 3.5.2. Kết hợp thuật tốn học máy EM và Naive Bayes Miền ứng dụng của bài tốn phân lớp trang văn bản là tập hợp rất lớn các tài liệu khơng nhãn D. Thuật tốn EM được sử dụng để xử lý dữ liệu khơng nhãn, từ đĩ xây dựng được một mơ hình phân lớp cĩ khả năng thích nghi với các dữ liệu khơng nhãn. Cụ thể, bước E bao gồm việc tính tốn xác suất cĩ điều kiện )|( idcP cho mỗi tài liệu id ∈ D . Xác suất này sau đĩ sẽ được sử dụng để ước lượng lại các tham số của mơ hình trong bước M. Trong mơ hình biểu diễn vector, chúng ta sử dụng cơng thức ước lượng lại các tham số như sau: nK dcP dcPnV dcPn i n i iik n i V k iij n i c cj + ∑+ ∑∑+ ∑+ = == = = = )|(1 )|(|| )|(1 1 1 || 1 1 θ θ Đề xuất giải pháp làm mịn giá trị ngưỡng của các lớp Giá trị ngưỡng của các lớp sẽ được thích nghi với dữ liệu khơng cĩ nhãn(dữ liệu trong tương lai) bằng thuật tốn sau: Thuật tốn: (1) For mỗi tài liệu d ∈ Dtest do (2) { (3) Tiến hành phân lớp cho tài liệu d ; (4) Lưu lại các gía trị )|( cdP và )|( dcP ; (5) } (6) For mỗi lớp c ∈ C do (7) { (8) othres ← thc ; (9) tmp ← 0; (10) tmpv ←0; Thuật tốn phân lớp văn bản Web và thực nghiệm trong máy tìm kiếm VietSeek Khĩa luận tốt nghiệp đại học Đặng Thanh Hải 58 (11) For (mỗi tài liệu d ∈ Dtest ) AND tài liệu d cĩ nhãn là c do (12) { (13) tmp ← tmp + )|( cdP * )|( dcP ; (14) tmpv ← tmpv + )|( cdP * )|( 2dcP ; (15) } (16) tmpv ← tmp – tmpv; (17) n ← 1; (18) while ((tmp – n*tmpv) > othres) do (19) { (20) thc ← tmp – n*tmpv; (21) n ← n+1; (22) } (23) } 3.6. Các yếu tố đánh giá bộ phân lớp Khả năng sử dụng hàm lý thuyết h(•) để mơ tả hàm phân lớp thật sự f(•) (hàm phân lớp kỳ vọng) cĩ thể được đánh giá bằng việc so sánh giá trị của hàm h(•) và hàm f(•) trên cùng một tập dữ liệu đã biết trước nhãn. Giả sử chúng ta chỉ cĩ hai lớp cho trước và hàm lý thuyết h(•) được mơ tả bằng ma trận sau: Lớp thật sự Lớp được phân _ + - TN FN - FP TP Nếu ứng dụng cĩ các miền ngữ nghĩa phân bố đồng đều nhau(xác suất khơng điều kiện của các lớp tương đương nhau), khi đĩ độ chính xác A(Accuracy) thường được sử dụng để làm tham số đánh giá: Thuật tốn phân lớp văn bản Web và thực nghiệm trong máy tìm kiếm VietSeek Khĩa luận tốt nghiệp đại học Đặng Thanh Hải 59 ||D TPTN A test += Nếu các miền ngữ nghĩa khơng cân bằng với nhau, thì độ đo )( precisionρ và )(recallπ sẽ phù hợp hơn. Khơng mất tính tổng quát, cĩ thể giả sử rằng số lượng các dữ liệu thật sự thuộc lớp (+) lớn hơn rất nhiều lần số lượng dữ liệu thuộc lớp (-). Khi đĩ ta cĩ: FNTN TN FPTP TP += += ρ π Trong trường hợp cĩ nhiều lớp, cĩ thể định nghĩa )( precisionρ và )(recallπ một cách độc lập cho từng lớp, đồng thời xem tất cả các lớp cịn lại như là lớp (-). 3.6.1. Các chiến lược đánh giá độ chính xác của bộ phân lớp Việc ước lượng độ chính xác của của bộ phân lớp là một cơng việc quan trọng, qua đĩ cho phép chúng ta đánh giá độ chính xác của bộ phân lớp trong việc gán nhãn cho các dữ liệu trong tương lai, dữ liệu khơng nhãn. Ngồi ra nĩ cịn cho phép chúng ta so sánh giữa các bộ phân lớp với nhau, tìm ra bộ phân lớp tốt nhất để áp dụng vào thực tiễn. Cĩ một số chiến lược hay được sử dụng để ước lượng độ chính xác của bộ phân lớp như chiến lược ước lượng trên hai tập con (holdout) và chiến lược ước lượng chéo trên k tập con, k-fold cross validation. Cả hai chiến lược này đều ước lượng độ chính xác của bộ phân lớp bằng cách phân hoạch ngẫu nhiên tập dữ liệu cĩ nhãn cho trước. Chiến lược ước lượng trên hai tập con (holdout strategy) Trong chiến lược này, tập dữ liệu cĩ nhãn cho trước được phân hoạch thành hai tập con độc lập, tập huấn luyện và tập kiểm tra. Đặc biệt tập huấn luyện cĩ lực Thuật tốn phân lớp văn bản Web và thực nghiệm trong máy tìm kiếm VietSeek Khĩa luận tốt nghiệp đại học Đặng Thanh Hải 60 lượng lớn gấp hai lần tập kiểm tra. Tập huấn luyện dùng để xây dựng bộ phân lớp, sau đĩ độ chính xác của bộ phân lớp này sẽ được ước lượng dựa trên tập kiểm tra. Ngồi ra chúng ta cĩ thể tiến hành lặp chiến lược này k lần, khi đĩ trung bình cộng của tất cả các độ chính xác trong mỗi lần lặp sẽ là kết quả cuối cùng. Chiến lược ước lượng chéo trên k tập con (k-fold cross validation strategy) Trong chiến lược này, tập dữ liệu cĩ nhãn ban đầu được phân hoạch thành k tập cĩ lực lượng bằng nhau và loại trừ lẫn nhau từng đơi một, S1,S2, ......,Sk. Quá trình huấn luyện và kiểm tra được tiến hành k lần. Trong lần lặp thứ i, tập con Si sẽ được sử dụng như là tập kiểm tra và tất cả các tập cịn lại sẽ được dùng để xây dựng bộ phân lớp. Độ chính xác của bộ phân lớp sẽ được ước lượng bằng thương của số lần phân lớp đúng chia cho tổng số đối tượng dữ liệu trong tập huấn luyện ban đầu. 3.7. Tích hợp bộ phân lớp Bayes vào máy tìm kiếm VietSeek Qua quá trình nghiên cứu, khĩa luận đã tiến hành xây dựng và ứng dụng thành cơng bộ phân lớp trang văn bản Web đề xuất vào máy tìm kiếm VietSeek, bước đầu cho kết quả rất khả quan. Ngồi ra hệ thống cịn cĩ khả năng tạo dữ liệu huấn luyện ban đầu một các tự động theo hạn chế cụ thể nào đĩ. Để cĩ thể tích hợp bộ phân lớp Bayes

Các file đính kèm theo tài liệu này:

K45_Dang_Thanh_Hai_Thesis.pdf