Tài liệu Luận văn Phương pháp nâng cao chất lượng kết quả trả lời cho hệ thống hỏi đáp danh sách Tiếng Việt: ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Nguyễn Thanh Sơn
PHƯƠNG PHÁP NÂNG CAO CHẤT LƯỢNG
KẾT QUẢ TRẢ LỜI CHO
HỆ THỐNG HỎI ĐÁP DANH SÁCH TIẾNG VIỆT
KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY
Ngành: Công nghệ Thông tin
HÀ NỘI - 2010
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Nguyễn Thanh Sơn
PHƯƠNG PHÁP NÂNG CAO CHẤT LƯỢNG
KẾT QUẢ TRẢ LỜI CHO
HỆ THỐNG HỎI ĐÁP DANH SÁCH TIẾNG VIỆT
KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY
Ngành: Công nghệ Thông tin
Cán bộ hướng dẫn: PGS.TS Hà Quang Thụy
Cán bộ đồng hướng dẫn: ThS. Trần Mai Vũ
HÀ NỘI - 2010
Lời cảm ơn
Trước tiên, tôi xin gửi lời cảm ơn và lòng biết ơn sâu sắc nhất tới Phó Giáo sư
Tiến sĩ Hà Quang Thụy, Thạc sĩ Trần Mai Vũ và Cử nhân Lê Hoàng Quỳnh – những
người đã tận tình chỉ bảo và hướng dẫn tôi trong quá trình thực hiện khoá luận tốt
nghiệp.
Tôi chân thành cảm ơn các thầy, cô và cán bộ của trường Đại Học Công Nghệ đã
tạo cho tôi những điều kiện thuận lợi để học tập và...
62 trang |
Chia sẻ: haohao | Lượt xem: 1067 | Lượt tải: 0
Bạn đang xem trước 20 trang mẫu tài liệu Luận văn Phương pháp nâng cao chất lượng kết quả trả lời cho hệ thống hỏi đáp danh sách Tiếng Việt, để tải tài liệu gốc về máy bạn click vào nút DOWNLOAD ở trên
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Nguyễn Thanh Sơn
PHƯƠNG PHÁP NÂNG CAO CHẤT LƯỢNG
KẾT QUẢ TRẢ LỜI CHO
HỆ THỐNG HỎI ĐÁP DANH SÁCH TIẾNG VIỆT
KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY
Ngành: Công nghệ Thông tin
HÀ NỘI - 2010
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Nguyễn Thanh Sơn
PHƯƠNG PHÁP NÂNG CAO CHẤT LƯỢNG
KẾT QUẢ TRẢ LỜI CHO
HỆ THỐNG HỎI ĐÁP DANH SÁCH TIẾNG VIỆT
KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY
Ngành: Công nghệ Thông tin
Cán bộ hướng dẫn: PGS.TS Hà Quang Thụy
Cán bộ đồng hướng dẫn: ThS. Trần Mai Vũ
HÀ NỘI - 2010
Lời cảm ơn
Trước tiên, tôi xin gửi lời cảm ơn và lòng biết ơn sâu sắc nhất tới Phó Giáo sư
Tiến sĩ Hà Quang Thụy, Thạc sĩ Trần Mai Vũ và Cử nhân Lê Hoàng Quỳnh – những
người đã tận tình chỉ bảo và hướng dẫn tôi trong quá trình thực hiện khoá luận tốt
nghiệp.
Tôi chân thành cảm ơn các thầy, cô và cán bộ của trường Đại Học Công Nghệ đã
tạo cho tôi những điều kiện thuận lợi để học tập và nghiên cứu.
Tôi cũng xin gửi lời cảm ơn tới các anh chị và các bạn sinh viên trong phòng thí
nghiệm Sislab đã giúp tôi rất nhiều trong việc thu thập và xử lý dữ liệu.
Cuối cùng, tôi muốn gửi lời cảm ơn tới gia đình và bạn bè, những người thân yêu
luôn bên cạnh, động viên tôi trong suốt quá trình thực hiện khóa luận tốt nghiệp.
Tôi xin chân thành cảm ơn!
Sinh viên
Nguyễn Thanh Sơn
Tóm tắt
Nhờ khả năng hỗ trợ người dùng trong việc khai thác các tài nguyên trên Internet
một cách hiệu quả và dễ dàng, hệ thống hỏi đáp nói chung đã được quan tâm nghiên
cứu từ khá lâu, tuy nhiên các dạng hệ thống hỏi đáp đặc biệt, trong đó có hệ thống hỏi
đáp danh sách vẫn còn đang ở bước đầu phát triển. Hệ thống hỏi đáp danh sách là hệ
thống hỏi đáp, nhận đầu vào là câu hỏi dưới dạng ngôn ngữ tự nhiên và trả về câu trả
lời dưới dạng một danh sách. Tại Việt Nam, các nghiên cứu về hệ thống hỏi đáp nói
chung, cũng như về hệ thống hỏi đáp danh sách nói riêng tập trung cho miền dữ liệu
tiếng Việt còn rất nhiều hạn chế. Một trong những lý do chính là chúng ta còn thiếu
các công cụ xử lý tiếng Việt, các tài nguyên ngôn ngữ học, …
Khóa luận Phương pháp nâng cao chất lượng kết quả trả lời cho hệ thống hỏi
đáp danh sách tiếng Việt tập trung nghiên cứu các phương pháp xây dựng hệ thống hỏi
đáp danh sách đã được áp dụng trên thế giới cũng như một số phương pháp nâng cao
chất lượng kết quả trả lời cho dạng hệ thống hỏi đáp này. Trên cơ sở các nghiên cứu
nói trên, kết hợp với việc khảo sát điều kiện thực tế của các công cụ xử lý ngôn ngữ
tiếng Việt, khóa luận đề xuất mô hình nâng cao chất lượng kết quả trả lời cho hệ thống
hỏi đáp danh sách tiếng Việt sử dụng luật Wrapper và luật ngữ nghĩa. Thực nghiệm
mô hình cho kết quả khá khả quan, đạt độ chính xác cho câu trả lời chứa 5 kết quả là
93.87% so với độ chính xác 82.11% của pha hỏi đáp danh sách, đồng thời hứa hẹn
nhiều tiềm năng nghiên cứu mới.
Mục lục
Lời mở đầu .................................................................................................................. 1
Chương 1. Giới thiệu hệ thống hỏi đáp danh sách ........................................................ 3
1.1. Hệ thống hỏi đáp ............................................................................................... 3
1.1.1. Giới thiệu chung .......................................................................................... 3
1.1.2. Một số vấn đề cần quan tâm ........................................................................ 4
1.1.3. Các bước xử lý chung .................................................................................. 5
1.1.4. Tiêu chuẩn đánh giá..................................................................................... 6
1.1.5. Phân loại...................................................................................................... 7
1.2. Hệ thống hỏi đáp danh sách ............................................................................. 10
1.2.1. Giới thiệu .................................................................................................. 10
1.2.2. Một số hướng tiếp cận xây dựng hệ thống hỏi đáp danh sách..................... 10
1.2.3. Những vấn đề cần giải quyết khi xây dựng hệ hỏi đáp danh sách ............... 11
Chương 2. Các nghiên cứu liên quan ......................................................................... 13
2.1. Một số hệ thống hỏi đáp danh sách điển hình ................................................... 13
2.1.1. Hệ thống hỏi đáp danh sách FADA ........................................................... 16
2.1.2. Hệ thống hỏi đáp Ephyra ........................................................................... 20
2.2. Nâng cao chất lượng trả lời cho hệ thống hỏi đáp danh sách ............................ 23
Chương 3: Đề xuất mô hình nâng cao chất lượng câu trả lời cho hệ thống hỏi đáp danh
sách tiếng Việt ........................................................................................................... 28
3.1. Mô hình nâng cao chất lượng câu trả lời cho hệ thống hỏi đáp danh sách tiếng
Việt ........................................................................................................................ 28
3.2. Pha 1: Hỏi đáp danh sách tiếng Việt ................................................................ 29
3.2.1. Tìm kiếm câu trả lời dựa vào các mẫu quan hệ thượng hạ danh ................. 29
3.2.2. Mô hình pha 1: Hệ thống hỏi đáp danh sách .............................................. 30
3.3. Pha 2: Mở rộng thực thể .................................................................................. 32
3.3.1. Xây dựng các luật Wrapper ...................................................................... 33
3.3.2. Các phương pháp xếp hạng được sử dụng .................................................. 35
3.3.3. Mô hình pha 2: mở rộng thực thể ............................................................... 35
Chương 4. Thực nghiệm và đánh giá ......................................................................... 39
4.1. Thực nghiệm pha hỏi đáp danh sách ................................................................ 39
4.1.1. Dữ liệu thực nghiệm .................................................................................. 39
4.1.2. Kết quả thực nghiệm.................................................................................. 40
4.2. Thực nghiệm đánh giá kết quả mô hình nâng cao chất lượng câu trả lời cho hệ
thống hỏi đáp danh sách tiếng việt .......................................................................... 42
Kết luận ..................................................................................................................... 47
Phụ lục....................................................................................................................... 49
Tài liệu tham khảo ..................................................................................................... 51
Danh sách các bảng
Bảng 1. 5 kết quả cao nhất tại TREC-12 (Voorhees, 2003) ........................................ 13
Bảng 2. Các lớp trang web ......................................................................................... 17
Bảng 3. Hiệu suất của tập kiểm thử trong TREC-12 ................................................... 20
Bảng 4. Cây kế thừa thực thể tên và các mẫu loại ...................................................... 22
Bảng 5. Kết quả thực thi SEAL với các thuật toán đánh giá và số lượng tập mồi khác
nhau ........................................................................................................................... 25
Bảng 6. Ví dụ các truy vấn và chất lượng văn bản thu thập tương ứng ....................... 26
Bảng 7. Độ chính xác trung bình của Ephyra ............................................................. 27
Bảng 8. Độ đo trung bình F1 của Ephyra .................................................................... 27
Bảng 9. Một số mẫu quan hệ thượng hạ danh trong tiếng Anh và tiếng Việt. ............. 30
Bảng 10. Ví dụ về câu hỏi danh sách và từ khóa tương ứng ....................................... 39
Bảng 11. Kết quả thực nghiệm pha hỏi đáp danh sách tiếng Việt ............................... 40
Bảng 12. Kết quả thực nghiệm mô hình nâng cao sử dụng 2 thực thể mồi .................. 42
Bảng 13. Kết quả thực nghiệm mô hình nâng cao sử dụng 3 thực thể mồi .................. 43
Bảng 14. Kết quả thực nghiệm mô hình nâng cao – 4 kết quả đầu vào ....................... 44
Danh sách các hình
Hình 1. Các bước chung của hệ thống hỏi đáp ............................................................ 5
Hình 2. Xu hướng trong nghiên cứu về hệ thống hỏi đáp ............................................. 8
Hình 3. Ví dụ về một Snippet trả về từ máy tìm kiếm ................................................ 22
Hình 4. Mô hình thực nghiệm nâng cao chất lượng kết quả trả lời trong .................... 28
Hình 5. Ví dụ về quan hệ thượng hạ danh. ................................................................. 29
Hình 6. Mô hình pha 1 - Hỏi đáp danh sách tiếng Việt ............................................... 30
Hình 7. Ví dụ cấu trúc web ........................................................................................ 33
Hình 8.Ví dụ văn bản bán cấu trúc ............................................................................. 34
Hình 9. Mô hình pha 2 - Mở rộng thực thể ................................................................ 36
Danh sách các biểu đồ
Biểu đồ 1. Kết quả của mỗi loại câu hỏi trong tập dữ liệu kiểm thử - TREC, 2007 ..... 15
Biểu đồ 2. Số lượng từ khóa được đáp ứng với số lượng khác nhau của tập kết quả ... 40
Biểu đồ 3. Độ chính xác của các kết quả trong thực nghiệm pha hỏi đáp danh sách
tiếng Việt ................................................................................................................... 41
Biểu đồ 4. So sánh độ chính xác câu trả lời ................................................................ 44
Biểu đồ 5.Khả năng đáp ứng từ khóa của hệ thống trong các trường hợp ................... 45
1
Lời mở đầu
Internet ngày nay, một mặt đã trở thành kho tài nguyên thông tin khổng lồ và
phong phú, nhưng mặt khác, việc thông tin được tổ chức dưới dạng không cấu trúc
hoặc bán cấu trúc cũng khiến cho việc nắm bắt thông tin trở nên khó khăn. Máy tìm
kiếm đã hỗ trợ khá đắc lực cho người dùng, tuy nhiên, để có thông tin mong muốn,
người dùng phải tự tìm trong các trang web mà máy tìm kiếm trả về. Đây là một công
việc tốn rất nhiều thời gian và công sức bởi số lượng các trang web được trả về bởi
máy tìm kiếm thường là rất lớn. Chính vì vậy hệ thống hỏi đáp đã ra đời, nhằm mục
đích tìm kiếm câu trả lời ngắn gọn và chính xác nhất cho người dùng thay vì trả về các
văn bản. Các câu hỏi của người dùng thường rất đa dạng và yêu cầu các loại câu trả lời
cũng khác nhau. Một trong những hướng nghiên cứu mới và đang được chú ý hiện nay
chính là về hệ thống hỏi đáp danh sách.
Thay vì chỉ có một kết quả trong câu trả lời, hệ thống hỏi đáp danh sách thường
phải trả về câu trả lời là một danh sách các kết quả. Đây chính là đặc điểm khác biệt
nhất giữa hệ thống hỏi đáp danh sách và các hệ thống hỏi đáp khác. Trả về câu trả lời
chứa đầy đủ và chính xác các kết quả chính là một trong những mục tiêu được chú
trọng nhất được hướng đến khi xây dựng hệ thống hỏi đáp danh sách. Tuy nhiên, đó
cũng chính thách thức lớn nhất mà các nhà nghiên cứu gặp phải.
Khóa luận Phương pháp nâng cao chất lượng kết quả trả lời cho hệ thống hỏi
đáp danh sách tiếng Việt thực hiện việc khảo sát, nghiên cứu một số phương pháp đã
được sử dụng trong một số hệ thống hỏi đáp danh sách, cũng như tìm hiểu một vài
nghiên cứu về việc nâng cao chất lượng trả lời cho hệ thống hỏi đáp danh sách, từ đó
đưa ra phương pháp phù hợp để giải quyết bài toán này cho miền dữ liệu tiếng Việt.
Khóa luận đề xuất một mô hình giải quyết bài toán gồm 2 pha chính:
(1) Pha hỏi đáp danh sách, tìm câu trả lời dựa vào các luật thượng hạ danh
(hyponym).
(2) Pha nâng cao chất lượng cho câu trả lời của pha hỏi đáp danh sách dựa vào
các phương pháp mở rộng thực thể.
Nội dung của khóa luận bao gồm các chương sau:
Chương 1. Giới thiệu hệ thống hỏi đáp danh sách. Chương 1 trình bày những
nội dung cơ bản về hệ thống hỏi đáp nói chung và hệ thống hỏi đáp danh sách nói
riêng.
Chương 2. Các nghiên cứu liên quan. Chương 2 điểm qua một số các nghiên
cứu liên quan trên thế giới cũng như tại Việt Nam về hệ thống hỏi đáp nói chung, cũng
2
như hệ thống hỏi đáp danh sách nói riêng và bài toán mở rộng thực thể. Khóa luận tập
trung tìm hiểu các phương pháp được áp dụng trong hai hệ thống hỏi đáp danh sách
tiêu biểu là FADA và Ephyra. Cùng với đó, chương này cũng giới thiệu về các nghiên
cứu đã có để nâng cao chất lượng câu trả lời cho hệ thống hỏi đáp danh sách, trong đó
tập trung cho hướng nâng cao bằng mở rộng thực thể.
Chương 3. Đề xuất mô hình nâng cao chất lượng câu trả lời cho hệ thống hỏi
đáp danh sách tiếng Việt. Chương 3 trình bày về mô hình nâng cao chất lượng cho hệ
thống hỏi đáp danh sách tiếng Việt mà khoá luận đề xuất. Mô hình này gồm 2 pha
chính là pha hỏi đáp danh sách và pha mở rộng thực thể.
Chương 4. Thực nghiệm và đánh giá. Tiến hành thực nghiệm để kiểm tra chất
lượng của phương pháp đã đề xuất bằng cách thực nghiệm riêng pha hỏi đáp danh sách
và thực nghiệm có sử dụng bước nâng cao kết quả trong mô hình, từ đó đưa ra đánh
giá.
Kết luận và hướng phát triển khóa luận: Tóm lược những nội dung chính của
khóa luận.Đồng thời đưa ra những hướng nghiên cứu trong thời gian sắp tới dựa vào
các định hướng khắc phục một vài hạn chế vẫn còn tồn tại.
3
Chương 1. Giới thiệu hệ thống hỏi đáp danh sách
1.1. Hệ thống hỏi đáp
1.1.1. Giới thiệu chung
Sự phát triển ngày càng mạnh mẽ của World Wide Web đã đưa ra thách thức
khai phá các thông tin trên web một cách hiệu quả hơn. Tuy kết quả trả về của các máy
tìm kiếm ngày càng được nâng cao chất lượng nhưng kết quả vẫn là danh sách các tài
liệu có chứa câu truy vấn. Người dùng muốn có thông tin thì phải tự tìm trong các
trang web đó. Đây là một công việc tốn rất nhiều thời gian và công sức bởi số lượng
các trang web được trả về bởi máy tìm kiếm thường là rất lớn. Chính vì vậy hệ thống
hỏi đáp đã ra đời, nhằm mục đích tìm kiếm câu trả lời ngắn gọn và chính xác nhất cho
người dùng thay vì trả về các văn bản.
Khái niệm hệ thống hỏi đáp: Hệ thống hỏi đáp là hệ thống đuợc xây dựng để
thực hiện việc tìm kiếm tự động câu trả lời từ một tập lớn các tài liệu cho câu hỏi đầu
vào một cách chính xác và ngắn gọn [30].
Nhiệm vụ của hệ hỏi đáp là tự động tìm ra câu trả lời cho câu hỏi dưới dạng ngôn
ngữ tự nhiên. Để tìm được câu trả lời, hệ hỏi đáp phải sử dụng các nguồn dữ liệu có
cấu trúc như cơ sở dữ liệu hoặc một tập các văn bản không có cấu trúc. Tuy nhiên, như
đã biết, ngôn ngữ tự nhiên chứa các yếu tố nhập nhằng, đa nghĩa, việc xác định được
ngữ nghĩa của câu hỏi cũng như tìm ra câu trả lời là một thách thức không nhỏ. Không
những vậy, giữa câu hỏi và câu trả lời còn tồn tại các quan hệ “ngầm” hay phụ thuộc
ngữ cảnh.
Ví dụ câu hỏi
“Ai là tác giả của Dế mèn phiêu lưu ký?”
Một câu trả lời là:
“Tô Hoài đã viết tác phẩm văn xuôi Dế mèn phiêu lưu ký”.
Hoặc câu hỏi là “Beethoven sinh năm nào?”
Thì một câu trả lời là “Ludwig van Beethoven (1770-1827)”
Để tìm được câu trả lời cho câu hỏi “Ai là tác giả của Dế mèn phiêu lưu ký?”, hệ
thống cần có cơ chế để biết được rằng “tác giả của một tác phẩm là người viết tác
phẩm đó” hoặc cần học được các mẫu thường gặp của câu trả lời (các mẫu về ngày
tháng năm sinh, về thời gian, địa chỉ….) tương ứng với từng loại câu hỏi. Các hệ thống
4
hỏi đáp hiện nay sử dụng các công cụ xử lý ngôn ngữ tự nhiên như bộ gán nhãn từ loại
(POS Tagger), bộ nhận dạng thực thể định danh (Named Entity Recognizer), bộ phân
tích ngữ pháp (Parser)… và các tài nguyên ngôn ngữ như Wordnet [11], ontology [23]
để phân tích câu hỏi và trích xuất câu trả lời.
Hệ thống hỏi đáp đang nhận được rất nhiều sự quan tâm của các nhà nghiên cứu
và các doanh nghiệp công nghệ thông tin, có ý nghĩa cả về khoa học lẫn thực tiễn. Rất
nhiều hội nghị thường niên về trích chọn thông tin và khai phá dữ liệu dành một chủ
đề riêng cho các nghiên cứu về hệ thống hỏi đáp TREC1, CLEF2.
Hiện đã có một số hệ thống hỏi đáp ra đời. Một số hệ thống hỏi đáp tiêu biểu
được biết đến như: Answer.com3, START4, Ask Jeeves5, Webclopedia [9], FADA
[14], Ephyra [22],... trong đó, FADA, Ephyra là các hệ thống hỏi đáp danh sách sẽ
được giới thiệu chi tiết hơn ở chương 2.
1.1.2. Một số vấn đề cần quan tâm
Năm 2002, John Burger và cộng sự [7] đã đưa ra một số vấn đề cần quan tâm khi
xây dựng một hệ thống hỏi đáp như sau:
Loại câu hỏi: Đầu vào của hệ thống hỏi đáp là câu hỏi của người dùng dưới
dạng ngôn ngữ tự nhiên. Câu hỏi trong ngôn ngữ tự nhiên rất đa dạng, nhiều
ẩn ý, nhiều nhập nhằng và phụ thuộc vào ngữ cảnh hỏi. Một số loại câu hỏi
đang được quan tâm trong hệ hống hỏi đáp như câu hỏi về sự vật, sự kiện,
định nghĩa, danh sách, quá trình, cách thức, lý do… Mỗi loại câu hỏi có
những đặc trưng và khó khăn riêng, đòi hỏi phải có các chiến lược để trả lời
chúng.
Xử lý câu hỏi: Một câu hỏi có thể được diễn đạt bằng nhiều cách khác nhau.
Vì thế, việc xử lý câu hỏi là xác định được các câu hỏi tương tự, các quan hệ
ngữ pháp, loại câu hỏi, đồng thời có thể chuyển một câu hỏi phức tạp thành
chuỗi các câu hỏi đơn giản hơn.
Ngữ cảnh: Câu hỏi thường được gắn với ngữ cảnh và câu trả lời cũng được
đưa ra trong một ngữ cảnh xác định. Việc sử dụng các thông tin về ngữ cảnh
1TREC: Text REtrieval Conference.
2 CLEF: The Cross-Language Evaluation Forum.
3
4
5
5
giúp hệ thống hỏi đáp hiểu câu hỏi một cách rõ ràng, loại bỏ được các nhặp
nhằng và tăng tính chính xác khi trả lời câu hỏi.
Nguồn dữ liệu: một hệ thống hỏi đáp cho dù có hoạt động thông minh đến
đâu cũng không thể tìm được chính xác câu trả lời nếu như câu trả lời đó
không nằm trong tập dữ liệu. Chính vì thế, hệ thống hỏi đáp cần phải có
nguồn dữ liệu phong phú, có thể là sách, báo chí hay các trang web. Tuy
nhiên cần đảm bảo nguồn dữ liệu có độ tin cậy và thông tin chính xác cao.
Trích xuất câu trả lời: Việc trích xuất câu trả lời phụ thuộc vào nhiều yếu tố:
độ phức tạp của câu hỏi, loại câu hỏi có được từ quá trình xử lý câu hỏi, dữ
liệu chứa câu trả lời, phương pháp tìm kiếm và ngữ cảnh,... Câu trả lời cho
người dùng cần phải đảm bảo chính xác và đầy đủ.
1.1.3. Các bước xử lý chung
Các hệ thống hỏi đáp hiện nay có kiến trúc khác nhau tùy thuộc vào loại hệ thống
hỏi đáp. Tuy nhiên các hệ thống hỏi đáp đều bao gồm ba bước cơ bản như hình 1 [5].
Sự khác nhau giữa các hệ thống hỏi đáp là ở quá trình xử lý trong từng bước, đặc biệt
là ở cách tiếp cận trong việc xác định câu trả lời.
Bước1 - Phân tích câu hỏi: Đây là bước đầu tiên của hệ hỏi đáp. Đầu vào là câu
hỏi dưới dạng ngôn ngữ tự nhiên. Tại bước này, hệ thống phân tích câu hỏi để tạo truy
vấn cho bước trích chọn tài liệu liên quan và tìm ra những thông tin hữu ích cho bước
trích xuất câu trả lời
Bước2 - Thu thập tài liệu: Bước này sử dụng câu truy vấn được tạo ra ở bước
phân tích câu hỏi, truy vấn trên các công cụ tìm kiếm để tìm các tài liệu phục vụ cho
việc tìm kiếm câu trả lời.
Bước3 - Trích xuất câu trả lời: Bước này phân tích tập tài liệu đã thu thập được
ở bước 2 và sử dụng các thông tin hữu ích do bước phân tích câu hỏi cung cấp để tìm
kiếm, trích chọn và đưa ra câu trả lời chính xác nhất cho câu hỏi của người dùng.
Phân tích
câu hỏi
Thu thập
tài liệu
Trích xuất
câu trả lời
Câu hỏi Câu
trả lời
Hình 1. Các bước chung của hệ thống hỏi đáp
6
1.1.4. Tiêu chuẩn đánh giá
Năm 2002, John Burger và cộng sự [7] đã tổng kết một số tư tưởng chung cho
việc nghiên cứu hệ thống hỏi đáp. Theo đó một hệ thống hỏi đáp được người dùng
đánh giá là hữu ích nếu đáp ứng được các tiêu chuẩn sau:
Tính hợp lý về thời gian (Timeliness): hệ thống cần đưa ra câu trả lời trong
khoảng thời gian hợp lý, ngay cả khi có nhiều người dùng cùng truy nhập hệ
thống. Hệ thống cần luôn cập nhật dữ liệu để có thể cung cấp cho người
dùng câu trả lời chính xác, kể cả đối với những câu hỏi mang tính chất thời
sự.
Tính chính xác: tính chính xác của hệ thống hỏi đáp là cực kì quan trọng,
việc đưa ra câu trả lời sai còn tai hại hơn là không đưa ra câu trả lời. Chính
vì thế, khi nghiên cứu về hệ thống hỏi đáp cần tập trung vào việc đánh giá
tính đúng đắn của câu trả lời. Trong đó bao gồm cả các phương pháp để phát
hiện các trường hợp mà tập dữ liệu được xét không chứa câu trả lời. Các
thông tin mâu thuẫn trong dữ liệu cũng cần được tìm ra và các thông tin này
cần được xử lý một cách phù hợp và nhất quán. Để đạt được tính chính xác,
hệ thống hỏi đáp cần kết hợp chặt chẽ các nguồn tri thức (world knowledge)
và cơ chế “bắt chước” việc suy luận thông thường.
Tính khả dụng: thông thường, tri thức trong hệ thống hỏi đáp cần đáp ứng
được như cầu của người dùng. Các ontology trên từng miền cụ thể và
ontology trên miền mở cần được tích hợp trong hệ thống. Để tìm ra câu trả
lời thì các hệ hỏi đáp thường xét trên nhiều dữ liệu khác nhau. Thông tin về
câu trả lời có thể nằm trong dữ liệu văn bản, trong cơ sở dữ liệu, trong các
đoạn phim hay các nguồn đa phương tiện khác. Một hệ thống phải đáp cần
có khả năng khai phá câu trả lời từ các nguồn dữ liệu khác nhau và đưa ra
câu trả lời ở bất kỳ định dạng nào mà người dùng mong muốn. Hơn nữa, hệ
thống hỏi đáp nên có khả năng cho phép người dùng mô tả ngữ cảnh của câu
hỏi và nên cung cấp các thông tin giải thích, trích dẫn nguồn cho câu trả lời.
Tính hoàn chỉnh: khả năng đưa ra được câu trả lời hoàn chỉnh cho câu hỏi
của người dùng chính là điều mà các hệ thống hỏi đáp hướng tới. Trong
nhiều trường hợp (câu hỏi về danh sách, nguyên nhân, cách thức…), các
phần của câu trả lời nằm rải rác trong một văn bản, thậm chí trong nhiều văn
7
bản. Vì vậy cần phải hợp nhất các phần này dựa trên các thông tin liên kết
để tạo ra câu trả lời hoàn chỉnh.
Tính thích hợp: Câu trả lời cho một câu hỏi của người dùng cần phải thích
hợp với ngữ cảnh cụ thể. Thông thường một số trường hợp, hệ thống hỏi đáp
có khả năng giao tiếp (interactive Q&A) có thể là cần thiết, trong đó chuỗi
các câu hỏi liên quan đến một vấn đề sẽ giúp làm sáng tỏ thông tin mà người
dùng đang hỏi. Việc đánh giá một hệ thống hỏi đáp cần hướng tới người
dùng bởi ý kiến người dùng là đánh giá tốt nhất cho tính thích hợp của một
hệ thống hỏi đáp.
Các tiêu chuẩn trên được xem xét đến với mong muốn xây dựng được một hệ
thống hỏi đáp hoàn chỉnh. Tuy nhiên, không phải hệ thống nào cũng có khả năng
thông minh và hoàn thiện như thế. Các nghiên cứu về hệ thống hỏi đáp hiện nay đang
tập trung vào xây dựng hệ thống hỏi đáp có tính chính xác cao và có khả năng sử dụng
nguồn dữ liệu web khổng lồ trên Internet.
1.1.5. Phân loại
Dựa trên các tiêu chí khác nhau mà có các cách phân loại hệ thống hỏi đáp khác
nhau như: phân loại theo miền ứng dụng, theo khả năng trả lời câu hỏi, theo cách tiếp
cận giải quyết bài toán…
1.1.5.1. Phân loại theo miền ứng dụng (domain)
Khi phân loại theo miền ứng dụng, hệ thống hỏi đáp được phân làm hai loại đó là
Hệ thống hỏi đáp miền đóng và Hệ thống hỏi đáp miền mở.
Hệ thống hỏi đáp miền đóng (Closed Domain Question Answering): Hệ thống
tập trung vào trả lời các câu hỏi liên quan đến một miền dữ liệu cụ thể (giáo dục, y tế,
du lịch ...). Xây dựng hệ thống hỏi đáp miền đóng được coi là bài toán dễ hơn so với
xây dựng hệ thống hỏi đáp miền mở vì việc xử lý ngôn ngữ tự nhiên thường dễ hơn rất
nhiều do có thể sử dụng các tri thức miền (thường là ontology của miền cụ thể).
Hệ thống hỏi đáp miền mở (Open Domain Question Answering): hệ thống hỏi
đáp miền mở trả lời các câu hỏi liên quan đến bất kì miền dữ liệu nào. Khó khăn cho
hệ thống miền mở đó chính là việc xây dựng các tri thức nền cho việc trả lời cũng như
phân tích câu hỏi, các phương pháp hiện nay thường sử dụng một số các ontology khái
quát hay các mạng tri thức như: wikipedia, bách khoa từ điển... Các dạng câu hỏi cho
hệ thống hỏi đáp miền mở là rất đa dạng và câu trả lời không bó hẹp trong một miền
8
dữ liệu cụ thể nào cả. Chính vì thế mà đòi hỏi của hệ thống hỏi đáp miền mở là phải
bao quát được dữ liệu thuộc nhiều lĩnh vực khác nhau. Tuy nhiên cũng chính vì lý do
đó mà dữ liệu cho việc trích rút câu trả lời trong hệ thống hỏi đáp miền mở là rất
phong phú và dễ thu thập.
Các nghiên cứu hiện nay về hệ thống hỏi đáp đang tập trung vào xây dựng hệ
thống hỏi đáp trên miền mở, sử dụng nguồn dữ liệu phi cấu trúc và bán cấu trúc (kho
văn bản lớn hay dữ liệu web) để tìm câu trả lời. Các nghiên cứu mới và các cải tiến
những phương pháp cũ đang hướng đến mục đích sử dụng nguồn dữ liệu web vốn đa
dạng, nhiều “nhiễu” và trùng lặp để tìm ra câu trả lời đang rất được quan tâm [5]
(Hình 2).
1.1.5.2. Phân loại theo hướng tiếp cận
Hướng tiếp cận nông (shallow): Nhiều phương pháp sử dụng trong hệ hỏi đáp
dùng các kĩ thuật dựa trên từ khóa để lựa chọn các câu, đọan văn trong các văn bản thu
thập được, sau đó lọc lấy câu trả lời. Phương pháp xếp hạng cho các câu trả lời thường
được dựa trên đặc trưng cú pháp như là thứ tự từ hoặc vị trí từ và đặc điểm tương tự
với câu hỏi (ví dụ các câu hỏi về tên người, địa danh, số lượng…). Đối với hướng tiếp
cận nông thì có thể sử dụng các mẫu để tìm ra các câu trả lời với giả thiết mong muốn
Hệ thống hỏi đáp
Miền đóng Miền mở
Dữ liệu có cấu trúc Dữ liệu phi cấu trúc (text)
Web Tập dữ liệu lớn Một văn bản đơn
Hình 2. Xu hướng trong nghiên cứu về hệ thống hỏi đáp
9
rằng câu trả lời có cùng cấu trúc giống câu hỏi. Ví dụ với câu hỏi “What is a X” thì ta
có mẫu là “X is a Y” và có thể tìm được câu trả lời là Y.
Hướng tiếp cận sâu (deep): Trong trường hợp các kĩ thuật sử dụng từ khóa hoặc
biến đổi cấu trúc câu hỏi là chưa đủ để tìm ra câu trả lời thì cần sử dụng các kĩ thuật
phân tích cú pháp, ngữ nghĩa, ngữ cảnh phức tạp hơn để có thể trích chọn hay xây
dựng câu trả lời. Các kĩ thuật đó bao gồm nhận dạng thực thể (named-entity
recognition), trích xuất mối quan hệ, loại bỏ nhập nhằng ngữ nghĩa, … Các hệ thống
này thường sử dụng các nguồn tri thức có thể tìm thấy trong ontology như WordNet
hay Suggested Upper Merged Ontology (SUMO) để làm tăng thêm khả năng lập luận
thông qua các liên kết ngữ nghĩa và định nghĩa.
1.1.5.3. Phân loại theo khả năng trả lời câu hỏi
Hệ thống hỏi đáp có khả năng trả lời các câu hỏi liên quan đến sự vật, hiện
tượng: hệ thống hỏi đáp thuộc loại này dựa trên việc trích chọn ra câu trả lời có sẵn
trong kho tài liệu để đưa ra câu trả lời. Câu trả lời là các chuỗi ký tự trong một tài liệu.
Kỹ thuật chính được sử dụng là xử lý chuỗi và từ khóa.
Hệ thống hỏi đáp có khả năng lập luận: hệ thống hỏi đáp thuộc loại này có thể trả
lời các câu hỏi có tính chất suy đoán, các câu trả lời có thể có sẵn hoặc ẩn trong tài
liệu. Hệ thống cần trích ra các luận chứng và sử dụng lập luận để tìm mối quan hệ giữa
câu hỏi và câu trả lời.
Hệ thống hỏi đáp có khả năng giao tiếp với người dùng: hệ thống hỏi đáp thuộc
loại này có khả năng trả lời các câu hỏi dạng chuỗi và có khả năng lập luận để hiểu
được đầy đủ câu hỏi và tìm câu trả lời thích hợp. Ví dụ các câu hỏi của người dùng
như: “Nhạc sĩ Beethoven sinh năm nào?Ở đâu?Bắt đầu sáng tác nhạc năm nào?”.
Hệ thống hỏi đáp trả lời các câu hỏi yêu cầu khả năng tổng hợp: câu trả lời
thường nằm trong nhiều tài liệu khác nhau, chính vì thế mà hệ thống cần có khả năng
tìm kiếm các phần của câu trả lời và kết hợp thành một câu trả lời hoàn chỉnh. Câu hỏi
thường là về danh sách, về cách thức, nguyên nhân ... Hệ thống hỏi đáp danh sách
thuộc loại này. Khóa luận Phương pháp nâng cao chất lượng kết quả trả lời trong hệ
hỏi đáp danh sách tiếng Việt tập trung vào phương pháp để nâng cao chất lượng cho
hệ hỏi đáp danh sách. Phần tiếp theo sẽ giới thiệu chi tiết hơn về hệ thống hỏi đáp danh
sách.
10
1.2. Hệ thống hỏi đáp danh sách
1.2.1. Giới thiệu
Khái niệm: Hệ thống hỏi đáp danh sách là hệ thống hỏi đáp, nhận đầu vào là câu
hỏi dưới dạng ngôn ngữ tự nhiên và trả về câu trả lời dưới dạng một danh sách. [28]
Ví dụ câu hỏi: “Kể tên các thành phố của Việt Nam?”
Câu trả lời là “Hà Nội, Hải Phòng, Thanh Hóa, Nghệ An, …”
Như đã thảo luận ở trên, bài toán xây dựng hệ hỏi đáp đã được nhiều hội nghị
thường niên về trích chọn thông tin, khai phá dữ liệu dành một chủ đề riêng. Cụ thể
đối với hội nghị TREC thì hệ thống hỏi đáp được giới thiệu đầu tiên đó là TREC-8
(1999) [10]. Hệ hỏi đáp danh sách đã được đề cập đến tại TREC 2001 và TREC 2002,
tuy nhiên chưa được nhiều nhà nghiên cứu quan tâm bởi họ còn tập trung vào chủ đề
chính đó là về factoid Question Answering. Đến TREC 2003 thì hệ hỏi đáp danh sách
đã được đưa vào làm một trong cách chủ đề chính, đây cũng là một sự thúc đẩy cho
việc nghiên cứu về hệ thống hỏi đáp danh sách. Có thể kể đến một số hệ thống hỏi đáp
danh sách tiêu biểu như: FADA, Ephyra.
Năm 2004, Hui Yang và Tat-Seng Chua đã giới thiệu hệ thống FADA, một
hệ thống hỏi đáp danh sách dựa vào việc phân tích câu hỏi, phân cụm, phân
lớp các văn bản web và trích xuất nội dung để tìm các câu trả lời khác nhau
và đáng tin cậy.
Hệ thống hỏi đáp danh sách Ephyra được N. Schlaefer, P. Gieselmann và G.
Sautter giới thiệu tại hội nghị TREC 2006 [22]. Ephyra là một hệ thống hỏi
đáp miền mở mềm dẻo, có thể kết hợp nhiều kĩ năng phân tích câu hỏi và
trích chọn câu trả lời các nhau, cũng như kết hợp các nguồn tri thức khác
nhau. Kĩ thuật được sử dụng trong Ephyra bao gồm học và khớp mẫu, phân
tích loại câu trả lời và sử dụng các bộ lọc để loại bỏ dư thừa.
1.2.2. Một số hướng tiếp cận xây dựng hệ thống hỏi đáp danh sách
Hệ hỏi đáp nói chung cũng như hệ hỏi đáp danh sách nói riêng đang nhận được
nhiều sự quan tâm của các nhà nghiên cứu. Đã có nhiều hướng tiếp cận khác nhau
được đưa ra để giải quyết bài toán cho hệ hỏi đáp danh sách như hướng tiếp cận tìm
câu trả lời cho hệ hỏi đáp danh sách dựa trên Giả thuyết phân phối [19]; hay việc so
sánh và khớp các cụm từ cho loại câu trả lời, xung quanh một ngữ cảnh của các từ
khóa của câu hỏi hay từ đồng nghĩa; hệ thống hỏi đáp danh sách FADA dựa vào phân
11
tích câu hỏi, phân cụm, phân lớp các văn bản web và trích chọn nội dung để tìm ra các
câu trả lời khác nhau và đáng tin cậy; hay hướng tiếp cận sử dụng quan hệ thượng hạ
danh (hyponym) [5]…
Như đã bàn luận ở trên, một thách thức khi nghiên cứu và xây dựng hệ thống hỏi
đáp danh sách là làm sao có thể trả về được danh sách đầy đủ các kết quả trả lời. Đây
là thách thức rất lớn vì có thể trong tập tài liệu mà hệ thống thu thập về để xử lý không
chứa đủ tất cả các kết quả trả lời, hoặc hệ thống không trích chọn được tất cả các kết
quả trả lời có trong tập văn bản thu thập được. Hiện nay, các nhà nghiên cứu và xây
dựng hệ thống hỏi đáp danh sách cố gắng để có thể trả về tập kết quả đầy đủ nhất có
thể. R. Wang và cộng sự [25][28] đã đề xuất ý tưởng nâng cao chất lượng cho tập câu
trả lời của hệ thống hỏi đáp danh sách (làm đầy đủ hơn tập kết quả trả lời) bằng cách
áp dụng phương pháp mở rộng thực thể đối với tập kết quả trả lời được trả về từ hệ
thống hỏi đáp danh sách.
1.2.3. Những vấn đề cần giải quyết khi xây dựng hệ hỏi đáp danh sách
Ngoài những vấn đề, những yêu cầu, thách thức chung của hệ thống hỏi đáp, việc
nghiên cứu và xây dựng hệ thống hỏi đáp danh sách còn gặp phải những khó khăn,
thách thức riêng.
Xác định từ khóa câu hỏi: Một vấn đề khi phân tích câu hỏi trong hệ thống hỏi
đáp danh sách đó chính là xác định đúng được từ khóa của câu hỏi. Các câu hỏi trong
hệ thống hỏi đáp danh sách thường yêu cầu trả về một danh sách các thực thể có một
hoặc một vài đặc điểm chung. Thông thường, từ khóa trong câu hỏi danh sách chính là
đặc điểm chung đó. Ví dụ câu hỏi: “Kể tên các hãng điện thoại?” Thì từ khóa trong câu
hỏi này là “hãng điện thoại” và các thực thể trong danh sách câu trả lời có đặc điểm
chung đó là đều là “hãng điện thoại”. Hay câu hỏi “Tên các loài động vật có vú?” thì
câu trả lời được trả về phải là danh sách các thực thể (tên) có cùng một đặc điểm đó là
“động vật có vú”. Chính vì thế việc xác định được từ khóa của câu hỏi trong hệ thống
hỏi đáp danh sách là một bước rất quan trọng và có ảnh hưởng đến các bước sau của
hệ thống hỏi đáp cũng như đến kết quả câu trả lời cuối cùng.
Khả năng tổng hợp: Không giống như nhiều hệ hỏi đáp khác, câu trả lời của hệ
hỏi đáp danh sách thường không nằm tại một tài liệu mà nằm rải rác ở nhiều tài liệu
khác nhau. Chính vì thế, hệ thống hỏi đáp danh sách cần phải có khả năng trích chọn
và tổng hợp được câu trả lời từ thông tin ở rất nhiều các nguồn tài liệu khác nhau.
12
Lựa chọn câu trả lời: Đối với các câu hỏi thông thường, chỉ có một câu trả lời,
thì các văn bản sẽ chứa một lượng lớn các thông tin lặp lại về câu trả lời đó, chính vì
vậy có thể lựa chọn câu trả lời dựa vào thông tin được xuất hiện nhiều nhất. Tuy nhiên,
đối với hệ thống hỏi đáp danh sách, câu trả lời không phải chỉ là một kết quả mà là
nhiều kết quả đáp ứng cho câu hỏi, chính vì thế mà khó có thể loại bỏ được các câu trả
lời tiềm năng có tần suất xuất hiện nhỏ. Việc lựa chọn hay loại bỏ các thành phần trích
chọn được cần được thực hiện cẩn thận, vì có thể sẽ loại bỏ một thành phần trong câu
trả lời, hoặc thêm vào một thành phần không đúng và làm cho kết quả trả lời không
được chính xác.
Trả về câu trả lời đầy đủ: Một vấn đề nữa đặt ra khi nghiên cứu và xây dựng hệ
thống hỏi đáp danh sách đó là làm sao có thể trích chọn và trả về được tất cả các kết
quả tương ứng với câu hỏi. Yêu cầu này tương đương với yêu cầu thu thập được tập tài
liệu chứa đủ tất cả các kết quả cho câu hỏi và yêu cầu khả năng trích chọn được tất cả
các kết quả có trong tập tài liệu được xét. Đây cũng là vấn đề quan trọng nhất trong
việc xây dựng hệ thống hỏi đáp danh sách. Rất nhiều các nghiên cứu tập trung vào
việc bổ sung các kết quả cho tập trả lời trong hệ thống hỏi đáp danh sách như nghiên
cứu của Wang [28], … Chính vì thế, khóa luận tập trung vào bài toán bổ sung tập kết
quả trả lời cho hệ thống hỏi đáp danh sách trong miền dữ liệu tiếng Việt.
Tóm tắt chương 1: Chương này trình bày khái quát những nội dung cơ bản về
hệ thống hỏi đáp và giới thiệu về hệ thống hỏi đáp danh sách. Sang chương 2, khóa
luận trình bày về các nghiên cứu liên quan trên thế giới cũng như tại Việt Nam về hệ
thống hỏi đáp danh sách, một số phương pháp tiêu biểu áp dụng cho hệ thống hỏi đáp
danh sách và giới thiệu về nghiên cứu liên quan đến bài toán nâng cao chất lượng câu
trả lời cho hệ thống hỏi đáp danh sách.
13
Chương 2. Các nghiên cứu liên quan
2.1. Một số hệ thống hỏi đáp danh sách điển hình
Hệ thống hỏi đáp đã được chú trọng nghiên cứu từ lâu, tuy nhiên trong thời gian
gần đây, hệ thống hỏi đáp danh sách mới nhận được nhiều sự chú ý của các nhà nghiên
cứu. Chính vì vậy, mặc dù đã bước đầu có được một số kết quả nhất định, nhưng các
kết quả này vẫn còn nhiều hạn chế. Theo phân tích của Voorhees về kết quả của hệ
thống hỏi đáp danh sách tại TREC-12, hầu hết kết quả gặp phải hai vấn đề lớn đó là độ
hồi tưởng thấp và các câu trả lời không tách biệt. Độ đo F1 trung bình chỉ được 21.3%
trong đó F1 tốt nhất chỉ đạt 39.6% (Bảng 1) [14]. Kết quả của hệ thống hỏi đáp danh
sách thấp như vậy cho thấy hạn chế khi chỉ sử dụng cách trích chọn thông tin (IR) và
kĩ thuật xử lý ngôn ngữ tự nhiên truyền thống để tìm một danh sách các câu trả lời.
TREC-12 Run Tag Avg F1
LCCmainS03 0.396
nusmml03r2 0.319
MITCSAIL03c 0.134
isi03a 0.118
BBN2003B 0.097
Average 0.213
Khả năng trả về một danh sách đầy đủ cho câu hỏi danh sách chính là một trong
những mục tiêu hướng tới hàng đầu của hệ thống hỏi đáp danh sách. Tuy nhiên, để tìm
kiếm được một danh sách đầy đủ thì điều kiện đầu tiên là các kết quả của câu trả lời
phải xuất hiện trong tập văn bản được xét. Nguồn dữ liệu web chính là nguồn tài liệu
có khả năng đáp ứng được nhu cầu đó. Chính vì thế hướng tiếp cận tìm kiếm các câu
trả lời trên miền dữ liệu web đang thu hút được nhiều sự quan tâm của các nhà nghiên
cứu. Các nhà nghiên cứu về hệ thống hỏi đáp đã tìm ra rất nhiều cách để sử dụng các
tài nguyên Web như khai phá các mẫu bề mặt (surface pattern mining – Ravichandran
Bảng 1. 5 kết quả cao nhất tại TREC-12 (Voorhees, 2003)
14
và các cộng sự, 2002), công thức hóa câu truy vấn (query formulation – Yang, 2002),
đánh giá câu trả lời (answer validation - Magnini, 2002) cũng như tìm kiếm trực tiếp
câu trả lời trên các văn bản Web bằng cách phân tích dữ liệu dư thừa (data redundancy
analysis – Brill, 2001). Các hệ thống này đã chứng minh rằng với sự giúp đỡ của Web,
thông thường các hệ thống đó có thể tăng kết quả lên khoảng 25%-30% (Lin 2002).
Năm 2004, Hui Yang, Tat-Seng Chua giới thiệu hệ thống FADA, một hệ thống
hỏi đáp danh sách dựa trên việc phân tích câu hỏi, phân cụm, phân lớp các trang web
và trích chọn ngữ cảnh để tìm câu trả lời. FADA đã đạt được độ hồi tưởng là 0.422 và
độ đo F1 là 0.464. Kết quả của FADA là tốt hơn đáng kể so với kết quả tốt nhất của hệ
thống trong chủ đề về hệ thống hỏi đáp danh sách tại TREC-12.
Tại hội nghị TREC 2006, N. Schlaefer, P. Gieselmann và G. Sautter đã giới thiệu
hệ thống hỏi đáp Ephyra [22], đây là một hệ thống hỏi đáp miền mở mềm dẻo, có thể
trả lời nhiều loại câu hỏi, trong đó có các câu hỏi mà yêu cầu câu trả lời được trả về là
một danh sách. Kĩ thuật được sử dụng trong Ephyra bao gồm học và khớp mẫu, phân
tích loại câu trả lời và sử dụng các bộ lọc để loại bỏ dư thừa
Năm 2008, Majid Razmara [19] đã trình bày về hướng tiếp cận giải quyết bài
toán tìm câu trả lời cho câu hỏi danh sách dựa trên Giả thuyết phân phối
(Distributional Hypothesis): các từ xuất hiện trong cùng một ngữ cảnh thì có xu hướng
có cùng ngữ nghĩa (Harris, 1954). Majid Razmara đã giả thuyết rằng:
1. Các câu trả lời cho câu hỏi danh sách có cùng lớp thực thể ngữ nghĩa
(semantic entity class)
2. Các câu trả lời có xu hướng xuất hiện cùng trong các câu của các văn bản
liên quan đến mục đích và câu hỏi.
3. Các câu chứa các câu trả lời có ngữ cảnh tương đương nhau.
15
Biểu đồ 1 là kết quả về độ chính xác, độ hồi tưởng và độ đo F của mỗi loại câu
hỏi trong tập kiểm thử mà hệ thống của Majid Razmara đã đạt được tại hội nghị
TREC-2007.
Một phương pháp cũng đã được áp dụng hiệu quả để tìm câu trả lời cho hệ thống
hỏi đáp danh sách đó là phương pháp trích chọn quan hệ thượng hạ danh. Một số
nghiên cứu đã sử dụng các luật này: Hearst [20] sử dụng các mẫu quan hệ thượng hạ
danh để trích chọn các thực thể cho tập thực thể được gán tên. Etzioni và cộng sự [24]
giới thiệu hệ thống KnowItAll cũng sử dụng các mẫu để trích chọn các thể hiện của
một lớp từ nguồn dữ liệu web. Phương pháp sử dụng các mẫu quan hệ thượng hạ danh
để tìm câu trả lời cho hệ thống hỏi đáp danh sách, cũng như cách áp dụng cho miền dữ
liệu tiếng Việt sẽ được trình này sẽ được trình bày ở phần 3.2.1.
Tại Việt Nam, Trần Mai Vũ và cộng sự [29] đã nghiên cứu về hệ thống hỏi đáp
cho miền dữ liệu tiếng Việt dựa vào kĩ thuật trích rút quan hệ ngữ nghĩa hai ngôi bằng
cách kết hợp phương pháp Snowball của Agichtein, Gravano và phương pháp trích rút
mối quan hệ sử dụng máy tìm kiếm của Ravichandran, Hovy cho tập văn bản tiếng
Việt. Thực nghiệm ban đầu của mô hình cho thấy hệ thống có thể trả lời chính xác
được 89.7% câu hỏi người dùng đưa vào và khả năng đưa ra câu trả lời là 91.4%.
Phần tiếp theo, khóa luận trình bày về một số phương pháp tiêu biểu đã được áp
dụng trong hệ thống hỏi đáp danh sách. Cụ thể là các phương pháp được áp dụng để
xây dựng hệ thống hỏi đáp danh sách FADA và hệ thống hỏi đáp Ephyra.
Biểu đồ 1. Kết quả của mỗi loại câu hỏi trong tập dữ liệu kiểm thử - TREC, 2007
16
2.1.1. Hệ thống hỏi đáp danh sách FADA
Hệ thống hỏi đáp danh sách FADA (Find All Distinct Answers) là một trong
những hệ thống hỏi đáp danh sách tiêu biểu sử dụng nguồn dữ liệu web để trích chọn
ra các câu trả lời. FADA hướng đến mục tiêu tìm kiếm câu trả lời đầy đủ cho câu hỏi
trong hệ thống hỏi đáp danh sách. Phương pháp trong FADA được đưa ra dựa vào việc
quan sát thấy rằng các câu trả lời cho câu hỏi danh sách thường xuất hiện trong cùng
một danh sách hoặc bảng của một trang Web, trong khi đó thì nhiều các trang web có
thể chứa thông tin về cùng một trường hợp. Phân biệt riêng hai loại này: loại thứ nhất
được gọi là Trang tập hợp (Collection Page – CP) và loại hai được gọi là Trang chủ đề
(Topic Page – TP). Đối với loại 1 – CP, việc cần làm là trích chọn nội dung các danh
sách, các bảng từ trang web. Đối với loại 2 – TP, cần tìm các trang web riêng biệt liên
quan đến các trường hợp khác nhau trong câu trả lời. FADA dựa vào kĩ thuật phân tích
câu hỏi, phân cụm, phân lớp các văn bản web và trích chọn nội dung để tìm các câu trả
lời riêng biệt và đáng tin cậy với độ hồi tưởng cao. Hệ thống FADA đã đạt được kết
quả khá tốt khi kiểm thử với tập ngữ liệu của TREC.
Hệ thống hỏi đáp danh sách luôn hướng tới khả năng tìm được hết các kết quả
tương ứng với câu hỏi để cho câu trả lời đầy đủ và chính xác. Điều này yêu cầu (1) tìm
kiếm hiệu quả và đầy đủ và (2) trích chọn được hết các câu trả lời khác biệt. Để có thể
tìm kiếm hiệu quả thì phương pháp biến đổi câu hỏi được sử dụng để có thể thu được
các trang web cần thiết nhất. Đây là một bước quan trọng, vì nếu câu truy vấn quá
chung chung thì sẽ thu được quá nhiều văn bản và hệ thống không thể có đủ tài nguyên
để xử lý toàn bộ các văn bản đó. Nếu câu truy vấn lại quá cụ thể thì có thể là sẽ thu
được rất ít tài liệu hoặc cũng có thể không thu được tài liệu nào hữu ích.
Các trang web được phân thành bốn loại dựa vào chức năng và đóng góp trong
việc tìm kiếm danh sách trả lời: Trang tập hợp (Collection Page), trang chủ đề (Topic
Page), trang thích hợp (Relevant Page) và trang không thích hợp (Irrelevant Page)
như bảng 2.
17
Lớp trang web Mô tả
Collection Page Chứa một danh sách câu trả lời
Topic Page
Trang tốt nhất thể hiện một trường hợp cho câu
trả lời
Relevant Page
Liên quan đến một trường hợp của câu trả lời
theo nghĩa là cung cấp sự hỗ trợ hay phản đối
tới Topic Page
Irrelevant Page
Không liên quan đến bất kì trường hợp nào
trong câu trả lời
Dựa vào những phân tích ở trên, một mô hình để tìm câu trả lời danh sách trên dữ
liệu web đã được xây dựng gồm 4 bước chính như sau:
(1) Thu thập một tập các văn bản web tốt
(2) Xác định các trang tập hợp và phân biện các trang chủ đề để làm nguồn dữ
liệu chính cho việc tìm câu trả lời.
(3) Thực hiện việc phân cụm trên các trang web còn lại dựa trên độ tương
đồng với các trang chủ đề riêng biệt để thiết lập các cụm tương ứng với các
trường hợp riêng biệt trong câu trả lời.
(4) Trích chọn câu trả lời từ các trang tập hợp và các cụm trang chủ đề.
a. Biến đổi câu hỏi và thu thập các trang web
FADA phân tích câu hỏi để xác định các từ khóa của câu hỏi và loại câu trả lời
mong muốn. Sau đó sẽ xây dựng các câu truy vấn bằng cách ghép các thành phần trích
chọn được từ câu hỏi với các mẫu kinh nghiệm cho câu hỏi danh sách. FADA thực
hiện cả phân tích nông và phân tích đầy đủ (sâu). Bộ phân tích nông được sử dụng là
bộ trực tuyến miễn phí memory-based chunker và bộ phân tích đầy đủ được sử dụng là
MINIPAR6. Quá trình phân tích truy vấn được thực hiện như sau:
6
Bảng 2. Các lớp trang web
18
a) Loại bỏ các từ đầu (head words): Các từ đầu bao gồm: “who, what, when,
where, which, how, how much, how many, list, name, give, providel”, v.v.
b) Tìm ra chủ ngữ và bổ ngữ của các đoạn câu hỏi còn lại bằng cách phân tích
nông.
c) Lấy ra tất cả các cụm danh từ như là các mô tả tiềm năng từ các phần còn lại
của câu hỏi, thường là các cụm giới từ hoặc mệnh đề.
d) Nhận dạng thực thể định danh (Named entity recognition) cho kết quả của
cụm mô tả bằng cách sử dụng NEParser, một công cụ nhận dạng thực thể
tên được sử dụng trong hệ thống TREC-12 (Yang và các cộng sự, 2003).
Công cụ này gán các thẻ như “person”, “location”, “time”, “date”,
“number”.
Sau đó xây dựng các câu truy vấn phục vụ cho việc thu thập các trang web cần
thiết. Một trong những luật xây dựng câu truy vấn:
(list|directoty|category|top|favorite)? (:|of)?
??? ? …?
Việc chuyển câu hỏi ngôn ngữ tự nhiên ban đầu thành một câu truy vấn tốt có thể
nâng cao đáng kể khả năng tìm được câu trả lời tốt. FADA sử dụng các câu truy vấn
này cho các máy tìm kiếm nổi tiếng như Google, Alta Vista, Yahoo; sau đó lấy 1000
kết quả trả về đầu tiên cho mỗi truy vấn ở mỗi máy tìm kiếm. FADA lấy nhiều trang
web về như vậy là để phục vụ cho mục đích có thể tìm được tất cả các câu trả lời.
Thông thường sẽ có rất nhiều trang web dư thừa do thu thập từ cùng một địa chỉ liên
kết. Các trang web dư thừa này sẽ bị loại bỏ dựa vào địa chỉ URL. Hệ thống cũng loại
bỏ các file định dạng không phải là HTML hay văn bản và những file mà có dung
lượng quá nhỏ hoặc quá lớn.
b. Phân lớp các trang web
Trong FADA, hai bộ phân lớp được huấn luyện là bộ phân lớp trang tập hợp
(Collection Page classifier) phân loại các trang web vào các trang tập hợp và bộ phân
lớp trang chủ đề (Topic Page classifier) phân loại các trang trong tập không phải trang
tập hợp thành các trang chủ đề và loại khác. Cả hai bộ phân lớp này đều thực thi sử
dụng cây quyết định C4.5 (Quinlan 1993). Vài luật quyết định như:
a) OUT_Link >= 25 & NE > 78
19
b) Answer_NE >= 30 -> Class CP OUT_Link <= 25 &
Answer_NE 46 -> Class TP
c) OUT_Link >= 25 & URL_Depth > 3 -> Others
d) NE Others
c. Tìm các nguồn cho câu trả lời
Tại bước này, hệ thống lựa chọn các trang chủ đề riêng biệt dựa vào việc so sánh
độ tương đồng giữa các trang chủ đề. Sau đó, xác định và chuyển các trang thích hợp
(Relevant Pages) từ OtherSet vào cụm thích đáng dựa trên độ tương đồng của trang
với tập mồi cụm. Mỗi cụm tương ứng với một câu trả lời riêng biệt. Trang chủ đề cung
cấp cơ sở lập luận chính về câu trả lời và các trang thích hợp cung cấp tài liệu về câu
trả lời đó. Theo thực nghiệm của Hui Yang và Tat-Seng Chua thì tỉ lệ trung bình phân
cụm đúng là 54.1%. Bằng cách phân cụm các trang web thì đã tránh được việc trả lời
dư thừa (các câu trả lời là riêng biệt) và tăng cao khả năng tìm các câu trả lời riêng biệt
trong nguồn dữ liệu Web nhiều nhiễu.
d. Trích chọn câu trả lời
Tại bước này, hệ thống sẽ chuẩn hóa các văn bản html, sử dụng công cụ
HtmlTidy7.
Trích chọn câu trả lời từ các trang tập hợp (CPSet): để trích chọn các câu trả lời
từ các trang tập hợp cần sử dụng các luật wrapper để lấy ra được nội dung mong
muốn. Sau đó các câu trả lời được đối chiếu vào tập ngữ liệu TREC AQUAINT để lấy
về các câu trả lời TREC (TREC answers) (Brill và cộng sự, 2001).
Trích chọn câu trả lời từ các cụm trong TPSet: Sau khi đã hoàn thành bước phân
cụm, phân tích trang chủ đề chính trong mỗi cụm. Trong trường hợp tìm được nhiều
đoạn chứa các câu trả lời tiềm năng (answer candidates) khác nhau trong cùng một
trang chủ đề, ta sẽ chọn câu trả lời tiềm năng từ đoạn mà có số lượng các loại thực thể
tên là nhiều nhất. Câu trả lời được tìm thấy trong trang chủ đề sẽ được đối chiếu vào
kho ngữ liệu hỏi đáp (Question Answering corpus) để lấy ra các câu trả lời TREC.
Trong trường hợp dựa vào trang chủ đề mà không tìm thấy câu trả lời TREC thì sẽ tiếp
tục phân tích trang thích hợp nhất trong cụm đó, quá trình được lặp lại cho đến khi tìm
được câu trả lời có trong tập ngữ liệu TREC hoặc tất cả các trang thích hợp đã được
phân tích.
7
20
Nhận xét hướng tiếp cận
Avg P Avg R Avg F1
Baseline 0.568 0.264 0.319
FADA1 (w/o outgoing pages) 0.406 0.344 0.372
FADA2 (w/ outgoing pages) 0.516 0.422 0.464
TREC-12 best run - - 0.396
Bảng 3 so sánh hiệu suất khi chạy tập kiểm thử trong TREC-12 giữa một hệ
thống trả lời câu hỏi danh sách cơ bản (baseline) với FADA. Hàng baseline chính là
kết quả khi chạy trên một hệ thống được sử dụng trong phần hỏi đáp tại TREC-12
(Yang, 2003). Hệ thống này mở rộng từ hướng tiếp cận truyền thống IR/NLP cho hệ
hỏi đáp thông thường để áp dụng vào hệ hỏi đáp danh sách. Và đạt được độ đo F1
trung bình là 0.319 và được xếp hạng thứ 2 trong phần hỏi đáp danh sách. Hai biến thể
của FADA đã được test. Một biến thể không sử dụng các trang được trỏ đến từ tập các
trang tập hợp như là các trang chủ đề tiềm năng (FADA1) và một biến thể có sử dụng.
Hai biến thế này được sử dụng để đánh giá hiệu quả của các trang tập hợp (CPs) trong
hệ thống hỏi đáp danh sách. Với kết quả như trong bảng 3, có thể thấy rằng các trang
được các trang tập hợp trỏ đến giúp nhiều cho việc tìm kiếm các câu trả lời.
Ưu điểm: đã tận dụng được đặc điểm bán cấu trúc của văn bản web. Việc tìm
kiếm câu hỏi dựa vào tập văn bản web giúp cho khả năng tìm thấy câu hỏi cao hơn,
bởi số lượng văn bản cũng như thông tin trên web là rất lớn.
Nhược điểm: chưa tận dụng được nội dung chính của các trang web, đây là thành
phần mang thông tin nhiều nhất trong dữ liệu web. Số lượng câu trả lời cho các câu hỏi
danh sách còn ít và chưa đủ. Với các câu hỏi mà khó có thể tìm thấy các kết quả trả lời
trong cùng một danh sách hay bảng thì việc tìm câu trả lời là khó khăn
2.1.2. Hệ thống hỏi đáp Ephyra
Hệ thống hỏi đáp Ephyra đạt kết quả khá tốt tại TREC 2006 [13] và TREC 2007
[12]. Thay vì chú trọng tối ưu hóa một hướng tiếp cận đơn lẻ, Ephyra được áp dụng
kết hợp một vài kĩ thuật để phân tích câu hỏi và trích xuất câu trả lời để có thể đạt
được kết quả tốt nhất. Đối với chức năng trả lời cho các câu hỏi danh sách, hệ thống
Bảng 3. Hiệu suất của tập kiểm thử trong TREC-12
21
được kết hợp phương pháp dựa trên việc phân tích loại câu trả lời và học mẫu. Đối với
hướng tiếp cận xác định loại câu trả lời, hệ thống xác định loại của câu trả lời từ cây kế
thừa của các loại thực thể tên và lựa chọn thẻ thích hợp (tagger) để trích xuất các thực
thể thuộc loại đó. Hướng tiếp cận này cho độ chính xác cao, tuy nhiên nếu không xác
định được loại câu trả lời thì hệ thống sẽ cho kết quả không chính xác. Chính vì thế
hướng tiếp cận sử dụng học mẫu đã được kết hợp vào hệ thống, sử dụng các mẫu
nguyên văn để phân lớp và làm rõ câu hỏi để trích xuất các câu trả lời.
Ephyra được tổ chức kiểu đường ống bao gồm các thành phần cơ bản để tạo truy
vấn, tìm kiếm và lựa chọn câu trả lời. Đối với các câu hỏi danh sách, hệ thống chuyển
hóa câu hỏi thành dạng câu hỏi yêu cầu câu trả lời chỉ là một thực thể, sau đó áp dụng
kĩ thuật để tìm câu hỏi đơn đó. Nhiều lần như vậy, hệ thống tổng hợp lại các kết quả và
trả về danh sách kết quả cho câu hỏi đó. Các bước trả lời câu hỏi của hệ thống hỏi đáp
Ephyra gồm: chuẩn hóa câu hỏi, tạo câu truy vấn, tìm kiếm tài liệu, trích chọn câu trả
lời dựa vào loại câu trả lời, trích chọn câu trả lời dựa vào so khớp mẫu và lựa chọn các
kết quả cho câu trả lời cuối cùng.
a. Chuẩn hóa câu hỏi: Bộ chuẩn hóa câu hỏi tạo ra hai thể hiện của câu hỏi,
một thể hiện được sử dụng để phân tích câu hỏi với các mẫu nguyên văn,
một thể hiện để sinh ra câu truy vấn phục vụ cho việc thu thập tài liệu. Cả
hai thể hiện đều được loại bỏ các dấu câu không cần thiết. Đối với thể hiện
so khớp mẫu, tất cả các động từ được thay thế bằng dạng nguyên thể của
chúng và tất cả các danh từ được chuyển về dạng số ít. Đối với thể hiện để
tạo câu truy vấn, các cấu trúc động từ với trợ động từ được thay để phù hợp
với câu trả lời tương ứng. Ví dụ “did … occur” được thay bằng “occurred”.
b. Tạo câu truy vấn và tìm kiếm tài liệu: hệ thống trích chọn các từ khóa từ thể
hiện 2 của câu hỏi để tạo một truy vấn “túi từ” đơn giản (simple “bag of
words”) (Bộ sinh túi từ). Hệ thống cũng xây dựng các mẫu câu trả lời dựa
vào câu hỏi, ví dụ như “Where was Mozart born?” sẽ được chuyển thành
truy vẫn như “Mozart was born in”. Ephyra tìm kiếm trên Yahoo để thu thập
các đoạn snippets (Hình 3) và sử dụng hệ thống trích xuất thông tin Indri để
tìm kiếm trên tập văn bản AQUAINT. Indri được cấu hình để thu về các
đoạn văn bản độc lập thay vì cả văn bản.
22
c. Trích chọn câu trả lời dựa vào loại câu trả lời:
Hệ thống phân tích các câu hỏi trong TREC và chia một cây kế thừa của các
loại thực thể tên thường gặp trong hệ thống hỏi đáp. Cây kế thừa được sử
dụng trong Ephyra bao gồm khoảng 70 loại thực thể tên như Ngày tháng,
địa điểm, màu sách, người, kích thước, … Đối với mỗi loại, hệ thống xác
định một hoặc nhiều mẫu, tức là các biểu thức chính quy mà khớp các câu
hỏi với loại tương ứng. Bảng 4 mô tả một trích chọn của cây kế thừa thực
thể tên.
Tại pha phân tích câu hỏi, hệ thống so khớp câu hỏi với các loại mẫu để xác
định loại câu trả lời tiềm năng. Nếu một câu hỏi ứng với nhiều hơn một
mẫu, hệ thống sẽ sử dụng một cặp luật hãm (tie-braking rules) để lựa chọn
loại thực thể tên, ví dụ như các mẫu dài hơn và cụ thể hơn sẽ được đánh giá
cao hơn.
Loại thực thể tên Loại mẫu
Date When
Date Weekday (what|which|name) (.* )?(day of (the )?week|weekday)
Location where
Location Country (what|which|name) (.* )?(colony|country|nation)
Size how (big|large)
Size Length how (deep|far|high|long|tall|wide)
Size Length (how large in|how many) (foot|inch|.*meter|mile|yard)
Trong suốt quá trình trích chọn câu trả lời, bộ lọc loại câu trả lời (Answer
Type Filter) áp dụng một thẻ thực thể tên thích hợp lên các đoạn snippet thu
Hình 3. Ví dụ về một Snippet trả về từ máy tìm kiếm
Bảng 4. Cây kế thừa thực thể tên và các mẫu loại
23
thập được từ công cụ tìm kiếm Yahoo hay Indri. Đối với các thực thể tên
thuộc loại Person, Organization hay Location, hệ thống sử dụng các bộ gán
nhãn (tagger) từ công cụ OpenNLP8. Đối với các loại thực thể tên khác, áp
dụng các bộ gán nhãn của hệ thống, các mẫu này được xây dựng dựa trên
luật (ví dụ như Số) hoặc dựa trên danh sách (ví dụ như Ngôn ngữ, màu sắc).
Đầu tiên bộ lọc cố gắng trích chọn các thực thể ứng với các loại xác định
nhất, nếu không đánh dấu được thực thể nào, bộ lọc sẽ chuyển lên trên theo
cây kế thừa.
d. Trích chọn câu trả lời dựa vào so khớp mẫu: hướng tiếp cận so khớp mẫu sử
dụng các mẫu để phân lớp, hiểu câu hỏi và để trích chọn các câu trả lời từ
các snippet thu thập được. Các mẫu để trích chọn câu trả lời được học tự
động sử dụng các cặp câu hỏi – câu trả lời như tập dữ liệu huấn luyện.
e. Lựa chọn các kết quả cho câu trả lời cuối cùng: tập các câu trả lời tiềm năng
trích chọn được sẽ được sắp xếp theo trọng số bởi bộ lọc sắp xếp (Sorter
Filter). Bộ lọc lặp (Duplicate Filter) sẽ so sánh từng cặp câu trả lời, khi phát
hiện ra hai câu trả lời tương đương, bộ lọc lặp sẽ loại bỏ câu trả lời có trọng
số thấp hơn, và thêm trọng số đó vào trọng số của câu trả lời có trọng số cao
hơn. Cuối cùng, bộ lọc độ dài kết quả (Result Length Filter) loại bỏ các câu
trả lời có trọng số thấp hơn một ngưỡng nào đó.
Hệ thống hỏi đáp Ephyra được xây dựng từ các thành phần cơ bản của một hệ
thống hỏi đáp, tích hợp nhiều hướng tiếp cận khác nhau để tạo truy vấn và trích chọn
câu trả lời. Mỗi kĩ thuật riêng thường có các hạn chế đối với một số loại câu hỏi cụ thể,
chính vì thế việc kết hợp các kĩ thuật giúp cho việc xây dựng một hệ thống bao quát
rộng và hiệu quả.
2.2. Nâng cao chất lượng trả lời cho hệ thống hỏi đáp danh sách
Một trong những mục tiêu khi xây dựng hệ thống hỏi đáp danh sách đó chính là
khả năng trả về cho người dùng câu trả lời đầy đủ. Tuy nhiên với các phương pháp
hiện nay, hầu hết chỉ trả về được danh sách chứa một số ít kết quả trả lời. Chính vì thế
các nhà nghiên cứu tiếp tục tìm hiểu và đề xuất các phương pháp để nâng cao chất
lượng cho hệ thống hỏi đáp danh sách.
Richard C. Wang và cộng sự [28] đã nghiên cứu việc nâng cao chất lượng cho hệ
thống hỏi đáp danh sách bằng cách sử dụng phương pháp mở rộng thực thể. Hệ thống
8
24
Mở rộng thực thể nhận đầu vào là một tập gồm một số thực thể thuộc cùng một lớp
hoặc một tập hợp (có một hoặc một vài đặc điểm chung) và trả về là một danh sách đã
được mở rộng bao gồm các thực thể mới thuộc cùng lớp đó hoặc tập hợp đó. Các câu
trả lời của hệ thống hỏi đáp danh sách thường là các thực thể thuộc cùng một lớp hoặc
một tập hợp có chung tính chất. Và thông thường việc tìm kiếm nhóm hay tập hợp đó
lại là cách để có thể trả về cho người dùng một câu trả lời đầy đủ hơn. Từ những phân
tích đó, ý tưởng áp dụng Mở rộng thực thể cho hệ hỏi đáp danh sách đã được đề xuất.
Với việc thiết kế cẩn thận để tránh các đầu vào nhiễu, hệ thống Mở rộng thực thể có
thể nhận đầu ra của hệ thống hỏi đáp danh sách làm đầu vào và mở rộng cho tập câu
trả lời để có thể trả về cho người dùng một câu trả lời tốt hơn là khi chỉ sử dụng hệ hỏi
đáp danh sách.
Bài toán mở rộng thực thể vẫn còn là một bài toán mới, tuy nhiên, vì những tiềm
năng lớn mà bài toán này hứa hẹn, cho nên hiện nay trên thế giới có nhiều nhóm
nghiên cứu công bố các phương pháp khác nhau để giải quyết bài toán này. Một trong
những hệ thống điển hình và nổi tiếng về mở rộng thực thể dựa trên nền web là Google
Sets. Hệ thống này đã được sử dụng cho rất nhiều mục đích như thu nhận các đặc
trưng cho nhận dạng thực thể (Named Entity Recognition) [4] và cho việc đánh giá các
hệ thống trả lời câu hỏi [17]. Tuy nhiên, phương pháp của hệ thống này có thể được
thay đổi bất cứ lúc nào, do đó kết quả nghiên cứu dựa trên Google Sets không thật sự
được tin cậy [25].
R. C. Wang và W. W. Cohen đã công bố một hệ thống mở rộng thực thể dựa trên
nền web là Set Expander for Any Language (SEAL); SEAL cho kết quả khá tốt. Theo
đúng như tên gọi, SEAL không phụ thuộc vào ngôn ngữ của văn bản: cả ngôn ngữ viết
(ví dụ, tiếng Việt) và ngôn ngữ đánh dấu (ví dụ, HTML). Hệ thống này mở rộng thực
thể một cách tự động bằng cách sử dụng nguồn dữ liệu Web. Hệ thống SEAL thực
hiện tốt ngay cả với một tập mồi nhỏ. Chỉ sử dụng tập mồi gồm ba đối tượng và một
trăm văn bản web đầu tiên được trả về từ Google, SEAL đạt được độ chính xác trung
bình là 93% (trung bình trên 36 tập dữ liệu từ ba ngôn ngữ: tiếng Anh, tiếng Trung
Quốc và tiếng Nhật). Mặc dù SEAL làm việc tốt với tập mồi gồm ba hoặc bốn thực
thể, nhưng lại bị hạn chế bởi số lượng thực thể trong tập mồi mà SEAL có thể xử lý
được. Bảng 4 cho thấy kết quả thực thi của SEAL (tính theo Mean Average Precision
– MAP và trên 36 tập dữ liệu), sử dụng 4 phương pháp đánh giá khác nhau với tập mồi
gồm từ 2 cho đến 6 thực thể. Có thể thấy khi số lượng thực thể trong tập mồi nhiều
hơn 5 thực thể thì kết quả thu được bắt đầu giảm
25
Để khắc phục hạn chế về số lượng thực thể trong tập mồi của SEAL, hệ thống
SEAL lặp (iterative SEAL - iSEAL) đã được đề xuất. Về cơ bản, iSEAL gọi SEAL
nhiều lần, mỗi lần gọi sử dụng 1 tập mồi nhỏ và thống kê được tổng hợp lại sau mỗi
vòng lặp để thu được đánh giá cuối cùng.
Richard. C. Wang đã đề xuất áp dụng bài toán mở rộng thực thể đối với các kết
quả cho câu hỏi danh sách từ hệ thống hỏi đáp Ephyra và các hệ thống hỏi đáp khác tại
TREC để có thể tìm thêm được các kết quả cho các câu trả lời của hệ thống hỏi đáp
danh sách. Hệ thống Mở rộng thực thể được thiết kế để xử lý dữ liệu đầu vào là các
thực thể mồi có cùng mối quan hệ với nhau (thuộc cùng một lớp hoặc một tập hợp).
Để có thể xử lý được tập đầu vào gồm các câu trả lời có thể có cả nhiễu từ hệ thống
hỏi đáp, R. Wang đã đề xuất ba sửa đổi đối với hệ thống SEAL [25]:
(1) Aggressive Fetcher: thông thường, mỗi lần mở rộng, SEAL sẽ nối tất cả các
thực thể trong tập mồi để tạo thành truy vấn tới máy tìm kiếm (Google,
Yahoo). Tuy nhiên, khi tập mồi có nhiễu, nếu vẫn thực hiện theo cách này thì
sẽ làm giảm khả năng thu thập được các tài liệu tốt (các tài liệu chứa các câu
trả lời đúng). Để giải quyết vấn đề này, bộ aggressive fetcher (AF) sẽ sử dụng
từng cặp hai thực thể trong tập seed để sinh câu truy vấn tới máy tìm kiếm. Ví
dụ như với tập mồi có nhiễu: nokia, samsung, toyota (coi toyota là nhiễu), sử
dụng AF để tạo truy vấn. Sẽ có truy vấn chỉ chứa các thực thể không phải
nhiễu (bảng 6). Các tài liệu thu thập được sẽ được chuyển sang bước trích
chọn để học các luật wrappers.
Ranker \ #Seeds 2 3 4 5 6
Random Walk 77.1 83.9 84.5 83.7 78.9
Page Rank 74.1 82.6 83.4 83.0 78.5
Bayesian Sets 77.0 84.1 84.8 84.0 79.3
Wrapper Length 77.5 83.2 83.3 82.2 78.0
Average 76.4 83.5 84.0 83.2 78.7
Bảng 5. Kết quả thực thi SEAL với các thuật toán đánh giá và số lượng tập mồi khác nhau
26
Queries Quality
-AF #1: nokia samsung toyota Low
+AF
#1: nokia samsung
#2: nokia toyota
#3: samsung toyota
High
Low
Low
(2) Lenient Extractor: SEAL yêu cầu một xâu dài nhất bao bọc ít nhất một thể
hiện của tập mồi mới được coi là một wrapper. Tuy nhiên, đối với tập thực
thể mồi có nhiễu, thông thường sẽ khó trích chọn được wrapper trong văn
bản, hoặc wrapper đó quá ngắn và không có ích để trích chọn ra các thực thể
tiềm năng. Để giải quyết vấn đề này, bộ trích chọn cải tiến Lenient Extractor
(LE) đã được đề xuất, LE chỉ yêu cầu một ngữ cảnh bao lấy ít nhất một thể
hiện của một tập tối thiểu hai thực thể mồi, thay vì tất cả các thực thể trong
tập mồi. Việc này tăng khả năng tìm được các wrapper dài nhất bao các thực
thể không phải là nhiễu.
(3) Hinted Expander: hầu hết các hệ thống hỏi đáp đều sử dụng từ khóa từ câu
hỏi để hỗ trợ cho việc thu thập tài liệu và tìm kiếm câu trả lời, và các từ khóa
này cũng rất tốt để giúp hệ thống Mở rộng thực thể xác định được các kết quả
mới tìm được thêm nào là đúng. Hinted Expander (HE) sử dụng các từ khóa
trích chọn được trong câu hỏi và thêm vào cho tất cả các câu truy vấn. Như
vậy sẽ tăng được khả năng thu thập được các tài liệu chứa câu trả lời cho câu
hỏi.
R. Wang đã tiến hành thử nghiệm áp dụng SEAL cho các câu trả lời từ hệ thống
hỏi đáp Ephyra. Các câu trả lời tìm được bởi SEAL đều là từ các văn bản web thay vì
từ tập ngữ liệu AQUAINT như theo cách đánh giá của TREC. Tuy nhiên các câu trả
lời được tìm thấy sẽ bị loại bỏ nếu không tìm thấy trong AQUAINT.
Bảng 6. Ví dụ các truy vấn và chất lượng văn bản thu thập tương ứng
27
Ephyra Ephyra’s
Top 4 Ans
SEAL SEAL+LE SEAL+LE
+ AF
SEAL+LE
+AF+HE
TREC 13 25.95% 21.39% 23.76% 31.43% 34.22% 35.26%
TREC 14 14.45% 8.71% 14.47% 17.04% 16.58% 18.82%
TREC 15 13.42% 9.02% 13.17% 16.87% 17.12% 18.95%
Ephyra Ephyra’s
Top 4 Ans
SEAL SEAL+LE SEAL+LE
+ AF
SEAL+LE
+AF+HE
TREC 13 35.74% 26.29% 30.53% 36.47% 40.08% 40.80%
TREC 14 22.83% 14.05% 20.62% 22.81% 22.66% 24.88%
TREC 15 22.42% 14.57% 19.88% 23.30% 24.04% 25.65%
Bảng 7 và bảng 8 thể hiện kết quả đánh giá cho tất cả các kết quả trả lời của
Ephyra, bốn kết quả trả lời đầu tiên và các cách thiết lập SEAL sử dụng bốn câu trả lời
đầu tiên trả về từ Ephyra làm tập mồi. Bảng 7 là kết quả độ chính xác trung bình
(Mean Average Precision – MAP) khi sử dụng mỗi bộ dữ liệu (TREC 13, 14 và 15).
Bảng 8 là kết quả độ đo F1 trung bình khi sử dụng các ngưỡng tối ưu cho từng câu hỏi.
Kết quả cho thấy SEAL đạt kết quả tốt nhất khi được thiết lập với tất cả các giải pháp
mở rộng.
Tóm tắt chương 2: Trong chương 2, khóa luận đã trình bày về các nghiên cứu
liên quan trên thế giới cũng như tại Việt Nam về thống hỏi đáp danh sách, các phương
pháp được áp dụng trong hai hệ thống hỏi đáp danh sách tiêu biểu là hệ thống hỏi đáp
danh sách FADA và hệ thống hỏi đáp Ephyra. Đồng thời giới thiệu về nghiên cứu liên
quan đến việc nâng cao chất lượng câu trả lời cho hệ thống hỏi đáp danh sách. Phần
tiếp theo, khóa luận trình bày mô hình nâng cao chất lượng kết quả câu trả lời cho hệ
thống hỏi đáp danh sách. Mô hình gồm hai pha chính: (1) pha hỏi đáp danh sách và (2)
pha mở rộng thực thể để nâng cao chất lượng cho kết quả trả lời của pha 1 (mở rộng
tập kết quả trả lời).
Bảng 7. Độ chính xác trung bình (MAP) của Ephyra, 4 câu trả lời đầu tiên và các cách thiết lập SEAL
khác nhau. Trong đó LE là Lenient Extractor, AF là Aggressive Fetcher và HE là Hinted Expander
Bảng 8. Độ đo trung bình F1 của Ephyra, 4 câu trả lời đầu tiên và các cách thiết lập SEAL khi
sử dụng một ngưỡng tối ưu cho mỗi câu hỏi
28
Chương 3: Đề xuất mô hình nâng cao chất lượng câu
trả lời cho hệ thống hỏi đáp danh sách tiếng Việt
3.1. Mô hình nâng cao chất lượng câu trả lời cho hệ thống hỏi đáp danh
sách tiếng Việt
Một trong những vấn đề khó khăn và quan trọng khi xây dựng hệ thống hỏi đáp
danh sách chính là tính đầy đủ của câu trả lời (Mục 1.2.3). Nhằm giải quyết vấn đề
này, nghiên cứu trong khóa luận đề xuất một phương pháp nâng cao chất lượng câu trả
lời cho hệ thống hỏi đáp danh sách. Qua quá trình khảo sát các phương pháp được áp
dụng trong nhiều hệ thống hỏi đáp, đặc biệt là các phương pháp được áp dụng trong
các hệ thống hỏi đáp danh sách, cũng như tìm hiểu các phương pháp mở rộng thực thể
và dựa vào những phân tích của R. Wang khi áp dụng bài toán mở rộng thực thể để
nâng cao chất lượng của hệ thống hỏi đáp danh sách, đồng thời xem xét những đặc
điểm của ngôn ngữ tiếng Việt, khóa luận đề xuất mô hình nâng cao chất lượng hỏi đáp
danh sách gồm hai pha chính: (1) pha hỏi đáp danh sách và (2) pha mở rộng thực thể.
Khóa luận tập trung vào việc nâng cao chất lượng cho hệ thống hỏi đáp danh
sách và xây dựng một hệ hỏi đáp danh sách đơn giản để thử nghiệm. Thay vì câu hỏi
dưới dạng ngôn ngữ tự nhiên, pha 1 sẽ nhận đầu vào là từ khóa của câu hỏi (Mục
1.2.3), đầu ra tương ứng là một danh sách các kết quả đã được sắp xếp theo trọng số
của chúng. Pha 2 nhận đầu vào là một số các kết quả có trọng số cao nhất có được ở
đầu ra của pha 1, pha này có nhiệm vụ tìm thêm các thực thể để bổ sung vào cho danh
sách câu trả lời. Hình 4 mô tả mô hình chung của hệ thống sử dụng trong khóa luận.
Chi tiết hoạt động của từng pha sẽ được trình bày ở các phần tiếp theo.
Hình 4. Mô hình thực nghiệm nâng cao chất lượng kết quả trả lời trong
hệ thống hỏi đáp danh sách tiếng Việt
Pha 1:
HỎI ĐÁP
DANH SÁCH
Pha 2:
MỞ RỘNG
THỰC THỂ
Câu trả lời
Câu trả lời
sau khi đã
được mở
rộng
Từ khóa
29
3.2. Pha 1: Hỏi đáp danh sách tiếng Việt
3.2.1. Tìm kiếm câu trả lời dựa vào các mẫu quan hệ thượng hạ danh
Khái niệm quan hệ thượng hạ danh: quan hệ thượng hạ danh (hyponym) là
quan hệ giữa hai từ, trong đó một từ luôn bao gồm nghĩa của từ kia nhưng không
ngược lại [30].
Hình 5 là một ví dụ về quan hệ thượng hạ danh: “Hoa” bao gồm “hoa hồng”,
“hoa hướng dương”, “hoa cúc”, ….
Thông thường các thực thể trong cùng một tập hợp sẽ có một hoặc một vài điểm
chung. Hay nói cách khác, ta có thể gán cho tập hợp một cái tên. Ví dụ như một tập
gồm “khỉ”, “mèo”, “gà” ta có thể gán đây là tập “động vật”, đây cũng chính là đặc
điểm chung của tập hợp này. Như đã phân tích trong phần “Xác định từ khóa câu trả
lời” (1.2.3): các từ khóa trong câu hỏi của hệ thống hỏi đáp danh sách sẽ chỉ ra đặc
điểm chung của tập kết quả trả lời mong đợi. Các thực thể này thường xuất hiện gần
với cụm từ mô tả đặc điểm chung của chúng, ví dụ như “Một số động vật như bò, lợn
gà, …”, do đó có thể sử dụng các luật để trích chọn ra các thực thể, trong ví dụ này là
“bò”, “lợn”, “gà”. Như vậy, một phương pháp để tìm được câu trả lời cho hệ thống hỏi
đáp danh sách dựa vào quan hệ thượng hạ danh của từ khóa trong câu hỏi.
Giả sử đã có từ khóa của câu hỏi, hệ thống sẽ xây dựng các câu truy vấn dựa vào
từ khóa đó và các mẫu luật thượng hạ danh đã được xây dựng từ trước. Các câu truy
vấn sẽ được đưa vào máy tìm kiếm để thu thập các tài liệu văn bản web tương ứng,
thông thường sẽ thu thập 100 trang web được trả về đầu tiên bởi máy tìm kiếm. Sau đó
bằng các kỹ thuật so khớp mẫu và xử lý xâu chuỗi, ta có thể trích chọn ra được các
thực thể tiềm năng. Bằng cách sử dụng phương pháp xếp hạng dựa vào tần suất xuất
Hình 5. Ví dụ về quan hệ thượng hạ danh.
là
là
là
Hoa
Hoa hồng
Hoa hướng dương
Hoa cúc
30
hiện của thực thể để đánh trọng số cho các thực thể, sắp xếp các thực thể tiềm năng
trích chọn được theo trọng số của chúng. Bằng việc lựa chọn các thực thể có trọng số
lớn hơn một ngưỡng xác định trước, ta thu được một danh sách các thực thể, là danh
sách câu trả lời cho câu hỏi tương ứng.
Bảng 9 liệt kê một số mẫu quan hệ thượng hạ danh trong tiếng Anh và tiếng Việt
tương ứng. Các mẫu trong tiếng Việt được xây dựng dựa trên việc tham khảo các mẫu
thể hiện quan hệ thượng hạ danh trong tiếng Anh mà Hearst [20] đã đề xuất và dựa vào
việc tìm hiểu miền dữ liệu tiếng Việt. Trong đó thể hiện vị trí của tên lớp, tên tập
hợp (từ khóa) và thể hiện vị trí của các thực thể trong quan hệ thượng hạ danh của
các đó.
Tiếng Anh Tiếng Việt
such as một số như
such as các như
i.e. nghĩa là
e.g. ví dụ như
include
bao gồm
including
and other và các khác
or other hoặc các khác
3.2.2. Mô hình pha 1: Hệ thống hỏi đáp danh sách
Hình 6. Mô hình pha 1 - Hỏi đáp danh sách tiếng Việt
Thu thập
tài liệu
Trích chọn
câu trả lời
Từ khóa
Các mẫu
hyponym
Các trang
web Câu trả lời
Các thực
thể được
trích chọn
Xếp hạng
Bảng 9. Một số mẫu quan hệ thượng hạ danh trong tiếng Anh và tiếng Việt.
31
Hình 6 mô tả mô hình pha 1, hệ thống hỏi đáp danh sách tiếng Việt gồm 3 bước
chính đó là: (1) thu thập tài liệu, (2) trích chọn các thực thể tiềm năng và (3) xếp hạng
các thực thể trích chọn được.
Đầu vào: từ khóa của câu hỏi.
Đầu ra: danh sách các kết quả đã được sắp xếp theo trọng số của chúng.
Phương pháp giải quyết: pha hỏi đáp danh sách tiếng Việt dựa vào việc sử dụng
các mẫu luật quan hệ thượng hạ danh để tìm ra câu trả lời (Mục 3.2.1).
(1) Thu thập tài liệu:
Đầu vào: từ khóa của câu hỏi và các mẫu quan hệ thượng hạ danh
trong tiếng Việt đã được xây dựng từ trước.
Đầu ra: tập các trang văn bản web phục vụ cho bước trích chọn câu
trả lời.
Các bước tiến hành:
o Tạo truy vấn: với mỗi mẫu quan hệ thượng hạ danh, kết hợp với
từ khóa để tạo câu truy vấn. Ví dụ từ khóa của câu hỏi là “động
vật” và với một số mẫu như trong bảng 9, ta xây dựng được các
câu truy vấn như: “Một số động vật như”, hay “các động vật như”,
…
o Thu thập tài liệu: với mỗi câu truy vấn được sinh ra ở bước trên,
truy vấn tới máy tìm kiếm (Google), thu thập n trang web được trả
về đầu tiên bởi máy tìm kiếm (n = 100).
(2) Trích chọn các thực thể tiềm năng:
Đầu vào: tập văn bản đã được thu thập ở (1) và các mẫu luật thượng
hạ danh.
Đầu ra: Các câu trả lời tiềm năng (các thực thể trích chọn được).
Phương pháp giải quyết:
o Tiền xử lý dữ liệu: Các trang web sau khi được thu thập về sẽ
được qua bước tiền xử lý dữ liệu: Loại nhiễu, loại bỏ html, lấy
nội dung chính của trang web, tách câu: sử dụng công cụ
jvntextpro.
32
o Sau bước tiền xử lý dữ liệu sẽ thu được các câu. So khớp các
mẫu luật dựa vào tập luật quan hệ thượng hạ danh và trích chọn
ra các thực thể là câu trả lời tiềm năng. Ví dụ với từ khóa “động
vật” và trong văn bản web có câu “Một số động vật như chó,
mèo, lợn thường được nuôi trong nhà”, ta sẽ thu được các thực
thể là câu trả lời tiềm năng bằng cách lấy các chuỗi được liệt kê
trong câu đó: “chó”, “mèo”, “lợn thường được nuôi trong nhà”.
Nhưng “lợn thường được nuôi trong nhà” sẽ bị loại bỏ vì khi
trích chọn, hệ thống cũng xét ngưỡng độ dài cho các thực thể.
Như vậy thu được “chó”, “mèo”.
(3) Xếp hạng các thực thể trích chọn được:
Đầu vào: Tập các thực thể là các câu trả lời tiềm năng được trích chọn
sau bước (2).
Đầu ra: Danh sách các câu trả lời đã được xếp hạng.
Phương pháp giải quyết: pha hỏi đáp danh sách sử dụng phương
pháp xếp hạng đơn giản, dựa vào tần suất xuất hiện của thực thể để đánh
trọng số cho các thực thể, sắp xếp các thực thể tiềm năng trích chọn được
theo trọng số của chúng. Lựa chọn các thực thể có trọng số lớn hơn một
ngưỡng nào đó, hoặc là trả về danh sách gồm toàn bộ các thực thể đã
trích chọn được và được sắp xếp theo trọng số tương ứng.
Sau khi qua hệ thống, thu được một tập danh sách câu trả lời đã được xếp hạng,
n thực thể có trọng số cao nhất trong danh sách sẽ được chọn làm đầu vào cho pha 2,
pha Mở rộng thực thể (n được chọn qua quá trình thực nghiệm).
3.3. Pha 2: Mở rộng thực thể
Pha 2 nhận đầu vào là n kết quả có trọng số cao nhất trong danh sách các kết quả
được trả về từ pha 1, pha hỏi đáp danh sách. Pha 2 có nhiệm vụ tìm thêm các thực thể
tương đương với các thực thể đầu vào để bổ sung vào cho danh sách câu trả lời, đây
chính là nội dung của bài toán Mở rộng thực thể.
Giới thiệu bài toán Mở rộng thực thể: Mở rộng thực thể nghĩa là từ một tập
mồi gồm một số lượng ít các thực thể, tìm ra được một tập thực thể cùng loại lớn hơn
và hoàn chỉnh hơn. Các thực thể “cùng loại” ở đây được hiểu là các thực thể có chung
một hoặc một vài đặc điểm với nhau. Đầu vào của hệ thống mở rộng thực thể là một
33
tập mồi gồm một số thực thể. Từ tập thực thể mồi, hệ thống tạo ra các câu truy vấn cho
các máy tìm kiếm để nhận được tập các trang web; tập trang web này được hệ thống
xử lý để tìm ra các thực thể mới. Quá trình xử lý cho ra một tập thực thể mới, cùng
loại với các thực thể mồi được bổ sung vào tập thực thể ban đầu. Việc giải quyết bài
toán này có thể được xem xét bao gồm 3 pha chính:
1. Fetcher: Sử dụng máy tìm kiếm để lấy về một số lượng trang web nhất định
nào đó (theo yêu cầu và khả năng của hệ thống), trong đó mỗi trang phải
chứa tất cả các thực thể có trong tập mồi.
2. Extractor: Xây dựng các mẫu để trích chọn ra các thực thể tiềm năng.
3. Ranker: sử dụng một số các giải thuật xếp hạng để đánh giá các từ, cụm từ
“có tiềm năng” đã tìm được ở bước trên theo độ tương đồng với tập thực thể
mồi ban đầu.
Phần 3.3.1 và 3.3.2 sẽ trình bày về cơ sở lý thuyết xây dựng pha 2, pha Mở rộng
thực thể.
3.3.1. Xây dựng các luật Wrapper
Đối với các văn bản web, thông thường các thực thể “cùng loại” sẽ xuất hiện
dưới cùng ngữ cảnh như trong cùng một danh sách hay trong cùng một cột, một hàng
của một bảng. Ý tưởng sử dụng các luật wrapper để trích chọn ra các thực thể tương
đồng đã được đề xuất dựa vào nhận xét trên và dựa vào đặc điểm bán cấu trúc của văn
bản web. Hình 7 là một ví dụ về cấu trúc web thể hiện việc các thực thể “cùng loại”
thường xuất hiện trong cùng ngữ cảnh.
Hình 7. Ví dụ cấu trúc web
34
Wrapper được định nghĩa là một chuỗi kí tự trong văn bản mà bao bọc các thực
thể [25]. Một wrapper được xác định bởi hai chuỗi kí tự trái và phải. Đối với bài toán
mở rộng thực thể, có thể xem xét hai cách để xác định các wrapper:
Cách 1: wrapper sẽ bao tất cả các thực thể trong tập mồi mà xuất hiện
trong văn bản. Các wrapper loại 1 rất ít trong các văn bản web. Do đó cách
xác định wrapper khác đã được đề xuất.
Cách 2: wrapper được xác định theo cách 2 là xâu dài nhất bao ít nhất
một thể hiện của tập mồi. Nghĩa là mỗi thực thể trong tập mồi được wrapper
đó bao ít nhất một lần.
Việc trích chọn các thực thể tiềm năng sử dụng wrapper dựa trên việc tìm các
wrapper đã được sinh ra trong văn bản và trích chọn ra các từ, cụm từ được bao bởi
wrapper đó. Phương pháp sử dụng luật wrapper không phụ thuộc vào ngôn ngữ (cả
ngôn ngữ viết lẫn ngôn ngữ lập trình web). Và các wrapper được sinh ra từ trang web
nào sẽ chỉ được sử dụng để tìm ra các thực thể tương đồng trong văn bản đó.
Hình 8.Ví dụ văn bản bán cấu trúc
Ví dụ với đoạn html ở hình 8, với tập seed gồm “ford”, “nissan”, “toyota”, ta có
thể tìm được 1 wrapper W: SLSR là (SL: chuỗi kí tự bao bên trái; SR: chuỗi kí tự bao
bên phải): SL = ; SR =
Sau đó sử dụng W để tìm ra được honda và acura (do “honda” và “acura” được
bao bởi W).
35
3.3.2. Các phương pháp xếp hạng được sử dụng
3.3.2.1. Phương pháp xếp hạng dựa vào độ dài wrapper
Quan sát các thực nghiệm mở rộng các tập thực thể khi áp dụng luật wrapper cho
thấy các thực thể được trích chọn từ các luật wrapper dài hơn thì tốt hơn. Chính vì thế,
một thuật toán xếp hạng dựa vào độ dài luật wrapper trích chọn ra thực thể đã được đề
xuất (Wrapper Length): log ݏܿݎ݁(ݔ) = log(݈݁݊݃ݐℎ(ݓ))
௫௧௧௦ ௫
Trong đó:
wj: wrapper wj
Hàm length: trả về tổng độ dài của wrapper wj
3.3.3.2. Phương pháp xếp hạng dựa vào tần suất
Phương pháp xếp hạng này dựa vào số lần một thực thể được trích chọn trong
quá trình mở rộng thực thể. Mỗi khi trích chọn được thực thể mới (bằng phương pháp
sử dụng luật wrapper hoặc luật ngữ nghĩa), hệ thống kiểm tra, nếu thực thể này đã
được trích chọn trước đó thì cập nhật biến đếm tăng lên 1, nếu đây là thực thể mới thì
gán cho thực thể này biến đếm với giá trị khởi tạo là 1.
Như vậy, đối với phương pháp xếp hạng dựa vào tần suất, một thực thể sẽ có
trọng số cao hơn nếu như trong cùng một lần mở rộng, thực thể đó được trích chọn ra
nhiều lần hơn.
3.3.3. Mô hình pha 2: mở rộng thực thể
Dựa vào những cơ sở lý thuyết đã trình bày ở trên, mô hình cho pha 2, pha mở
rộng thực thể được cho như ở hình 9.
36
Pha mở rộng thực thể gồm 4 pha con chính:
Pha 1: Pha tương tác với máy tìm kiếm 1 (Fetcher)
Pha 1 có nhiệm vụ thu thập các trang web với các tập thực thể mồi (seed) tương
ứng.
Đầu vào: tập gồm 2 đến 3 thực thể
Đầu ra: các trang web tương ứng với tập seed đầu vào
Xử lý:
o Tạo câu truy vấn tới máy tìm kiếm: ví dụ với tập mồi {“mèo”,
“gà”, “lợn”} ta sẽ thu được câu truy vấn “mèo” + “gà” + “lợn”.
o Chọn m liên kết đầu tiên được trả về bởi máy tìm kiếm (m=100)
o Thu thập các trang web tương ứng với các liên kết đã được chọn
Pha 2: Pha trích chọn các thực thể dựa vào phương pháp sử dụng luật wrapper
(Extractor)
Đầu vào: Các trang web thu thập được ở pha 1 và bộ thực thể mồi.
Đầu ra: Các thực thể “tiềm năng” có khả năng tương đương với các thực
thể trong tập thực thể mồi.
Xử lý: gồm 2 bước chính
Hình 9. Mô hình pha 2 - Mở rộng thực thể
Entities
Choosing
4.Entities Choosing
New
Entities
3. Ranker
Ranked
Candidates Rank
1. Fetcher
2. Extractor
Candidates
Seeds Seach Engine
Module 1
WebPage
s
Wrapper
Learner
Wrappers
Wrapper-based
Candidates extractor
37
o Trích chọn ra các wrapper: Với đầu vào là các trang web đã
download được và tập thực thể mồi. Áp dụng phương pháp trích
chọn luật wrapper, sử dụng cách 2 để trích chọn các wrapper như
đã nêu ở mục 3.3.1. Hệ thống sẽ tìm ra được các luật wrapper.
o Trích chọn thực thể tiềm năng: Sau khi đã tìm được các luật
wrapper, sử dụng các kĩ thuật so khớp mẫu luật và xử lý xâu
chuỗi, từ đó thu được các thực thể tiềm năng. Luật wrapper được
sinh ra từ trang web nào sẽ được áp dụng vào chính trang web đó
để trích chọn ra các thực thể tiềm năng.
Pha 3: Xếp hạng các thực thể tiềm năng (Ranker)
Đầu vào: Các thực thể tiềm năng tìm được ở pha 2.
Đầu ra: danh sách các thực thể tiềm năng đã được sắp xếp theo hạng của
từng thực thể tiềm năng.
Xử lý: Sử dụng các thuật toán xếp hạng đã được nêu ở mục 3.3.2, áp
dụng đối với các thực thể tìm được để tính hạng cho từng thực thể. Thuật
toán được sử dụng:
o Word Frequency: dựa vào số lần thực thể đó xuất hiện trong quá
trình trích chọn.
o Wrapper length: Các thực thể nào được trích chọn bởi wrapper có
độ dài lớn hơn thì được coi là có độ chính xác hơn là các thực thể
được trích chọn bởi wrapper có độ dài nhỏ hơn.
Pha 4: Lựa chọn thực thể mới (Entities Choosing)
Đầu vào: tập các thực thể tiềm năng đã được sắp xếp theo hạng của từng
thực thể tiềm năng.
Đầu ra: Tập thực thể mới tương đương các thực thể mồi
Xử lý:
o Với tập thực thể “tiềm năng” đã được sắp xếp theo hạng, lựa chọn
k thực thể đầu tiên có hạng cao nhất.
o k được chọn qua quá trình thực nghiệm.
Qua pha mở rộng thực thể sẽ thu được một tập các thực thể tương đương với các
thực thể đầu vào của pha này, các kết quả trả lời tìm được bởi pha hỏi đáp danh sách.
38
Cập nhật các thực thể mới tìm được vào danh sách câu trả lời ở pha 1, ta thu được
danh sách câu trả lời đầy đủ hơn.
Tóm tắt chương 3: Chương 3 trình bày về mô hình nâng cao chất lượng cho hệ
thống hỏi đáp danh sách tiếng Việt gồm 2 pha chính là pha hỏi đáp danh sách và pha
mở rộng thực thể, các cơ sở lý thuyết xây dựng mô hình và chi tiết hai pha chính trong
mô hình. Phần tiếp theo trình bày về quá trình tiến hành thực nghiệm, kết quả và đánh
giá kết quả mô hình.
39
Chương 4. Thực nghiệm và đánh giá
Dựa cơ sở lý thuyết và mô hình đề xuất ở chương 3, khóa luận xây dựng và tiến
hành thực nghiệm hai pha trong mô hình nâng cao chất lượng kết quả trả lời trong hệ
thống hỏi đáp danh sách tiếng Việt: pha 1 – pha hỏi đáp danh sách, pha 2 – pha mở
rộng thực thể.
Cấu hình máy thực nghiệm:
o Chip: Intel(R) Celeron(R) M CPU 520 @ 1.60GHz
o Ram: 1.00 GB
o Hệ điều hành: Microsoft Windows 7
Công cụ lập trình: Java Eclipse SDK 3.4.0
Công cụ phần mềm sử dụng:
o JvnTextpro – Tác giả Nguyễn Cẩm Tú.
o GoogleCrawler – Tác giả Trần Mai Vũ.
4.1. Thực nghiệm pha hỏi đáp danh sách
4.1.1. Dữ liệu thực nghiệm
Thực nghiệm đánh giá độ chính xác câu trả lời đưa ra bởi pha hỏi đáp danh sách.
Tiến hành thực nghiệm trên một tập gồm 200 từ khóa tương ứng với 200 câu hỏi danh
sách. Bảng 10 liệt kê 10 ví dụ về câu hỏi danh sách và từ khóa tương ứng.
Câu hỏi Từ khóa
Hãy cho tôi biết tên một số loài động vật? động vật
Có những loại nhạc cụ nào? nhạc cụ
Việt Nam có các thành phố nào? thành phố của Việt Nam
Kể cho tôi tên các ca sĩ? ca sĩ
Việt Nam có những nhạc sĩ nào? nhạc sĩ Việt Nam
Hãy cho tôi biết tên một số thủ đô trên thế giới? thủ đô
Trên thế giới có những trường đại học nào? trường đại học
Bảng 10. Ví dụ về câu hỏi danh sách và từ khóa tương ứng
40
Hãy cho tôi biết tên các bảo tàng? bảo tàng
Có những bệnh viện nào? bệnh viện
4.1.2. Kết quả thực nghiệm
Với tập gồm 200 bộ từ khóa, tiến hành thực nghiệm riêng pha hỏi đáp danh sách.
Khóa luận tiến hành thống kê và đánh giá với số lượng kết quả lần lượt là: 2, 3, 4, 5,
10, 15, 20. Bảng 11 cho biết số lượng từ khóa được đáp ứng và độ chính xác tương
ứng với số lượng kết quả. Các kết quả được lựa chọn theo trọng số từ cao đến thấp
trong câu trả lời trả về bởi pha hỏi đáp danh sách. Gọi a là số lượng kết quả trả lời
đúng, b là số lượng kết quả được xét, độ chính xác P được tính theo công thức: P = ୟ
ୠ
.
Số kết quả 2 3 4 5 10 15 20
Số lượng từ khóa
được đáp ứng
200 200 191 176 153 129 97
Độ chính xác (%) 93.84 89.48 86.84 82.11 78.16 73.23 67.10
Biểu đồ 2 mô tả số lượng từ khóa được đáp ứng với các số lượng khác nhau của
tập kết quả trong câu trả lời được trả về bởi pha hỏi đáp danh sách. Pha hỏi đáp danh
0
50
100
150
200
250
2 3 4 5 10 15 20
Số lượng từ khóa
được đáp ứng
Bảng 11. Kết quả thực nghiệm pha hỏi đáp danh sách tiếng Việt
Biểu đồ 2. Số lượng từ khóa được đáp ứng với số lượng khác nhau của tập kết quả
41
sách luôn cho được ít nhất 3 kết quả với mọi từ khóa trong tập dữ liệu thực nghiệm.
Khi yêu cầu số lượng các kết quả nhiều hơn thì số lượng từ khóa được đáp ứng giảm
đi, lần lượt là 191 khi yêu cầu 4 kết quả, 176 khi yêu cầu 5 kết quả và chỉ còn 97 từ
khóa được đáp ứng khi yêu cầu 20 kết quả. Điều này là do việc xây dựng các mẫu luật
thượng hạ danh đối với miền dữ liệu tiếng Việt chưa được đầy đủ, nên số lượng các
kết quả trích chọn được cho một số câu trả lời là chưa nhiều.
Biểu đồ 3 mô tả độ chính xác của các kết quả trong thực nghiệm pha hỏi đáp
danh sách tiếng Việt, tương ứng với số lượng kết quả yêu cầu khác nhau. Độ chính xác
P được tính theo công thức: P = ୟ
ୠ
, trong đó a là số lượng kết quả trả lời đúng, b là số
lượng kết quả được xét. Biểu đồ này cho thấy độ chính xác của câu trả lời tỉ lệ nghịch
với số lượng kết quả được xét, độ chính xác giảm dần khi số lượng kết quả được xét
nhiều lên. Độ chính xác đạt cao nhất khi chỉ xét 2 kết quả đầu tiên trong câu trả lời, là
93.84%. Khi xét đến 20 kết quả thì độ chính xác giảm chỉ còn 67.10%. Điều này là do
các luật thượng hạ danh được xây dựng chưa đầy đủ nên chưa đáp ứng được số lượng
kết quả lớn.
Phần tiếp theo, khóa luận trình bày thực nghiệm bổ sung pha mở rộng thực thể để
nâng cao kết quả câu trả lời đã có được sau pha hỏi đáp nói trên. Qua kết quả thực
nghiệm, đưa ra đánh giá khả năng nâng cao chất lượng câu trả lời của mô hình.
0
10
20
30
40
50
60
70
80
90
100
2 3 4 5 10 15 20
Độ chính xác
Biểu đồ 3. Độ chính xác của các kết quả trong thực nghiệm pha hỏi đáp danh sách tiếng Việt
42
4.2. Thực nghiệm đánh giá kết quả mô hình nâng cao chất lượng câu trả lời
cho hệ thống hỏi đáp danh sách tiếng việt
Đầu vào của pha hỏi đáp danh sách là từ khóa của câu hỏi, đầu ra của pha này
chính là câu trả lời được trả về dưới dạng danh sách các kết quả, được sắp xếp theo
trọng số của chúng. Qua quá trình tiến hành và khảo sát thực nghiệm riêng đối với pha
hỏi đáp danh sách, nhận thấy trong danh sách các kết quả trả lời, tỉ lệ nhiễu bắt đầu
tăng từ kết quả thứ 5 trở đi. Pha mở rộng thực thể nhận đầu vào là n thực thể có trọng
số cao nhất trong danh sách câu trả lời và có nhiệm vụ bổ sung các kết quả cho câu trả
lời. Với đầu vào có tỉ lệ nhiễu cao thì kết quả mở rộng sẽ không được khả quan. Chính
vì thế, khóa luận tiến hành thực nghiệm với n = 2, n=3 và n=4.
Chúng tôi tiến hành pha mở rộng thực thể với các số lượng đầu vào như trên và
thống kê kết quả mở rộng. Với mỗi thực nghiệm, xét các số lượng kết quả tương ứng
là 5, 10, 15, 20, trong đó, có n thực thể là kết quả của pha hỏi đáp danh sách đã được
dùng làm thực thể mồi, còn lại các các thực thể được sinh ra bởi pha nâng cao chất
lượng câu trả lời. Đồng thời, thống kê số lượng các từ khóa được đáp ứng đủ số lượng
kết quả. Trong các bảng dưới đây, độ chính xác với số kết quả tương ứng cho bởi pha
1 được nhắc lại để tiện so sánh.
Số kết quả 5 10 15 20
Độ chính xác của pha 1 (%) 82.11 78.16 73.23 67.10
Độ chính xác của hệ thống
(%) 87.5 81.17 78.3 74.27
Số lượng từ khóa được pha
1 đáp ứng
176 153 129 97
Số lượng từ khóa được hệ
thống đáp ứng
187 165 132 116
Bảng 12 là kết quả thực nghiệm mô hình nâng cao với đầu vào cho pha mở rộng
là 2 kết quả có trọng số cao nhất của pha hỏi đáp danh sách (n = 2). Qua đó cho thấy
Bảng 12. Kết quả thực nghiệm mô hình nâng cao sử dụng 2 thực thể mồi
43
hệ thống khi sử dụng kết hợp hai pha cho kết quả tốt hơn khi chỉ sử dụng pha hỏi đáp
danh sách với yêu cầu về số lượng kết quả từ 5 đến 20. Với số lượng kết quả là 5, độ
chính xác tăng 5.39%. Với số lượng kết quả là 20, độ chính xác tăng 7.17%. Cùng với
đó, số lượng từ khóa được đáp ứng cũng nhiều hơn, tuy nhiên, do đầu vào pha mở
rộng thực thể chỉ là 2 thực thể nên số lượng các thực thể được mở rộng còn ít, nên vẫn
còn trường hợp từ khóa không được đáp ứng đủ số lượng kết quả yêu cầu.
Số kết quả 5 10 15 20
Độ chính xác của pha 1 (%) 82.11 78.16 73.23 67.10
Độ chính xác của hệ thống
(%)
93.87 89.64 82.1 77.31
Số lượng từ khóa được pha
1 đáp ứng
176 153 129 97
Số lượng từ khóa được hệ
thống đáp ứng
193 179 163 152
Bảng 13 là kết quả khi thực nghiệm với đầu vào cho pha mở rộng là 3 kết quả có
trọng số cao nhất của pha hỏi đáp danh sách (n = 3). Tỉ lệ cải thiện kết quả là không
đều. Với số lượng kết quả là 5, độ chính xác tăng 11.76%. Với số lượng kết quả là 20,
độ chính xác tăng 4.72%, điều này là vì 20 kết quả cho bởi pha 1 sẽ có nhiều nhiễu do
chỉ sử dụng luật thượng hạ danh, việc sử dụng pha mở rộng thực thể sẽ hạn chế được
điều này. Pha mở rộng thực thể trong trường hợp sử dụng 3 thực thể làm đầu vào trích
chọn được nhiều hơn các thực thể so với trường hợp chỉ sử dụng 2 thực thể đầu vào.
Do đó, giúp hệ thống có thể đáp ứng được nhiều hơn số kết quả cho các câu hỏi.
Bảng 14 là kết quả thực nghiệm với 4 kết quả từ pha hỏi đáp danh sách làm đầu
vào cho pha mở rộng thực thể. Độ chính xác trong thực nghiệm với n = 4 cao hơn so
với thực nghiệm với n = 2 và thấp hơn so với thực nghiệm với n = 3. Tuy nhiên số
lượng các tập mở rộng đáp ứng cho việc lựa chọn kết quả trả lời lại là cao nhất trong 3
thực nghiệm do số lượng đầu vào cho pha mở rộng là cao nhất trong 3 thực nghiệm.
Bảng 13. Kết quả thực nghiệm mô hình nâng cao sử dụng 3 thực thể mồi
44
Tuy nhiên, số lượng các thực thể đầu vào cho pha 2 tăng thì khả năng nhiễu trong tập
thực thể đầu vào cho pha này cũng tăng, chính vì thế độ chính xác của các thực thể
được trích chọn được bởi pha 2 là không cao, dẫn đến việc nâng cao độ chính xác cho
toàn bộ hệ thống là không nhiều.
Số kết quả 5 10 15 20
Độ chính xác của pha 1
(%) 82.11 78.16 73.23 67.10
Độ chính xác của hệ thống
(%) 91.15 83.27 81.53 76.2
Số lượng từ khóa được pha
1 đáp ứng 176 153 129 97
Số lượng từ khóa được đáp
ứng 196 184 179 163
Biểu đồ 4 mô tả trực quan độ chính xác của câu trả lời với số lượng các kết quả
khác nhau trong thực nghiệm. Kết quả tốt mà hệ thống đạt được là khi kết hợp 2 pha,
0
10
20
30
40
50
60
70
80
90
100
5 10 15 20
Pha hỏi đáp danh sách
Kết hợp hai pha với n = 2
Kết hợp hai pha với n = 3
Kết hợp hai pha với n = 4
Bảng 14. Kết quả thực nghiệm mô hình nâng cao – 4 kết quả đầu vào
Biểu đồ 4. So sánh độ chính xác câu trả lời
45
trong đó sử dụng 3 kết quả của pha hỏi đáp danh sách làm thực thể mồi cho pha mở
rộng thực thể. Nhìn chung, độ chính xác của câu trả lời giảm dần khi tăng yêu cầu về
số lượng kết quả, trường hợp sử dụng 3 kết quả của pha hỏi đáp danh sách làm thực
thể mồi cho pha mở rộng thực thể, độ chính xác tương ứng là: 93.87% với 5 kết quả
đầu tiên, 89.64% với 10 kết quả đầu và 77.31% với 20 kết quả. Bên cạnh đó, mức tăng
của độ chính xác là không đều, phụ thuộc vào chất lượng các luật thượng hạ danh cũng
như pha mở rộng thực thể.
Biểu đồ 5 thể hiện khả năng đáp ứng từ khóa của hệ thống trong các trường hợp:
Chỉ áp dụng pha hỏi đáp danh sách
Kết hợp hai pha sử dụng 2 kết quả của pha hỏi đáp danh sách làm mồi cho
pha mở rộng thực thể.
Kết hợp hai pha sử dụng 3 kết quả của pha hỏi đáp danh sách làm mồi cho
pha mở rộng thực thể.
Kết hợp hai pha sử dụng 4 kết quả của pha hỏi đáp danh sách làm mồi cho
pha mở rộng thực thể.
Có thế thấy khả năng đáp ứng của hệ thống khi sử dụng kết hợp 2 pha tốt hơn khi
chỉ sử dụng pha hỏi đáp danh sách. Trong đó khả năng đáp ứng là tốt nhất trong trường
0
50
100
150
200
250
5 10 15 20
Pha hỏi đáp danh sách
Kết hợp hai pha với n = 2
Kết hợp hai pha với n = 3
Kết hợp hai pha với n = 4
Biểu đồ 5.Khả năng đáp ứng từ khóa của hệ thống trong các trường hợp
46
hợp sử dụng 4 kết quả của pha hỏi đáp danh sách làm mồi cho pha mở rộng thực thể,
đáp ứng được 196 từ khóa trong trường hợp yêu cầu 5 kết quả, khả năng đáp ứng giảm
dần khi số lượng các kết quả yêu cầu tăng, còn 163 từ khóa được áp ứng khi số lượng
kết quả yêu cầu lên đến 20.
Qua các kết quả thực nghiệm kết hợp hai pha hỏi đáp danh sách và mở rộng thực
thể trong mô hình nâng cao chất lượng kết quả trả lời cho hệ thống hỏi đáp danh sách
tiếng Việt nhận thấy mô hình kết hợp cho kết quả tốt hơn khi chỉ sử dụng pha hỏi đáp
danh sách. Hệ thống kết hợp cho kết quả trả lời khá tốt với độ chính xác là 93.87% với
5 kết quả trong câu trả lời khi đầu vào cho pha mở rộng thực thể là 3 kết quả có trọng
số cao nhất trả về bởi pha hỏi đáp danh sách. Số các từ khóa được đáp ứng với số
lượng các kết quả khác nhau cũng tăng nhờ pha mở rộng thực thể tìm được thêm các
thực thể mới. Tuy nhiên trong các thực thể mới đó còn các trường hợp chưa chính xác,
điều này là do nhiều nguyên nhân khác nhau, trong đó có nguyên nhân do các thực thể
đầu vào của pha mở rộng bị nhiễu, dẫn đến việc mở rộng không đạt được hiệu quả như
mong muốn. Hoặc do trong các dữ liệu được xét, có ít các thực thể cần tìm nằm cùng
ngữ cảnh với các thực thể mồi, dẫn đến các thực thể được mở rộng là không nhiều.
Đây cũng chính là những vấn đề cần tiếp tục giải quyết để đạt được kết quả nâng cao
tốt hơn cho hệ thống hỏi đáp danh sách tiếng Việt.
47
Kết luận
Cùng với nhu cầu khai thác các nguồn thông tin trên dữ liệu web một cách dễ
dàng và hiệu quả hơn, hệ thống hỏi đáp danh sách đang là một hướng nghiên cứu mới
thu hút được nhiều sự quan tâm của các nhà nghiên cứu trên thế giới cũng như tại Việt
Nam. Trong khuôn khổ một khóa luận tốt nghiệp đại học, nội dung nghiên cứu tập
trung tìm hiểu phương pháp nâng cao chất lượng câu trả lời cho hệ thống hỏi đáp danh
sách tiếng Việt bằng cách tìm kiếm, trích chọn bổ sung các kết quả cho câu trả lời
trong hệ thống. Các công việc đã thực hiện được trong khóa luận:
Về lý thuyết:
o Hệ thống hoá một số vấn đề lý thuyết về hệ thống hỏi đáp cũng như hệ
thống hỏi đáp danh sách.
o Chỉ ra ý nghĩa và vai trò của việc nâng cao chất lượng câu trả lời cho
hệ thống hỏi đáp danh sách và khảo sát một số phương pháp đã được
áp dụng trong các nghiên cứu trước đây.
o Tìm hiểu các cơ sở lý thuyết về mở rộng thực thể cũng như các kiến
thức liên quan như thuật toán xếp hạng.
Về thực nghiệm
Dựa trên cơ sở lý thuyết đã tìm hiểu được, khóa luận tiến hành thực
nghiệm và đạt được một số kết quả như sau:
o Đề xuất mô hình nâng cao chất lượng trả lời cho hệ thống hỏi đáp
danh sách tiếng Việt. Mô hình gồm 2 pha, pha 1 là hệ thống hỏi đáp
đơn giản sử dụng các luật thượng hạ danh, pha 2 là pha bổ sung kết
quả cho câu trả lời sử dụng phương pháp mở rộng thực thể.
o Thực nghiệm và đánh giá mô hình đã đề xuất. Mô hình kết hợp đạt độ
chính xác cho câu trả lời chứa 5 kết quả là 93.87% so với 82.11% khi
chỉ sử dụng pha hỏi đáp danh sách. Đây là một kết quả khá khả quan,
đáp ứng được tốt yêu cầu đặt ra ban đầu của đề tài và đặt nền tảng cho
các nghiên cứu tiếp theo.
Do còn những hạn chế về thời gian và kiến thức, khoá luận còn một số vấn đề
cần tiếp tục hoàn thiện và phát triển:
48
Pha hỏi đáp danh sách còn thô sơ, mới chỉ sử dụng luật thượng hạ danh
(hyponym), do đó, nhiều câu trả lời chứa rất ít kết quả hoặc chứa nhiều kết
quả không chính xác (nhiễu) làm ảnh hưởng tới pha mở rộng thực thể.
Pha mở rộng kết quả trả lời mới chỉ tận dụng được đặc điểm dữ liệu bán cấu
trúc của các văn bản web, cụ thể là dựa vào các bảng, các danh sách, … mà
chưa sử dụng được thành phần chứa nhiều thông tin đó chính là nội dung
chính của các trang web.
Nhận thấy các nhược điểm còn tồn tại nói trên, trong thời gian sắp tới, chúng tôi
sẽ tiến hành cải tiến theo các phương án sau:
Nghiên cứu các đặc điểm của tiếng Việt để xây dựng các luật ngữ nghĩa áp
dụng vào pha mở rộng thực thể để có thể sử dụng được nội dung chính của
các trang web, góp phần nâng cao chất lượng kết quả trả lời cho hệ thống hỏi
đáp danh sách.
Hoàn thiện hơn pha hỏi đáp danh sách: bổ sung các luật thượng hạ danh, tìm
hiểu các quan hệ khác có thể áp dụng cho bài toán tìm kiếm câu trả lời trong
hệ thống hỏi đáp danh sách, …
Nghiên cứu, cải tiến các thuật toán xếp hạng để có thể đánh giá tốt hơn các
thực thể trích chọn được, giúp lựa chọn các thực thể đầu vào cho pha mở
rộng tốt hơn và lựa chọn các kết quả cho câu trả lời cuối cùng cũng tốt hơn.
Cuối cùng, tiếp tục hoàn thiện, tiến tới xây dựng thành công cụ thực tế để
đóng góp cho cộng đồng nghiên cứu cũng như hỗ trợ người dùng khai thác
thông tin trên Internet một cách hiệu quả hơn.
49
Phụ lục
Một số kết quả trong quá trình thực nghiệm, trường hợp đầu vào của pha mở
rộng thực thể là 3 kết quả trả lời. Bao gồm cả kết quả trả lời đúng và kết quả chưa
chính xác. Trường hợp không thu được thêm kết quả nào thì để trống.
STT Từ
khóa
Một số kết quả của pha hỏi đáp danh sách
Một số kết quả thu được
thêm sau khi mở rộng
1.
Bảo
tàng
bảo tàng lịch sử, bảo tàng công binh, hải
dương, hưng yên, thanh hóa, khoáng sản,
thực vật, động vật, bảo tàng ngân hàng, bảo
tàng tiền, bảo tàng hàng không, bảo tàng y
dược học, bảo tàng bưu điện, bảo tàng dầu
khí, bảo tàng dệt may, bảo tàng giáo dục, bảo
tàng giao thông, bảo tàng kiến trúc, bảo tàng
tem, bảo tàng mỹ thuật, hiện vật khối gốc.
bảo tàng dân tộc học, bảo
tàng cách mạng, bảo tàng
tranh sơn mài, sơn dầu, lụa.
2.
Hãng
hàng
không
lufthansa, korean air, singapore airlines,
united airlines, air france (pháp), virgin
atlantic, new zealand, indochina airlines,
british airways, châu á, vietnam airlines,
pacific airlines, indochina airline, thai ways,
brussels airlines, austrian
airlines, air canada, united
airlines, lot polish airlines,
star alliance, lufthansa
cityline, luxair, air france, air
new zealand, british airways,
jetblue airways, south african
airways, tap portugal, turkish
airlines, us airways,
eurowings, lufthansa cargo,
croatia airlines, adria
airways, view this template,
discuss this template, edit
this template, aer lingus, air
berlin, air china, air india.
3. Bệnh
sốt vi-rút, viêm phế quản, viêm phổi, sốt xuất
huyết, dịch tả, tiêu chảy, tụ huyết trùng, lở
mồm long móng, bệnh sán lá, bệnh ghẻ lở,
ghẻ lở, bệnh phổi, bệnh phù nề, chữa viêm
viêm não, viêm họng, cúm,
sốt phát ban, viêm bàng
quang, viêm màng não, dãn
50
gan, béo phì, suy nhược thần kinh, cao huyết
áp, cảm cúm, thông manh, mắt đỏ, nhức đầu,
đại tiện táo kết, cao áp huyết.
phế quản, bệnh lỵ, thấp tim
4.
Chòm
sao
đại hùng, tiểu hùng, thiên hậu, lộc báo, tiên
vương, mục phu, felis, quadrans muralis,
cetus, pegasus, hercules.
thiên nga, phượng hoàng, la
bàn, nhân mã, tam giác, mỏ
chim, bảo bình, thiên ưng,
mục phu, điêu cụ, đại
khuyển, kình ngư, nam miện,
…
5.
Động
vật
Dê, hươu xạ, cá voi, cá heo đã tiến hóa,
hoẵng, nai, hươu, sóc, khỉ đuôi dài, cò, vạc,
nông, bống, tôm, trai, kiến, cá, loài có vú,
chó, mèo, dơi, ngựa, chuột
Bò, heo, cừu
6.
Bệnh
viện
điều trị bệnh, bệnh viện sanh pon, bệnh viện
mắt-rhm, bệnh viện tây đô, bệnh viện hoàn
mỹ, bệnh phổi cần thơ, bệnh viện tâm thần,
bạch mai, viện k trung ương, việt đức, phụ
sản, bệnh viện k, viện mắt trung ương
7.
Ngân
hàng
Techcombank, eximbank, acb, công thương,
abbank, seabank, đông á, abc, sacombank,
ngân hàng quốc tế, lienvietbank,
tienphongbank, nam á bank
Bidv, sacombank, vp bank,
vietcombank, scb, ngoài
quốc doanh, maritime bank,
habeco.
8.
Nhạc
cụ
Guitar, trống, kèn, đàn nhị, đàn bầu, piano,
khèn của người mông, kèn đồng, đàn dương
cầm
Sáo, keyboard, chuông,
chiêng, sitar, mandolin,
bangio
9.
Nhạc
sĩ
lam phương, cầm phong, lê thương, hùng lân,
trầm tử thiêng, nguyễn cường, giáng son,
phan kiên, duy quang, ngô minh khánh, trần
quang hải, hồ đình phương, niệm khúc cuối
hoàng giác, thẩm oánh, đức
huy, trần quang hải, tô vũ,
hoàng thi thơ, lưu hữu
phước, văn cao, trịnh công
sơn, trúc phương
10. Thủ đô
Bangkok, london (anh), berlin (đức), tokyo
(nhật bản), viên chăn (lào), hà nội hiện tại
Bắc kinh (trung quốc), paris
(pháp)
51
Tài liệu tham khảo
Tiếng Việt
[1] Trần Thị Ngân, Lê Hoàng Quỳnh, Nguyễn Thanh Sơn. Nhận biết một số thực thể
đặc trưng cho dữ liệu y tế tiếng việt tiếp cận học bán giám sát, Báo cáo NCKH năm
2009, Trường Đại học Công nghệ, ĐHQGH
Các file đính kèm theo tài liệu này:
- LUẬN VĂN- PHƯƠNG PHÁP NÂNG CAO CHẤT LƯỢNG KẾT QUẢ TRẢ LỜI CHO HỆ THỐNG HỎI ĐÁP DANH SÁCH TIẾNG VIỆT.pdf