Tài liệu Đề tài Phân giải nhập nhằng thực thể có tên dựa trên các ontology đóng và mở: ĐẠI HỌC QUỐC GIA TP.HCM
TRƯỜNG ĐẠI HỌC BÁCH KHOA
Nguyễn Thanh Hiên
PHÂN GIẢI NHẬP NHẰNG THỰC THỂ CÓ TÊN
DỰA TRÊN CÁC ONTOLOGY ĐÓNG VÀ MỞ
Chuyên ngành: Khoa học Máy tính
Mã số: 62.48.01.01
LUẬN ÁN TIẾN SĨ KỸ THUẬT
NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS. TS. CAO HOÀNG TRỤ
TP. HCM - NĂM 2010
i
LỜI CAM ĐOAN
Tôi cam đoan rằng nội dung của luận án này là kết quả nghiên cứu của bản thân. Tất
cả những tham khảo từ các nghiên cứu liên quan điều được nêu rõ nguồn gốc một cách rõ
ràng từ danh mục tài liệu tham khảo được đề cập ở phần sau của luận án. Những đóng góp
trong luận án là kết quả nghiên cứu của tác giả đã được công bố trong các bài báo của tác
giả ở phần sau của luận án và chưa được công bố trong bất kỳ công trình khoa học nào
khác.
Tác giả luận án
Nguyễn Thanh Hiên
ii
LỜI CẢM ƠN
Tôi muốn bày tỏ ở đây lời tri ân sâu sắc gởi đến thầy hướng dẫn của tôi, PGS. TS. Cao
Hoàng Trụ. Thầy đã tận tình chỉ bảo tôi từ những ngày đầu tiếp cận con đường khoa học....
164 trang |
Chia sẻ: hunglv | Lượt xem: 1412 | Lượt tải: 0
Bạn đang xem trước 20 trang mẫu tài liệu Đề tài Phân giải nhập nhằng thực thể có tên dựa trên các ontology đóng và mở, để tải tài liệu gốc về máy bạn click vào nút DOWNLOAD ở trên
ĐẠI HỌC QUỐC GIA TP.HCM
TRƯỜNG ĐẠI HỌC BÁCH KHOA
Nguyễn Thanh Hiên
PHÂN GIẢI NHẬP NHẰNG THỰC THỂ CĨ TÊN
DỰA TRÊN CÁC ONTOLOGY ĐĨNG VÀ MỞ
Chuyên ngành: Khoa học Máy tính
Mã số: 62.48.01.01
LUẬN ÁN TIẾN SĨ KỸ THUẬT
NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS. TS. CAO HỒNG TRỤ
TP. HCM - NĂM 2010
i
LỜI CAM ĐOAN
Tơi cam đoan rằng nội dung của luận án này là kết quả nghiên cứu của bản thân. Tất
cả những tham khảo từ các nghiên cứu liên quan điều được nêu rõ nguồn gốc một cách rõ
ràng từ danh mục tài liệu tham khảo được đề cập ở phần sau của luận án. Những đĩng gĩp
trong luận án là kết quả nghiên cứu của tác giả đã được cơng bố trong các bài báo của tác
giả ở phần sau của luận án và chưa được cơng bố trong bất kỳ cơng trình khoa học nào
khác.
Tác giả luận án
Nguyễn Thanh Hiên
ii
LỜI CẢM ƠN
Tơi muốn bày tỏ ở đây lời tri ân sâu sắc gởi đến thầy hướng dẫn của tơi, PGS. TS. Cao
Hồng Trụ. Thầy đã tận tình chỉ bảo tơi từ những ngày đầu tiếp cận con đường khoa học.
Thầy đã dạy tơi từ những việc tưởng chừng đơn giản như cách thức để thu thập các tài liệu
liên quan, đến khả năng tư duy cĩ phê phán và sự hồi nghi cần thiết trong hoạt động
nghiên cứu. Sự tận tình hướng dẫn, cộng với sự động viên, khích lệ thường xuyên của
Thầy đã thật sự đánh thức trong tơi những khả năng tiềm ẩn, nếu khơng luận án này đã
khơng thể hồn thành. Sự cẩn thận, tỉ mỉ, kiên nhẫn và nghiêm túc trong cơng việc là
những đức tính mà Thầy luơn nhắc nhở tơi. Những gì Thầy dạy tơi đã ảnh hưởng sâu sắc
đến cá nhân tơi, và sẽ cĩ tác động lâu dài đến cuộc sống, sự nghiệp và tương lai của tơi.
Tơi tin rằng, bằng những lời lẽ thơng thường sẽ khơng đủ để chuyển tải hết lịng biết ơn
với những gì Thầy đã dạy tơi. Dù vậy, tơi cũng muốn viết ra đây, và gởi đến Thầy, lời cảm
ơn chân thành nhất. Em cảm ơn Thầy!
Tơi cũng muốn bày tỏ lịng biết ơn đối với tập thể các thầy cơ Khoa Khoa học và Kỹ
thuật máy tính, Trường Đại học Bách Khoa Tp. HCM, nơi tơi học tập và gắn bĩ hơn mười
năm qua, tính cả thời gian tơi học đại học và làm luận văn thạc sĩ. Các thầy cơ luơn tạo
điều kiện để tơi hồn thành tốt cơng việc của mình, và sự dạy dỗ của quí thầy cơ đã giúp
tơi trưởng thành. Xin chân thành cảm ơn quí thầy cơ trong Khoa Khoa học và Kỹ thuật
máy tính. Tơi cũng chân thành cảm ơn sự hỗ trợ và giúp đỡ nhiệt thành của Phịng Quản lý
Sau Đại học, Trường Đại học Bách Khoa Tp. HCM trong thời gian tơi thực hiện luận án
này. Cảm ơn Ban giám hiệu Trường Đại học Bách Khoa Tp. HCM, Phịng Khoa học Cơng
nghệ & Dự án đã xét duyệt cho tơi thực hiện đề tài nghiên cứu cấp trường, hỗ trợ tài chính
để trang trải một phần kinh phí học tập và nghiên cứu của tơi trong thời gian qua.
Tơi chân thành cảm ơn Tiến sĩ Lê Vinh Danh, Hiệu trưởng Trường Đại học Tơn Đức
Thắng, đã động viên và tạo mọi điều kiện thuận lợi cho tơi hồn thành luận án này. Cảm
ơn các anh chị trong Phịng Điện tốn và Thơng tin tư liệu, Trường Đại học Tơn Đức
Thắng, đã nhiệt tình giúp đỡ tơi trong thời gian vừa qua.
Cuối cùng, chân thành cảm ơn người thân, bạn bè luơn bên cạnh động viên, hỗ trợ về
mặt tinh thần để tơi vượt qua khĩ khăn và hồn thành tốt luận án.
iii
TĨM TẮT
Thực thể cĩ tên là những thực thể cĩ thể được tham khảo đến bằng tên riêng, như con
người, tổ chức, hoặc nơi chốn. Phân giải nhập nhằng thực thể cĩ tên là nhằm ánh xạ mỗi
tên trong một văn bản vào một thực thể trong một nguồn tri thức cho trước. Nổi lên gần
đây như là một bài tốn đầy thách thức, nhưng cĩ nhiều ý nghĩa trong việc hiện thực hĩa
Web cĩ ngữ nghĩa, cũng như phát triển nâng cao các ứng dụng xử lý ngơn ngữ tự nhiên,
phân giải nhập nhằng thực thể cĩ tên đã thu hút sự quan tâm của nhiều nhĩm nghiên cứu
khắp thế giới. Luận án đề xuất ba phương pháp cho bài tốn này, trong đĩ nghiên cứu sâu
ba yếu tố quan trọng ảnh hưởng đến hiệu quả phân giải nhập nhằng là các nguồn tri thức sử
dụng, đặc trưng biểu diễn thực thể, và mơ hình phân giải nhập nhằng.
Các nguồn tri thức được khai thác là các ontology đĩng và Wikipedia. Các ontology
đĩng được xây dựng bởi các chuyên gia theo hướng tiếp cận từ trên xuống, với các khái
niệm cĩ quan hệ thứ bậc dựa trên một tập từ vựng cĩ kiểm sốt và các ràng buộc chặt chẽ.
Wikipedia, xem như một ontology mở, được xây dựng bởi những người tình nguyện theo
hướng tiếp cận từ dưới lên, với các khái niệm được hình thành từ một tập từ vựng tự do và
các thoả thuận mang tính cộng đồng. Các đặc trưng được nghiên cứu là tên của các thực
thể đồng xuất hiện, định danh của các thực thể đã được xác định, và các từ cùng với các
cụm từ xuất hiện xung quanh tên đang được xem xét và xung quanh các tên là đồng tham
chiếu với tên đĩ trong văn bản. Ngồi ra luận án cũng khai thác vị trí xuất hiện, chiều dài
của các tên, và tên thường dùng của các thực thể. Luận án đề xuất ba mơ hình phân giải
nhập nhằng tương ứng với ba phương pháp nĩi trên là: (i) mơ hình dựa trên heuristic; (ii)
mơ hình dựa trên thống kê; và (iii) mơ hình lai - kết hợp heuristic và thống kê.
Điểm mới chung của ba phương pháp là phân giải nhập nhằng theo một quá trình lặp
cải thiện dần, trong đĩ bao gồm một số bước lặp. Thực thể được xác định tại mỗi bước lặp
sẽ được sử dụng để phân giải nhập nhằng các thực thể cịn lại ở các bước lặp tiếp theo. Các
thí nghiệm được thực hiện để đánh giá và chứng tỏ tính hiệu quả của các phương pháp
được đề xuất. Luận án cũng nghiên cứu xử lý các trường hợp khi mà các tên trong văn bản
chỉ được nhận ra bán phần và thực thể được đề cập đến trong văn bản nằm ngồi nguồn tri
thức sử dụng, đồng thời đề xuất các độ đo hiệu quả phân giải nhập nhằng mới tương ứng.
iv
Abstract
Named entities are those that are referred to by names such as people, organizations, or
locations. Named entity disambiguation is a problem that aims at mapping entity names in
a text to the right referents in a given source of knowledge. Having been emerging in
recent years as a challenging problem, but significant to realization of the semantic web, as
well as advanced development of natural language processing applications, named entity
disambiguation has attracted much attention by researchers all over the world. This thesis
proposes three methods for disambiguating named entities, and rigoruously investigates the
three important factors affecting disambiguation performance, namely, employed
knowledge sources, named entity representation features, and disambiguation models.
The knowledge sources exploited are close ontologies and Wikipedia. Close ontolo-
gies are built by experts following a top-down approach, with a hierarchy of concepts
based on a controlled vocabulary and strict constraints. Wikipedia, considered as an open
ontology, is built by volunteers following a bottom-up approach, with concepts formed by
a free vocabulary and community agreements. The investigated features are entity names,
identifiers of resolved entities, and words together with phrases surrounding a target name
and surrounding names that are coreferential with that target name. Besides, the thesis ex-
ploits occurrence positions and lengths of names, and main alias of entities. This thesis
proposes three models corresponding to the three above-mentioned methods: (i) a heuris-
tic-based model; (ii) a statistical model; and (iii) a hybrid model, combining heuristics and
statistics.
The common novelty of the proposed methods is disambiguating named entities itera-
tively and incrementally, including several iterative steps. Those named entities that are
resolved in each iterative step will be used to disambiguate the remaining ones in the next
iterative steps. Experiments are conducted to evaluate and show the advantages of the pro-
posed methods. Besides, this thesis deals with the cases when entity names in text are par-
tially recognized and entities referred to in text are outside an employed knowledge source,
as well as proposes new corresponding disambiguation performance measures.
v
MỤC LỤC
Lời cam đoan ............................................................................................................................ i
Lời cảm ơn ............................................................................................................................... ii
Tĩm tắt .................................................................................................................................... iii
Abstract................................................................................................................................... iv
Mục lục..................................................................................................................................... v
Danh mục các bảng ............................................................................................................... vii
Danh mục các hình ................................................................................................................ ix
Danh mục các giải thuật ......................................................................................................... x
Danh mục thuật ngữ viết tắt ................................................................................................. xi
Chương 1: GIỚI THIỆU ........................................................................................................ 1
1.1 Lịch sử và động cơ nghiên cứu ................................................................................. 1
1.2 Bài tốn và phạm vi ................................................................................................ 15
1.3 Phương pháp luận đề xuất ....................................................................................... 17
1.4 Những đĩng gĩp chính của luận án ........................................................................ 24
1.5 Cấu trúc của luận án................................................................................................ 26
Chương 2: NỀN TẢNG KIẾN THỨC ................................................................................ 28
2.1 Giới thiệu ................................................................................................................ 28
2.2 Ontology ................................................................................................................. 29
2.3 Wikipedia ................................................................................................................ 36
2.4 Mơ hình khơng gian véctơ ...................................................................................... 45
2.5 Nhận dạng thực thể cĩ tên ...................................................................................... 46
2.6 Phân giải đồng tham chiếu trong một văn bản........................................................ 51
2.7 Phân giải nhập nhằng .............................................................................................. 59
vi
2.8 Kết luận ................................................................................................................... 72
Chương 3: PHÂN GIẢI NHẬP NHẰNG DỰA TRÊN ONTOLOGY ............................. 74
3.1 Giới thiệu ................................................................................................................ 74
3.2 Phân hạng ứng viên dựa trên ontology ................................................................... 75
3.3 Các độ đo hiệu quả mới .......................................................................................... 80
3.4 Thí nghiệm và đánh giá .......................................................................................... 84
3.5 Kết luận ................................................................................................................... 91
Chương 4: PHÂN GIẢI NHẬP NHẰNG DỰA TRÊN ONTOLOGY ĐƯỢC LÀM
GIÀU ...................................................................................................................................... 93
4.1 Giới thiệu ................................................................................................................ 93
4.2 Mơ hình phân hạng ứng viên dựa trên thống kê ..................................................... 95
4.3 Làm giàu ontology ................................................................................................ 106
4.4 Thí nghiệm và đánh giá ........................................................................................ 110
4.5 Kết luận ................................................................................................................. 111
Chương 5: PHÂN GIẢI NHẬP NHẰNG DỰA TRÊN WIKIPEDIA ............................ 113
5.1 Giới thiệu .............................................................................................................. 113
5.2 Phương pháp lai .................................................................................................... 116
5.3 Thí nghiệm và đánh giá ........................................................................................ 125
5.4 Kết luận ................................................................................................................. 130
Chương 6: TỔNG KẾT ...................................................................................................... 132
6.1 Tĩm tắt .................................................................................................................. 132
6.2 Hướng nghiên cứu mở rộng .................................................................................. 135
CÁC CƠNG TRÌNH CỦA TÁC GIẢ LIÊN QUAN ĐẾN LUẬN ÁN ........................... 137
TÀI LIỆU THAM KHẢO .................................................................................................. 138
vii
DANH MỤC CÁC BẢNG
Bảng 2.1: Số liệu thống kê về các trang, thể loại và liên kết của các trang trong
Wikipedia ......................................................................................................... 45
Bảng 2.2: Các loại trả lời để đánh giá một hệ thống nhận dạng thực thể cĩ tên ............... 49
Bảng 2.3: Kết quả phân giải đồng tham chiếu tên riêng tiếng Việt .................................. 59
Bảng 2.4: Minh họa tập dữ liệu huấn luyện của Bunescu và Paşca (2006) ...................... 66
Bảng 2.5: Minh họa đánh giá hiệu quả phân giải nhập nhằng của một phương pháp
phân giải nhập nhằng các vùng địa lý (Leidner, 2007). ................................... 71
Bảng 3.1: Định nghĩa một ánh xạ là đúng hoặc sai cho một tên trong văn bản ................ 82
Bảng 3.2: Minh hoạ cách tính độ chính xác, độ đầy đủ và độ F ánh xạ ........................... 84
Bảng 3.3: Số lần xuất hiện của (“Georgia”, Location) trong tập dữ liệu De1.................... 85
Bảng 3.4: Số lần xuất hiện của (“Smith”, Person) trong tập dữ liệu De1 .......................... 86
Bảng 3.5: Kết quả phân giải nhập nhằng cho (“Georgia”, Location) ............................... 86
Bảng 3.6: Kết quả phân giải nhập nhằng cho (“Smith”, Person) ...................................... 87
Bảng 3.7: Kết quả phân giải nhập nhằng của OntoNEON trên tập Dv sử dụng
ontology của VN-KIM. .................................................................................... 87
Bảng 3.8: Độ chính xác và độ đầy đủ ánh xạ của VN-KIM và OntoNEON trên tập dữ
liệu Dv. .............................................................................................................. 88
Bảng 4.1: Thơng tin về thực thể trong Wikipedia cĩ một trong các tên “John
McCarthy”, “John Williams”, “Georgia”, hoặc “Columbia” và số lần được
đề cập đến trong tập dữ liệu De2. .................................................................... 101
Bảng 4.2: Thơng tin về số lần xuất hiện của các tên đề cập đến các thực thể cĩ một
trong bốn tên “John McCarthy”, “John Williams”, “Georgia”, hoặc
“Columbia” và số lượng ánh xạ được thực hiện bởi phương pháp của chúng
tơi. ................................................................................................................... 102
viii
Bảng 4.3: Độ chính xác và độ đầy đủ ánh xạ được tính tốn cho các tên “John
McCarthy” và “John Williams”. .................................................................... 103
Bảng 4.4: Độ chính xác và độ đầy đủ ánh xạ được tính tốn cho các tên “Georgia” và
“Columbia”. .................................................................................................... 104
Bảng 4.5: Độ chính xác và độ đầy đủ ánh xạ được tính trung bình cho các tên “John
McCarthy”, “John Williams”, “Georgia”, và “Columbia”. ............................ 105
Bảng 4.6: Thống kê lỗi khi khơng sử dụng và sử dụng định danh của các thực thể như
các đặc trưng. ................................................................................................. 106
Bảng 4.7: Thơng tin về số lần xuất hiện của các tên đề cập đến các thực thể cĩ một
trong hai tên “Georgia”, hoặc “Columbia” và số lượng ánh xạ được thực
hiện bởi phương pháp NOW. ......................................................................... 110
Bảng 4.8: Kết quả thực hiện phân giải nhập nhằng của NOW trên tập dữ liệu với
“Georgia” và “Columbia”. ............................................................................. 111
Bảng 5.1: Thơng tin về sự xuất hiện của các tên trong tập dữ liệu De3 ............................ 126
Bảng 5.2: Thơng tin về sự xuất hiện của các tên trong tập dữ liệu De31 .......................... 127
Bảng 5.3: Độ chính xác và độ đầy đủ ánh xạ sau khi thực thi Giải thuật 5.1 trên tập dữ
liệu De32 .......................................................................................................... 128
Bảng 5.4: Độ chính xác và độ đầy đủ ánh xạ sau khi thực thi Giải thuật 5.1 trên tập dữ
liệu De31 .......................................................................................................... 129
ix
DANH MỤC CÁC HÌNH
Hình 1.1: Một mơ hình phân giải nhập nhằng tiêu biểu ................................................... 13
Hình 1.2: Một ví dụ của phân giải nhập nhằng thực thể cĩ tên ........................................ 15
Hình 2.1: Một số lớp xử lý của một ứng dụng rút trích thơng tin ..................................... 28
Hình 2.2: VN-KIM xử lý và chú thích các thực thể cĩ tên trên một trang web tiếng
Việt ................................................................................................................... 33
Hình 2.3: Chú thích ngữ nghĩa .......................................................................................... 33
Hình 2.4: RDF biểu diễn mối quan hệ giữa các thực thể trong cơ sở tri thức của VN-
KIM .................................................................................................................. 34
Hình 2.5: Một mơ hình xử lý của một động cơ rút trích thơng tin dựa trên GATE .......... 35
Hình 2.6: Một trang thực thể trong Wikipedia tiếng Việt ................................................. 38
Hình 2.7: Minh họa các mối liên kết giữa các trang trong Wikipedia .............................. 39
Hình 2.8: Minh họa hệ thống thể loại của Wikipedia ....................................................... 40
Hình 2.9: Một phần đồ thị các thể loại của thực thể Anna Maria Mozart ............... 41
Hình 2.10: Biểu diễn thực thể China trong Wikipedia tiếng Anh .................................... 41
Hình 2.11: Minh họa một phần trang phân giải nhập nhằng cho tên “John McCarthy” .... 42
Hình 2.12: Luật nhận biết tên người bằng tiếng Anh được viết đảo ngược của GATE ..... 49
Hình 2.13: Minh họa các chuỗi đồng tham chiếu ............................................................... 51
Hình 5.1: Minh họa các đặc trưng rút trích được từ một đoạn văn bản mẫu ................... 117
Hình 5.2: Một phần trang phân giải nhập nhằng của tên “Atlanta”. ................................ 120
x
DANH MỤC CÁC GIẢI THUẬT
Giải thuật 1.1: Phân giải nhập nhằng lặp cải thiện dần ...................................................... 19
Giải thuật 2.1: Phân giải đồng tham chiếu tên tiếng Việt .................................................. 57
Giải thuật 3.1: Phân giải nhập nhằng dựa trên ontology (OntoNEON) ............................. 79
Giải thuật 4.1: Phân hạng ứng viên dựa trên thống kê ....................................................... 99
Giải thuật 4.2: Phân giải nhập nhằng lặp cải thiện dần dựa trên thống kê (NOW) ......... 100
Giải thuật 4.3: Làm giàu thơng tin mơ tả một thực thể trong một ontology ङ ................ 109
Giải thuật 5.1: Phân giải nhập nhằng kết hợp heuristic và thống kê (WIN) .................... 124
xi
DANH MỤC THUẬT NGỮ VIẾT TẮT
Thuật Diễn giải tiếng Anh Diễn giải tiếng Việt
IE Information Extraction Rút trích thơng tin
IR Information Retrieval Truy hồi thơng tin
NLP Natural Language Processing Xử lý ngơn ngữ tự nhiên
NE Named Entity Thực thể cĩ tên
SW Semantic Web Web cĩ ngữ nghĩa
KB Knowledge Base Cơ sở tri thức
NER Named Entity Recognition Nhận dạng thực thể cĩ tên
NED Named Entity Disambiguation Phân giải nhập nhằng thực thể cĩ tên
WPS Web People Search Tìm kiếm con người trên Web
WSD Word Sense Disambiguation Phân giải nhập nhằng ngữ nghĩa từ vựng
TR Toponym Resolution Phân giải nhập nhằng các vùng địa lý
SVM Suport Vector Machine Máy véctơ hỗ trợ
MP Mapping-Precision Độ chính xác ánh xạ
MR Mapping-Recall Độ đầy đủ ánh xạ
MF Mapping-F-Measure Độ F ánh xạ
EN Entity Name Tên thực thể
LW Local Word Từ cục bộ
CW Coreferential Word Từ đồng tham chiếu
ID Identifier Định danh thực thể
ET Title of Entity page Nhan đề trang thực thể
RT Title of Redirect page Nhan đề trang đổi hướng
CL Category Label Nhãn thể loại
OL Outgoing link label Nhãn liên kết ra
IL Ingoing link label Nhãn liên kết vào
1
Chương 1
GIỚI THIỆU
1.1 Lịch sử và động cơ nghiên cứu
Internet ngày nay đã trở thành một trong những kênh lưu trữ và truyền tải thơng tin lớn
nhất của nhân loại. Sự ra đời và phát triển nhanh chĩng của World Wide Web (gọi tắt là
Web) đã tạo điều kiện thuận lợi cho việc phân phối và chia sẻ thơng tin trên Internet, do đĩ
dẫn đến bùng nổ thơng tin cả về số lượng, chất lượng và các chủ đề thơng tin trên đĩ. Tuy
nhiên, đa phần nội dung thơng tin trên các trang web đều được thể hiện dưới dạng ngơn
ngữ tự nhiên và được định dạng theo ngơn ngữ HTML, một ngơn ngữ thiếu khả năng diễn
đạt ngữ nghĩa về các khái niệm và các đối tượng được trình bày trong các trang web. Do
vậy, phần lớn nội dung thơng tin trên các trang web hiện nay chỉ phù hợp cho con người
đọc hiểu. Mục tiêu khai thác hiệu quả các nguồn thơng tin trên Web đã thúc đẩy sự phát
triển các ứng dụng xử lý văn bản tự động, trong đĩ các chủ đề nghiên cứu như Rút trích
thơng tin (Information Extraction – IE), Truy hồi thơng tin (Information Retrieval – IR),
Hỏi đáp (Question Answering), Dịch máy (Machine Translation), Tĩm lược văn bản (Text
Summarization), và Xử lý ngơn ngữ tự nhiên (Natural Language Processing - NLP) nĩi
chung, đã thu hút sự quan tâm của nhiều nhà nghiên cứu.
Để máy tính cĩ thể hiểu ngữ nghĩa của một văn bản, một tiếp cận hợp lý hiện nay là
thay vì cố gắng hiểu một cách đầy đủ ngữ nghĩa của văn bản, chúng ta rút trích các thực
thể và các khái niệm chính yếu xuất hiện trong đĩ dựa vào một nguồn tri thức về các thực
2 Chương 1.Giới thiệu
thể và khái niệm phổ biến trong thế giới thực, ví dụ như Wikipedia1. Từ các thực thể và
khái niệm rút trích được, các hệ thống khai thác dữ liệu cĩ thể được xây dựng để khai phá
các lớp tri thức mới, ví dụ như mối quan hệ giữa các thực thể, nhằm hướng đến hiểu đầy
đủ ngữ nghĩa của văn bản.
Trong hơn một thập niên qua, cũng nhằm hướng đến giúp máy tính hiểu ngữ nghĩa của
các văn bản, các chủ đề nghiên cứu lấy thực thể cĩ tên (Named Entity – NE) làm trung
tâm, như nhận biết và phân lớp các thực thể cĩ tên (Nadeau và Sekine, 2007), phân giải
nhập nhằng các thực thể cĩ tên (Bunescu và Paşca, 2006; Sarmento và CS2, 2009), rút trích
tự động quan hệ của các thực thể cĩ tên (Bunescu, 2007), . . . đã nhận được sự quan tâm
nghiên cứu rộng rãi. Thực thể cĩ tên là những thực thể cĩ thể được tham chiếu đến bằng
tên, như con người, tổ chức, nơi chốn; kể cả biểu thức thời gian, biểu thức số, giá trị tiền tệ
và phần trăm (Chinchor và Robinson, 1997). Những năm gần đây thực thể cĩ tên cũng đã
trở thành đối tượng chính yếu trong việc nghiên cứu phát triển Web cĩ ngữ nghĩa (Berners-
Lee và CS, 2001). Đĩ là bởi vì các thực thể cĩ tên rất phổ biến trên các trang web. Hơn
nữa, thơng tin và ngữ nghĩa được chuyển tải trong nội dung của nhiều trang web tập trung
xoay quanh các thực thể cĩ tên và các mối quan hệ ngữ nghĩa được diễn đạt tường minh
hoặc ngầm định giữa chúng.
Web cĩ ngữ nghĩa (Semantic Web – SW) là Web mà thơng tin trên đĩ khơng chỉ con
người mới cĩ thể đọc hiểu mà máy tính cũng cĩ thể hiểu và xử lý chúng một cách tự động.
Berners-Lee phác họa SW đầu tiên vào năm 1999 (Berners-Lee, 1999). Berners-Lee và CS
(2001) trong một bài báo trên Scientific American đã mơ tả một sự tiến hĩa từ Web của
các tài liệu (Web of documents) để con người đọc hiểu, sang Web của dữ liệu (Web of
data) mà thơng tin trên đĩ đã được bổ sung ngữ nghĩa để máy cĩ thể hiểu và thao tác.
Thật vậy, SW là một sự tiến hĩa mở rộng của Web hiện tại bằng cách cung cấp các cơ
chế để thêm dữ liệu mơ tả ngữ nghĩa (semantic metadata) về các thực thể và các khái niệm
trên các tài liệu web hiện tại, dưới dạng các chú thích ngữ nghĩa (semantic annotation), để
máy tính cĩ thể tích hợp và chia sẻ thơng tin và dữ liệu giữa các ứng dụng một cách tự
động. Trên tinh thần đĩ, xác định các thực thể cĩ tên trên các văn bản và thêm dữ liệu mơ
1
2 Chúng tơi dùng CS viết tắt cho cụm các cộng sự
1.1.Lịch sử và động cơ nghiên cứu 3
tả ngữ nghĩa về chúng trên chính các văn bản đĩ, sử dụng các ontology, hoặc các cơ sở tri
thức (knowledge base – KB), đĩng một vai trị quan trọng trong việc đạt được mục tiêu
phát triển web cĩ ngữ nghĩa.
Hướng đến việc hiện thực các ứng dụng web cĩ ngữ nghĩa, SemTag là một trong
những hệ thống đầu tiên thực hiện chú thích ngữ nghĩa cĩ qui mơ lớn cho các thực thể cĩ
tên trên các trang web (Dill và CS, 2003). Các tác giả của SemTag đã trình bày một ví dụ
cho thấy ý nghĩa của các chú thích ngữ nghĩa về các thực thể cĩ tên trong việc phát triển
các ứng dụng web cĩ ngữ nghĩa. Ví dụ câu “The Chicago Bulls announced yesterday that
Michael Jordan will . . .” xuất hiện với các chú thích ngữ nghĩa về các thực thể cĩ tên khi
Chicago Bulls và Michael Jordan được xác định chính xác dựa trên ontology của TAP
(Guha và McCool, 2003) như sau:
“The
Chicago Bullsannounced yesterday that <resource
ref=""> Michael Jor-
dan will...”
Trong đĩ chú thích <resource ref="
_Michael"> Michael Jordan ngụ ý rằng “Michael Jordan” trong câu trên đề
cập đến thực thể cĩ định danh (identifier) là
_Michael trong ontology của TAP. Dựa trên định danh này máy tính cĩ thể xác định Mi-
chael Jordan là vận động viên bĩng rổ người Mỹ, người sinh ngày 17 tháng 02 năm 1963
và đã về hưu. Một văn bản được bổ sung các chú thích ngữ nghĩa như thế sẽ cung cấp
nhiều thơng tin hơn về các thực thể và các khái niệm được đề cập trong đĩ, giúp máy tính
cĩ thể đọc hiểu một phần hoặc tồn bộ văn bản.
Hiện nay người ta mong muốn rằng các trang web sẽ được bổ sung các chú thích ngữ
nghĩa như thế để tạo tiền đề cho việc phát triển các ứng dụng web cĩ ngữ nghĩa, cũng như
phát triển nâng cao các ứng dụng trong mảng xử lý ngơn ngữ tự nhiên nĩi chung. Thật vậy,
cĩ thể hình dung một viễn cảnh là, một khi các trang web đã được bổ sung dữ liệu mơ tả
ngữ nghĩa về các thực thể và các khái niệm, với một truy vấn về thành phố “Sài Gịn” sẽ
nhận được các văn bản nĩi về Thành phố Sài Gịn và Thành phố HCM chứ khơng như các
động cơ tìm kiếm hiện hành là trả về bất kì văn bản nào chứa cụm từ “Sài Gịn” mặc dù
các văn bản đĩ cĩ thể đề cập đến Cơng ty Bánh kẹo Sài Gịn, Trường ĐHCN Sài Gịn,
người Sài Gịn, . . .
4 Chương 1.Giới thiệu
Trực quan cho thấy rằng các trang web được bổ sung dữ liệu mơ tả ngữ nghĩa như trên
chưa xuất hiện rộng rãi trên Web hiện tại. Để dữ liệu mơ tả đĩ luơn sẵn sàng trên Web, một
trong những cơng việc cần thiết là phải xác định đúng các thực thể cĩ tên xuất hiện trên đĩ.
Nhận dạng thực thể cĩ tên, được biết đến rộng rãi với tên Named Entity Recognition
(NER), là một cơng việc bước đầu hướng đến mục tiêu đĩ. Theo MUC-6 (Sixth Message
Understanding Conference – MUC-6, 1995), NER là nhận biết và phân lớp (hoặc xác định
thể loại) các thực thể cĩ tên (ví dụ: con người, tổ chức, nơi chốn), các biểu thức thời gian
(ví dụ: “02/04/2006”, “1-12-97”, “10h:20’”, . . .) và các biểu thức số (ví dụ: 45%, 15m,
25kg, . . .).
Trong hơn một thập niên qua đã cĩ nhiều nghiên cứu về nhận dạng thực thể cĩ tên
(Nadeau và Sekine, 2007). Một số nghiên cứu tập trung vào việc nhận biết và phân lớp các
NE vào các lớp ở mức cao như con người, tổ chức và nơi chốn (Bikel và CS, 1999; Tjong
Kim Sang, 2002; Tjong Kim Sang và De Meulder, 2003). Trong khi đĩ một số nghiên cứu
khác quan tâm việc nhận biết và phân lớp các thực thể vào các lớp mịn hơn, dựa trên một
hệ thống phân cấp gồm hàng trăm lớp thực thể (Cimiano và Vưlker, 2005; Nadeau, 2007).
Tuy nhiên, NER chỉ dừng lại ở việc xác định lớp của các thực thể, mà chưa xác định được
định danh cụ thể của các thực thể. Do đĩ, việc tiến một bước xa hơn nhằm xác định định
danh của các thực thể là thật sự cần thiết và cĩ ý nghĩa, như đã trình bày, trong việc thúc
đẩy sự phát triển Web cĩ ngữ nghĩa và xử lý ngơn ngữ tự nhiên nĩi chung. Luận án này
giải quyết bài tốn Phân giải nhập nhằng thực thể cĩ tên (Named Entity Disambiguation –
NED), nhằm vào mục tiêu đĩ.
Một thách thức lớn trong thực tế là, một thực thể cĩ thể cĩ nhiều tên. Ví dụ, “Ngân
hàng Thương mại Cổ phần Á Châu”, “Ngân hàng Á Châu” và “ACB” là các tên của cùng
một ngân hàng – Ngân hàng Thương mại Cổ phần Á Châu. Hơn nữa, các thực thể khác
nhau cĩ thể trùng tên. Ví dụ, tên “Võ Thị Sáu” cùng là tên của một con người (anh hùng
Võ Thị Sáu), một đường phố ở TP. HCM (đường Võ Thị Sáu), một trường trung học ở TP.
HCM (trường PTTH Võ Thị Sáu, Đinh Tiên Hồng, phường 3, quận Bình Thạnh, TP. Hồ
Chí Minh). Do đĩ, cùng một tên, nhưng trong các lần xuất hiện khác nhau, cĩ thể được
dùng để đề cập đến các thực thể khác nhau. Ví dụ, “John McCarthy” cĩ thể được dùng để
đề cập đến các thực thể khác nhau trong các ngữ cảnh khác nhau, như khoa học gia máy
tính người Mỹ – nhà phát minh ngơn ngữ lập trình Lisp – hoặc nhà báo người Anh, người
bị bắt cĩc bởi các phần tử Hồi giáo Jihad ở Li Băng năm 1986, hoặc nhà âm vị học người
1.1.Lịch sử và động cơ nghiên cứu 5
Mỹ – giáo sư ngơn ngữ học làm việc tại Đại học Massachusetts, Amherst. Hệ quả là, một
tên xuất hiện trong văn bản đồng thời là tên của nhiều thực thể trong thế giới thực sẽ tạo ra
sự nhập nhằng (ambiguity), và tên đĩ được gọi là tên nhập nhằng. Điều đĩ dẫn đến việc
xác định đúng các thực thể được đề cập đến trong một văn bản là thật sự khĩ khăn và thách
thức, và là nguyên nhân dẫn đến phân giải nhập nhằng thực thể cĩ tên đã và đang trở thành
một chủ đề nghiên cứu quan trọng trong việc phát triển các ứng dụng web cĩ ngữ nghĩa,
cũng như phát triển nâng cao các ứng dụng trong mảng xử lý ngơn ngữ tự nhiên nĩi chung.
Phân giải nhập nhằng thực thể cĩ tên trước hết là nhằm xác định liệu hai lần xuất hiện
của cùng một tên, hoặc các cách viết khác nhau của nĩ, trong các tài liệu khác nhau cĩ đề
cập đến cùng một thực thể hay hai thực thể khác nhau. Ví dụ, NED là xác định hai lần xuất
hiện của “John Smith” trên hai tài liệu khác nhau cùng đề cập đến một nguời hay đề cập
đến hai người khác nhau cĩ cùng tên “John Smith”. Một ví dụ khác là xác định “J. Smith”
và “John Smith” xuất hiện trong hai tài liệu khác nhau cĩ đề cập đến cùng một người hay
hai người khác nhau.
Cho đến nay, cĩ hai hướng nghiên cứu chính đối với NED (Sarmento và CS, 2009).
Hướng nghiên cứu thứ nhất xem NED như là bài tốn gom cụm (clustering - Cardie và
Wagstaff, 1999), trong đĩ mục tiêu là gom cụm các tên xuất hiện trong các tài liệu khác
nhau thành các cụm khác nhau dựa trên thơng tin rút trích từ chính các tài liệu, mỗi cụm
bao gồm các tên đề cập đến cùng một thực thể (Bagga và Baldwin, 1998b; Mann và Ya-
rowsky, 2003; Han và CS, 2004; Bekkerman và McCallum, 2005; Chen và Martin, 2007;
Mayfield và CS, 2009; Sarmento và CS, 2009). Bunescu (2007) xem hướng nghiên cứu
này giải quyết bài tốn Phân biệt các thực thể cĩ tên (Named Entity Discrimination). Ví
dụ, khi “John Smith” xuất hiện trong các tài liệu khác nhau, một phương pháp theo hướng
này xác định các xuất hiện nào của “John Smith” đề cập đến cùng một thực thể, rồi gom
thành một cụm. Một trường hợp đặc biệt của hướng nghiên cứu này là bài tốn Tìm kiếm
con người trên Web (Web People Search - WebPS), với mục tiêu là gom cụm các tài liệu
trong đĩ cĩ xuất hiện các tên đề cập đến cùng một người thay vì gom cụm chính các tên đĩ
(Artiles và CS, 2007; Artiles và CS, 2009).
Hướng nghiên cứu thứ hai xem NED như là bài tốn ánh xạ (mapping). Chúng tơi gọi
hướng nghiên cứu này theo đúng tên gọi Phân giải nhập nhằng thực thể cĩ tên, với mục
tiêu là ánh xạ một tên xuất hiện trong một văn bản vào một thực thể (đối tượng tham chiếu)
6 Chương 1.Giới thiệu
trong một nguồn tri thức (bên ngồi) nào đĩ với một định danh duy nhất. Hướng nghiên
cứu này khai thác các thơng tin khơng chỉ trên chính các tài liệu mà cịn dựa trên các nguồn
tri thức bên ngồi các tài liệu, ví dụ như Wikipedia, để thực hiện việc phân giải nhập
nhằng (Bunescu và Paşca, 2006; Cucerzan, 2007; Hassell và CS, 2006; Volz và CS, 2007;
Buscaldi và Rosso, 2008; Overell, 2009). Khái niệm bên ngồi này hiểu theo nghĩa là khai
thác tri thức và thơng tin khơng phải được rút trích trên chính các tài liệu. Ví dụ, khi “John
McCarthy” xuất hiện trong một văn bản (đề cập đến khoa học gia máy tính, người phát
minh ra ngơn ngữ lập trình LISP), một phương pháp theo hướng này (Cucerzan, 2007)
thực hiện việc ánh xạ “John McCarthy” vào đúng thực thể John McCarthy (com-
puter scientist) trong Wikipedia - thực thể được mơ tả bởi trang cĩ nhan đề “John
McCarthy (computer scientist)”. Luận án này nghiên cứu và đề xuất các phương pháp phân
giải nhập nhằng thực thể cĩ tên theo hướng tiếp cận thứ hai.
Một bài tốn liên quan với NED là Liên kết bản ghi (Record Linkage) trong các cơ sở
dữ liệu. Liên kết bản ghi là nhằm xác định các bản ghi trong cùng hoặc nhiều cơ sở dữ liệu
cĩ chứa thơng tin về cùng một thực thể hay khơng, và sau đĩ liên kết hoặc hợp nhất chúng
(Winkler, 2006; Elmagarmid và CS, 2007; Benjelloun và CS, 2009). Các phương pháp
được đề xuất cho bài tốn Liên kết bản ghi thực hiện việc so trùng các bản ghi bằng việc
tính tốn độ tương tự giữa các thuộc tính của các bản ghi. Các thuộc tính này được xác
định dựa trên lược đồ của các cơ sở dữ liệu. Bởi vì các lược đồ cơ sở dữ liệu cĩ cấu trúc,
nên cĩ thể dễ dàng xác định các thuộc tính của các bản ghi.
Trong khi đĩ, NED thực hiện việc phân giải nhập nhằng các thực thể trên các tài liệu
phi cấu trúc hoặc bán cấu trúc, trong đĩ thơng tin liên quan đến các thực thể đang được
xem xét thay đổi tùy theo tài liệu. Nĩi một cách khác, NED khác Liên kết bản ghi ở chỗ:
• Mặc dù khi một số thơng tin trên hai tài liệu là giống nhau, chúng ta vẫn chưa kết
luận được hai lần xuất hiện của cùng một tên trên hai tài liệu đĩ cĩ cùng đề cập đến
một thực thể hay khơng. Ví dụ, mặc dù khi trong cả hai tài liệu đều xuất hiện “John
McCarthy” và cùng đề cập John McCarthy là cơng dân Mỹ, chúng ta vẫn chưa thể
kết luận rằng hai lần xuất hiện của “John McCarthy” đề cập đến cùng một người.
• Các tài liệu khác nhau chứa nhiều kiểu thơng tin đa dạng, dẫn đến việc phân tích
ngữ cảnh để xác định các thực thể được đề cập đến trong tài liệu trở nên khĩ khăn.
Ví dụ, Georgia (đề cập đến quốc gia Gruzia) trong một tài liệu cĩ thể cùng xuất
1.1.Lịch sử và động cơ nghiên cứu 7
hiện với Tbilisi, nhưng trong tài liệu khác cĩ thể cùng xuất hiện với Zviad Gam-
sakhurdia (tổng thống dân cử đầu tiên của Gruzia).
NED cĩ thể được xem như là một trường hợp đặc biệt của bài tốn Phân giải nhập
nhằng ngữ nghĩa từ vựng (Word Sense Disambiguation – WSD, Ide và Véronis, 1998; Na-
vigli, 2009). Mục tiêu của WSD là nhằm xác định nghĩa nào của một từ vựng được sử
dụng trong một ngữ cảnh cụ thể, khi từ này cĩ nhiều nghĩa khác nhau. Các kỹ thuật phân
giải nhập nhằng sử dụng các từ điển hoặc ontology (WordNet3 là một ví dụ) như là các kho
ngữ nghĩa - định nghĩa các nghĩa cĩ thể của mỗi từ. Gần đây Mihalcea (2007) đã chứng tỏ
rằng Wikipedia cĩ thể được sử dụng như một nguồn tri thức thay thế cho các từ điển.
Theo chúng tơi, đặc thù của NED so với WSD là:
• Thực thể cĩ tên khác với các từ về bản chất và ý nghĩa. Trong khi các thực thể cĩ
tên, nĩi một cách nơm na, là các cá thể cụ thể trong thế giới thực, các từ diễn đạt
các khái niệm tổng quát như kiểu, thuộc tính, quan hệ. Xử lý các từ do đĩ chỉ yêu
cầu ngữ nghĩa từ vựng thơng thường, trong khi đĩ, xử lý các thực thể cĩ tên địi hỏi
tri thức về một lĩnh vực cụ thể.
• Việc phân giải nhập nhằng ngữ nghĩa của một từ cĩ thể dựa trên ngữ cảnh cục bộ
của từ đĩ, bao gồm các từ đồng xuất hiện xung quanh nĩ trong một cửa sổ hẹp
(thường là ba đến năm từ đứng trước và ba đến năm từ đứng sau nĩ). Trong khi đĩ,
mỗi thực thể cĩ tên đều cĩ các thuộc tính riêng biệt và các mối quan hệ, được phát
biểu tường minh hoặc khơng tường minh, với các thực thể khác đồng xuất hiện
trong cùng văn bản. Các tính chất của một thực thể cĩ thể xuất hiện ở một vị trí bất
kỳ trong văn bản, do đĩ, để phân giải nhập nhằng thực thể cĩ tên trong các văn bản
phi cấu trúc hoặc bán cấu trúc cần phải phân tích ngữ cảnh ở một bình diện rộng
hơn.
• Các phương pháp đề xuất cho WSD chủ yếu tập trung phân giải nhập nhằng ngữ
nghĩa của các từ vựng thơng thường (danh từ chung, động từ, tính từ), bỏ qua các
danh từ riêng (hay tên riêng). Trong khi chỉ tồn tại một số lượng nhỏ các nghĩa cĩ
3 (Miller, 1995)
8 Chương 1.Giới thiệu
thể của một từ vựng thơng thường, thực tế lại cho thấy rằng cĩ thể cĩ hàng trăm
thực thể trùng tên. Ví dụ, theo Guha và Garg (2004), từ dữ liệu của cục dân số Mỹ,
cĩ 90.000 tên được dùng để đặt tên cho 100 triệu người khác nhau.
Quay lại với hướng nghiên cứu thứ nhất đối với NED tức là phân biệt các thực thể cĩ
tên. Cơng trình đầu tiên theo hướng này là của Bagga và Baldwin (1998b). Từ đĩ cho đến
nay, đã cĩ nhiều nghiên cứu theo hướng này như Mann và Yarowsky (2003), Gooi và Al-
lan (2004), Malin (2005), Pedersen và CS (2005), Chen và Martin (2007), Mayfield và CS
(2009), Sarmento và CS (2009). WebPS cũng thu hút sự quan tâm nghiên cứu rộng rãi và
đã cĩ hai hội thảo được tổ chức vào các năm 2007 và 2009 là SemEval-2007 (Artiles và
CS, 2007) và WebPS-2009 (Artiles và CS, 2009). Nhìn chung, một phương pháp phân giải
nhập nhằng theo hướng này cĩ ba bước cơ bản như sau: (i) rút trích các đặc trưng (feature)
để tạo các hồ sơ về các thực thể được đề cập đến trong các văn bản; (ii) tính tốn độ tương
tự giữa các hồ sơ sử dụng một số độ đo tương tự, như cosine, sự phân kỳ Kullback-Leibler
(Kullback-Leibler Divergence); và (iii) áp dụng các giải thuật gom cụm để gom các tên
xuất hiện trong các tài liệu thành các nhĩm khác nhau, mỗi nhĩm bao gồm các tên cùng đề
cập đến một thực thể. Một vấn đề quan trọng mà các phương pháp này cần phải giải quyết
là thiết lập các điều kiện dừng (Pedersen và Kulkarni, 2006) cho các giải thuật gom cụm.
Bởi vì tổng số cụm là khơng biết trước, nên các điều kiện dừng là rất cần thiết để bảo đảm
các giải thuật gom cụm dừng với số cụm hợp lý nhất.
Luận án này theo đuổi các phương pháp phân giải nhập nhằng thực thể cĩ tên theo
hướng nghiên cứu thứ hai. Xuyên suốt phần cịn lại của luận án, khi đề cập đến NED,
chúng tơi ngầm định hướng nghiên cứu thứ hai đối với NED, cịn khi đề cập đến hướng
nghiên cứu thứ nhất chúng tơi sẽ nĩi rõ đĩ là bài tốn phân biệt các thực thể cĩ tên. Đối với
NED, mỗi tên xuất hiện trong một văn bản được ánh xạ vào một thực thể được mơ tả trong
một nguồn tri thức về các thực thể cĩ tên, do đĩ các điều kiện dừng như vừa được đề cập ở
đoạn trên là khơng cần thiết. Khi một tên trong một văn bản cần được phân giải nhập
nhằng, các thực thể trong một cơ sở tri thức mà cĩ tên trùng với nĩ được gọi là các thực
thể ứng viên (candidate entity), hay nĩi vắn tắt là các ứng viên.
Các nghiên cứu về NED thời kì đầu tập trung chủ yếu vào phân giải nhập nhằng các
vùng địa lý, và được biết đến rộng rãi với tên Toponym Resolution (TR). Mục tiêu của bài
tốn này là xác định liệu một tên trong một văn bản cĩ phải là tên của một nơi chốn hay
1.1.Lịch sử và động cơ nghiên cứu 9
khơng, sau đĩ ánh xạ tên này vào một tọa độ duy nhất trong một mơ hình khơng gian
(Leidner và CS, 2003) hoặc một định danh xác định duy nhất một vùng địa lý trong một cơ
sở tri thức về các vùng địa lý (Overell, 2009). Các nghiên cứu về phân giải nhập nhằng các
vùng địa lý bắt đầu từ những năm 90 của thế kỷ trước và phổ biến từ đầu thập niên này
(Leidner và CS, 2003; Li và CS, 2003; Zong và CS, 2005; Overell và Rüger, 2006; Volz và
CS, 2007; Andogah và CS, 2008; Buscaldi và Rosso, 2008; Overell và Rüger, 2008).
Các phương pháp phân giải nhập nhằng các vùng địa lý về cơ bản gồm cĩ hai bước.
Bước thứ nhất là thực hiện xác định các tên trong một văn bản đề cập đến một vùng địa lý
nào đĩ. Ví dụ, xác định liệu “Paris” trong một văn bản đề cập đến một vùng địa lý (ví dụ
như thủ đơ nước Pháp) hay một con người (ví dụ như Paris Hilton), vì trong thực tế “Par-
is”4 cĩ thể được dùng để đề cập đến nhiều thực thể thuộc nhiều thể loại khác nhau. Bước
thứ hai, sau khi đã xác định các tên nào trong văn bản đề cập đến các vùng địa lý, các
phương pháp này thực hiện một bước xa hơn là ánh xạ các tên đã được xác định vào đúng
thực thể trong một mơ hình khơng gian hoặc một cơ sở tri thức về các vùng địa lý. Ví dụ,
sau khi xác định “Paris” đề cập đến một vùng địa lý, các phương pháp này thực hiện một
bước xa hơn là quyết định ánh xạ “Paris” vào Paris thủ đơ nước Pháp, hay thành phố Paris
ở bang Texas, Mỹ, hoặc một vùng địa lý khác được mơ tả trong Wikipedia. Hai luận án
tiến sĩ gần đây của Leidner (2007) và Overell (2009) đã khái quát đầy đủ các phương pháp
phân giải nhập nhằng các vùng địa lý. Trong đĩ, phần lớn các phương pháp sử dụng các
heuristic.
Một khảo sát đầy đủ về các phương pháp sử dụng heuristic đến đầu năm 2007 được
trình bày trong Leidner (2007). Các phương pháp phân giải nhập nhằng sử dụng heuristic
hiệu quả nhất khai thác ngữ cảnh gồm ±2 đến ±5 từ xung quanh các tên nhập nhằng. Volz
và CS (2007), Buscaldi và Rosso (2008) cũng đề xuất các heuristic để phân giải nhập
nhằng. Các heuristic áp dụng cho phân giải nhập nhằng các vùng địa lý sử dụng các đặc
trưng mang tính đặc thù chỉ cĩ đối với các vùng địa lý, do vậy khĩ điều chỉnh cho các thực
thể thuộc thể loại khác, như con người hoặc các tổ chức. Garbin và Mani (2005) đề xuất
mơ hình học bán giám sát (semi-supervised learning) để phân giải nhập nhằng các vùng
địa lý. Phương pháp này phân lớp các vùng địa lý trong văn bản vào ba lớp là vùng hành
4 Kiểm tra tại:
10 Chương 1.Giới thiệu
chính/dân sự, thủ đơ của các quốc gia, và khu dân cư. Việc xác định đúng lớp trong nhiều
trường hợp chắc chắn giúp xác định đúng thực thể. Ví dụ như nếu biết rằng “Victoria” đề
cập đến một thành phố hoặc một tiểu bang sẽ đủ để phân biệt giữa thủ phủ của tỉnh British
Columbia của Canada, và tiểu bang Victoria của Australia. Tuy nhiên điều này khơng phải
luơn luơn đúng, như trong trường hợp “Paris”, “Paris” cĩ thể là tên của một số thành phố
thuộc các tiểu bang của Mỹ như thuộc các tiểu bang Idaho, Illinois, Kentucky, hoặc Maine.
Overell và Rüger (2008) khai thác Wikipedia để xây dựng mơ hình đồng xuất hiện, phục
vụ như là một tập huấn luyện, sau đĩ triển khai một mơ hình học cĩ giám sát (supervised
learning) để thực hiện phân giải nhập nhằng. Các tác giả khai thác ngữ cảnh bao gồm ±10
tên của các vùng địa lý xung quanh tên nhập nhằng đang được xem xét, khơng quan tâm
đến các từ khơng là một phần của các tên này.
SemTag (Dill và CS, 2003) thực hiện chú thích ngữ nghĩa về các thực thể cĩ tên
thuộc nhiều thể loại khác nhau cho 250 triệu trang web dựa trên ontology của TAP. Để chú
thích ngữ nghĩa chính xác, SemTag cũng bao hàm việc phân giải nhập nhằng các thực thể
cĩ tên. Với mỗi tên cần phân giải nhập nhằng, SemTag trích ngữ cảnh gồm ±10 từ xung
quanh nĩ, và so sánh với ngữ cảnh của các thực thể trong ontology của TAP để chọn thực
thể phù hợp cho việc tạo chú thích ngữ nghĩa. Tuy nhiên, bởi vì ưu tiên độ chính xác,
SemTag chỉ tạo ra 450 triệu chú thích ngữ nghĩa, trung bình chưa đến 2 chú thích cho một
trang web. Do đĩ, tỉ lệ các chú thích tạo ra trên một tài liệu là khơng nhiều. Hơn nữa,
khơng cĩ nhiều thực thể trong ontology của TAP cĩ cùng tên (Kyriakov và CS, 2005), cho
nên việc phân giải nhập nhằng của SemTag là khá đơn giản.
Từ năm 2006 bắt đầu xuất hiện các nghiên cứu phân giải nhập nhằng các thực thể cĩ
tên, khơng chỉ tập trung vào các thực thể là các nơi chốn, với mật độ chú thích ngữ nghĩa
cao hơn SemTag (Hassell và CS, 2006; Bunescu và Paşca, 2006; Cucerzan, 2007; Fernan-
dez và CS, 2007; Mihalcea và Csomai, 2007; Medelyan và CS, 2008; Milne và Witten,
2008; Fader và CS, 2009; Kulkarni và CS, 2009). Hassell và CS (2006) đề xuất phương
pháp nhận biết chính xác các ủy viên hội đồng phản biện trên các trang web hội nghị khoa
học. Phương pháp của Fernandez và CS (2007) nhận biết các thực thể cĩ tên trên các văn
bản trong lĩnh vực tin tức. Phương pháp này là bán tự động, bởi vì kết quả phân giải nhập
nhằng sẽ được hiển thị cho người sử dụng điều chỉnh kết quả nếu cần và cập nhật kết quả
đã được điều chỉnh vào một cơ sở dữ liệu suy diễn phục vụ như là một tập huấn luyện.
1.1.Lịch sử và động cơ nghiên cứu 11
Nổi lên gần đây như là một từ điển bách khoa trực tuyến lớn nhất và được sử dụng
rộng rãi nhất trên Internet, Wikipedia được khai thác để giải quyết nhiều bài tốn trong
mảng xử lý ngơn ngữ tự nhiên và xây dựng các ontology (Medelyan và CS, 2009). Chúng
tơi sẽ trình bày chi tiết Wikipedia trong Chương 2, tuy nhiên ở đây chúng tơi khái quát vài
nguồn thơng tin quan trọng trên đĩ mà một số phương pháp phân giải nhập nhằng đã khai
thác. Wikipedia là từ điển bách khoa trực tuyến nội dung mở, được đĩng gĩp bởi hàng
trăm nghìn tình nguyện viên. Thành phần cơ bản của Wikipedia là các trang (page hay ar-
ticle). Cĩ nhiều loại trang trên Wikipedia như trang thực thể (entity page), trang đổi hướng
(redirect page), trang phân giải nhập nhằng (disambiguation page), trang thể loại (catego-
ry page) . . .
Mỗi trang thực thể định nghĩa duy nhất một thực thể hoặc một khái niệm, và được xác
định duy nhất bởi nhan đề (title) của nĩ. Mỗi trang thực thể thuộc một hoặc nhiều thể loại,
và cĩ các trang đổi hướng tương ứng. Mỗi trang thực thể cũng cĩ nhiều liên kết vào (in-
coming link) và nhiều liên kết ra (outgoing link). Các trang thể loại được tạo cho các thể
loại trong hệ thống phân loại của Wikipedia. Mỗi trang đổi hướng chỉ chứa duy nhất một
liên kết đến trang thực thể tương ứng và nhan đề của nĩ chứa một tên khác của thực thể
này. Mỗi liên kết ra trỏ đến một trang khác trong Wikipedia, và nhãn của liên kết chính là
nhan đề của trang đĩ. Một số nghiên cứu xem các liên kết ra như các nhãn ngữ nghĩa, và
xem tập các trang thực thể trong Wikipedia như là một tập huấn luyện, với mỗi trang thực
thể là một tài liệu đã được gán nhãn (Mihalcea và Csomai, 2007; Milne và Witten, 2008).
Trang phân giải nhập nhằng được tạo cho các tên nhập nhằng trong Wikipedia. Từ các
trang này chúng ta cĩ thể xác định các thực thể cĩ cùng tên trong Wikipedia.
Từ năm 2006, Wikipedia đã được khai thác để phân giải nhập nhằng các thực thể cĩ
tên. Bunescu và Paşca (2006) khai thác các nguồn thơng tin nêu trên của Wikipedia để
phân giải nhập nhằng. Các véctơ đặc trưng của các thực thể trong Wikipedia được xây
dựng sử dụng các từ xuất hiện trong cửa sổ gồm 55 từ xung quanh mỗi tên thực thể. Cosine
được sử dụng để tính tốn độ tương tự và phân hạng các ứng viên. Nhiều trường hợp co-
sine cĩ giá trị quá thấp, nên ngữ cảnh được mở rộng bao gồm các từ xuất hiện trong nhãn
thể loại của các thực thể nhằm khai thác mối tương quan giữa các từ trong văn bản và các
nhãn thể loại (ví dụ: “concert” cĩ tương quan với nhãn của thể loại “Musicians” mạnh hơn
so với nhãn của thể loại “Professional Wrestlers”), sử dụng mơ hình máy véctơ hỗ trợ (Su-
port Vector Machine - SVM). Cucerzan (2007) cũng khai thác các nguồn thơng tin nêu trên
12 Chương 1.Giới thiệu
của Wikipedia như Bunescu và Paşca (2006). Thay vì phân giải nhập nhằng từng tên trong
văn bản, phương pháp của Cucerzan phân giải nhập nhằng cho tất cả các tên cùng lúc, dẫn
đến bài tốn tối ưu cùng lúc các ánh xạ, là một bài tốn NP-khĩ (NP-hard)(Kulkarni và CS,
2009; Pilz và CS, 2009).
Milhacea (2007) đã chứng tỏ rằng Wikipedia cĩ thể được sử dụng như là một kho ngữ
nghĩa cho việc phân giải nhập nhằng ngữ nghĩa từ vựng hiệu quả. Mihalcea và Csomai
(2007) đã hiện thực và đánh giá hai giải thuật phân giải nhập nhằng từ vựng khác nhau
nhằm ánh xạ các từ khĩa, bao gồm cả tên riêng, xuất hiện trong văn bản vào đúng các thực
thể hoặc các khái niệm trong Wikipedia. Các tác giả cho thấy mơ hình học cĩ giám sát,
trong đĩ các trang trong Wikipedia mà các từ khĩa xuất hiện trong đĩ đã được gán nhãn,
được sử dụng như là tập huấn luyện, cho hiệu quả tốt nhất. Medelyan và CS (2008) phát
triển phương pháp phân giải nhập nhằng các từ khĩa dựa trên mơ hình của Mihalcea và
Csomai, trong đĩ xác suất tiên nghiệm của các khái niệm trong Wikipedia và các từ khĩa
đã được phân giải nhập nhằng được khai thác để phân giải nhập nhằng. Với mỗi ứng viên,
số lượng trùng lắp giữa nhãn các liên kết ra của nĩ, và các từ khĩa đã được xác định trong
văn bản sẽ được tính tốn, sau đĩ nhân với xác suất tiên nghiệm của ứng viên. Ứng viên cĩ
tích số lớn nhất sẽ được chọn. Xác suất tiên nghiệm phản ánh mức độ phổ biến (thơng qua
tần suất xuất hiện) của một khái niệm trong tập huấn luyện, được tính tốn thơng qua tổng
số liên kết vào của chính khái niệm đĩ trên tổng số liên kết vào của tất cả các ứng viên.
Milne và Witten (2008) mở rộng nghiên cứu của Mihalcea và Csomai (2007) và Me-
delyan và CS (2008) bằng cách khai thác mối quan hệ ngữ nghĩa (semantic relatedness),
được tính tốn dựa trên các liên kết vào, của một từ khĩa với các từ khĩa đã được xác định
xuất hiện xung quanh nĩ. Ngồi ra, các tác giả cũng khai thác mức độ phổ biến như trong
Medelyan và CS (2008). Kulkarni và CS (2009) đề xuất phương pháp tương tự như Milne
và Witten (2008) với sự khác biệt là các tác giả tối ưu đồng thời các ánh xạ và giải bài tốn
NP-khĩ bằng hai phương pháp tối ưu là qui hoạch nguyên và chiến lược leo đồi. Phương
pháp của Fader và CS (2009) lấy ý tưởng từ Bunescu và Paşca (2006), Cucerzan (2007) và
Medelyan và CS (2008).
Hình 1.1 trình bày một mơ hình phân giải nhập nhằng phổ quát cho nhiều phương
pháp phân giải nhập nhằng. Trong đĩ phần nhận dạng thực thể cĩ tên cĩ thể chỉ dừng lại ở
việc xác định các cụm từ đề cập đến các thực thể trong một ontology, hoặc cĩ phân lớp các
thực thể vào các lớp ở mức cao như con người, tổ chức, nơi chốn, hoặc phân lớp các thực
1.1.Lịch sử và động cơ nghiên cứu 13
thể vào các lớp mịn hơn dựa trên hệ thống phân cấp các lớp của một ontology. Phần tiền
xử lý của nhận dạng thực thể cĩ tên khơng được thể hiện trong mơ hình. Mơ hình cho thấy
Nhận dạng thực thể cĩ tên và Phân giải đồng tham chiếu tên riêng là phần tiền xử lý của
Phân giải nhập nhằng thực thể cĩ tên.
Hình 1.1: Một mơ hình phân giải nhập nhằng phổ biến
Nhìn chung, NED mới nổi lên khoảng một thập niên trở lại đây như là một vấn đề đầy
thách thức và cĩ nhiều ý nghĩa trong nhiều ứng dụng xử lý ngơn ngữ tự nhiên, đặc biệt là
đối với các ứng dụng web cĩ ngữ nghĩa. Để cĩ thể đánh giá và so sánh các phương pháp
phân giải nhập nhằng khác nhau, cần cĩ một nền chung. Cụ thể là phần tiền xử lý, nguồn
tri thức được sử dụng, và tập dữ liệu dùng cho các thí nghiệm phải giống nhau. Tuy nhiên,
hiện nay chưa cĩ một tập dữ liệu thí nghiệm chung cĩ thể chia sẻ được, và các phương
pháp đã cơng bố đều triển khai các mơ hình tiền xử lý khác nhau. Do vậy, các cơng trình
nghiên cứu cho đến thời điểm hiện tại đều tạo các tập dữ liệu thí nghiệm riêng và việc so
sánh trực tiếp các phương pháp là khĩ thực hiện (Kulkarni và CS, 2009).
Chúng tơi bắt đầu cơng việc nghiên cứu về NED từ giữa năm 2006, và đến cuối năm
2006 đã đề xuất ý tưởng khai thác mối quan hệ ngữ nghĩa của các ứng viên với các thực
thể đã được xác định trong tài liệu để phân giải nhập nhằng các thực thể cĩ tên dựa trên
một ontology (Nguyen và Cao, 2007a). Ý tưởng này tiếp tục được phát triển trong Nguyen
Nguồn tri thức về các
thực thể cĩ tên (ontology
hoặc cơ sở tri thức)
Phân giải nhập nhằng
thực thể cĩ tên
Tài liệu thơ
Nhận dạng
thực thể cĩ tên
Phân giải đồng tham
chiếu tên riêng
Tiền xử lý Phân giải nhập nhằng
Tài liệu với các tên
(thực thể) đã được
chú giải
Luồng xử lý
Nguồn tri thức cung cấp thơng tin cho các mơđun xử lý
Các ánh xạ đến các thực thể trong nguồn tri thức
14 Chương 1.Giới thiệu
và Cao (2007b) và Nguyễn Thanh Hiên và Cao Hồng Trụ (2008). Đến giữa năm 2008,
Medelyan và CS (2008) phát triển ý tưởng tương tự, tức là cũng khai thác các thực thể đã
được xác định, áp dụng để phân giải nhập nhằng các từ khĩa (bao gồm tên riêng) xuất hiện
trong các văn bản sử dụng Wikipedia. Milne và Witten (2008) tiếp tục hồn thiện cơng
trình của Medelyan và CS (2008) bằng cách cải thiện cơng thức phân hạng các ứng viên,
và phân giải nhập nhằng sử dụng một mơ hình học cĩ giám sát. Kulkarni và CS (2009) cải
tiến cơng việc của Milne và Witten (2008) ở chỗ giải quyết bài tốn tối ưu đồng thời các
ánh xạ bằng cách giải quyết bài tốn NP-khĩ lần lượt bằng hai phương pháp tối ưu là qui
hoạch nguyên và chiến lược leo đồi.
Tương tự như chúng tơi, Medelyan và CS (2008) xem các thực thể đã được xác định
như là một tập các hạt giống, nhưng cĩ sự khác biệt là tập các hạt giống của chúng tơi thay
đổi tăng dần về số lượng theo diễn tiến của quá trình phân giải nhập nhằng, trong khi đĩ
tập các hạt giống trong các cơng trình vừa nêu ở trên thì cố định trong quá trình phân giải
nhập nhằng. Nĩi một cách khác, chúng tơi thực hiện phân giải nhập nhằng bằng một quá
trình lặp cải thiện dần (incremental), khởi đầu với một tập các hạt giống. Khi một tên cần
được phân giải nhập nhằng, các hạt giống sẽ được khai thác để xác định đúng thực thể mà
tên đĩ đề cập đến. Chính thực thể sau khi đã được xác định sẽ được bổ sung vào tập các
hạt giống để phân giải nhập nhằng cho các trường hợp cịn lại. Cứ thế, quá trình phân giải
nhập nhằng lặp đi lặp lại cho đến khi nào tất cả các thực thể được đề cập đến trong một văn
bản được xác định hoặc khi số thực thể được xác định sau mỗi lần lặp khơng thay đổi so
với lần lặp trước. Trong quá trình phân giải nhập nhằng đĩ, một hạt giống nào đĩ cĩ thể bị
thay thế bằng một đối tượng mới.
Như vậy, với việc đề xuất ý tưởng phân giải nhập nhằng theo một quá trình lặp cải
thiện dần, chúng tơi đã xác lập được một hướng đi riêng kể từ đầu năm 2007 (Nguyen và
Cao, 2007a). Ý tưởng này tiếp tục được phát triển trong các phương pháp phân giải nhập
nhằng dựa trên thống kê (Nguyen và Cao, 2010a, 2010b), và phương pháp lai – kết hợp
giữa một mơ hình thống kê và các heuristic (Nguyen và Cao, 2008b). Chúng tơi sẽ trình
bày chi tiết các phương pháp phân giải nhập nhằng được đề xuất trong luận án này lần lượt
trong Chương 3, Chương 4, và Chương 5.
1.2. Bài tốn và phạm vi 15
1.2 Bài tốn và phạm vi
Luận án này giải quyết bài tốn phân giải nhập nhằng thực thể cĩ tên bằng cách ánh xạ các
tên xuất hiện trong các văn bản vào đúng các thực thể đã biết, ví dụ như các thực thể trong
một ontology hoặc một cơ sở tri thức, mà các tên đĩ thật sự đề cập đến. Ví dụ, cho đoạn
văn bản “the computer scientist John McCarthy coined the term artificial intelligence in
the late 1950's”, ánh xạ đúng là “John McCarthy” với thực thể John McCarthy
(computer scientist) trong Wikipedia.
Hình 1.2 minh họa các ánh xạ từ mỗi tên xuất hiện trong một đoạn văn bản vào đúng
thực thể mà nĩ đề cập; trong đĩ các tên được gạch dưới.
Văn bản
Cơ sở tri thức
Thế giới thực
Hình 1.2: Một ví dụ của phân giải nhập nhằng thực thể cĩ tên
Brazilian legend Pele has made comments that are sure to generate
massive controversy in the footballing world, after he indicated that
Ronaldo and Robinho took drugs at a private event in Sao Paulo
with businessmen in the tourist sector. (goal.com)
• Ronaldinho
• Ronaldo • Robinho
• Cristiano Ronaldo
• Pele
• Sao Paulo
16 Chương 1.Giới thiệu
Wacholder và CS (1997) đã chỉ ra một số mức độ nhập nhằng về thực thể cĩ tên. Thứ
nhất là nhập nhằng giữa thực thể cĩ tên và các khái niệm chung, khi tên của một thực thể
cĩ tên trùng với một khái niệm chung. Ví dụ như “Apple” là tên của một tổ chức, khác với
“apple” (trong tiếng Anh) cĩ nghĩa là quả táo. Mức độ nhập nhằng thứ hai xảy ra khi cấu
trúc của các tên là nhập nhằng, và được gọi là nhập nhằng về cấu trúc. Ví dụ, “Victoria
and Albert Museum” trong một ngữ cảnh là tên của một bảo tàng, trong đĩ and là một
phần của tên này. Tuy nhiên, cũng cùng cấu trúc như vậy, and trong cụm từ “IBM and Bell
Laboratories” trong một văn bản tiếng Anh là liên từ nối tên của hai cơng ty khác nhau.
Mức độ nhập nhằng tiếp theo là nhập nhằng về lớp thực thể, khi một tên cĩ thể dùng để đề
cập đến các thực thể thuộc các lớp khác nhau trong các ngữ cảnh khác nhau. Ví dụ, “Tơn
Đức Thắng” trong một ngữ cảnh cĩ thể đề cập đến một con người, chẳng hạn như đề cập
đến Bác Tơn, nhưng trong ngữ cảnh khác cĩ thể đề cập đến một trường đại học (là một tổ
chức), chẳng hạn như đề cập đến Trường Đại học Tơn Đức Thắng. Cuối cùng là nhập
nhằng về đối tượng được tham chiếu, xảy ra khi một tên trong thực tế được dùng để đề cập
đến các thực thể khác nhau. Ví dụ, “Paris” cĩ thể dùng đề cập đến thủ đơ của nước Pháp,
một thành phố ở tiểu bang Texas của Mỹ hoặc cơ đào Paris Hilton nổi tiếng.
Luận án này đề xuất các phương pháp phân giải nhập nhằng mức độ lớp và đối tượng
được tham chiếu. Việc giải quyết các mức độ nhập nhằng cịn lại nằm ngồi phạm vi của
luận án. Chúng tơi khơng đề xuất giải pháp cho phần tiền xử lý (Nhận dạng thực thể cĩ tên
và Phân giải đồng tham chiếu tên riêng), mà sử dụng lại các phương pháp đã cĩ. Phương
pháp phân giải nhập nhằng của chúng tơi khơng khai thác các yếu tố mang tính đặc thù của
ngơn ngữ. Do đĩ, khi xử lý cho tiếng Anh, chúng tơi dùng các phần tiền xử lý áp dụng cho
tiếng Anh, và khi xử lý cho tiếng Việt, các phần tiền xử lý áp dụng cho tiếng Việt sẽ được
áp dụng. Như vậy, đầu vào cho phương pháp của chúng tơi là phụ thuộc ngơn ngữ, nhưng
quá trình phân giải nhập nhằng thì khơng phụ thuộc ngơn ngữ. Do vậy, phương pháp phân
giải nhập nhằng của chúng tơi cĩ thể điều chỉnh cho một ngơn ngữ bất kì. Khi áp dụng
phương pháp của chúng tơi cho ngơn ngữ nào, thì phần tiền xử lý cho ngơn ngữ đĩ sẽ được
triển khai. Phương pháp phân giải nhập nhằng của chúng tơi chấp nhận nhiễu ở đầu vào –
lỗi do phần tiền xử lý tạo ra. Luận án nghiên cứu phân giải nhập nhằng các thực thể cĩ tên
trong các văn bản phi cấu trúc, tập trung vào các văn bản thuộc lĩnh vực tin tức. Các tập dữ
liệu thí nghiệm được thu thập từ các tờ báo điện tử trực tuyến.
1.3.Phương pháp luận đề xuất 17
1.3 Phương pháp luận đề xuất
Luận án này đề xuất một phương pháp luận mới áp dụng cho phân giải nhập nhằng thực
thể cĩ tên. Ý tưởng chủ đạo của phương pháp luận này là dựa vào định danh của các thực
thể đã được xác định để phân giải nhập nhằng cho các trường hợp cịn lại bằng một quá
trình lặp cải thiện dần. Dựa trên phương pháp luận đĩ, chúng tơi đề xuất ba phương pháp
phân giải nhập nhằng thực thể cĩ tên. Phương pháp thứ nhất, đặt tên là OntoNEON, sử
dụng một số heuristic, khai thác mối quan hệ ngữ nghĩa giữa các ứng viên với các thực thể
đã được xác định trong văn bản, để phân giải nhập nhằng dựa trên một ontology. Phương
pháp thứ hai, đặt tên là NOW, sử dụng phương pháp thống kê để phân giải nhập nhằng dựa
trên một ontology được làm giàu. Phương pháp thứ ba, đặt tên là WIN, là một phương
pháp lai (hybrid), kết hợp việc sử dụng các heuristic với một mơ hình thống kê để phân
giải nhập nhằng dựa trên Wikipedia.
Trong phần này chúng tơi lần lượt trình bày mơ hình phân giải nhập nhằng lặp cải
thiện dần, các nguồn tri thức về thực thể, và các đặc trưng để biểu diễn thực thể mà luận án
đề xuất.
Mơ hình phân giải nhập nhằng
Ý tưởng chung của các phương pháp được đề xuất trong luận án này là tiến hành phân
giải nhập nhằng theo một quá trình lặp cải thiện dần, dựa trên phương pháp luận đã nêu ở
trên. Quá trình đĩ bao gồm nhiều vịng lặp, các thực thể sau khi được xác định tại mỗi
vịng lặp sẽ được sử dụng cho việc phân giải nhập nhằng ở các vịng lặp tiếp theo. Tức là
việc phân giải nhập nhằng cho mỗi trường hợp sẽ dựa vào định danh của các thực thể đã
được xác định trước đĩ. Mỗi thực thể sau khi được xác định, đến lượt mình, định danh của
nĩ, cùng với định danh của các thực thể đã được xác định trước nĩ, sẽ được dùng để phân
giải nhập nhằng cho những trường hợp cịn lại. Quá trình này sẽ diễn tiến cho đến khi nào
xác định được định danh của tất cả các thực thể được đề cập đến trong văn bản hoặc khi
giữa hai vịng lặp khơng cĩ thêm bất kì thực thể nào được xác định.
Với các ngơn ngữ, thứ tự đọc phổ biến nhất là từ trái sang phải và từ trên xuống dưới,
như với tiếng Anh và tiếng Việt. Do đĩ, một cách mặc định, các phương pháp của chúng
tơi thực hiện phân giải nhập nhằng cho các thực thể theo thứ tự này; ngoại trừ trường hợp
các tên xuất hiện trong phần tiêu đề của văn bản, bởi vì các tên này thường khơng phải là
18 Chương 1.Giới thiệu
tên thường dùng của thực thể được đề cập, nên được phân giải nhập nhằng sau các tên
khác. Nếu một ngơn ngữ nào cĩ thứ tự đọc khác, thì thứ tự phân giải sẽ được điều chỉnh
cho phù hợp.
Giải thuật 1.1 trình bày ý tưởng phân giải nhập nhằng lặp cải thiện dần. Đầu vào của
giải thuật được cung cấp từ phần tiền xử lý – mơ tả trong Hình 1.1; bao gồm danh sách các
tên và thơng tin bổ trợ về tên trích rút từ văn bản (các từ xuất hiện xung quanh các tên và
mối quan hệ đồng tham chiếu giữa chúng), và nguồn tri thức được sử dụng. Đầu ra là ánh
xạ các tên vào các thực thể trong nguồn tri thức đĩ. Trong phần thân của giải thuật, đầu
tiên là xây dựng tập các “hạt giống”, sau đĩ mới tiến hành phân giải. Mỗi hạt giống là một
sự kết hợp giữa một tên n trong văn bản và một thực thể e trong nguồn tri thức một khi n
đã được ánh xạ vào e; khi đĩ, thực thể mà n tham chiếu đến đã được xác định, khơng cịn
nhập nhằng nữa. Tập các hạt giống cĩ thể là tập rỗng hoặc là tập các kết hợp giữa một số
tên trong văn bản với các ứng viên duy nhất của chúng. Tùy theo phương pháp phân giải
nhập nhằng được đề xuất trong luận án mà tập các hạt giống được thiết lập phù hợp. Vịng
lặp ở dịng 3 kết thúc khi tất cả các tên trong văn bản đã được thiết lập các ánh xạ tương
ứng hoặc giữa hai vịng lặp khơng cĩ bất kì thực thể nào mới được xác định so với vịng
lặp trước.
Tại Dịng 6, Γ cho mỗi tên là tập các thực thể trong cơ sở tri thức cĩ tên trùng hồn
tồn với tên đĩ. Dịng 8 cho thấy ứng viên nào cĩ số điểm cao nhất sẽ được chọn để thực
hiện ánh xạ, trong đĩ score[i] là số điểm của ứng viên i. Việc cho điểm các ứng viên phụ
thuộc vào mơ hình phân hạng các ứng viên được triển khai, trong đĩ các thực thể đã được
xác định sẽ được khai thác. Trong luận án, chúng tơi đề xuất hai mơ hình phân hạng các
ứng viên; một mơ hình phân hạng các ứng viên dựa vào mối quan hệ ngữ nghĩa của mỗi
ứng viên với các thực thể đã được xác định xung quanh, và một mơ hình phân hạng các
ứng viên dựa trên thống kê. Chi tiết về các mơ hình phân hạng ứng viên sẽ được trình bày
trong Chương 3 và Chương 4.
Dịng 10 cho thấy các thực thể sau khi được xác định sẽ được bổ sung vào tập các hạt
giống. Hàm revised thực thi tại dịng 10 sẽ thực hiện điều chỉnh tập E dựa vào mối quan hệ
đồng tham chiếu của tên đang xét với các tên khác trong cùng văn bản. Ví dụ, giả sử
“George Bush” và “Bush” cùng xuất hiện trong một văn bản và là đồng tham chiếu,
“George Bush” là tên đang được xem xét để phân giải nhập nhằng, “Bush” trước đĩ đã
được ánh xạ vào một thực thể A nào đĩ. Nếu sau khi phân giải nhập nhằng “George Bush”
1.3.Phương pháp luận đề xuất 19
được ánh xạ vào một thực thể B, thì dựa vào mối quan hệ đồng tham chiếu giữa “George
Bush” và “Bush”, ánh xạ “Bush” vào A sẽ được điều chỉnh thành “Bush” ánh xạ vào B.
Giải thuật 1.1: Phân giải nhập nhằng lặp cải thiện dần
Đầu vào: Tập các tên घ, các thơng tin bổ trợ về các tên trong văn bản (các từ
xung quanh, quan hệ đồng tham chiếu), và nguồn tri thức được sử dụng.
Đầu ra: Ánh xạ các tên vào các thực thể trong nguồn tri thức.
1: E ← tập các hạt giống
2: flag ← false
3 : loop until घ rỗng hoặc flag = true
4: घ’ ← घ
5 : for each n ∈घ’ do
6: Г ← tập các ứng viên của n
7: if Г khơng rỗng then
8: γ* ← ][
∈
γscore
Γγ
maxarg
9: ánh xạ n vào γ*
10: E ← revised(E ∪ {}) /* hàm revised điều chỉnh tập E dựa trên
quan hệ đồng tham chiếu của n với các tên khác */
11: xĩa n khỏi घ
12: end if
13: end for
14: if tập E khơng thay đổi so với vịng lặp trước then flag = true
15: end loop
20 Chương 1.Giới thiệu
Nguồn tri thức
Mục tiêu của các phương pháp được đề xuất trong luận án là ánh xạ các tên trong văn
bản vào đúng thực thể trong một nguồn tri thức mà các tên đĩ đề cập đến. Do vậy, việc
khảo sát các nguồn tri thức khác nhau, chọn lựa nguồn tri thức phù hợp, và đề xuất cách
thức khai thác chúng nhằm phục vụ cơng việc phân giải nhập nhằng là thật sự cần thiết.
Hiện nay, cĩ nhiều nguồn tri thức sẵn cĩ trên Internet để khai thác cho việc phân giải nhập
nhằng, như Cyc (Lenat, 1995) hoặc Wikipedia. Các nguồn tri thức đĩ cĩ thể chia thành ba
nhĩm. Nhĩm thứ nhất là các nguồn tri thức được xây dựng thủ cơng bởi một nhĩm nhỏ các
chuyên gia, như WordNet hoặc ontology của KIM (Kiryakov và CS, 2005). Nội dung
thơng tin trong các nguồn tri thức này được đầu tư bài bản và kiểm duyệt kỹ lưỡng, do đĩ
cĩ độ tin cậy cao. Các nguồn tri thức đĩ mặc dù tốn nhiều thời gian và cơng sức để xây
dựng, nhưng giới hạn về kích thước và mức độ bao phủ các chủ đề thơng tin. Tần suất cập
nhật thơng tin trong các nguồn tri thức nhĩm thứ nhất cũng khơng cao. Lấy một ví dụ về
Cyc ontology, theo Matuszek và CS (2006), sau 22 năm xây dựng, Cyc ontology chỉ chứa
thơng tin mơ tả cho 250.000 thực thể và khái niệm5. Nhĩm thứ hai là các nguồn tri thức
được xây dựng tự động, ví dụ như YAGO (Suchanek và CS, 2007), DBpedia (Auer và CS,
2007). Các nguồn tri thức được phát triển tự động khơng tốn nhiều cơng sức, tuy nhiên
thơng tin được sinh tự động như thế cĩ độ tin cậy khơng sánh bằng với những thơng tin
được tạo bởi các chuyên gia. Nhĩm thứ ba là các nguồn tri thức nội dung mở, mọi người
đều cĩ thể tham gia đĩng gĩp nội dung thơng tin. Điển hình của nhĩm này là từ điển bách
khoa nội dung mở Wikipedia, từ điển được sử dụng rộng rãi nhất hiện nay trên Internet.
Các ontology cũng được chia thành ba nhĩm (Syed và CS, 2008). Nhĩm thứ nhất bao
gồm các ontology “đĩng và cứng” với một bộ từ vựng được kiểm sốt (controlled vocabu-
lary), được xây dựng bài bản bởi các chuyên gia, và thơng tin trong đĩ được kiểm duyệt kỹ
lưỡng với độ tin cậy cao, như ontology của KIM (Kiryakov và CS, 2005). Bộ từ vựng đĩ
được sử dụng để đề cập đến các khái niệm cĩ quan hệ thứ bậc dựa trên các ràng buộc chặt
chẽ. Nhĩm thứ hai bao gồm các ontology “mở” với bộ từ vựng được phát triển tự do,
khơng tuân thủ một thể thức cụ thể nào, ngoại trừ các thoả thuận mang tính cộng đồng
(nếu cĩ) xuất phát từ người dùng. Các ontology mở như thế cĩ hệ thống các khái niệm
5 Matuszek và CS gọi chung bằng thuật ngữ term
1.3.Phương pháp luận đề xuất 21
phẳng (khơng cĩ thứ bậc), được xây dựng dựa trên sự cộng tác bởi cộng đồng đơng đảo
các tình nguyện viên, cũng chính là cộng đồng người sử dụng. Nhĩm thứ ba bao gồm các
ontology “mở” cĩ những tính chất pha trộn giữa nhĩm thứ nhất và nhĩm thứ hai. Điển hình
cho nhĩm này là từ điển bách khoa Wikipedia. Hệ thống phân loại của Wikipedia vừa cĩ
thứ bậc, vừa là hệ thống mở, được xây dựng và phát triển bởi cộng đồng đơng đảo các tình
nguyện viên. Luận án này khai thác các ontology đĩng và Wikipedia như là các nguồn tri
thức để phân giải nhập nhằng các thực thể cĩ tên.
Wikipedia là kho tri thức đa ngơn ngữ lớn nhất hiện nay và đang lớn mạnh về cả số
lượng lẫn chất lượng. Nội dung của Wikipedia được tạo ra bởi hàng trăm nghìn tình
nguyện viên. Tính đến 31 tháng 10 năm 2009, Wikipedia cĩ hơn 14,4 triệu mục tin cho
269 ngơn ngữ khác nhau (Wikimedia, 2009); và mỗi mục tin chứa thơng tin mơ tả về một
thực thể hoặc một khái niệm. Theo Angwin và Fowler (2009), trang Wikipedia.org là trang
web phổ biến đứng thứ 5 trên thế giới, với hơn 325 triệu lượt truy cập hàng tháng. Các số
liệu vừa nêu cho thấy Wikipedia là từ điển bách khoa lớn nhất và được truy cập rộng rãi
nhất hiện nay.
Mặc dù được xây dựng từ cộng đồng đơng đảo các tình nguyện viên, nội dụng trên
Wikipedia lại cĩ chất lượng và độ tin cậy cao. Một nghiên cứu của Giles (2005) chứng
minh rằng các bài viết về khoa học trên Wikipedia đạt gần tới mức chính xác như các bài
viết với mục đích tương tự trên từ điển bách khoa tồn thư Britannica6 - bộ bách khoa tồn
thư tiếng Anh lâu đời nhất và được nhiều người cho là cĩ uy tín nhất. Kết quả nghiên cứu
cho thấy, tính bình quân, mỗi bài viết trên Wikipedia cĩ 3,86 lỗi (162 lỗi trên 42 bài viết),
so với mức 2,92 lỗi (123 lỗi trong 42 bài viết) trong mỗi bài viết trên Britannica. Chính vì
đạt được độ tin cậy khá cao như vậy cho nên cĩ rất nhiều nghiên cứu khai thác Wikipedia
để phát triển các ứng dụng trong các mảng truy hồi thơng tin, rút trích thơng tin, xây dựng
ontology, phân loại văn bản, và xử lý ngơn ngữ tự nhiên nĩi chung. Một khảo sát của Me-
delyan và CS (2009) minh chứng điều đĩ. Hơn nữa, Wikipedia khơng chỉ được sử dụng
rộng rãi như một từ điển mà cịn được khai thác như một cơ sở tri thức trong nhiều cơng
trình nghiên cứu về các hệ thống trí tuệ nhân tạo và thơng tin thơng minh7.
6
7 Tham khảo tại:
22 Chương 1.Giới thiệu
Đặc trưng
Để đạt được hiệu quả cao trong việc ánh xạ các tên trong một văn bản vào đúng thực
thể mà nĩ đề cập, một vấn đề quan trọng được đặt ra là ngữ cảnh của văn bản được khai
thác như thế nào và các đặc trưng nào được rút trích để biểu diễn các thực thể được đề cập
đến trong văn bản, cũng như các thực thể trong nguồn tri thức được sử dụng. Luận án này
chủ trương khai thác các đặc trưng diễn đạt các tính chất (property) của các thực thể. Tính
chất của các thực thể được thể hiện qua các thuộc tính (ví dụ: họ tên, ngày sinh, nghề
nghiệp, sở thích, . . .) và mối quan hệ của chúng (ví dụ: Hillary Rodham Clinton là_vợ_của
Bill Clinton, Việt Nam cĩ_thủ_đơ_là Hà Nội, Texas là_tiểu_bang_của Mỹ, . . .).
Chúng tơi tập trung vào các văn bản trong lĩnh vực tin tức, ở đĩ NE xuất hiện rộng
khắp và đĩng một vai trị quan trọng trong việc hiểu ngữ nghĩa của văn bản. Trong lĩnh
vực này, các văn bản thường được tổ chức theo cấu trúc kim tự tháp và bao gồm ba phần
chính đĩ là phần tiêu đề (headline), phần đầu (the lead) và phần thân (body). Theo đĩ, tầm
quan trọng của thơng tin sẽ giảm dần khi văn bản được phát triển theo chiều từ trên xuống.
Thơng thường các phần văn bản trong một bản tin sẽ cố gắng trả lời hầu hết các câu hỏi
trong chuỗi các câu hỏi cơ bản 5’W (what, where, when, who và why) và H (how)8. Phần
tiêu đề cho biết văn bản đề cập đến vấn đề gì. Tiêu đề nằm ở trên cùng của văn bản, thu hút
sự quan tâm của người đọc và liên quan chặt chẽ với chủ đề của bản tin tương ứng. Phần
đầu là phần tĩm tắt và thường là câu đầu tiên của văn bản. Sau khi đọc phần đầu, người
đọc nhiều khả năng sẽ nắm bắt được nội dung chính yếu của bản tin. Phần thân triển khai
chi tiết nội dung bản tin.
Trong các văn bản, các thực thể đồng xuất hiện thường cĩ mối liên hệ với nhau. Mối
liên hệ đĩ cĩ thể được phát biểu tường minh hoặc khơng tường minh trong văn bản. Hơn
nữa, định danh của một thực thể cĩ thể được xác định nhờ vào các thực thể bên cạnh và
các thực thể đã được xác định trước đĩ. Ví dụ, khi “Atlanta” xuất hiện bên cạnh “Georgia”,
“Georgia” nhiều khả năng là đề cập đến tiểu bang Georgia của Mỹ hơn là đề cập đến quốc
gia Gruzia. Trong khi đĩ nếu “Georgia” xuất hiện cùng với “Tbilisi”, như trong“TBILISI
(CNN) -- Most Russian troops have withdrawn from eastern and western Georgia”, thì
chính “Tbilisi” giúp xác định “Georgia” đề cập đến quốc gia nằm kế nước Nga. Trực quan
8
1.3.Phương pháp luận đề xuất 23
cũng cho thấy rằng, các từ xuất hiện xung quanh các tên thực thể nhiều khả năng sẽ diễn
đạt các thuộc tính của các thực thể mà chúng đề cập đến. Nếu định vị và rút trích được các
từ này, tên nhập nhằng nhiều khả năng sẽ được phân giải chính xác. Ví dụ, trong đoạn văn
bản “John McCarthy, 'great man' of computer science, wins major award”, cụm từ “com-
puter science” giúp phân biệt John McCarthy được đề cập là giáo sư làm việc tại Stanford
University thay vì trọng tài John McCarthy (làm việc tại Ultimate Fighting Championship,
Mỹ), hoặc nhà âm vị học người Mỹ (giáo sư ngơn ngữ học làm việc tại Đại học Massachu-
setts, Amherst).
Khi phân tích các văn bản, chúng tơi quan sát thấy rằng, lần đầu tiên đề cập đến một
thực thể, thơng thường các tác giả giới thiệu thực thể đĩ theo một cách tường minh hoặc
khơng tường minh sao cho khơng gây ra nhập nhằng cho người đọc, bằng cách sử dụng tên
thường dùng của nĩ hoặc chuyển tải thêm thơng tin bên cạnh để người đọc hiểu đĩ là thực
thể nào. Ví dụ, trong bản tin cĩ tiêu đề “U.S. on Palestinian government: Hamas is sticking
point” trên CNN (ngày 04 tháng 03 năm 2009) cĩ phần đầu “JERUSALEM (CNN) -- U.S.
Secretary of State Hillary Clinton on Tuesday ruled out working with any Palestinian unity
government that includes Hamas if Hamas does not agree to recognize Israel”, tác giả đề
cập đến ngoại trưởng của Mỹ một cách rõ ràng bằng cụm từ “U.S. Secretary of State Hil-
lary Clinton”. Sau đĩ trong phần thân của bản tin tác giả viết “Clinton said Hamas must do
what the Palestine Liberation Organization has done”, trong đĩ “Clinton” đề cập đến
ngoại trưởng Mỹ, mà khơng cần thêm thơng tin để phân biệt với cựu tổng thống Mỹ Bill
Clinton. Tuy nhiên, với các thực thể là các vùng địa lý được biết đến rộng rãi, thậm chí nếu
tên của nĩ là nhập nhằng, tác giả các văn bản thường đặt các tên đĩ đứng một mình. Trong
khi đĩ, đối với các vùng địa lý ít phổ biến hơn, nĩ thường đứng cạnh các thực thể cĩ liên
quan. Ví dụ, khi sử dụng “Oxford” để đề cập đến một thành phố ở tiểu bang Mississippi
của nước Mỹ, một tác giả cĩ thể viết “Oxford, Mississippi”, ngược lại, khi dùng nĩ để đề
cập đến thành phố Oxford ở vùng đơng nam nước Anh, tác giả đĩ chỉ viết “Oxford”.
Từ những phân tích nêu trên, chúng tơi quyết định dựa vào các thực thể đồng xuất
hiện và các từ xuất hiện xung quanh các tên để rút trích các đặc trưng biểu diễn cho các
thực thể mà chúng đề cập (nĩi khác đi là để biểu diễn các tên này). Cụ thể là, khi xem xét
phân giải nhập nhằng cho một tên cụ thể trong văn bản, các đặc trưng được khai thác là
định danh của các thực thể đã được xác định, các tên xuất hiện trong tồn bộ văn bản, các
24 Chương 1.Giới thiệu
từ cùng với các cụm từ xuất hiện xung quanh tên đang xét và xung quanh các tên là đồng
tham chiếu với tên đang xét. Đối với các thực thể trong một ontology đĩng, chúng tơi dựa
vào các tính chất của chúng, được định nghĩa bởi ontology, để trích các đặc trưng. Đối với
các thực thể trong Wikipedia, chúng tơi khai thác nhan đề các trang thực thể, nhan đề các
trang đổi hướng, thể loại, các liên kết vào và liên kết ra của các thực thể đĩ để trích các đặc
trưng. Qua phân tích các văn bản, chúng tơi nhận thấy rằng vị trí xuất hiện và chiều dài của
các tên, cùng với tên thường dùng của các thực thể cũng là các thơng tin quan trọng, giúp
xác định đúng thực thể đang được đề cập. Luận án này khai thác các thơng tin vừa nêu để
phân giải nhập nhằng. Chúng tơi trình bày chi tiết các cách mà các đặc trưng được sử dụng
để phân giải nhập nhằng các thực thể cĩ tên lần lượt trong Chương 3, Chương 4, và
Chương 5.
1.4 Những đĩng gĩp chính của luận án
Sau đây là những đĩng gĩp chính của luận án này.
1. Đề xuất phương pháp luận phân giải nhập nhằng lặp cải thiện dần. Theo đĩ quá
trình phân giải nhập nhằng gồm nhiều vịng lặp. Tại mỗi vịng lặp, định danh của
các thực thể đã được xác định sẽ được sử dụng để phân giải nhập nhằng cho các
trường hợp cịn lại. Như vậy, một thực thể sau khi được xác định, định danh của nĩ,
cùng với định danh của các thực thể đã được xác định trước nĩ, sẽ được dùng để
phân giải nhập nhằng cho những trường hợp cịn lại. Quá trình này sẽ diễn tiến cho
đến khi nào xác định được định danh của tất cả các thực thể được đề cập đến trong
văn bản hoặc giữa hai lần lặp khơng cĩ thêm một ánh xạ mới nào được thực hiện.
Cho đến thời điểm hiện tại, theo sự hiểu biết của chúng tơi, đây là đề xuất đầu tiên
và duy nhất về phân giải nhập nhằng các thực thể cĩ tên theo một quá trình lặp cải
thiện dần.
2. Đề xuất phương pháp phân hạng các thực thể ứng viên dựa trên một ontology. Các
ứng viên của một tên nhập nhằng sẽ được phân hạng dựa vào các mối quan hệ ngữ
nghĩa của chúng với các thực thể đã được xác định xung quanh tên đĩ. Việc cĩ hay
khơng cĩ mối quan hệ giữa hai thực thể được xác định dựa trên một ontology cụ
thể. Theo hiểu biết của chúng tơi, khi được xuất bản, phương pháp phân hạng các
1.4.Những đĩng gĩp chính của luận án 25
ứng viên của chúng tơi là phương pháp đầu tiên khai thác các mối quan hệ ngữ
nghĩa giữa các thực thể trong một ontology để phân giải nhập nhằng thực thể cĩ
tên.
3. Đề xuất một mơ hình phân hạng các ứng viên dựa trên thống kê. Các đặc trưng sẽ
được rút trích để hình thành nên các hồ sơ về các thực thể ứng viên từ một nguồn
tri thức. Với một tên cần phân giải nhập nhằng, các đặc trưng trên văn bản sẽ được
rút trích để hình thành hồ sơ về thực thể được đề cập. Sau đĩ các ứng viên sẽ được
phân hạng dựa vào độ tương tự giữa hồ sơ của chúng với hồ sơ của thực thể được
đề cập trong văn bản. Chúng tơi sử dụng mơ hình phân hạng này để khai phá các
đặc trưng, rút trích từ văn bản, một ontology và Wikipedia, bằng cách đánh giá các
kết hợp khác nhau giữa chúng, và phân tích cho thấy rằng các đặc trưng nào là thực
sự cĩ ý nghĩa đối với việc phân giải nhập nhằng. Các đặc trưng tốt nhất từ Wikipe-
dia sẽ được sử dụng để làm giàu thơng tin mơ tả về các thực thể trong một ontology
khác. Sau đĩ, mơ hình phân hạng này cũng được triển khai để phân giải nhập nhằng
dựa trên ontology đã được làm giàu. Trong mơ hình phân hạng các ứng viên dựa
trên thống kê chúng tơi khai thác các đặc trưng hồn tồn mới so với các nghiên
cứu trước là các từ xuất hiện xung quanh các tên đồng tham chiếu với tên đang xét.
Hơn nữa, việc khai phá và đánh giá các kết hợp khác nhau giữa các đặc trưng trích
từ văn bản và trích từ một ontology cũng chưa được các nghiên cứu trước đề cập
đến.
4. Đề xuất một mơ hình lai, kết hợp các heuristic và một mơ hình thống kê, để thực
hiện việc phân giải nhập nhằng sử dụng Wikipedia. Việc phân giải nhập nhằng
được thực hiện bằng hai giai đoạn. Giai đoạn thứ nhất sử dụng các heuristic để thu
giảm các ứng viên, và chọn đúng thực thể nếu cĩ thể, bằng một quá trình lặp cải
thiện dần. Giai đoạn hai triển khai một mơ hình phân hạng các ứng viên dựa trên
thống kê để phân giải nhập nhằng cho các trường hợp cịn lại. Quá trình phân giải
nhập nhằng trong giai đoạn hai cũng là lặp cải thiện dần. Ý tưởng kết hợp các heu-
ristic và một mơ hình thống kê để phân giải nhập nhằng các thực thể cĩ tên bằng
các quá trình lặp cải thiện dần được chúng tơi đề xuất là đầu tiên và duy nhất cho
đến thời điểm hiện tại.
26 Chương 1.Giới thiệu
5. Đề xuất các độ đo mới, để đánh giá hiệu quả phân giải nhập nhằng, phù hợp cả cho
các trường hợp khi mà các tên trong văn bản được nhận ra bán phần, và các thực
thể được đề cập khơng tồn tại trong nguồn tri thức sử dụng. Các cơng trình khác
khơng xem xét đến các trường hợp này.
1.5 Cấu trúc của luận án
Mục tiêu của chương này là giới thiệu lịch sử và động cơ nghiên cứu, phát biểu bài tốn,
khái quát các phương pháp, trình bày một phương pháp luận hồn tồn mới mà luận án đề
xuất áp dụng để phân giải nhập nhằng thực thể cĩ tên và nêu các đĩng gĩp chính của luận
án. Các chương cịn lại được tổ chức như sau.
Chương 2 – Nền tảng kiến thức
Chương này trình bày các kiến thức nền tảng được sử dụng trong luận án. Trước tiên
chúng tơi trình bày khái niệm ontology, giới thiệu sơ lược về hệ thống KIM, hệ thống VN-
KIM và các ontology của các hệ thống này. Tiếp theo chúng tơi giới thiệu cấu trúc của
Wikipedia, các nguồn thơng tin trên Wikipedia mà chúng tơi khai thác để thực hiện việc
phân giải nhập nhằng. Sau đĩ, chúng tơi giới thiệu hai cơng việc thuộc phần tiền xử lý của
bài tốn NED là nhận dạng thực thể cĩ tên và phân giải đồng tham chiếu tên riêng. Cuối
cùng chúng tơi khảo sát các phương pháp luận và phương pháp giải quyết bài tốn NED
trong các nghiên cứu về NED cho đến thời điểm hiện tại, trong đĩ phân tích những điểm
tương phản và những điểm mới nổi bật của luận án so với các nghiên cứu đĩ.
Chương 3 – Phân giải nhập nhằng dựa trên ontology
Chương này giới thiệu phương pháp phân hạng các ứng viên dựa trên một ontology
mà luận án đề xuất. Với mỗi tên cần phân giải nhập nhằng, phương pháp này dựa vào mối
quan hệ ngữ nghĩa của mỗi thực thể ứng viên với các thực thể khác đã được xác định để
phân hạng các ứng viên, ứng viên cĩ hạng cao nhất sẽ được chọn như là thực thể đúng.
Mối quan hệ đồng tham chiếu giữa các tên xuất hiện trong cùng văn bản cũng được khai
thác để phân giải nhập nhằng. Trong chương này chúng tơi cũng trình bày các độ đo mới
để đánh giá hiệu quả của các phương pháp phân giải nhập nhằng. Các độ đo mới này phù
hợp cả cho các trường hợp khi mà các tên trong văn bản được nhận ra bán phần, và các
thực thể được đề cập khơng tồn tại trong ontology hoặc cơ sở tri thức được sử dụng. Các
1.5.Cấu trúc của luận án 27
tập dữ liệu thí nghiệm, và các kết quả đánh giá phương pháp phân hạng các ứng viên dựa
trên ontology, sử dụng ontology của KIM trên tập dữ liệu tiếng Anh, và ontology của VN-
KIM trên tập dữ liệu tiếng Việt, cũng được trình bày. Nội dung của chương này dựa trên
Nguyen và Cao (2007a), Nguyen và Cao (2007b), và Nguyễn Thanh Hiên và Cao Hồng
Trụ (2008).
Chương 4 – Phân giải nhập nhằng dựa trên ontology được làm giàu
Chương này trình bày một mơ hình phân hạng các thực thể ứng viên dựa trên thống kê
mà luận án nghiên cứu và đề xuất. Chúng tơi khai phá và đánh giá các đặc trưng rút trích từ
văn bản và từ Wikipedia, bằng cách kết hợp chúng theo nhiều cách khác nhau, và chọn lựa
các đặc trưng cho kết quả phân giải nhập nhằng tốt nhất. Các đặc trưng trích từ Wikipedia,
được xem là gĩp phần quan trọng vào việc nâng cao hiệu quả phân giải nhập nhằng, sẽ
được sử dụng để làm giàu thơng tin mơ tả về các thực thể trong một ontology khác. Sau đĩ,
mơ hình phân hạng các thực thể ứng viên dựa trên thống kê được triển khai để ánh xạ lần
lượt mỗi tên trong một văn bản vào đúng thực thể mà nĩ đề cập đến trong ontology đã
được làm giàu. Chúng tơi cũng trình bày tập dữ liệu thí nghiệm, các kết quả đánh giá
phương pháp phân giải nhập nhằng dựa trên ontology của KIM được làm giàu bởi
Wikipedia. Nội dung chương này dựa trên Nguyen và Cao (2008a), Nguyen và Cao
(2010a), Nguyen và Cao (2010b), Nguyễn Thanh Hiên và Cao Hồng Trụ (2010).
Chương 5 – Phân giải nhập nhằng dựa trên Wikipedia
Chương này trình bày phương pháp lai để phân giải nhập nhằng dựa trên Wikipedia
mà chúng tơi nghiên cứu và đề xuất trong luận án. Trong đĩ Wikipedia vừa được sử dụng
như là một nguồn cung cấp các đặc trưng phục vụ việc phân giải nhập nhằng, vừa là nguồn
thực thể ứng viên mà phương pháp này ánh xạ lần lượt mỗi tên xuất hiện trong một văn
bản vào. Quá trình phân giải nhập nhằng gồm hai giai đoạn, một giai đoạn dùng heuristic
và một giai đoạn dùng thống kê. Mỗi giai đoạn đều lặp cải thiện dần. Tập dữ liệu thí
nghiệm và các kết quả đánh giá cũng được chúng tơi trình bày. Nội dung chương này dựa
trên Nguyen và Cao (2008b).
Chương 6 – Tổng kết
Chương này tĩm lược nội dung của luận án, các đĩng gĩp của luận án, và đề nghị các
hướng nghiên cứu trong tương lai dựa trên các kết quả đạt được.
28
Chương 2
NỀN TẢNG KIẾN THỨC
2.1 Giới thiệu
Phân giải nhập nhằng thực thể cĩ tên đĩng vai trị quan trọng trong nhiều ứng dụng khác
nhau như đã được trình bày trong Phần 1.1. Trong luận án này, chúng tơi trình bày phân
giải nhập nhằng thực thể cĩ tên trong ngữ cảnh của một ứng dụng rút trích thơng tin. Rút
trích thơng tin là cơng việc phân tích các nguồn dữ liệu phi cấu trúc hoặc bán cấu trúc để tự
động rút trích các thơng tin cĩ cấu trúc như các thực thể, mối quan hệ giữa các thực thể,
thuộc tính mơ tả các thực thể (Sarawagi, 2008).
Hình 2.1: Một số lớp xử lý của một ứng dụng rút trích thơng tin
Các lớp xử lý
Tách câu
Gán nhãn từ loại
Tách token
Nhận dạng thực thể cĩ tên
Phân giải đồng tham chiếu
Phân giải nhập nhằng thực thể cĩ tên
MUC
CoNLL
ACE
ACE, MUC
Tổ chức đánh giá
2.2.Ontology 29
Trong hai thập niên qua, phạm vi của rút trích thơng tin chịu sự tác động chính bởi
chuỗi các hội nghị Message Understanding Conference – MUC (Sundheim, 1991;
Grishman và Sundheim, 1996; Chinchor, 1998) và ACE (Doddington và CS 2004; NIST
2008). Hình 2.1 trình bày một số lớp xử lý của một ứng dụng rút trích thơng tin, trong đĩ
phân giải nhập nhằng là một lớp đắp thêm vào sau nhận dạng thực thể cĩ tên và phân giải
đồng tham chiếu. Nhận dạng thực thể cĩ tên và phân giải đồng tham chiếu được xem như
là phần tiền xử lý của phân giải nhập nhằng thực thể cĩ tên.
Trong chương này, chúng tơi trình bày những kiến thức cơ bản được sử dụng trong
luận án. Phần 2.2 trình bày khái niệm ontology. Phần 2.3 trình bày cấu trúc của Wikipedia,
các nguồn thơng tin trong đĩ mà chúng tơi rút trích để phân giải nhập nhằng. Phần 2.4
trình bày cơ bản về mơ hình khơng gian véctơ. Phần 2.5 trình bày vấn đề nhận dạng thực
thể cĩ tên, tổng quan về các phương pháp giải quyết vấn đề này, và các độ đo dùng để
đánh giá hiệu quả của các hệ thống nhận dạng thực thể cĩ tên. Phần 2.6 trình bày cơ bản về
phân giải đồng tham chiếu tên riêng và phương pháp phân giải đồng tham chiếu tên riêng
áp dụng cho tiếng Việt. Phần 2.7 trình bày tổng quan các phương pháp phân giải nhập
nhằng cho đến thời điểm hiện tại. Cuối cùng Phần 2.8 tĩm lược những vấn đề đã được
trình bày trong chương này.
2.2 Ontology
Thuật ngữ ontology bắt nguồn từ triết học. Trong ngữ cảnh của triết học, ontology là tên
của một mảng nghiên cứu về bản chất của sự tồn tại vạn vật trong tự nhiên, một nhánh của
siêu hình học, quan tâm xác định các loại sự vật nào là thật sự tồn tại và bằng cách nào mơ
tả chúng. Chẳng hạn như quan sát thế giới thực được hình thành từ những sự vật cụ thể mà
cĩ thể nhĩm chúng thành các lớp trừu tượng dựa trên các tính chất chung của chúng
(Antoniou và Van Harmelen, 2004). Những năm gần đây, ontology được biết đến rộng rãi
trong lĩnh vực khoa học máy tính. Cùng với sự nổi lên của Web cĩ ngữ nghĩa, ontology
vừa được xem là “linh hồn” của Web cĩ ngữ nghĩa, vừa mang một ý nghĩa khác xa so với
nghĩa ban đầu của nĩ. Thật vậy, một định nghĩa của các ontology được chấp nhận rộng rãi
trong cộng đồng khoa học máy tính hiện nay là: “một ontology là đặc tả của một sự khái
niệm hĩa” (Gruber, 1995; Guarino, 1998). Một “sự khái niệm hĩa” (conceptualization) là
một gĩc nhìn đơn giản hĩa về thế giới (world) mà ta mong muốn biểu diễn nhằm một mục
30 Chương 2.Nền tảng kiến thức
đích nào đĩ (Gruber, 1995). Sự đặc tả (specification) là tường minh và hình thức. Đặc tả
tường minh nghĩa là các khái niệm và các ràng buộc về ngữ nghĩa và quan hệ giữa các khái
niệm được định nghĩa cụ thể và rõ ràng. Đặc tả hình thức là nhằm cho máy tính hiểu và suy
diễn. Luận án này sử dụng ontology theo nghĩa của cộng đồng khoa học máy tính.
Theo nghĩa đĩ, ontology là một danh từ đếm được và được sử dụng để đề cập đến một
sản phẩm kỹ nghệ, bao gồm một bộ từ vựng được sử dụng để mơ tả một thực tại nào đĩ và
một tập các giả định tường minh về ý nghĩa của các từ trong bộ từ vựng (Guarino, 1998).
Tập từ vựng và giả định đĩ hình thành nên các khái niệm và quan hệ giữa các khái niệm
trong ontology. Nĩi một cách khác, một ontology là một sự biểu diễn khơng nhập nhằng
của các khái niệm và mối quan hệ giữa các khái niệm (Hepp và CS, 2006). Biểu diễn
khơng nhập nhằng hiểu theo nghĩa là sự biểu diễn đĩ vừa giúp cho con người nắm bắt một
cách chính xác ý nghĩa của các khái niệm, vừa cĩ ngữ nghĩa hình thức để máy cĩ thể nắm
bắt và suy diễn.
Như vậy, ontology định nghĩa khung tổng quát để mơ tả các thực thể, các thuộc tính
và mối quan hệ cụ thể giữa chúng (gọi chung là các tính chất). Khung tổng quát đĩ bao
gồm các khái niệm (các lớp và các tính chất)9, và các tiên đề thiết lập các ràng buộc cho
các tính chất và biểu diễn mối quan hệ giữa các lớp. Hiện nay cĩ nhiều quan niệm khác
nhau về ontology. Một quan niệm cho rằng một ontology định nghĩa khung tổng quát để
mơ tả các thực thể, và tập các thực thể cùng với các tính chất của chúng được xây dựng
dựa trên ontology đĩ hình thành nên một cơ sở tri thức (Noy và McGuinness, 2001; Kirya-
kov và CS, 2005); nghĩa là ontology và cơ sở tri thức là tách biệt. Cơ sở tri thức theo cách
hiểu của các tác giả vừa nêu là bao gồm cả khung tổng quát, các thực thể, cùng với thuộc
tính và quan hệ cụ thể giữa các thực thể này. Tuy nhiên, Noy và McGuinness (2001) cũng
thừa nhận rằng ranh giới giữa ontology và cơ sở tri thức là mờ nhạt.
Trong khi đĩ, cĩ một quan niệm khác cho rằng ontology bao gồm một lược đồ và một
cơ sở tri thức (Dill và CS, 2003; Antoniou và Harmelen, 2004; Aleman-Meza và CS, 2006;
Suchanek và CS, 2007; Bizer và CS, 2009). Lược đồ định nghĩa khung tổng quát như trên.
Cơ sở tri thức chứa các thực thể, các thuộc tính và mối quan hệ giữa chúng. Như vậy, trên
thực tế cĩ nhiều tài liệu sử dụng thuật ngữ ontology hoặc cơ sở tri thức với ý nghĩa bao
9 Một số nghiên cứu xem các khái niệm trong một ontology chính là các lớp
2.2.Ontology 31
gồm cả khung tổng quát, các thực thể, cùng với thuộc tính và quan hệ cụ thể giữa các thực
thể này. Do đĩ, trong luận án, để đơn giản, nếu khơng cần phân biệt và khơng gây mập mờ,
chúng tơi sử dụng hai thuật ngữ này thay thế cho nhau.
Theo cách tiếp cận truyền thống, một ontology được xây dựng từ trên xuống (top-
down) bởi các chuyên gia. Nghĩa là, trước tiên các khái niệm được định nghĩa từ một bộ từ
vựng cĩ kiểm sốt (controlled vocabulary) với các ràng buộc giữa các khái niệm được xác
định rõ ràng. Tiếp theo, một hệ thống thứ bậc giữa các khái niệm được xây dựng dựa trên
mối quan hệ chuyên biệt hĩa (specialization) và tổng quát hĩa (generalization) giữa các
khái niệm. Nĩi một cách khác, khi xây dựng một ontology theo tiếp cận truyền thống
khung tổng quát được định nghĩa trước. Sau đĩ, khi cĩ một thực thể cần được mơ tả, các
khái niệm sẽ được sử dụng. Chúng tơi gọi các ontology được xây dựng theo cách tiếp cận
đĩ là các ontology “đĩng”, theo nghĩa là người dùng khơng được phép can thiệp để thay
đổi bộ từ vựng, cũng như là các lớp và các tính chất được định nghĩa trong ontology. Các
ontology đĩng thường được xây dựng bởi các chuyên gia, chất lượng và độ tin cậy cao, tuy
nhiên hạn chế về số lớp và các tính chất được định nghĩa để mơ tả các thực thể.
Những năm gần đây, trào lưu Web xã hội (Social Web) đã hình thành các “ontology”
chung của cộng đồng người sử dụng. Các ontology này mặc dù khơng thỏa một số các ràng
buộc chặt chẽ như các ontology nêu ở trên, nhưng trào lưu Web 2.0 đã củng cố cho khái
niệm ontology chung mang tính cộng đồng (Syed và CS, 2009). Các ontology mang tính
cộng đồng như thế được xây dựng theo cách tiếp cận từ dưới lên (bottom-up). Nghĩa là khi
cần định nghĩa và phân loại một thực thể mới, nếu các khái niệm hiện tại của ontology
khơng đủ để mơ tả thực thể, người dùng cĩ thể định nghĩa một khái niệm mới. Ý nghĩa của
khái niệm mới đĩ cĩ thể được điều chỉnh sau đĩ dựa trên sự thoả thuận của cộng đồng
người dùng. Ontology được xây dựng cĩ tính cộng đồng như vậy cĩ tính “mở”, với bộ từ
vựng được phát triển tự do. Chúng tơi gọi các ontology này là các ontology “mở”, hiểu
theo nghĩa là người sử dụng cĩ thể dễ dàng thêm vào các khái niệm khi cần. Ngữ nghĩa của
các khái niệm đĩ được hình thành từ các thoả thuận mang tính cộng đồng hơn là được định
nghĩa bởi một nhĩm chuyên gia.
Trong luận án này, chúng tơi khai thác cả các ontology đĩng và mở để phân giải nhập
nhằng thực thể cĩ tên. Thơng tin của các ontology đĩng được kiểm sốt kỹ lưỡng, cĩ độ tin
cậy cao, nhưng cĩ tần suất cập nhật thấp, hạn chế về mức độ bao phủ các chủ đề thơng tin.
Một số định nghĩa hình thức về ontology đĩng cĩ thể tham khảo trong Bloehdorn và CS
32 Chương 2.Nền tảng kiến thức
(2005) và Volz và CS (2007). Trong khi đĩ nội dung thơng tin của các ontology mở do
cộng đồng người sử dụng tạo nên, cĩ tần suất cập nhật cao, đa dạng về chủ đề thơng tin,
nhưng mức độ tin cậy của thơng tin trên các ontology đĩ cịn nhiều tranh cãi. Ontology mở
mà chúng tơi sử dụng là Wikipedia. Mặc dù được xây dựng từ cộng đồng đơng đảo các
tình nguyện viên, nhưng nội dung thơng tin trên Wikipedia lại cĩ độ tin cậy cao (Giles,
2005).
Sau đây chúng tơi giới thiệu các hệ thống mà chúng tơi sử dụng trong các thí nghiệm
của luận án này, đĩ là các hệ thống KIM, VN-KIM10 và các ontology của chúng. Cấu trúc
và các nguồn thơng tin của Wikipedia sẽ được giới thiệu trong Phần 2.3.
Hệ thống KIM và VN-KIM
Trong số các hệ thống hướng đến web cĩ ngữ nghĩa hiện nay, KIM và VN-KIM là các
hệ thống được nghiên cứu phát triển một cách bài bản và hiệu quả. KIM là một hệ thống
quản lý thơng tin và tri thức, dựa trên tri thức về các thực thể cĩ tên phổ biến trên thế giới,
và được phát triển cho tiếng Anh. VN-KIM là hệ thống tương tự như KIM, và được phát
triển cho tiếng Việt. Trong KIM và VN-KIM, các ontology chứa định nghĩa các lớp thực
thể, các thuộc tính và mối quan hệ, các cơ sở tri thức lưu trữ các thơng tin mơ tả về các
thực thể và các mối quan hệ giữa chúng dựa trên ontology tương ứng. Các hệ thống này rút
trích tự động các lớp thực thể trên các trang web và chú thích lại trên chính các trang web
đĩ. Hình 2.2 minh họa VN-KIM nhận diện các thực thể cĩ tên xuất hiện trên web Việt, làm
nổi bật và liên kết đến mơ tả ngữ nghĩa của chúng trong cơ sở tri thức của VN-KIM.
Nĩi một cách khác là các hệ thống KIM và VN-KIM thêm siêu dữ liệu dưới dạng các
chú thích ngữ nghĩa cho các thực thể cĩ tên trên các trang web, như được minh họa trong
Hình 2.3. Các trang web được mở rộng ngữ nghĩa như thế sẽ được lưu trữ nhằm tìm kiếm
hiệu quả hơn so với các động cơ tìm kiếm hiện hành. Ví dụ, truy vấn các thơng tin về thành
phố “Sài Gịn” sẽ nhận được các văn bản nĩi về Thành phố Sài Gịn và Thành phố HCM
chứ khơng như các động cơ tìm kiếm hiện hành là trả về bất kì văn bản nào chứa cụm từ
“Sài Gịn” mặc dù các văn bản đĩ cĩ thể là nĩi về Cơng ty Bánh kẹo Sài Gịn, Trường
ĐHCN Sài Gịn, người Sài Gịn, . . .
10
2.2.Ontology 33
Hình 2.2: VN-KIM xử lý và chú thích các thực thể cĩ tên trên một trang web tiếng Việt
Hình 2.3: Chú thích ngữ nghĩa
Cơng_ty
FPT
Hà Nội
Việt Nam
Thủ_đơ
Nơi_chốn
Quốc_gia
lớp
lớp
lớp
lớp cha lớp cha
Nguồn tri thức
được_định_vị_ở
Cty FPT cĩ kế hoạch thành lập trường đại học FPT
để đào tạo nguồn nhân lực cơng nghệ thơng tin cho
chính cơng ty và đồng thời cung cấp nguồn nhân lực
chất lượng cao cho thị trường lao động Việt Nam
được_định_vị_ở
34 Chương 2.Nền tảng kiến thức
Ontology của KIM - phiên bản miễn phí được sử dụng trong luận án này để phân giải
nhập nhằng thực thể cĩ tên trên các văn bản tiếng Anh - chứa 250 lớp, 100 thuộc tính và
quan hệ, cùng với 40.000 thực thể cĩ tên được lưu trữ trong cơ sở tri thức của nĩ. Ontology
của VN-KIM - phiên bản được sử dụng trong luận án này để phân giải nhập nhằng thực thể
cĩ tên trên các văn bản tiếng Việt - chứa 370 lớp, 115 thuộc tính và quan hệ, cùng với hơn
120.000 thực thể cĩ tên phổ biến được lưu trữ trong cơ sở tri thức của nĩ. Hình 2.4 trình
bày một ví dụ minh họa cơ sở tri thức của VN-KIM dưới dạng RDF11. Ví dụ cho thấy thực
thể “Quận 8” được định vị ở thực thể cĩ định danh
/vnkim/vnkimkb.rdf#Thành_phố_cấp_một_41 (TP. Hồ Chí Minh).
Hình 2.4: RDF biểu diễn mối quan hệ giữa các thực thể trong cơ sở tri thức của VN-KIM
Động cơ rút trích thơng tin của KIM và VN-KIM dựa trên GATE (Cunmingham và
CS, 2002) - một kiến trúc tổng quát để phát triển các ứng dụng xử lý ngơn ngữ tự nhiên.
GATE cĩ thể xử lý các tài liệu cĩ các định dạng khác nhau như HTML, XML, RTF, hay
SGML. Hình 2.5 minh họa một mơ hình xử lý của một động cơ rút trích thơng tin dựa trên
GATE, cho thấy sau khi thực thi mơđun So trùng cụm từ các thực thể sẽ được nhận dạng
và phân lớp dựa trên nguồn tri thức sử dụng. Các mơđun theo sau đĩ cĩ thể cĩ hoặc khơng
cĩ, và thứ tự xử lý cĩ thể thay đổi tùy theo hệ thống. Một số mơđun cơ bản là:
• Tách từ: tách văn bản thành các từ cĩ nghĩa, các con số, các kí tự đặc biệt.
11
Định danh của thực thể
Tên thực thể Mối quan hệ
2.2.Ontology 35
• So trùng cụm từ: thực hiện so trùng chính xác các từ (hoặc cụm từ) trong văn bản
với các tên khác nhau của các thực thể trong nguồn tri thức sử dụng và sinh ra các
chú thích ngữ nghĩa tạm thời. Mỗi chú thích này cĩ thể chứa thơng tin về lớp và
định danh của thực thể tương ứng.
• Tách câu: thực hiện cơng việc tách văn bản thành các câu. Mỗi câu sẽ được xử lý
tách biệt bởi các mơđun phía sau.
• Gán nhãn từ loại: xác định loại từ (ví dụ: danh từ, động từ, tính từ, . . .) nhằm cung
cấp các thơng tin về các từ xuất hiện xung quanh các tên thực thể.
• So trùng mẫu: dựa trên một tập các luật viết dựa trên văn phạm JAPE (Cunming-
ham và CS, 2000) được sử dụng để hiệu chỉnh lại các thơng tin rút trích được bởi
thành phần so trùng cụm từ và nhận dạng thêm các thực thể cĩ tên chưa cĩ trong cơ
sở tri thức.
Hình 2.5: Một mơ hình xử lý của một động cơ rút trích thơng tin dựa trên GATE
Tách từ
Tách câu
……
…
……..
So trùng cụm từ
So trùng mẫu
Văn bản đã được chú
thích ngữ nghĩa Nội dung văn bả
Các file đính kèm theo tài liệu này:
- LATS_CB_BVNN_NTHien.pdf