Tài liệu Khóa luận Nhận dạng thực thể trong văn bản tiếng việt: ĐẠI HỌC CÔNG NGHỆ
ĐẠI HỌC QUỐC GIA HÀ NỘI
--------
Nguyễn Bá Đạt
NHẬN DẠNG THỰC THỂ
TRONG VĂN BẢN TIẾNG VIỆT
KHÓA LUẬN TỐT NGHIỆP HỆ CHÍNH QUY
Ngành: Công Nghệ Thông Tin
Hà Nội – 2009
ĐẠI HỌC CÔNG NGHỆ
ĐẠI HỌC QUỐC GIA HÀ NỘI
--------
Nguyễn Bá Đạt
NHẬN DẠNG THỰC THỂ
TRONG VĂN BẢN TIẾNG VIỆT
KHÓA LUẬN TỐT NGHIỆP HỆ CHÍNH QUY
Ngành: Công Nghệ Thông Tin
GV hướng dẫn: TS. Phạm Bảo Sơn
Hà Nội – 2009
Nhận dạng thực thể trong văn bản Tiếng Việt Nguyễn Bá Đạt
i
Lời mở đầu
Bài toán nhận dạng thực thể trong văn bản là bài toán khá cơ bản và quan trọng trong
nhóm các bài toán rút trích thông tin. Nó có nhiệm vụ tìm kiếm và phân loại các thực
thể như: thực thể chỉ người, thực thể chỉ tổ chức, thực thể chỉ địa điểm v.v… Trong
khóa luận này, chúng tôi giới thiệu một hệ thống nhận dạng thực thể trong văn bản
tiếng Việt được phát triển trên nguồn mở GATE (General Architecture for Text
Engineering), với kết quả khá khả quan: F-measure – 82....
73 trang |
Chia sẻ: haohao | Lượt xem: 1399 | Lượt tải: 3
Bạn đang xem trước 20 trang mẫu tài liệu Khóa luận Nhận dạng thực thể trong văn bản tiếng việt, để tải tài liệu gốc về máy bạn click vào nút DOWNLOAD ở trên
ĐẠI HỌC CÔNG NGHỆ
ĐẠI HỌC QUỐC GIA HÀ NỘI
--------
Nguyễn Bá Đạt
NHẬN DẠNG THỰC THỂ
TRONG VĂN BẢN TIẾNG VIỆT
KHÓA LUẬN TỐT NGHIỆP HỆ CHÍNH QUY
Ngành: Công Nghệ Thông Tin
Hà Nội – 2009
ĐẠI HỌC CÔNG NGHỆ
ĐẠI HỌC QUỐC GIA HÀ NỘI
--------
Nguyễn Bá Đạt
NHẬN DẠNG THỰC THỂ
TRONG VĂN BẢN TIẾNG VIỆT
KHÓA LUẬN TỐT NGHIỆP HỆ CHÍNH QUY
Ngành: Công Nghệ Thông Tin
GV hướng dẫn: TS. Phạm Bảo Sơn
Hà Nội – 2009
Nhận dạng thực thể trong văn bản Tiếng Việt Nguyễn Bá Đạt
i
Lời mở đầu
Bài toán nhận dạng thực thể trong văn bản là bài toán khá cơ bản và quan trọng trong
nhóm các bài toán rút trích thông tin. Nó có nhiệm vụ tìm kiếm và phân loại các thực
thể như: thực thể chỉ người, thực thể chỉ tổ chức, thực thể chỉ địa điểm v.v… Trong
khóa luận này, chúng tôi giới thiệu một hệ thống nhận dạng thực thể trong văn bản
tiếng Việt được phát triển trên nguồn mở GATE (General Architecture for Text
Engineering), với kết quả khá khả quan: F-measure – 82.03%. Toàn bộ hệ thống và
những tài liệu liên quan gồm: định nghĩa thực thể, cách phân loại thực thể và một tập
dữ liệu được gán nhãn chuẩn sẽ được mở cho cộng động sử dụng và phát triển.
Nhận dạng thực thể trong văn bản Tiếng Việt Nguyễn Bá Đạt
ii
Lời cảm ơn
Trước tiên, em xin gửi lời cảm ơn sâu sắc nhất đến thầy TS. Phạm Bảo Sơn, người đã
không quản vất vả hướng dẫn em trong suốt thời gian làm khóa luận tốt nghiệp vừa
qua. Em cũng xin chân thành cảm ơn thầy TS. Bùi Thế Duy đã luôn chỉ bảo mỗi khi
em có những vấn đề vướng mắc.
Em xin bày tỏ lời cảm ơn sâu sắc đến các thầy cô giáo trong Trường Đại Học
Công Nghệ đã tận tình dạy dỗ em suốt bốn năm học qua.
Tôi xin chân thành cảm ơn đề tài “Nghiên cứu phát triển một số sản phẩm thiết
yếu về xử lý tiếng nói và văn bản tiếng Việt”, mã số KC01.01/06-10 đã hỗ trợ kinh phí
và dữ liệu để tôi có thể hoàn thành khóa luận này.
Con xin cảm ơn bố, mẹ và gia đình đã luôn bên con, cho con động lực để làm
việc tốt hơn. Cảm ơn bé Ngân đã luôn ở bên và động viên tớ. Cảm ơn tất cả bạn bè đã
luôn sát cánh cùng tôi.
Hà Nội, ngày 20 tháng 5 năm 2009
Nguyễn Bá Đạt
Nhận dạng thực thể trong văn bản Tiếng Việt Nguyễn Bá Đạt
iii
Mục lục
Lời mở đầu .............................................................................................................................................................. i
Lời cảm ơn ............................................................................................................................................................. ii
Mục lục .................................................................................................................................................................. iii
Danh sách hình vẽ .................................................................................................................................................. v
Danh sách bảng ..................................................................................................................................................... vi
Chương 1 Giới thiệu ............................................................................................................................................. 1
Chương 2 Các hướng tiếp cận cho bài toán nhận dạng thực thể .................................................................... 4
2.1 Hướng tiếp cận sử dụng hệ luật cho bài toán nhận dạng thực thể ............................................................ 5
2.2 Hướng tiếp cận sử dụng các phương pháp học máy cho bài toán nhận dạng thực thể ............................. 7
2.3 Hướng tiếp cận lai ................................................................................................................................... 10
Chương 3 Giới thiệu GATE ............................................................................................................................... 11
3.1 Tổng quan về GATE ................................................................................................................................. 11
3.2 Những khái niệm trong khung làm việc GATE ........................................................................................ 13
3.3 Bộ từ điển (Gazetteers) ............................................................................................................................ 14
3.4 Bộ luật JAPE ............................................................................................................................................ 15
3.4.1 Mệnh đề trái (LHS) ....................................................................................................................... 16
3.4.2 Thành phần thay thế (Macros) ....................................................................................................... 17
3.4.3 Mệnh đề phải (RHS) ...................................................................................................................... 18
3.4.4 Sử dụng đoạn mã Java trong JAPE ............................................................................................... 19
3.4.5 Một vài lựa chọn khi viết luật ........................................................................................................ 20
3.5 Tạo thêm thành phần tích hợp trên khung làm việc GATE ...................................................................... 22
3.6 Tạo ứng dụng trên GATE ......................................................................................................................... 25
3.7 Các công cụ quản lý chất lượng .............................................................................................................. 25
3.7.1 Công cụ đánh giá độ tương đồng khi gán nhãn hai văn bản (Annotation Diff) ............................. 26
Nhận dạng thực thể trong văn bản Tiếng Việt Nguyễn Bá Đạt
iv
3.7.2 Công cụ đánh giá chất lượng của hệ thống (Corpus Benchmark tool) .......................................... 26
Chương 4 Nhận dạng thực thể trong văn bản tiếng Việt ................................................................................ 28
4.1 Định nghĩa thực thể, các loại thực thể và cách phân biệt các loại thực thể ............................................ 29
4.1.1 Các khái niệm cơ bản .................................................................................................................... 29
4.1.1.1 Định nghĩa thực thể và tên thực thể ....................................................................................... 29
4.1.1.2 Các loại thực thể được nhận dạng .......................................................................................... 29
4.1.2 Quy tắc nhận dạng thực thể ........................................................................................................... 30
4.2 Chuẩn bị tập dữ liệu ................................................................................................................................ 30
4.3 Xây dựng hệ thống nhận dạng thực thể trong văn bản tiếng Việt ............................................................ 32
4.3.1 Bộ tách từ và bộ gán nhãn từ loại .................................................................................................. 33
4.3.2 Bộ từ điển ...................................................................................................................................... 35
4.3.3 Bộ luật ........................................................................................................................................... 37
4.3.3.1 Chuẩn hóa tập nhãn Lookup .................................................................................................. 38
4.3.3.2 Tạo nhãn “NamePhrase” ....................................................................................................... 38
4.3.3.3 Nhận dạng thực thể chỉ công trình ....................................................................... 39
4.3.3.4 Nhận dạng thực thể chỉ địa điểm và thực thể thuộc về quốc gia . 39
4.3.3.5 Nhận dạng thực thể chỉ tổ chức ................................................................... 41
4.3.3.6 Nhận dạng thực thể chỉ các tổ chức tôn giáo ...................................................... 41
4.3.3.7 Nhận dạng các thực thể chỉ người ........................................................................ 42
4.3.3.8 Sử dụng văn cảnh và quá trình nhận dạng thông minh .......................................................... 42
Chương 5 Kết quả thực nghiệm và phân tích lỗi ............................................................................................. 48
5.1 Các bước tiến hành thực nghiệm ............................................................................................................. 48
5.2 Kết quả thực nghiệm ................................................................................................................................ 48
5.3 Phân tích lỗi ............................................................................................................................................. 51
Chương 6 Tổng kết và hướng phát triển ........................................................................................................ 54
Tài liệu tham khảo ............................................................................................................................................... 55
Phụ lục A. Annotation Guideline. ...................................................................................................................... 58
Phụ lục B. Bảng nhãn từ loại tiếng Việt ............................................................................................................. 63
Nhận dạng thực thể trong văn bản Tiếng Việt Nguyễn Bá Đạt
v
Danh sách hình vẽ
Hình 2.1 - Kết quả cho 10 lần thực nghiệm của Nguyễn Cẩm Tú (Nguyễn 2005) ........................................... 9
Hình 3.1 - Kiến trúc tổng quát của GATE ........................................................................................................ 12
Hình 3.2 - Giao diện thêm một thành phần tích hợp vào GATE. .................................................................... 24
Hình 3.3 - Chọn các thành phần cho ứng dụng GATE .................................................................................... 25
Hình 3.4 - Giao diện của Annotation Diff .......................................................................................................... 27
Hình 3.5 - Giao diện của Corpus Benchmark tool ............................................................................................ 27
Hình 4.1 - Mô hình các bước phát triển của hệ thống ...................................................................................... 31
Hình 4.2 - Mô tả chi tiết hệ thống nhận dạng thực thể trong văn bản tiếng Việt ........................................... 32
Hình 4.3 - Mô tả kết quả nhận dạng của một trường hợp nhập nhằng giữa Person và Nationality ............ 43
Hình 4.4 – Một ví dụ cho quá trình nhận dạng thông minh ............................................................................ 45
Hình 4.5 - Trường hợp hệ thống nhận dạng một dãy các thực thể cạnh nhau ............................................... 46
Nhận dạng thực thể trong văn bản Tiếng Việt Nguyễn Bá Đạt
vi
Danh sách bảng
Bảng 3.1 – Minh họa về nhãn (annotation) ....................................................................................................... 14
Bảng 5.1 – Kết quả nhận dạng trên tập huấn luyện ......................................................................................... 49
Bảng 5.2 – Bảng kết quả nhận dạng trên tập kiểm tra ..................................................................................... 49
Bảng 5.3 – Kết quả nhận dạng trên tập kiểm tra với tiêu chí “lỏng” ( lenient evaluation) ........................... 50
Bảng 5.4 – Kết quả thực nghiệm của một số hệ thống nhận dạng thực thể trong văn bản tiếng Việt ......... 51
Chương 1. Giới thiệu bài toán nhận dạng thực thể Nguyễn Bá Đạt
1
Chương 1
Giới thiệu
Với sự bùng nổ của nguồn dữ liệu trên Internet, những bài toán về xử lý thông tin như:
trích chọn thông tin, tóm tắt nội dung văn bản v.v… ra đời như một nhu cầu tất yếu.
Bài toán nhận dạng thực thể là một bài toán khá cơ bản trong nhóm các bài toán trích
chọn thông tin. Nó có nhiệm vụ tìm kiếm và rút ra những thông tin liên quan đến thực
thể (một đối tượng hoặc một tập hợp đối tượng của thế giới tự nhiên) trong văn bản,
thông thường là loại thực thể. Có thể tùy theo từng bài toán, từng lĩnh vực cụ thể,
người ta đưa ra danh sách những loại thực thể được nhận dạng khác nhau. Các hệ
thống nhận dạng thực thể trong văn bản (Cao 2007, Mansouri 2008) thường nhận một
số loại thực thể:
Thực thể chỉ người (Person).
Thực thể chỉ tổ chức (Organization).
Thực thể chỉ địa điểm (Location).
Thực thể chỉ ngày (Date).
Thực thể chỉ thời gian (Time).
Thực thể chỉ các đơn vị tiền tệ (Money).
Thực thể chỉ phần trăm (Percent).
Trong đó, loại thực thể chỉ ngày (Date), thực thể chỉ thời gian (Time), thực thể chỉ các
đơn vị tiền tệ (Money), thực thể chỉ phần trăm (Percent) thường ít mang tính nhập
nhằng, không khó để nhận dạng. Ngoài ra tùy từng lĩnh vực, người ta có thể chú ý
Chương 1. Giới thiệu bài toán nhận dạng thực thể Nguyễn Bá Đạt
2
thêm vào những loại thực thể khác đặc thù. Ví dụ hệ thống nhận dạng thực thể trong
văn bản với lĩnh vực y tế (Phạm 2007) sẽ nhận những thực thể chỉ tên thuốc, hoặc các
loại bệnh v.v… như những loại thực thể chính.
Có ba hướng tiếp cận chính cho bài toán nhận dạng thực thể trong văn bản:
hướng tiếp cận sử dụng hệ luật được xây dựng bởi chuyên gia (Maynard 2001, Cao
2007), hướng tiếp cận sử dụng các phương pháp học máy (Mansouri 2008) và hướng
tiếp cận lai (Fang 2002). Tuy mang tính tự động cao, nhưng các hướng tiếp cận sử
dụng các phương pháp học máy và hướng tiếp cận lai đòi hỏi cần phải có một tập dữ
liệu đã được gán nhãn (annotated corpus) đủ lớn cho quá trình huấn luyện. Trong khi
đó, hướng tiếp cận sử dụng hệ luật được xây dựng bởi chuyên gia lại không yêu cầu
điều này, hệ thống có thể hoạt động ngay khi hệ luật được hình thành.
Là một bài toán khá quan trọng và cơ bản nhưng hiện nay vẫn chưa có nhiều
nghiên cứu về bài toán nhận dạng thực thể trong văn bản đối với tiếng Việt. Hơn nữa
những hệ thống hiện thời không phải là nguồn mở nên rất khó để tiếp cận sử dụng và
phát triển (Nguyễn 2005, Cao 2007). Chính vì vậy chúng tôi quyết định xây dựng một
hệ thống nhận dạng thực thể sử dụng hệ luật cho văn bản tiếng Việt trên nguồn mở của
khung làm việc GATE (General Architecture for Text Engineering)1. Toàn bộ hệ
thống sẽ được mở cho cộng đồng sử dụng và phát triển. Song song với việc phát triển
hệ thống, chúng tôi cũng xây dựng một bộ tài liệu bao gồm: định nghĩa các thực thể,
các loại thực thể, cùng với một tập dữ liệu được gán nhãn chuẩn (corpus) cho bài toán
nhận dạng thực thể trong văn bản tiếng Việt.
1 Website chính thức của GATE:
Chương 1. Giới thiệu bài toán nhận dạng thực thể Nguyễn Bá Đạt
3
Phần còn lại của khóa luận được chia thành 5 chương:
Chương 2: Chúng tôi giới thiệu về những hướng tiếp cận cho bài toán nhận
dạng thực thể trên thế giới, cũng như những công trình nghiên cứu đối với tiếng
Việt.
Chương 3: Chúng tôi giới thiệu một cách tổng quan về khung làm việc GATE,
và cách xây dựng một hệ thống tích hợp (Plugin) trong GATE.
Chương 4: Chúng tôi mô tả chi tiết hệ thống nhận dạng thực thể trong văn bản
tiếng Việt được xây dựng trên khung làm việc GATE.
Chương 5: Chúng tôi đưa ra những kết quả thực nghiệm và phân tích những lỗi
vẫn còn tồn tại.
Chương 6: Chúng tôi đưa ra những kết luận về hệ thống và hướng phát triển hệ
thống trong tương lai.
Chương 2. Các hướng tiếp cận cho bài toán nhận dạng thực thể Nguyễn Bá Đạt
4
Chương 2
Các hướng tiếp cận cho
bài toán nhận dạng thực thể
Cũng như các bài toán khác trong lĩnh vực xử lý ngôn ngữ tự nhiên như: bài toán phân
loại văn bản, bài toán dịch máy v.v… Bài toán nhận dạng thực thể trong văn bản cũng
được phát triển theo các hướng truyền thống đó là:
Hướng tiếp cận sử dụng hệ luật được xây dựng bởi chuyên gia (rule based) (để
thuận tiện, chúng tôi sẽ sử dụng cụm từ viết tắt “hướng tiếp cận sử dụng hệ
luật”).
Hướng tiếp cận sử dụng các phương pháp học máy (machine learning).
Hướng tiếp cận lai (hybrid system) giữa hai hướng tiếp cận trên.
Trong chương này, chúng tôi giới thiệu tổng quan về các hướng nghiên cứu cùng
những kết quả đã đạt được cho bài toán nhận dạng thực thể trong văn bản. Để thống
nhất, các hệ thống trong khuôn khổ của khóa luận được đánh giá sử dụng độ đo:
Precision, Recall và F-measure.
Precision = (N1 / N2) x 100%
Recall = (N1 / N3) x 100%
F-measure = 2 x (Precision x Recall ) / (Precision + Recall) x 100%
Trong đó:
N1: Số thực thể được nhận dạng chính xác.
N2: Tổng số thực thể được nhận ra.
N3: Số thực thể thực tế.
Chương 2. Các hướng tiếp cận cho bài toán nhận dạng thực thể Nguyễn Bá Đạt
5
2.1 Hướng tiếp cận sử dụng hệ luật cho bài toán nhận dạng thực
thể
Sử dụng chuyên gia xây dựng hệ luật là phương pháp truyền thống, có thể nói là được
áp dụng sớm nhất trong các bài toán xử lý ngôn ngữ tự nhiên nói chung và bài toán
nhận dạng thực thể trong văn bản nói riêng. Hệ luật là một tập hợp các luật do con
người đặt ra nhằm những mục đích nhất định, ở đây là việc nhận dạng các thực thể
trong văn bản. Một hệ thống nhận dạng thực thể sử dụng hệ luật thông thường sẽ có
các các thành phần chính như: từ loại (danh từ, động từ v.v…), ngữ cảnh (từ đứng
trước, từ đứng sau v.v…) và một số thuộc tính (viết hoa, viết thường v.v…) kết hợp
với một bộ từ điển để viết thành các luật (Budi 2003). Ví dụ với câu sau đây:
“President Bush said Monday‟s talks will include discussion on security, a
timetable for U.S forces to leave Iraq.”
Trong ví dụ này từ “Bush” đứng sau từ “President” sẽ được nhận là một tên người
(Person), “Iraq” đứng sau động từ “leave” sẽ được nhận là tên chỉ địa điểm (Location).
Với ý tưởng tương tự, Iwanska sử dụng các kiểu từ điển chuyên biệt (gazetteers)
(Iwanska 1995), Morgan sử dụng một bộ phân tích ngôn ngữ ở mức độ cao (kết hợp
giữa sự phân tích cú pháp, phân tích từ loại và ngữ cảnh) nhằm tăng hiệu quả cho hệ
thống nhận dạng thực thể (Morgan 1995).
Có lẽ một trong những ưu điểm lớn nhất của hướng tiếp cận sử dụng hệ luật so
với hướng tiếp cận sử dụng các phương pháp học máy là hướng tiếp cận sử dụng hệ
luật không cần một tập dữ liệu đã được gán nhãn. Tức là hệ thống có thể hoạt động và
thu được kết quả ngay khi hình thành các luật. Với một luật đơn giản:
Mr + - trong tiếng anh
hay: “ông” + tên người (Person) – trong tiếng Việt
cũng có thể nhận ra một số lượng lớn các thực thể trong văn bản. Bởi vậy ngay từ giai
đoạn đầu xây dựng tập dữ liệu được gán nhãn cho bài toán nhận dạng thực thể trong
văn bản tiếng Việt, chúng tôi đã tiến hành song song việc phát triển hệ thống luật và
gán nhãn cho tập dữ liệu. Hệ thống sử dụng hệ luật chạy và nhận dạng thực thể tự
Chương 2. Các hướng tiếp cận cho bài toán nhận dạng thực thể Nguyễn Bá Đạt
6
động, sau đó được kiểm tra và chuẩn hóa bằng tay. Quá trình kiểm tra mang lại những
kinh nghiệm để chúng tôi có thể cải tiến bộ luật hoàn thiện hơn.
Tuy nhiên việc xây dựng một hệ thống luật đạt kết quả cao thường rất khó
khăn, mất nhiều thời gian và công sức, đặc biệt khi xây dựng hệ thống từ đầu. Trên thế
giới đã có khá nhiều hệ thống nhận dạng thực thể đạt hiệu quả cao, nhưng hầu hết
chúng không được xây dựng trên nền nguồn mở, và rất khó khăn để tiếp cận được với
những hệ thống này. Chính vì vậy, phải mãi đến khi GATE – một hệ thống được xây
dựng trên nguồn mở với bộ luật JAPE ra đời như một khung nền, các nghiên cứu về
hướng tiếp cận sử dụng hệ luật với bài toán nhận dạng thực thể trong văn bản mới thực
sự phát triển và thu được những kết quả khá khả quan. Maynard giới thiệu hệ thống
MUSE (Multi source entity finder) được phát triển trên GATE có độ thích ứng cao, dễ
dàng thay đổi khi chuyển sang một lĩnh vực mới. Người dùng có thể chọn bộ luật
(grammar) cũng như bộ từ điển (gazetter) cho những lĩnh vực khác nhau (Maynard
2001). Kết quả thu được khá khả quan – F-measure khoảng 93 ~ 94 % với các loại tên:
“Entity (organization, person, location), Time(date, time), Number (money, percent),
Address (email, url, telephone, ip) và Identifier”. Tạm thời việc chọn hay chuyển đổi
các phần của hệ thống được thực hiện bằng tay, tuy nhiên bài báo cũng đưa ra ý tưởng
phát triển hệ thống để có thể tự động chọn các bộ luật và bộ từ điển tương ứng với
từng lĩnh vực.
Một số nghiên cứu khác tái sử dụng các luật Jape, thay đổi và chỉnh sửa để tạo
ra những mô hình khác nhau cho bài toán nhận dạng thực thể trong văn bản với nhiều
ngôn ngữ và lĩnh vực (Pastra 2002, Maynard 2003) đã chứng minh tính hiệu dụng của
GATE và hệ thống luật JAPE.
Đối với tiếng Việt, có thể nói hệ thống VN-KIM IE là hệ thống đầu tiên có sử
dụng bộ luật JAPE trong khung làm việc GATE(Cao 2007). Chức năng chính của bộ
VN-KIM IE là nhận biết và chú thích tự động cho các thực thể có tên trong trang web
tiếng Việt. Quá trình rút trích thông tin của VN-KIM IE được thực hiện qua các bước:
Quy chuẩn các văn bản trên web về một loại mã tiếng Việt.
Trích ra các khối văn bản mang thông tin chính.
Gán nhãn từ loại cho văn bản.
Chương 2. Các hướng tiếp cận cho bài toán nhận dạng thực thể Nguyễn Bá Đạt
7
Nhận dạng các thực thể và xử lý các trường hợp nhập nhằng.
Với tập dữ liệu thu thập từ các báo điện tử phổ biến như: Tuổi trẻ, Người lao động,
Vnexpress v.v… VN-KIM IE đưa ra kết quả khá khả quan, F-measure đạt được trên
80% với các loại nhãn: “organization, location, person, date, time, money, percent
expression”.
2.2 Hướng tiếp cận sử dụng các phương pháp học máy cho bài
toán nhận dạng thực thể
Các phương pháp học máy như: máy vector hỗ trợ (SVM), cây quyết định, mô hình
markov ẩn, CRF v.v… thường xuyên được áp dụng và thu được kết quả khá cao trong
các bài toán về xử lý ngôn ngữ tự nhiên. Với hệ thống nhận dạng thực thể trong văn
bản sử dụng các phương pháp học máy, vấn đề nhận dạng thực thể (NER – Named
Entities Recognition) được chuyển đối thành bài toán phân loại. Đầu tiên sử dụng mô
hình IOB (Krishnan 2005) để gán nhãn (label) cho các từ theo tiêu chí:
I: nếu từ nằm trong cụm thực thể đang xét.
O: nếu từ nằm ngoài cụm thực thể đang xét.
B: nếu từ là vị trí bắt đầu cụm thực thể đang xét.
Sau đó dựa trên những thông tin về nhãn của từ thu được qua mô hình IOB, cùng với
từ loại và loại thực thể (named entity) v.v… để trích chọn đặc trưng làm đầu vào cho
các mô hình phân loại sử dụng các phương pháp học máy.
Thông thường có ba kiểu hệ thống sử dụng các phương pháp học máy là hệ
thống học có giám sát (Supervised), học không giám sát (Unsupervised) và học nửa
giám sát (Semisupervised). Tuy nhiên hệ thống sử dụng phương pháp học không giám
sát và học nửa giám sát ít được áp dụng cho bài toán nhận dạng thực thể, trên thế giới
cũng chỉ có một vài nghiên cứu về các hệ thống này, tiêu biểu như Collins giới thiệu
hệ thống sử dụng dữ liệu không gán nhãn (Collins 1999), Kim đưa ra hệ thống sử dụng
một từ điển tên riêng và tập dữ liệu không gán nhãn (Kim 2002).
Chương 2. Các hướng tiếp cận cho bài toán nhận dạng thực thể Nguyễn Bá Đạt
8
Hệ thống sử dụng phương pháp học có giám sát được sử dụng khá phổ biến
trong bài toán nhận dạng thực thể: Bikel giới thiệu hệ thống sử dụng Mô hình Markov
ẩn (Bikel - 1998), Borthwick giới thiệu hệ thống sử dụng Maximum Entropy
(Borthwick 1998), và Wu đưa ra hệ thống sử dụng phương pháp SVM cho bài toán
nhận dạng thực thể (Wu 2006). Mansouri có đưa ra một mô hình hệ thống khá mới: kết
hợp giữa hệ mờ (Fuzzy) và máy vector hỗ trợ (SVM). Thực thể được chia thành các
loại: ENAMEX (organization, person, location), TIMEX (date, time), NUMEX
(money, percent). Kết quả thu được cũng khá cao với F-measure khoảng 93%
(Mansouri 2008).
Tuy bài toán nhận dạng thực thể là một bài toán khá cơ bản trong trích chọn
thông tin và xử lý ngôn ngữ tự nhiên nhưng chưa có nhiều nghiên cứu về bài toán này
đối với tiếng Việt. Một trong những nghiên cứu đầu tiên là của tác giả Nguyễn với hệ
thống nhận dạng thực thể trong văn bản dựa trên mô hình Conditional Random Fields
(CRF) để xác định 8 loại thực thể: thực thể chỉ người (Person), thực thể chỉ địa danh
(Location), thực thể chỉ tổ chức (Organization), phần trăm, thời gian (Time), số
(Number), tiền tệ (Money) (Nguyễn 2005). Tác giả tiến hành thực nghiệm sử dụng
công cụ FlexCRFs2
-measure trung bình khoảng 80 ~ 81%.
2
- website chính thức của công cụ FlexCRFs.
Chương 2. Các hướng tiếp cận cho bài toán nhận dạng thực thể Nguyễn Bá Đạt
9
0
20
40
60
80
100
1 2 3 4 5 6 7 8 9 10
Precision Recall F-measure
Hình 2.1 - Kết quả cho 10 lần thực nghiệm của Nguyễn Cẩm Tú (Nguyễn 2005)
Trong khi đó Phạm giới thiệu hệ thống nhận dạng thực thể trong văn bản tiếng
Việt sử dụng phương pháp máy vector hỗ trợ (SVM) (Phạm 2007). Tác giả mô tả khá
kỹ quá trình xây dựng hệ thống song song với quá trình xây dựng tập dữ liệu bởi ở
Việt Nam hiện nay vẫn chưa có một tập dữ liệu chuẩn cho bài toán nhận dạng thực thể.
Tác giả chọn phương pháp xây dựng hệ thống bán tự động. Một trăm văn bản đầu tiên
được gán nhãn thực thể bằng tay, sau đó sử dụng dữ liệu này làm tập huấn luyện cho
thuật toán SVM tạo nên một hệ thống nhận dạng thực thể. Dùng hệ thống này để gán
nhãn tự động cho thực thể trong một trăm văn bản tiếp theo, sau đó chỉnh sửa lại bằng
tay và tiếp tục huấn luyện lại để tạo ra một hệ thống tốt hơn. Quá trình này được lặp đi
lặp lại nhiều lần cho đến khi thu được một tập dữ liệu được gán nhãn đủ lớn. Thực tế
quá trình nửa tự động ở đây không có ý nghĩa về mặt cải thiện kết quả cuối cùng của
hệ thống, mà nó chỉ có ý nghĩa giúp giảm công sức của việc gán nhãn bằng tay cho
một dữ liệu khổng lồ. Kết quả của hệ thống thu được F-measure khoảng 83.56%.
Trong đó tác giả cũng nhấn mạnh đến tầm quan trọng của một bộ tách từ tốt trong hệ
Chương 2. Các hướng tiếp cận cho bài toán nhận dạng thực thể Nguyễn Bá Đạt
10
thống nhận dạng thực thể với văn bản tiếng Việt (điều này sẽ được chúng tôi phân tích
rõ hơn trong chương 4).
Hệ thống sử dụng các phương pháp học máy luôn có tính tự động hóa cao, tuy
nhiên một yêu cầu không thể thiếu để mô hình hoạt động hiệu quả là một tập dữ liệu
lớn đã được gán nhãn chuẩn. Điều này đòi hỏi một quá trình chuẩn bị dữ liệu khá công
phu và mất thời gian khi bắt đầu làm trên một ngôn ngữ mới hoặc một lĩnh vực mới.
2.3 Hướng tiếp cận lai
“Hệ thống lai” là hệ thống kết hợp giữa hai hướng tiếp cận truyền thống, là sử dụng hệ
luật và các phương pháp học máy, nhằm sử dụng được ưu điểm của cả hai hướng tiếp
cận này. Tuy chưa có một nghiên cứu nào về hướng tiếp cận này đối với tiếng Việt,
nhưng cũng đã có một vài nghiên cứu đạt kết quả khá khả quan với tiếng Trung Quốc
được xem là khá gần gũi với tiếng Việt. Sirhari và X. Fang cùng đưa ra những hệ
thống lai kết hợp giữa các phương pháp học máy và hệ luật (Sirhari 2000, Fang 2002).
Đặc biệt hệ thống của X. Fang đã thu được những kết quả khá cao cho văn bản tiếng
Trung. Tuy chưa có nhiều nghiên cứu về hướng tiếp cận này cho bài toán nhận dạng
thực thể trong văn bản tiếng Việt, nhưng với những kết quả khả quan như vậy có thể
nó sẽ là hướng quan trọng trong tương lai.
Chương 3. Giới thiệu GATE Nguyễn Bá Đạt
11
Chương 3
Giới thiệu GATE
GATE là một khung làm việc mã nguồn mở cho các bài toán xử lý văn bản do nhóm
giáo sư Cunningham thuộc trường đại học Sheffield – Anh phát triển (H. Cunningham
– 2002). Có thể download phiên bản mới nhất của GATE miễn phí tại địa chỉ:
3.1 Tổng quan về GATE
Mô hình kiến trúc tổng quát của GATE được mô tả trong hình 3.1
Trong đó:
Tầng hiển thị (IDE GUI Layer): có nhiệm vụ hiển thị giao diện trực quan tương
tác với người dùng.
Tầng ứng dụng (Application Layer): gồm các ứng dụng khác nhau như bộ
ANNIE (có sẵn trong GATE) hay các thành phần tích hợp (Plugin) mới v.v…
Tầng xử lý định dạng văn bản (Document Format layer): có nhiệm vụ xử lý cho
từng định dạng văn bản khác nhau.
Tầng dữ liệu (Corpus Layer): Kho tài liệu gồm nhiều thành phần khác nhau
như: tập dữ liệu (Corpus) chứa các văn bản (Document), nội dung văn bản
(Document Content) gồm các bộ nhãn (Annotation Set), nhãn (Annotation)
gồm các đặc trưng (Feature Map) (các khái niệm sẽ được giải thích rõ trong
mục 3.2).
Chương 3. Giới thiệu GATE Nguyễn Bá Đạt
12
Tầng xử lý (Processing Layer): Gồm các thành phần xử lý khác nhau như: tách
từ (word segmentation), gán nhãn từ loại (POS), nhận dạng thực thể (NE) v.v…
Tầng nguồn ngôn ngữ (Language Resource Layer): gồm các kho dữ liệu khác
nhau như: tập từ điển (gazetteers), tập từ vựng (lexicon) v.v…
Tầng lưu trữ (DataStore Layer): Lưu trữ dữ liệu ở các dạng khác nhau.
Hình 3.1 - Kiến trúc tổng quát của GATE
Sở dĩ nói GATE như một khung làm việc chuẩn bởi nó có khá nhiều ưu điểm như:
Tính linh động: GATE có thể xử lý nhiều định dạng văn bản như: xml, pdf, text
v.v…
Chương 3. Giới thiệu GATE Nguyễn Bá Đạt
13
Tính đầy đủ: GATE cung cấp đầy đủ các thành phần cơ bản
o Thành phần ngôn ngữ (Language Resources): có thể là kho dữ liệu
(corpus) hoặc các tài nguyên khác như: tập từ điển (gazetteers), tập từ
vựng (lexicons) hay một cấu trúc (ontology).
o Thành phần xử lý (Processing Resource): là một chương trình được cài
đặt thuật toán xử lý trên các thành phần ngôn ngữ.
o Thành phần thể hiện (Visual Resource): là chương trình phân tích các
văn bản đã được xử lý và thể hiện chúng lên giao diện tương tác với
người dùng.
Tính khả dụng: GATE cung cấp một thư viện API khá linh hoạt và đầy đủ cho
người lập trình Java. Ngoài ra ta có thể rất dễ dàng thêm vào những thành phần
tích hợp (Plugin) mới, bởi cơ chế dễ dàng “thêm và tích hợp” của GATE.
Tính dễ dùng: GATE cũng cung cấp một giao diện đồ họa (GUI) cho phép
người dùng có thể thao tác một cách dễ dàng và trực quan.
Tuy vẫn còn một vài hạn chế về giao diện chưa ổn định, quản lý lưu trữ chưa thực sự
tốt v.v… nhưng với những ưu điểm nổi bật kể trên, GATE đã trở thành một khung làm
việc khá hiệu quả trong lĩnh vực xử lý văn bản.
3.2 Những khái niệm trong khung làm việc GATE
Trước khi tìm hiểu sâu hơn về GATE, chúng tôi sẽ giới thiệu một vài khái niệm được
sử dụng trong khung làm việc GATE.
Tập dữ liệu (Corpora): là một tập hợp các văn bản (Document).
Văn bản (Document): gồm nội dung văn bản, nhãn (annotations) và đặc trưng
(features)
Nhãn (Annotation): là một cấu trúc gồm điểm đầu (startNode), điểm cuối
(endNode), khóa (Id), kiểu (Type) và một tập các đặc trưng (FeatureMap). Ví
dụ về nhãn được minh họa trong bảng 3.1.
Chương 3. Giới thiệu GATE Nguyễn Bá Đạt
14
Tập đặc trưng (FeatureMap): là kiểu tập hợp (kiểu Map trong java) của các đặc
trưng.
Đặc trưng (Features): là cặp tên (kiểu String) và giá trị (kiểu Object).
Bảng 3.1 – Minh họa về nhãn (annotation)
3.3 Bộ từ điển (Gazetteers)
Bộ từ điển (gazetteers) gồm một tập hợp các từ điển nhỏ chứa các từ cùng loại theo
một nghĩa nào đó.
Ví dụ:
Theo tiêu chí loại tên ta có thể có các từ điển:
o từ điển tên người: Peter, Ronaldo, Jackson v.v…
o từ điển tên nước: England, American, Mexico v.v…
o từ điển tên thành phố: New York, LonDon, Paris v.v…
Theo tiêu chí vị trí của từ ta có thể có các từ điển:
o từ điển các thành phần đứng trước tên người: Mr, Mrs, Miss, Sir v.v…
o từ điển các thành phần đứng trước địa điểm: leave, live in v.v…
Chương 3. Giới thiệu GATE Nguyễn Bá Đạt
15
Mỗi một từ điển trong bộ từ điển được khai báo trong file list.def với bộ giá trị: tên file
chứa từ điển, giá trị đặc trưng thứ nhất (majorType), giá trị đặc trưng thứ hai
(minorType – có thể có hoặc không). Ví dụ: person.lst:name_person:person – khai báo
một từ điển trong file person.lst với hai đặc trưng majorType = “name_person” và
minorType = “person”.
Khi bộ từ điển hoạt động trên văn bản, các nhãn (annotations) kiểu Lookup
(một kiểu nhãn mặc định trong GATE) được tạo ra bằng cách so khớp các từ trong bộ
từ điển với các xâu trong văn bản. Ví dụ: trong văn bản xuất hiện từ Peter có trong từ
điển person.lst như khai báo ở trên. Thì tại xâu “Peter” trong văn bản sẽ xuất hiện một
nhãn (annotation) mới kiểu Lookup với hai đặc trưng: majorType = “name_person” và
minorType = “person”. Các nhãn (annotation) Lookup này sẽ được sử dụng trong khi
viết các luật JAPE.
GATE cũng hỗ trợ một công cụ tạo, chỉnh sửa và quan sát gazetteer đó là Gaze.
3.4 Bộ luật JAPE
Bộ luật JAPE là thành phần cơ bản trong khung làm việc của GATE, cho phép người
dùng viết biểu thức chính quy trên nhãn (annotation) và tạo ra các nhãn mới trong văn
bản. Một bộ luật JAPE có thể bao gồm nhiều luật nhỏ (phases). Mỗi luật nhỏ (phase)
gồm các mẫu (pattern) và cách thực thi (action) khác nhau có dạng: LHS (left-hand-
side) RHS (right-hand-side).
Ví dụ:
Rule: Person2
(
{Lookup.majorType == person }
):person
:person.Person = {kind = “Person”, rule = “Person gazetteer”}
Chương 3. Giới thiệu GATE Nguyễn Bá Đạt
16
Khi một luật JAPE thực thi thì các luật nhỏ trong nó được thi hành một cách tuần tự,
từ trên xuống.
Mệnh đề trái (LHS) là các biểu thức chính quy trên nhãn (annotation). Trong
khi đó mệnh đề phải thể hiện hành động cần được thực thi khi mệnh đề trái được thỏa
mãn (so khớp).
3.4.1 Mệnh đề trái (LHS)
Mệnh đề trái (LHS) là một biểu thức của các mẫu (annotation pattern) và các phép
toán như “ *, ?, +, | ”
Các phép toán sử dụng trong mệnh đề trái
| : phép hoặc
*: phép lặp (không hoặc nhiều lần)
?: phép lặp không hoặc một lần
+: phép lặp một hoặc nhiều lần
Ví dụ cho một mệnh đề trái:
({Person} | {Location}) : name
Trong ví dụ này cứ nhãn (annotation) có kiểu (Type) là Person hoặc Location sẽ được
được gán là một mẫu (pattern) “name”. Vậy mẫu là gì? Ta có thể đưa ra khái niệm về
mẫu như sau: một mẫu (pattern) gồm một hoặc nhiều nhãn (annotation) thỏa mãn các
lựa chọn (có thể về kiểu nhãn (annotation Type), có thể về các đặc trưng (features)
v.v…).
Trong một mệnh đề trái, ta có thể nhận nhiều mẫu, các mẫu có thể bao hàm lẫn
nhau. Ví dụ:
Chương 3. Giới thiệu GATE Nguyễn Bá Đạt
17
(
(
({Lookup.majorType == “jobtitle”}):job
)
{Person}
):person
Trong ví dụ trên một mệnh đề trái nhận ra hai mẫu (pattern): job và person, trong đó
mẫu job nằm trong mẫu person.
Các mẫu được gán trong mệnh đề trái sẽ được sử dụng trong mệnh đề phải (RHS).
3.4.2 Thành phần thay thế (Macros)
Thành phần thay thế (Macros) thường xuyên được sử dụng trong các mệnh đề trái. Nó
thay thế cho một tập các lệnh, giúp cho bộ luật đơn giản và rõ ràng hơn. Một thành
phần thay thế (Macros) có thể gọi một thành phần thay thế khác bên trong nó. Ngoài
ra, khi một thành phần thay thế đã được khai báo thì mọi luật trong bộ luật đều có thể
sử dụng nó mà không cần phải khai báo lại.
Ví dụ về thành thần thay thế (Macros) - khai báo thành phần thay thế NEWTITLE
Macro: NEWTITLE
(
{Title}
({Word.string == "."})?
({Title})?
({Word.string == "."})?
)
Chương 3. Giới thiệu GATE Nguyễn Bá Đạt
18
Sử dụng NEWTITLE trong mệnh đề trái của luật TitlePerson.
Rule: TitlePerson
(
(NEWTITLE)
({Upper})
):name
-->
...
3.4.3 Mệnh đề phải (RHS)
Mệnh đề phải sử dụng các mẫu (pattern) được cung cấp bởi mệnh đề trái để thực thi
một mệnh lệnh nào đó, thông thường là tạo ra các nhãn (annotation) mới.
Ví dụ:
Rule: City
(
{Lookup.majorType == “name_city”}
):name
:name.Location = {kind="city", rule=„„Search in gazetters‟‟
Trong ví dụ trên, mệnh đề trái cung cấp cho mệnh đề phải các mẫu (pattern) là tên các
thành phố (tìm trong từ điển có majorType =“name_city”). Mệnh đề phải tạo ra các
nhãn mới (annotations) tương ứng với các mẫu (pattern) nhận được. Nhãn (annotation)
mới được tạo ra có kiểu là “Location” và hai đặc trưng (feature) là kind = “city” và
rule = “Search in gazetters”.
Chương 3. Giới thiệu GATE Nguyễn Bá Đạt
19
3.4.4 Sử dụng đoạn mã Java trong JAPE
Để tăng tính linh động và hiệu quả, bộ luật JAPE hỗ trợ chèn những đoạn mã JAVA
vào trong mệnh đề phải. Nhờ đó ngoài việc tạo ra các nhãn (annotations) mới, mệnh đề
phải còn có thể làm rất nhiều việc khác như: chèn thêm các đặc trưng (features), thay
đổi kiểu nhãn (Type) hay xóa các nhãn đã tồn tại v.v…
Ví dụ:
Rule: Person1
(
{Lookup.majorType == person }
):person
{
gate.AnnotationSet person = gate.AnnotationSet)bindings.get("person");
gate.Annotation personAnn = (gate.Annotation)person.iterator().next();
gate.FeatureMap features = Factory.newFeatureMap();
features.put("gender", personAnn.getFeatures().get("minorType"));
features.put("rule", "Person gazetteer");
outputAS.add(person.firstNode(), person.lastNode(), "Person",features);
}
Rule: Person2
(
{Lookup.majorType == person }
):person
Chương 3. Giới thiệu GATE Nguyễn Bá Đạt
20
:person.Person = {kind = “Person”, rule = “Person gazetteer”}
Để thấy định tính hiệu quả của các đoạn mã JAVA trong mệnh đề phải, ta so sánh hai
luật Person1 và Person2. Cả hai luật đều nhận từ mệnh đề trái các mẫu (pattern) thỏa
mãn nằm trong từ điển có “majorType = person”. Ở luật Person2 (không dùng mã
JAVA) người viết luật không thể sử dụng bất kỳ thông tin nào khác, vì thế việc tạo ra
các nhãn mới (annotations) không mang đầy đủ thông tin cần thiết. Trong khi đó luật
Person1 có thể sử dụng thêm nhiều thông tin khác như: các đặc trưng còn lại của mẫu
do vế trái cung cấp (ví dụ: “personAnn.getFeatures().get("minorType")”) và sử dụng
nó để tạo nên các nhãn mới mang nhiều thông tin hơn.
3.4.5 Một vài lựa chọn khi viết luật
Thành phần đầu tiên của mỗi luật (phase) JAPE luôn là các lựa chọn như:
Kiểu điều khiển (Control) để quản lý cách so khớp mẫu. Có 5 lựa chọn cho kiểu
điều khiển là “brill”, “all”, “first”, “once” và “appelt”
o “brill”: khi có nhiều hơn một luật cùng thỏa mãn cho một đoạn của văn
bản, thì tất cả các luật này đều được thực thi. Sau khi quá trình so khớp
(matching) diễn ra ở tất cả các luật thì điểm bắt đầu quá trình so khớp
tiếp theo sẽ là điểm kết thúc của luật được so khớp dài nhất trong quá
trình trước (longest matching).
o “all”: cũng giống như “brill” nó cho phép thực hiện nhiều luật trên cùng
một đoạn văn bản. Tuy nhiên có điểm khác biệt với “brill” đó là: điểm
bắt đầu quá trình so khớp tiếp theo là điểm bắt đầu của nhãn (annotation)
gần nhất sau nó.
o “first”: luật được thực hiện ngay khi quá trình so khớp đầu tiên được
thỏa mãn. Bởi vậy nó không thích hợp cho các luật sử dụng “*”, “+”,
“?”.
o “once”: chỉ có luật đầu tiên thỏa mãn quá trình so khớp được thực hiện
Chương 3. Giới thiệu GATE Nguyễn Bá Đạt
21
o “appelt”: chỉ một luật (rule) thỏa mãn quá trình so khớp và có độ thực thi
cao nhất được thực hiện. Độ thực thi của các luật được tính như sau:
Tất cả các luật cùng thỏa mãn so khớp từ vị trí X thì luật nào so
khớp được dài nhất (longest matching) sẽ có độ thực thi cao nhất.
Nếu có nhiều hơn một luật so khớp cùng một đoạn trong văn bản
thì luật nào được định nghĩa độ ưu tiên cao hơn sẽ có độ thực thi
cao hơn và được thi hành.
Nếu có hai hay nhiều luật so khớp cùng một đoạn trong văn bản
và có độ ưu tiên như nhau thì luật nào được định nghĩa sớm nhất
sẽ có độ thực thi cao nhất và được thi hành.
Kiểu gỡ rối (Debug): Khi kiểu gỡ rối được bật, kiểu điều khiển là “appelt” và
có nhiều hơn hai sự so khớp có thể xảy ra, sự xung đột sẽ được hiển thị cho
người dùng qua dòng thông báo trên màn hình.
Tập các nhãn đầu vào (Input Annotations): các nhãn (annotations) có kiểu
(Type) thuộc tập các nhãn đầu vào sẽ được sử dụng như là đầu vào cho các
mệnh đề trái (quá trình so khớp).
Ví dụ minh họa cho một luật JAPE:
Phase: Location
Input: Token SpaceToken Lookup
Options: control = appelt
Rule: Location
Priority: 25
(
({Lookup.majorType == “pre_loc”}
{SpaceToken})?
{Lookup.majorType == location}
Chương 3. Giới thiệu GATE Nguyễn Bá Đạt
22
):locName
-->
:locName.Location = {kind = "location", rule = "pre_loc + location"}
Rule: SearchGazetteers
Priority: 20
(
({Lookup.majorType == location}):loc
)
-->
:loc.Name = {kind = "location", rule=GazLocation}
Ví dụ trên đã sử dụng:
Tập các nhãn đầu vào gồm các nhãn có kiểu (Type): “Token”, “SpaceToken”,
“Lookup”.
Kiểu điều khiển: “appelt”
Luật (phase) gồm hai luật nhỏ (rule) đó là: Location với độ ưu tiên là 25 và
SearchGazetteers với độ ưu tiên là 20.
3.5 Tạo thêm thành phần tích hợp trên khung làm việc GATE
Một thành phần tích hợp (Plugin) có thể gồm ba loại: thành phần ngôn ngữ (Language
Resources), thành phần xử lý (processing Resource), thành phần thể hiện (Visual
Resource) (tham khảo khái niệm ở mục 3.1). Thành phần tích hợp được sử dụng để tạo
nên các ứng dụng trong GATE (mục 3.6). Ví dụ: hệ thống nhận dạng thực thể trong
văn bản tiếng Việt của chúng tôi gồm 3 thành phần tích hợp (mục 4.3):
Bộ tách từ và gán nhãn từ loại – Coltech.NLP.tokenizer.
Chương 3. Giới thiệu GATE Nguyễn Bá Đạt
23
Bộ từ điển – VNEgazetteer.
Bộ luật – VNEtransducer.
Ở đây với bài toán nhận dạng thực thể, tôi chỉ giới thiệu sâu về cách tạo một thành
phần xử lý (processing Resource).
Việc tạo ra một thành phần xử lý rất đơn giản, được thực hiện qua các bước:
Tạo lớp Plugin (tên thành phần xử lý) kế thừa (extends) lớp
AbstractProcessingResource và thể hiện (implements) lớp ProcessingResource.
Tạo file creole.xml khai báo thành phần xử lý mới. Ví dụ:
Coltech.NLP.tokenizer
Vtokenizer.jar
Vtokenizer
gate.Document
<PARAMETER NAME="annotationOutputSetName"
RUNTIME="true" OPTIONAL="true">
java.lang.String
Chương 3. Giới thiệu GATE Nguyễn Bá Đạt
24
Sau khi đã có thành phần tích hợp (Plugin), có hai cách để thêm thành phần này vào
khung làm việc của GATE.
Cách 1: đặt thư mục chứa toàn bộ thành phần tích hợp vào trong %GATE-
HOME%/plugins. Chạy lệnh “bin/ant plugins.build”, hệ thống GATE sẽ tự
động thêm thành phần tích hợp vào hệ thống.
Cách 2: Chọn File -> Manage CREOLE plugins -> Add new CREOLE
repository -> Select a directory và chọn thư mục chứa thành phần tích hợp mới
tạo (hình 3.2).
Như vậy, ta đã có một thành phần tích hợp mới sẵn sàng hoạt động trên khung làm
việc GATE.
Hình 3.2 - Giao diện thêm một thành phần tích hợp vào GATE.
Chương 3. Giới thiệu GATE Nguyễn Bá Đạt
25
Hình 3.3 - Chọn các thành phần cho ứng dụng GATE
3.6 Tạo ứng dụng trên GATE
Một ứng dụng (Application) trên GATE bao gồm một tập các thành phần tích hợp
(Plugin). Ta có thể chọn các thành phần phù hợp, hoặc loại bỏ những thành phần tích
hợp không cần thiết cho ứng dụng (hình 3.3). Chính nhờ cơ chế này, chúng tôi có thể
dễ dàng kết hợp sử dụng các thành phần tích hợp đã được xây dựng sẵn trong GATE
cùng với những thành phần tích hợp mới do chúng tôi xây dựng để tiết kiệm chi phí và
đạt hiệu quả cao hơn.
3.7 Các công cụ quản lý chất lượng
Khi phát triển một hệ thống, các công cụ quản lý chất lượng là rất cần thiết. Việc luôn
luôn có sự đánh giá chất lượng ngay từ giai đoạn xây dựng tập dữ liệu cho đến những
Chương 3. Giới thiệu GATE Nguyễn Bá Đạt
26
giai đoạn cuối cùng (đánh giá kết quả làm việc của hệ thống) giúp hệ thống luôn vận
hành tốt trong sự kiểm soát của người phát triển.
3.7.1 Công cụ đánh giá độ tương đồng khi gán nhãn hai văn bản
(Annotation Diff)
“Annotation Diff” cho phép người sử dụng so sánh hai văn bản được gán nhãn
(Annotated Document) trên từng loại nhãn (annotation). Điều này mang lại rất nhiều
lợi ích trong giai đoạn xây dựng tập dữ liệu. Bởi để mang tính khách quan, ta luôn
luôn phải có hai đội xây dựng tập dữ liệu độc lập và khi đó “Annotation Diff” sẽ giúp
so sánh những phần làm việc chung, để đi đến thống nhất tạo ra một tập dữ liệu chuẩn.
Trong ví dụ ở hình 3.4 là giao diện của “Annotation Diff” khi so sánh hai văn bản
doctest (Key Document) và doc (Respone Document) với kiểu nhãn (Annotation
Type) “Location”. Khi so sánh hai văn bản, những nhãn (annotation) giống nhau sẽ
được bỏ qua, những nhãn khác nhau sẽ được hiển thị lên giao diện đồ họa để người
dùng có thể dễ dàng quan sát được. Ngoài ra “Annotation Diff” cũng cung cấp ba
thông số đo độ chính xác cơ bản là “Recall, Precision và F-Measure”.
Tuy nhiên điểm hạn chế của “Annotation Diff” là chỉ so sánh được từng cặp
văn bản, và từng kiểu nhãn khác nhau.
3.7.2 Công cụ đánh giá chất lượng của hệ thống (Corpus Benchmark
tool)
Đây là công cụ cho phép người sử dụng đánh giá độ tương đồng của các tập dữ
liệu khác nhau như: tập dữ liệu được gán nhãn (annotated corpus) bằng tay, tập dữ liệu
được xử lý bởi hệ thống hiện hành, hay tập dữ liệu được xử lý bởi một hệ thống được
lưu trữ. Corpus Benchmark tool hoạt động cũng hoạt động tương tự như Annotation
Diff, nhưng là trên một tập văn bản và tất cả các nhãn. Giao diện của Corpus
Benchmark tool như hình 3.5.
Chương 3. Giới thiệu GATE Nguyễn Bá Đạt
27
Hình 3.4 - Giao diện của Annotation Diff
Hình 3.5 - Giao diện của Corpus Benchmark tool
Chương 4. Nhận dạng thực thể trong văn bản tiếng Việt Nguyễn Bá Đạt
28
Chương 4
Nhận dạng thực thể trong văn bản tiếng Việt
Cùng với sự phát triển của lĩnh vực xử lý ngôn ngữ tự nhiên cho tiếng Việt, bài toán
nhận dạng thực thể trong văn bản tiếng Việt đã hình thành và bắt đầu thu được những
kết quả khả quan. Một số hệ thống tiêu biểu như: hệ thống nhận dạng thực thể trong
văn bản dựa trên mô hình Conditional Random Fields (CRF) (Nguyễn 2005), hệ thống
nhận dạng thực thể sử dụng phương pháp máy vector hỗ trợ (SVM) (Phạm 2007), hệ
thống VN-KIM NE, nhận biết và chú thích tự động cho các thực thể (Cao 2007).
Tuy nhiên cho đến thời điểm này vẫn chưa có những quy chuẩn cho bài toán
nhận dạng thực thể trong văn bản tiếng Việt, ví dụ như:
Chưa có tập các loại nhãn chuẩn cho thực thể: Nguyễn đưa ra 8 loại nhãn cho
thực thể (Nguyễn 2005), Phạm đưa ra 22 loại nhãn (Phạm 2007), trong khi Cao
nhận diện 7 loại thực thể (Cao 2007).
Chưa có một khung làm việc chuẩn. Các hệ thống nhận dạng thực thể hiện nay
ở Việt Nam xây dựng trên nền mã nguồn đóng, và rất khó để cộng đồng có thể
tiếp cận sử dụng và phát triển.
Bởi vậy, chúng tôi quyết định xây dựng một hệ thống nhận dạng thực thể trong văn
bản tiếng Việt bắt đầu từ việc định nghĩa các thực thể, các loại thực thể cho đến một
khung làm việc và tập dữ liệu được gán nhãn chuẩn. Hệ thống sẽ được xây dựng trên
khung làm việc GATE và được mở cho cộng đồng có thể sử dụng và phát triển.
Chương 4. Nhận dạng thực thể trong văn bản tiếng Việt Nguyễn Bá Đạt
29
4.1 Định nghĩa thực thể, các loại thực thể và cách phân biệt các
loại thực thể
Trước hết, chúng ta cần có những định nghĩa về thực thể, các loại thực thể được nhận
dạng và cách phân biệt các loại thực thể. Tham khảo các khái niệm này trong tiếng
Anh (Annotation Guideline for Named Entity Recognization) và các tài liệu tiếng Việt
(Mai 2008) liên quan, chúng tôi đưa ra các khái niệm cơ bản cho bài toán nhận dạng
thực thể trong văn bản tiếng Việt (tham khảo chi tiết tại phụ lục A).
4.1.1 Các khái niệm cơ bản
4.1.1.1 Định nghĩa thực thể và tên thực thể
Thực thể (entity): là một đối tượng hoặc một tập hợp đối tượng trong thế giới tự
nhiên.
Thực thể thể hiện trong các dạng :
o Tên riêng (name entity).
o Danh từ hoặc cụm danh từ chung (common noun, noun phrase).
o Đại từ (pronoun).
Trong khuôn khổ của khóa luận, để thuận tiện chúng tôi sử dụng cụm “nhận dạng thực
thể” để chỉ việc nhận dạng các thực thể có tên (thể hiện dưới dạng tên riêng).
4.1.1.2 Các loại thực thể được nhận dạng
o Person: Thực thể chỉ người
o Organization: Thực thể chỉ một tổ chức, một nhóm người được thành lập theo
một cấu trúc phân cấp nào đó.
o Facility: Thực thể chỉ những thực thể do con người tạo ra thường là các thực thể
xây dựng và kiến trúc, như sân vận động, bảo tàng, nhà ga v.v…
Chương 4. Nhận dạng thực thể trong văn bản tiếng Việt Nguyễn Bá Đạt
30
o Location: Thực thể chỉ những thực thể địa lý như vùng lãnh thổ, địa danh, sông,
suối v.v…
o Nationality: Thực thể chỉ quốc tịch người, hoặc thuộc về quốc gia.
o Religion: Thực thể chỉ các tổ chức tôn giáo.
4.1.2 Quy tắc nhận dạng thực thể
Khi nhận dạng thực thể trong văn bản ta phải đảm bảo quy tắc: không có các tên lồng
nhau. Một tên mới chỉ được nhận khi tên cũ đã kết thúc (không bao giờ có hai tên có
phần chung). Trong trường hợp có sự lồng nhau giữa các tên, chỉ một tên dài nhất
được nhận (longest matching – dài thì thắng).
Ví dụ trong câu:
“Phòng Giáo dục huyện Mỹ Đức đang họp giao ban.”
ta chỉ nhận “Phòng Giáo dục huyện Mỹ Đức” là thực thể chỉ các tổ chức
(Organization) và bỏ qua thực thể chỉ địa điểm “Mỹ Đức”.
4.2 Chuẩn bị tập dữ liệu
Tuy không cần thiết có một tập dữ liệu được gán nhãn lớn để dùng trong giai đoạn
huấn luyện như những hệ thống sử dụng các phương pháp học máy, nhưng với mục
đích xây dựng thêm một bộ dữ liệu chuẩn, cùng với những khó khăn trong vấn đề nhập
nhằng ngôn ngữ khi viết luật, chúng tôi quyết định xây dựng song song hệ thống nhận
dạng thực thể và tập dữ liệu được gán nhãn chuẩn, trong đó tập văn bản ban đầu được
lấy từ đề tài: “Nghiên cứu phát triển một số sản phẩm thiết yếu về xử lý tiếng nói và
văn bản tiếng Việt”, mã số KC01.01/06-10. Quá trình phát triển đồng thời hai thành
phần như vậy mang lại rất nhiều lợi ích như:
Tiết kiệm thời gian và công sức so với việc hoàn toàn gán nhãn bằng tay cho
tập dữ liệu.
Chương 4. Nhận dạng thực thể trong văn bản tiếng Việt Nguyễn Bá Đạt
31
Quá trình chuẩn hóa lại tập thực thể được nhận sai của hệ thống đem lại cho
chúng tôi nhiều kinh nghiệm để hoàn thiện bộ luật cũng như bộ từ điển trong hệ
thống.
Mô hình của hệ thống được mô tả quá trình phát triển của hệ thống trong hình 4.1.
Hình 4.1 - Mô hình các bước phát triển của hệ thống
Đầu tiên chúng tôi xây dựng rất nhanh một hệ thống nhận dạng thực thể sử
dụng bộ luật Jape cho văn bản tiếng Việt có thể dùng được. Sau khi hệ thống đã hình
thành, chúng tôi sử dụng nó để gán nhãn tự động cho văn bản (một tập văn bản). Tập
văn bản được gán nhãn tự động này còn mang nhiều lỗi, được chúng tôi chuẩn hóa
thành những văn bản được gán nhãn chuẩn và thêm nó vào tập dữ liệu (corpus). Tuy
đã tiết kiệm được khá nhiều thời gian và công sức nhờ mô hình gán nhãn tự động
nhưng việc chuẩn hóa lại cũng gặp phải một số khó khăn như:
Chương 4. Nhận dạng thực thể trong văn bản tiếng Việt Nguyễn Bá Đạt
32
Mang tính chủ quan, dễ mắc sai sót.
Nhiều trường hợp nhập nhằng rất khó để phân loại.
Chính vì những lý do trên, chúng tôi chia ra làm hai đội, gán nhãn lại độc lập với nhau.
Sau đó sử dụng bộ công cụ Coltech.NE.tool do nhóm tự xây dựng dựa trên các bộ
công cụ quản lý chất lượng của GATE (Annotation Diff, Corpus Benchmark tool) để
so khớp và thống nhất. Quá trình chuẩn hóa và phân tích lỗi giúp chúng tôi tiếp tục
hoàn thiện hệ thống nhận dạng thực thể. Các bước cứ được tiến hành như vậy cho đến
khi hệ thống nhận dạng thực thể đạt hiệu quả như mong muốn.
4.3 Xây dựng hệ thống nhận dạng thực thể trong văn bản tiếng
Việt
Tính hiệu quả của khung làm việc GATE cho bài toán nhận dạng thực thể đã được
chứng minh qua nhiều nghiên cứu (Maynard 2001, Cao 2007), bởi vậy chúng tôi quyết
định xây dựng hệ thống nhận dạng thực thể trong văn bản tiếng Việt như một thành
phần tích hợp (Plugin) trên GATE nhằm tận dụng những ưu điểm mà GATE mang lại.
Tham khảo kiến trúc của bộ ANNIE (một thành phần tích hợp có sẵn trong GATE)
chúng tôi đưa ra kiến trúc hệ thống như hình 4.2.
Hình 4.2 - Mô tả chi tiết hệ thống nhận dạng thực thể trong văn bản tiếng Việt
Chương 4. Nhận dạng thực thể trong văn bản tiếng Việt Nguyễn Bá Đạt
33
Hệ thống bao gồm 4 phần chính:
Bộ tách từ
Bộ gán nhãn từ loại
Bộ từ điển
Bộ luật
Ta có thể hình dung một cách tổng quan các bước hoạt động của hệ thống như sau:
trước tiên, văn bản được tách từ và gán nhãn từ loại. Sau đó bộ từ điển hoạt động tìm
ra một lớp các thực thể bằng phép so khớp (matching). Cuối cùng bộ luật nhận dạng
lại các thực thể, gán nhãn cho từng thực thể trong văn bản, và trả ra kết quả.
Để hiểu chi tiết hơn về hệ thống nhận dạng thực thể trong văn bản tiếng Việt
trên nền GATE, ta sẽ đi sâu tìm hiểu từng bộ phận của hệ thống.
4.3.1 Bộ tách từ và bộ gán nhãn từ loại
Một nét đặc trưng rất khác biệt của tiếng Việt so với tiếng Anh đó là vấn đề tách từ
(word segmentation). Trong tiếng Anh các từ được phân biệt bởi dấu trống, tuy nhiên
từ trong tiếng Việt thì không như vậy. Một từ có thể bao gồm một, hai, ba hoặc nhiều
hơn các tiếng. Một tiếng có thể liên kết với từ đứng trước nó, hoặc đứng sau nó để tạo
thành từ. Ví dụ như câu:
“Học sinh học sinh học.”
Có thể tách câu trên như sau:
“Học_sinh học sinh_học.”
hay
“Học sinh_học sinh_học.”
Như vậy tiếng “sinh” có thể kết hợp với tiếng “Học” đứng trước nó để tạo thành từ
“Học sinh”, hay nó còn có thể kết hợp với tiếng “học” đứng sau nó để tạo thành từ
“sinh_học”.
Chương 4. Nhận dạng thực thể trong văn bản tiếng Việt Nguyễn Bá Đạt
34
Quay trở lại bài toán nhận dạng thực thể trong văn bản tiếng Việt, đương nhiên
thực thể phải là từ, hoặc cụm từ mang ý nghĩa. Chúng ta không thể nhận một cụm các
tiếng không mang một ý nghĩa gì làm thực thể. Vậy yêu cầu đầu tiên của giai đoạn tiền
xử lý cho bài toán nhận dạng thực thể là bài toán tách từ trong tiếng Việt. Một hệ
thống nhận dạng thực thể chỉ có thể tốt khi có một bộ tách từ hoạt động tốt. Lấy câu
sau đây làm ví dụ:
“Anh Hùng lái xe trên đại lộ 5.”
Nếu bộ tách từ hoạt động chính xác, câu đó sẽ được tách thành:
“Anh Hùng lái_xe trên đại_lộ 5.”
Từ “Hùng” đứng sau tiền tố nhận dạng “Anh” sẽ được nhận là thực thể chỉ người
và chính xác. Tuy nhiên nếu bộ tách từ hoạt động không chính xác và câu
được tách thành:
“Anh_Hùng lái_xe trên đại_lộ 5.”
Khi đó trong tập các từ hoàn toàn không có từ “Hùng” và việc nhận ra “Hùng” là thực
thể tên người sẽ trở nên rất khó khăn.
Ngoài yêu cầu bắt buộc về một bộ tách từ, chúng tôi còn sử dụng thêm bộ gán
nhãn từ loại trong giai đoạn tiền xử lý của hệ thống, nhằm cung cấp được nhiều thống
tin cho các giai đoạn xử lý tiếp theo. Chúng tôi đóng gói bộ WS&PT.2IN1.4VN (Phạm
2009) thành plugin Coltech.NLP.tokenizer trong khung làm việc GATE. Nhờ đó bộ
tách từ và gán nhãn từ loại có thể dễ dàng thay đổi, cải tiến mà không làm ảnh hưởng
đến kiến trúc của hệ thống.
Các văn bản sau khi được xử lý bởi Coltech.NLP.tokenizer sẽ trở thành văn bản
ở định dạng của GATE tức là gồm: nội dung văn bản, tập các nhãn (annotation) và tập
các đặc trưng (tham khảo 3.2). Ở đây chúng tôi chỉ tạo ra các nhãn “Word” và “Split”
Mỗi nhãn (annotation) “Word” được tạo mới trên một từ gồm một vài đặc trưng
như:
o Từ loại (POS): là từ loại của từ. Ví dụ: Np, Nn v.v…(tham khảo tại phụ
lục B).
Chương 4. Nhận dạng thực thể trong văn bản tiếng Việt Nguyễn Bá Đạt
35
o Nội dung (string): là xâu thể hiện từ. Ví dụ: “học sinh”, “đại ca” v.v…
o Viết hoa (upper): nếu ký tự đầu tiên của từ viết hoa thì upper = “true”.
Ngược lại upper = “false”.
o Ngoài ra còn một số đặc trưng như: kind, nation v.v…để giúp ích cho
quá trình viết luật.
Mỗi nhãn “Split” được tạo mới trên một dấu tách câu như: “.”, “?”, “!”, cũng có
những đặc trưng tương tự như nhãn “Word”.
Sau khi Coltech.NLP.tokenizer hoàn thành, chúng tôi bước vào xây dựng thành phần
xử lý chính trong hệ thống: gồm hai nguồn xử lý (Processing Resource) VNEgazetteer
như một bộ từ điển, và VNEtransducer như một bộ luật. Hai nguồn xử lý này được xây
dựng và phát triển song song cùng với quá trình tạo tập dữ liệu được gán nhãn
(Annotated corpus).
4.3.2 Bộ từ điển
Bộ từ điển (VNEgazetteer) được tạo từ nhiều từ điển với các tiêu chí khác nhau, nhằm
nhận dạng được một lớp các thực thể nhờ quá trình so khớp, cũng như cung cấp những
thông tin cần thiết cho quá trình nhận dạng trong bộ luật. Mỗi từ điển gồm các từ mang
cùng một ý nghĩa nào đó, có thể là chứa các thực thể cùng loại như: tên người, tên tổ
chức v.v… hay chứa các từ, cụm từ đóng những vai trò giống nhau về mặt cú pháp,
ngữ nghĩa, hoặc chỉ đơn giản là để sử dụng cho một luật nào đó trong bộ luật. Bộ từ
điển được chúng tôi xây dựng nhờ những kinh nghiệm có được trong quá trình gán
nhãn bằng tay, và vẫn đang được tiếp tục phát triển.
Có thể chia bộ từ điển thành những nhóm sau:
Những từ điển chứa các tên các thực thể được nhận dạng
o Từ điển tên người:
Chứa các tên đầy đủ: Hồ Chí Minh, Nguyễn Tấn Dũng v.v…
Chứa các tên viết tắt: Sơn, Duy, Đại, Đạt v.v…
Chứa các tên đặc biệt: Bà Trưng, Bà Triệu v.v…
Chương 4. Nhận dạng thực thể trong văn bản tiếng Việt Nguyễn Bá Đạt
36
o Từ điển tên tổ chức: chứa tên các tổ chức như OPEC, G8, G7 v.v…
o Từ điển tên địa điểm: gồm 3 từ điển nhỏ
Từ điển tên nước: Việt Nam, Pháp, Canada v.v…
Từ điển tên các thành phố trên thế giới: NewYork, Paris v.v…
Từ điển tên các vùng miền: miền Bắc, miền Anh, châu Á v.v…
o Từ điển tên các công trình đặc biệt như: Kim tự tháp, BigBen v.v…
o Từ điển tên các tổ chức tôn giáo: Hội Phật Giáo, Thiên Chúa Giáo v.v…
Những từ điển dùng cho việc nhận dạng trong bộ luật:
o Từ điển các từ đứng trước tên người: anh, cô, chú, ông v.v…
o Từ điển các động từ thường đứng sau tên người: cười, khóc, nói v.v…
o Từ điển các từ đứng trước tên tổ chức: công ty, tập đoàn, bệnh viện
v.v…
o Từ điển các từ đứng trước tên địa điểm: đảo, biển, thành phố, quận,
huyện v.v…
o Từ điển các từ đứng trước thực thể chỉ quốc gia: người, chính phủ v.v…
o Từ điển các từ đứng trước các công trình: cầu, tòa nhà, cảng v.v…
Từ điển chứa các từ gây ra sự nhập nhằng:
o Từ điển các từ nhập nhằng giữa tổ chức và công trình như: Lầu Năm
Góc, Nhà Trắng v.v…
o Từ điển các từ nhập nhằng giữa tên người, tên địa điểm và quốc gia:
Anh, Mỹ, Nga, Nhật v.v…
VNEgazetteer hoạt động tạo ra một tập các nhãn (annotation) Lookup (loại
nhãn mặc định của GATE). Mỗi một nhãn Lookup được tạo mới tương ứng với một từ
hoặc cụm từ của văn bản xuất hiện trong bộ từ điển (gazetteer) và chứa các đặc trưng
Chương 4. Nhận dạng thực thể trong văn bản tiếng Việt Nguyễn Bá Đạt
37
của từ điển (bao gồm majorType và minorType). Như vậy sau hai quá trình xử lý là
Coltech.NLP.tokenizer và VNEgazetteer, văn bản đã được gán ba kiểu nhãn
(annotation) là: “Word”, “Split” và “Lookup”.
4.3.3 Bộ luật
Song song với quá trình xây dựng bộ từ điển (VNEgazetteer) chúng tôi tiến hành xây
dựng bộ luật (VNEtransducer) – thành phần quan trọng nhất trong hệ thống của chúng
tôi. Bộ luật sử dụng các thông tin do các thành phần khác trong hệ thống (bộ tách từ,
bộ gán nhãn từ loại, bộ từ điển) cung cấp để nhận dạng các thực thể (thực thể và loại
thực thể). Có thể mô tả các bước hoạt động của bộ luật do chúng tôi xây dựng như sau:
Tiền xử lý
o Loại bỏ các nhãn “Lookup” không cần thiết, hoặc có thể đưa những thông
tin sai cho quá trình nhận dạng.
o Tạo ra nhãn (annotation) NamePhrase dùng làm thành phần chính cho quá
trình nhận dạng thực thể.
Xử lý
o Nhận dạng các thực thể chỉ công trình và xử lý nhập nhằng giữa
hai loại thực thể và
o Nhận dạng các thực thể chỉ địa điểm và các thực thể thuộc về
quốc gia
o Nhận dạng các thực thể chỉ tổ chức
o Nhận dạng các thực thể chỉ các tổ chức tôn giáo
o Nhận dạng các thực thể chỉ người
o Sử dụng ngữ cảnh và quá trình nhận dạng thông minh.
Kiến trúc của bộ luật được chúng tôi đưa ra gồm nhiều bước, nhằm giải quyết từng
nhóm thực thể mang độ nhập nhằng cao: và ,
và v.v… Ngoài ra, các bước xử lý sau có thể sử dụng các thực thể được
Chương 4. Nhận dạng thực thể trong văn bản tiếng Việt Nguyễn Bá Đạt
38
nhận dạng ở bước xử lý trước làm thông tin cho việc nhận dạng của mình. Ví dụ: sử
dụng để nhận dạng (chi tiết tại mục 4.3.3.5).
Bộ luật được phát triển dựa trên những kinh nghiệm của quá trình phân tích lỗi, hay
nói cách khác nó ngày càng hoàn thiện hơn sau mỗi lần chúng tôi phát hiện lỗi và sửa
lỗi. Để đảm bảo việc phát triển các luật không làm ảnh hưởng đến những thành quả đã
có của hệ thộng, chúng tôi luôn sử dụng unit testing trong suốt quá trình viết luật.
4.3.3.1 Chuẩn hóa tập nhãn Lookup
Hoạt động đầu tiên của bộ luật là loại bỏ đi những nhãn Lookup chỉ là tiếng không
phải là từ, không mang đúng ngữ nghĩa trong văn cảnh. Ví dụ trong câu:
“Thị trường Việt Nam thật ảm đảm trong thời kỳ khủng hoảng”.
Vì trong từ điển các từ đứng trước các thực thể chỉ tổ chức do chúng tôi xây
dựng có chứa từ “trường”, nên hiển nhiên sẽ có một nhãn (annotation) Lookup được
tạo ra ở tiếng “trường”. Tuy nhiên nếu chúng ta thừa nhận nhãn (annotation) này tức là
chúng ta công nhận tiếng “trường” như một từ mang ý nghĩa “trường học” và hiển
nhiên là không đúng trong văn cảnh này bởi nó nằm trong từ “thị trường”. Những nhãn
(annotation) như vậy bị chúng tôi loại bỏ vì nó sẽ mang lại những sai lầm trong quá
trình nhận dạng. Nhờ có bước này mà từ “Việt Nam” trong câu ví dụ được nhận là
chứ không phải là .
4.3.3.2 Tạo nhãn “NamePhrase”
Sau quá trình chuẩn hóa tập nhãn “Lookup”, chúng tôi gộp những nhãn có kiểu
“Word” và có đặc trưng “upper = true” cạnh nhau lại thành một nhãn (annotation)
mới: nhãn “NamePhrase”. Ví dụ câu:
“Chủ nhật tới, công ty TNHH Tân Phát Hoàn Cầu sẽ khai trương.”
các nhãn Word: “TNHH”, “Tân Phát”, “Hoàn Cầu” sẽ được gộp lại với nhau thành
một nhãn mới NamePhrase “TNHH Tân Phát Hoàn Cầu”. Có thể hình dung giai đoạn
này chúng tôi gộp các “từ viết hoa thông thường” ở cạnh nhau lại và chúng sẽ được sử
dụng để nhận dạng phần lớn các thực thể sau này. Vậy thế nào là từ viết hoa không
thông thường? Chúng tôi quy định tất cả các từ, cụm từ sử dụng làm tiền tố nhận dạng
Chương 4. Nhận dạng thực thể trong văn bản tiếng Việt Nguyễn Bá Đạt
39
và một số từ đặc biệt (“Tôi”, “Bạn” v.v…) sẽ luôn luôn có đặc trưng “upper = false”
cho dù chúng được viết hoa. Việc này giúp các từ, cụm từ làm tiền tố nhận dạng không
bị nhập vào các NamePhrase, làm mất đi khả năng nhận dạng.
4.3.3.3 Nhận dạng thực thể chỉ công trình
Sau khi hoàn tất các bước tiền xử lý, chúng tôi bắt đầu bước vào quá trình nhận dang.
Đầu tiên, chúng tôi nhận dạng các thực thể chỉ công trình và xử lý sự nhập
nhằng giữa những thực thể chỉ tổ chức với những thực thể chỉ các
công trình ví dụ như: “Nhà Trắng”, “Lầu Năm Góc”, v.v… trong các
trường hợp:
“Lầu Năm Góc được xây dựng rất kiên cố.”
“Lầu Năm Góc vừa ra lệnh trừng phạt Iraq.”
Trong bước này chúng tôi xem xét sự chủ động của thực thể, các thực thể đứng trước
các mang tính bị động như từ “được” trong ví dụ sẽ được nhận là thực thể chỉ các công
trình . Còn lại được nhận là thực thể chỉ tổ chức . Tuy còn
xử lý ở mức đơn giản nhưng nó cũng đã đem lại những hiệu quả nhất định.
4.3.3.4 Nhận dạng thực thể chỉ địa điểm và thực thể thuộc về
quốc gia
Ở giai đoạn thứ 4 của quá trình xử lý trong bộ luật, chúng tôi nhận dạng các thực thể
chỉ địa điểm đơn giản. Ngoài việc áp dụng bộ từ điển chứa các thực thể
chỉ địa điểm như: vùng miền, tên các thành phố v.v… chúng tôi sử dụng các tiền tố
như: “ở, tại, đến, trong, ngoài v.v…” để nhận dạng các thực thể chỉ địa điểm đơn giản.
Ví dụ luật nhận đứng sau “ở, tại v.v…”
Rule: Location5
(
{Lookup.majorType == "vlocation"}
({NamePhrase}):namephrase):location
)
Chương 4. Nhận dạng thực thể trong văn bản tiếng Việt Nguyễn Bá Đạt
40
-->
:location.Location = {kind = "Location", rule = "title + Location"}
Sở dĩ nói các thực thể chỉ địa điểm đơn giản bởi còn một số trường hợp nhập nhằng
giữa thực thể chỉ địa điểm , thực thể thuộc về quốc gia và
thực thể chỉ người mà giai đoạn này chưa thể giải quyết được.
Trong các tiền tố được sử dụng để nhận biết thực thể chỉ địa điểm có một
trường hợp khiến chúng tôi phải cân nhắc rất nhiều đó là từ “về”. Lấy các câu sau làm
ví dụ phân tích:
“Tôi sẽ bay về Nga vào ngày mai.”
“Đây là câu chuyện về Nga, cô sinh viên nghèo hiếu học
xứ Nghệ.”
Rõ ràng nếu để từ “về” như một tiền tố nhận dạng thực thể chỉ địa điểm, sẽ có khá
nhiều trường hợp nhận sai xảy ra. Hiện tại, chúng tôi vẫn loại bỏ từ “về” ra khỏi từ
điển chứa các tiền tố nhận dạng thực thể chỉ địa điểm .
Cũng trong các luật về nhận dạng thực thể chỉ địa điểm chúng tôi chia ra xử lý
hai loại thực thể chỉ địa điểm:
Với những thực thể chỉ địa điểm mang tính tự nhiên như: đảo Phú Quốc, Biển
Đông, núi Phú Sỹ v.v… chúng tôi nhận cả cụm tiền tố (đảo, biển, núi v.v…)
cùng với nhãn (NamePhrase) thành thực thể chỉ địa điểm .
Với những thực thể chỉ địa điểm không mang tính tự nhiên như: đường Phạm
Văn Đồng, thành phố Hà Nội v.v… chúng tôi không nhận các tiền tố vào thực
thể chỉ địa điểm. Tuy nhiên cũng có những trường hợp đặc biệt như: “quận 5”,
“tiểu khu 8” v.v… chúng tôi xử lý riêng và nhận cả cụm trên là .
Sau khi nhận dạng các thực thể chỉ địa điểm , những nhãn
(annotation) Lookup chỉ tên quốc gia (ngoại trừ một số trường hợp đặc biệt như: Anh,
Nga, Mỹ, Nhật v.v… sẽ được xử lý riêng) không nhận là thực thể chỉ địa điểm
sẽ được nhận là thực thể thuộc quốc gia . Ngoài ra thực thể
Chương 4. Nhận dạng thực thể trong văn bản tiếng Việt Nguyễn Bá Đạt
41
thuộc về quốc gia còn được nhận dạng thông qua một số tiền tố như: “người”, “dân
tộc”, “tiếng” v.v…
4.3.3.5 Nhận dạng thực thể chỉ tổ chức
Sở dĩ đến thời điểm này chúng tôi mới nhận dạng là bởi có một số
trường hợp cần những thông tin về thực thể chỉ địa điểm . Ví dụ như:
“Chi nhánh Canon tỉnh Bình Dương tuyên bố
phá sản.”
Nếu chỉ dừng lại ở việc nhận dạng thực thể chỉ tố chức thông qua từ điển và tiền tố
(“Chi nhánh”) thì ta chỉ nhận được cụm không đầy đủ “Chi nhánh Canon” là thực thể
chỉ tổ chức . Chúng tôi sử dụng các thông tin về thực thể chỉ địa điểm
để việc nhận dạng thực thể chỉ tổ chức được chính xác hơn. Có thể hình
dung luật là:
tổ chức + (tiền tố) + địa điểm -> tổ chức.
4.3.3.6 Nhận dạng thực thể chỉ các tổ chức tôn giáo
Có thể nói, đây là giai đoạn đơn giản, mang ít tính nhập nhằng nhất của hệ thống. Bởi
số lượng các từ, cụm từ chỉ các tổ chức tôn giáo không nhiều, và chúng cũng ít khi
xuất hiện trong các văn bản, nên chúng tôi chọn giải pháp xử lý đơn giản là nhờ bộ từ
điển. Ví dụ:
Phase: Religion
Input: Lookup
Options: control = appelt
Rule: religion
(
{Lookup.majorType == "religion"}
):name
-->
Chương 4. Nhận dạng thực thể trong văn bản tiếng Việt Nguyễn Bá Đạt
42
:name.Religion = {kind = "Religion", rule = "Religion trong Gazetter"}
4.3.3.7 Nhận dạng các thực thể chỉ người
Các thực thể chỉ người chiếm một tỷ trọng lớn và mang độ nhập nhằng cao. Ví dụ:
Nhóm các từ: Đức, Mỹ, Anh, Nga v.v… nhập nhằng giữa ba loại thực thể:
, và .
Nhóm các tên người lấy theo tên địa danh: Việt Nam, Hải Dương v.v…
Có khá nhiều luật được chúng tôi áp dụng trong giai đoạn này như: sử dụng từ điển, sử
dụng tiền tố, sử dụng hậu tố (các động từ “nói”, “cười”, “khóc” v.v…) và một số kỹ
thuật khác. Trong giai đoạn này, chúng tôi mới chỉ xử lý nhận dạng thực thể chỉ người
một cách đơn giản, và trong những trường hợp nhập nhằng giữa và
hay thì vẫn ưu tiên cho và hơn.
Tuy nhiên những thực thể được nhận trong các trường hợp nhập nhằng như vậy sẽ
được đánh dấu lại, để chúng tôi nhận dạng lại bằng văn cảnh trong giai đoạn sau.
4.3.3.8 Sử dụng văn cảnh và quá trình nhận dạng thông minh
Có thể nói kết thúc giai đoạn nhận dạng thực thể chỉ người ở mục 4.3.3.7, ta đã xây
dựng xong một hệ thống nhận dạng thực thể trong văn bản tiếng Việt ở một mức nào
đó. Tuy nhiên thực tế hiệu quả của hệ thống chưa được cao như chúng tôi mong muốn.
Rất nhiều câu như:
“Ba Te, người con cả trong gia đình, đi phu hồ quanh năm mà vẫn không kiếm
được là bao.”
“Niềm vui bất ngờ ập đến với A Lưới.”
không thể được nhận dạng đúng bởi hệ thống. Hơn nữa trong các trường hợp nhập
nhằng hơn như các từ: “Anh”, “Mỹ”, “Nhật” v.v… việc nhận dạng lại càng khó khăn.
Đến giai đoạn này, chúng tôi quyết định tích hợp những thành phần “thông minh” hơn
cho hệ thống. “Thông minh” bởi chúng có sử dụng thêm các yêu tố văn cảnh vào việc
nhận dạng.
Chương 4. Nhận dạng thực thể trong văn bản tiếng Việt Nguyễn Bá Đạt
43
Trước tiên chúng tôi xử lý tập các từ có độ nhập nhằng cao “Mỹ, Nga, Nhật, Đức
v.v…” dựa trên một số quy định:
Nếu trong văn bản xuất hiện nhiều hơn 2 tên quốc gia thì sẽ nhận tất các tên
như trên là ở dạng thực thể chỉ địa điểm hoặc thực thể thuộc về
quốc gia .
Nếu có nhiều hơn 2 tên trong số các từ nhập nhằng trên xuất hiện trong văn bản
thì sẽ nhận tất cả các tên như trên là ở dạng thực thể chỉ địa điểm
hoặc thực thể thuộc về quốc gia .
Nếu có một tên trong số các tên trên chắc chắn chỉ người (đứng sau các tiền tố:
ông, bà, anh, v.v…) thì sẽ nhận tất cả các tên như trên là ở dạng thực thể chỉ
người .
Hình 4.3 - Mô tả kết quả nhận dạng của một trường hợp nhập nhằng giữa Person và Nationality
Chương 4. Nhận dạng thực thể trong văn bản tiếng Việt Nguyễn Bá Đạt
44
Hình 4.3 mô tả kết quả nhận dạng của hệ thống cho câu:
“Nga, Mỹ vừa ra lệnh trừng phạt Nhật”.
Tuy cả ba từ: “Nga”, “Mỹ”, “Nhật” đều có thể là tên người, hoặc tên quốc gia, nhưng
vì chúng ở cùng trong một câu, nên chúng tôi ưu tiên nhận dạng thực thể thuộc về
quốc gia .
Bước tiếp theo chúng tôi sử dụng văn cảnh và độ chắc chắn để nhận thêm các
thực thể chỉ người , chỉ địa điểm , chỉ tổ chức ,
chỉ công trình . Những thực thể được xác định bởi những luật có độ chắc
chắn cao sẽ được nhận là thực thể có độ chính xác cao. Một số luật có độ chắc chắn
cao như:
Tiền tố (ông, bà, anh, chị v.v…) +
+ hậu tố (nói, cười, khóc v.v…)
Tiền tố (ở, đến, tại v.v…) +
Tiền tố (công ty, tập đoàn v.v…) +
Tiền tố (chợ, cầu, cảng v.v…) +
Chúng tôi sử dụng đặc trưng “sure=90” cho những nhãn (annotation) này. Những từ,
cụm từ giống với những thực thể có độ chính xác cao được nhận là thực thể cùng loại.
Xem xét đoạn văn sau:
“Bà Nùng vừa hút tẩu thuốc vừa kể: “Đời thằng A Lưới khổ lắm. Nhà chẳng
còn ai, lao động quần quật cả năm mà vẫn không đủ ăn. Không biết đời nó bao giờ
mới có vợ.” Ấy thế mà niềm vui bất ngờ đã đến với A Lưới, anh gặp Hoa, cô giáo miền
xuôi mới lên bản.”
Nhờ có cụm “thằng A Lưới” nên “A Lưới” được nhận là thực thể chỉ người với độ
chắc chắn cao. Nhờ đó từ “A Lưới” ở câu dưới cũng được nhận là thực thể chỉ người.
Hình 4.4 là kết quả chạy của hệ thống đối với đoạn văn trên.
Chương 4. Nhận dạng thực thể trong văn bản tiếng Việt Nguyễn Bá Đạt
45
Hình 4.4 – Một ví dụ cho quá trình nhận dạng thông minh
Tuy nhiên trong một số trường hợp luật này gây ra một vài mâu thuẫn. Lấy đoạn văn
sau làm ví dụ:
“Chợ Quảng Châu tại Quảng Châu là một nơi nổi tiếng nhất Trung Quốc về
hàng nhái.”
Cả Quảng Châu trong “Chợ Quảng Châu” và Quảng
Châu trong “tại Quảng Châu” đều được nhận với độ chắc chắn cao sẽ dẫn
đến việc gán nhãn sai. Vì lý do này chúng tôi chỉ cho phép những thực thể chưa được
nhận, hoặc nhận ở độ chắc chắn không cao được phép gán nhãn lại trong giai đoạn
này.
Một mặt khác, trong quá trình phân tích lỗi chúng tôi đã gặp những trường hợp
rất đáng tiếc như:
“Các sinh viên Đạt, Đại, Đăng, Giang đang đánh bi a.”
Chương 4. Nhận dạng thực thể trong văn bản tiếng Việt Nguyễn Bá Đạt
46
Tất nhiên sau này khi chúng tôi đã cập nhật lại cho bộ từ điển tên người, thì hiển nhiên
tất cả các tên này đều được nhận ra một cách đơn giản. Nhưng mới đầu trong từ điển
tên người không có các từ “Đạt, Đại, Đăng, Giang” làm cho hệ thống chỉ nhận ra một
mình “Đạt” là thực thể chỉ người (do đứng sau tiền tố “sinh viên”) và bỏ xót
mất ba thực thể một cách đáng tiếc. Giải quyết việc này cũng thực đơn giản, chúng tôi
xây dựng một bước kiểm tra các nhãn (annotation) NamePhrase ở cạnh nhau (cách
nhau bởi dấu “,” hoặc từ “và”), nếu có một NamePhrase đã được nhận ra ở dạng thực
thể nào đó, thì tất cả các NamePhrase liền kề nó sẽ được nhận dạng cùng loại.
Hình 4.5 - Trường hợp hệ thống nhận dạng một dãy các thực thể cạnh nhau
Cuối cùng chúng tôi duyệt lại toàn bộ các thực thể đã được nhận dạng, xóa đi
những thực thể vi phạm nguyên tắc nằm trong một thực thể khác và những nhãn
(annotation) trung gian do bộ luật tự sinh ra.
Như vậy chúng ta đã tìm hiểu qua những nét cơ bản của hệ thống nhận dạng
thực thể trong văn bản tiếng Việt do chúng tôi xây dựng. Ở chương tiếp theo, chúng
Chương 4. Nhận dạng thực thể trong văn bản tiếng Việt Nguyễn Bá Đạt
47
tôi sẽ đưa ra những đánh giá về hiệu quả của hệ thống, cũng như phân tích những lỗi
mà hệ thống còn mắc phải.
Chương 5. Kết quả thực nghiệm và phân tích lỗi Nguyễn Bá Đạt
48
Chương 5
Kết quả thực nghiệm và phân tích lỗi
Chúng tôi đánh giá hệ thống trên hai tập dữ liệu, tập dữ liệu được dùng trong quá trình
viết luật (tập huấn luyện) gồm 18 văn bản (1013 câu), và tập dữ liệu mới (tập kiểm tra)
gồm 17 văn bản (879 câu). Cả hai tập dữ liệu này được gán nhãn và kiểm tra bởi hai
người theo quy trình ở mục 4.2.
5.1 Các bước tiến hành thực nghiệm
Bước 1: Sử dụng hệ thống nhận dạng thực thể trong văn bản tiếng Việt do
chúng tôi xây dựng để tự động nhận dạng và gán nhãn cho các thực thể.
Bước 2: So sánh tập dữ liệu được gán nhãn tự động và tập dữ liệu chuẩn được
gán nhãn bằng tay, qua đó đưa ra các thông số đánh giá chất lượng của hệ thống
(Precision, Recall, F-measure).
5.2 Kết quả thực nghiệm
Chúng tôi đánh giá kết quả thực nghiệm qua hai tiêu chí:
Tiêu chí chặt (strict): một thực thể được nhận dạng đúng khi trùng khớp hoàn
toàn (về vị trí), và cùng kiểu với thực thể trong tập dữ liệu chuẩn.
Tiêu chí lỏng (lenient): một thực thể được nhận dạng đúng khi nó có phần
chung và cùng kiểu với thực thể trong tập dữ liệu chuẩn.
Với tiêu chí đánh giá chặt, ta thu được các kết quả sau:
Chương 5. Kết quả thực nghiệm và phân tích lỗi Nguyễn Bá Đạt
49
Kết quả nhận dạng trên tập huấn luyện (bảng 5.1) mới chỉ dừng lại ở F-measure
đạt 89.90%, hứa hẹn chúng tôi sẽ còn cải tiến được nhiều trong tương lai.
Bảng 5.1 – Kết quả nhận dạng trên tập huấn luyện
Loại
Số
thực thể
Số thực
thể được
nhận
dạng
Số thực
thể được
nhận
đúng
Precision Recall F-measure
Person 548 470 457 97.23 % 83.39 % 89.78 %
Organization 100 85 80 94.11 % 80.00 % 86.48 %
Location 272 255 244 95.68 % 89.70 % 92.59 %
Nationality 87 84 72 85.71 % 82.75 % 84.21 %
Facility 78 76 69 90.78 % 88.46 % 89.61 %
Religion 18 18 18 100.00 % 100.00 % 100.00 %
All 1103 988 940 95.14 % 85.22 % 89.90 %
Bảng 5.2 – Bảng kết quả nhận dạng trên tập kiểm tra
Loại
Số
thực thể
Số thực
thể được
nhận
dạng
Số thực
thể được
nhận
đúng
Precision Recall F-measure
Person 370 285 263 92.28 % 71.08 % 80.30 %
Organization 48 33 25 75.75 % 52.08 % 61.72 %
Location 260 239 222 92.88 % 85.38 % 88.97 %
Nationality 82 68 56 82.35 % 68.29 % 74.66 %
Facility 40 33 29 87.87 % 72.50 % 79.45 %
Religion 20 19 19 100.00 % 95.00 % 97.43 %
All 820 677 614 90.69 % 74.87 % 82.03 %
Chương 5. Kết quả thực nghiệm và phân tích lỗi Nguyễn Bá Đạt
50
Trong khi đó, trên tập kiểm tra kết quả thu được cũng khá khả quan: F-measure
đạt 82.03% (bảng 5.2). Tuy nhiên, bên cạnh những loại thực thể có kết quả nhận dạng
rất tốt như: thực thể chỉ các tổ chức tôn giáo (F-measure: 97.43%), thực
thể chỉ địa điểm (F-measure: 88.97%) v.v… thì loại thực thể chỉ tổ chức
lại thu được kết quả khá khiêm tốn F-measure: 61.72%. Sở dĩ có điều
này là vì tên các tổ chức của Việt Nam đôi khi khá dài, khó nhận diện, đặc biệt khi
chúng không được viết hoa. Ví dụ câu sau:
“Công ty Hợp tác lao động nước ngoài - LOD , thuộc Bộ GTVT.”
Câu trên gồm 3 thực thể chỉ tổ chức: “Công ty Hợp tác lao động nước ngoài”,
“LOD” và “Bộ GTVT”. Tuy nhiên hệ thống chỉ nhận được thực thể “Công ty Hợp tác”
(nhận sai) và “Bộ GTVT” (nhận đúng). Tuy nhận sai nhưng việc nhận ra một phần của
thực thể “Công ty Hợp tác lao động nước ngoài” cũng có ý nghĩa, bởi thật khó để nhận
được thực thể này. Chúng tôi thử đánh giá lại chất lượng của hệ thống theo tiêu chí
“lỏng” hơn (lenient evaluation). Kết quả thu được như sau:
Bảng 5.3 – Kết quả nhận dạng trên tập kiểm tra với tiêu chí “lỏng” ( lenient evaluation)
Loại
Số thực
thể
Số thực
thể được
nhận
dạng
Số thực
thể được
nhận
đúng
Precision Recall F-measure
Person 370 285 266 93.33 % 71.89 % 81.22 %
Organization 48 33 30 90.90 % 62.50 % 74.07 %
Location 260 239 224 93.72 % 86.15 % 89.77 %
Nationality 82 68 57 83.82 % 69.51 % 76.00 %
Facility 40 33 31 93.93 % 77.50 % 84.93 %
Religion 20 19 19 100.00 % 95.00 % 97.43 %
All 820 677 627 92.61 % 76.46 % 83.76 %
Chương 5. Kết quả thực nghiệm và phân tích lỗi Nguyễn Bá Đạt
51
Rõ ràng trong khi hầu như các kết quả nhận dạng thực thể khác không tăng nhiều, thì
kết quả nhận dạng các thực thể chỉ tổ chức đã tăng đáng kể (F-measure từ 61.72% lên
74.07%).
Bảng 5.4 thể hiện kết quả của những hệ thống nhận dạng thực thể trong văn bản
tiếng Việt hiện tại (Nguyễn 2005, Cao 2007). Tuy không cùng so sánh trên một tập
kiểm tra, nhưng với những kết quả tương đương (F-measure: 82.03%), cùng rất nhiều
hướng cải tiến: mở rộng bộ từ điển, cải tiến bộ luật để sử dụng tốt hơn những yếu tố
văn cảnh v.v… chúng tôi tin rằng hệ thống của chúng tôi sẽ là nền tảng để phát triển
thành những hệ thống nhận dạng thực thể trong văn bản tiếng Việt đạt hiệu quả cao.
Bảng 5.4 – Kết quả thực nghiệm của một số hệ thống nhận dạng thực thể trong văn bản tiếng Việt
Precision Recall F-measure
Hệ thống nhận dạng thực thể sử dụng
CRF (Nguyễn 2005)
81.85% 79.35% 80.53%
Hệ thống VN-KIM IE (Cao 2007 81.37% 81.37% 81.37%
5.3 Phân tích lỗi
Như chúng ta đã phân tích ở mục 5.2, việc nhận dạng các thực thể chỉ tổ chức trong
văn bản tiếng Việt là khá khó. Một số thực thể chỉ tổ chức rất khó để nhận biết như:
“Ngân hàng nông nghiệp và phát triển nông thôn”
“Công ty Hợp tác lao động nước ngoài”.
“Cục Phòng chống buôn người và bảo vệ trẻ vị thành niên vương quốc
Campuchia”. v.v…
Có thể chúng tôi sẽ phải sử dụng thêm những từ điển đặc biệt, cùng với vận dụng văn
cảnh ở mức độ cao để nhận ra các thực thể này.
Tuy đã có cả một phần nhận dạng thông minh nhằm giải quyết sự nhập nhằng
của nhóm các từ: “Mỹ, Nga, Nhật v.v…” - nhập nhằng giữa , và
, nhưng chúng tôi vẫn chưa thể giải quyết triệt để vấn đề này. Ngoài ra
Chương 5. Kết quả thực nghiệm và phân tích lỗi Nguyễn Bá Đạt
52
còn có những trường hợp nhập nhằng giữa và làm cho kết
quả nhận dạng chưa được cao (F-measure: 74.07%). Lấy câu sau làm ví
dụ phân tích:
“Sau khi con tàu đã có một bản “ khai sinh ” khác thì bọn chúng tìm mối tiêu
thụ và giao tàu tận nơi , Philippines là địa điểm mà chúng thường đến ... .”
Với câu này, hệ thống nhận “Philippines” là thay vì (nhận
sai), tuy nhiên thật khó để nhận đúng trong trường hợp này. Ta chỉ có thể nhận đúng
“Philippines” là khi sử dụng được ngữ nghĩa của cụm từ đứng sau: “là địa
điểm”.
Ngoài thực thể thuộc về quốc gia và thực thể chỉ tổ chức
, thực thể chỉ tên người cũng chưa thu được một kết quả
nhận dạng như ý (F-measure: 81.22%), trong đó kết quả Recall khá thấp: 71.89%. Cá
biệt khi xem xét những lỗi trong quá trình nhận dạng, chúng tôi phát hiện những đoạn
văn gồm khá nhiều thực thể chỉ người bị bỏ sót. Ví dụ:
“Người ta giới thiệu chúng tôi gặp S . , một thủy thủ già dặn đã có kinh nghiệm
hàng chục năm trong nghề “ vệ sinh tàu bè ” . S . không đồng ý nêu tên thật của anh
cho dù giờ đây S . đã là một ông chủ quán bình dị : “ Chúng tôi hay tụ tập tại quán cà
phê “ tổng hành dinh ” , khi ấy tôi đang ngồi với hàng chục thủy thủ thất nghiệp khác
thì “ ông chủ ” đến , chỉ cần mười phút ra giá là nhóm chúng tôi đi theo ông ta ngay
.”
Trong đoạn văn trên “S.” là thực thể chỉ người, tuy nhiên hệ thống lại bỏ qua
bởi hiện tại chưa có hệ luật đủ mạnh để vận dụng hết những yếu tố văn cảnh trong quá
trình nhận dạng. Cũng phải nói thêm vì xây dựng hệ thống nhận dạng thực thể trong
văn bản tiếng Việt nên chúng tôi chưa xử lý triệt để các trường hợp tên viết tắt, hoặc
tên viết theo kiểu nước ngoài như: “A. Morgan” v.v… Ở đây dấu “.” không được phép
nhận là dấu tách câu (Split).
Ngoài ra, còn một số trường hợp hệ thống nhận dạng lỗi do bộ tách từ hoạt
động không chính xác. Ví dụ câu:
“Linh cảm thấy buồn.”
Chương 5. Kết quả thực nghiệm và phân tích lỗi Nguyễn Bá Đạt
53
Câu được tách từ thành: “Linh_cảm thấy buồn.”, và không nhận ra được “Linh”
là thực thể chỉ người. Trong khi nếu tách từ đúng “Linh cảm_thấy buồn” thì khả năng
“Linh” sẽ được nhận ra là bởi đứng trước hành động “cảm thấy”, và có xuất
hiện trong từ điển tên người.
Chương 6. Tổng kết và hướng phát triển Nguyễn Bá Đạt
54
Chương 6
Tổng kết và hướng phát triển
Có thể nói chúng tôi đã bước đầu xây dựng được một hệ thống mở trên nền GATE để
cộng đồng có thể tiếp cận sử dụng và phát triển cho bài toán nhận dạng thực thể trong
văn bản tiếng Việt. Tuy nhiên vẫn còn một số thực thể có kết quả nhận dạng khá thấp
như: thực thể chỉ tổ chức , thực thể thuộc nước và thực
thể chỉ người là do chúng tôi chưa vận dụng được hết những yếu tố văn cảnh
vào quá trình nhận dạng.
Bên cạnh hệ thống nhận dạng thực thể cho văn bản tiếng Việt, chúng tôi còn
xây dựng được một tài liệu định nghĩa và phận loại các loại thực thể, cùng một tập dữ
liệu đã được gán nhãn chuẩn. Khi tập dữ liệu được gán nhãn đủ lớn, chúng tôi có thể
sử dụng thêm các thành phần nhận dạng thực thể bằng các phương pháp học máy, làm
tăng sức mạnh của hệ thống.
Một hướng phát triển khác đã bắt đầu được chúng tôi sử dụng ở mức độ thấp là
kết hợp giữa hệ luật được xây dựng bởi chuyên gia, cùng lý thuyết xác suất mờ để
thêm vào những yếu tố văn cảnh trong quá trình nhận dạng thực thể.
Hiện tại, các hệ thống nhận dạng thực thể trong văn bản Tiếng Việt (Nguyễn
2005, Cao 2007) mới chỉ dừng lại ở độ chính xác khoảng 80% (F-measure), vì thế dù
không cùng đánh giá trên một tập kiểm tra, nhưng với những kết quả đã đạt được (F-
measure – 82.03%) và khả năng có thể cải tiển hệ thống ở nhiều mặt như: cải tiến bộ
từ điển, thêm những thành phần xử lý sâu về ngữ cảnh, kết hợp với bộ nhận dạng sử
dụng các phương pháp học máy v.v… sẽ hứa hẹn đem lại một hệ thống nhận dạng
thực thể trong văn bản tiếng Việt đạt kết quả cao trong tương lai.
Tài liệu tham khảo Nguyễn Bá Đạt
55
Tài liệu tham khảo
[1] [Appelt 1995] D. Appelt, SRI International FASTUS system MUC-6 test results
and analysis, Proceedings of the MUC-6, NIST, Morgan-Kaufmann Publisher,
Columbia, 1995.
[2] [Appelt 1999] D. Appelt, An Introduction to information extraction, Artificial
Intelligence Communications, 12, 1999.
[3] [Bechet 2000] F. Bechet, A. Nasr and F. Genet, Tagging Unknown Proper
Names Using Decision Trees, In proceedings of the 38
th
Annual Meeting of the
Association for Computational Linguistics, 2000.
[4] [Bikel 1998] D. Bikel, S. Miller, R. Schwartz, R. Weischedel, a High-
Performance Learning Name-finder, fifth conference on applied natural
language processing, PP 194-201, 1998.
[5] [Borthwick 1998] A. Borthwick, J. Sterling, E, Agichtein, and R. Grishman,
Exploiting diverse knowledge sources via maximum entropy in named entity
recognition, Proceedings of the Sixth workshop on Very Large Corpora,
Montreal, Canada, 1998.
[6] [Budi 2003] I. Budi, S. Bressan, Association Rules Mining for Name Entity
Recognition, Proceedings of the Fourth International Conference on Web
Information Systems Engineering, 2003.
[7] [Cao 2007] T. Cao, Automatic Extraction of Vietnamese Named-Entities on the
Web, New Generation Computing, Ohmsha, Ltd. And Springer.
[8] [Collins 1999] Collins, Michael and Y. Singer, Unsupervised models for named
entity classification, In proceedings of the Joint SIGDAT Conference on
Empirical Methods in Natural Language Processing and Very Large Corpora,
1999.
Tài liệu tham khảo Nguyễn Bá Đạt
56
[9] [Cowie 1996] Cowie and W.Lehnert, Information Extraction, In
Communications of the ACM, 39, 1996.
[10] [Cunningham 1999] H. Cunningham, Information extraction: a User Guide
(revised version), Research Menorandum CS-99-07, Department of Computer
Science, University of Sheffied, May, 1999.
[11] [Cunningham 2002] H. Cunningham, D. Maynard, K. Bontcheva, V. Tablan.
GATE, A Framework and Graphical Development Environment for Robust
NLP Tools and Applications, Proceedings of the 40
th
Anniversary Meeting of
the Association for Computational Linguistics (ACL'02). Philadelphia, July
2002.
[12] [Grishman 1995] R. Grishman, The NYU System for MUC-6 or Where's the
Syntax, In Proceedings of the Sixth Message Understanding Conference
(MUC-6), 1995.
[13] [Iwanska 1995] L. Iwanska, M. Croll, T. Yoon, and M. Adams, Wayne state
university: Description of the UNO processing system as used for MUC-6, In
Proc. of the MUC-6, NIST, Morgan- Kaufmann Publishers, Columbia, 1995.
[14] [Kim 2002] J. Kim, I. Kang, k. Choi, Unsupervised Named Entity Classification
Models and their Ensembles, Proceedings of the 19th international conference
on Computational linguistics, 2002.
[15] [Mansouri 2008] A. Mansouri, L. Affendey, A. Mamat, Named Entity
Recognition Using a New Fuzzy Support Vector Machine.
[16] [Maynard 2001] D. Maynard, V. Tablan, C. Ursu, H. Cunningham and Y.
Wilks, Named Entity Recognition from deverse Test Types.
[17] [Maynard 2003] Maynard, Diana and Bontcheva, Kalina and Cunningham,
Hamish, Towards a semantic extraction of named entities. In Proceedings
Recent Advances in Natural, Borovets, Bulgaria.
[18] [Morgan 1995]R. Morgan, University of durham: Description of the LOLITA
system as used for MUC-6, In Proc of the MUC-6, NIST, Morgan-Kaufmann
Publishers, Columbia, 1995.
Tài liệu tham khảo Nguyễn Bá Đạt
57
[19] [Nguyễn 2005] T. Nguyễn, T. Oanh, P. Hieu, H. Thuy, Named Entity
Recognition in Vietnamese Free-Text and Web Documents Using Conditional
Ramdom Fields, The 8
th
Conference on Some selection problems of
Information Technology and Telecommunication, Hai Phong, Viet Nam 2005.
[20] [Pastra 2002] K. Pastra, D. Maynard, O. Hamza, H. Cunningham, Y. Wilks,
How feasible is the reuse of grammars for Named Entity Recognition? (2002).
[21] [Phạm 2007] T. Pham, A. Kawazoe; D. Dinh; N. Collier, Construction of
Vietnamese corpora for named entity recognition, In Conference RIAO2007,
Pittsburgh PA, U.S.A. May 30-June 1, 2007 – Copyright C.I.D. Paris, France,
2007.
[22] [Wu 2006] Y. Wu, T. Fan, Y. Lee, S. Yen, Extracting Named Entities Using
Support Vector Machines, Spring-Verlag, Berlin Heidelberg, 2006.
[23] [Phạm 2009] D. Phạm, Phương pháp phân đoạn từ tiếng Việt sử dụng gán nhãn
từ loại, Khóa luận tốt nghiệp, Coltech, VNU, 2009.
Phụ lục Nguyễn Bá Đạt
58
Phụ lục A. Annotation Guideline.
1. Khái niệm thực thể và tên thực thể
Thực thể (entity): là một đối tượng hoặc một tập hợp đối tượng trong thế giới tự
nhiên.
Thực thể thể hiện trong các dạng :
o Tên riêng (name entity).
o Danh từ hoặc cụm danh từ chung (common noun, noun phrase).
o Đại từ (pronoun).
Trong bài toán nhận dạng thực thể, chúng tôi sử dụng từ “thực thể” để chỉ các thực thể
có tên.
2. Các loại thực thể
Person: Thực thể chỉ người
Organization: Thực thể chỉ một tổ chức, một nhóm người được thành lập theo
một cấu trúc phân cấp nào đó.
Facility: Thực thể chỉ những thực thể do con người tạo ra thường là các thực thể
xây dựng và kiến trúc, như sân vận động, bảo tàng, nhà ga v.v…
Location: Thực thể chỉ những thực thể địa lý như vùng lãnh thổ, địa danh, sông,
suối v.v…
Nationality: Thực thể chỉ quốc tịch người, hoặc thuộc về quốc gia.
Religion: Thực thể chỉ các tổ chức tôn giáo.
3. Quy tắc khi nhận dạng thực thể
Khi nhận dạng thực thể trong văn bản ta phải đảm bảo một số quy tắc như sau: không
có các tên lồng nhau. Một tên mới chỉ được nhận khi tên cũ đã kết thúc (không bao giờ
Phụ lục Nguyễn Bá Đạt
59
có hai tên có phần chung). Trong trường hợp có sự lồng nhau giữa các tên, chỉ một tên
dài nhất được nhận (longest matching – dài thì thắng).
Ví dụ trong câu:
“Phòng Giáo dục huyện Mỹ Đức.”
ta chỉ nhận “Phòng Giáo dục huyện Mỹ Đức” là thực thể chỉ các tổ chức
(Organization) và bỏ qua thực thể chỉ địa điểm “Mỹ Đức”.
4. Phân loại các loại thực thể
4.1 Thực thể chỉ người
Là các từ chỉ tên riêng của con người, bao gồm cả tên đầy đủ (cả họ và tên) và tên viết
tắt (tên).
Ví dụ :
Chủ tịch Hồ Chí Minh
Ông Nguyễn Bá Đạt
Cầu thủ Hồng Sơn
Cựu tổng thống Saddam Hussein đã bị quân đội Mỹ
bắt và giam giữ.
Các trường hợp lưu ý (các trường hợp này không phải là tên người)
Các từ(cụm từ) gián tiếp chỉ người. Ví dụ:
o Tổng thống Hoa Kỳ.
o Quả bóng vàng Việt Nam 2008.
Các dấu hiệu nhận biết từ loại này :
o Các tiền tố:
Các tiền tố chỉ cách xưng hô :
Ông “Nguyễn Minh Triết”.
Bà Lý
Phụ lục Nguyễn Bá Đạt
60
Bác Sơn.
Tuy nhiên trong một vài trường hợp đặc biệt ví dụ: Bà Trưng, Bà Triệu v.v… ta
sẽ nhận cả cụm Bà Trưng, Bà Triệu là Person.
Các tiền tố chỉ cách gọi theo quan hệ họ hàng :
Dì Ninh
Chú Duy
Anh Giang.
Các tiền tố chỉ cách gọi theo quan hệ chính trị - địa vị xã hội:
Chủ tịch nước Lê Khả Phiêu.
Giám đốc Đăng.
o Các hậu tố : các từ đi sau thực thể chỉ người thường là các động từ ở
dạng chủ động như: chơi, cười, khóc v.v…
Đại cười duyên.
4.2 Thực thể chỉ tổ chức
Thực thể chỉ một tổ chức, một nhóm người được thành lập theo một cấu trúc phân cấp
nào đó (không bao gồm các tổ chức tôn giáo). Một số loại tổ chức:
Tổ chức chính trị - nhà nước
o Văn Phòng Chính Phủ
o Công an Thành phố Hà Nội
Tổ chức kinh tế
o Công ty TNHH Tân Hoàng Phát
o Tập đoàn FPT
Tổ chức giáo dục
o Trường Đại học Công Nghệ
o Học viện Ngân Hàng
Phụ lục Nguyễn Bá Đạt
61
Tổ chức y tế
o Bệnh viện Y Tuệ Tĩnh
Các tổ chức khác
o Hội Chữ Thập Đỏ
o G20
Dấu hiệu nhận biết: thực thể chỉ tổ chức thường đứng sau các tiền tố như: Công ty, tập
đoàn, trường học, bệnh viện v.v…
4.3 Thực thể chỉ địa điểm
Thực thể chỉ chỉ những thực thể địa lý như vùng lãnh thổ, địa danh, sông, suối v.v…
Với các tên thành phố, quận, huyện, đường v.v… (mang tính chất hành chính
do con người đặt ra)
o Thành Phố Hồ Chí Minh
o Quận Tây Hồ
Tuy nhiên với các trường hợp Quận 5, Tiểu khu 8 v.v… thì sẽ nhận cả cụm
Quận 5, Tiểu khu 8 là Location.
Với các tên đảo, đại dương, sông v.v… (mang tính tự nhiên)
o Đảo Bạch Long Vỹ
o Sông Hồng
o Châu Á
Dấu hiệu nhận biết: đứng sau các tiền tố chỉ nơi trốn: ở, trong, ngoài, tại v.v…
Tôi sinh ra tại Hà Tây
Chiến Tranh đã nổ ra ở Đại Tây Dương
4.4 Thực thể chỉ thực thể do con người tạo ra
Thực thể chỉ những thực thể do con người tạo ra thường là các thực thể xây dựng và
kiến trúc, như sân vận động, bảo tàng, nhà ga v.v…
Phụ lục Nguyễn Bá Đạt
62
Ví dụ
Tòa nhà HITC đang được xây mới.
Cầu Trắng
4.5 Thực thể chỉ thực thể thuộc về quốc gia
Thực thể chỉ quốc tịch người, hoặc thuộc về quốc gia.
Ví dụ
Cô hướng dẫn viên du lịch người Hoa
Chính phủ Việt Nam
Quần đảo Hoàng Sa của Việt
Nam
4.6 Thực thể chỉ các tổ chức tôn giáo
Thực thể chỉ các tổ chức tôn giáo như Phật Giáo, Thiên chúa giáo v.v…
Ví dụ
Tôi là người theo đạo Phật
Hội Phật Giáo Việt Nam
Phụ lục Nguyễn Bá Đạt
63
Phụ lục B. Bảng nhãn từ loại tiếng Việt
Np danh từ riêng proper noun
Nc danh từ đơn thể countable noun
Ng danh từ tổng thể collective noun
Nt danh từ loại thể classifier noun
Nu danh từ chỉ đơn vị concrete noun
Na danh từ trừu tượng abstract noun
Nn danh từ số lượng numeral
Nl danh từ vị trí locative noun
Vt động từ ngoại động transitive verb
Vit động từ nội động intransitive verb
Vim động từ cảm nghĩ impression verb
Vo động từ chỉ hướng orientation verb
Vs động từ tồn tại state verb
Vb động từ biến hoá transformation verb
Vv động từ ý chí volotive verb
Va động từ tiếp thụ acceptation verb
Vc động từ so sánh comparative verb
Vm động từ chuyển động move verb
Vla động từ "là" “là” verb
Vtim động từ ngoại động cảm nghĩ transitive-impression verb
Phụ lục Nguyễn Bá Đạt
64
Vta động từ ngoại động tiếp thụ transitive-acceptation verb
Vtc động từ ngoại động so sánh transitive-comparative verb
Vtb động từ ngoại động biến hoá transitive-transformation verb
Vto động từ ngoại động chỉ hướng transitive-orientation verb
Vts động từ ngoại động tồn tại transitive-state verb
Vtm động từ ngoại động chuyển động transitive-move verb
Vtv động từ ngoại động ý chí transitive-volotive verb
Vitim động từ nội động cảm nghĩ intransitive-impression verb
Vitb động từ nội động biến hoá intransitive-transformation verb
Vits động từ nội động tồn tại intransitive-state verb
Vitc động từ nội động so sánh intransitive-comparative verb
Vitm động từ nội động chuyển động intransitive-move verb
Aa tính từ hàm chất quality adjective
An tính từ hàm lượng quantity adjective
Pp đại từ xưng hô personal pronoun
Pd đại từ không gian, thời gian demonstrative pronoun
Pn đại từ số lượng quantity pronoun
Pa đại từ hoạt động, tính chất quality pronoun
Pi đại từ nghi vấn interrogative pronoun
Jt phụ từ chỉ thời gian time adjunct
Jd phụ từ chỉ mức độ degree adjunct
Jr phụ từ so sánh rapport adjunct
Ja phụ từ khẳng định, phủ định adjunct of negation and acceptation
Ji phụ từ mệnh lệnh imperative adjunct
Phụ lục Nguyễn Bá Đạt
65
Cm giới từ major/minor conjunction
Cc liên từ combination conjunction
E cảm từ emotion word
I trợ từ introductory word
X không xác định
Các file đính kèm theo tài liệu này:
- LUẬN VĂN- NHẬN DẠNG THỰC THỂ TRONG VĂN BẢN TIẾNG VIỆT.pdf