Tài liệu Khóa luận So sánh một số phương pháp học máy cho bài toán gán nhãn từ loại Tiếng Việt: ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Lê Hoàng Quỳnh
SO SÁNH MỘT SỐ PHƯƠNG PHÁP HỌC MÁY
CHO BÀI TOÁN GÁN NHÃN TỪ LOẠI
TIẾNG VIỆT
KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY
Ngành: Công nghệ thông tin
HÀ NỘI - 2009
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Lê Hoàng Quỳnh
SO SÁNH MỘT SỐ PHƯƠNG PHÁP HỌC MÁY
CHO BÀI TOÁN GÁN NHÃN TỪ LOẠI
TIẾNG VIỆT
KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY
Ngành: Công nghệ thông tin
Cán bộ hướng dẫn: PGS.TS. Hà Quang Thụy
Cán bộ đồng hướng dẫn: ThS. Trần Thị Oanh
HÀ NỘI - 2009
i
LỜI CẢM ƠN
Trước tiên, tôi muốn bày tỏ lòng biết ơn sâu sắc nhất tới Phó Giáo sư Tiến sĩ Hà
Quang Thụy và Thạc Sĩ Trần Thị Oanh, những người đã tận tình chỉ bảo và hướng dẫn
tôi trong suốt quá trình thực hiện khoá luận tốt nghiệp.
Thấu hiểu nỗi vất vả cũng như sự tận tụy của những thầy cô giáo đã giảng dạy và
bồi dưỡng kiến thức cho tôi trong bốn năm qua, tôi xin gửi lời cảm ơn chân thành đến
các thầy cô, những ...
68 trang |
Chia sẻ: haohao | Lượt xem: 1169 | Lượt tải: 3
Bạn đang xem trước 20 trang mẫu tài liệu Khóa luận So sánh một số phương pháp học máy cho bài toán gán nhãn từ loại Tiếng Việt, để tải tài liệu gốc về máy bạn click vào nút DOWNLOAD ở trên
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Lê Hoàng Quỳnh
SO SÁNH MỘT SỐ PHƯƠNG PHÁP HỌC MÁY
CHO BÀI TOÁN GÁN NHÃN TỪ LOẠI
TIẾNG VIỆT
KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY
Ngành: Công nghệ thông tin
HÀ NỘI - 2009
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Lê Hoàng Quỳnh
SO SÁNH MỘT SỐ PHƯƠNG PHÁP HỌC MÁY
CHO BÀI TOÁN GÁN NHÃN TỪ LOẠI
TIẾNG VIỆT
KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY
Ngành: Công nghệ thông tin
Cán bộ hướng dẫn: PGS.TS. Hà Quang Thụy
Cán bộ đồng hướng dẫn: ThS. Trần Thị Oanh
HÀ NỘI - 2009
i
LỜI CẢM ƠN
Trước tiên, tôi muốn bày tỏ lòng biết ơn sâu sắc nhất tới Phó Giáo sư Tiến sĩ Hà
Quang Thụy và Thạc Sĩ Trần Thị Oanh, những người đã tận tình chỉ bảo và hướng dẫn
tôi trong suốt quá trình thực hiện khoá luận tốt nghiệp.
Thấu hiểu nỗi vất vả cũng như sự tận tụy của những thầy cô giáo đã giảng dạy và
bồi dưỡng kiến thức cho tôi trong bốn năm qua, tôi xin gửi lời cảm ơn chân thành đến
các thầy cô, những kiến thức mà tôi nhận được không chỉ giúp tôi hoàn thành khóa
luận này mà còn là hành trang quan trọng giúp tôi vững bước trong tương lai.
Tôi cũng xin gửi lời cảm ơn tới các thầy cô, các anh chị và các bạn sinh viên
trong nhóm seminar “Khai phá dữ liệu”, phòng thí nghiệm Các hệ thống tích hợp
thông minh (SISLAB) – trường Đại học Công nghệ đã tạo một môi trường nghiên cứu
khoa học hiệu quả cũng như cho tôi những lời khuyên bổ ích về chuyên môn trong quá
trình nghiên cứu.
Bên cạnh đó, tập thể sinh viên lớp K50CA cũng đóng một vai trò không nhỏ giúp
tôi xây dựng, củng cố kiến thức và cùng với tôi vượt qua những khó khăn trong học
tập.
Và cuối cùng, nhưng vô cùng quan trọng, tôi xin bày tỏ lòng chân thành và biết
ơn vô hạn tới cha mẹ, anh chị cũng như các bạn bè thân thiết đã luôn ở bên cạnh, quan
tâm, động viên tôi trong suốt quá trình học tập và thực hiện khóa luận tốt nghiệp này.
Sinh viên
Lê Hoàng Quỳnh
ii
TÓM TẮT
Gán nhãn từ loại (Part-of-Speech Tagging) là một trong hai bài toán nền tảng,
đóng vai trò quan trọng trong các hệ thống xử lý ngôn ngữ tự nhiên. Ở Việt Nam đã có
một số nghiên cứu về bài toán này, tuy nhiên kết quả đạt được vẫn còn ở mức khiêm
tốn so với nhiều ngôn ngữ khác. Việc tìm hiểu các phương pháp gán nhãn từ loại trong
tiếng Anh cho thấy hướng tiếp cận dựa theo phương pháp học máy cho kết quả tốt hơn
cả trong các phương pháp đã được công bố.
Nội dung khóa luận tập trung so sánh ba phương pháp học máy cho bài toán gán
nhãn từ loại tiếng Việt, đó là mô hình cực đại hóa Entropy (MEM- Jaynes, 1957); mô
hình miền ngẫu nhiên điều kiện (CRF- Laferty, 2001) và mô hình máy véc tơ hỗ trợ
(SVM- Vapnik & Chervonekis, 1995). Đây là ba phương pháp học máy đã được ứng
dụng thành công trong rất nhiều bài toán xử lý ngôn ngữ tự nhiên. Thực nghiệm áp
dụng ba mô hình học máy này được tiến hành trên cùng môi trường phần cứng và sử
dụng cùng một tập đặc trưng để đảm bảo tính khách quan. Kết quả thu được trên các
dữ liệu thực nghiệm cho thấy mô hình CRF có độ chính xác cao nhất và thời gian gán
nhãn tốt nhất, trong khi đó SVM và MEM có ưu thế hơn về thời gian huấn luyện. Kết
quả này khá tương đồng với kết quả của một vài nghiên cứu tương đương trong các
ngôn ngữ khác và đã khẳng định được tính khả thi của ba mô hình này cho tiếng Việt.
iii
Mục lục
MỞ ĐẦU.........................................................................................................................1
Chương 1. KHÁI QUÁT VỀ BÀI TOÁN GÁN NHÃN TỪ LOẠI...........................3
1.1. Khái niệm và vị trí của bài toán gán nhãn từ loại trong NLP ..............................3
1.1.1. Khái niệm về bài toán gán nhãn từ loại ........................................................3
1.1.2. Vị trí và ứng dụng của bài toán gán nhãn từ loại trong NLP........................4
1.2. Các khó khăn của bài toán gán nhãn từ loại.........................................................6
1.3. Tập nhãn từ loại....................................................................................................7
1.3.1. Nguyên tắc xây dựng tập nhãn từ loại và một số tập nhãn từ loại của các
ngôn ngữ trên thế giới .............................................................................................7
1.3.2. Một số tập nhãn từ loại hiện được đề xuất ở Việt Nam..............................10
Chương 2. CÁC HƯỚNG TIẾP CẬN BÀI TOÁN GÁN NHÃN TỪ LOẠI .........13
2.1. Gán nhãn bằng phương pháp dựa trên hệ luật ...................................................13
2.2. Các phương pháp dựa vào học máy ...................................................................15
2.3. Phương pháp lai..................................................................................................19
2.4. Các nghiên cứu liên quan tại Việt Nam .............................................................21
2.4.1. Các nghiên cứu dựa trên phương pháp hệ luật ...........................................21
2.4.2. Các nghiên cứu dựa trên phương pháp học máy ........................................22
2.4.3. Các nghiên cứu dựa trên phương pháp lai ..................................................22
Chương 3. BA MÔ HÌNH HỌC MÁY ÁP DỤNG CHO BÀI TOÁN GÁN NHÃN
TỪ LOẠI TIẾNG VIỆT .............................................................................................25
3.1. Mô hình cực đại hóa Entropy.............................................................................25
3.1.1. Khái niệm MEM .........................................................................................25
3.1.2. Nguyên lý cực đại hóa Entropy ..................................................................26
3.1.3. Mô hình xác suất.........................................................................................26
3.1.4. Hạn chế của mô hình MEM........................................................................27
3.2. Mô hình trường ngẫu nhiên điều kiện................................................................28
3.2.1. Khái niệm CRF ...........................................................................................28
iv
3.2.2. Hàm tiềm năng của các mô hình CRF ........................................................30
3.2.3. Thuật toán gán nhãn cho dữ liệu dạng chuỗi. .............................................31
3.2.4. Ước lượng tham số cho các mô hình CRF..................................................33
3.3. Mô hình máy véc tơ hỗ trợ .................................................................................33
3.3.1. Khái niệm và cơ sở của phương pháp SVM...............................................33
3.3.2. Áp dụng phương pháp SVM cho bài toán gán nhãn từ loại .......................36
3.3.3. Huấn luyện SVM ........................................................................................37
Chương 4. THỰC NGHIỆM ÁP DỤNG BA MÔ HÌNH HỌC MÁY CHO BÀI
TOÁN GÁN NHÃN TỪ LOẠI TIẾNG VIỆT VÀ ĐÁNH GIÁ KẾT QUẢ ..........39
4.1. Mô tả thực nghiệm .............................................................................................39
4.1.1. Phần cứng....................................................................................................39
4.1.2. Phần mềm....................................................................................................39
4.1.3. Dữ liệu thực nghiệm và tập nhãn từ loại.....................................................40
4.2. Mô tả tập đặc trưng dựa trên mức từ và mức hình vị.........................................43
4.2.1. Các đặc trưng dựa vào thông tin từ vựng và thông tin từ loại ....................43
4.2.2. Mẫu ngữ cảnh dạng biểu thức chính quy....................................................45
4.3. Hệ thống gán nhãn từ loại cho tiếng Việt ..........................................................45
4.3.1. Gán nhãn từ loại dựa vào thông tin về từ....................................................47
4.3.2. Gán nhãn từ loại dựa vào thông tin hình vị ................................................47
4.4. Phương pháp thực nghiệm và các tham số đánh giá thực nghiệm.....................48
4.4.1. Phương pháp thực nghiệm ..........................................................................48
4.4.2. Các tham số đánh giá thực nghiệm.............................................................48
4.5. Kết quả thực nghiệm ..........................................................................................48
4.5.1. Kết quả của năm lần thực nghiệm ..............................................................48
4.5.2. Tổng hợp kết quả ........................................................................................51
4.5.3. Đánh giá và thảo luận .................................................................................53
KẾT LUẬN ..................................................................................................................55
v
Danh mục hình vẽ
Hình 1. Các bước xử lý ngôn ngữ tự nhiên ............................................................4
Hình 2. Một số tập nhãn từ loại cho Tiếng Anh .....................................................8
Hình 3. Một số phương pháp giải quyết bài toán POS tagging cho tiếng Anh ....13
Hình 4. Đồ thị có hướng mô tả mô hình HMM....................................................17
Hình 5. Mô hình tổng quát của phương pháp lai ..................................................19
Hình 6. Mô hình TBL cho tiếng Việt ...................................................................24
Hình 7. Đồ thị vô hướng mô tả CRF ....................................................................29
Hình 8. Một bước trong thuật toán Viterbi cải tiến ..............................................32
Hình 9. Hai cách chia không gian véc tơ thành hai nửa riêng biệt.......................33
Hình 10. Mặt siêu phẳng tách các mẫu dương khỏi các mẫu âm. ........................34
Hình 11. Trường hợp không thể phân chia các mẫu âm và các mẫu dương bằng
một siêu phẳng tuyến tính.....................................................................................35
Hình 12. Biến đổi siêu phẳng không tuyến tính thành siêu phẳng tuyến tính sử
dụng hàm nhân......................................................................................................35
Hình 13. Hàm nhân Basis Radial..........................................................................37
Hình 14. Cửa sổ trượt với kích cỡ size=5 chuyển động dọc theo dữ liệu ............44
Hình 15. Một mô hình gán nhãn từ loại tiếng Việt...............................................46
Hình 16. Độ chính xác trung bình trong thực nghiệm với bộ dữ liệu thứ nhất ....52
Hình 17. Độ chính xác trung bình trong thực nghiệm với bộ dữ liệu thứ hai ......52
vi
Danh mục bảng biểu
Bảng 1. Một số thuật ngữ Anh – Việt được sử dụng trong khóa luận................ viii
Bảng 2. Tổng kêt số nhãn có thể có của các từ trong tập từ vựng Brown..............7
Bảng 3. Tập nhãn từ loại Penn Treebank ...............................................................8
Bảng 4. Ví dụ về một số luật chuyển của TBL cho tiếng Anh.............................20
Bảng 6. Tập nhãn từ loại VnPOS cho tiếng Việt..................................................42
Bảng 7. Thông tin từ vựng và thông tin từ loại sử dụng cho việc lựa chọn đặc
trưng......................................................................................................................44
Bảng 8. Một số mẫu ngữ cảnh BTCQ xác định dữ liệu dạng số ..........................45
Bảng 9. Độ chính xác khi áp dụng mô hình MEM ở mức từ ...............................49
Bảng 10. Độ chính xác khi áp dụng mô hình MEM ở mức hình vị .....................49
Bảng 11. Độ chính xác khi áp dụng mô hình CRF ở mức từ ...............................50
Bảng 12. Độ chính xác khi áp dụng mô hình CRF ở mức hình vị .......................50
Bảng 13. Độ chính xác khi áp dụng mô hình SVM ở mức từ ..............................51
Bảng 14. Độ chính xác khi áp dụng mô hình SVM ở mức hình vị ......................51
vii
Một số thuật ngữ Anh – Việt
Bảng 1. Một số thuật ngữ Anh – Việt được sử dụng trong khóa luận
STT Thuật ngữ Tiếng Anh Viết tắt Nghĩa tiếng Việt
1 Conditional Random Field CRF Miền ngẫu nhiên điều kiện
2 Hidden Markov Model HMM Mô hình Markov ẩn
3 Maximum Entropy Model
MEM,
MaxEnt
Mô hình cực đại hóa
Entropy
4 Natural Language Processing NLP Xử lý ngôn ngữ tự nhiên
5 Part of speech tagging POS tagging Gán nhãn từ loại
6 Regular expression BTCQ Biểu thức chính quy
7 Rule-based tagger Bộ gán nhãn dựa trên luật
8 Transformation-Based Learning TBL
Phương pháp học dựa trên
chuyển đổi
1
MỞ ĐẦU
Gán nhãn từ loại cho một văn bản tức là xác định từ loại chính xác cho các từ
trong văn bản đó. Đây là vấn đề rất quan trọng trong lĩnh vực xử lý ngôn ngữ tự nhiên,
là bước tiền xử lý của nhiều bài toán và một số hệ thống thông minh khác, tuy nhiên
các nghiên cứu về bài toán này ở Việt Nam vẫn còn ở giai đoạn ban đầu nên nhu cầu
về cả lý thuyết và ứng dụng đều còn rất lớn. Đối với các văn bản tiếng Việt, việc gán
nhãn từ loại gặp phải nhiều khó khăn, đặc biệt là bản thân việc phân loại từ tiếng Việt
cho đến nay vẫn là một vấn đề còn nhiều tranh cãi, chưa có một chuẩn mực thống
nhất. Ý thức được tầm quan trọng và nhu cầu thực tiễn cũng như những khó khăn của
bài toán gán nhãn từ loại, nghiên cứu trong khóa luận phục vụ đồng thời hai mục đích:
Thứ nhất, lựa chọn một tập đặc trưng phù hợp với tính chất của tiếng Việt và có thể sử
dụng cho các phương pháp học máy khác nhau. Thứ hai, áp dụng ba phương pháp học
máy cho kết quả khá tốt ở các ngôn ngữ khác vào bài toán gán nhãn từ loại tiếng Việt,
từ đó đưa ra nhận xét về kết quả, độ phù hợp của từng phương pháp với các ứng dụng
thực tế cũng như góp phần đánh giá chất lượng của tập đặc trưng đã xây dựng.
Thực nghiệm trên các văn bản tiếng Việt áp dụng ba mô hình học máy đều cho
kết quả khá khả quan, tùy vào các đặc trưng riêng của mỗi mô hình mà thời gian xử lý
cũng như độ chính xác có những chênh lệch nhất định. Các vấn đề được giải quyết
trong khóa luận sẽ đóng góp một phần hữu ích trong việc lựa chọn phương pháp thích
hợp giải quyết bài toán, để từ đó phục vụ cho việc tiến hành các nghiên cứu ở mức cao
hơn như phân tích cú pháp, dịch máy, tóm tắt văn bản …
Khóa luận được tổ chức thành bốn chương chính với nội dung cơ bản như
sau:
Chương 1: Khái quát về bài toán gán nhãn từ loại. Chương 1 đưa ra khái
niệm, vị trí và ứng dụng của bài toán gán nhãn từ loại trong xử lý ngôn ngữ tự nhiên.
Cùng với đó, việc phân tích các vấn đề cơ bản của bài toán và việc xây dựng tập nhãn
từ loại cũng là nội dung quan trọng mà chương này đề cập tới.
Chương 2: Các hướng tiếp cận bài toán gán nhãn từ loại. Trình bày một số
hướng tiếp cận nhằm giải quyết bài toán gán nhãn từ loại như phương pháp thủ công,
các phương pháp học máy mà đại diện tiêu biểu là HMM và các phương pháp lai. So
với hướng tiếp cận thủ công có nhược điểm là tốn kém về mặt thời gian, công sức và
không khả chuyển, các phương pháp học máy thường được đánh giá cao hơn. Chương
2
này cũng giới thiệu một số nghiên cứu có liên quan đến bài toán gán nhãn từ loại cho
tiếng Việt trong những năm gần đây.
Chương 3. Ba mô hình học máy áp dụng cho bài toán gán nhãn từ loại tiếng
Việt. Khóa luận lựa chọn ba phương pháp học máy điển hình đã cho kết quả khả quan
ở nhiều ngôn ngữ và có khả năng đạt kết quả tốt khi áp dụng cho tiếng Việt là MEM,
CRF và SVM. Chương 3 đặt nền tảng lý thuyết cho phần thực nghiệm của khóa luận.
Chương 4: Thực nghiệm áp dụng ba mô hình học máy cho bài toán gán
nhãn từ loại tiếng Việt và đánh giá kết quả. Chương này trình bày các công việc
thực nghiệm mà khóa luận đã tiến hành, bao gồm việc lựa chọn tập đặc trưng phù hợp
cho tiếng Việt và áp dụng ba mô hình học máy MEM, CRF và SVM để giải quyết bài
toán gán nhãn từ loại tiếng Việt. Từ kết quả đạt được, tiến hành đối chiếu, so sánh và
đưa ra một số nhận xét về ưu, nhược điểm của các mô hình cũng như độ phù hợp của
chúng đối với bài toán gán nhãn từ loại tiếng Việt.
Phần kết luận tóm lược các kết quả đã đạt được và đóng góp của khóa luận,
đồng thời định hướng một số hướng nghiên cứu tiếp theo trong thời gian sắp tới.
3
Chương 1. KHÁI QUÁT VỀ BÀI TOÁN GÁN NHÃN TỪ
LOẠI
Chương 1 giới thiệu về bài toán gán nhãn từ loại cùng với vai trò, ứng dụng của
nó trong các hệ thống xử lý ngôn ngữ tự nhiên. Cùng với đó, chương này cũng phân
tích những khó khăn mà bài toán gán nhãn từ loại cần phải giải quyết và vấn đề xây
dựng tập nhãn từ loại.
1.1. Khái niệm và vị trí của bài toán gán nhãn từ loại trong xử lý
ngôn ngữ tự nhiên
1.1.1. Khái niệm về bài toán gán nhãn từ loại
Mỗi từ trong một ngôn ngữ nói chung đôi khi có thể gắn với nhiều từ loại và việc
giải thích đúng nghĩa một từ phụ thuộc vào việc nó có được xác định đúng từ loại hay
không dựa trên ngữ cảnh cho trước. Công việc gán nhãn từ loại cho một văn bản là
xác định từ loại của mỗi từ trong phạm vi văn bản đó, tức là phân loại các từ
thành các lớp từ loại dựa trên thực tiễn hoạt động ngôn ngữ [2, 7]. Việc gán nhãn
từ loại thường được thể hiện bằng cách gán cho mỗi từ một “nhãn” có sẵn theo tập
nhãn cho trước.
Bài toán có thể được mô tả như sau:
Input: Một chuỗi các từ và tập nhãn từ loại (Ví dụ như chuỗi các từ “Book that
flight.” và tập nhãn từ loại Penn Treebank của tiếng Anh.)
Output: Một nhãn tốt nhất cho từng từ trong chuỗi từ đã được đưa ra (Ví dụ:,
đối với chuỗi từ “Book that flight.”, thì nhãn thích hợp tương ứng cho từng từ
sẽ là Book/VB that/DT flight/NN./.)
Quá trình gán nhãn từ loại thường được chia làm 3 bước [2, 3, 4]:
Giai đoạn tiền xử lý: Phân tách xâu ký tự thành chuỗi các từ. Giai đoạn này có
thể đơn giản hay phức tạp tuỳ theo ngôn ngữ và quan niệm về đơn vị từ vựng.
Chẳng hạn đối với tiếng Anh hay tiếng Pháp, việc phân tách từ phần lớn là dựa
vào các ký hiệu trắng. Tuy nhiên vẫn có những từ ghép hay những cụm từ gây
tranh cãi về cách xử lý. Trong khi đó với tiếng Việt thì dấu trắng càng không
phải là dấu hiệu để xác định ranh giới các đơn vị từ vựng do tần số xuất hiện từ
ghép rất cao.
4
Khởi tạo gán nhãn, tức là tìm cho mỗi từ tập tất cả các nhãn từ loại mà nó có
thể có. Tập nhãn này có thể thu được từ cơ sở dữ liệu từ điển hoặc kho ngữ liệu
đã gán nhãn bằng tay. Đối với một từ mới chưa xuất hiện trong cơ sở ngữ liệu
thì có thể dùng một nhãn ngầm định hoặc gắn cho nó tập tất cả các nhãn. Trong
các ngôn ngữ biến đổi hình thái người ta cũng dựa vào hình thái từ để đoán
nhận lớp từ loại tương ứng của từ đang xét.
Quyết định kết quả gán nhãn, đó là giai đoạn loại bỏ nhập nhằng, tức là lựa
chọn cho mỗi từ một nhãn phù hợp nhất với ngữ cảnh trong tập nhãn khởi tạo
nói trên. Có nhiều phương pháp để thực hiện việc này, trong đó người ta phân
biệt chủ yếu các phương pháp dựa vào quy tắc ngữ pháp (với đại diện nổi bật là
phương pháp Brill) và các phương pháp xác suất. Ngoài ra còn có các hệ thống
sử dụng mạng nơ-ron, các hệ thống lai sử dụng kết hợp tính toán xác suất và
ràng buộc ngữ pháp, gán nhãn nhiều tầng, …
1.1.2. Vị trí và ứng dụng của bài toán gán nhãn từ loại trong NLP
Hình 1. Các bước xử lý ngôn ngữ tự nhiên
Morphology Syntax Semantics Discourse Pragmatics Knowledge
Bill was about to be impeached, and he called his lawyer
ADDITIVE or RESULT?
Could you pass me the salt? Yes or pass it?
Five man lif a piano / a chair?
Untieable Knot (un)tieable or untie(able)?
walks Noun or Verb?
rice flies (NP (NN rice) (NNS files)) or
(S (NP (NN rice) (VP (VBZ files)))
bank river or financial?
cottog bag PART-WHOLE or PURPOSE?
5
Gán nhãn từ loại là một công việc quan trọng và bắt buộc phải có đối với hầu hết
các ứng dụng xử lý ngôn ngữ tự nhiên. Nếu coi quá trình xử lý ngôn ngữ tự nhiên gồm
các bước: Tiền xử lý văn bản, phân tích hình thái, phân tích cú pháp và phân tích ngữ
nghĩa thì gán nhãn từ loại thuộc vào bước phân tích hình thái. Bước này có nhiệm vụ
phân tích câu thành một bảng các từ (hay cụm từ) riêng biệt, đồng thời kèm theo tất cả
các thông tin về từ đó, như là: Từ loại (part-of-speech), phạm trù ngữ pháp (category),
các biến cách của từ, tiền tố, hậu tố của từ (nếu có) [5, 9]. Hình 1 ở trên cho ta mô tả
trực quan về vị trí của bài toán gán nhãn từ loại trong xử lý ngôn ngữ tự nhiên.
Như vậy, gán nhãn từ loại là bước tiền xử lý quan trọng cho các phần tiếp theo
trong quá trình xử lý ngôn ngữ tự nhiên như phân tích cú pháp, phân tích ngữ nghĩa.
Có thể điểm qua một số ứng dụng tiêu biểu của bài toán gán nhãn từ loại như dưới đây
[14]:
Thành công của việc gán nhãn từ loại tiếng Việt sẽ là cơ sở cho việc giải quyết
các bài toán xử lý ngôn ngữ tự nhiên khác như tóm tắt văn bản, phân cụm, phân
loại văn bản …
Khi hệ thống văn bản đã được gán nhãn, hay nói cách khác là đã được chú thích
từ loại thì nó sẽ được ứng dụng rộng rãi trong các hệ thống tìm kiếm thông tin,
trong các ứng dụng tổng hợp tiếng nói, các hệ thống nhận dạng tiếng nói cũng
như trong các hệ thống dịch máy …
Một trong những ứng dụng thường được nhắc đến nhiều nhất của gán nhãn từ
loại là trong hệ thống dịch máy. Cho đến nay, sau hơn 50 năm phát triển, dịch
máy chứng tỏ là một ứng dụng vô cùng thiết thực, đồng thời cũng là một bài
toán khá hóc búa đặt ra cho các nhà khoa học trên toàn thế giới. Từ đầu thập
niên 1960, các nhà khoa học đã đúc kết lại ba chiến lược dịch máy cơ bản, đó là
dịch trực tiếp, dịch thông qua ngôn ngữ trung gian và dịch dựa trên chuyển đổi.
Và qua thực tế, chiến lược dịch dựa trên chuyển đổi đã khẳng định được tính
hiệu quả và tiềm năng của nó. Trong hệ dịch dựa trên sự chuyển đổi, khối
chuyển đổi cây cú pháp (cấu trúc) giữ một vai trò quan trọng, quyết định chất
lượng hệ dịch. Khối này phụ thuộc rất lớn vào sự chính xác của quá trình phân
tích ở bước trước, trong đó có bộ phận gán nhãn từ loại, giả sử như các từ trong
cây cú pháp bị gán nhãn từ loại sai dẫn đến cây cú pháp của câu cũng bị sai. Giả
sử như hệ thống tiến hành dịch câu sau đây từ tiếng Anh sang tiếng Việt: “Jet
planes fly about nine miles high”, nếu không có sự trợ giúp của công cụ gán
6
nhãn từ loại, hệ thống dịch máy chỉ dịch từ từ sang từ thì ta sẽ có được kết quả
tiếng Việt là “Phản lực các phi cơ bay khoảng chín dặm cao”
Jet planes fly about nine miles high
Phản lực các phi cơ bay khoảng chín dặm cao
Trong khi đó, nếu các từ đã được gán nhãn từ loại một cách chính xác, ta sẽ có
khả năng cao nhận được một câu tiếng Việt hợp lý hơn rất nhiều: “Các phi cơ
phản lực bay cao khoảng chín dặm”
Jet planes fly about nine miles high
Các phi cơ phản lực bay cao khoảng chín dặm
…
1.2. Các khó khăn của bài toán gán nhãn từ loại
Nếu mỗi từ chỉ có một nhãn từ loại và ta có thể xây dựng được một từ điển hữu
hạn các từ và nhãn tương ứng của nó thì chắc chắn có thể giải quyết được bài toán gán
nhãn từ loại với kết quả tối ưu. Tuy nhiên, trong thực tế một từ đôi khi có thể có nhiều
hơn một nhãn từ loại thích hợp, và ta cũng không thể kiểm soát được toàn bộ các từ có
thể xuất hiện trong văn bản, điều này dẫn đến hai vấn đề mà bài toán gán nhãn từ loại
phải đối mặt: Nhập nhằng từ loại và từ mới.
Vấn đề chủ yếu của bài toán gán nhãn từ loại thực chất là việc loại bỏ nhập
nhằng về từ loại, tức là khi một từ có nhiều từ loại, nhưng trong một ngữ cảnh cụ thể,
nó chỉ có thể có một từ loại đúng mà thôi [5, 18].
Ví dụ:
Trong câu “I can can a can”, bộ gán nhãn từ loại sẽ phải đánh dấu từ loại
như sau:
I/PRO can/AUX can/V a/DET can/N.
Trong hai câu sau đây, từ “race” được gán nhãn khác nhau:
- Secretariat/NNP is/VBZ expected/VBN to/TO race/VB tomorrow/NN
7
- People/NNS continue/VBP to/TO inquire/VB the/DT reason/NN for/IN the/DT
race/NN for/IN outer/JJ space/NN
Đây là một vấn đề rất phức tạp và tồn tại trong hầu như tất cả mọi ngôn ngữ mà
ta không thể tránh được, lấy ví dụ như trong tập từ vựng Brown và tập nhãn Brown
của nó trong tiếng Anh thì có 35340 từ không có nhập nhằng (tức là một từ chỉ có
đúng duy nhất một nhãn trong mọi trường hợp), và 4100 từ chứa nhập nhằng (tức là
một từ có thể có từ 2 đến 7 nhãn trong các ngữ cảnh khác nhau) – Kết quả này do
Derose tổng kết năm 1988 [18], chi tiết cho ở bảng 2 dưới đây:
Bảng 2. Tổng kêt số nhãn có thể có của một từ trong tập từ vựng Brown
Số nhãn 1 2 3 4 5 6 7
Số từ 35340 3760 264 61 12 2 1
Nhìn chung, các nhập nhằng từ loại thường được giải quyết bằng cách xét đến
ngữ cảnh mà từ đó xuất hiện, tuy nhiên trong một số trường hợp, ngay cả khi có thông
tin về ngữ cảnh mà một số từ vẫn còn tiềm tàng nhập nhằng về từ loại.
Một vấn đề khác mà bài toán gán nhãn từ loại cần phải xử lý là khi gặp những từ
mới mà bộ gán nhãn không thể giải quyết được bằng những cách thông thường. Trong
trường hợp này, thường thì hệ thống sẽ để nguyên và đánh dấu một từ loại đặc biệt để
chuyển sang phần xử lý tên riêng (proper name) hay từ mới (unknown word).
1.3. Tập nhãn từ loại
1.3.1. Nguyên tắc xây dựng tập nhãn từ loại và một số tập nhãn từ loại
của các ngôn ngữ trên thế giới
Từ loại là những lớp từ có cùng bản chất ngữ pháp, được phân chia theo ý nghĩa
khái quát, theo khả năng kết hợp với các từ ngữ khác trong ngữ lưu và thực hiện
những chức năng ngữ pháp nhất định ở trong câu [1]. Trong thực tế, các tập nhãn sử
dụng cho việc gán nhãn từ loại thường được xây dựng và phát triển từ các lớp cơ bản
là các lớp từ đóng (Closed word class, function word class, còn được gọi là các từ
chức năng, là một tập cố định và không thể mở rộng, các lớp này thường chỉ chứa một
số lượng ít các từ có liên quan. Ví dụ: Giới từ, mạo từ, đại từ, số đếm,...) và các lớp từ
mở (Open class, là các lớp từ có khả năng mở rộng bằng cách tạo thêm từ mới hoặc
“mượn” từ các ngôn ngữ khác. Có 4 lớp từ mở chính là danh từ - nouns, động từ -
verb, tính từ - adjective và một phần của phó từ - [adverb]). Thường thì một lớp từ sẽ
được chia thành nhiều từ loại theo các đặc tính riêng nào đó [21].
8
Chỉ xét riêng đối với Tiếng Anh, cho đến hiện nay đã có rất nhiều tập nhãn từ
loại khác nhau được xây dựng và sử dụng, hình 2 điểm qua một số tập nhãn từ loại đã
được xây dựng theo các mốc thời gian [7].
Hình 2. Một số tập nhãn từ loại cho Tiếng Anh
Có thể kể đến một số tập nhãn từ loại điển hình như:
Brown corpus: 87 nhãn.
Penn Treebank: 45 nhãn. Các nhãn của tập nhãn từ loại Penn Treebank được
cho trong bảng 3 dưới đây.
Lancaster UCREL C5 (Dùng để gán nhãn BNC – British National Corpus): 61
nhãn.
Lancaster C7: 145 nhãn.
Bảng 3. Tập nhãn từ loại Penn Treebank
Nhãn Ý nghĩa Nhãn Ý nghĩa
CC
CD
DT
EX
FW
IN
JJ
Coordinating conjunction
Cardinal number
Determiner
Existential there
Foreign word
Preposition/sub- conjunction
Adjective
SYM
TO
UH
VB
VBD
VBG
VBN
Symbol
“to”
Interjection
Verb, base form
Verb, past tense
Verb, gerund or present participle
Verb, past participle
1960 1970 1980 1990 2000
Brown Corplus
Created (EN-US)
1 Millions Words
LOB Corplus
Created(EN-US)
1 Millions Words
Brown
Corplus
POS Tagging
separated from
other NLP
LOB Corplus
Tagged
Penn Treebank
Corpus
(WSJ, 4.5M)
British National
Corpus
(tagged by CLAWS)
9
Nhãn Ý nghĩa Nhãn Ý nghĩa
JJR
JJS
LS
MD
NN
NNS
NNP
NNPS
PDT
POS
PP
PP$
RB
RBR
RBS
RP
Adjective, comparative
Adjective, superlative
List item marker
Modal
Noun, singular or mass
Noun, plural
Proper noun, singular
Proper noun, plural
Predeterminer
Possessive ending
Personal pronoun
Possessive pronoun
Adverb
Adverb, comparative
Adverb, superlative
Particle
VBP
VBZ
WTD
WP
WP$
WRB
$
#
“
”
(
)
,
.
:
Verb, non-3rd person singular
present
Verb, 3rd person singular present
Wh-determiner
Wh-pronoun
Possessive wh-pronoun
Wh-adverb
Dollar sign
Pound sign
Left quote
Right quote
Left parenthesis
Right parenthesis
Comma
Sentence-final punc
Mid-sentence punc
Đối với các ngôn ngữ khác trên thế giới, để phục vụ cho việc giải quyết bài toán
gán nhãn từ loại, nhiều tập nhãn từ loại với độ mịn khác nhau cũng đã được xây dựng
cho mỗi ngôn ngữ, ví dụ như tập nhãn Chinese Treebank gồm 33 nhãn và Uppen CTB
gồm 23 nhãn cho tiếng Trung Quốc, tập nhãn di SI-TAL gồm 15 nhãn và tập nhãn
Achim Stein Italian tagset gồm 37 nhãn của tiếng Ý [18], …
Như vậy, với mỗi ngôn ngữ thường đều có nhiều tập nhãn từ loại có thể sử dụng,
tuy nhiên, việc lựa chọn tập nhãn ảnh hướng rất lớn đến độ khó của bài toán gán nhãn
từ loại. Chọn tập nhãn lớn sẽ làm tăng độ khó nhưng tập nhãn nhỏ hơn có thể không
đủ đáp ứng cho một mục đích nhất định nào đó. Việc chọn tập nhãn nào sẽ tùy thuộc
vào từng ứng dụng cụ thể, nói cách khác là tùy thuộc vào số lượng thông tin mà ứng
dụng đó đòi hỏi. Như vậy, cần phải có một sự thoả hiệp để xây dựng được một bộ
nhãn từ loại không quá lớn và có chất lượng [2, 21], tức là cần phải có sự cân đối giữa:
Có được lượng thông tin rõ ràng hơn (Tức là phạm vi phân lớp từ loại nhỏ hơn,
chia thành nhiều từ loại hơn dựa trên nhiều yếu tố thể hiện sự khác biệt).
10
Có khả năng tiến hành thực hiện việc gán nhãn (Tức là số lượng các từ loại
càng ít càng dễ tiến hành).
1.3.2. Một số tập nhãn từ loại hiện được đề xuất ở Việt Nam
Đối với tiếng Việt, việc thiết kế một tập nhãn từ loại còn vấp phải một vấn đề
lớn, đó là ngay trong tiếng Việt thì vấn đề từ loại vẫn còn gây nhiều tranh cãi. Theo
Diệp Quang Ban [1], việc phân định từ loại phải dựa trên các tiêu chuẩn sau đây:
Tiêu chuẩn 1 - Ý nghĩa khái quát của từ. Các từ loại là những nhóm từ rất to
lớn về khối lượng mà mỗi nhóm có một đặc trưng phân loại: tính vật thể, phẩm
chất, hành động hoặc trạng thái … Ví dụ, những từ như: nhà, bàn, học sinh,
con, quyển, sự … được phân vào lớp danh từ, vì ý nghĩa từ vựng của chúng
được khái quát hóa và trừu tượng hóa thành ý nghĩa thực thể - ý nghĩa phạm
trù ngữ pháp của danh từ.
Tiêu chuẩn 2 - Khả năng kết hợp với các từ ngữ khác trong ngữ lưu. Với ý
nghĩa khái quát, các từ có thể có khả năng tham gia vào một kết hợp có nghĩa.
Ở mỗi vị trí của kết hợp có thể xuất hiện những từ có khả năng lần lượt thay thế
nhau, trong khi đó, ở các vị trí khác nhau trong kết hợp, các từ còn lại tạo ra
bối cảnh cho sự xuất hiện khả năng thay thế của những từ nói trên. Những từ
cùng xuất hiện trong cùng một bối cảnh, có khả năng thay thế nhau ở cùng một
vị trí, có tình chất thường xuyên, được tập hơn vào một lớp từ. Vận dụng vào
tiếng Việt, những từ; nhà, bàn, cát, đá … có thể xuất hiện và thay thế nhau
trong kết hợp kiểu: nhàn ày, bàn này, cát này, đá này … và được xếp vào lớp
danh từ. Chúng không thể xuất hiện và thay thế cho nhau trong kết hợp kiểu:
hãy ăn, hãy mua, ăn xong, mua xong … vốn là kiểu kết hợp của động từ.
Tiêu chuẩn 3 - Chức năng ngữ pháp. Tham gia vào cấu tạo câu, các từ có thể
đứng ở một hay một số vị trí nhất định trong câu, hoặc có thể thay thế nhau ở vị
trí đó, và cùng biểu thị một mối quan hệ về chức năng cú pháp với các thành
phần khác trong cấu tạo câu, có thể phân vào một từ loại. Ví dụ, các từ; nhà,
bàn, cát, đá … có thể đứng ở nhiều vị trí trong câu. Chúng có thể thay thế nhau
ở những vị trí đó, và có quan hệ về chức năng giống nhau với các thành phần
khác trong câu ở mỗi vị trí, nhưng thường ở vị trí chủ ngữ trong quan hệ với vị
ngữ. Chủ ngữ và vị ngữ là hai chức năng cú pháp cơ bản, chức năng chủ ngữ là
chức năng cú pháp chủ yếu để phân loại các từ nói trên vào lớp danh từ; còn
11
chức năng vị ngữ lại là chức năng cú pháp chủ yếu của các động từ và tính từ
…
Qua khảo sát các nghiên cứu gần đây của tiếng Việt cho bài toán gán nhãn từ loại
[2, 3, 4, 6], có thể thấy có hai dạng tập nhãn từ loại thường được sử dụng cho các công
cụ gán nhãn từ loại tiếng Việt:
Dạng thứ nhất, xuất phát từ tập gồm 8 nhãn từ loại tiếng Việt thông dụng được
các nhà nghiên cứu ngôn ngữ học công nhận nhiều nhất (bao gồm: danh từ,
động từ, tính từ, đại từ, phụ từ, kết từ, trợ từ, cảm từ) để xây dựng tập nhãn
“mịn” hơn bằng cách phân nhỏ mỗi từ loại trên thành các tiểu từ loại. Việc phân
nhỏ này dựa trên nền tảng là các tiểu loại từ được nêu ra trong cuốn Ngữ pháp
tiếng Việt của Ủy ban khoa học xã hội Việt Nam, xuất bản năm 1993, có bổ
sung thêm một số nhãn từ loại để tránh trường hợp một từ mang cùng một lúc
nhiều nhãn từ loại (chẳng hạn động từ ngoại động chỉ cảm nghĩ hay động từ nội
động chỉ cảm nghĩ). Tùy thuộc vào từng loại ứng dụng xem cần thông tin cú
pháp và từ vựng ở mức nào mà việc xây dựng, xác định tập nhãn từ loại sẽ
dừng ở mức thô hay mịn khác nhau.
Hiện nay, ở Việt Nam đã có một số tập nhãn từ loại được xây dựng, chủ yếu ở
mức thô, tiêu biểu có thể kể đến bộ nhãn VnPOStag của tác giả Trần Thị Oanh
gồm 14 nhãn, 01 nhãn không xác định và các nhãn ký hiệu đặc biệt khác; bộ
VietTreeBank gồm 16 nhãn và 01 nhãn cho từ không phân loại được, … Bộ
nhãn gồm nhiều nhãn nhất hiện nay được xây dựng bởi nhóm tác giả Nguyễn
Thị Minh Huyền sử dụng cho công cụ VnQtag gồm 48 nhãn và 01 nhãn không
xác định.
Dạng thứ hai, tập nhãn tiếng Việt được xây dựng thông qua việc xây dựng kho
ngữ liệu song ngữ Anh-Việt mà trong đó các câu tiếng Việt đã được gán nhãn
từ loại chính xác nhờ kết quả liên kết từ Anh-Việt và phép chiếu từ loại từ Anh
sang Việt.
Tiêu biểu cho dạng tập nhãn từ loại này là tập nhãn được sử dụng trong nghiên
cứu “Gán nhãn từ loại tự động cho Tiếng Việt” của nhóm tác giả Đinh Điền [6],
tập nhãn này được xây dựng bằng cách quy chiếu từ tập nhãn tiếng Anh là Brown
Corpus.
Hiện nay, bài toán gán nhãn từ loại cho tiếng Anh đã được giải quyết khá tốt, đạt
độ chính xác cao (Khoảng hơn 97% ), bên cạnh việc hoàn thiện hơn nữa các phương
12
pháp gán nhãn, việc xây dựng bộ nhãn mịn hơn và có khả năng ứng dụng thực tế cao
cũng đang rất được quan tâm. Có thể nói rằng kết quả đạt được của bài toán gán nhãn
từ loại cho tiếng Anh đã ngày càng tiến gần tới mức tối ưu. Tuy nhiên, đối với các
ngôn ngữ khác, đặc biệt là các ngôn ngữ tượng hình (như tiếng Trung Quốc, Nhật, Hàn
Quốc …), các ngôn ngữ của Nga, Ấn Độ, A Rập, Thái Lan … cũng như đối với tiếng
Việt thì bài toán gán nhãn từ loại vẫn là một thách thức lớn. Các phương pháp và công
cụ đã được xây dựng gần như hoàn thiện cho Tiếng Anh khi đem áp dụng cho các
ngôn ngữ khác loại trên thường đưa lại kết quả thấp hoặc chưa đáp ứng được nhu cầu
ứng dụng. Như vậy, yêu cầu đặt ra với từng ngôn ngữ là phải kế thừa, tận dụng được
các phương pháp sẵn có, tiến hành hiệu chỉnh hoặc đề xuất ra các hướng tiếp cận mới
sao cho phù hợp với đặc điểm riêng của từng ngôn ngữ.
13
Chương 2. CÁC HƯỚNG TIẾP CẬN BÀI TOÁN GÁN
NHÃN TỪ LOẠI
Như đã giới thiệu, bài toán gán nhãn từ loại là một trong những bài toán cơ bản
trong xử lý ngôn ngữ tự nhiên và được quan tâm từ rất sớm, cùng với đó là sự xuất
hiện của rất nhiều phương pháp giải quyết bài toán này. Cho đến nay, việc hoàn thiện
các phương pháp đã có và xây dựng các phương pháp mới nhằm đạt được kết quả tốt
hơn vẫn là mục tiêu của nhiều nghiên cứu.
Hình 3 dưới đây điểm qua một vài phương pháp cơ bản nổi bật theo các mốc thời
gian [7]:
Hình 3. Một số phương pháp giải quyết bài toán POS tagging cho tiếng Anh
Theo Daniel Jurafsky [9], hầu hết các thuật toán được sử dụng để giải quyết bài
toán gán nhãn từ loại thuộc vào một trong hai loại: Phương pháp thủ công và phương
pháp dựa trên học máy. Ngoài ra người ta còn có thể kết hợp một số phương pháp để
cho kết quả tốt hơn, kỹ thuật này gọi là phương pháp lai.
2.1. Gán nhãn bằng phương pháp dựa trên hệ luật
Đây là phương pháp gán nhãn từ loại ra đời sớm nhất, các bộ gán nhãn “sơ khai”
đều thực hiện theo phương pháp này. Nội dung chính của phương pháp này là xây
dựng một cơ sở dữ liệu lớn các “luật” được viết bằng tay, vì vậy phương pháp này còn
được gọi là phương pháp gán nhãn thủ công. Các luật được xây dựng dựa vào ngữ
1960
1970 1980 1990 2000
Trigram Tagger
(Kempe)
96%
Combined Methods
98% +
Greene and
Rubin
DeRose/Church
Efficient HMM
Sparse Data
95% +
HMM Tagging
(CLAWS)
93% - 95%
Transformation
Based Tagging
(Eric Bill)
Rule Based – 95%+
Tree-Based Statistics
(Helmut Shmid)
Rule Based – 96%+
Neural Network
96% +
14
cảnh chứa từ đang xét nhằm loại bỏ nhập nhằng nếu từ đó có thể có nhiều nhãn từ loại
thích hợp, ví dụ, nếu một từ nhập nhằng đang xét đi sau một từ chỉ định thì nó có xu
hướng là một danh từ hơn là một động từ.
Đại diện tiêu biểu cho nhóm các phương pháp thủ công dựa trên hệ luật này là
ENGTWOL (Voutilainen, 1995) [21].
Về thực chất, phương pháp này dựa trên kỹ thuật hai bước dưới đây:
Bước 1: Xác định cho mỗi từ một danh sách các từ loại có khả năng của nó.
Đối với ENGTWOL, việc này được thực hiện mởi một bộ phân tích hình thái hai
mức độ (Máy chuyển hữu hạn trạng thái).
Ví dụ: Để gán nhãn từ loại cho câu “Pavlov had shown that salivation”, ở bước
này, bộ gán nhãn tạo một danh sách tất cả các nhãn có thể cho từng từ như sau:
Pavlov: PAVLOV N NOM SG PROPER
had : HAVE V PAST VFIN SVO
HAVE PCP2 SVOO
shown : SHOW PCP2 SVOO SVO SG
that : ADV
PRON DEM SG
DET CENTRAL DEM SG
CS
salivation: N NOM SG
Bước 2: Sử dụng một danh sách các ràng buộc không có nhập nhằng (các luật
nếu-thì), và sử dụng các thông tin về ngữ cảnh để chọn ra một nhãn thích hợp
nhất trong số các nhãn có thể. Như vậy, ở bước này, các ràng buộc đóng vai trò
như một bộ lọc (Filters). Với ENGTWOL, danh sách các ràng buộc gồm
khoảng 1100 ràng buộc.
Trên thực tế, mỗi luật trên đều chứa một số lượng lớn các ngoại lệ. Thậm chí
ngay cả khi người thiết kế tìm cách giải quyết hết các ngoại lệ mà họ nghĩ đến thì vẫn
tồn tại những trường hợp chỉ xuất hiện khi hệ thống được đưa vào thực nghiệm. Hơn
nữa, một hệ thống luật dù rất đồ sộ cũng khó có thể bao quát được hết tất cả các trường
15
hợp ngôn ngữ, vì vậy, hiện nay các phương pháp dựa trên luật thường chỉ được sử
dụng bằng cách kết hợp bổ sung với các phương pháp khác [5].
2.2. Các phương pháp dựa vào học máy
Như vậy, phương pháp dựa trên luật là một phương pháp thủ công còn tiềm tàng
rất nhiều nhập nhằng. Cùng với đó, việc xây dựng một hệ thống trích chọn dựa trên
các luật là rất tốn công sức. Thông thường để xây dựng một hệ thống như vậy đòi hỏi
công sức vài tháng từ một lập trình viên với nhiều kinh nghiệm về ngôn ngữ học. Giải
pháp cho các giới hạn này là phải xây dựng một hệ thống bằng cách nào đó có thể “tự
học”, điều này sẽ giúp giảm bớt sự tham gia của các chuyên gia ngôn ngữ và làm tăng
tính khả chuyển cho hệ thống, các phương pháp như vậy được gọi là các phương pháp
dựa vào học máy.
Như đã nói ở trên, các phương pháp dựa vào học máy là các phương pháp xây
dựng hệ thống mà bằng cách nào đó có thể “tự học” (để ngắn gọn ở các phần dưới đây
ta sẽ gọi là các phương pháp học máy). Phần này sẽ xem xét một đại diện tiêu biểu của
phương pháp học máy, giải quyết nhập nhằng bằng cách sử dụng một bộ dữ liệu huấn
luyện để tính toán xác suất của một từ cho sẵn sẽ được gán với một nhãn nào đó trong
ngữ cảnh cho trước, vì bản chất đó, họ các phương pháp này còn được gọi là các
phương pháp xác suất.
Xác suất cho một từ, tức là xác suất mà một nhãn cho trước t là thích hợp với
một từ cho trước w được tính bằng công thức:
(2.0)
Để minh họa cho phương pháp xác suất, phần này sẽ giới thiệu một bộ gán nhãn
điển hình sử dụng mô hình Markov ẩn (HMM) [16]. Mô hình Markov ẩn được giới
thiệu và nghiên cứu vào cuối những năm 1960 và đầu những năm 1970, cho đến nay
nó được ứng dụng nhiều trong nhận dạng tiếng nói, tin sinh học và xử lý ngôn ngữ tự
nhiên. HMM lựa chọn một chuỗi nhãn tốt nhất cho toàn bộ câu, thông thường người ta
sử dụng thuật toán Viterbi để tìm chuỗi nhãn tốt nhất đó.
Mô hình HMM có thể được xây dựng bởi các ô-tô-mát hữu hạn trạng thái
(probabilistic finite state automata) với các tham số biểu diễn xác suất chuyển trạng
thái và xác suất sinh dữ liệu quan sát tại mỗi trạng thái. Các trạng thái trong mô hình
HMM được xem là bị ẩn đi bên dưới dữ liệu quan sát sinh ra do mô hình. Quá trình
( , )( | )
( )
f t wP t w
f w
16
sinh ra chuỗi dữ liệu quan sát trong HMM thông qua một loạt các bước chuyển trạng
thái xuất phát từ một trong các trạng thái bắt đầu và dừng lại ở một trạng thái kết thúc.
Tại mỗi trạng thái, một thành phần của chuỗi quan sát được sinh ra trước khi chuyển
sang trạng thái tiếp theo. Trong bài toán gán nhãn từ loại dữ liệu, ta có thể xem tương
ứng mỗi trạng thái với một trong nhãn từ loại: NN, NP, VB...và dữ liệu quan sát là các
từ trong câu. Mặc dù các lớp này không sinh ra các từ, nhưng mỗi lớp được gán cho
một từ bất kì có thể xem như là sinh ra từ này theo một cách thức nào đó.
Giả sử, với câu đầu vào W (w1, w2,…, wn), ta cần tìm một chuỗi các nhãn tốt nhất
cho toàn bộ câu, trong đó mỗi nhãn tương ứng với một từ của câu đầu vào T (t1, t2,…,
tn). Bộ gán nhãn sử dụng mô hình HMM sẽ tìm chuỗi các nhãn sao cho giá trị của tích
P(Từ |nhãn) * P (nhãn | n nhãn trước đó) là cực đại, tức là thỏa mãn công thức (2.1)
(2.1)
Sử dụng luật Bayes, P(T|W) được viết theo công thức (2.2)
(2.2)
Ta đang quan tâm tới việc tìm chuỗi nhãn phù hợp nhất làm cực đại công thức
(2.2) nên mẫu số trong tất cả các trường hợp là giống nhau, vì vậy ta có thể loại bỏ nó.
Do đó, bài toán trở thành tìm chuỗi các nhãn thỏa mãn công thức (2.3)
(2.3)
Áp dụng luật chuỗi xác suất, ta có công thức (2.4)
(2.4)
Vẫn không có phương pháp hiệu quả để tính xác suất của chuỗi này một cách
chính xác, vì nó yêu cầu quá nhiều dữ liệu. Ở đây ta phải áp dụng các giả thiết độc lập
điều kiện để có một xác suất đơn giản hơn (giả thiết rằng mỗi từ đều là độc lập với các
từ khác và đặc tính của một từ chỉ phụ thuộc vào nhãn của nó). Sử dụng giả thiết N-
gram để mô hình hóa xác suất chuỗi từ:
(2.5a)
Cụ thể ta dùng mô hình phổ biến nhất là mô hình tri-gram.
(2.5b)
Đầu tiên, ta đơn giản hóa rằng xác suất của một từ thì chỉ phụ thuộc vào nhãn của
nó:
ˆ ( | )TT argmax P T W
( ) ( | )( | )
( )
P T P W TP T W
P W
ˆ ( ) ( | )TT argmax P T P W T
( ) ( | ) ( | ... ) ( | ... )n i 1 1 i 1 i 1 i i 1 1 i 1 i 1i 1P T P W T P w w t w t t P t w t w t
n
1 n i i-1
i=1
P(t ,...,t )= P(t | t )
1 2 3 2 1 3 2P t ,t ,t = P t | t P t | t
17
(2.6)
Tiếp theo, ta giả thiết rằng các nhãn phía trước có thể được xấp xỉ bởi 2 nhãn
trước và gần nó nhất:
(2.7)
Vì vậy, công thức (2.1) được biến đổi tương đương với công thức (2.8) dưới đây,
ta phải lựa chọn chuỗi nhãn làm cực đại công thức (2.8) này
(2.8)
Các thành phần thừa số trong công thức (2.8) có thể được tính toán từ tập dữ liệu
huấn luyện của mô hình. Chú ý rằng để có thể tránh xác suất bằng 0 ta cần sử dụng các
kỹ thuật làm trơn
Ta có thể mô hình hóa HMM dưới dạng một đồ thị có hướng như hình 4.
Hình 4. Đồ thị có hướng mô tả mô hình HMM
Như đã nói ở trên, thông thường trong mô hình HMM thuật toán hay được sử
dụng để tìm dãy trạng thái tối ưu là thuật toán Viterbi [16]. Thuật toán này dựa trên
công thức truy hồi (2.9) dưới đây:
i+1
i+1
j k j j k
i i+11 k T
j k j j k
i i+1
1 k T
(t )= max[ (t )× P(w | t )× P(t | t )]
(t )= argmax[ (t )× P(w | t )× P(t | t )]
(2.9)
Một trong những bộ gán nhãn tiêu biểu sử dụng phương pháp này là bộ gán nhãn
TnT của tác giả Thorsten Brants sử dụng phương pháp tri-gram, cho kết quả 96.7% với
tập nhãn Penn TreeBank và bộ dữ liệu WallStreet trong tiếng Anh [16]. QTAG là một
bộ gán nhãn dựa trên mô hình HMM do nhóm nghiên cứu Corpus Research thuộc
trường đại học tổng hợp Birmingham phát triển, cung cấp miễn phí cho mục đích
T1 T2 T3 Tn-1 Tn
W1 W 2 W 3 W n-1 W n
( | ... ) ( | )i 1 1 i 1 i 1 i i iP w w t w t t P w t
( | ... ) ( | )i 1 1 i 1 i 1 i i-2 i-1P t w t w t P t t t
( ) ( | ) ( | )[ ( | )]
n n
1 2 1 i i-2 i-1 i i
i 3 i 1
P t P t t P t t t P w t
18
nghiên cứu. Một điểm nổi trội của QTAG là dù được xây dựng cho tiếng Anh nhưng
nó có thể được huấn luyện để sử dụng cho các ngôn ngữ khác [3]. Phương pháp xác
suất còn được sử dụng để gán nhãn từ loại trong rất nhiều ngôn ngữ khác nhau, ví dụ
việc áp dụng mô hình HMM cho bài toán gán nhãn từ loại tiếng Trung Quốc đạt đến
93.5 % trong nghiên cứu của các tác giả GouDong Zhou và Jian Su [20]; Hai tác giả
Fábio N.Kepler và Marcelo Finger cũng công bố kết quả sử dụng mô hình HMM để
gán nhãn từ loại cho tiếng Bồ Đào Nha với kết quả 93.48 % [18].
Tuy nhiên, mặc dù tính đến thời điểm hiện tại, đây là một trong những phương
pháp gán nhãn theo phương pháp xác suất thông dụng nhất được biết đến nhưng nó
vẫn còn tiềm tàng những giới hạn khó giải quyết. Adrew McCallum trong các nghiên
cứu của mình [10] đã đưa ra hai vấn đề mà các mô hình HMM truyền thống nói riêng
và các mô hình sinh (generative models) nói chung gặp phải khi gán nhãn cho dữ liệu
dạng chuỗi.
Thứ nhất, để có thể tính được xác suất P(T, W) (2.1), thông thường ta phải liệt
kê hết các trường hợp có thể của chuỗi T và chuỗi W. Nếu như các chuỗi T có
thể liệt kê được vì số lượng các trạng thái là có hạn thì trong nhiều ứng dụng ta
không thể nào liệt kê hết được các chuỗi W vì dữ liệu quan sát là hết sức phong
phú và đa dạng. Để giải quyết vấn đề này, HMM phải đưa ra giả thiết về sự độc
lập giữa các dữ liệu quan sát, đó là dữ liệu quan sát được tại thời điểm i chỉ phụ
thuộc trạng thái tại thời điểm đó. Tuy nhiên giả thiết này không có trong thế
giới thực vì vậy khi áp dụng nó trong các hệ thống thực tế sẽ khó tránh khỏi
một yếu tố bất lợi như thiếu tính mềm dẻo, bỏ sót thuộc tính ...
Vấn đề thứ hai mà các mô hình sinh gặp phải khi áp dụng vào các bài toán phân
lớp dữ liệu dạng chuỗi đó là chúng sử dụng xác suất đồng thời để mô hình hóa
các bài toán có tính điều kiện.Với các bài toán này sẽ thích hợp hơn nếu ta dùng
một mô hình điều kiện có thể tính toán P(T|W) trực tiếp thay vì P (T,W) như
trong công thức (2.1).
Ngoài HMM, còn rất nhiều phương pháp xác suất khác có thể sử dụng để giải
quyết bài toán gán nhãn từ loại nói chung và bài toán gán nhãn từ loại tiếng Việt nói
riêng, nhiều trong số chúng có những ưu điểm giải quyết được các hạn chế của mô
hình HMM mà ta đã nói ở trên. Cùng với đó, bên cạnh các phương pháp học máy xác
suất, còn có các phương pháp học máy khác, ví dụ phương pháp học máy dựa trên độ
đo, phương pháp sử dụng mạng nơ ron nhân tạo, …. Các chương sau sẽ trình bày rõ
hơn về ba phương pháp học máy tiêu biểu đã đạt được kết quả khả quan khi áp dụng
19
cho bài toán gán nhãn từ loại trong các ngôn ngữ khác, đó là mô hình cực đại hóa
Entropy MEM, mô hình miền ngẫu nhiên điều kiện CRF và mô hình máy véc tơ hỗ trợ
SVM.
2.3. Phương pháp lai
Đại diện tiêu biểu của phương pháp lai là phương pháp dựa trên học chuyển đổi
(Transformation-Based learning TBL) [6], đây là một phương pháp học có giám sát,
đòi hỏi một tập ngữ liệu đã được gán nhãn. Phương pháp này sử dụng đặc tính của cả
hai kiến trúc gán nhãn nói trên. Giống như bộ gán nhãn dựa trên luật, nó dựa vào luật
để xác định khi một từ nhập nhằng thì nó có khả năng là một nhãn nào nhất. Giống
như bộ gán nhãn xác suất, nó có một thành phần học máy để tạo ra các luật một cách
tự động từ một bộ dữ liệu huấn luyện đã được gán nhãn trước.
Ý tưởng chính của thuật toán này là bắt đầu với một vài giải pháp đơn giản (hoặc
tinh vi) cho vấn đề (gọi là “baseline tagging”) và từng bước áp dụng những luật biến
đổi (luật chuyển) tối ưu (tìm ra từ tập ngữ liệu huấn luyện đã được đánh dấu chính
xác) để dần dần giải quyết vấn đề (tức là chuyển từ nhãn không chính xác sang nhãn
chính xác). Quá trình này sẽ dừng lại khi không còn luật chuyển tối ưu nào được lựa
chọn hoặc đã hết dữ liệu. Hình 5 cho ta mô hình tổng quát của phương pháp lai.
Hình 5. Mô hình tổng quát của phương pháp lai
Dữ liệu chưa gán
nhãn
Trạng thái bắt
đầu
Dữ liệu đã gán
nhãn
“Sự thật”
Các luật
Bộ học
20
Thuật toán bao gồm 5 bước [6]
Bước 1: Gán nhãn cho từng từ bằng nhãn thông dụng nhất.
Bước 2: Chọn một phép chuyển có tính quyết định thay thế nhãn đã gán bằng
nhãn mới mà kết quả đem lại có hệ số đánh giá lỗi thấp hơn (Đánh giá một phép
chuyển bằng hệ số đánh giá lỗi thực chất là so sánh nó với “sự thật”).
Bước 3: Áp dụng phép chuyển này cho cả tập huấn luyện.
Bước 4: Thực hiện lại các bước trên
Bước 5: Đưa ra kết quả là một bộ gán nhãn mà nhãn đầu tiên sử dụng unigrams,
sau đó áp dụng phép chuyển đã được “học” ở trên theo thứ tự.
Ví dụ về một số luật chuyển thường được áp dụng cho phương pháp lai được cho
bởi bảng 4 [6].
Bảng 4. Ví dụ về một số luật chuyển của TBL cho tiếng Anh
Chuyển nhãnS
TT Cũ Mới
Điều kiện Ví dụ
1
2
3
4
5
NN
VBP
NN
VB
VBD
VB
VB
VB
NN
VBN
Nhãn trước đó là TO
1 trong 3 nhãn trước đó là MD
1 trong 2 nhãn trước đó là DT
1 trong 3 nhãn trước đó là VBZ
To/TO race/NNVB
Might/MD vanish/VBPVB
Might/MD not reply/NNVB
Ví dụ: Xét từ “race” trong hai câu dưới đây
- It is expected to race tomorrow.
- The race for outer space.
Thuật toán sẽ thực hiện như sau:
Đầu tiên, gán nhãn tất cả các từ “race” là NN (nhãn thường gặp nhất trong tập
ngữ liệu Brown corpus). Tức là:
“It is expected to race/NN tomorrow”
“The race/NN for outer space”
21
Sau đó, sử dụng luật biến đổi để thay thế các nhãn NN bằng VB cho tất cả các
từ “race” mà đứng trước nó là từ được gán nhãn TO. Tức là:
“It is expected to race/VB tomorrow”
Và “The race/NN for outer space”
Đại diện tiêu biểu cho phương pháp này là bộ gán nhãn từ loại Brill’s (được xây
dựng bởi Eric Brill) sử dụng cho tiếng Anh, đây là một bộ gán nhãn rất thông dụng vì
các ưu điểm của nó như miễn phí, đem lại kết quả khá khả quan (Độ chính xác là
96.6% cho tập ngữ liệu Wall Street Journal).
2.4. Các nghiên cứu liên quan tại Việt Nam
Bài toán gán nhãn từ loại cho tiếng Việt bắt đầu được quan tâm khá muộn so với
tiếng Anh, tuy gặp phải không ít khó khăn vì những đặc trưng phức tạp riêng của tiếng
Việt, nhưng việc nghiên cứu lại có một lợi thế rất lớn là tiếp thu được những thành quả
nghiên cứu đã được áp dụng cho tiếng Anh nói riêng và trên thế giới nói chung. Phần
này sẽ điểm qua một vài nghiên cứu tiêu biểu liên quan đến bài toán gán nhãn từ loại
tiếng Việt.
2.4.1. Các nghiên cứu dựa trên phương pháp hệ luật
Nhằm phát huy tác dụng hữu ích của phương pháp dựa trên hệ luật khi được sử
dụng bằng cách kết hợp bổ sung với các phương pháp khác, nhóm nghiên cứu gồm các
tác giả Nguyễn Quang Châu, Phan Thị Tươi, Cao Hoàng Trụ đã đề xuất một phương
pháp gán nhãn từ loại cho Tiếng Việt dựa trên văn phong và tính toán xác suất [2].
Nhóm tác giả xây dựng một hệ thống kết hợp bộ gán nhãn tri-gram và bộ gán nhãn dựa
trên văn phong. Phương pháp gán nhãn từ loại dựa trên văn phong thực chất là căn cứ
vào cách thể hiện của văn bản trong một ngữ cảnh cụ thể để xác định từ loại cho các
từ, điều này bao hàm việc xác định phải đảm bảo các luật văn phạm của các từ trong
câu. Để xây dựng hệ thống luật này, nhóm tác giả dựa vào JAPE (Java Annotation
Patterns Engine), hệ thống luật gồm trên 270 luật để xác định cho 48 từ loại (danh từ
riêng, đại từ xưng hô, danh từ loại thể, ...) và các luật để xác định các kiểu ngày tháng
năm (date). Phương pháp dựa trên văn phong áp dụng các luật xác định danh từ riêng,
trên cơ sở các danh từ riêng được xác định, tiếp tục áp dụng các luật để xác định 48
nhãn từ loại còn lại.
22
Nhóm các tác giả tiến hành thử nghiệm trên một bộ dữ liệu khoảng hơn 70.000 từ
thuộc các văn bản về lĩnh vực văn học, báo chí... Nghiên cứu thực nghiệm sử dụng tập
nhãn gồm 48 nhãn từ loại với 10 miền giới hạn.
Kết quả thử nghiệm tốt nhất với các tập mẫu đã xây dựng đạt tới độ chính xác
~80% nếu chỉ dùng phương pháp gán nhãn bằng xác suất (P1) và đạt ~90% nếu dùng
phương pháp gán nhãn dựa trên văn phong kết hợp với phương pháp xác suất (P2).
Bảng 5 cho ta kết quả gán nhãn cho các văn bản, văn phong khác nhau.
2.4.2. Các nghiên cứu dựa trên phương pháp học máy
Nghiên cứu theo hướng giải quyết bài toán gán nhãn từ loại tiếng Việt bằng
phương pháp xác suất, nhóm nghiên cứu của tác giả Nguyễn Thị Minh Huyền [3] đã
sửa đổi phần mềm QTAG được xây dựng cho tiếng Anh (do nhóm nghiên cứu Corpus
Research thuộc trường đại học tổng hợp Birmingham phát triển) để thích nghi với việc
thao tác trên văn bản tiếng Việt, cũng như cho phép sử dụng từ điển từ vựng có thông
tin từ loại bên cạnh việc sử dụng kho văn bản đa gán nhãn. Bộ gán nhãn QTAG là một
bộ gán nhãn tri-gram, sử dụng phương pháp gán nhãn xác suất, QTAG sử dụng từ điển
từ vựng gồm 37454 mục từ, mỗi mục từ có kèm theo dãy tất cả các từ loại mà nó có
thể có. VNQTAG được huấn luyện và kiểm thử bằng các văn bản thuộc một số thể loại
khác nhau (văn học Việt Nam/nước ngoài, khoa học, báo chí), bao gồm 63732 lượt từ,
sử dụng hai bộ nhãn từ loại với độ mịn khác nhau: bộ thứ nhất gồm 9 nhãn từ vựng và
10 nhãn cho các loại kí hiệu, bộ nhãn thứ hai gồm 48 nhãn từ vựng và 10 nhãn cho các
loại kí hiệu. Kết quả thử nghiệm tốt nhất với các tập mẫu đa xây dựng đạt tới độ chính
xác ~94% đối với bộ nhãn thứ nhất, trong khi với bộ nhãn thứ hai chỉ đạt tới ~85%.
2.4.3. Các nghiên cứu dựa trên phương pháp lai
Một nghiên cứu khác cũng dựa trên nền tảng của phương pháp học máy là công
trình xây dựng công cụ gán nhãn từ loại tiếng Việt JvnTagger, đây là nghiên cứu nằm
trong khuôn khổ đề tài cấp nhà nước VLSP được thực hiện bởi nhóm các tác giả Phan
Xuân Hiếu, Nguyễn Cẩm Tú. JvnTagger dựa trên mô hình CRF và MEM và được cài
đặt bằng ngôn nhữ Java. Công cụ này được huấn luyện bằng dữ liệu khoảng 10.000
câu của Viet Treebank và sử dụng tập nhãn Viet Treebank. Tuy công cụ chưa được
đưa vào ứng dụng thực tế, nhưng theo các báo cáo kỹ thuật mà nhóm tác giả cung cấp
thì thử nghiệm với phương pháp 5-fold cross validation cho thấy kết quả gán nhãn với
CRFs có thể đạt giá trị F1 lớn nhất lài 90.40% và MaxEnt đạt giá trị F1 lớn nhất là
91.03%.
23
Ngoài ra còn có nhiều nghiên cứu khác theo hướng dựa trên phương pháp học
máy để giải quyết bài toán gán nhãn từ loại. Có thể kể đến hệ thống tích hợp tách từ và
gán nhãn từ loại của tác giả Trần Thị Oanh xây dựng năm 2008. Tác giả đã thiết kế bộ
nhãn VnPOS tag cho tiếng Việt gồm 14 nhãn từ và hơn 10 nhãn ký hiệu, thực nghiệm
được tiến hành trên bộ dữ liệu khoảng 8000 câu thu thập từ các báo điện tử với nhiều
chủ đề khác nhau. Việc gán nhãn từ loại được tiến hành bằng phương pháp MEM với
hai cách tiếp cận ở mức từ và mức hình vị. Kết quả đạt được ở mức từ là 85.57% và
89.22% ở mức hình vị.
Áp dụng phương pháp lai TBL, Ðinh Ðiền và các cộng sự đã đề xuất một phương
pháp gán nhãn từ loại tự động cho Tiếng Việt [6] bằng việc xây dựng kho ngữ liệu
song ngữ Anh-Việt (EVC) với hơn 500.000 câu mà trong đó hơn 25.000 câu tiếng Việt
đã được gán nhãn từ loại chính xác nhờ kết quả liên kết từ Anh-Việt và phép chiếu từ
loại từ Anh sang Việt (Tập nhãn tiếng Anh sử dụng để đối chiếu là Brown corpus, kho
ngữ liệu này đã được công bố ở Hội nghị Quốc tế về Xử lý ngôn ngữ APIS02 tại
Bangkok, Thái Lan vào 2/2002). Đây chính là điểm nổi bật của phương pháp gán nhãn
từ loại này.
Thuật toán TBL sử dụng trong nghiên cứu được các tác giả thể hiện dưới dạng sơ
đồ khối như trên hình 6. Nhóm tác giả đã áp dụng thử nghiệm mô hình này và bước
đầu nhận được kết quả trên 80%.
Như vậy, có thể thấy rằng bài toán gán nhãn từ loại cho tiếng Việt đang ngày
càng được quan tâm nghiên cứu, bước đầu đã đạt được một số kết quả khá khả quan.
Tuy nhiên đây vẫn là hướng nghiên cứu đầy tiềm năng và cũng đầy thử thách, cùng
với đó là việc các nghiên cứu đã có hầu hết vẫn còn mang tính cá thể, chưa có được sự
đối chiếu so sánh khách quan. Khóa luận này sẽ tập trung vào việc áp dụng và so sánh
kết quả của một số phương pháp tiên tiến được sử dụng thành công cho các ngôn ngữ
khác trên cùng một môi trường thực nghiệm và cách lấy đặc trưng để đưa ra nhận xét
về ưu, nhược điểm cũng như độ phù hợp của chúng với tiếng Việt.
24
Hình 6. Mô hình TBL cho tiếng Việt
Như vậy, có khá nhiều phương pháp học máy đã được áp dụng để giải quyết bài
toán gán nhãn từ loại tiếng Việt. Tuy bước đầu đạt được một số kết quả khả quan,
nhưng hầu hết các nghiên cứu đều mang tính cá thể, sử dụng bộ dữ liệu học cũng như
tập đặc trưng khác nhau. Trong khóa luận này, chúng tôi thực hiện so sánh một vài
phương pháp học máy điển hình trên cùng một bộ dữ liệu và sử dụng cùng tập đặc
trưng. Từ kết quả thu được, chúng tôi tiến hành đánh giá các phương pháp trên một vài
yêu tố, cũng như xem xét độ phù hợp của tập đặc trưng đã sử dụng đối với tiếng Viêt.
Word aligned bilingual
SUSANNE corpus
Remove
POS-tags
Unannotated
Vietnamese
corresponding POS-tags
Brown POS-
tagger
Current
annotated corpus
Templates
Candidate
Transformation Rule
Optimal Rule
mark
> β
End Sequence of Optimal rule
Corpus
annotated
Compare &
Evaluate
Y
N
25
Chương 3. BA MÔ HÌNH HỌC MÁY ÁP DỤNG CHO
BÀI TOÁN GÁN NHÃN TỪ LOẠI TIẾNG VIỆT
Việc khảo sát các phương pháp học máy được áp dụng thành công cho nhiều
ngôn ngữ (chủ yếu là khảo sát các phương pháp đã được sử dụng cho 3 ngôn ngữ tiêu
biểu là tiếng Anh, tiếng Trung Quốc và tiếng Thái) cho thấy có khá nhiều phương
pháp học máy có thể áp dụng cho bài toán gán nhãn từ loại Tiếng Việt. Khóa luận lựa
chọn ba phương pháp học máy điển hình đã cho kết quả khả quan ở nhiều ngôn ngữ và
có khả năng đạt kết quả tốt đối với tiếng Việt, đó là MEM, CRF và SVM. Cơ sở lý
thuyết ở chương này sẽ là nền tảng cho phần thực nghiệm để đưa ra đánh giá về độ
chính xác cũng như phù hợp của các phương pháp này với Tiếng Việt. Trong các thực
nghiệm thuộc phạm vi khóa luận, bài toán gán nhãn từ loại được xem là bài toán phân
lớp, với các lớp chính là các nhãn từ loại đã được xác định trước.
3.1. Mô hình cực đại hóa Entropy
Mô hình cực đại hóa Entropy (Maximum Entropy Model - MEM) [4, 15, 25] là
một mô hình dựa trên lý thuyết xác suất, được đề xuất lần đầu bởi Jaynes E.T. từ năm
1957. Theo [25], MEM giải quyết tốt ba yêu cầu chủ yếu của xử lý ngôn ngữ tự nhiên,
đó là: Độ chính xác, đặc trưng thiếu tri thức và khả năng tái sử dụng. Phần này sẽ giới
thiệu về bản chất lý thuyết, mô hình xác suất và một số mặt còn hạn chế của MEM.
3.1.1. Khái niệm MEM
Tư tưởng chính của phương pháp cực đại hóa Entropy là “ngoài vệc thỏa mãn
một số ràng buộc nào đó thì mô hình càng đồng đều càng tốt” [25]. Để rõ hơn về vấn
đề này, thử xem xét trong trường hợp một bài toán gán nhãn từ loại gồm có 8 nhãn từ
loại. Giả sử chúng ta có một ràng buộc duy nhất: 80% các từ có ký tự đầu của các hình
vị viết hoa là danh từ riêng (Np). Trực quan cho thấy, nếu có một từ mà tất cả ký tự
đầu của các hình vị tạo nên nó là viết hoa thì chúng ta có thể nói có 80% khả năng từ
này thuộc lớp danh từ riêng, và 20% khả năng được chia đều cho 7 lớp còn lại. Mặc dù
MEM có thể được dùng để ước lượng bất kì một phân phối xác suất nào, khóa luận sẽ
tập trung xem xét khả năng làm cực đại hóa entropy cho việc gán nhãn dữ liệu dạng
chuỗi. Nói cách khác, ta tập trung vào việc học ra phân phối điều kiện của chuỗi nhãn
tương ứng với chuỗi (xâu) đầu vào cho trước
26
Như vây, bản chất lý thuyết của MEM là chọn một phân bố xác suất p theo một
đặc trưng ràng buộc nào đó. Phân bố được chọn là phân bố làm cực đại hóa độ hỗn
loạn thông tin trong một tập các thực thể được gán nhãn.
3.1.2. Nguyên lý cực đại hóa Entropy
Cực đại hóa Entropy là một nguyên lý cho phép đánh giá các phân phối xác suất
từ một tập các dữ liệu huấn luyện.
Entropy là độ đo về tính đồng đều hay tính không chắc chắn của một phân phối
xác suất. Độ đo Entropy điều kiện của một phân phối mô hình trên “một chuỗi trạng
thái với điều kiện biết một chuỗi dữ liệu quan sát” p(y|x) có dạng sau
yx
xyxyx
,
)|(log*)|(*)(~)( ppppH
(3.1)
Tư tưởng chủ đạo của nguyên lý cực đại hóa Entropy là ta phải xác định một
phân phối mô hình sao cho “phân phối đó tuân theo mọi giả thiết đã biết từ thực
nghiệm và ngoài ra không đưa thêm bất kì một giả thiết nào khác”. Điều này có nghĩa
là phân phối mô hình phải thỏa mãn mọi ràng buộc được rút ra từ thực nghiệm, và phải
gần nhất với phân phối đều. Nói theo ngôn ngữ toán học, ta phải tìm phân phối mô
hình p(y|x) thỏa mãn hai điều kiện, một là nó phải thuộc tập P’ và hai là nó phải làm
cực đại Entropy điều kiện (3.1).
Với P là không gian của tất cả các phân phối xác suất điều kiện,và P’ là tập con
của P, P’ được xác định như sau:
nifEfEPpP ipip ...,3,2,1)()(|' ~
3.1.3. Mô hình xác suất
Theo [4, 15] mô hình xác suất được định nghĩa theo không gian H x T, trong đó
H là tập từ có thể và ngữ cảnh từ loại, hoặc còn gọi là “lịch sử”, và T là tập các nhãn
có thể có. Xác suất mô hình của lịch sử h cùng với nhãn t được định nghĩa theo công
thức 3.2:
k
j
thf
j
jthp
1
),(),( (3.2)
Trong đó, ∏ là hằng số chuẩn hóa, {µ, α1, … αk} là các tham số mang giá trị
dương của mô hình và {f1, …, fk} chính là các đặc trưng, thỏa mãn fj (h,t){0, 1}. Chú ý
rằng mỗi tham số aj tương ứng với một đặc trưng fj.
27
Cho trước một tập các từ {w1, …, wn} và một chuỗi nhãn {t1, …, tn} được xem là
dữ liệu huấn luyện, ta định nghĩa hi là lịch sử khi dự đoán nhãn ti. Các tham số {µ, α1,
… αk} được chọn sao cho làm cực đại likelihood dữ liệu huấn luyện sử dụng p theo
công thức (3.3)
n
i
k
j
thf
j
n
i
ii
iijthppL
1 1
),(
1
),()( (3.3)
Mô hình này được xem xét dưới dạng Maximum Entropy, trong đó mục tiêu là
cực đại entropy của một phân phối dưới những ràng buộc nhất định. Ở đây, entropy
của phân phối p được định nghĩa theo công thức (3.4)
,
( ) ( , ) ( , )
h H t
H p p h t logp h t
(3.4)
Và các ràng buộc được cho bởi công thức (3.5)
,i jEf Ef 1 j k (3.5)
Trong đó kỳ vọng đặc trưng của mô hình là (3.6)
),(),(
,
thfthpEf
tHh
ji
(3.6)
và kỳ vọng đặc trưng quan sát là (3.7)
n
i
iijiii thfthpfE
1
),(),(~~ (3.7)
Trong đó ),(~ ii thp là xác suất của (hi, ti) trong dữ liệu huấn luyện. Vì thế, các
ràng buộc này sẽ ép buộc mô hình phải đáp ứng được yêu cầu phù hợp tương ứng giữa
các kỳ vọng đặc trưng đó với kỳ vọng đặc trưng quan sát trong dữ liệu huấn luyện.
3.1.4. Hạn chế của mô hình MEM
Mặc dùng mô hình MEM có những ưu điểm về độ chính xác, đặc trưng thiếu tri
thức và khả năng tái sử dụng, nhưng trong một số trường hợp đặc biệt, MEM cũng như
các mô hình định nghĩa một phân phối xác suất cho mỗi trạng thái có thể gặp phải vấn
đề “label bias” [10]. Vấn đề “label bias” là vấn đề do các trạng thái có phân phối
chuyển với entropy thấp (ít đường đi ra) có xu hướng ít chú ý hơn đến quan sát hiện
tại, mô hình MEM gặp phải vấn đề này tức là không xác định được nhánh rẽ đúng,
điều này sẽ có ảnh hưởng đến kết quả mà nó đạt được.
28
Năm 1991, Léon Bottou đưa ra hai giải pháp cho vấn đề “label bias”.Giải pháp
thứ nhất là gộp các trạng thái và trì hoãn việc rẽ nhánh cho đến khi gặp một quan sát
xác định. Đây chính là trường hợp đặc biệt của việc chuyển một ô-tô-mát không đơn
định sang một automata đơn định. Nhưng vấn đề ở chỗ ngay cả khi có thể thực hiện
việc chuyển đổi này thì cũng gặp phải sự bùng nổ tổ hợp các trạng thái của automata.
Giải pháp thứ hai mà Bottou đưa ra là chúng ta sẽ bắt đầu mô hình với một đồ thị đầy
đủ của các trạng thái và để cho thủ tục huấn luyện tự quyết định một cấu trúc thích hợp
cho mô hình.Tiếc rằng giải pháp này sẽ làm mất đi tính có thứ tự của mô hình, một
tính chất rất có ích cho các bài toán trích chọn thông tin .
Một giái pháp đúng đắn hơn cho vấn đề này là xem xét toàn bộ chuỗi trạng thái
như một tổng thể và cho phép một số các bước chuyển trong chuỗi trạng thái này đóng
vai trò quyết định với việc chọn chuỗi trạng thái. Điều này có nghĩa là xác suất của
toàn bộ chuỗi trạng thái sẽ không phải được bảo tồn trong quá trình chuyển trạng thái
mà có thể bị thay đổi tại một bước chuyển tùy thuộc vào quan sát tại đó .
3.2. Mô hình trường ngẫu nhiên điều kiện
Mô hình trường ngẫu nhiên điều kiện CRF (Conditional Random Fields) [4, 10,
19] được giới thiệu lần đầu vào năm 2001 bởi Lafferty và các đồng nghiệp. CRF là mô
hình dựa trên xác suất điều kiện, nó có thể tích hợp được các thuộc tính đa dạng của
chuỗi dữ liệu quan sát nhằm hỗ trợ cho quá trình phân lớp. Tuy vậy, khác với các mô
hình xác suất khác, CRF là mô hình đồ thị vô hướng. Điều này cho phép CRF có thể
định nghĩa phân phối xác suất của toàn bộ chuỗi trạng thái với điều kiện biết chuỗi
quan sát cho trước thay vì phân phối trên mỗi trạng thái với điều kiện biết trạng thái
trước đó và quan sát hiện tại như trong các mô hình đồ thị có hướng khác. Bản chất
“phân phối điều kiện” và “phân phối toàn cục” của CRF cho phép mô hình này khắc
phục được những nhược điểm của các mô hình trước đó trong việc gán nhãn và phân
đoạn các dữ liệu dạng chuỗi mà tiêu biểu là vấn đề ‘label bias’.
Phần này sẽ đưa ra định nghĩa CRF, lựa chọn các “hàm tiềm năng” cho các mô
hình CRF, thuật toán Viterbi cải tiến để tìm chuỗi trạng thái tốt nhất mô tả một chuỗi
dữ liệu quan sát cho trước và một số phương pháp để ước lượng các tham số cho mô
hình CRF.
3.2.1. Khái niệm CRF
Kí hiệu X là biến ngẫu nhiên nhận giá trị là chuỗi dữ liệu cần phải gán nhãn và Y
là biến ngẫu nhiên nhận giá trị là chuỗi nhãn tương ứng. Mỗi thành phần Yi của Y là
29
một biến ngẫu nhiên nhận gía trị trong tập hữu hạn các trạng thái S. Trong bài toán gán
nhãn từ loại, X có thể nhận giá trị là các câu trong ngôn ngữ tự nhiên (gồm các từ), Y là
một chuỗi ngẫu nhiên các nhãn tương ứng với các từ tạo thành câu này và mỗi một
thành phần Yi của Y có miền giá trị là tập tất cả các nhãn từ loại có thể (danh từ, động
từ, tính từ,...).
Cho một đồ thị vô hướng không có chu trình G = (V, E), ở đây V là tập các đỉnh
của đồ thị và E là tập các cạnh vô hướng nối các đỉnh đồ thị. Các đỉnh V biểu diễn các
thành phần của biến ngẫu nhiên Y sao cho tồn tại ánh xạ một- một giữa một đỉnh và
một thành phần Yv của Y. Ta nói (Y|X) là một trường ngẫu nhiên điều kiện (Conditional
Random Field) khi với điều kiện X, các biến ngẫu nhiên Yv tuân theo tính chất Markov
đối với đồ thị G [10]:
))(,,|(),,|( vNYXYPvYXYP vv (3.8)
Ở đây, N(v) là tập tất cả các đỉnh kề với v. Như vậy, một CRF là một trường ngẫu
nhiên phụ thuộc toàn cục vào X. Trong các bài toán xử lý dữ liệu dạng chuỗi, G đơn
giản chỉ là dạng chuỗi G = (V={1,2,…m}, E={(i,i+1)}).
Kí hiệu X=(X1, X2,…, Xn), Y=(Y1,Y2,...,Yn). Mô hình đồ thị cho CRF có dạng:
Hình 7. Đồ thị vô hướng mô tả CRF
Gọi C là tập hợp tất cả các đồ thị con đầy đủ của đồ thị G - đồ thị biểu diễn cấu
trúc của một CRF. Áp dụng kết quả của Hammerley-Clifford cho các trường ngẫu
nhiên Markov, sẽ thừa số hóa được p(y|x) - xác suất của chuỗi nhãn với điều kiện biết
chuỗi dữ liệu quan sát - thành tích của các hàm tiềm năng như sau (theo [19]):
CA
A AP )|()|( xxy (3.9)
Yn-1 Y1
X
Y3 Y2 Yn
30
Vì trong các bài toán xử lý dữ liệu dạng chuỗi đồ thị biểu diễn cấu trúc của một
CRF có dạng đường thẳng như trong hình 7 nên tập C phải là hợp của E và V, trong đó
E là tập các cạnh của đồ thị G và V là tập các đỉnh của G, hay nói cách khác đồ thị con
A hoặc chỉ gồm một đỉnh hoặc chỉ gồm một cạnh của G.
3.2.2. Hàm tiềm năng của các mô hình CRF
Lafferty [10] xác định các hàm tiềm năng cho các mô hình CRF dựa trên nguyên
lý cực đại hóa Entropy. Cực đại hóa Entropy là một nguyên lý cho phép đánh giá các
phân phối xác suất từ một tập các dữ liệu huấn luyện.
Bằng cách áp dụng nguyên lý cực đại hóa Entropy, Lafferty xác định hàm tiềm
năng của một CRF có dạng một hàm mũ.
k
kkA AfA xx |exp| (3.10)
Ở đây fk là một thuộc tính của chuỗi dữ liệu quan sát và k là trọng số chỉ mức
độ biểu đạt thông tin của thuộc tính fk.
Có hai loại thuộc tính là thuộc tính chuyển (kí hiệu là t) và thuộc tính trạng thái
(kí hiệu là s) tùy thuộc vào A là đồ thị con gồm một đỉnh hay một cạnh của G. Thay
các hàm tiềm năng vào công thức (3.9) và thêm vào đó một thừa sổ chuẩn hóa Z(x) để
đảm bảo tổng xác suất của tất cả các chuỗi nhãn tương ứng với một chuỗi dữ liệu
quan sát bằng 1, ta được:
i i k
ikk
k
iikk stZ
P ),(),,(exp
)(
1)|( 1 xyxyyx
xy (3.11)
Ở đây, x, y là chuỗi dữ liệu quan sát và chuỗi trạng thái tương ứng; tk là thuộc
tính của tòan bộ chuỗi quan sát và các trạng thái tại ví trí i-1, i trong chuỗi trạng thái;
sk là thuộc tính của toàn bộ chuỗi quan sát và trạng thái tại ví trí i trong chuỗi trạng
thái.
ti =
1 nếu xi-1= “Bill”, xi=”Clinton” và yi-1=B_PER,yi=I_PER
0 nếu ngược lại
si =
1 nếu xi=Bill và yi= B_PER
0 nếu ngược lại
31
Thừa số chuẩn hóa Z(x) được tính như sau:
y i i k
ikk
k
iikk stZ ),(),,(exp)( 1 xyxyyx (3.12)
..),...,,( 2,121 là các vector các tham số của mô hình, teta sẽ được ước lượng
giá trị nhờ các phương pháp ước lượng tham số cho mô hình sẽ được đề cập trong
phần sau.
3.2.3. Thuật toán gán nhãn cho dữ liệu dạng chuỗi.
Tại mỗi vị trí i trong chuỗi dữ liệu quan sát, ta định nghĩa một ma trận chuyển
|S|*|S| như sau:
),,'()( xx yyMM ii (3.13)
k k
kkkki ysyytyyM ),(),,'(exp),,'( xxx (3.14)
Ở đây Mi(y’, y, x) là xác suất chuyển từ trạng thái y’ sang trạng thái y với chuỗi
dữ liệu quan sát là x. Chuỗi trạng thái y* mô tả tốt nhất cho chuỗi dữ liệu quan sát x là
nghiệm của phương trình:
y* = argmax{p(y|x)} (3.15)
Chuỗi y* được xác định bằng thuật toán Viterbi cải tiến [16] như mô tả trong
hình 8. Định nghĩa )(yi là xác suất của “chuỗi trạng thái độ dài i kết thúc bởi trạng
thái y và có xác suất lớn nhất” biết chuỗi quan sát là x.
Giả sử biết tất cả )( ki y với mọi yk thuộc tập trạng thái S của mô hình, cần xác
định )(1 ji y . Từ hình 8, ta suy ra công thức truy hồi
SyyyMyy kjkikiji ),,(*)(max)( 11 x (3.16)
32
Hình 8. Một bước trong thuật toán Viterbi cải tiến
Đặt ),,'(*)'(maxarg)(Pr 1 xyyMyye iii . Giả sử chuỗi dữ liệu quan sát x
có độ dài n, sử dụng kĩ thuật backtracking để tìm chuỗi trạng thái y* tương ứng như
sau:
Bước 1: Với mọi y thuộc tập trạng thái tìm
o )(maxarg)(* yn ny
o i n
Bước lặp: chừng nào i>0
o i i-1
o y Prei(y)
o y*(i) = y
Chuỗi y* tìm được chính là chuỗi có xác suất p(y*|x) lớn nhất, đó cũng chính là
chuỗi nhãn phù hợp nhất với chuỗi dữ liệu quan sát cho trước.
Như vậy, do bản chất phân phối toàn cục của mình, CRF có thể giải quyết được
vấn đề ‘label bias’, một nhược điểm tiêu biểu của mô hình MEM [12, 19]. Ở phương
diện lý thuyết mô hình, ta có thể coi mô hình CRF như là một máy trạng thái xác suất
với các trọng số không chuẩn hóa, mỗi trọng số gắn liền với một bước chuyển trạng
thái. Bản chất không chuẩn hóa của các trọng số cho phép các bước chuyển trạng thái
có thể nhận các giá trị quan trọng khác nhau. Vì thế bất cứ một trạng thái nào cũng có
thể làm tăng hoặc giảm xác suất được truyền cho các trạng thái sau nó mà vẫn đảm
bảo xác suất cuối cùng được gán cho toàn bộ chuỗi trạng thái thỏa mãn định nghĩa về
xác suất nhờ thừa số chuẩn hóa toàn cục.
?
)( Ni yProb=
yj
)( 1yi
y1
y2
yN
Prob=
)( 2yi
)(1 ji y
33
3.2.4. Ước lượng tham số cho các mô hình CRF
Kĩ thuật được sử dụng để đánh giá tham số cho một mô hình CRF là làm cực đại
hóa độ đo likelihood giữa phân phối mô hình và phân phối thực nghiệm.
Nguyên lý cực đại likelihood được phát biểu như sau: Các tham số tốt nhất của
mô hình là các tham số làm cực đại hàm likelihood. Như vậy, về phương diện toán
học, bài toán ước lượng tham số cho một mô hình CRF chính là bài toán tìm cực đại
của hàm log-likelihood. Có nhiều phương pháp tìm cực đại của hàm log-likelihood
như các phương pháp lặp (IIS, GIS), các phương pháp tối ưu số (phương pháp dựa trên
vector gradient như phương pháp gradient liên hợp, quasi-Newton …) và L-BFGs có
thể phục vụ cho ước lượng tham số mô hình. Trong các phương pháp tìm cực trị hàm
log-likelihood này, phương pháp L-BFGs được đánh giá là vượt trội và có tốc độ hội
tụ nhanh nhất.
3.3. Mô hình máy véc tơ hỗ trợ
3.3.1. Khái niệm và cơ sở của phương pháp SVM
Phương pháp máy véc tơ hỗ trợ SVM (Support Vector Machine) [11, 23] ra đời
từ lý thuyết học thống kê do Vapnik và Chervonekis xây dựng năm 1995, và có nhiều
tiềm năng phát triển về mặt lý thuyết cũng như ứng dụng trong thực tế. SVM là một họ
các phương pháp dựa trên cơ sở các hàm nhân (kernel) để tối thiểu hóa rủi ro ước
lượng.Các thử nghiệm thực tế cho thấy, phương pháp SVM có khả năng phân loại khá
tốt đối với bài toán phân lớp cũng như trong nhiều ứng dụng khác (ước lượng hồi quy,
nhân dạng chữ viết tay …).
Hình 9. Hai cách chia không gian véc tơ thành hai nửa riêng biệt
Lề lớn Lề nhỏ
Véc tơ
hỗ trợ
34
Ý tưởng của phương pháp là cho trước một tập huấn luyện được biểu diễn trong
không gian vector, trong đó mỗi một văn bản được xem như một điểm trong không
gian này. Như vậy, rõ ràng có nhiều cách có thể chia không gian này thành hai nửa
riêng biệt, hình 9 cho ta một trường hợp ví dụ.
Phương pháp SVM tìm ra một siêu mặt phẳng h (siêu phẳng) quyết định tốt nhất
có thể chia các điểm trên không gian này thành hai lớp riêng biệt tương ứng, tạm gọi
là lớp âm (-) và lớp dương (+). Chất lượng của siêu phẳng này được quyết định bởi
một khoảng cách (được gọi là lề) của điểm dữ liệu gần nhất của mỗi lớp đến mặt
phẳng này. Khoảng cách lề càng lớn thì xác suất của việc phân lớp sai sẽ càng nhỏ, tức
là càng có sự phân chia tốt các điểm ra thành hai lớp, như vậy, ta sẽ đạt được kết quả
phân lớp tốt. Theo [23], bộ phân lớp SVM là mặt siêu phẳng phân tách các mẫu dương
khỏi các mẫu âm với độ chênh lệch cực đại, trong đó độ chênh lệch – còn gọi là lề-
xác định bằng khoảng cách giữa các mẫu dương và các mẫu âm gần mặt siêu phẳng
nhất. Mặt siêu phẳng này được gọi là siêu phẳng lề tối ưu .
Tóm lại, mục tiêu của thuật toán SVM là tìm được khoảng cách lề lớn nhất để tạo
kết quả phân lớp tốt. Hình 10 dưới đây cho ta mô tả trực quan về phương pháp SVM.
Hình 10. Mặt siêu phẳng tách các mẫu dương khỏi các mẫu âm.
Mặc dù bản chất của phương pháp này đã được định nghĩa ở trên, nhưng có rất
nhiều phiên bản khác nhau của nó, thường thì miền trong của lề trong tập dữ liệu huấn
Các mẫu âm
Các mẫu
dương
Lề
Véc tơ
hỗ trợ
Véc tơ
hỗ trợ
Siêu phẳng
lề tối ưu
35
luyện có thể chứa một lượng nhỏ các điểm, dẫn đến việc không thể phân chia các mẫu
âm và các mẫu dương bằng một mặt siêu phẳng tuyến tính, hình 11 là một ví dụ minh
họa. Trong trường hợp này, sự không “thẳng” (không tuyến tính) của siêu phẳng được
biến đổi trở thành “thẳng” (tuyến tính) bằng cách sử dụng các hàm nhân. Một ví dụ
của biến đổi sử dụng hàm nhân được minh họa trong hình 12 [23].
Hình 11. Trường hợp không thể phân chia các mẫu âm và các mẫu dương bằng một siêu
phẳng tuyến tính
Hình 12. Biến đổi siêu phẳng không tuyến tính thành siêu phẳng tuyến tính sử dụng
hàm nhân
Việc phân lớp trong trường hợp mở rộng này cũng tương tự trường hợp cơ sở,
dựa trên giá trị âm hoặc dương của đầu ra.
36
3.3.2. Áp dụng phương pháp SVM cho bài toán gán nhãn từ loại
Có thể nói SVM thực chất là một bài toán tối ưu, mục tiêu của thuật toán là tìm
được một không gian H và siêu mặt phẳng quyết định h trên H sao cho sai số khi phân
lớp là thấp nhất, nghĩa là kết quả phân lớp sẽ cho kết quả tốt nhất.
Đối với bài toán gán nhãn từ loại, ta gọi x là ngữ cảnh (một tập các đặc trưng)
của mẫu đầu vào đang cần gán nhãn, xi và yi (với i= 1, …, l; yi ∈ {1, -1}) lần lượt chỉ
ra ngữ cảnh của dữ liệu huấn luyện và lớp tương ứng của nó [12].
1
( ) sgn( ( , ) )
l
i i i
i
f x a y K x x b
(3.17)
, -1 , 1max min-
2
i ii y i i y i
b b
b
(3.18)
1
( , )
l
i j j j i
j
b a y K x x
(3.19)
Trong đó, hàm sgn được định nghĩa như sau:
sgn(x) = 1 (x ≥ 0)
-1 (trong trường hợp ngược lại)
Mỗi αi được cố định khi giá trị L(α) trong biểu thức dưới đây được cực đại hóa
dưới điều kiện của biểu thức (3.18) và (3.19)
1 , 1
1( ) ( , )
2
l l
i i j i j i j
i i j
L a y y K x x
(3.20)
0 ( 1,..., )i C i l (3.21)
1
0
l
i i
i
y
(3.22)
Hàm K trong biểu thức (3.20) được gọi là hàm nhân và rất nhiều dạng của hàm
nhân có thể được sử dụng [8], hình 13 dưới đây mô tả hàm nhân Basis Radial exp (-
gamma*|u-v|2) [23].
37
Hình 13. Hàm nhân Basis Radial
Trong một số nghiên cứu về bài toán gán nhãn từ loại, hàm đa thức dưới đây
được sử dụng [12]:
( , ) ( 1)dK x y x y (3.23)
Với C (trong biểu thức(3.21)) và d (trong biểu thức (3.23)) luôn nhận giá trị
không đổi và được xác định trong thực nghiệm. Thông thường thì C và d lần lượt được
cố định là 1 và 2 cho tất cả các thực nghiệm. Một tập các giá trị xi thỏa mãn α >0 được
gọi là véc tơ hỗ trợ, phần biểu thức được tính tổng trong biểu thức (3.21) có thể được
tính chỉ sử dụng các vector hỗ trợ.
Chúng ta thấy rằng SVM là mặt phẳng quyết định chỉ phụ thuộc vào các vector
hỗ trợ, khi các điểm khác bị xóa đi thì thuật toán vẫn cho kết quả giống như ban đầu.
Chính đặc điểm này làm cho SVM khác với các thuật toán khác như KNN, LLSF,
Nnet, NB vì tất cả dữ liệu trong tập huấn luyện đều được dùng để tối ưu hóa kết quả.
Một vấn đề được đặt ra là, phương pháp SVM có thể chia dữ liệu làm hai lớp, tuy
nhiên đối với bài toán gán nhãn từ loại cho dữ liệu văn bản, số lớp tương ứng với số từ
loại mà ta cần xác định luôn lớn hơn hai, vậy liệu phương pháp SVM có phù hợp để
giải quyết bài toán gán nhãn từ loại hay không?. Để giải quyết vấn đề này. thường thì
dữ liệu với hơn hai lớp sẽ được xử lý bằng phương pháp pair-wise, tức là với dữ liệu
chứa N lớp, ta sẽ xây dựng tất cả các cặp của hai lớp khác nhau, tổng số sẽ là N(N-1)/2
cặp. Từng lớp tốt hơn trong một cặp hai lớp sẽ được xác định bằng cách sử dụng bộ
phân lớp 2 lớp, cuối cùng, lớp chính xác sẽ được xác định dựa trên cơ sở đánh giá kết
quả của N(N-1)/2 lần phân lớp.
3.3.3. Huấn luyện SVM
Huấn luyện SVM thực chất là việc giải bài toán quy hoạch toàn phương SVM
[11]. Các phương pháp số giải bài toán quy hoạch này yêu cầu phải lưu trữ một ma
(a) Radial Basic Function (b) RBF mapping
38
trận có kích thước bằng bình phương của số lượng mẫu huấn luyện. Trong những bài
toán thực tế, điều này là không khả thi vì thông thường kích thước của tập dữ liệu huấn
luyện thường rất lớn (có thể lên tới hàng chục nghìn mẫu). Nhiều thuật toán khác nhau
được phát triển để giải quyết vấn đề nêu trên. Những thuật toán này dựa trên việc phân
rã tập dữ liệu huấn luyện thành những nhóm dữ liệu. Điều đó có nghĩa là bài toán quy
hoạch toàn phương lớn được phân rã thành các bài toán quy hoạch toàn phương với
kích thước nhỏ hơn. Sau đó, những thuật toán này kiểm tra các điều kiện KKT (Karush
Kuhn Tucker) để xác định phương án tối ưu .
Một trong những phương pháp tiêu biểu là thuật toán huấn luyện SVM tối ưu hóa
tuần tự cực tiểu (Sequential Minimal Optimization - SMO), dựa vào lý thuyết
Lagrange để giải bài toán quy hoạch toàn phương. Thuật toán này sử dụng tập dữ liệu
huấn luyện (còn gọi là tập làm việc) có kích thước nhỏ nhất bao gồm hai hệ số
Lagrange.
Bài toán quy hoạch toàn phương nhỏ nhất phải gồm hai hệ số Lagrange vì các hệ
số Lagrange phải thỏa mãn ràng buộc đẳng thức (3.22). Phương pháp SMO cũng có
một số heuristic cho việc chọn hai hệ số Lagrange để tối ưu hóa ở mỗi bước. Mặc dù
có nhiều bài toán quy hoạch toàn phương con hơn so với các phương pháp khác, mỗi
bài toán con này được giải rất nhanh dẫn đến bài toán quy hoạch toàn phương tổng thể
cũng được giải một cách nhanh chóng.
39
Chương 4. THỰC NGHIỆM ÁP DỤNG BA MÔ HÌNH
HỌC MÁY CHO BÀI TOÁN GÁN NHÃN TỪ LOẠI
TIẾNG VIỆT VÀ ĐÁNH GIÁ KẾT QUẢ
Mặc dù trên thế giới đã có nhiều phương pháp được đề xuất cho việc giải quyết
bài toán gán nhãn từ loại, nhưng vì tiếng Việt có những đặc trưng riêng phức tạp và
tiềm ẩn nhiều nhập nhằng nên một phương pháp cho kết quả cao ở ngôn ngữ khác
chưa chắc đã đạt được kết quả tương tự với tiếng Việt. Dựa trên cơ sở lý thuyết đã có
ở chương 3, khóa luận tiến hành thực nghiệm áp dụng ba mô hình học máy MEM,
CRF và SVM cho bài toán gán nhãn từ loại tiếng Việt trên cùng môi trường thực
nghiệm và tập đặc trưng. Từ kết quả thu được, khóa luận đưa ra một số so sánh về kết
quả đạt được cũng như một số nhận xét sơ bộ về ưu nhược điểm của các phương pháp
này.
4.1. Mô tả thực nghiệm
4.1.1. Phần cứng
Máy tính cá nhân Celeron R, Chip 3.06 GHz, Ram 1 GB
4.1.2. Phần mềm
Sử dụng các công cụ dưới đây để tiến hành thực nghiệm gán nhãn từ loại tiếng
Việt:
Thực nghiệm gán nhãn từ loại tiếng việt sử dụng mô hình MEM bằng hệ
thống tích hợp mô hình tách từ và gán nhãn từ loại tiếng Việt được xây dựng bởi tác
giả Trần Thị Oanh, phòng thí nghiệm các hệ tích hợp thông minh, trường đại học Công
nghệ, đại học Quốc gia Hà nội, năm 2008 [4].
Thực nghiệm gán nhãn từ loại tiếng việt sử dụng mô hình CRF bằng công cụ
CRF++ xây dựng bởi tác giả người Nhật Taku Kudo [24]. Công cụ được viết bằng
C++, bản cập nhật mới nhất ngày 06 tháng 05 năm 2009.
Thực nghiệm gán nhãn từ loại tiếng việt sử dụng mô hình SVM dựa trên
công cụ SVMmulticlass. Đây là một công cụ phát triển từ công cụ SVMlight, được xây
dựng bởi tác giả Thorsten Joachims [22] (Department of Computer Science, Cornell
University). Bản cập nhật mới nhất là version 2.20 ngày 14 tháng 8 năm 2008.
40
Khóa luận đã xây dựng các công cụ trợ giúp bằng ngôn ngữ C++ và Delphi
để hỗ trợ thực nghiệm, bao gồm:
o Chuẩn hóa dữ liệu theo định dạng phù hợp
o Mã hóa dữ liệu theo yêu cầu của hệ thống gán nhãn
o Áp dụng đặc trưng chuẩn hóa biểu thức chính quy
o Xây dựng từ điển để hỗ trợ trích chọn đặc trưng
o Trích chọn đặc trưng về thông tin từ vựng và thông tin nhãn từ loại
o Đánh giá độ chính xác của kết quả
4.1.3. Dữ liệu thực nghiệm và tập nhãn từ loại
Để áp dụng thực nghiệm ba phương pháp học máy MEM, CRF và SVM, khóa
luận sử dụng hai bộ dữ liệu riêng biệt được gán nhãn với hai tập nhãn khác nhau cho
huấn luyện và kiểm thử nhằm tăng tính khách quan cho kết quả đạt được. Hai bộ dữ
liệu đều được thu thập từ các báo điện tử có uy tín ở Việt Nam và bao gồm nhiều văn
bản thuộc các chủ đề khác nhau như: Công nghệ thông tin, Kinh tế, Chính trị, Xã hội,
Pháp luật, Đời sống … Trong nội dung của khóa luận, dữ liệu đã được qua bước tiền
xử lý, tức là đã được tách từ, quy chuẩn theo đúng định dạng cần thiết và đã được gán
nhãn sẵn để phục vụ cho quá trình học có giám sát cũng như kiểm thử. Các nhãn sẽ
được xác định bằng cách viết hoa và đi liền (cách một dấu cách) hoặc phân cách với từ
mà nó xác định bằng dấu “/” hay “//”, quy tắc ký hiệu này có thể thay đổi một cách dễ
dàng tuy thuộc vào yêu cầu sử dụng dữ liệu.
Bộ dữ liệu thứ nhất (bộ dữ liệu Viet TreeBank): Đây là sản phẩm của dự án
quốc gia VLSP, gồm 142 văn bản, tương ứng với khoảng hơn 10.000 câu và khoảng
230.000 từ. Bộ dữ liệu này được gán nhãn từ loại bằng tập nhãn từ loại VTB (Viet
Tree Bank) gồm 16 nhãn từ loại, 1 nhãn cho từ không gán nhãn được và 1 nhãn cho ký
hiệu đặc biệt.
41
Bảng 5. Tập nhãn từ loại Viet Tree Bank cho tiếng Việt
STT Tên nhãn Ý nghĩa của nhãn
1 N Danh từ
2 Np Danh từ riêng
3 Nc Danh từ chỉ loại
4 Nu Danh từ đơn vị
5 V Động từ
6 A Tính từ
7 P Đại từ
8 L Định từ 2
9 M Số từ
10 R Phó từ
11 E Giới từ 3 (kết từ chính phụ)
12 C Liên kết từ (kết từ đẳng lập)
13 I Thán từ
14 T Trợ từ, tình thái từ (tiểu từ) 4
15 B Từ tiếng nước ngoài (hay từ vay mượn)
16 Y Từ viết tắt
17 X Các từ không phân loại được
18++ Ký hiệu Các ký hiệu đặc biệt khác (?, /, #, $ …)
Một câu ví dụ ở bộ dữ liệu thứ nhất:
Một/M buổi/N trưa/N đang/R ngồi/V chờ/V khách/N ở/E bến/N
Đinh_Bộ_Lĩnh/Np,/, tôi/P thấy/V một/M đồng_nghiệp/N già/A móc/V trong/E bao/N
nilông/N ra/V một/M quyển/Nc giáo_trình/N đại_học/N môn/N Triết_học/N Mác/Np -
/- Lênin/Np./.
Bộ dữ liệu thứ hai được xây dựng bởi nhóm tác giả Trần Thị Oanh, gồm 780
văn bản, tương ứng với khoảng 8000 câu và khoảng 150.000 từ. Bộ dữ liệu này được
42
gán nhãn từ loại bằng tập nhãn VnPOS gồm 13 nhãn từ loại, 1 nhãn cho các từ không
thể gán nhãn và các nhãn ký hiệu đặc biệt.
Bảng 6. Tập nhãn từ loại VnPOS cho tiếng Việt
STT Tên nhãn Ý nghĩa của nhãn
1 NN Danh từ thường
2 NC Danh từ chỉ loại
3 NP Danh từ riêng
4 VB Động từ
5 JJ Tính từ
6 PP Đại từ
7 D Định từ và số từ
8 AD Phụ từ
9 IN Giới từ
10 CC Liên từ
11 UH Thán từ
12 RB Trợ từ
13 TN Thành ngữ
14 X Các từ không thể gán nhãn được
15++ Ký hiệu Các ký hiệu đặc biệt khác (#, ^, &, …)
Một câu ví dụ ở bộ dữ liệu thứ hai:
Tờ//NC Wall_Street_Journal//NP ghi//VB lời//NC phát_biểu//VB của//IN
Tổng_Giám_đốc//NN kiêm//VB Giám_đốc_điều_hành//NN Mazda//NP,//,
Hisakazu_Imaki//NP ://: Chúng_tôi//PP sẽ//AD đảm_nhiệm//VB vai_trò//NN
phát_triển//VB nền_tảng//NN kiến_trúc//NN cho//IN các//D thế_hệ//NN xe//NN
Ford//NP hạng//NC nhỏ//JJ trong//IN tương_lai//NN.//.
Nhìn chung cả hai tập nhãn đều mới được xây dựng ở mức thô, nhưng tạm thời
trong các yêu cầu trước mắt thì số lượng nhãn là đủ đáp ứng yêu cầu thực nghiệm để
43
đối chiếu, so sánh kết quả đạt được khi sử dụng các mô hình học máy khác nhau cho
bài toán gán nhãn từ loại.
4.2. Mô tả tập đặc trưng dựa trên mức từ và mức hình vị
Lựa chọn các thuộc tính từ tập dữ liệu huấn luyện là nhiệm vụ quan trọng nhất,
giữ vai trò quyết định chất lượng của một hệ thống gán nhãn từ loại. Các thuộc tính
được lựa chọn càng tinh tế thì độ chính xác của hệ thống càng tăng. Tập các đặc trưng
sử dụng trong thực nghiệm của khoá luận này được xây dựng như sau:
Tiếp thu một số đặc trưng tiêu biểu và thông dụng thường được sử dụng trong
nhiều ngôn ngữ trên thế giới (như tiếng Anh [15], tiếng Thái [12], tiếng Trung
Quốc [20], …)
Bố sung thêm một số đặc trưng có khả năng là hữu ích, phù hợp với đặc điểm
riêng của tiếng Việt đã được đề xuất trong một vài nghiên cứu trước đây ([4]).
Với cách xây dựng như trên, tập đặc trưng được sử dụng trong thực nghiệm của
khoá luân bao gồm các đặc trưng sau:
4.2.1. Các đặc trưng dựa vào thông tin từ vựng và thông tin từ loại
Các thuộc tính tại vị trí i trong chuỗi dữ liệu quan sát gồm hai phần, một là thông
tin ngữ cảnh tai vị trí i của chuỗi dữ liệu quan sát, một là phần thông tin về nhãn tương
ứng. Công việc lựa chọn các thuộc tính thực chất là chọn ra các mẫu vị từ ngữ cảnh
(context predicate template), các mẫu này thể hiện những các thông tin đáng quan tâm
tại một vị trí bất kì trong chuỗi dữ liệu quan sát. Áp dụng các mẫu ngữ cảnh này tại
môt vị trí trong chuỗi dữ liệu quan sát cho ta các thông tin ngữ cảnh (context
predicate) tại vị trí đó. Mỗi thông tin ngữ cảnh tại i khi kết hợp với thông tin nhãn
tương ứng tại vị trí đó sẽ cho ta một thuộc tính của chuỗi dữ liệu quan sát tại i. Như
vậy một khi đã có các mẫu ngữ cảnh, ta có thể rút ra được hàng nghìn thuộc tính một
cách tự động từ tập dữ liệu huấn luyện.
Xét một cửa sổ trượt với kích cỡ bằng 5 trượt dọc theo dữ liệu đang xét như ví dụ
trong hình 14. Thông tin từ vựng và thông tin từ loại sử dụng cho việc lựa chọn đặc
trưng cho MEM, CRF và SVM được cho trong bảng 7.
44
Hình 14. Cửa sổ trượt với kích cỡ size=5 chuyển động dọc theo dữ liệu
Bảng 7. Thông tin từ vựng và thông tin từ loại sử dụng cho việc lựa chọn đặc trưng
Loại Ký hiệu Giải thích
Thông tin
từ vựng
w-2, w-1, w0, w1, w2 wi cho biết dữ liệu quan sát được tại vị trí
thứ i trong chuỗi đầu vào (chuỗi đầu vào
được coi là chuỗi nằm trong cửa số trượt
với kích cỡ 5). Trong đó wi là dữ liệu quan
sát được ngay tại vị trí hiện tại.
Thông tin
nhãn từ
loại
t-2, t-1 ti cho biết nhãn của từ tại vị trí thứ i trong
chuỗi đầu vào.
Ký hiệu thông tin ngữ cảnh (còn được gọi là lịch sử) là h, thông tin về nhãn là t,
xác suất đồng thời của lịch sử h và thông tin về nhãn t được xác định bằng các tham số
mà các đặc trưng tương ứng của nó là ữu ích, ví dụ αi thỏa mãn fi (h,t) = 1. Khi cho
trước (h, t), một đặc trưng phải tồn tại trên bất cứ từ nào hoặc nhãn nào trong lịch sử h,
và phải chứa thông tin giúp dự đoán nhãn t, ví dụ như thông tin chính tả của từ hiện
tại, hoặc thông tin về hai nhãn trước từ hiện tại. Ngữ cảnh từ và nhãn xác định đối với
một đặc trưng được cho bằng định nghĩa của lịch sử h, như công thức (4.1).
, , , , , , ,{ }i i i 1 i 2 i 1 i 2 i 1 i 2h w w w w w t t (4.1)
Ví dụ: Áp dụng mẫu ngữ cảnh trên tại vị trí 1 trong chuỗi “3000 đồng” ta được
ngữ cảnh w0: đồng. Giả sử trong dữ liệu huấn luyện, từ đồng trong chuỗi dữ liệu trên
được gán nhãn Nu (Với Nu là nhãn danh từ đơn vị trong tập nhãn Viet Tree Bank), kết
hợp với ngữ cảnh ta có thể rút ra được một thuộc tính của chuỗi dữ liệu quan sát là
fi(h,t) = 1 nếu từ hiện tại là “đồng” và nhãn là Nu
0 nếu ngược lại
N N , N C
tiếng máy_bay , bầu_trời như
w-2 w-1 w0 w1 w2
R V V A
được vút lên cao
t1 t2
V
Dứt
45
4.2.2. Mẫu ngữ cảnh dạng biểu thức chính quy
Một đặc trưng quan trọng khác cần được xem xét đến là các đặc trưng có thể
được xây dựng bằng chuẩn hóa biểu thức chính quy. Các mẫu ngữ cảnh biểu thức
chính quy có tác dụng hỗ trợ xác định nhãn từ loại một các nhanh chóng và chính xác
hơn. Trong nhiều trường hợp nếu chỉ dựa vào thông tin về từ và từ loại của các từ
trước và sau từ đang xét thì có thể gặp phải nhập nhằng làm ảnh hưởng đến kết quả
của hệ thống. Trong khi đó, nếu dựa vào các mẫu ngữ cảnh biểu thức chính quy thì sẽ
xác định được ngay các nhãn từ loại.
Bảng dưới đây là một ví dụ cho các mẫu ngữ cảnh biểu thức chính quy xác định
dữ liệu có dạng số:
Bảng 8. Một số mẫu ngữ cảnh BTCQ xác định dữ liệu dạng số
Mẫu ngữ cảnh Ví dụ Ý nghĩa
^[0-9]* 123456 Số
^[0-9]+/[0-9]+/[0-9]+$ 12/04/2005 Ngày tháng
^[0-9]+/[0-9]+$ 22/5 Ngày tháng hoặc phân số
^[0-9][0-9][0-9][0-9]$ 2005 Năm
^[0-9]đồng$
^[0-9]USD$
10000 đồng
30 USD
Tiền tệ
^[0-9]%$ 7% Phần trăm
Z1 = {một, hai …, mười,}
Z2 = {mươi, trăm…}
^[z1]* [z2]*[z1]*$
Tám mươi
Mười một Số
… … …
4.3. Hệ thống gán nhãn từ loại cho tiếng Việt
Sử dụng các phương pháp học máy MEM, CRF và SVM, bài toán gán nhãn từ
loại được xem là bài toán phân lớp với các lớp chính là các nhãn từ loại đã được xác
định trước. Trong phần này, ta quan tâm tới kiến trúc đường ống (pipeline), tức là việc
gán nhãn từ loại được thực hiện sau khi đã có thông tin về từ vựng. Kiến trúc tổng thể
của mô hình gán nhãn từ loại sẽ được sử dụng trong thực nghiệm được thể hiện trong
46
hình 15 [4]. Trong đó, có hai pha chính là pha huấn luyện mô hình và pha kiểm thử sử
dụng mô hình.
Pha huấn luyện mô hình: Đầu vào là văn bản đã được tách từ, đưa qua bộ
trích chọn đặc trưng (cách thiết kế tập đặc trưng hữu ích cho tiếng Việt sẽ được trình
bày ở phần sau) rồi đưa vào mô hình học máy để huấn luyện. Ta sẽ sử dụng MEM,
CRF hoặc SVM để huấn luyện mô hình ở bước này.
Pha kiểm thử: Còn được gọi là pha gán nhãn hay pha giải mã. Văn bản đầu
vào sẽ được qua pha kiểm thử theo thuật toán phù hợp, ví dụ như thuật toán beam
search [4], kết quả sẽ cho ra chuỗi nhãn tốt nhất tương ứng với dữ liệu đầu vào (chuỗi
nhãn gồm các nhãn thuộc tập nhãn được chọn)
Hình 15. Một mô hình gán nhãn từ loại tiếng Việt
Thực nghiệm trong nội dung khóa luận sẽ tiến hành gán nhãn từ loại theo 2
hướng tiếp cận khác nhau, cùng với đó là tập đặc trưng có thay đổi phù hợp với từng
cách tiếp cận:
Gán nhãn từ loại dựa vào thông tin về từ (Tiếp cận dựa trên mức từ).
Gán nhãn từ loại dựa vào thông tin hình vị (Tiếp cận dựa trên mức hình vị).
Trích chọn đặc trưng
Huấn luyện mô hình
Pha kiểm thử
Tài liệu chưa
gán nhãn
Tài liệu gán
nhãn từ loại
Tài liệu đã gán nhãn
47
4.3.1. Gán nhãn từ loại dựa vào thông tin về từ
Gán nhãn từ loại dựa vào thông tin về từ là việc gán nhãn sử dụng các đặc trưng
ngữ cảnh xung quanh từ đang xét. Các mẫu đặc trưng được mô tả như ở dưới đây,
trong đó W đề cập tới từ còn POS đề cập tới nhãn từ loại của từ.
Từ Wi (i = -2, -1, 0, 1, 2)
Nhãn của từ đằng trước từ hiện tại POS(W-1)
Hai nhãn hai từ đằng trước từ hiện tại POS(W-2) POS(W-1)
Từ đang xét có phải dấu câu?
Từ đang xét có phải từ đầu tiên của câu?
Từ đang xét có ký tự đầu của mỗi hình vị viết hoa hay không?
4.3.2. Gán nhãn từ loại dựa vào thông tin hình vị
Hướng tiếp cận gán nhãn từ loại ở mức hình vị dựa trên đặc điểm của tiếng Việt
là các từ được cấu thành từ các hình vị. Trong tiếng việt, hình vị nhỏ nhất là “tiếng”
được hình thành bởi nhiều ký tự trong bảng chữ cái. Dưới đây là mô tả đặc trưng dựa
trên hình vị:
Hình vị S-i (i = -2, -1, 0, 1, 2)
Nhãn của hình vị đằng trước từ hiện tại POS(S-1wo)
Nhãn của 2 hình vị đằng trước từ hiện tại POS(S-2Wo) POS(S-1Wo)
Hình vị đang xét có phải dấu câu?
HÌnh vị đang xét có phải hình vị đầu tiên của một câu?
Hình vị đang xét có ký tự đầu tiên viết hoa hay không?
Trong đó, với chú ý thêm là đặc trưng POS(S-1wo) chính là nhãn từ loại của hình vị đầu
tiên thuộc từ đứng ngay trước từ hiện tại. Và POS(S-2Wo) POS(S-1Wo) chính là nhãn từ
loại của hình vị đầu tiên thuộc từ đứng trước và cách từ hiện tại một từ.
48
4.4. Phương pháp thực nghiệm và các tham số đánh giá thực
nghiệm
4.4.1. Phương pháp thực nghiệm
Thực nghiệm theo phương pháp kiểm thử chéo 5 lần (5-fold cross validation).
Theo phương pháp này, dữ liệu thực nghiệm được chia thành 5 phần bằng nhau, lần
lượt lấy 4 phần để huấn luyện và 1 phần còn lại để kiểm thử, kết quả sau 5 lần thực
nghiệm được ghi lại và đánh giá tổng thể.
4.4.2. Các tham số đánh giá thực nghiệm
Khóa luận đánh giá độ “tốt” của các thực nghiệm dựa trên hai yếu tố chính:
Độ chính xác của kết quả (tức là dữ liệu đầu ra của mô hình). Đây là một trong
những yếu tố quan trọng nhất cần phải xem xét để đánh giá độ tốt của một mô
hình. Đối với các thực nghiệm đã được tiến hành, độ chính xác của dữ liệu đầu
ra được tính bằng công thức:
correctP
correct incorrect
Thời gian xử lý của bộ gán nhãn. Thời gian này bao gồm: thời gian huấn luyện
và thời gian gán nhãn (ở đây ta tính bằng thời gian kiểm thử trong các thực
nghiệm). Ở đây ta ký hiệu thời gian huấn luyện là T (tính bằng đơn vị giây) và
thời gian kiểm thử là t (tính bằng đơn vị giây); thời gian kiểm thử được tính
bằng thời gian từ lúc mô hình bắt đầu gán nhãn cho dữ liệu kiểm thử đến lúc
đầu ra được in ra file một cách hoàn chỉnh.
4.5. Kết quả thực nghiệm
Các mô hình học máy MEM, CRF và SVM đã được huấn luyện trên cùng một
môi trường phần cứng và sử dụng cùng tập đặc trưng đã được thiết kế ở phần trước.
4.5.1. Kết quả của năm lần thực nghiệm
a. Kết quả thực nghiệm áp dụng mô hình MEM
Dữ liệu huấn luyện và kiểm thử được xử lý theo từng câu một, thủ tục kiểm thử
tuân theo thuật toán beam search, thuật toán này sẽ tìm kiếm để liệt kê các chuỗi nhãn
ứng cử viên cho câu và chuỗi nhãn cao nhất được chọn là đáp án.
49
Ở mức từ
Bảng 9. Độ chính xác khi áp dụng mô hình MEM ở mức từ
Lần 1 Lần 2 Lần 3 Lần 4 Lần 5 Trung bình
Bộ dữ liệu thứ nhất 86.47 86.73 86.56 86.24 86.11 86.42
Bộ dữ liệu thứ hai 85.17 85.64 85.51 85.71 85.81 85.57
Thực nghiệm áp dụng mô hình MEM để gán nhãn cho văn bản tiếng Việt ở mức
từ cho độ chính xác trung bình với bộ dữ liệu thứ nhất là 86.42% trong đó kết quả cao
nhất là 86.73%. Với bộ dữ liệu thứ hai, độ chính xác trung bình là 85.57% và độ chính
xác cao nhất là 85.81%.
Thời gian huấn luyện MEM vào khoảng gần 3 tiếng với bộ dữ liệu thứ nhất và
khoảng 2 tiếng với bộ dữ liệu thứ hai. MEM cần khá nhiều thời gian để tiến hành kiểm
thử, khoảng hơn 10 phút trong cả 2 bộ dữ liệu.
Ở mức hình vị
Bảng 10. Độ chính xác khi áp dụng mô hình MEM ở mức hình vị
Lần 1 Lần 2 Lần 3 Lần 4 Lần 5 Trung bình
Bộ dữ liệu thứ nhất 89.72 89.93 89.76 90.07 89.86 89.87
Bộ dữ liệu thứ hai 88.63 89.64 89.26 89.36 89.63 89.30
Trong thực nghiệm ở mức hình vị, độ chính xác ở cả hai bộ dữ liệu nhìn chung
đều tăng lên đáng kể: Với bộ dữ liệu thứ nhất là 89.87% ở giá trị trung bình, trong đó
kết quả cao nhất là 90.07%; Với bộ dữ liệu thứ hai, độ chính xác trung bình là 89.30%
và cao nhất là 89.64%.
Thời gian huấn luyện tăng lên khoảng hơn 1.5 lần so với ở mức từ (khoảng 4,5
tiếng để huấn luyện mô hình sử dụng bộ dữ liệu thứ nhất và khoảng 3 tiếng nếu sử
dụng bộ dữ liệu thứ hai). Thời gian kiểm thử vào khoảng 20 phút với bộ dữ liệu thứ
nhất và 15 phút với bộ dữ liệu thứ hai.
Tương tự MEM, đối với CRF dữ liệu huấn luyện và kiểm thử cũng được xử lý
theo từng câu một. Trong thực nghiệm này, việc ước lượng các tham số cho mô mình
CRF được tiến hành bằng phương pháp LBFGS.
50
b. Kết quả thực nghiệm áp dụng mô hình CRF
Ở mức từ
Bảng 11. Độ chính xác khi áp dụng mô hình CRF ở mức từ
Lần 1 Lần 2 Lần 3 Lần 4 Lần 5 Trung bình
Bộ dữ liệu thứ nhất 90.91 91.02 90.87 90.86 90.93 90.92
Bộ dữ liệu thứ hai 89.36 89.61 89.48 89.76 89.72 89.59
Áp dụng CRF ở mức từ, độ chính xác trung bình đạt được với bộ dữ liệu thứ nhất
là 90.92% (cao nhất là 91.02%). Với bộ dữ liệu thứ hai, độ chính xác trung bình là
89.59% (cao nhất đạt được là 89.72%).
Thời gian huấn luyện nhìn chung là khá lớn (khoảng 5 tiếng với bộ dữ liệu thứ
nhất và 4 tiếng với bộ dữ liệu thứ hai). Nhưng ngược lại, thời gian kiểm thử nhỏ, chỉ
xấp xỉ 1-2 giây với cả 2 bộ dữ liệu
Ở mức hình vị
Bảng 12. Độ chính xác khi áp dụng mô hình CRF ở mức hình vị
Lần 1 Lần 2 Lần 3 Lần 4 Lần 5 Trung bình
Bộ dữ liệu thứ nhất 91.32 91.88 91.49 91.68 91.83 91.64
Bộ dữ liệu thứ hai 89.82 90.35 90.76 89.95 89.98 90.17
Ở mức hình vị, độ chính xác trung bình đạt được với bộ dữ liệu thứ nhất là
91.64%, trong đó cao nhất là là 91.88%, với bộ dữ liệu thứ hai, độ chính xác trung
bình là 90.17% và độ chính xác cao nhất là 90.76%. Như vậy, độ chính xác có tăng so
với thực nghiệm ở mức từ, nhưng độ tăng không nhiều (khoảng 0,6 – 0,7%).
Thực nghiệm ở mức hình vị với CRF mất nhiều thời gian để huấn luyện và kiểm
thử hơn so với thực nghiệm ở mức từ, mức tăng vào khoảng hơn 3 tiếng, thời gian
kiểm thử tăng không đáng kể và vẫn ở mức thấp.
c. Kết quả thực nghiệm áp dụng mô hình SVM
Để phục vụ cho việc trích chọn các đặc trưng về từ hoặc hình vị, một từ điển các
từ và hình vị đã được xây dựng, việc số hóa các đặc trưng theo yêu cầu đầu vào của
mô hình dựa trên số thứ tự của từ hoặc hình vị trong từ điển này. Kết quả thực nghiệm
áp dụng mô hình SVM được cho ở bảng 14 và bảng 15 dưới đây.
51
Ở mức từ
Bảng 13. Độ chính xác khi áp dụng mô hình SVM ở mức từ
Lần 1 Lần 2 Lần 3 Lần 4 Lần 5 Trung bình
Bộ dữ liệu thứ nhất 89.44 88.59 88.62 88.21 88.96 88.76
Bộ dữ liệu thứ hai 87.27 86.89 87.16 86.93 87.05 87.06
Thực nghiệm áp dụng mô hình SVM ở mức từ cho độ chính xác trung bình với
bộ dữ liệu thứ nhất là 88.76%,
Các file đính kèm theo tài liệu này:
- LUẬN VĂN-SO SÁNH MỘT SỐ PHƯƠNG PHÁP HỌC MÁY CHO BÀI TOÁN GÁN NHÃN TỪ LOẠI TIẾNG VIỆT.pdf