Tài liệu Báo cáo Trích chọn thông tin trên tập văn bản pháp luật dùng kỹ thuật học máy bán giám sát dựa trên mô hình crfs theo tiêu chuẩn kỳ vọng tổng quát: - 1 -
1
TRƯỜNG ………………….
KHOA……………………….
----------
Báo cáo tốt nghiệp
Đề tài:
TRÍCH CHỌN THÔNG TIN TRÊN TẬP VĂN BẢN PHÁP LUẬT DÙNG KỸ
THUẬT HỌC MÁY BÁN GIÁM SÁT DỰA TRÊN MÔ HÌNH CRFs THEO TIÊU
CHUẨN KỲ VỌNG TỔNG QUÁT
- 2 -
2
LỜI CAM ĐOAN
Tôi xin cam đoan kết quả đạt được trong luận văn là sản phẩm của riêng cá
nhân tôi, không sao chép lại của người khác. Trong toàn bộ nội dung của luận
văn, những điều được trình bày hoặc là của cá nhân hoặc là được tổng hợp từ
nhiều nguồn tài liệu. Tất cả các tài liệu tham khảo đều có xuất xứ rõ ràng và
được trích dẫn hợp pháp. Tôi xin hoàn toàn chịu trách nhiệm và chịu mọi hình
thức kỷ luận theo quy định cho lời cam đoan của mình.
Hà Nội, 05/2011
Phạm Thị Ngân
- 3 -
3
MỤC LỤC
LỜI CAM ĐOAN .............................................................................................. 1
MỤC LỤC ...........................................................................................................
51 trang |
Chia sẻ: haohao | Lượt xem: 1339 | Lượt tải: 0
Bạn đang xem trước 20 trang mẫu tài liệu Báo cáo Trích chọn thông tin trên tập văn bản pháp luật dùng kỹ thuật học máy bán giám sát dựa trên mô hình crfs theo tiêu chuẩn kỳ vọng tổng quát, để tải tài liệu gốc về máy bạn click vào nút DOWNLOAD ở trên
- 1 -
1
TRƯỜNG ………………….
KHOA……………………….
----------
Báo cáo tốt nghiệp
Đề tài:
TRÍCH CHỌN THƠNG TIN TRÊN TẬP VĂN BẢN PHÁP LUẬT DÙNG KỸ
THUẬT HỌC MÁY BÁN GIÁM SÁT DỰA TRÊN MƠ HÌNH CRFs THEO TIÊU
CHUẨN KỲ VỌNG TỔNG QUÁT
- 2 -
2
LỜI CAM ĐOAN
Tơi xin cam đoan kết quả đạt được trong luận văn là sản phẩm của riêng cá
nhân tơi, khơng sao chép lại của người khác. Trong tồn bộ nội dung của luận
văn, những điều được trình bày hoặc là của cá nhân hoặc là được tổng hợp từ
nhiều nguồn tài liệu. Tất cả các tài liệu tham khảo đều cĩ xuất xứ rõ ràng và
được trích dẫn hợp pháp. Tơi xin hồn tồn chịu trách nhiệm và chịu mọi hình
thức kỷ luận theo quy định cho lời cam đoan của mình.
Hà Nội, 05/2011
Phạm Thị Ngân
- 3 -
3
MỤC LỤC
LỜI CAM ĐOAN .............................................................................................. 1
MỤC LỤC ......................................................................................................... 3
DANH MỤC HÌNH VẼ ..................................................................................... 5
DANH MỤC BẢNG BIỂU................................................................................ 6
KÝ TỰ VIẾT TẮT............................................................................................. 7
LỜI CẢM ƠN .................................................................................................... 8
LỜI MỞ ĐẦU.................................................................................................... 9
CHƯƠNG 1: HỌC BÁN GIÁM SÁT THEO MƠ HÌNH TRƯỜNG NGẪU
NHIÊN CĨ ĐIỀU KIỆN.................................................................................. 11
1.1. Phương pháp học máy Trường ngẫu nhiên cĩ điều kiện ............................. 11
1.1.1. Khái niệm trường ngẫu nhiên cĩ điều kiện ......................................... 11
1.1.2. Học máy CRFs ................................................................................... 13
1.1.2.1. Hàm tiềm năng của các mơ hình CRFs .................................... 13
1.1.2.2. Thuật tốn gán nhãn cho dữ liệu dạng chuỗi. ........................... 14
1.1.2.3. Ước lượng tham số cho các mơ hình CRFs .............................. 15
1.2. Học máy bán giám sát CRFs ...................................................................... 15
1.2.1. Học máy bán giám sát......................................................................... 15
1.2.1.1. Học khơng cĩ giám sát và Học cĩ giám sát ............................. 16
1.2.1.2. Học máy bán giám sát.............................................................. 18
1.2.1.3. Một số thuật tốn học máy bán giám sát .................................. 19
1.2.2. Sơ bộ về mơ hình học máy bán giám sát CRFs ................................... 21
1.3. Kết luận chương 1 ...................................................................................... 22
CHƯƠNG 2: HỌC MÁY BÁN GIÁM SÁT CRFs THEO TIÊU CHUẨN KỲ
VỌNG TỔNG QUÁT ...................................................................................... 23
2.1. Tiêu chuẩn kỳ vọng tổng quát .................................................................... 23
2.1.1. Giới thiệu sơ bộ .................................................................................. 23
2.1.2. Tiêu chuẩn kỳ vọng tổng quát............................................................. 24
2.2. Mơ hình học máy bán giám sát CRFs theo tiêu chuẩn kỳ vọng tống quát ... 26
- 4 -
4
2.3. Kết luận chương 2 ...................................................................................... 28
CHƯƠNG 3: MỘT MƠ HÌNH HỌC MÁY BÁN GIÁM SÁT CRFs TRÍCH
CHỌN THƠNG TIN PHÁP LUẬT TIẾNG VIỆT ......................................... 29
3.1. Trích chọn thơng tin từ văn bản pháp luật tiếng Việt ................................. 29
3.1.1. Một số đặc trưng về miền dữ liệu văn bản pháp luật tiếng Việt........... 29
3.1.2. Bài tốn trích chọn thơng tin văn bản pháp luật tiếng Việt .................. 31
3.2. Một mơ hình học máy bán giám sát CRFs trích chọn thơng tin pháp luật
tiếng Việt ...................................................................................................... 31
3.2.1. Một số phân tích ................................................................................. 31
3.2.2. Mơ hình đề nghị ................................................................................. 32
3.2.3. Lựa chọn thuộc tính............................................................................ 36
3.2.4. Cách đánh giá ..................................................................................... 36
3.3. Kết luận chương 3 ...................................................................................... 37
CHƯƠNG 4: THỰC NGHIỆM VÀ ĐÁNH GIÁ ............................................. 38
4.1. Mơ hình thực nghiệm ................................................................................ 38
4.1.1. Dữ liệu thực nghiệm ........................................................................... 38
4.1.2. Bộ cơng cụ Mallet .............................................................................. 38
4.2. Thực nghiệm và đánh giá .......................................................................... 38
4.2.1. Mơi trường thực nghiệm..................................................................... 38
4.2.2. Mơ tả quy trình thực nghiệm............................................................... 38
4.2.3. Kết quả thực nghiệm........................................................................... 39
4.2.4. Đánh giá ............................................................................................. 40
4.3. Kết luận chương 4 ..................................................................................... 43
KẾT LUẬN...................................................................................................... 45
TÀI LIỆU THAM KHẢO ................................................................................ 47
- 5 -
5
DANH MỤC HÌNH VẼ
Hình 1. Đồ thị vơ hướng mơ tả CRFs ....................................................... 12
Hình 2. Một bước trong thuật tốn Viterbi cải tiến................................... 14
Hình 3/4. Mơ hình đề xuất giải quyết bài tốn.......................................... 34
Hình 5. Tập các ràng buộc (Constraint file) ............................................. 35
Hình 6. Kết quả nhĩm thực nghiệm 1 ....................................................... 40
Hình 7. Kết quả nhĩm thực nghiệm 2 ....................................................... 40
Hình 8. Kết quả nhĩm thực nghiệm 3 ....................................................... 41
Hình 9. Kết quả nhĩm thực nghiệm 4 ....................................................... 42
Hình 10. Kết quả nhĩm thực nghiệm 5 ..................................................... 43
- 6 -
6
DANH MỤC BẢNG BIỂU
Bảng 1. Mẫu ngữ cảnh từ vựng ........................................................................ 36
Bảng 2. Mẫu ngữ cảnh phát hiện tên thực thể .................................................. 36
Bảng 3. Kết quả nhĩm thực nghiệm 1............................................................... 39
Bảng 4. Kết quả nhĩm thực nghiệm 2............................................................... 40
Bảng 5. Kết quả nhĩm thực nghiệm 3............................................................... 41
Bảng 6. Kết quả nhĩm thực nghiệm 4............................................................... 42
Bảng 7. Kết quả nhĩm thực nghiệm 5............................................................... 42
- 7 -
7
KÝ TỰ VIẾT TẮT
CRFs Conditional Random Fields
EM Entropy Maximum
GE Generalized Expectation
GEC Generalized Expectation Criteria
GIS Generalized Iterative Scaling
i.i.d independently and identically
IIS Improved Iterative Scaling
KL Kullback Leibler
L-BFGS Limited memory Broyden–Fletcher–Goldfarb–Shanno
LOC LOCation
MISC MIScellaneous
NER Named Entity Recognition
ORG ORGanization
PER PERson
- 8 -
8
LỜI CẢM ƠN
Để hồn thành luận văn này tác giả đã nhận được sự giúp đỡ từ rất nhiều cơ
quan, đồn thể và cá nhân.
Trước hết tơi xin chân thành cảm ơn các thầy giáo, cơ giáo trong Khoa
Cơng nghệ Thơng tin, trường Đại học Cơng nghệ, Đại học Quốc gia Hà Nội đã
tận tình giảng dạy, trang bị cho tơi những kiến thức quý báu trong suốt quá trình
học tập tại trường.
Tơi xin bày tỏ lịng biết ơn sâu sắc đến TS. Nguyễn Lê Minh - người thầy
đã trực tiếp hướng dẫn tơi trong suốt quá trình xây dựng và hồn thành luận văn
này. Tơi xin bày tỏ lịng biết ơn chân thành đến thầy giáo PGS.TS. Hà Quang
Thụy và các bạn trong Phịng thí nghiệm cơng nghệ tri thức, Trường Đại học
Cơng nghệ đã giúp đỡ và đĩng gĩp nhiều ý kiến quý báu cho tơi.
Cuối cùng, tơi xin bày tỏ lịng biết ơn sâu sắc tới gia đình, bạn bè, những
người luơn động viên, giúp đỡ tơi rất nhiệt tình để hồn thành luận văn.
Hà Nội, tháng 05 năm 2011
Học viên
Phạm Thị Ngân
- 9 -
9
LỜI MỞ ĐẦU
Trích chọn thơng tin là một khâu cơ bản trong bài tốn khai phá dữ liệu.
Ngày nay, cùng với sự phát triển của cơng nghệ thơng tin, Tin học đã dần được
ứng dụng rộng rãi trong nhiều lĩnh vực như kinh tế, thương mại, y tế, ngân hàng
và mang lại nhiều lợi ích to lớn. Bản thân tơi hiện đang cơng tác tại Học viện
Cảnh sát nhân dân, tơi cĩ những hiểu biết nhất định về cơng tác giữ gìn trật tự an
tồn xã hội của lực lượng cảnh sát nhân dân. Tơi nhận thấy, các hoạt động của
lực lượng cảnh sát cĩ liên quan nhiều đến việc lưu trữ hồ sơ dữ liệu, tra cứu,
phân tích tổng hợp dữ liệu... Tuy nhiên, cơng tác quản lý hồ sơ dữ liệu này vẫn
cịn kém hiệu quả do những hạn chế nhất định. Do đĩ tơi đã mạnh dạn chọn đề
tài tập trung nghiên cứu vào việc trích lọc thơng tin trên tập văn bản pháp luật
này.
Trong nhiều thập kỷ qua, các nhà khoa học quan tâm đến lĩnh vực xử lý
ngơn ngữ tự nhiên đã nghiên cứu và đề xuất được nhiều phương pháp, mơ hình
xử lý ngơn ngữ với hiệu quả cao. Nổi bật trong số đĩ là phương pháp học máy
bán giám sát dựa trên mơ hình trường ngẫu nhiên cĩ điều kiện theo tiêu chuẩn
kỳ vọng tổng quát, phương pháp này đạt được kết quả rất khả quan trên tập dữ
liệu ngơn ngữ tiếng Anh và hiện chưa được áp dụng cho tiếng Việt. Được sự
giúp đỡ và đồng ý của Thầy giáo hướng dẫn TS. Nguyễn Lê Minh, tác giả quyết
định sử dụng mơ hình này ứng dụng cho tập văn bản pháp luật.
Bố cục của luận văn chia thành 4 chương như sau:
Chương 1: Trình bày những kiến thức cơ bản về mơ hình trường ngẫu
nhiên cĩ điều kiện và phương pháp học máy bán giám sát.
Chương 2: Trình bày về tiêu chuẩn kỳ vọng tổng quát và áp dụng tiêu
chuẩn kỳ vọng tổng quát vào mơ hình trường ngẫu nhiên cĩ điều kiện.
Chương 3: Trình bày về bài tốn trích chọn thưc thể trên tập văn bản pháp
luật và đề xuất mơ hình giải quyết bài tốn dựa trên mơ hình CRFs theo
tiêu chuẩn kỳ vọng tổng quát.
Chương 4: Trình bày các thực nghiệm trên tập dữ liệu sử dụng một số mơ
hình học máy cĩ giám sát CRFs, và mơ hình học máy bán giám sát
CRFs theo chuẩn hĩa entropy và theo tiêu chuẩn kỳ vọng tổng quát; Từ
đĩ đánh giá kết quả thu được.
Trong phần kết luận, luận văn tĩm tắt lại những cơng việc đã thực hiện và
các kết quả đạt được. Đồng thời cũng đề cập đến những điểm cịn hạn chế của
- 10 -
10
luận văn và hướng nghiên cứu trong tương lai.
- 11 -
11
CHƯƠNG 1
HỌC BÁN GIÁM SÁT THEO MƠ HÌNH
TRƯỜNG NGẪU NHIÊN CĨ ĐIỀU KIỆN
1.1. Phương pháp học máy Trường ngẫu nhiên cĩ điều kiện
Mơ hình trường ngẫu nhiên cĩ điều kiện (Conditional Random Fields, viết
tắt là CRFs) được Lafferty và cộng sự, 2001 [LCP01] giới thiệu lần đầu tiên vào
năm 2001. CRFs là mơ hình dựa trên xác suất cĩ điều kiện, nĩ cho phép tích hợp
được các thuộc tính đa dạng của chuỗi dữ liệu quan sát nhằm hỗ trợ cho quá
trình phân lớp. Tuy nhiên, khác với các mơ hình xác suất khác, CRFs là mơ hình
đồ thị vơ hướng. Điều này cho phép CRFs cĩ thể định nghĩa phân phối xác suất
của tồn bộ chuỗi trạng thái với điều kiện biết chuỗi quan sát cho trước thay vì
phân phối trên mỗi trạng thái với điều kiện biết trạng thái trước đĩ và quan sát
hiện tại như trong các mơ hình đồ thị cĩ hướng khác. Theo Lafferty và cộng sự
[LCP01], Hanna M. Wallach, 2002 và 2004 [Wal02, Wal04], bản chất “phân phối
điều kiện” và “phân phối tồn cục” của CRFs cho phép mơ hình này khắc phục
được những nhược điểm của các mơ hình trước đĩ trong việc gán nhãn và phân
đoạn các dữ liệu dạng chuỗi mà tiêu biểu là vấn đề ‘label bias’.
Khi đề cập đến trường ngẫu nhiên cĩ điều kiện, chúng ta sử dụng một số
qui ước kí hiệu:
Chữ viết hoa X, Y, Z…kí hiệu các biến ngẫu nhiên.
Chữ thường đậm x, y, t, s,…kí hiệu các vector như vector biểu diễn
chuỗi các dữ liệu quan sát, vector biểu diễn chuỗi các nhãn …
Chữ viết thường in đậm và cĩ chỉ số là kí hiệu của một thành phần
trong một vector, ví dụ xi chỉ một thành phần tại vị trí i trong vector x.
Chữ viết thường khơng đậm như x, y,… là kí hiệu các giá trị đơn như
một dữ liệu quan sát hay một trạng thái.
S: Tập hữu hạn các trạng thái của một mơ hình CRFs.
1.1.1. Khái niệm trường ngẫu nhiên cĩ điều kiện
Kí hiệu X là biến ngẫu nhiên nhận giá trị là chuỗi dữ liệu cần phải gán nhãn
và Y là biến ngẫu nhiên nhận giá trị là chuỗi nhãn tương ứng. Mỗi thành phần Yi
của Y là một biến ngẫu nhiên nhận giá trị trong tập hữu hạn các trạng thái S.
Trong bài tốn gán nhãn từ loại, X cĩ thể nhận giá trị là các câu trong ngơn ngữ
- 12 -
12
tự nhiên (gồm các từ), Y là một chuỗi ngẫu nhiên các nhãn tương ứng với các từ
tạo thành câu này và mỗi một thành phần Yi của Y cĩ miền giá trị là tập tất cả các
nhãn từ loại cĩ thể (danh từ, động từ, tính từ,...).
Cho một đồ thị vơ hướng phi chu trình G = (V, E), ở đây V là tập các đỉnh
của đồ thị và E là tập các cạnh vơ hướng nối các đỉnh đồ thị. Các đỉnh V biểu
diễn các thành phần của biến ngẫu nhiên Y sao cho tồn tại ánh xạ một- một giữa
một đỉnh và một thành phần Yv của Y. Ta nĩi (Y|X) là một trường ngẫu nhiên
điều kiện (Conditional Random Field) khi với điều kiện X, các biến ngẫu nhiên
Yv tuân theo tính chất Markov đối với đồ thị G [LCP01]:
))(,,|(),,|( vNYXYPvYXYP vv (1.1)
Ở đây, N(v) là tập tất cả các đỉnh kề với v. Như vậy, một CRF là một
trường ngẫu nhiên phụ thuộc tồn cục vào X. Trong các bài tốn xử lý dữ liệu
dạng chuỗi, G đơn giản chỉ là dạng chuỗi G = (V={1,2,…m}, E={(i,i+1)}).
Kí hiệu X=(X1, X2,…, Xn), Y=(Y1,Y2,...,Yn). Mơ hình đồ thị cho CRFs cĩ
dạng:
Hình 1. Đồ thị vơ hướng mơ tả CRFs
Gọi C là tập hợp tất cả các đồ thị con đầy đủ của đồ thị G - đồ thị biểu diễn
cấu trúc của một CRFs. Áp dụng kết quả của J.Hammersley và P. Clifford, 1971
[HC71] cho các trường ngẫu nhiên Markov, sẽ thừa số hĩa được p(y|x) - xác
suất của chuỗi nhãn với điều kiện biết chuỗi dữ liệu quan sát - thành tích của
các hàm tiềm năng như sau (theo [Wal04]):
CA
A AP )|()|( xxy (1.2)
Vì trong các bài tốn xử lý dữ liệu dạng chuỗi, đồ thị biểu diễn cấu trúc của
một CRF cĩ dạng đường thẳng như trong hình 1 cho nên tập C phải là hợp của E và
V, trong đĩ E là tập các cạnh của đồ thị G và V là tập các đỉnh của G, hay nĩi cách
khác đồ thị con A hoặc chỉ gồm một đỉnh hoặc chỉ gồm một cạnh của G.
Yn-1
Y
Y
Y
Y
- 13 -
13
1.1.2. Học máy CRFs
1.1.2.1. Hàm tiềm năng của các mơ hình CRFs
Lafferty và cộng sự [LCP01] giới thiệu phương pháp xác định các hàm
tiềm năng cho các mơ hình CRFs dựa trên nguyên lý cực đại hĩa Entropy. Cực
đại hĩa Entropy là một nguyên lý cho phép đánh giá các phân phối xác suất từ
một tập các dữ liệu huấn luyện. Bằng cách áp dụng nguyên lý cực đại hĩa
Entropy, Lafferty xác định hàm tiềm năng của một CRF cĩ dạng một hàm mũ.
k
kkA AfA xx |exp| (1.3)
Ở đây fk là một thuộc tính của chuỗi dữ liệu quan sát và k là trọng số chỉ
mức độ biểu đạt thơng tin của thuộc tính fk.
Cĩ hai loại thuộc tính là thuộc tính chuyển (kí hiệu là t) và thuộc tính trạng
thái (kí hiệu là s) tùy thuộc vào A là đồ thị con gồm một đỉnh hay một cạnh của
G. Thay các hàm tiềm năng vào cơng thức (1.2) và thêm vào đĩ một thừa số
chuẩn hĩa Z(x) để đảm bảo tổng xác suất của tất cả các chuỗi nhãn tương ứng
với một chuỗi dữ liệu quan sát bằng 1, ta được:
i i k
ikk
k
iikk stZ
P ),(),,(exp
)(
1)|( 1 xyxyyx
xy (1.4)
Ở đây, x, y là chuỗi dữ liệu quan sát và chuỗi trạng thái tương ứng; tk là
thuộc tính của tịan bộ chuỗi quan sát và các trạng thái tại ví trí i-1, i trong chuỗi
trạng thái; sk là thuộc tính của tồn bộ chuỗi quan sát và trạng thái tại ví trí i
trong chuỗi trạng thái.
Thừa số chuẩn hĩa Z(x) được tính như sau:
y i i k
ikk
k
iikk stZ ),(),,(exp)( 1 xyxyyx (1.5)
Đặt ..),...,,( 2,121 là các vector các tham số của mơ hình, được ước
lượng giá trị nhờ các phương pháp ước lượng tham số cho mơ hình sẽ được đề
cập trong phần sau.
si =
1 nếu xi=Bill và yi= B_PER
0 nếu ngược lại
ti =
=
1 nếu xi-1= “Bill”, xi=”Clinton” và yi-1=B_PER,yi=I_PER
0 nếu ngược lại
- 14 -
14
1.1.2.2. Thuật tốn gán nhãn cho dữ liệu dạng chuỗi.
Tại mỗi vị trí i trong chuỗi dữ liệu quan sát, ta định nghĩa một ma trận
chuyển |S|×|S| như sau:
),,'()( xx yyMM ii (1.6)
k k
kkkki ysyytyyM ),(),,'(exp),,'( xxx (1.7)
Ở đây Mi(y’, y, x) là xác suất chuyển từ trạng thái y’ sang trạng thái y với
chuỗi dữ liệu quan sát là x. Chuỗi trạng thái y* mơ tả tốt nhất cho chuỗi dữ liệu
quan sát x là nghiệm của phương trình:
y* = argmax{p(y|x)} (1.8)
Chuỗi y* được xác định bằng thuật tốn Viterbi cải tiến [Spr07] như mơ tả
trong hình 2. Định nghĩa )(yi là xác suất của “chuỗi trạng thái độ dài i kết thúc
bởi trạng thái y và cĩ xác suất lớn nhất” biết chuỗi quan sát là x.
Giả sử biết tất cả )( ki y với mọi yk thuộc tập trạng thái S của mơ hình, cần
xác định )(1 ji y . Từ hình 2, ta suy ra cơng thức truy hồi
SyyyMyy kjkikiji ),,(*)(max)( 11 x (1.9)
Hình 2. Một bước trong thuật tốn Viterbi cải tiến
Đặt ),,'(*)'(maxarg)(Pr 1 xyyMyye iii . Giả sử chuỗi dữ liệu quan sát x
cĩ độ dài n, sử dụng kĩ thuật backtracking để tìm chuỗi trạng thái y* tương ứng
như sau:
Bước 1: Với mọi y thuộc tập trạng thái tìm
o )(maxarg)(* yn ny
o i n
?
Pr
Pr )( Ni y
)( 1yi
)( 2yi
)(1 ji y
- 15 -
15
Bước lặp: chừng nào i>0
o i i-1
o y Prei(y)
o y*(i) = y
Chuỗi y* tìm được chính là chuỗi cĩ xác suất p(y*|x) lớn nhất, đĩ cũng
chính là chuỗi nhãn phù hợp nhất với chuỗi dữ liệu quan sát cho trước.
Như vậy, do bản chất phân phối tồn cục của mình, CRFs cĩ thể giải quyết
được vấn đề ‘label bias’, một nhược điểm tiêu biểu của mơ hình MEM [MMI02,
Wal04]. Ở phương diện lý thuyết mơ hình, ta cĩ thể coi mơ hình CRFs như là
một máy trạng thái xác suất với các trọng số khơng chuẩn hĩa, mỗi trọng số gắn
liền với một bước chuyển trạng thái. Bản chất khơng chuẩn hĩa của các trọng số
cho phép các bước chuyển trạng thái cĩ thể nhận các giá trị quan trọng khác
nhau. Vì thế bất cứ một trạng thái nào cũng cĩ thể làm tăng hoặc giảm xác suất
được truyền cho các trạng thái sau nĩ mà vẫn đảm bảo xác suất cuối cùng được
gán cho tồn bộ chuỗi trạng thái thỏa mãn định nghĩa về xác suất nhờ thừa số
chuẩn hĩa tồn cục.
1.1.2.3. Ước lượng tham số cho các mơ hình CRFs
Kĩ thuật được sử dụng để đánh giá tham số cho một mơ hình CRFs là làm
cực đại hĩa độ đo likelihood giữa phân phối mơ hình và phân phối thực nghiệm.
Nguyên lý cực đại likelihood được phát biểu như sau: Các tham số tốt nhất
của mơ hình là các tham số làm cực đại hàm likelihood. Như vậy, về phương
diện tốn học, bài tốn ước lượng tham số cho một mơ hình CRFs chính là bài
tốn tìm cực đại của hàm log-likelihood. Cĩ nhiều phương pháp tìm cực đại của
hàm log-likelihood như các phương pháp lặp (IIS, GIS), các phương pháp tối ưu
số (phương pháp dựa trên vector gradient như phương pháp gradient liên hợp,
quasi-Newton …) và L-BFGs cĩ thể phục vụ cho ước lượng tham số mơ hình.
Trong các phương pháp tìm cực trị hàm log-likelihood này, phương pháp L-
BFGs được đánh giá là vượt trội và cĩ tốc độ hội tụ nhanh nhất [Mal02].
1.2. Học máy bán giám sát CRFs
1.2.1. Học máy bán giám sát
Trong lý thuyết xác suất, một dãy các biến ngẫu nhiên được gọi là cĩ độc
lập cùng phân phối nếu chúng cĩ cùng một phân phối và độc lập với nhau. Các
quan sát trong một mẫu thường được giả thiết là độc lập cùng phân phối nhằm
làm đơn giản hố tính tốn tốn học bên dưới của nhiều phương pháp thống kê.
Trong nhiều ứng dụng, điều này thường khơng thực tế. Trước khi nghiên cứu về
- 16 -
16
học máy bán giám sát, tơi giới thiệu sơ bộ về hai phương pháp học máy cơ bản
là Học khơng cĩ giám sát và Học cĩ giám sát.
1.2.1.1. Học khơng cĩ giám sát và Học cĩ giám sát
Học khơng cĩ giám sát (unsupervised learning): Là phương pháp học máy
nhằm tìm ra một mơ hình phù hợp với các quan sát. Cho trước một mẫu chỉ gồm
các đối tượng (objects), cần tìm kiếm cấu trúc quan tâm (interesting structures)
của dữ liệu, và nhĩm các đối tượng giống nhau.
Học khơng giám sát thường coi các đối tượng đầu vào là một tập các biến
ngẫu nhiên. Sau đĩ, một mơ hình mật độ kết hợp sẽ được xây dựng cho tập dữ
liệu đĩ. Biểu diễn tốn học của phương pháp này như sau:
Cho X=(x1 , x2 , …, xn ) là tập hợp gồm n mẫu (examples or points), xi ∈
X với mọi i∈[N]:= {1,2, ..., n}. Thơng thường, ta giả thiết rằng các mẫu được
tạo ra một cách độc lập và giống nhau (i.i.d – independently and identically
distributed) từ một phân phối chung trên Χ. Mục đích của học khơng giám sát là
tìm ra một cấu trúc thơng minh trên tập dữ liệu đĩ.
Học khơng cĩ giám sát cĩ thể được dùng kết hợp với suy diễn Bayes
(Bayesian inference) để cho ra xác suất cĩ điều kiện (nghĩa là học cĩ giám sát)
cho bất kì biến ngẫu nhiên nào khi biết trước các biến khác.
Học khơng giám sát cũng hữu ích cho việc nén dữ liệu: về cơ bản, mọi giải
thuật nén dữ liệu hoặc là dựa vào một phân bố xác suất trên một tập đầu vào một
cách tường minh hay khơng tường minh.
Học giám sát (supervised learning): Là phương pháp học máy xây dựng
một hàm từ dữ liệu huấn luyện. Cho trước một mẫu bao gồm các cặp đối tượng -
nhãn (xi,yi), cần tìm ra mối quan hệ dự đốn giữa các đối tượng và các nhãn.
Mục đích là học một phép ánh xạ từ x tới y, khi cho trước một tập huấn luyện
- 17 -
17
gồm các cặp (xi,yi), trong đĩ yi ∈ Y gọi là các nhãn hoặc đích của các mẫu Xi.
Nếu nhãn là các số, biểu diễn vector cột của các nhãn. Như đã nêu,
một yêu cầu chuẩn là các cặp (xi,yi) tuân theo giả thiết i.i.d trải khắp trên X×Y.
Nhiệm vụ được định rõ là, ta cĩ thể tính tốn được một phép ánh xạ thơng qua
thực thi dự đốn của nĩ trên tập kiểm thử. Nếu các nhãn lớp là liên tục, nhiệm
vụ phân lớp được gọi là hồi quy. Cĩ hai họ thuật tốn giám sát: generative
model và discriminative model:
Generative model: Phương pháp này sẽ tạo ra một mơ hình mật độ phụ
thuộc vào lớp (class-conditional density) p(x|y) bằng một vài thủ tục học khơng
giám sát. Một mật độ sinh cĩ thể được suy luận bằng cách sử dụng lý thuyết
Bayes.
Gọi là mơ hình sinh vì ta cĩ thể tự tạo ra các mẫu dữ liệu.
Discriminative model: Phương pháp này sẽ thay vì đánh giá xi được tạo ra
như thế nào mà tập trung đánh giá p(y|x) . Một vài phương pháp discriminative
hạn chế chúng để mơ hình xem p(y|x) lớn hơn hoặc nhỏ hơn 0.5, ví dụ như
SVM. Trong thực hành, phương pháp này thường được đánh giá là hiệu quả hơn
phương pháp sinh (generative).
Để cĩ thể giải quyết một bài tốn nào đĩ của học cĩ giám sát người ta phải
xem xét nhiều bước khác nhau:
1. Xác định loại của các ví dụ huấn luyện. Trước khi làm bất cứ điều gì,
người kĩ sư nên quyết định loại dữ liệu nào sẽ được sử dụng làm ví
dụ. Chẳng hạn, đĩ cĩ thể là một kí tự viết tay đơn lẻ, tồn bộ một từ
viết tay, hay tồn bộ một dịng chữ viết tay.
2. Thu thập tập huấn luyện. Tập huấn luyện cần đặc trưng cho thực tế sử
dụng của hàm chức năng. Vì thế, một tập các đối tượng đầu vào được
thu thập và đầu ra tương ứng được thu thập, hoặc từ các chuyên gia
hoặc từ việc đo đạc tính tốn.
3. Xác định việc biễu diễn các đặc trưng đầu vào cho hàm chức năng cần
tìm. Sự chính xác của hàm chức năng phụ thuộc lớn vào cách các đối
- 18 -
18
tượng đầu vào được biểu diễn. Thơng thường, đối tượng đầu vào được
chuyển đổi thành một vec-tơ đặc trưng, chứa một số các đặc trưng
nhằm mơ tả cho đối tượng đĩ. Số lượng các đặc trưng khơng nên quá
lớn, do sự bùng nổ tổ hợp; nhưng phải đủ lớn để dự đốn chính xác
đầu ra.
4. Xác định cấu trúc của hàm chức năng cần tìm và giải thuật học tương
ứng. Ví dụ, người kĩ sư cĩ thể lựa chọn việc sử dụng mạng nơ-ron
nhân tạo hay cây quyết định.
5. Hồn thiện thiết kế. Người kĩ sư sẽ chạy giải thuật học từ tập huấn
luyện thu thập được. Các tham số của giải thuật học cĩ thể được điều
chỉnh bằng cách tối ưu hĩa hiệu năng trên một tập con (gọi là tập
kiểm chứng -validation set) của tập huấn luyện, hay thơng qua kiểm
chứng chéo (cross-validation). Sau khi học và điều chỉnh tham số,
hiệu năng của giải thuật cĩ thể được đo đạc trên một tập kiểm tra độc
lập với tập huấn luyện.
Trong “học cĩ giám sát”, các dữ liệu được gán nhãn nên việc giải quyết
vấn đề thường thuận lợi hơn rất nhiều. Tuy nhiên, với một số lượng dữ liệu lớn
thì cơng việc gán nhãn cho dữ liệu địi hỏi nỗ lực của con người và tốn nhiều
thời gian. Cịn “học khơng cĩ giám sát” là mơ hình hĩa một tập dữ liệu, trong đĩ
dữ liệu đầu vào chưa được gán nhãn mà nĩ dựa trên mơt mơ hình phù hợp với
các quan sát, vì vậy với một số lượng lớn dữ liệu thì sự chính xác của kết quả
thu được khơng cao. Thực tế cho thấy rằng, dữ liệu chưa được gán nhãn cĩ thể
thu thập được rất nhiều và một cách dễ dàng. Tuy nhiên để xử lý số lượng dữ
liệu đĩ cĩ kết quả tốt cũng gặp nhiều khĩ khăn.
1.2.1.2. Học máy bán giám sát
“Học máy bán giám sát” là sự kết hợp giữa “học cĩ giám sát” và “học
khơng cĩ giám sát”. Với một số lượng lớn dữ liệu, kể cả dữ liệu chưa gán nhãn
và những dữ liệu đã được gán nhãn, sẽ được “máy học” giải quyết bằng một
cách tốt nhất bằng các giải thuật “học bán giám sát.
Từ đĩ, học bán giám sát cĩ thể được xem là:
- Học giám sát cộng thêm dữ liệu chưa gán nhãn (Supervised learning
+additional unlabeled data).
- Học khơng giám sát cộng thêm dữ liệu gán nhãn (Unsupervised
learning + additional labeled data).
Học bán giám sát chính là cách học sử dụng thơng tin cĩ ở cả dữ liệu gán
nhãn (trong tập dữ liệu huấn luyện) lẫn dữ liệu chưa gán nhãn. Các thuật tốn
- 19 -
19
học bán giám sát cĩ nhiệm vụ chính là mở rộng tập các dữ liệu gán nhãn ban
đầu. Hiệu quả của thuật tốn phụ thuộc vào chất lượng của các mẫu gán nhãn
được thêm vào ở mỗi vịng lặp và được đánh giá dựa trên hai tiêu chí:
- Các mẫu được thêm vào phải được gán nhãn một cách chính xác.
- Các mẫu được thêm vào phải mang lại thơng tin hữu ích cho bộ phân
lớp (hoặc dữ liệu huấn luyện).
Các phương pháp học bán giám sát sẽ rất hữu ích khi dữ liệu chưa gán nhãn
nhiều hơn dữ liệu gán nhãn. Việc thu được dữ liệu gán nhãn là rẻ, nhưng để gán
nhãn chúng thì tốn rất nhiều thời gian, cơng sức và tiền bạc. Đĩ là tình trạng của
rất nhiều các lĩnh vực ứng dụng trong học máy như:
- Trong nhận dạng lời nĩi, ta sẽ dễ dàng ghi lại một lượng lớn các bài diễn
thuyết, nhưng để gán nhãn chúng yêu cầu con người phải lắng nghe rồi đánh
máy sao chép lại.
- Sự phong phú của hàng tỉ các trang web sẵn sàng cho xử lý tự động, nhưng
để phân lớp chúng một cách tin cậy địi hỏi con người phải đọc chúng.
- ...
Học bán giám sát là việc học trên cả dữ liệu đã và chưa được gán nhãn. Từ
một số lượng lớn các dữ liệu chưa được gán nhãn, và một tập với số luợng nhỏ
dữ liệu đã được gán nhãn ban đầu (thường gọi là seed set) để xây dựng một bộ
phân lớp thậm chí là tốt hơn. Trong quá trình học như thế, phương pháp học sẽ
tận dụng được những thơng tin phong phú của dữ liệu chưa gán nhãn, mà chỉ
yêu cầu một số lượng rất nhỏ các dữ liệu đã gán nhãn.
1.2.1.3. Một số thuật tốn học máy bán giám sát
Theo Zhi-Hua Zhou và Ming Li, 2010 [ZL10], cĩ rất nhiều các thuật tốn
học máy bán giám sát và cĩ thể chia thành bốn nhĩm phương pháp như sau:
phương pháp sinh [MU97, NCT00, SL94], S3VMs (Semi-Supervised Support
Vector Machines – phương pháp máy vectơ hỗ trợ bán giám sát) [CZ05, GY05,
Joa99, LJ05], phương pháp dựa trên đồ thị [BN04, BNS05, BNS06, ZBL04,
ZGL03] và phương pháp dựa trên mâu thuẫn [ZL07, ZL05, ZZY07, ZC06,
NG00, GZ00, BS06, BM98].
- Trong phương pháp sinh, cả tập mẫu gán nhãn và chưa gán nhãn được giả
thiết được sinh ra từ mơ hình cùng tham số. Do đĩ, những tham số mơ
hình cĩ liên kết trực tiếp những mẫu chưa gán nhãn với mục tiêu học.
Những mơ hình trong phương pháp này thường coi những nhãn của dữ
liệu chưa gán nhãn là những giá trị thiếu của tham số mơ hình và sử dụng
thuật tốn cực đại hĩa kỳ vọng EM [DLR77] để tính tốn ước lượng cực
- 20 -
20
đại likelihood của tham số mơ hình. Những thuật tốn trong phương pháp
này khác nhau ở mơ hình sinh được sử dụng để phù hợp với dữ liệu, ví dụ
phương pháp pha trộn Gaussian [SL94], phương pháp Nạve Bayes
[NCT00]. Những mơ hình sinh thực thi đơn giản, dễ dàng và cĩ thể hiệu
quả hơn mơ hình discriminative khi học với mẫu gán nhãn nhỏ. Tuy
nhiên, nhĩm thuật tốn này cĩ nhược điểm lớn đĩ là khi giả thiết mơ hình
sai hoặc mơ hình sử dụng tập dữ liệu chưa gán nhãn lớn thì việc thực thi
bị kém hiệu quả. Do đĩ, để mơ hình này thực thi cĩ hiệu quả trong những
ứng dụng thực, cần phải tạo được mơ hình sinh chính xác dựa trên miền
tri thức, hoặc người ta cĩ thể kết hợp những mặt tích cực của mơ hình
sinh và mơ hình discriminative [AG05, FUS05]. Một số thuật tốn điển
hình của phương pháp này được Xiaojin Zhu đề cập trong [Zhu08] như:
Thuật tốn học bán giám sát cực đại kỳ vọng EM địa phương, Thuật tốn
Self-training...
- Phương pháp S3VMs cố gắng sử dụng dữ liệu chưa gán nhãn để điều
chỉnh đường biên quyết định được học từ tập nhỏ những mẫu dữ liệu gán
nhãn, nhờ đĩ cĩ thể đi qua được những vùng dày đặc trong khi vẫn giữ
được phân lớp chính xác cho dữ liệu gán nhãn. T. Joachims, 1999 [Joa99]
đề xuất mơ hình TSVM (Transductive Support Vector Machine). Đầu
tiên, thuật tốn này khởi tạo một SVM sử dụng những mẫu gán nhãn và
gán những nhãn tiềm năng cho dữ liệu chưa gán nhãn. Sau đĩ, nĩ lặp lại
việc cực đại hĩa biên của cả dữ liệu gán nhãn và chưa gán nhãn với những
nhãn tiềm năng bằng cách đặt nhãn của dữ liệu chưa gán nhãn trên các
mặt của biên quyết định. Cách này cĩ thể đạt được giải pháp tối ưu đĩ là
biên quyết định khơng chỉ phân lớp chính xác dữ liệu gán nhãn mà cịn
tránh được việc đi qua vùng mật độ cao. Tuy nhiên, độ khơng lồi của hàm
thiệt hại (loss function) trong TSVM sẽ dẫn đến thực tế là cĩ nhiều điểm
tối ưu cục bộ. Do đĩ nhiều nghiên cứu được đề xuất để giảm tác động tiêu
cực này.
- Phương pháp học bán giám sát dựa trên đồ thị đầu tiên cĩ thể thực thi
được đề xuất bởi Blum và Chawla, 2001 [BC01], họ xây dựng một đồ thị
với các nút là những mẫu huấn luyện (cả gán nhãn và chưa gán nhãn) và
cạnh giữa các nút thể hiện mối quan hệ giữa những mẫu tương ứng ví dụ
như quan hệ đồng dạng. Dựa trên đồ thị này, vấn đề học bán giám sát cĩ
thể được giải quyết bằng việc tìm đường cắt nhỏ nhất của đồ thị mà theo
đĩ những nút trong mỗi phần cĩ cùng nhãn. Sau đĩ, A. Blum và cộng sự,
2004 [BLR04] làm nhiễu đồ thị bằng một số điểm ngẫu nhiên và tạo ra
- 21 -
21
đường cắt “mềm” nhỏ nhất sử dụng phiếu bầu tối đa. Cả [BC01] và
[BLR04] đều sử dụng hàm dự đốn rời rạc ví dụ dự đốn của những mẫu
chưa gán nhãn cĩ thể là một trong các nhãn cĩ thể. X. Zhu và cộng sự,
2003 [ZGL03] mở rộng hàm dự đốn rời rạc thành hàm liên tục. D. Zhou
và cộng sự, 2004 [ZBL04] định nghĩa độ thiệt hại bình phương của hàm
dự đốn thơng qua cả dữ liệu gán nhãn và chưa gán nhãn và đồ thị
Laplacian chuẩn hĩa. Hầu hết những nghiên cứu trước đây về học bán
giám sát dựa trên đồ thị thường tập trung vào việc xây dựng một đồ thị
phản ánh được mối quan hệ thiết yếu gữa những mẫu, đây là điều then
chốt cĩ tác động lớn đến thực thi việc học. Sau này, nhiều nghiên cứu đã
cố gắng cải thiện đồ thị bằng việc thêm vào những đặc trưng miền tri
thức. X. Zhang và W. S. Lee, 2007 [ZL07b] chọn dải thơng RBF tốt hơn
để cực tiểu hĩa lỗi dự đốn trên dữ liệu gán nhãn sử dụng đánh giá chéo.
M. Hein và M. Maier, 2007 [HM07] cố gắng giảm dữ liệu nhiễu để đạt
được đồ thị tốt hơn... Mặc dù phương pháp học bán giám sát dựa trên đồ
thị được ứng dụng khá rộng rãi nhưng nĩ cĩ nhược điểm lớn về quy mơ.
- Phương pháp học bán giám sát dựa trên mâu thuẫn được đưa ra gần đây
bởi Z. H. Zhou, 2008 [Zho08] dựa trên những nghiên cứu của A. Blum và
T. Mitchell, 1998 [BM98]. Trong phương pháp này, nhiều máy học được
huấn luyện cho cùng tác vụ và mẫu thuẫn giữa các máy học sẽ nảy sinh
trong quá trình học. Ở đây, dữ liệu chưa gán nhãn được coi là “cơ sở” cho
việc trao đổi thơng tin. Nếu một máy học nào chắc chắn hơn các máy học
khác về một mẫu chưa gán nhãn đang tranh luận thì máy học đĩ sẽ dạy
cho các máy học khác về mẫu này, sau đĩ mẫu này cĩ thể được chọn để
truy vấn. Do đĩ, phương pháp này khơng cĩ những nhược điểm như
những mơ hình khác như vi phạm giả thiết mơ hình, hàm thiệt hại khơng
lồi, hay nhược điểm về quy mơ của thuật tốn học. Thuật tốn điển hình
của nhĩm phương pháp này được Ziaojin Zhu đề cập trong [Zhu08] là
Thuật tốn Co-training.
Mỗi phương pháp học bán giám sát đều cĩ những ưu và nhược điểm riêng.
Do đĩ tùy thuộc vào ứng dụng và loại dữ liệu mà lựa chọn phương pháp học và
thuật tốn cụ thể cho phù hợp.
1.2.2. Sơ bộ về mơ hình học máy bán giám sát CRFs
Như phân tích ở 1.2.1, cĩ nhiều phương pháp học bán giám sát và mỗi
phương pháp cĩ những ưu và nhược điểm riêng. Luận văn của tác giả tập trung
- 22 -
22
nghiên cứu mơ hình học bán giám sát CRFs, mơ hình này thuộc nhĩm phương
pháp sinh.
Mơ hình học bán giám sát CRFs là mơ hình kết hợp được cả dữ liệu chuỗi
đã gán nhãn và chưa gán nhãn; mơ hình đã khắc phục được những yếu điểm của
các mơ hình khác và được ứng dụng trong nhiều nghiên cứu về xử lý ngơn ngữ.
Feng Jiao và cộng sự, 2006 [JWL06] đã đề xuất thuật tốn tận dụng dữ liệu chưa
gán nhãn qua chuẩn hĩa entropy (entropy regularization) – thuật tốn được mở
rộng từ tiếp cận được đề xuất trong [GB04] cho mơ hình CRFs cĩ cấu trúc. Một
tiếp cận khác, Gideon S.Mann và Andrew McCallum [MC08], Gregory Druck và
cộng sự [DMC08] đề xuất phương pháp học bán giám sát CRFs sử dụng tiêu
chuẩn kỳ vọng tổng quát GE, phương pháp này sẽ giới thiệu trong mục 2.2.
Trong phương pháp này, thay vì sử dụng các mẫu gán nhãn máy học sẽ truy cập
các đặc trưng gán nhãn. Những đặc trưng này cĩ thể được gán nhãn với chi phí
thấp hơn nhiều so với gán nhãn tồn bộ mẫu dữ liệu vì việc gán nhãn đặc trưng
cĩ thể chỉ cần gán nhãn cho những phần nhỏ của cấu trúc chuỗi hoặc cây.
Bên cạnh đĩ, việc sử dụng tiêu chuẩn kỳ vọng tổng quát xác lập các tham
số trong huấn luyện hàm mục tiêu cho phép tạo được kỳ vọng mơ hình gần với
phân phối mục tiêu. Luận văn sẽ tiến hành thực thi mơ hình này trên tập dữ liệu
tiếng Việt và so sánh với một số phương pháp khác. Kết quả thực nghiệm sẽ thể
hiện ở Chương 4.
1.3. Kết luận chương 1
Chương này giới thiệu về mơ hình trường ngẫu nhiên cĩ điều kiện – một
mơ hình khá phổ biến và hiệu quả trong các ứng dụng về xử lý ngơn ngữ tự
nhiên - và giới thiệu về các phương pháp học máy bán giám sát – một phương
pháp được coi là tận dụng được các ưu điểm của hai phương pháp học máy cĩ
giám sát và học khơng cĩ giám sát. Từ đĩ, sơ lược về một số mơ hình học máy
bán giám sát áp dụng vào mơ hình trường ngẫu nhiên cĩ điều kiện, nổi bật là mơ
hình học máy bán giám sát CRFs sử dụng tiêu chuẩn kỳ vọng tổng quát; mơ
hình này sẽ được giới thiệu và phân tích trong chương tiếp theo của luận văn.
- 23 -
23
CHƯƠNG 2
HỌC MÁY BÁN GIÁM SÁT CRFs THEO
TIÊU CHUẨN KỲ VỌNG TỔNG QUÁT
2.1. Tiêu chuẩn kỳ vọng tổng quát
2.1.1. Giới thiệu sơ bộ
Những phương pháp học cĩ giám sát địi hỏi tập các trường hợp gán nhãn
lớn và nĩ hạn chế khả năng học ở những miền tri thức mới. Những phương pháp
học bán giám sát với mục tiêu tăng cường sử dụng tập các trường hợp chưa gán
nhãn là giải pháp lý tưởng nhằm giảm các nỗ lực gán nhãn dữ liệu. Tuy nhiên,
phương pháp này thường phức tạp về tính tốn và phải tính đến độ tin cậy trong
các trường hợp siêu tham số nhạy cảm của những phương pháp học bán giám
sát. Trong khi đĩ, chúng ta cần một phương pháp đơn giản nhưng hiệu quả cho
phép thực hiện những mơ hình huấn luyện trên những miền tri thức mới và địi
hỏi tối thiểu việc gán nhãn. Một phương pháp bán giám sát mới kết hợp tri thức
tiền nhiệm giữa những đặc trưng và lớp vào việc huấn luyện sử dụng tiêu chuẩn
kỳ vọng tổng quát (GEC), được Andrew McCallum và cộng sự, 2007 [CMD07]
giới thiệu, đã và đang gây được nhiều chú ý và đưa vào nhiều ứng dụng.
Tiêu chuẩn kỳ vọng tổng quát (GEC) [CMD07] là những điều kiện (term)
trong hàm mục tiêu huấn luyện cho phép gán giá trị cho kỳ vọng mơ hình. GEC
cĩ điểm giống với phương pháp mơ-men, nhưng cho phép biểu diễn những tham
chiếu vơ hướng tùy ý trên các kỳ vọng của những hàm tùy biến mà khơng yêu
cầu sự cân bằng mơ-men mẫu và mơ-men mơ hình. Đồng thời, GEC cũng cĩ 3
điểm khác căn bản với những hàm mục tiêu huấn luyện truyền thống; Đĩ là,
khơng cần ánh xạ một-một giữa những điều kiện GEC và những tham số mơ
hình, những kỳ vọng mơ hình cho những điều kiện GEC khác nhau cĩ thể được
huấn luyện trên những tập dữ liệu khác nhau, kỳ vọng tham chiếu (hàm score)
cĩ thể xác định từ nguồn khác như những tác vụ khác, những tri thức tiền
nghiệm.
Phương pháp được sử dụng trong luận văn này là sử dụng kết hợp những
đặc trưng và lớp biết trước. Kỳ vọng của mơ hình được ước lượng từ những
phân phối lớp được huấn luyện từ những đặc trưng lựa chọn và hàm tỷ số là
phân kỳ KL (S. Kullback và R. A. Leibler, 1951 [KL51], S. Kullback, 1959,
[Kul59]) – là độ đo khơng đối xứng giữa 2 phân bố xác suất – phân phối xác
- 24 -
24
suất thực và phân phối xác suất mục tiêu - từ những phân phối tham chiếu được
ước lượng từ những nguồn đã cĩ. Kết hợp những điều kiện GEC với tham số đã
biết cho phép sử dụng những mẫu đồng xuất hiện trong dữ liệu chưa gán nhãn
để học những tham số cho những đặc trưng mà chưa cĩ trong thơng tin tiền
nghiệm.
Phương pháp áp dụng trong luận văn để thực hiện tác vụ Nhận dạng tên
thực thể (NER) như tên người, tên địa điểm, tổ chức và những thực thể khác.
2.1.2. Tiêu chuẩn kỳ vọng tổng quát
Những mơ hình học bán giám sát trước đây đã khắc phục một số hạn chế là
sử dụng dữ liệu được gán nhãn đầy đủ với dữ liệu khơng được gán nhãn hoặc
với các ràng buộc (ví dụ những đặc trưng được đánh dấu với nhãn chính của nĩ).
GEC cĩ thể sử dụng nhiều thơng tin hơn những mơ hình trước nĩ. Trong GEC
cĩ thể tận dụng thuận lợi của phân bố xác suất điều kiện của những nhãn cho
trước một đặc trưng (p(y|fk(x) = 1)). Thơng tin này cung cấp ràng buộc phong
phú hơn cho mơ hình trong khi vẫn giữ lại tính dễ dịch. Con người thường cĩ
trực giác tốt về khả năng dự đốn quan hệ của những đặc trưng khác nhau. Ví
dụ, rõ ràng là xác suất của nhãn PERSON gán cho từ đặc trưng JOHN là cao, cĩ
thể đến 0.95 trong khi cho từ BROWN thì tỉ lệ thấp hơn cĩ thể là 0.4. Những
phân bố cần được ước lượng với độ chính xác cao và việc tự do biểu diễn mức
độ phân bố tốt hơn nhiều so với việc sử dụng tín hiệu giám sát nhị phân. Thuận
lợi khác của việc sử dụng những phân bố xác suất điều kiện - ràng buộc xác suất
là chúng cĩ thể dễ dàng ước lượng từ dữ liệu. Đối với đặc trưng bắt đầu bằng
chữ hoa INITIAL-CAPITAL, tơi xác định tất cả thẻ với đặc trưng đĩ và đếm số
nhãn xuất hiện cùng.
GEC cố gắng khớp những phân bố xác suất điều kiện này bằng kỳ vọng mơ
hình trên dữ liệu chưa gán nhãn, ví dụ khuyến khích mơ hình dự đốn rằng tỉ lệ
nhãn PERSON gán cho từ John cĩ thể là 0.95 trên tất cả điều kiện chưa gán
nhãn.
Cho X là tập các biến kí hiệu là x X. Cho θ là những tham số của một số
mơ hình, cho phép xác định phân bố xác suất trên tập X, pθ(X). Kỳ vọng của các
hàm f(X) theo mơ hình là
(2.1)
Trong đĩ, f(x) là một hàm bất kỳ của biến x cho giá trị vơ hướng hoặc
vecto. Hàm này cĩ thể chỉ phụ thuộc vào tập con của tập biến x.
- 25 -
25
Và những kỳ vọng cũng cĩ thể được xác định trên những phép gán giá trị
biến, ví dụ, khi thực hiện huấn luyện xác suất điều kiện của một số mơ hình.
Trong trường hợp này, những biến được chia thành biến đầu vào X và biến đầu
ra Y. Một tập các phép gán cho biến đầu vào (những trường hợp dữ liệu huấn
luyện) = {x1, x2,...} cĩ thể cho trước và kỳ vọng điều kiện là
(2.2)
Một GEC được định nghĩa là một hàm G, sử dụng tham số là kỳ vọng của
mơ hình f(X) và trả về một giá trị vơ hướng, giá trị này được bổ sung vào như là
một điều kiện trong hàm mục tiêu ước lượng tham số:
(2.3)
Trong một số trường hợp, G cĩ thể được định nghĩa dựa trên khoảng cách
đến giá trị đích cho Eθ[f(X)]. Cho là giá trị đích và cho ∆(·, ·) là hàm khoảng
cách. Trong trường hợp này, G cĩ thể định nghĩa là:
(2.4)
Như đã mơ tả ở trên, GEC là một dạng tổng quát, nĩ coi các phương pháp
ước lượng tham số truyền thống khác là trường hợp đặc biệt. Cĩ thể phân chia
GEC theo mức độ linh hoạt như sau:
1. Một GEC được xác định một cách độc lập theo tham số hĩa. Trong các
phương pháp ước lượng tham số truyền thống - phương pháp đồ thị, cĩ
sự tương ứng một-một giữa các tập con của các biến sử dụng trong mỗi
phần tham số hĩa của mơ hình và tập con của các biến trong đĩ các kỳ
vọng được xac định cho hàm mục tiêu. Trong GEC, mỗi tập con này cĩ
thể được lựa chọn độc lập.
2. Những GEC điều kiện khác nhau khơng cần tất cả các điều kiện cho
những trường hợp giống nhau, chúng cĩ thể tác động đến những tập dữ
liệu khác nhau hoặc những sự kết hợp khác nhau của những tập dữ liệu.
3. “Dấu hiệu huấn luyện” cĩ giám sát bất kể ở kỳ vọng đích hay tổng
quát, trạng thái của hàm tỷ số, G, cĩ thể xác định từ dữ liệu huấn luyện
gán nhãn hoặc bất kỳ nguồn nào, bao gồm cả những tác vụ khác hoặc
tri thức tiền nghiệm.
Do đĩ, một GEC cĩ thể được xác định một cách độc lập với tham số hĩa và
độc lập với những lựa chọn của bất kỳ tập dữ liệu điều kiện nào. Và một GEC cĩ
- 26 -
26
thể hoạt động trên một số tập con bất kỳ của các biến trong x. Thêm vào đĩ, hàm
f cĩ thể được định nghĩa theo kỳ vọng sinh ra mơ-men của phân bố pθ(X) hoặc
bất kỳ kỳ vọng nào khác. Hàm tỷ số G và hàm khoảng cách ∆ cĩ thể dựa trên
nguyên lý thơng tin hoặc những hàm bất kỳ.
Những giá trị GEC cĩ thể được sử dụng như là những thành phần duy nhất
của hàm mục tiêu ước lượng tham số hoặc chúng cĩ thể được sử dụng kết hợp
với những giá trị khác. Ví dụ, GEC cĩ thể được áp dụng trong nhiều sơ đồ học
khác nhau trong đĩ sử dụng những hàm mục tiêu, bao gồm học kết hợp/sinh,
học khơng giám sát, học điều kiện/phân biệt, học cĩ giám sát, học với những
biến ẩn, học cĩ cấu trúc…
2.2. Mơ hình học máy bán giám sát CRFs theo tiêu chuẩn kỳ vọng tống
quát
Nhìn chung, GEC biểu diễn một tham chiếu trên giá trị của kỳ vọng mơ
hình [CMD07]. Một kiểu tham chiếu cĩ thể được biểu diễn bằng hàm khoảng
cách , kỳ vọng mục tiêu , dữ liệu D, hàm f và phân bố mơ hình , hàm mục
tiêu GEC là . Trong [MC10], Gideon S. Mann và Andrew McCallum
đặt những hàm là phân bố xác suất điều kiện và đặt , phân kỳ
KL là độ đo khơng đối xứng giữa 2 phân bố xác suất p và q. Đối với huấn luyện
bán giám sát của CRFs, các tác giả bổ sung hàm mục tiêu với điều kiện chuẩn
hĩa.
(2.5)
Trong đĩ là phân bố mục tiêu và
(2.6)
Với tiềm năng khơng chính thức
(2.7)
Trong đĩ fm(x,j) là một đặc trưng phụ thuộc chỉ vào chuỗi quan sát x và j*
được định nghĩa là {j:fm(x,j)=1} và Um là tập các chuỗi mà fm(x,j) cĩ mặt cho
một số j.
Tính tốn Gradient (Độ chênh lệch)
- 27 -
27
Để tính độ chênh lệch của GEC, D( , đầu tiên giảm những điều
kiện ràng buộc cĩ tính đến dẫn xuất thành phần và các tác giả thu được độ chênh
lệch như sau:
(2.8)
Trong đĩ y-j = . Bước cuối cùng như sau từ định nghĩa của
xác suất biên P(yi|x). Bây giờ, nhận được dạng quen thuộc lấy ra độ chênh lệch
của chuỗi nhãn cụ thể, tiếp tục:
(2.9)
Sau khi kết hợp các số hạng và sắp xếp lại, sẽ thu được dạng cuối cùng của
độ chênh lệch như sau:
(2.10)
Ở đây, số hạng thứ 2 dễ dàng được thu thập từ thuật tốn tiến/lùi, nhưng đạt
được số hạng thứ nhất thì ít nhiều phức tạp hơn. Tính tốn số hạng này một cách
chất phác sẽ địi hỏi thực thi nhiều tiến/lùi bị ràng buộc. Ở đây, các tác giả trình
- 28 -
28
bày một phương pháp hiệu quả hơn và chỉ địi hỏi một thực thi của tiến/lùi. Đầu
tiên, chia xác suất thành 2 phần:
. (2.11)
Vậy làm thế nào để tính những số hạng này một cách hiệu quả? Tương tự
như thuật tốn tiến/lùi, xây dựng một giàn kết quả trung gian:
(2.12)
Để hiệu quả, được lưu ở mỗi giai
đoạn trong giàn. cĩ thể được tính theo cách
tương tự. Để tính giàn cần thời gian O(ns2) và một giàn phải được tính cho mỗi
nhãn, do đĩ thời gian là O(ns3).
2.3. Kết luận chương 2
Chương 2 tập trung nghiên cứu định nghĩa tiêu chuẩn kỳ vọng tổng quát,
phân tích cách xây dựng cơng thức, cách phân chia tiêu chuẩn kỳ vọng tổng
quát. Từ đĩ áp dụng vào mơ hình học máy bán giám sát CRFs, thiết lập các
thơng số cho mơ hình theo tiêu chuẩn kỳ vọng tổng quát như bổ sung hàm mục
tiêu với điều kiện chuẩn hĩa, tính tốn Gradient.
Chương tiếp theo, luận văn đề nghị một mơ hình học máy bán giám sát
CRFs theo tiêu chuẩn kỳ vọng tổng quát áp dụng cho bài tốn trích chọn thơng
tin từ văn bản pháp luật tiếng Việt.
- 29 -
29
CHƯƠNG 3
MỘT MƠ HÌNH HỌC MÁY BÁN GIÁM SÁT
CRFs TRÍCH CHỌN THƠNG TIN PHÁP LUẬT
TIẾNG VIỆT
3.1. Trích chọn thơng tin từ văn bản pháp luật tiếng Việt
3.1.1. Một số đặc trưng về miền dữ liệu văn bản pháp luật tiếng Việt
Trong cơng tác điều tra các vụ án và quản lý đối tượng, bên cạnh việc tiến
hành các biện pháp nghiệp vụ các điều tra viên đồng thời phải lập các loại biên
bản như biên bản lấy lời khai người bị hại, biên bản lấy lời khai người làm
chứng, biên bản khám nghiệm hiện trường, biên bản về việc thu thập chứng
cứ… tất cả được lưu vào hồ sơ. Như vậy, hồ sơ đối tượng, hồ sơ vụ án sẽ lưu
giữ tất cả những thơng tin về đối tượng tham gia vụ án, về các tình tiết vụ án, mơ
tả chi tiết phương thức, thủ đoạn, cơng cụ sử dụng, thời gian, địa điểm xảy ra vụ
án… Đây chính là những bằng chứng để xét xử vụ án, đồng thời việc lưu giữ
những thơng tin này cĩ ý nghĩa quan trọng trong việc thống kê, phân tích xu
hướng, dự báo tình hình, cũng như cung cấp thơng tin cho những vụ án liên
quan về cùng đối tượng, cùng thời gian, địa điểm, cùng phương thức thủ đoạn…
giúp cho việc phá án được nhanh chĩng hơn.
Luận văn tập trung nghiên cứu trên tập các hồ sơ điều tra vụ án với ngơn
ngữ tiếng Việt. Tiếng Việt cũng như bất kỳ một ngơn ngữ nào cũng cĩ những
đặc trưng riêng và việc nghiên cứu những đặc trưng này là cơ sở cho việc phân
tích, lựa chọn và trích rút thơng tin trên văn bản tiếng Việt. Tiếng Việt thuộc
ngơn ngữ đơn lập, tức là mỗi một tiếng (âm tiết) được phát âm tách rời nhau và
được thể hiện bằng một chữ viết. Đặc điểm này thể hiện rõ rệt ở tất cả các mặt
ngữ âm, từ vựng và ngữ pháp.
Đặc điểm ngữ âm
o Trong tiếng Việt cĩ một loại đơn vị đặc biệt gọi là tiếng. Về mặt
ngữ âm, mỗi tiếng là một âm tiết.
Đặc điểm từ vựng
o Mỗi tiếng, nĩi chung, là một yếu tố cĩ nghĩa. Tiếng là đơn vị cơ sở
của hệ thống các đơn vị cĩ nghĩa của tiếng Việt. Từ tiếng, người ta
- 30 -
30
tạo ra các đơn vị từ vựng khác để định danh sự vật, hiện tượng,…
chủ yếu nhờ phương thức ghép và phương thức láy.
o Việc tạo ra các đơn vị từ vựng ở phương thức ghép luơn chịu sự chi
phối của quy luật kết hợp ngữ nghĩa, ví dụ: đất nước, máy bay, nhà
lầu xe hơi, nhà tan cửa nát,… Hiện nay, đây là phương thức chủ
yếu để sản sinh ra các đơn vị từ vựng. Theo phương thức này, tiếng
Việt triệt để sử dụng các yếu tố cấu tạo từ thuần Việt hay vay mượn
từ các ngơn ngữ khác để tạo ra các từ, ngữ mới, ví dụ: tiếp thị,
karaoke, thư điện tử (e-mail), thư thoại (voice mail), phiên bản
(version), xa lộ thơng tin, siêu liên kết văn bản, truy cập ngẫu
nhiên, v.v…
o Việc tạo ra các đơn vị từ vựng ở phương thức láy thì quy luật phối
hợp ngữ âm chi phối chủ yếu việc tạo ra các đơn vị từ vựng, chẳng
hạn: chơm chỉa, chỏng chơ, đỏng đa đỏng đảnh, thơ thẩn, lúng lá
lúng liếng, v.v…
o Vốn từ vựng tối thiểu của tiếng Việt phần lớn là các từ đơn tiết (một
âm tiết, một tiếng). Sự linh hoạt trong sử dụng, việc tạo ra các từ
ngữ mới một cách dễ dàng đã tạo điều kiện thuận lợi cho sự phát
triển vốn từ, vừa phong phú về số lượng, vừa đa dạng trong hoạt
động. Cùng một sự vật, hiện tượng, một hoạt động hay một đặc
trưng, cĩ thể cĩ nhiều từ ngữ khác nhau biểu thị. Tiềm năng của
vốn từ ngữ tiếng Việt được phát huy cao độ trong các phong cách
chức năng ngơn ngữ, đặc biệt là trong phong cách ngơn ngữ nghệ
thuật. Hiện nay, do sự phát triển vượt bậc của khoa học-kĩ thuật,
đặc biệt là cơng nghệ thơng tin, thì tiềm năng đĩ cịn được phát huy
mạnh mẽ hơn.
Đặc điểm ngữ pháp
o Từ của tiếng Việt khơng biến đổi hình thái. Đặc điểm này sẽ chi
phối các đặc điểm ngữ pháp khác. Khi từ kết hợp từ thành các kết
cấu như ngữ, câu, tiếng Việt rất coi trọng phương thức trật tự từ và
hư từ.
o Việc sắp xếp các từ theo một trật tự nhất định là cách chủ yếu để
biểu thị các quan hệ cú pháp. Trong tiếng Việt khi nĩi “Anh ta lại
đến” là khác với “Lại đến anh ta“. Khi các từ cùng loại kết hợp với
nhau theo quan hệ chính phụ thì từ đứng trước giữ vai trị chính, từ
đứng sau giữ vai trị phụ. Nhờ trật tự kết hợp của từ mà “củ cải”
khác với “cải củ“, “tình cảm” khác với “cảm tình“. Trật tự chủ ngữ
- 31 -
31
đứng trước, vị ngữ đứng sau là trật tự phổ biến của kết cấu câu
tiếng Việt.
o Phương thức hư từ cũng là phương thức ngữ pháp chủ yếu của tiếng
Việt. Nhờ hư từ mà tổ hợp “anh của em” khác với tổ hợp “anh và
em“, “anh vì em“. Hư từ cùng với trật tự từ cho phép tiếng Việt tạo
ra nhiều câu cùng cĩ nội dung thơng báo cơ bản như nhau nhưng
khác nhau về sắc thái biểu cảm.
o Ngồi trật tự từ và hư từ, tiếng Việt cịn sử dụng phương thức ngữ
điệu. Ngữ điệu giữ vai trị trong việc biểu hiện quan hệ cú pháp của
các yếu tố trong câu, nhờ đĩ nhằm đưa ra nội dung muốn thơng
báo. Trên văn bản, ngữ điệu thường được biểu hiện bằng dấu câu.
Chúng ta thử so sánh 2 câu sau để thấy sự khác nhau trong nội dung
thơng báo:
- Đêm hơm qua, cầu gãy.
- Đêm hơm, qua cầu gãy.
Các đặc điểm tiếng Việt sẽ được tiếp tục đề cập ở các phân tích trong mơ
hình các phần tiếp theo.
3.1.2. Bài tốn trích chọn thơng tin văn bản pháp luật tiếng Việt
Như phân tích ở trên, trong hồ sơ vụ án sẽ chứa rất nhiều thơng tin hữu ích.
Trong khuơn khổ luận văn này, tác giả tập trung vào việc xác định những thực
thể quan tâm cĩ trong hồ sơ. Việc xác định các thực thể này là tạo cơ sở cho các
bài tốn hay yêu cầu cao hơn như hệ thống trả lời tự động, thống kê, dự báo…
Bài tốn mà luận văn sẽ giải quyết được phát biểu đơn giản như sau:
Đầu vào: Các hồ sơ vụ án.
Yêu cầu: Xác định các thực thể cĩ trong hồ sơ.
Tuy nhiên, do yêu cầu chính trị và yêu cầu nghiệp vụ, các hồ sơ vụ án là
các tài liệu mật, khơng được sử dụng rộng rãi. Vì lý do đĩ, nên trong khuơn khổ
luận văn này tơi khơng sử dụng hồ sơ vụ án làm dữ liệu, thay vào đĩ tơi sử dụng
các bài báo là các phĩng sự điều tra, ghi chép về các vụ án được đăng tải cơng
khai trên website chính thức của Bộ Cơng an là
3.2. Một mơ hình học máy bán giám sát CRFs trích chọn thơng tin pháp
luật tiếng Việt
3.2.1. Một số phân tích
Bài tốn gán nhãn tên thực thể này bản chất là gán nhãn tên thực thể cho
mỗi từ sau khi được phân tách. Các loại thực thể được xác định trong luận văn
dựa theo các thực thể trong tác vụ CoNLL2003 bao gồm: LOC (Location), PER
- 32 -
32
(Person), ORG (Organization) và MISC (Miscellaneous). Do đĩ, các nhãn thực
thể được sử dụng ở đây là:
- B-TYPE: nhãn đánh dấu từ bắt đầu của nhãn NER
- I-TYPE: nhãn đánh dấu cho từ tiếp theo trong nhãn NER
- O: nhãn đánh dấu cho từ khơng thuộc nhĩm thực thể nào.
(nhãn TYPE sẽ thuộc vào một trong bốn loại thực thể trên)
Ví dụ:
Thủy_thủ O
Nguyễn_Ngọc_Hới B-PER
xã B-LOC
Quảng_Phúc I-LOC
, O
Quảng_Trạch B-LOC
từng O
là O
bộ_đội O
đi O
chiến_trường O
B B-MISC
năm O
1968 O
. O
Để nâng cao kết quả, người ta đưa thêm đặc trưng từ loại nên với mỗi từ
được gán thêm nhãn từ loại POS (Part of Speech). Do đĩ tập dữ liệu huấn luyện
- training và dữ liệu kiểm tra – testing phải được xây dựng theo cùng định dạng:
Mỗi từ nằm trên một dịng; Một dịng trống được thêm vào sau mỗi dấu kết thúc
câu; Mỗi dịng (token) bao gồm các thành phần:
.
3.2.2. Mơ hình đề nghị
Từ những phân tích trên đây, tác giả đề xuất xây dựng mơ hình các bước
trong quá trình nhận dạng thực thể như sau:
Quá trình nhận dạng được chia làm hai giai đoạn như sau:
- 33 -
33
Giai
đoạn
1.
Các
bước
tiền
xử lý
dữ
liệu
Mơ hình CRFs Dữ liệu kiểm tra
Kết quả đánh giá
mơ hình
Mơ hình CRFs với GEC
(được hiệu chỉnh sau mỗi bước)
Dữ liệu cĩ nhãn
và dữ liệu khơng cĩ nhãn
(cập nhật sau mỗi bước học)
Kết thúc học ?
Giai
đoạn
2.
Hoc
bán
giám
sát
CRFs
voi
GEC
Tập các văn bản đầu vào
chứa các đoạn văn
Tập dữ liệu ra với định dạng
Module tách từ Tiếng Việt
Gán nhãn POS
Gán nhãn NER
- 34 -
34
Hình 3/4. Mơ hình đề xuất giải quyết bài tốn
Giai đoạn 1: Tập văn bản dữ liệu cần tiến hành hai bước tiền xử lý tự bán
tự động đĩ là tách từ, gán nhãn từ loại POS (Part Of Speech), gán nhãn thực thể
NER (Named Entities Recognition).
Bước 1: Sử dụng phần mềm tách từ tự động JvnSegmenter của NCS
Nguyễn Cẩm Tú tại trang web . Đây là phần
mềm tách từ tự động dựa trên phương pháp trường điều kiện ngẫu nhiên CRFs
[1], phương pháp này chứng tỏ hiệu lực tốt trong nhiều bài tốn xử lý văn bản,
đặc biệt là các bài tốn trích chọn thơng tin trên Web. Sau bước này ta thu được
tập dữ liệu gồm mỗi từ nằm trên một dịng. Và giữa mỗi câu cĩ một dịng trống.
Bước 2: Tiến hành gán nhãn POS cho mỗi từ. Việc gán nhãn POS tơi cĩ sử
dụng tool vnTagger của tác giả Lê Hồng Phương tại trang web
. Đây là phần mềm gán nhãn từ
loại POS cho tiếng Việt cĩ độ chính xác cao (khoảng 95%), phần mềm được viết
dựa trên phương pháp maximum entropy. Sau đĩ tiến hành kiểm tra nhãn POS
lại một cách thủ cơng.
Bước 3: Tiến hành gán nhãn NER cho mỗi từ một cách thủ cơng. Sau bước
này sẽ thu được tập dữ liệu với định dạng mong muốn.
Giai đoạn 2: Tiến hành nhận dạng tên thực thể bằng Mallet Tool.
Mallet là bộ cơng cụ được xây dựng bởi Andrew McCallum và đồng
nghiệp năm 2002 và ngày càng được cải tiến và nâng cấp phiên bản. Đây là một
bộ cơng cụ với nhiều chức năng xử lý ngơn ngữ tự nhiên như: Phân lớp, phân
cụm, triết lọc thơng tin và những ứng dụng học máy khác. Bộ cơng cụ này được
cơng bố rộng rãi tại website Trong đĩ, Andrew
McCallum và đồng nghiệp xây dựng rất nhiều cơng cụ gán nhãn dữ liệu cho
những ứng dụng như trích chọn tên thực thể. Những thuật tốn gán nhãn bao
gồm: mơ hình Markov ẩn, mơ hình Markov entropy cực đại và mơ hình trường
điều kiện ngẫu nhiên CRFs. Nhĩm phát triển Mallet xây dựng nhiều phương
pháp học máy như học bán giám sát và học cĩ giám sát. Trên cơ sở đĩ, tác giả
đã phát triển thành cơng cụ gán nhãn cho tiếng Việt dựa trên phương pháp học
bán giám sát CRFs theo tiêu chuẩn kỳ vọng tổng quát.
Như phân tích ở 2.2, mơ hình học bán giám sát CRFs này sử dụng tiêu
chuẩn kỳ vọng tổng quát, tác giả tiến hành xây dựng ràng buộc (Constraint) thể
hiện mối quan hệ giữa từ và nhãn. Định dạng tổng quát của tập ràng buộc
Constraint được xác định như sau:
Feature_name label_name = probability label_name = probability …
- 35 -
35
Số xác suất (probability) phải bằng với số nhãn. Các đặc trưng và tên nhãn
phải khớp chính xác với các đặc trưng và tên nhãn trong dữ liệu và bảng mẫu tự
đích (target alphabets).
Do đĩ để xây dựng tập Constraint, cĩ thể làm theo hai cách:
Cách 1: xây dựng thủ cơng, lựa chọn những đặc trưng và xác định xác suất
cĩ thể cho mỗi đặc trưng theo từng nhãn. Việc ước lượng những xác suất này
dựa trên kinh nghiệm chủ quan của người thực hiện.
Cách 2: xây dựng tập Constraint dựa theo phương pháp LDA (Latent
Dirichlet allocation). LDA [BNJ03] là mơ hình xác suất sinh cho những tập dữ
liệu rời rạc, cho phép xác định tập dữ liệu quan sát dựa trên tập dữ liệu khơng
quan sát dựa trên tính tương đồng. Từ đĩ, cho phép xác định xác suất một từ,
một đặc trưng cĩ mặt trong các chủ đề là các nhĩm thực thể cho trước.
Trong khuơn khổ luận văn, tác giả tiến hành xây dựng tập ràng buộc
Constraint theo cả 2 phương pháp. Tiến hành xây dựng một tập các đặc trưng là
các từ thường xuất hiện trong các tài liệu điều tra chia theo các nhĩm thực thể.
Sử dụng phương pháp LDA để xác định ràng buộc về xác suất thuộc về các
nhĩm thực thể khác nhau. Sau đĩ tác giả tiến hành kiểm tra, chỉnh sửa các ràng
buộc một cách thủ cơng nhằm xây dựng được một tập ràng buộc Constraint tốt
nhất.
Do thời gian và kinh nghiệm cĩ hạn, nên tập ràng buộc được xây dựng theo
chủ quan và kiến thức nghiên cứu được của tác giả cĩ thể chưa hồn thiện và sẽ
ảnh hưởng phần nào đến kết quả mơ hình.
Hình 5. Tập các ràng buộc (Constraint file)
- 36 -
36
3.2.3. Lựa chọn thuộc tính
Các thuộc tính được chọn theo mẫu ngữ cảnh từ vựng (kích thước cửa sổ
trượt bằng 5):
Mẫu ngữ cảnh Ý nghĩa
S-2 Âm tiết quan sát tại vị trí -2 so với vị trí hiện tại
S-1 Âm tiết quan sát tại vị trí liền trước so với vị trí hiện tại
S1 Âm tiết quan sát tại vị trí liền sau so với vị trí hiện tại
S2 Âm tiết quan sát tại vị trí +2 so với vị trị hiện tại
S0S1 Âm tiết quan sát tại vị trí hiện tại và vị trí liền sau
S-1S0 Âm tiết quan sát tại vị trí liền trước và vị trí hiện tại
S-2S-1 Âm tiết quan sát tại vị trí -2 và vị trí liền trước
S1S2 Âm tiết quan sát tại vị trí 2 và vị trí liền sau
S-1S0S1 Âm tiết quan sát tại vị trí liền trước, hiện tại và liền sau
S-2S-1S0 Âm tiết quan sát tại vị trí -2, vị trí liền trước và hiện tại
S0S1S2 Âm tiết quan sát tại vị trí 2, vị trí liền sau và hiện tại
Bảng 1. Mẫu ngữ cảnh từ vựng
Các tên thực thể thường được viết hoa ký tự đầu tiên, vì thế ta cĩ thể thêm
thuộc tính viết hoa vào mơ hình. Nếu tất cả các ký tự đều viết hoa thì khả năng
đĩ là tên viết tắt của tổ chức. Đơi khi tên thực thể cĩ thể đi cùng với các ký tự
số. Việc lựa chọn thuộc tính cịn được dựa trên ngữ cảnh phát hiện tên thực thể:
Mẫu ngữ cảnh Ý nghĩa
InitialCap Viết hoa chữ cái đầu
AllCaps Viết hoa tất cả các chữ cái
CapsMix Chữ cái thường và hoa lẫn lộn
SingleDigit Số 1 chữ số
HasDigit Cĩ chứa số
DoubleDigits Số 2 chữ số
Bảng 2. Mẫu ngữ cảnh phát hiện tên thực thể
3.2.4. Cách đánh giá
Cĩ nhiều cách đánh giá độ chính xác của mơ hình, nhưng cách phổ biến
nhất hiện nay là sử dụng các độ đo như độ chính xác (precision), độ hồi tưởng
(recall) và độ đo F1. Độ đo F1 là một chỉ số cân bằng giữa độ chính xác và độ
- 37 -
37
hồi tưởng. Nếu độ chính xác và độ hồi tưởng cao và cân bằng thì độ đo F1 lớn,
cịn độ chính xác và hồi tưởng nhỏ và khơng cân bằng thì độ đo F1 nhỏ. Mục
tiêu của ta là xây dựng mơ hình phân đoạn từ cĩ chỉ số F1 cao.
Độ đo dựa theo từ được tính theo các cơng thức sau:
(3.1)
(3.2)
(3.3)
Trong đĩ: a là số thực thể gán đúng
b là số thực thể mơ hình gán
c là số thực thể do người gán
3.3. Kết luận chương 3
Chương 3 tập trung phân tích bài tốn trích chọn thơng tin trên tập văn bản
pháp luật trên cơ sở phân tích các đặc trưng miền dữ liệu. Từ đĩ đề xuất mơ hình
giải quyết bài tốn bao gồm 2 giai đoạn: Giai đoạn 1 là tiền xử lý dữ liệu và Giai
đoạn 2 là đưa tập dữ liệu và các ràng buộc tự thiết lập vào huấn luyện mơ hình
theo tiêu chuẩn kỳ vọng tổng quát.
b
aecision Pr
c
acall Re
callecision
callecisionmeasureF
Re(Pr
Re*Pr*2
- 38 -
38
CHƯƠNG 4 THỰC NGHIỆM VÀ ĐÁNH GIÁ
4.1. Mơ hình thực nghiệm
4.1.1. Dữ liệu thực nghiệm
Do yêu cầu bảo vệ tài liệu hồ sơ vụ án, nên dữ liệu thực nghiệm được thu thập
từ trang web Trang web này chứa nhiều thơng tin pháp
luật về những vụ án, những tình tiết sự việc vi phạm pháp luật được cơng khai, khá
gần với tài liệu hồ sơ vụ án cần khai thác. Tiến hành thu thập hơn 400 bài viết điều
tra, ghi chép các vụ án về an ninh trật tự, an ninh kinh tế…
Sau khi tiến hành bước tiền xử lý thu được tập dữ liệu huấn luyện training với
hơn 50.000 dịng và tập dữ liệu kiểm tra testing với hơn 30000 dịng.
Tác giả đã xây dựng một tập constraint với hơn 800 ràng buộc về xác suất cĩ
thể cĩ của
4.1.2. Bộ cơng cụ Mallet
Tác giả sử dụng bộ cơng cụ Mallet 2.0.6 phiên bản mới nhất.
Dữ liệu đầu vào cho cơng cụ bao gồm:
- File huấn luyện (training).
- File constraint
- File kiểm tra (testing)
4.2. Thực nghiệm và đánh giá
4.2.1. Mơi trường thực nghiệm
Phần cứng: Máy tính IBM T61, Core 2 Duo, 4.00 GHz, RAM 2GB
Phần mềm: Sử dụng tool Mallet được viết bởi Andrew McCallum và đồng
nghiệp. Ngồi ra cịn sử dụng các cơng cụ JvnSegmenter để tách từ; vnTagger để
gán nhãn POS cho từ.
4.2.2. Mơ tả quy trình thực nghiệm
Tác giả tiến hành 4 thực nghiệm. Để đánh giá mức độ ảnh hưởng của tập dữ
liệu huấn luyện đến kết quả gán nhãn, tác giả tiến hành chia tập dữ liệu huấn luyện
lớn (hơn 50.000 dịng) thành các tập huấn luyện như sau:
- Tập dữ liệu huấn luyện 10%: Lấy 10% dữ liệu của tập dữ liệu huấn
luyện gốc.
- Tập dữ liệu huấn luyện 20%: Lấy 20% dữ liệu của tập dữ liệu huấn
luyện gốc.
- 39 -
39
- Tập dữ liệu huấn luyện 40%: Lấy 40% dữ liệu của tập dữ liệu huấn
luyện gốc.
- Tập dữ liệu huấn luyện 80%: Lấy 80% dữ liệu của tập dữ liệu huấn
luyện gốc.
- Tập dữ liệu huấn luyện 100%: Lấy tồn bộ tập dữ liệu huấn luyện gốc.
Như vậy, tác giả sẽ tiến hành 5 nhĩm thực nghiệm, mỗi nhĩm thực nghiệm sử
dụng một tập dữ liệu huấn luyện phân chia như trên và tiến hành gán nhãn dữ liệu
theo 3 mơ hình: Mơ hình CRFs đơn thuần; Mơ hình bán giám sát CRFs sử dụng
Entropy Regularization và Mơ hình học bán giám sát CRFs theo phương pháp tiêu
chuẩn kỳ vọng tổng quát trên cùng tập dữ liệu huấn luyện và tập dữ liệu kiểm tra.
4.2.3. Kết quả thực nghiệm
Nhĩm thực nghiệm 1: Tiến hành gán nhãn theo 3 mơ hình trên sử dụng tập dữ
liệu huấn luyện 10% và tập dữ liệu kiểm tra.
Bảng 3. Kết quả nhĩm thực nghiệm 1
CRF CRF.ER CRF.GE
Precision Recall F-measure Precision Recall
F-
measure Precision Recall
F-
measure
ORG 0.9883 0.9989 0.9936 0.9442 0.8089 0.8714 0.9330 0.9876 0.9596
PER 0.9205 0.9697 0.9444 0.9180 0.9247 0.9213 0.9116 0.9652 0.9376
LOC 0.9458 0.9751 0.9602 0.9447 0.9161 0.9302 0.9267 0.9789 0.9521
MISC 0.1408 1.0000 0.2469 0.0000 NaN 0.0000 0.0000 NaN 0.0000
OVERALL 0.7489 0.9859 0.7863 0.9290 0.8825 0.9051 0.9044 0.9756 0.9386
- 40 -
40
Hình 6. Kết quả nhĩm thực nghiệm 1
Nhĩm thực nghiệm 2: Tiến hành gán nhãn theo 3 mơ hình trên sử dụng tập dữ
liệu huấn luyện 20% và tập dữ liệu kiểm tra.
CRFs CRFs.ER CRFs.GE
Precision Recall F-measure Precision Recall
F-
measure Precision Recall
F-
measure
ORG 0.9894 0.9852 0.9873 0.8931 0.9045 0.8987 0.97024 0.94027 0.95502
PER 0.9225 0.9875 0.9539 0.9199 0.9313 0.9255 0.91570 0.96532 0.93985
LOC 0.9742 0.9840 0.9791 0.9824 0.9986 0.9905 0.99917 0.99091 0.99502
MISC 0.5070 0.9000 0.6486 1.0000 0.7460 0.1389 0.05634 1.00000 0.10667
OVERALL 0.8483 0.9642 0.8922 0.9354 0.9245 0.9299 0.9403 0.9672 0.9536
Bảng 4. Kết quả nhĩm thực nghiệm 2
Hình 7. Kết quả nhĩm thực nghiệm 2
Nhĩm thực nghiệm 3: Tiến hành gán nhãn theo 3 mơ hình trên sử dụng tập dữ
liệu huấn luyện 40% và tập dữ liệu kiểm tra.
Trong nhĩm thực nghiệm này, tác giả mới chỉ đưa ra được kết quả của việc
gán nhãn theo mơ hình CRFs đơn thuần và mơ hình bán giám sát CRFs sử dụng
Entropy Regularization. Việc gán nhãn theo mơ hình học bán giám sát CRFs theo
- 41 -
41
phương pháp tiêu chuẩn kỳ vọng tổng quát tác giả chưa thực hiện được do việc sử
dụng mơ hình này cần bộ nhớ rất lớn, vượt quá khả năng đáp ứng của máy tính
32bit của tác giả. Nên trong nhĩm thực nghiệm này và 2 nhĩm thực nghiệm sau tác
giả chỉ báo cáo kết quả của 2 mơ hình CRFs đơn thuần và CRFs sử dụng Entropy
Regularization.
CRF CRF.ER
Precision Recall F-measure Precision Recall F-measure
ORG 0.9989 0.9947 0.9968 0.9800 0.9363 0.9577
PER 0.9232 0.9912 0.9560 0.9232 0.9313 0.9272
LOC 0.9867 0.9867 0.9867 0.9918 1.0000 0.9959
MISC 0.8310 0.9833 0.9008 0.9815 0.7910 0.8760
OVERALL 0.9350 0.9890 0.9601 0.9518 0.9483 0.9500
Bảng 5. Kết quả nhĩm thực nghiệm 3
Hình 8. Kết quả nhĩm thực nghiệm 3
Nhĩm thực nghiệm 4: Tiến hành gán nhãn theo 3 mơ hình trên sử dụng tập dữ
liệu huấn luyện 80% và tập dữ liệu kiểm tra.
CRF CRF.ER
Precision Recall F-measure Precision Recall F-measure
ORG 0.9989 0.9958 0.9973 0.9873 0.9873 0.9873
PER 0.9232 0.9453 0.9341 0.9912 0.9912 0.9912
LOC 0.9867 0.9850 0.9858 0.9986 1.0000 0.9993
MISC 0.8310 0.9833 0.9008 0.9828 0.8507 0.9120
OVERALL 0.9350 0.9773 0.9545 0.9927 0.9895 0.9911
- 42 -
42
Bảng 6. Kết quả nhĩm thực nghiệm 4
Hình 9. Kết quả nhĩm thực nghiệm 4
Nhĩm thực nghiệm 5: Tiến hành gán nhãn theo 3 mơ hình trên sử dụng tập dữ
liệu huấn luyện 100% và tập dữ liệu kiểm tra.
CRF CRF.ER
Precision Recall F-measure Precision Recall F-measure
ORG 0.9989 1.0000 0.9995 0.9777 0.9777 0.9777
PER 0.9931 0.9993 0.9962 0.9956 0.9927 0.9941
LOC 1.0000 1.0000 1.0000 0.9973 1.0000 0.9986
MISC 0.9155 0.9559 0.9353 1.0000 0.9254 0.9612
OVERALL 0.9769 0.9888 0.9827 0.9939 0.9911 0.9925
Bảng 7. Kết quả nhĩm thực nghiệm 5
- 43 -
43
Hình 10. Kết quả nhĩm thực nghiệm 5
4.2.4. Đánh giá
Qua 5 nhĩm thực nghiệm trên ta thấy cĩ một số nhận xét như sau:
- Đối với mơ hình CRFs đơn thuần, khi càng tăng kích thước tập dữ liệu huấn
luyện thì độ chính xác càng cao hay hàm F-measure càng cao. Điều này phù hợp
với mơ hình học máy cĩ giám sát. Thậm chí ở nhĩm thực nghiệm thứ 3 kết quả của
mơ hình CRFs đơn thuần cịn nhỉnh hơn so với kết quả của mơ hình CRFs sử dụng
Entropy Regularization.
- Kết quả của 2 mơ hình học máy bán giám sát (Mơ hình CRFs sử dụng
Entropy Regularization và Mơ hình CRFs theo phương pháp tiêu chuẩn kỳ vọng
tổng quát) tốt hơn so với kết quả của mơ hình học máy cĩ giám sát (Mơ hình CRFs
đơn thuần), đặc biệt là với tập dữ liệu huẫn luyện nhỏ.
- Mặc dù Mơ hình học máy bán giám sát CRFs theo phương pháp tiêu chuẩn
kỳ vọng tổng quát mới chỉ thực hiện được ở 2 tập dữ liệu huấn luyện nhỏ (tập dữ
liệu huấn luyện 10% và 20%), nhưng cũng cho thấy mơ hình này cho kết quả tốt
hơn mơ hình học máy bán giám sát CRFs sử dụng Entropy Regularization.
Các kết quả thực nghiệm trên cĩ thể chưa hồn thiện, kết quả cĩ thể bị ảnh
hưởng bởi bản thân dữ liệu thu thập và một số trường hợp nhập nhằng trong tiếng
Việt, nhưng nĩ cũng gĩp phần phản ánh ưu điểm của phương pháp học máy bán
giám sát so với phương pháp học máy cĩ giám sát nĩi chung, đồng thời cũng cho
thấy hiệu quả của mơ hình học máy bán giám sát theo tiêu chuẩn kỳ vọng tổng quát.
4.3. Kết luận chương 4
Tiến hành các thực nghiệm để phân tích đánh giá kết quả đạt được. Ở đây, tác
giả tiến hành năm nhĩm thực nghiệm, mỗi nhĩm thực nghiệm sử dụng một tập dữ
- 44 -
44
liệu huấn luyện được phân chia khác nhau và tiến hành gán nhãn dữ liệu theo 3 mơ
hình: Mơ hình CRFs đơn thuần; Mơ hình bán giám sát CRFs sử dụng Entropy
Regularization và Mơ hình học bán giám sát CRFs theo phương pháp tiêu chuẩn kỳ
vọng tổng quát trên cùng tập dữ liệu huấn luyện và tập dữ liệu kiểm tra. Qua đĩ
đánh giá hiệu quả của các mơ hình nĩi riêng và hiệu quả của các phương pháp học
máy cĩ giám sát và bán giám sát nĩi chung.
- 45 -
45
KẾT LUẬN
Sau một thời gian tìm hiểu và nghiên cứu về bài tốn trích lọc thơng tin và
phương pháp học máy bán giám sát dựa trên mơ hình CRFs theo tiêu chuẩn kỳ
vọng tổng quát, luận văn đã đạt được một số kết quả sau.
- Giới thiệu về mơ hình trường điều kiện ngẫu nhiên CRFs và phương pháp
học máy bán giám sát. CRFs là mơ hình dựa trên xác suất điều kiện, nĩ cĩ
thể tích hợp được các thuộc tính đa dạng của chuỗi dữ liệu quan sát nhằm
hỗ trợ cho quá trình phân lớp. CRFs cĩ nhiều ưu điểm của các mơ hình xác
suất khác đồng thời khắc phục được nhược điểm mà các mơ hình xác suất
khác gặp phải tiêu biểu là vấn đề “label bias”. Phương pháp học máy bán
giám sát là sự kết hợp của 2 phương pháp truyền thống – học máy cĩ giám
sát và học máy khơng cĩ giám sát, là cách học sử dụng thơng tin chứa trong
cả dữ liệu chưa gán nhãn và tập dữ liệ gán nhãn nhằm mở rộng tập các dữ
liệu gán nhãn ban đầu. Trong quá trình học như thế phương pháp sẽ tận
dụng được những thơng tin phong phú của dữ liệu chưa gán nhãn, mà chỉ
yêu cầu một số lượng rất nhỏ các dữ liệu đã gán nhãn.
- Giới thiệu về tiêu chuẩn kỳ vọng tổng quát và áp dụng vào mơ hình CRFs.
Tiêu chuẩn kỳ vọng tổng quát là những điều kiện trong hàm mục tiêu huấn
luyện cho phép gán giá trị cho kỳ vọng mơ hình. Luận văn cùng đề cập đến
cách xây dựng cơng thức, cách cách phân chia tiêu chuẩn kỳ vọng tổng
quát, từ đĩ áp dụng vào mơ hình CRFs thiết lập các thơng số cho mơ hình
theo tiêu chuẩn kỳ vọng tổng quát.
- Đề xuất một mơ hình cho bài tốn trích chọn thơng tin thực thể trên tập văn
bản pháp luật dựa trên phương pháp học máy bán giám sát dựa trên mơ
hình CRFs theo tiêu chuẩn kỳ vọng tổng quát. Đồng thời sử dụng bộ cơng
cụ Mallet được viết bởi Andrew McCallum và đồng nghiệp cho tập dữ liệu
tiếng Việt theo mơ hình đề xuất ở trên trích lọc ra 4 loại thực thể: LOC,
PER, ORG VÀ MISC.
Tuy nhiên, để cĩ được một tập huấn luyện tốt địi hỏi nhiều thời gian và cơng
sức. Trong thời gian cĩ hạn, tác giả mới chỉ xây dựng được tập dữ liệu huấn luyện
và tập ràng buộc dữ liệu vừa phải. Với tập dữ liệu này, khi đưa vào tập dữ liệu kiểm
tra bất kỳ kết quả thu được cịn hạn chế.
Mặc dù, mơ hình này thu được kết quả khả quan ở tập ngơn ngữ tiếng Anh,
nhưng đây là lần đầu tiên mơ hình này được áp dụng cho ngơn ngữ tiếng Việt và do
- 46 -
46
những đặc điểm riêng biệt của tiếng Việt nên luận văn khơng thể tránh khỏi những
thiếu sĩt và hạn chế nhất định. Tơi rất mong nhận được những ý kiến và nhận xét
gĩp ý để luận văn được hồn thiện hơn.
Xử lý ngơn ngữ tự nhiên là một vấn đề phức tạp. Hiện này đã cĩ nhiều cơng cụ
xử lý ngơn ngữ tự nhiên, tuy nhiên hầu hết chúng được áp dụng cho tiếng Anh và
tiếng Pháp. Các đặc thù của các ngơn ngữ là khác nhau nên việc chuyển đổi giữa
các ngơn ngữ cũng gặp rất nhiều khĩ khăn đặc biệt là đối với một ngơn ngữ phong
phú và đa dạng như tiếng Việt. Trong thời gian tới, tác giả sẽ tập trung xây dựng và
hồn thiện bộ dữ liệu huấn luyện và tập các ràng buộc đặc trưng của dữ liệu nhằm
cải thiện độ chính xác của mơ hình.
- 47 -
47
TÀI LIỆU THAM KHẢO
[AG05] M. R. Amini and P. Gallinari. Semi-supervised learning with an imperfect
supervisor. Knowledge and Information Systems, 8(4):385–413, 2005.
[BC01] A. Blum and S. Chawla. Learning from labeled and unlabeled data using
graph mincuts. In Proceedings of the 18th International Conference on
Machine Learning, pages 19–26, Williamston, MA, 2001.
[BC09] Kedar Bellare, Andrew McCallum (2009). Generalized Expectation Criteria
for Bootstrapping Extractors using Record-Text Alignment, The 2009
Conference on Empirical Methods in Natural Language Processing: 131–
140, 2009.
[BLR04] A. Blum, J. Lafferty, M. Rwebangira, and R. Reddy. Semi-supervised
learning using ran-domized mincuts. In Proceedings of the 21st International
Conference on Machine Learning, pages 13–20, Ban, Canada, 2004.
[BM98] A. Blum and T. Mitchell. Combining labeled and unlabeled data with co-
training. In Proceedings of the 11th Annual Conference on Computational
Learning Theory, pages 92–100, Madison, WI, 1998.
[BN04] M. Belkin and P. Niyogi. Semi-supervised learning on Riemannian
manifolds. Machine Learning, 56(1-3):209–239, 2004.
[BNJ03] David M. Blei, Andrew Y.Ng và Michael I.Jordan. Latent Dirichlet
Allocation. University of California, Berkeley, Berkeley, CA 94720. 2003
[BNS05] M. Belkin, P. Niyogi, and V. Sindhwani. On manifold regularization. In
Proceedings of the 10th International Workshop on Artificial Intelligence
and Statistics, pages 17–24, Savannah, Barbados, 2005.
[BNS06] M. Belkin, P. Niyogi, and V. Sindhwani. Manifold regularization: A
geometric framework for learning from labeled and unlabeled examples.
Journal of Machine Learning Research, 7:2399–2434, 2006.
[BS06] U. Brefeld and T. Scheffer. Semi-supervised learning for structured output
variables. In Proceedings of the 23rd International Conference on Machine
Learning, pages 145–152, Pittsburgh, PA, 2006.
[Car10] Andrew Carlson (2010). Coupled Semi-Supervised Learning, PhD Thesis
(CMU-ML-10-104), Carnegie Mellon University, 2010.
- 48 -
48
[CMD07] Andrew McCallum, Gideon Mann, Gregory Druck (2007). Generalized
Expectation Criteria, Technical Report UM-CS-2007-60, University of
Massachusetts Amherst, August, 2007
[CZ05] O. Chapelle and A. Zien. Semi-supervised learning by low density
separation. In proceedings of the 10th International Workshop on Artificial
Intelligence and Statistics, pages 57–64. Savannah Hotel, Barbados, 2005.
[DLR77] A. P. Dempster, N. M. Laird, and D. B. Rubin. Maximum likelihood from
incomplete data via the EM algorithm. Journal of the Royal Statistical
Society, Series B, 39(1):1–38, 1977.
[DMC07] Gregory Druck, Gideon Mann, Andrew McCallum (2007). Leveraging
Existing Resources using Generalized Expectation Criteria, NIPS WS, 2007.
[DMC08] Gregory Druck, Gideon Mann and Andrew McCallum (2008). Learning
from Labeled Features using Generalized Expectation Criteria, SIGIR 08,
2008.
[DMC09] Gregory Druck, Gideon Mann, Andrew McCallum (2009). Semi-supervised
Learning of Dependency Parsers using Generalized Expectation Criteria,
The 47th Annual Meeting of the ACL and the 4th IJCNLP of the AFNLP:
360–368.
[Erk10] Ayse Naz Erkan (2010). Semi-supervised Learning via Generalized
Maximum Entropy, PhD Thesis, New York University, 2010.
[FUS05] A. Fujino, N. Ueda, and K. Saito. A hybrid generative/discriminative
approach to semi-supervised classifier design. In Proceedings of the 20th
National Conference on Artificial Intelligence, pages 764–769, Pittsburgh,
PA, 2005.
[GB04] Y.Grandvaletand, Y.Bengio. Semi-supervised learning by entropy
minimization. In Advances in Neural Information Processing Systems, 2004.
[GY05] Y. Grandvalet and Y. Bengio. Semi-supervised learning by entropy
minimization. In L. K. Saul, Y.Weiss, and L. Bottou, editors, Advances in
Neural Information Processing Systems 17, pages 529–536. MIT Press,
Cambridge, MA, 2005.
[GZ00] S. Goldman and Y. Zhou. Enhancing supervised learning with unlabeled
data. In Proceedings of the 17th International Conference on Machine
Learning, pages 327–334, San Francisco, CA, 2000.
[HC71] J.Hammersley and P. Clifford (1971). Markov fields on finite graphs and
lattices. Unpublished manuscript.
[HM07] M. Hein and M. Maier. Manifold denoising. In B. Sch¨olkopf, J. C. Platt,
and T. Ho man, editors, Advances in Neural Information Processing
Systems 19, pages 561–568. MIT Press, Cambridge, MA, 2007.
- 49 -
49
[Joa99] T. Joachims. Transductive inference for text classification using support
vector machines. In Proceedings of the 16th International Conference on
Machine Learning, pages 200–209, Bled, Slovenia, 1999
[JWL06] Feng Jiao, Shaojun Wang, Chi-Hoon Lee, Russell Greiner, Dale
Schuurmans (2006). Semi-supervised conditional random fields for
improved sequence segmentation and labeling, The 21st International
Conference on Computational Linguistics and the 44th annual meeting of
the Association for Computational Linguistics: 209-216, 2006.
[KL51] S. Kullback and R. A. Leibler. On Information and Sufficiency. Annuals of
Mathematical Statistics 22 (1): pages 79–86, 1951.
[KQ10] Pavel P. Kuksa, Yanjun Qi (2010). Semi-Supervised Bio-Named Entity
Recognition with Word-Codebook Learning, SDM 2010: 25-36, 2010.
[Kul59] S. Kullback. Information theory and statistics. John Wiley and Sons, NY,
1959.
[LCP01] John Laferty, Andrew McCallum, Fernando Pereira. Conditional Random
Fields: Probabilistic Models for segmenting and labeling Sequence Data. In
Proc. of the Eighteenth International Conference on Machine Learning
(ICML-2001), 2001.
[LJ05] N. D. Lawrence and M. I. Jordan. Semi-supervised learning via Gaussian
processes. In L. K. Saul, Y. Weiss, and L. Bottou, editors, Advances in
Neural Information Processing Systems 17, pages 753–760. MIT Press,
Cambridge, MA, 2005.
[Mal02] Robert Malouf. “A comparison of algorithms for maximum entropy
parameter estimation.” In Proceedings of the Sixth Conference on Natural
Language Learning (CoNLL-2002). Pages 49–55.
[MC08] Gideon S. Mann, Andrew McCallum (2008). Generalized Expectation
Criteria for Semi-Supervised Learning of Conditional Random Fields, ACL-
08 (HLT): 870–878, 2008.
[MC10] Gideon S. Mann, Andrew McCallum (2010). Generalized Expectation
Criteria for Semi-Supervised Learning with Weakly Labeled Data, Journal
of Machine Learning Research, 11 (2010): 955-984
[MGZ04] Scott Miller, Jethran Guinness, Alex Zamanian (2004). Name Tagging with
Word Clusters and Discriminative Training, ACL 04, 2004.
[MMI02] Masaki Murata, Qing Ma, Hitoshi Isahara. Comparison of Three Machine-
Learning Methods for Thai Part-of-Speech Tagging. In Proc. ACM
Transactions on Asian Language Information Processing, Vol. 1, No. 2, June
2002, Pages 145-158.
[MU97] D. J. Miller and H. S. Uyar. A mixture of experts classifier with learning
based on both labelled and unlabelled data. In M. Mozer, M. I. Jordan, and
- 50 -
50
T. Petsche, editors, Advances in Neural Information Processing Systems 9,
pages 571–577. MIT Press, Cambridge, MA, 1997.
[NCT00] K.Nigam, A. K. McCallum, S. Thrun, and T. Mitchell. Text classification
from labeled and unlabeled documents using EM. Machine Learning, 39(2-
3):103–134, 2000.
[NG00] K. Nigam and R. Ghani. Analyzing the effectiveness and applicability of co-
training. In Proceedings of the 9th ACM International Conference on
Information and Knowledge Management, pages 86–93, Washington, DC,
2000.
[QKC09] Yanjun Qi, Pavel Kuksa, Ronan Collobert, Kunihiko Sadamasa, Koray
Kavukcuoglu, and Jason Weston (2009). Semi-Supervised Sequence
Labeling with Self-Learned Features, The 2009 Ninth IEEE International
Conference on Data Mining: 428-437, 2009.
[SL94] B. Shahshahani and D. Landgrebe. The effect of unlabeled samples in
reducing the small sample size problem and mitigating the hughes
phenomenon. IEEE Transactions on Geo-science and Remote Sensing,
32(5):1087–1095, 1994.
[Spr07] Richard Sproat. Introduction to Speech Technology (Language Models,
HMMs, Forward Algorithm, Viterbi Algorithm…) Slide. Department of
Electrical and Computer Engineering, University of Illinois at Urbana-
Champaign. ECE 398RS Courses, Fall 2007.
[Wal02] Hanna M. Wallach. Efficient Training of Conditional Random Fields.
Technical Report, University of Edinburgh, 2002
[Wal04] Hanna M.Wallach. Conditional Random Fields: An introduction. Technical
Report MS-CIS-04-21, Department of Computer and Information Science,
University of Pennsylvania. February 24, 2004.
[WHW09] Yang Wang, Gholamreza Haffari, Shaojun Wang, Greg Mori (2009). A Rate
Distortion Approach for Semi-Supervised Conditional Random Fields,
NIPS2009, 2009.
[ZBL04] D. Zhou, O. Bousquet, T. N. Lal, J. Weston, and B. Sch¨olkopf. Learning
with local and global consistency. In S. Thrun, L. Saul, and B. Sch¨olkopf,
- 51 -
51
editors, Advances in Neural Information Processing Systems 16. MIT Press,
Cambridge, MA, 2004.
[ZC06] Z.-H. Zhou, K.-J. Chen, and H.-B. Dai. Enhancing relevance feedback in
image retrieval using unlabeled data. ACM Transactions on Information
Systems, 24(2):219–244, 2006.
[ZGL03] X. Zhu, Z. Ghahramani, and J. Lafferty. Semi-supervised learning using
Gaussian fields and harmonic functions. In Proceedings of the 20th
International Conference on Machine Learning, pages 912–919,
Washington, DC, 2003.
[Zho08] Z. H. Zhou. Semi-supervised learning by disagreement. In Proceedings of
the 4th IEEE International Conference on Granular Computing, Hangzhou,
China, 2008.
[ZL05] Z. H. Zhou and M. Li. Tri-training: Exploiting unlabeled data using three
classifiers. IEEE Transactions on Knowledge and Data Engineering,
17(11):1529–1541, 2005.
[ZL07] Z. H. Zhou and M. Li. Semi-supervised regression with co-training style
algorithms. IEEE Transactions on Knowledge and Data Engineering,
19(11):1479–1493, 2007.
[ZL07b] X. Zhang and W. S. Lee. Hyperparameter learning for graph based semi-
supervised learning algorithms. In B. Sch¨olkopf, J. Platt, and T. Hofmann,
editors, Advances in Neural Information Processing Systems 19, pages
1585–1592. MIT Press, Cambridge, MA, 2007.
[ZL10] Zhi-Hua Zhou and Ming Li. Semi-supervised Learning by Disagreement.
National Key Laboratory for Novel Software Technology Nanjing
University, Nanjing 210093, China. 2010.
[ZZY07] Z.-H. Zhou, D.-C. Zhan, and Q. Yang. Semi-supervised learning with very
few labeled training examples. In Proceedings of the 22nd AAAI
Conference on Artificial Intelligence, pages 675–680, Vancouver, Canada,
2007.
Các file đính kèm theo tài liệu này:
- LUẬN VĂN-TRÍCH CHỌN THÔNG TIN TRÊN TẬP VĂN BẢN PHÁP LUẬT DÙNG KỸ THUẬT HỌC MÁY BÁN GIÁM SÁT DỰA TRÊN MÔ HÌNH CRFs THEO TIÊU CHUẨN KỲ VỌNG TỔNG QUÁT.pdf