Tài liệu Khóa luận Nghiên cứu bài toán xác định collocation trong Tiếng Việt: Fn H ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ
Phạm Thị Ngọc Bích
NGHIÊN CỨU BÀI TOÁN XÁC ĐỊNH
COLLOCATION TRONG TIẾNG VIỆT
KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY
Ngành: Công nghệ thông tin
HÀ NỘI - 2009
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ
Phạm Thị Ngọc Bích
NGHIÊN CỨU BÀI TOÁN XÁC ĐỊNH
COLLOCATION TRONG TIẾNG VIỆT
KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY
Ngành: Công nghệ thông tin
Cán bộ hƣớng dẫn: Th.S Trần Thị Oanh
Cán bộ đồng hƣớng dẫn: CN. Nguyễn Minh Tuấn
HÀ NỘI - 2009
Lời cảm ơn
Trƣớc hết, tôi xin gửi lời cảm ơn và lòng biết ơn sâu sắc nhất tới Phó Giáo sƣ Tiến
sỹ Hà Quang Thụy, Thạc sỹ Trần Thị Oanh và Cử nhân Nguyễn Minh Tuấn, những ngƣời
đã tận tình quan tâm, chỉ bảo và hƣớng dẫn tôi trong suốt quá trình thực hiện Khóa luận
tốt nghiệp.
Tôi xin chân thành cảm ơn các thầy cô đã tạo cho tôi những điều kiện thuận lợi để
học tập và nghiên cứu tại Trƣờng Đại học Công nghệ.
Tôi cũng xin gửi lời cảm ơn tới các ...
63 trang |
Chia sẻ: haohao | Lượt xem: 1327 | Lượt tải: 0
Bạn đang xem trước 20 trang mẫu tài liệu Khóa luận Nghiên cứu bài toán xác định collocation trong Tiếng Việt, để tải tài liệu gốc về máy bạn click vào nút DOWNLOAD ở trên
Fn H ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ
Phạm Thị Ngọc Bích
NGHIÊN CỨU BÀI TOÁN XÁC ĐỊNH
COLLOCATION TRONG TIẾNG VIỆT
KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY
Ngành: Công nghệ thông tin
HÀ NỘI - 2009
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ
Phạm Thị Ngọc Bích
NGHIÊN CỨU BÀI TOÁN XÁC ĐỊNH
COLLOCATION TRONG TIẾNG VIỆT
KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY
Ngành: Công nghệ thông tin
Cán bộ hƣớng dẫn: Th.S Trần Thị Oanh
Cán bộ đồng hƣớng dẫn: CN. Nguyễn Minh Tuấn
HÀ NỘI - 2009
Lời cảm ơn
Trƣớc hết, tôi xin gửi lời cảm ơn và lòng biết ơn sâu sắc nhất tới Phó Giáo sƣ Tiến
sỹ Hà Quang Thụy, Thạc sỹ Trần Thị Oanh và Cử nhân Nguyễn Minh Tuấn, những ngƣời
đã tận tình quan tâm, chỉ bảo và hƣớng dẫn tôi trong suốt quá trình thực hiện Khóa luận
tốt nghiệp.
Tôi xin chân thành cảm ơn các thầy cô đã tạo cho tôi những điều kiện thuận lợi để
học tập và nghiên cứu tại Trƣờng Đại học Công nghệ.
Tôi cũng xin gửi lời cảm ơn tới các anh chị trong SIS Lab đã tận tình giúp đỡ, hỗ trợ
cho tôi về kiến thức chuyên môn.
Cuối cùng, tôi muốn gửi lời cảm ơn tới gia đình, bạn bè, những ngƣời thân yêu luôn
bên cạnh động viên, là nguồn cổ vũ để tôi hoàn thành Khóa luận tốt nghiệp.
Tôi xin chân thành cảm ơn!
Sinh viên
Phạm Thị Ngọc Bích
Tóm tắt nội dung
Collocation là những cụm từ (gồm hai hay nhiều từ) thƣờng đƣợc sử dụng với nhau.
Bài toán xác định collocation trong một kho ngữ liệu đã và đang nhận đƣợc nhiều sự quan
tâm, nghiên cứu của các nhà khoa học trên thế giới. Có rất nhiều phƣơng pháp để giải
quyết bài toán này, song hiện nay, các phƣơng pháp thống kê đang đƣợc sử dụng phổ biến
bởi những ngƣời làm trong lĩnh vực Xử lý ngôn ngữ tự nhiên.
Khóa luận tốt nghiệp với đề tài “Nghiên cứu bài toán xác định collocation trong
Tiếng Việt” tập trung nghiên cứu một số phƣơng pháp thống kê điển hình (Tần suất, Kỳ
vọng và phƣơng sai, Kiểm thử t, Kiểm thử khi-bình phƣơng, Tỷ lệ likehood, Thông tin
tƣơng hỗ) để trích chọn collocation. Khóa luận đã tiến hành thử nghiệm xác định
collocation tiếng Việt cho kết quả tƣơng ứng với các phƣơng pháp kiểm thử thống kê nói
trên. Thông qua kết quả thử nghiệm, Khóa luận nhận thấy phƣơng pháp Kiểm thử khi-
bình phƣơng phù hợp nhất để xác định collocation trong tiếng Việt.
Mục lục
Lời mở đầu ............................................................................................................... 1
Chƣơng 1. TỔNG QUAN VỀ BÀI TOÁN XÁC ĐỊNH COLLOCATION ............... 3
1.1. Khái niệm collocation ................................................................................ 3
1.1.1. Định nghĩa collocation ....................................................................... 3
1.1.2. Đặc trƣng của collocation .................................................................. 4
1.2. Collocation trong các ứng dụng Xử lý ngôn ngữ tự nhiên .......................... 4
Chƣơng 2. CÁC PHƢƠNG PHÁP XÁC ĐỊNH COLLOCATION ........................... 6
2.1. Phƣơng pháp Tần suất (Frequency) ............................................................ 7
2.2. Phƣơng pháp Kỳ vọng và Phƣơng sai (Mean & Variance) ....................... 11
2.3. Kiểm thử Giả thuyết (Hypothesis testing) ................................................ 16
2.3.1. Kiểm thử t (t test) ............................................................................. 17
2.3.2. Kiểm thử Giả thuyết để đo sự khác biệt giữa hai tập hợp (Hypothesis
testing of differences)....................................................................... 19
2.4. Kiểm thử khi-bình phƣơng (Pearson’s chi-square test) ............................ 21
2.5. Các tỉ lệ likelihood (Likelihood ratios) ..................................................... 26
2.5.1. Tỉ lệ likelihood (Likelihood ratio) .................................................... 26
2.5.2. Các tỉ lệ tần suất tƣơng đối (Relative Frequency Ratios) .................. 29
2.6. Thông tin tƣơng hỗ MI (Mutual information) ........................................... 30
Chƣơng 3. COLLOCATION TRONG TIẾNG VIỆT ............................................. 36
3.1. Đặc điểm từ vựng Tiếng Việt ................................................................... 36
3.1.1. Đơn vị cấu tạo từ ............................................................................ 36
3.1.2. Phƣơng thức cấu tạo từ ................................................................... 36
3.1.3. Biến thể của từ ................................................................................ 37
3.1.4. Những quá trình diễn ra trong sự phát triển từ vựng Tiếng Việt ...... 38
3.2. Khái niệm collocation trong Tiếng Việt ................................................... 40
3.3. Bài toán xác định collocation trong Tiếng Việt ........................................ 41
Chƣơng 4. THỰC NGHIỆM VÀ ĐÁNH GIÁ ........................................................ 44
4.1. Dữ liệu thực nghiệm ................................................................................ 44
4.1.1. Chuẩn bị dữ liệu ............................................................................... 44
4.1.2. Tiền xử lý dữ liệu ............................................................................. 44
4.2. Thiết kế thực nghiệm ............................................................................... 45
4.2.1. Phƣơng pháp thực nghiệm........................................................................ 45
4.3. Kết quả thực nghiệm và đánh giá kết quả ................................................. 46
Kết luận .................................................................................................................. 49
Tài liệu tham khảo .................................................................................................. 50
Tài liệu Tiếng Việt ............................................................................................. 50
Tài liệu Tiếng Anh ............................................................................................. 50
Phụ lục ................................................................................................................... 53
1. Bảng phân phối t ...................................................................................... 53
2. Bảng phân phối .................................................................................. 54
Danh sách các bảng
Bảng 1. Tìm kiếm collocation dựa vào tần suất. ............................................................. 7
Bảng 2. Các mẫu từ loại dùng cho việc lọc collocation. ................................................. 8
Bảng 3. Tìm kiếm collocation: bộ lọc từ loại của Justeson và Katz. ............................... 9
Bảng 4. Các danh từ w xuất hiện thƣờng xuyên nhất trong các mẫu strong w và
powerful w ...................................................................................................... 10
Bảng 5. Tìm kiếm collocation dựa vào Kỳ vọng và phƣơng sai.................................... 15
Bảng 6. Xếp hạng 10 bigram xuất hiện với cùng tần suất là 20 với Kiểm thử t............. 19
Bảng 7. Kiểm thử giả thuyết để đo sự khác biệt giữa hai tập hợp: các từ xuất hiện có ý
nghĩa với powerful và strong. ......................................................................... 20
Bảng 8. Bảng 2x2 chỉ ra sự phụ thuộc của sự xuất hiện new và companies. ................. 22
Bảng 9. Tƣơng ứng của vache và cow trong hai kho ngữ liệu đã sắp xếp tƣơng ứng. ... 25
Bảng 10. Phép thử cho sự độc lập của các từ trong các kho ngữ liệu khác nhau, sử dụng
. .................................................................................................................. 25
Bảng 11. Cách tính toán giá trị likelihood của Dunning. ................................................ 27
Bảng 12. Các bigram có chứa powerful với hạng cao nhất theo phép thử likelihood ratio
của Dunning. .................................................................................................. 28
Bảng 13. Phép thử tỉ lệ tần suất của Damerau. ............................................................... 30
Bảng 14. Tìm kiếm collocation dựa vào thông tin tƣơng hỗ. .......................................... 31
Bảng 15. Sự phù hợp của chambre và house, communes và house trong kho ngữ liệu. .. 32
Bảng 16. Thông tin tƣơng hỗ từ các dữ liệu rải rác. ....................................................... 33
Bảng 17. Các định nghĩa khác nhau về thông tin tƣơng hỗ. ............................................ 35
Bảng 18. Các collocation có giá trị khi-bình phƣơng cao nhất ....................................... 43
Bảng 19. Cấu hình phần cứng sử dụng trong thực nghiệm ............................................. 45
Bảng 20. Giá trị ngƣỡng cho các phƣơng pháp xác định collocation .............................. 46
Bảng 21. Đánh giá độ chính xác của các phƣơng pháp xác định collocation .................. 47
Bảng 22. Một số collocation thu đƣợc từ thực nghiệm ................................................... 48
Danh sách các hình
Hình 1. Sử dụng cửa sổ collocation 3 từ để lấy đƣợc các bigram ở một khoảng cách. .. 12
Hình 2. Biểu đồ tần suất biểu diễn vị trí tƣơng đối của strong với các “từ trung tâm”:
opposition, support, for. .................................................................................. 14
Hình 3. Phân loại cụm từ cố định Tiếng Việt. .............................................................. 41
1
Lời mở đầu
Collocation có ích trong nhiều ứng dụng Xử lý ngôn ngữ tự nhiên, ví dụ nhƣ sinh
ngôn ngữ tự nhiên, dịch tự động, tóm tắt văn bản và xây dựng từ điển... [17] Chính vì tầm
quan trọng của collocation, nên ngƣời ta đặt ra một vấn đề là làm thế nào để xác định các
collocation trong kho ngữ liệu.
Có nhiều phƣơng pháp để giải quyết bài toán xác định collocation, trong đó có
phƣơng pháp xác định dựa vào thống kê. Phƣơng pháp thống kê sử dụng các kỹ thuật toán
học khác nhau và các kho ngữ liệu lớn để mở rộng xấp xỉ các mô hình suy rộng về hiện
tƣợng ngôn ngữ, dựa trên các ví dụ thực tế về các hiện tƣợng ngôn ngữ đƣợc cung cấp bởi
kho ngữ liệu mà không bổ sung vào các thành phần tri thức khác.
Khóa luận với đề tài “Nghiên cứu bài toán xác định collocation trong Tiếng Việt”
tập trung nghiên cứu về collocation, các phƣơng pháp xác định collocation từ các ngôn
ngữ khác nhau và lựa chọn phƣơng pháp, thi hành chƣơng trình thực nghiệm để kiểm
chứng tính khả thi của chúng trên kho ngữ liệu Tiếng Việt.
Khóa luận gồm bốn chƣơng, nội dung đƣợc mô tả sơ bộ nhƣ sau:
Chƣơng 1. Tổng quan về bài toán xác định collocation giới thiệu khái niệm
collocation, đặc trƣng của collocation. Chƣơng này cũng nêu lên tầm quan
trọng cũng nhƣ ứng dụng của collocation trong lĩnh vực Xử lý ngôn ngữ tự
nhiên.
Chƣơng 2. Các phương pháp xác định collocation phân tích các phƣơng pháp
thống kê đang đƣợc sử dụng phổ biến để xác định collocation, một số đánh
giá ƣu nhƣợc điểm cũng nhƣ mức độ phù hợp của từng phƣơng pháp đối
với mỗi loại collocation và dữ liệu khác nhau.
Chƣơng 3. Collocation trong Tiếng Việt trình bày đặc điểm của Tiếng Việt,
khái niệm collocation trong Tiếng Việt và phát biểu Bài toán xác định
collocation trong Tiếng Việt.
Chƣơng 4. Thực nghiệm và đánh giá trình bày nội dung thử nghiệm sử dụng
các phƣơng pháp Tần suất (Frequency), Kiểm thử t (t test), Kiểm thử khi-
bình phương (chi-square test), Tỉ lệ likelihood (Likelihood ratio), và Thông
2
tin tương hỗ (Mutual information) để xác định collocation trong tập văn bản
Tiếng Việt. Qua đó, Khóa luận cũng đánh giá mức độ phù hợp của các
phƣơng pháp đó trong Tiếng Việt.
Phần kết luận tổng kết và tóm lƣợc nội dung chính của khóa luận.
3
Chƣơng 1. TỔNG QUAN VỀ BÀI TOÁN XÁC ĐỊNH
COLLOCATION
1.1. Khái niệm collocation
1.1.1. Định nghĩa collocation
Ngôn ngữ tự nhiên là một hệ thống giao tiếp mở và rất mềm dẻo. Con ngƣời thƣờng
tự do truyền đạt nội dung họ muốn bằng những dạng ngôn ngữ khác nhau (nói, viết) và
bằng những thứ ngôn ngữ khác nhau. Mỗi thứ tiếng trên thế giới đều có những đặc trƣng
riêng về ngôn ngữ và những cách dùng từ cũng nhƣ kết hợp từ khác nhau. Cách kết hợp
từ hay cách dùng từ là những cách nhìn khái quát nhất về khái niệm collocation.
Collocation rất phổ biến trong ngôn ngữ tự nhiên và đƣợc gặp trong mọi tài liệu
chuyên hoặc không chuyên. Khái niệm collocation là một khái niệm khó hiểu đối với
những ngƣời không chuyên về ngôn ngữ học. Có rất nhiều cách khác nhau để định nghĩa
collocation, tuy nhiên chƣa có một định nghĩa thật đầy đủ và chính xác, đặc biệt là khi
không có một ranh giới rõ ràng phân biệt giữa collocation và các cụm từ đƣợc kết hợp
ngẫu nhiên (cụm từ tự do) [17].
Một số tác giả trong lĩnh vực văn học và thống kê định nghĩa collocation nhƣ một
cụm từ gồm hai hay nhiều từ thƣờng xuyên cùng xuất hiện theo một thói quen đặc biệt. Ví
dụ, Choueka đã đƣa ra định nghĩa “Collocation là một chuỗi hai hay nhiều từ liên tiếp
nhau, có các đặc trƣng về cú pháp và ngữ nghĩa, và ý nghĩa của nó không thể đƣợc rút ra
từ nghĩa của các thành phần cấu tạo nên nó” hay cũng vậy “Collocation có thể đƣợc hiểu
là sự kết hợp các từ (hoặc các nhóm từ) thƣờng xuyên đƣợc sử dụng cùng với nhau theo
cách nói thông thƣờng” [20].
Theo Firth [17], collocation là sự sắp xếp từ theo thói quen hoặc theo phong tục (the
habitual or customary places of the word).
Benson và Morton [17] định nghĩa collocation là: sự kết hợp từ tùy ý và thƣờng tái
diễn (an arbitrary and recurrent word combination).
Theo Lin [19], collocation đƣợc định nghĩa là sự kết hợp từ theo thói quen.
4
Kết hợp các định nghĩa của nhiều nhà khoa học, có thể đƣa ra một định nghĩa chung
nhất về collocation nhƣ sau.
Định nghĩa: Collocation là một cụm từ gồm hai hay nhiều từ trở lên thƣờng đi liền
với nhau theo một trật tự nhất định (theo cách nói của ngƣời bản xứ).
1.1.2. Đặc trƣng của collocation
Smadja [24] đƣa ra bốn đặc trƣng của collocation có ích trong các ứng dụng Xử lý
ngôn ngữ tự nhiên.
a. Tính “độc đoán” (Arbitrary): điều này có nghĩa là không chấp nhận bất
kỳ một sự biến thể nào về cú pháp hoặc ngữ nghĩa đối với collocation.
b. Tính “phụ thuộc lĩnh vực” (Domain-dependent): việc xử lý văn bản
trong một lĩnh vực đòi hỏi sự hiểu biết về các thuật ngữ có liên quan và
các collocation trong lĩnh vực đó.
c. Tính “lặp lại” (Recurrent): các collocation là sự kết hợp từ đƣợc lặp lại
thƣờng xuyên trong ngữ cảnh xác định.
d. Tính “cụm từ cố kết” (Cohesive lexical cluster): đặc trƣng này đƣợc hiểu
nhƣ là sự xuất hiện của một hay một vài từ thƣờng bao hàm sự xuất hiện
của một collocation chứa nó.
1.2. Collocation trong các ứng dụng Xử lý ngôn ngữ tự nhiên
Collocation có ích trong nhiều ứng dụng Xử lý ngôn ngữ tự nhiên, ví dụ nhƣ sinh
ngôn ngữ tự nhiên, dịch máy, tóm tắt văn bản và xây dựng từ điển... Chính vì tầm quan
trọng của collocation, nên ngƣời ta đặt ra một vấn đề là làm thế nào để xác định
collocation.
Bài toán xác định collocation (hay còn gọi là Bài toán trích chọn collocation –
Collocation extraction) đƣợc phát biểu nhƣ sau “Xác định collocation là việc sử dụng
máy tính để trích chọn ra các collocation một cách tự động từ một kho ngữ liệu (copus)”.
Howarth và Nasi [16] cho rằng hầu hết trong các đoạn văn bản đều có chứa ít nhất
một collocation.
5
Sinh ngôn ngữ tự nhiên (Natural language generation) là việc tạo câu hoặc văn bản
từ một trình diễn phi ngôn ngữ. Có thể nhìn nhận việc phân tích ngôn ngữ là dịch từ ngôn
ngữ tự nhiên sang một kiểu trình diễn có ý nghĩa khác. Vì vậy, cần xem xét việc sinh
ngôn ngữ (language generation) nhƣ là phép dịch ngƣợc lại từ một trình diễn có ý nghĩa
sang ngôn ngữ tự nhiên. Việc phân tích một bài luận khó hơn việc phân tích các câu riêng
lẻ, việc sinh ra văn bản cũng khó hơn nhiều việc sinh ra chuỗi các câu độc lập. Để có một
văn bản dễ hiểu, phải dựa vào các nguyên tắc sắp xếp từ và câu theo đặc trƣng riêng của
mỗi loại ngôn ngữ [22].
Dịch tự động (Machine translation) đƣợc xem nhƣ là một trong những công việc khó
khăn nhất trong xử lý ngôn ngữ tự nhiên, và trong trí tuệ nhân tạo. Việc dịch đúng dƣờng
nhƣ là không thể nếu không có những hiểu biết về văn bản. Theo Gitsaki [14], một
collocation trong ngôn ngữ này khác với chính nó trong ngôn ngữ khác, vì thế việc dịch
collocation là một việc không dễ.
Thông tin về collocation cũng là chủ yếu trong các công việc tóm tắt văn bản (Text
simplification task). Điều này đòi hỏi phải có những kỹ thuật để thay thế các từ khó bởi
những từ đơn giản hơn. Không có hiểu biết về collocation và các ràng buộc liên quan thì
có thể dẫn đến những văn bản không dùng đƣợc.
Collocation cũng quan trọng trong lĩnh vực xây dựng từ điển (Computational
lexicography). Chúng đƣợc sử dụng để mô tả một cách đầy đủ các mục từ vựng. Theo
Richardson “đối với một phân tích từ điển chi tiết, chỉ các collocation có mặt trong từ
điển mới cung cấp thêm các đặc điểm biểu diễn trực tiếp các mối quan hệ ngữ nghĩa trong
các mục từ” [17].
Smith [25] xem xét các collocation để tìm ra các sự kiện liên quan đến thông tin
ngày tháng và địa điểm trong văn bản không có cấu trúc.
6
Chƣơng 2. CÁC PHƢƠNG PHÁP XÁC ĐỊNH
COLLOCATION
Những năm gần đây, các phƣơng pháp thống kê đƣợc sử dụng nhiều để giải quyết
các bài toán về ngôn ngữ tự nhiên, trong đó có Bài toán xác định collocation [20]. Trong
ngôn ngữ học, có sự khác biệt lớn giữa các phép đo về sự kết hợp từ vựng đƣợc sử dụng
trong việc phát hiện và trích ra (bán tự động) các collocation. Có 3 nhóm số đo sau [16]:
a. Các số đo dựa vào tần suất (dựa hoàn toàn vào tần suất của sự đồng xuất hiện
các từ).
b. Các số đo dựa vào thông tin lý thuyết: ví dụ, thông tin tƣơng hỗ MI (mutual
information), entropy.
c. Các số đo dựa vào thống kê: ví dụ, chi-square ( ), t-test, log-likelihood, hệ số
Dice.
Các độ đo trên cùng những tính chất toán học (Dunning, 1993; Manning & Schütze,
1999) [13][20] và sự phù hợp của chúng trong việc xác định collocation (Krenn & Evert,
2001) [18] đã đƣợc thảo luận rộng rãi trong lĩnh vực ngôn ngữ học. Độ đo đƣợc lựa chọn
sẽ gán cho mỗi cặp từ một điểm số để đánh giá sự kết hợp từ. Điểm số này đƣợc tính toán
dựa nhiều vào tần suất xuất hiện từ.
Trong khi các số đo về sự kết hợp có giá trị thống kê trong việc phát hiện
collocation, cần chú ý rằng có vài công việc cần làm với các đặc trƣng của ngôn ngữ. Vì
thế, việc nghiên cứu, lựa chọn, tiến hành một phép đo phải đƣợc kết hợp chặt chẽ với các
tiêu chuẩn về ngôn ngữ trong việc phát hiện collocation.
Chƣơng này sẽ trình bày một số phƣơng pháp thống kê để xác định collocation, đó
là: Frequency – tần suất, Mean and variance - dựa vào Kỳ vọng và phƣơng sai của
khoảng cách giữa từ trung tâm và việc sắp xếp từ, Hypothesis testing – kiểm thử Giả
thuyết, Likelihood ratio – Tỷ lệ likelihood, và Mutual information – thông tin tƣơng hỗ.
Kho ngữ liệu (corpus) đƣợc sử dụng trong các ví dụ minh họa là các ấn phẩm của tờ
New York Times (từ tháng 8 đến tháng 11 năm 1990). Kho ngữ liệu này có 115 MB dữ
liệu văn bản và khoảng 14 triệu từ. Thông thƣờng, cả những cụm từ cố định hay không cố
định đều có thể là collocation [20].
7
2.1. Phƣơng pháp Tần suất (Frequency)
Phƣơng pháp đơn giản nhất để tìm kiếm collocation trong một tập văn bản là đếm số
lần xuất hiện các từ. Nếu hai từ cùng xuất hiện với nhau nhiều, thì đó là dấu hiệu cho thấy
sự kết hợp của chúng mang một chức năng đặc biệt.
Bảng 1 chỉ ra các bigram xuất hiện nhiều nhất trong copus và tần suất xuất hiện của
chúng. Ngoại trừ New York, tất cả các biagram đều là các cặp từ chức năng.
Bảng 1. Tìm kiếm collocation dựa vào tần suất.
C(.) là tần suất của một từ trong kho ngữ liệu
Có một phƣơng pháp rất đơn giản để cải thiện các kết quả (Justeson & Katz 1995):
cho các cụm từ dự tuyển qua một bộ lọc từ loại [20]. Bộ lọc này sẽ chỉ cho đi qua những
mẫu có khả năng là một cụm từ (phrase). Justeson và Katz đã đƣa ra các mẫu trong Bảng
2. Mỗi mẫu đƣợc đƣa ra kèm theo một ví dụ lấy từ tập test.
8
Bảng 2. Các mẫu từ loại dùng cho việc lọc collocation.
Đây là những mẫu đƣợc sử dụng bởi Justeson và Katz để xác định collocation dựa
vào tần suất xuất hiện của từ.
A: tính từ (Adjective), P: giới từ (Preposition), N: danh từ (Noun)
Bảng 3 biểu diễn những cụm từ đƣợc xếp hạng cao nhất sau khi đƣợc lọc. Các kết
quả có đƣợc khá tốt. York City là một lỗi nhận đƣợc qua bộ lọc Justeson & Katz. Do đó
cần tìm kiếm một chuỗi dài nhất phù hợp với một trong các mẫu từ loại và tìm ra cụm từ
dài hơn có chứa York City, đó là New York City.
9
Bảng 3. Tìm kiếm collocation: bộ lọc từ loại của Justeson và Katz.
Bảng 4 liệt kê hai mƣơi cụm từ hạng cao nhất có chứa strong và powerful có dạng
AN (A là strong hoặc powerful).
10
Bảng 4. Các danh từ w xuất hiện thƣờng xuyên nhất trong các mẫu strong w và
powerful w.
Đối với một phƣơng pháp đơn giản thế này, các kết quả tìm đƣợc lại chính xác một
cách bất ngờ. Ví dụ phƣơng pháp này đã xác định đƣợc chính xác strong challenges và
powerful computers chứ không phải là powerful challenges và strong computers.
Tuy nhiên, có thể nhìn thấy những hạn chế của phƣơng pháp xác định collocation
dựa vào tần suất. Ví dụ trong Bảng 4, các danh từ man và force đƣợc sử dụng với cả hai
tính từ strong và powerful. Cần phải có các phân tích tinh vi hơn trong những trƣờng hợp
nhƣ thế này.
Cả strong tea và powerful tea đều không xuất hiện trong kho ngữ liệu ví dụ (New
York Times). Nhƣng nếu tìm kiếm trên kho ngữ liệu rộng hơn, sẽ thấy 799 lần xuất hiện
strong tea và 17 lần xuất hiện powerful tea, chứng tỏ rằng strong tea là cách dùng từ đúng
(việc tìm kiếm này đƣợc thực hiện trên AltaVista vào 28 tháng 3 năm 1998) [20].
Phƣơng pháp tìm kiếm collocation của Justeson và Katz đã chứng minh một điều
quan trọng: Một kỹ thuật định lƣợng đơn giản (trong trƣờng hợp này là bộ lọc tần suất)
11
kết hợp với một chút ít hiểu biết về ngôn ngữ học (về từ loại) trở thành một phƣơng pháp
khá hay.
Có thể sử dụng thêm danh sách từ dừng (là các từ có tần suất xuất hiện cao, nhƣng
không phải là động từ, danh từ hay tính từ...) để nâng cao hiệu quả của phƣơng pháp này.
2.2. Phƣơng pháp Kỳ vọng và Phƣơng sai (Mean & Variance)
Phƣơng pháp Tần suất làm việc khá hiệu quả với các cụm danh từ, và chỉ thực sự có
ích với các cụm từ cố định (fixed phrase). Tuy nhiên ở nhiều ngôn ngữ, có những
collocation bao gồm các từ đứng trong mối quan hệ mềm dẻo hơn với nhau. Phƣơng pháp
Kỳ vọng và phƣơng sai (Mean & Variance) [24] khắc phục đƣợc điều này bằng cách tính
toán khoảng cách giữa hai từ và tìm ra chiều rộng của phân bổ khoảng cách ấy. Nếu phân
bổ hẹp (khoảng cách giữa cách đỉnh phân bổ nhỏ), thì có thể tìm ra collocation. Nhƣng
nếu phƣơng sai cao, các đỉnh đƣợc phân bổ ngẫu nhiên thì ko thể tìm đƣợc collocation.
Xét động từ knock và một trong những từ có tần suất xuất hiện cao nhất cùng với nó
là door. Đây là một số ví dụ lấy từ kho ngữ liệu:
a. She knocked on his door
b. They knocked at the door
c. 100 women knocked on Donaldon’s door
d. A man knocked on the metal front door
Các từ xuất hiện ở giữa knocked và door là khác nhau và khoảng cách giữa hai từ
thay đổi, cho nên phƣơng pháp Tần suất sẽ không sử dụng đƣợc ở đây. Nhƣng có đủ tính
hợp thức trong các mẫu để cho phép chúng ta xác định đƣợc rằng trong tình huống này,
sử dụng knock là đúng, chứ không phải hit, beat, hay rap.
12
Hình 1. Sử dụng cửa sổ collocation 3 từ để lấy đƣợc các bigram ở một khoảng
cách.
Cần định nghĩa một cửa sổ collocation (collocational window), thông thƣờng mỗi
cửa sổ từ 3 đến 4 từ, mỗi cặp từ sẽ làm thành một bigram (Hình 1). Sau đó, tiếp tục công
việc tính toán nhƣ bình thƣờng trên tập các bigram lớn hơn.
Phƣơng pháp Kỳ vọng và phƣơng sai xét khoảng cách khác nhau giữa hai từ. Để tìm
mối quan hệ giữa knocked và door, cần tính kỳ vọng và phƣơng sai của các khoảng cách
giữa hai từ trong kho ngữ liệu.
Kỳ vọng (trung bình mẫu) của các khoảng cách:
Phƣơng sai đo độ lệch của các khoảng riêng so với trung bình. Nó đƣợc ƣớc lƣợng
nhƣ sau:
n là số lần 2 từ cùng xuất hiện
là khoảng cách của lần cùng xuất hiện thứ i
Ví dụ, trung bình khoảng cách giữa knocked và door đƣợc tính nhƣ sau:
Câu:
Các bigram:
13
(Giả sử rằng Donaldson’s là 3 từ tố Donaldson, ’, s). Nếu door xuất hiện trƣớc
knocked thì khoảng cách giữa hai từ là một số âm. Ví dụ, nếu có the door that she
knocked on thì khoảng cách giữa knocked và door là -3.
Nếu khoảng cách là nhƣ nhau trong mọi trƣờng hợp thì phƣơng sai bằng 0. Nếu các
khoảng cách đƣợc phân bổ ngẫu nhiên (trong trƣờng hợp hai từ tình cờ xuất hiện cùng
nhau) thì giá trị phƣơng sai sẽ cao. Thƣờng thì độ lệch mẫu đƣợc sử dụng để
đánh giá sự biến đổi khoảng cách giữa hai từ. Độ lệch cho các ví dụ về knocked... door là:
Kỳ vọng và độ lệch mô tả phân bổ của các khoảng cách giữa hai từ trong một kho
ngữ liệu. Dựa vào điều này, ta có thể tìm ra collocation bằng cách tìm cặp từ có độ sai
lệch thấp nhất. Độ lệch thấp có nghĩa là hai từ gần như thƣờng xuất hiện ở cùng một
khoảng cách. Nếu độ lệch bằng 0 thì chứng tỏ hai từ xuất hiện chính xác ở cùng một
khoảng cách.
Hình 2 là ví dụ minh họa phân bổ về khoảng cách của một từ đối với một từ khác (từ
trung tâm).
2a. Vị trí của strong đối với opposition ( )
14
2b. Vị trí của strong đối với support ( )
2c. Vị trí của strong đối với for ( )
Hình 2. Biểu đồ tần suất biểu diễn vị trí tƣơng đối của strong với các “từ
trung tâm”: opposition, support, for.
Hình 2a. Phân bổ của strong đối với opposition có một đỉnh ở vị trí -1 (strong
opposition). Vì vậy phƣơng sai thấp (s = 0.67), trung bình cho biết rằng
strong thƣờng xuất hiện ở vị trí -1 so với opposition.
Cần phải hạn chế các vị trí xung quanh từ trung tâm (bằng việc giới hạn kích thƣớc
cửa sổ collocation) vì các collocation về cơ bản là cách dùng từ mang tính chất địa
phƣơng.
Hình 2b. Phân bổ của strong đối với support đƣợc rút ra từ một số vị trí âm có tần
suất xuất hiện của cụm từ lớn. Ví dụ, đếm đƣợc khoảng 20 cụm từ ở vị trí -2 (strong leftist
support hay strong business support). Bởi vậy chúng ta nhận đƣợc phƣơng sai cao hơn
(s=1.07) và trung bình .
15
Hình 2c. Sự xuất hiện của strong cùng với for là một phân bổ đều hơn. Có xu hƣớng
strong xuất hiện trƣớc for (vì vậy, trung bình là ), nhƣng thực ra nó có thể xuất
hiện ở bất cứ vị trí nào xung quanh for. Độ chênh lệch cao s = 2.15 đã chỉ ra sự thay đổi
này. Từ đó thấy rằng for và strong không tạo thành collocation.
Bảng 5 đƣa ra các collocation có thể đƣợc tìm thấy bằng phƣơng pháp Kỳ vọng và
phƣơng sai.
Bảng 5. Tìm kiếm collocation dựa vào Kỳ vọng và phƣơng sai.
Bảng này cho biết độ lệch mẫu s và trung bình mẫu của các khoảng cách giữa 12
cặp từ.
Nếu trung bình gần với 1.0 và độ lệch thấp (nhƣ trƣờng hợp từ New York), phƣơng
pháp Kỳ vọng và phƣơng sai cho kết quả tìm kiếm collocation không khác mấy so với
phƣơng pháp Tần suất của Justeson và Katz.
Nếu trung bình lớn hơn rất nhiều so với 1.0 thì độ lệch thấp sẽ cho biết các cụm từ
nào đáng đƣợc quan tâm.
Ví dụ:
- Cặp từ previous / games (khoảng cách là 2) tƣơng ứng với các cụm từ nhƣ in the
previous 10 games hoặc in the previous 15 games...
- Cặp từ minus / points tƣơng ứng với các cụm từ nhƣ minus 2 percentage points,
minus 3 percentage points...
16
Độ lệch cao chỉ ra rằng hai từ không có mối quan hệ mật thiết với nhau. Điều này
đƣợc chứng minh qua nhóm thứ hai (gồm 4 cặp từ với giá trị phƣơng sai cao) trong ví dụ
ở Bảng 5.
Phƣơng pháp tìm kiếm collocation dựa vào giá trị kỳ vọng và phƣơng sai đƣợc trình
bày ở trên là của Smadja [24]. Smadja chỉ ra rằng phƣơng pháp của ông khá thành công
trong việc trích ra các thuật ngữ (với độ chính xác ƣớc lƣợng khoảng 80%) và trong việc
xác định các cụm từ phù hợp cho việc sinh ngôn ngữ – natural language generation
(Smadja và McKeown 1990 [23]).
Tuy nhiên, sự kết hợp knocked / door không phải collocation ta muốn phân loại –
mặc dù có thể nó rất có ích cho mục đích sinh văn bản (text generation). Phƣơng pháp
phát hiện collocation dựa vào phƣơng sai là một phƣơng pháp phù hợp nếu chúng ta
muốn tìm kiếm kiểu kết hợp từ nhƣ knocked... door.
2.3. Kiểm thử Giả thuyết (Hypothesis testing)
Trong thực tế, có nhiều sự kết hợp từ mà giá trị tần suất cao và phƣơng sai thấp.
Điều mà chúng ta cần tìm hiểu, đó là có hay không hai từ xuất hiện cùng với nhau thƣờng
xuyên mà không phải là sự xuất hiện ngẫu nhiên. Việc đánh giá một biến cố có xảy ra hay
không là một trong những bài toán kinh điển. Nó thƣờng bị ẩn đi trong các thuật ngữ của
Kiểm thử Giả thuyết (hypothesis testing). Có một giả thuyết đƣợc gọi là Giả thuyết Không
(null hypothesis) , chỉ xét sự kết hợp từ ngẫu nhiên. Ta sẽ tính toán xác suất p mà biến
cố sẽ xảy ra nếu đúng, và sau đó loại nếu p quá nhỏ (p < 0.05, 0.01, 0.005, 0.001,
thông thƣờng ngƣời ta lấy ngƣỡng là trong các thực nghiệm khoa học) hoặc giữ
lại trong trƣờng hợp ngƣợc lại.
Đây là một cách phân tích dữ liệu mà chúng ta phải xem xét cùng lúc hai việc.
Trƣớc mắt, chúng ta sẽ đi tìm kiếm các mẫu đặc biệt trong dữ liệu, nhƣng bên cạnh đó,
cần phải tính toán đƣợc lƣợng dữ liệu đã đƣợc quan sát. Thậm chí nếu có một mẫu rất tốt,
thì chúng ta vẫn sẽ đánh giá thấp nó nếu nhƣ không có đủ dữ liệu quan sát để có thể chắc
chắn rằng mẫu đó tồn tại không phải do ngẫu nhiên.
Giả thuyết Không là đúng nếu hai từ không tạo thành một collocation. Giả sử rằng
mỗi từ và đƣợc sinh ra một cách hoàn toàn độc lập với nhau, vì vậy khả năng
chúng xuất hiện cùng nhau là:
17
Công thức cho thấy rằng xác suất cùng xuất hiện của hai từ chỉ là kết quả của các
xác suất riêng của mỗi từ .
2.3.1. Kiểm thử t (t test)
Cần phải có một phép thử thống kê để kiểm tra xác suất cùng xuất hiện của các từ.
Phép thử đƣợc sử dụng rộng rãi trong việc tìm kiếm collocation là t test. T test xem
xét trung bình và phƣơng sai của một mẫu các phép đo, mà theo Giả thuyết Không, mẫu
đó đƣợc rút ra từ một phân bổ với trung bình μ. Phép thử xét sự khác nhau giữa trung bình
đƣợc quan sát và trung bình kỳ vọng (đƣợc đo bằng phƣơng sai của dữ liệu) sẽ cho chúng
ta một giá trị trung bình và phƣơng sai đặc biệt hơn, với giả thiết mẫu đƣợc rút ra từ một
phân phối thông thƣờng với trung bình μ.
Để xác định đƣợc xác suất của một mẫu đặc biệt, cần tính toán giá trị thống kê t:
là trung bình mẫu
là phƣơng sai mẫu
là kích thƣớc mẫu
là trung bình của phân phối
Nếu t đủ lớn, chúng ta có thể loại bỏ Giả thuyết Không. Chúng ta có thể tìm ra chính
xác là t cần phải lớn nhƣ thế nào bằng cách tra cứu trong Bảng phân phối t (Phụ lục).
Để thấy rõ hơn việc sử dụng t test để tìm kiếm collocation, chúng ta sẽ tính giá trị t
cho cụm từ new companies. Vấn đề là chúng ta sẽ đo giá trị trung bình và phƣơng sai của
một mẫu nhƣ thế nào. Có một cách, là coi kho ngữ liệu nhƣ một chuỗi dài gồm N bigram,
các mẫu sẽ đƣợc lấy bằng 1 nếu bigram đang kiểm tra xuất hiện, và bằng 0 trong trƣờng
hợp ngƣợc lại.
Các xác suất để new và companies xuất hiện trong kho ngữ liệu đƣợc tính nhƣ sau:
18
Trong kho ngữ liệu ví dụ, new xuất hiện 15828 lần, companies xuất hiện 4675 lần,
và có tất cả 14307668 bigram.
Giả thuyết Không quy ƣớc rằng sự xuất hiện các biến cố new và companies phải độc
lập với nhau.
Trung bình của phân phối này là và phƣơng sai là
(xấp xỉ này đƣợc sử dụng cho tất cả các bigram có xác suất p nhỏ).
Cụm từ new companies xuất hiện 8 lần trên tổng số 14307668 bigram trong kho ngữ
liệu. Vì thế, đối với mẫu này, chúng ta có trung bình mẫu là
. Theo công thức tính t:
Vì số mẫu rất lớn nên có thể xem bậc tự do (degrees of freedom) df = ∞, với ngƣỡng
cho xác suất p là , tra trong Bảng phân phối t (Phụ lục) đƣợc giá trị 2.57583.
Dễ thấy t < 2.57583 nên không thể loại bỏ Giả thuyết Không (Giả thuyết Không là đúng
vì new và companies tuy cùng xuất hiện nhƣng vẫn độc lập với nhau), vì vậy new
companies không phải là collocation.
Bảng 6 cho thấy các giá trị t của 10 bigram xuất hiện với tần suất 20 lần trong kho
ngữ liệu. Đối với 5 bigram đầu tiên, chúng ta có thể loại bỏ Giả thuyết Không với
, vì vậy các bigram này rất có thể là các collocation. Phép tính t cho 5 bigram
cuối cùng không cho kết quả tốt, vì vậy có khả năng chúng không phải là collocation.
19
Bảng 6. Xếp hạng 10 bigram xuất hiện với cùng tần suất là 20 với Kiểm thử t.
Chú ý rằng phƣơng pháp Tần suất không thể xếp hạng đƣợc 10 bigram khi chúng
xuất hiện với tần suất bằng nhau. Nhìn vào Bảng 6, có thể thấy phép thử t test tính số lần
cùng xuất hiện của hai từ trong bigram. C( ) liên quan đến tần suất của các từ thành
phần. Nếu tần suất của cả hai từ là cao (Ayatollah Ruhollah, videocassette recorder) hoặc
ít nhất là tần suất của một trong hai từ (unsaled) trong bigram là rất cao thì giá trị t của
chúng cũng cao. Đánh giá này dựa nhiều vào trực giác.
Phép thử t test và các phép thử thống kê khác rất có ích trong một số phƣơng pháp
xếp hạng collocation (ranking collocation).
2.3.2. Kiểm thử Giả thuyết để đo sự khác biệt giữa hai tập hợp
(Hypothesis testing of differences)
Trong lĩnh vực từ điển học, công thức t test không thể tìm ra các từ để phân biệt tốt
nhất nghĩa của strong và powerful. Church và Hanks (1989) [11] đã khắc phục điều này
bằng việc đề xuất một công thức tính t khác.
Bảng 7 liệt kê các từ đi cùng với powerful có ý nghĩa hơn là với strong (10 từ đầu),
và các từ đi cùng với strong có ý nghĩa hơn là với powerful (10 từ cuối).
20
Bảng 7. Kiểm thử giả thuyết để đo sự khác biệt giữa hai tập hợp: các từ xuất
hiện có ý nghĩa với powerful và strong.
Giá trị t trong trƣờng hợp này đƣợc tính toán bằng cách sử dụng mở rộng của phép
thử t test để so sánh các trung bình của hai tập hợp:
Ở đây, Giả thuyết Không quy định rằng sai khác trung bình bằng 0 (μ = 0), vì thế ta
có . Mẫu số là tổng các giá trị phƣơng sai riêng
của hai tập hợp đang đƣợc so sánh.
Các giá trị t trong Bảng 7 đƣợc tính toán nhƣ sau: Nếu w là một từ có ý nghĩa (ví dụ,
computers hoặc symbol) và , là các từ chúng ta sẽ so sánh (ví dụ, powerful và
strong), thì ta có (sử dụng lại xấp xỉ
với p rất nhỏ):
21
Rút gọn lại công thức trên, thu đƣợc:
C(x) là số lần x xuất hiện trong văn bản.
Công thức tính t do Church và Hanks (1989) [10] xây dựng rất có ích cho việc biên
soạn từ điển. Khi biên soạn từ điển, ngoài việc nhìn vào ý nghĩa của từ, còn phải xem xét
đến những đặc trƣng riêng về văn hóa. Ví dụ, ngƣời ta thƣờng nói strong tea, nhƣng mặt
khác lại nói powerful drugs, sự khác nhau đã nói cho chúng ta biết về thói quen dùng từ
nhiều hơn là về ngữ nghĩa của hai tính từ strong và powerful (Church 1991) [11].
2.4. Kiểm thử khi-bình phƣơng (Pearson’s chi-square test)
T test có nhƣợc điểm là nó thừa nhận các xác suất đƣợc phân bổ theo cách xấp xỉ
thông thƣờng, điều này trong thực tế là không đúng (theo Church và Mercer 1993) [7].
Vào năm 1900, Karl Pearson đã phát triển một thống kê ( ) so sánh các giá trị
đƣợc quan sát và kỳ vọng khi dữ liệu đƣợc chia thành các mục riêng biệt. Các giá trị quan
sát (observed) và kỳ vọng (expected) có thể đƣợc giải thích trong phạm vi các giả thuyết
kiểm tra (hypothesis testing). Tức là nếu dữ liệu đƣợc phân chia thành các mục riêng và
có định nghĩa Giả thuyết Không trên dữ liệu đó thì giá trị đƣợc kỳ vọng là giá trị của mỗi
mục nếu nhƣ Giả thuyết Không là đúng, giá trị đƣợc quan sát là giá trị mỗi mục mà ta
quan sát từ dữ liệu mẫu [17].
Kiểm thử khi-bình phƣơng ( test) của Pearson là phép thử đáng tin cậy hơn phép
Kiểm thử t [17].
Trong trƣờng hợp đơn giản nhất, phép thử khi-bình phƣơng đƣợc sử dụng với bảng
2x2 nhƣ minh họa ở Bảng 8.
22
8
(new companies)
4667
(e.g., old companies)
15820
(e.g., new machines)
14287173
(e.g., old machines)
Bảng 8. Bảng 2x2 chỉ ra sự phụ thuộc của sự xuất hiện new và companies.
Cụm new companies xuất hiện 8 lần trong kho ngữ liệu, có 4667 bigram mà từ thứ
hai là companies và từ đầu tiên không phải là new, có 15820 bigram mà từ đầu tiên là new
và từ thứ hai không phải là companies, và 14287181 bigram không chứa cả new và
companies. Bản chất của phép thử là so sánh các giá trị tần suất đƣợc quan sát trong bảng
với các giá trị tần suất đƣợc kỳ vọng cho sự độc lập. Nếu sự sai khác giữa các giá trị này
là lớn thì chúng ta có thể loại bỏ Giả thuyết Không về tính độc lập.
Bảng 8 cho thấy phân phối của new và companies trong kho ngữ liệu. Nhớ lại rằng
, , , và có 14307668
bigram trong kho ngữ liệu. Điều đó có nghĩa là số lƣợng các bigram với từ tố đầu
tiên khác new và từ tố thứ hai là companies là 4667 = 4675 – 8. Hai ô ở hàng cuối cùng
đƣợc tính toán tƣơng tự.
Thống kê cộng tổng các sai khác giữa giá trị tần suất quan sát đƣợc và giá trị tần
suất đƣợc kỳ vọng trong tất cả các ô của bảng. Giá trị đƣợc tính theo công thức:
i là các hàng
j là các cột
là giá trị tần suất quan sát đƣợc ở ô (i,j).
là giá trị tần suất đƣợc kỳ vọng cho ô (i,j).
23
Các giá trị tần suất đƣợc kỳ vọng đƣợc tính toán từ các xác suất giới hạn, có
nghĩa là từ toàn bộ các hàng và các cột của bảng.
Sau đây là các tính toán chi tiết với ví dụ về cụm từ new companies:
Giá trị tần suất quan sát đƣợc:
Row total
Column total
Giá trị tần suất đƣợc kỳ vọng:
Row total
Column total
Nếu new và companies xuất hiện hoàn toàn độc lập với nhau thì ta sẽ kỳ vọng tần
suất xuất hiện trung bình của new companies trong kho ngữ liệu là
.
Áp dụng công thức tính giá trị :
24
Cách tính nhƣ trên có thể đƣợc ứng dụng với các bảng có kích thƣớc bất kỳ.
Với bảng 2x2, công thức đƣợc khai triển nhƣ sau:
Áp dụng công thức này để tính giá trị cho ví dụ ở Bảng 8:
Bậc tự do (degrees of freedom):
df = (row total - 1)(column total - 1) = (2 - 1)(2 - 1) = 1.
Tra trong Bảng phân phối (Phụ lục), nếu chọn thì ứng với df = 1, giá trị
tới hạn của là 3.84146. Vì vậy không thể loại bỏ Giả thuyết Không, có nghĩa là new và
companies xuất hiện độc lập với nhau, chứng tỏ new companies rất có thể không phải là
một collocation.
Kết quả này tƣơng tự kết quả đạt đƣợc với thống kê t (trong phép thử t test). Thông
thƣờng, đối với bài toán tìm kiếm collocation, sự khác nhau giữa thống kê t và không
quá lớn. Ví dụ, 20 bigram với giá trị t lớn nhất trong kho ngữ liệu ví dụ cũng là 20 bigram
có giá trị lớn nhất.
Phép thử cũng phù hợp với các xác suất lớn, cho những giả thiết thông thƣờng
mà phép thử t test thất bại. Điều này có lẽ là lý do khiến đƣợc ứng dụng trong những
miền rộng hơn của bài toán tìm kiếm collocation.
Một trong số các cách sử dụng phép thử trong lĩnh vực thống kê xử lý ngôn ngữ
tự nhiên là nhận diện các cặp dịch trong tập các kho ngữ liệu tƣơng ứng (Church và Gale
1991 dùng một độ đo gọi là ) [7].
25
Dữ liệu trong Bảng 9 đã đƣa ra một khẳng định chắc chắn rằng vache trong tiếng
Pháp dịch sang tiếng Anh là cow. Ở đây, 59 là số các cặp câu tiếng Anh và câu tiếng Pháp
có chứa tƣơng ứng cow và vache... Giá trị tính toán đƣợc ở đây rất cao: .
Vì thế chúng ta có thể loại bỏ Giả thuyết Không, cow và vache xuất hiện một cách độc lập
với nhau với một độ tin cậy cao. Cặp từ này là rất có thể là một cặp dịch.
Bảng 9. Tƣơng ứng của vache và cow trong hai kho ngữ liệu đã sắp xếp tƣơng
ứng.
Bằng cách sử dụng phép thử cho bảng này, có thể chỉ ra rằng vache và cow là hai
từ dịch ra của nhau trong tiếng Pháp và tiếng Anh.
Một ứng dụng quan trọng của là sử dụng nhƣ một chuẩn đo (metric) sự tƣơng
đồng kho ngữ liệu (Kilgarriff và Rose 1998) [20]. Để làm đƣợc điều này, cần sử dụng một
bảng nx2 với n rất lớn (ví dụ n = 500), 2 cột tƣơng ứng với hai kho ngữ liệu. Mỗi hàng
ứng với một từ riêng biệt. Ví dụ đƣợc mô tả trong Bảng 10.
Bảng 10. Phép thử cho sự độc lập của các từ trong các kho ngữ liệu khác nhau,
sử dụng .
Phép thử này có thể đƣợc sử dụng nhƣ là một chuẩn đo sự tƣơng đồng của các kho
ngữ liệu.
Nếu tỉ số các lần đếm gần nhƣ là bằng nhau (nhƣ trƣờng hợp trong Bảng 10, mỗi từ
xuất hiện trong kho ngữ liệu 1 nhiều hơn trong kho ngữ liệu 2 khoảng 6 lần) thì chúng ta
không thể loại bỏ Giả thuyết Không (Giả thuyết Không trong trƣờng hợp này quy ƣớc: cả
hai kho ngữ liệu đƣợc rút ra dƣới cùng một nguồn). Mặt khác, nếu tỉ số khác nhau nhiều
thì giá trị sẽ cao, điều này chứng tỏ độ không tƣơng đồng cao.
26
2.5. Các tỉ lệ likelihood (Likelihood ratios)
2.5.1. Tỉ lệ likelihood (Likelihood ratio)
Likelihood ratio là phƣơng pháp khác để tìm kiếm collocation. Phƣơng pháp này
phù hợp đối với các dữ liệu rải rác hơn là phép thử . Giá trị thống kê mà ta sẽ tính toán
sau đây (likelihood ratio) dễ hiểu hơn là thống kê . Đơn giản, đó là một số đo cho
chúng ta biết rằng, một Giả thuyết thích hợp hơn so với các Giả thuyết khác nhƣ thế nào.
Để áp dụng phép thử likelihood radio cho việc tìm kiếm collocation, xem xét hai giả
thuyết sau về tần suất xuất hiện của bigram (Dunning 1993) [13]:
Giả thuyết 1.
Giả thuyết 2.
Giả thuyết 1 là hình thức hóa của tính độc lập (sự xuất hiện của không phụ thuộc
vào việc đã xuất hiện hay chƣa).
Giả thuyết 2 là hình thức hóa của tính phụ thuộc, là một dấu hiệu tốt cho sự xuất
hiện một collocation (giả thiết rằng nếu Giả thuyết 2 đúng, hiếm có trƣờng hợp
, nếu có, nó sẽ tạm thời đƣợc bỏ qua).
Sử dụng các ƣớc lƣợng likelihood cực đại thông thƣờng cho và gán
cho số lần xuất hiện của trong kho ngữ liệu:
Công thức 1
(N = 14307668)
Với phân phối nhị thức:
Likelihood từ việc tính toán mà chúng ta đã quan sát thực sự là:
(theo Giả thuyết 1)
(theo Giả thuyết 2)
Bảng 11 tổng kết lại những công thức tính toán này.
27
Bảng 11. Cách tính toán giá trị likelihood của Dunning.
Ví dụ, likelihood của Giả thuyết là kết quả của hai dòng cuối cùng trong cột
ngoài cùng bên phải.
Ta thu đƣợc các likelihood và bằng cách nhân hai dòng cuối cùng,
tƣơng ứng là các likelihood của số lần xuất hiện theo lý thuyết của và .
Logarit của tỉ lệ giữa hai likelihood và là:
Trong đó .
Bảng 12 liệt kê 20 bigram chứa powerful có hạng cao nhất theo tỉ lệ likelihood khi
phép thử likelihood ratio đƣợc ứng dụng trong kho ngữ liệu New York Times. Tất cả các
bigram xuất hiện ở đây đều đƣợc xét đến, kể cả những bigram ít xuất hiện (ví dụ,
powerful cudgels xuất hiện 2 lần).
28
Bảng 12. Các bigram có chứa powerful với hạng cao nhất theo phép thử
likelihood ratio của Dunning.
Phép thử likelihood ratio cũng có ƣu điểm là thích hợp dùng cho các dữ liệu rải rác
hơn là phép thử . Nhƣng vấn đề là sử dụng phép thử likelihood ratio nhƣ thế nào?
Nếu là tỉ số các giá trị likelihood của một “hình thái đặc biệt” thì đại lƣợng
là phân bổ tiệm cận (Mood 1974) [20]. Vì thế có thể dùng các giá trị trong
Bảng 12 để kiểm tra Giả thuyết và Giả thuyết . Ví dụ, có thể tra giá trị của phân
phối cho powerful cudgels và loại bỏ Giả thuyết cho bigram này (với độ
tin cậy thì giá trị xác suất giới hạn là 7.88).
“Hình thái đặc biệt” của tỉ số likelihood cần tìm ở đây là tỉ số giữa ƣớc lƣợng
likelihood cực đại trên một phần của không gian biến và tỉ số ƣớc lƣợng likelihood cực
đại trên toàn bộ không gian biến.
Đối với tỉ số likelihood trong công thức , toàn bộ miền không gian là không
gian của cặp xác suất : là xác suất xuất hiện ở vị trí sau và là xác
29
suất xuất hiện sau một từ bất kỳ khác . Lấy likelihood cực đại cho dữ liệu đã quan
sát nếu giả thiết rằng các ƣớc lƣợng likelihood cực đại đƣợc tính toán theo Công thức 1.
Một phần không gian là tập con của các trƣờng hợp có . Ƣớc lƣợng trong Công
thức 1 đƣa lại giá trị likelihood cực đại trên một phần không gian dữ liệu đã quan sát. Nếu
là tỉ số của hai likelihood (likelihood cực đại trên một phần không gian, và trên toàn bộ
miền không gian), thì là phân bổ tiệm cận . Khái niệm “tiệm cận” có thể hiểu
là khi “một số đủ lớn”. Có hay không các số đủ lớn trong các trƣờng hợp riêng biệt là rất
khó để xác định đƣợc. Nhƣng Dunning đã chỉ ra rằng phép thử likelihood ratio nói chung
là phù hợp để trích chọn collocation hơn là phép thử của Pearson [20].
2.5.2. Các tỉ lệ tần suất tƣơng đối (Relative Frequency Ratios)
Phần trên đã trình bày một vài phƣơng pháp xác định collocation trong một kho ngữ
liệu. Tỉ lệ tần suất tƣơng đối giữa hai hay nhiều kho ngữ liệu khác nhau có thể đƣợc sử
dụng để phát hiện collocation đặc trƣng cho mỗi kho ngữ liệu khi so sánh với một kho
ngữ liệu khác (Damerau 1993) [20]. Mặc dù các tỉ lệ tần suất không thích hợp lắm trong
một hệ các Giả thuyết kiểm tra, nhƣng có thể xem tỉ lệ tần suất nhƣ là tỉ lệ của các
likelihood.
Bảng 13 liệt kê 10 bigram xuất hiện chính xác là 2 lần trong kho ngữ liệu. Các
bigram này đƣợc xếp hạng dựa vào tỉ lệ các tần suất tƣơng đối của chúng trong kho ngữ
liệu năm 1990 so với kho ngữ liệu năm 1989 (vẫn là ấn bản của tờ New York Times từ
tháng 8 đến tháng 11). Ví dụ, Karim Obeid xuất hiện 68 lần trong kho ngữ liệu năm 1989.
Vì thế tỉ số tần suất tƣơng đối r là:
30
Bảng 13. Phép thử tỉ lệ tần suất của Damerau.
Các ví dụ cho thấy rằng các tỉ lệ tần suất đó chủ yếu có ích trong việc tìm kiếm các
collocation có dạng chủ thể - đặc trƣng (subject-specific). Damerau đã ứng dụng điều này
để so sánh văn bản nói chung với văn bản chủ thể - đặc trƣng.
2.6. Thông tin tƣơng hỗ MI (Mutual information)
Một thông tin về mặt lý thuyết đã thúc đẩy tiêu chuẩn để đánh giá tìm kiếm
collocation, đó là thông tin tƣơng hỗ theo từng điểm (pointwise mutual information) [20].
Fano (1961) [20] đã khởi đầu định nghĩa về thông tin tƣơng hỗ giữa các biến cố riêng x’
và y’, sự xuất hiện của các từ riêng biệt là:
Công thức 2
Công thức 3
Công thức 4
31
Loại thông tin tƣơng hỗ này gần nhƣ là để đo lƣợng thông tin từ mà một từ cho biết
về từ kia.
Trong lý thuyết về thông tin, thông tin tƣơng hỗ thƣờng đƣợc định nghĩa là các biến
ngẫu nhiên (random variable) chứ không phải là giá trị của các biến ngẫu nhiên (values of
random variable) nhƣ định nghĩa ở đây.
Bảng 14. Tìm kiếm collocation dựa vào thông tin tƣơng hỗ.
Trên Bảng 14 là 10 bigram xuất hiện với tần suất 20, đƣợc xếp hạng dựa vào thông
tin tƣơng hỗ.
Khi chấp nhận định nghĩa này với 10 collocation ở Bảng 6, chúng ta có đƣợc cùng
một thứ hạng nhƣ đối với phép thử t test (Bảng 14). Thông thƣờng, sử dụng các ƣớc
lƣợng likelihood cực đại để tính toán các tần suất, ví dụ:
Vậy định nghĩa thông tin tương hỗ chính xác là gì, đúng ra phải đƣợc tính
theo Công thức 2, 3 hay 4?
Theo Fano: Lƣợng thông tin đƣợc cung cấp bởi sự xuất hiện biến cố [y’] về sự xuất
hiện của biến cố [x’] đƣợc định nghĩa nhƣ sau:
(Công thức 3)
32
Ví dụ, độ đo thông tin tƣơng hỗ cho biết lƣợng thông tin có đƣợc về sự xuất hiện của
Ayatollah tại vị trí thứ i trong kho ngữ liệu sẽ tăng thêm 18.38 bit nếu biết trƣớc rằng
Ruhollah xuất hiện ở vị trí i+1. Nói cách khác, Công thức 3 và 4 là tƣơng đƣơng nhau,
nên lƣợng thông tin có đƣợc về sự xuất hiện của Ruhollah ở vị trí i+1 trong kho ngữ liệu
cũng tăng 18.38 bit nếu biết trƣớc rằng Ayatollah xuất hiện ở vị trí thứ i. Cũng có thể nói
rằng, tính bất định bị giảm đi 18.83 bit. Có thể chắc chắn hơn nhiều rằng Ruhollah sẽ xuất
hiện tiếp theo nếu biết rằng từ hiện tại là Ayatollah.
Đáng tiếc là độ đo thông tin tăng thêm này (increased information) trong nhiều
trƣờng hợp không phải là một độ đo tốt về sự phù hợp giữa hai biến cố. Xem xét hai ví dụ
trong Bảng 15, về sự phù hợp giữa câu Tiếng Anh và Tiếng Pháp trong kho ngữ liệu
Hansard – một kho ngữ liệu đã đƣợc đồng chỉnh bởi Nghị viện Canada (tƣơng tự Bảng 9)
[20].
Bảng 15. Sự phù hợp của chambre và house, communes và house trong kho ngữ
liệu.
Thông tin tƣơng hỗ của communes và house cao hơn, trong khi phép thử cho giá
trị cao hơn đối với cặp dịch đúng (chambre, house).
Trong kho ngữ liệu Hansard, cụm House of Commons trong câu Tiếng Anh tƣơng
ứng với cụm Chambre de communes trong câu Tiếng Pháp.
Có thể giải thích sự khác nhau giữa hai độ đo MI và khá dễ dàng nếu nhìn vào
định nghĩa (Công thức 3) về thông tin tƣơng hỗ và so sánh giá trị I(chambre,house) với
I(communes,house):
33
Từ communes trong Tiếng Pháp phù hợp với house trong Tiếng Anh hơn là từ
chambre. Giá trị thông tin tƣơng hỗ cho communes cao hơn chứng tỏ communes đã làm
giảm tính bất định ở đây. Nhƣng nhƣ ví dụ cho thấy sự giảm tính bất định không mấy phù
hợp với những gì chúng ta muốn đo. Ngƣợc lại, là một phép thử trực tiếp sự phụ thuộc
xác suất, mà trong ngữ cảnh này là mức độ liên kết giữa hai từ.
Bảng 16 minh họa việc sử dụng thông tin tƣơng hỗ để tìm kiếm collocation: nửa bên
trái bảng là 10 bigram xuất hiện đúng 1 lần trong 1000 tài liệu đầu tiên trong kho ngữ liệu
và giá trị thông tin tƣơng hỗ của chúng trên 1000 tài liệu đó. Nửa bên phải bảng cho biết
thông tin tƣơng hỗ dựa trên toàn bộ kho ngữ liệu (23000 tài liệu).
Bảng 16. Thông tin tƣơng hỗ từ các dữ liệu rải rác.
Bảng chỉ ra 10 bigram xuất hiện một lần trong 1000 tài liệu đầu tiên trong kho ngữ
liệu đƣợc xếp hạng theo giá trị thông tin tƣơng hỗ trong 1000 tài liệu đầu (nửa bên trái
bảng) và xếp hạng theo giá trị thông tin tƣơng hỗ trong toàn bộ kho ngữ liệu (nửa bên
phải bảng).
Kho ngữ liệu rộng hơn gồm 23000 tài liệu tạo ra nhiều ƣớc lƣợng tốt hơn. Các
bigram marijuana growing và new converts (các cụm đƣợc cho là các collocation) đƣợc
chuyển lên trên, còn Reds survived (chắc chắn không phải collocation) đƣợc chuyển
xuống dƣới. Tuy nhiên, điều đặc biệt là có 6 bigram chỉ xuất hiện một lần, kết quả là có
34
các ƣớc lƣợng likelihood cực đại, và các giá trị thông tin tƣơng hỗ MI sai. Cả 6 bigram đó
đều không phải collocation và cần có một độ đo để xếp hạng chúng.
Không độ đo nào có thể làm việc tốt với các biến cố có tần suất xuất hiện thấp. Rõ
ràng sự rải rác dữ liệu là một vấn đề đặc biệt khó khăn đối với thông tin tƣơng hỗ. Để
thấy đƣợc lý do tại sao, chú ý rằng thông tin tƣơng hỗ là logarit tỉ số likelihood của xác
suất và kết quả của các xác suất riêng , .
Có hai trƣờng hợp đặc biệt về sự xuất hiện hai từ: sự phụ thuộc hoàn toàn (hai từ chỉ
xuất hiện cùng nhau) và sự hoàn toàn không phụ thuộc (sự xuất hiện của một từ không
cho chúng ta chút thông tin nào về sự xuất hiện của từ kia).
Đối với sự phụ thuộc hoàn toàn, ta có:
Đối với các bigram phụ thuộc hoàn toàn, thông tin tƣơng hỗ của chúng đƣợc tăng
lên.
Đối với sự hoàn toàn không phụ thuộc, ta có:
Có thể nói rằng thông tin tƣơng hỗ MI là một độ đo tính độc lập rất tốt, các giá trị
MI dần về 0 chỉ ra sự không phụ thuộc (độc lập về tần suất). Nhƣng đó là một độ đo tồi về
tính phụ thuộc, vì đối với tính phụ thuộc, giá trị đo dựa vào tần suất của các từ riêng lẻ.
Các bigram có các từ xuất hiện với tần suất thấp sẽ nhận giá trị cao hơn các bigram có các
từ xuất hiện với tần suất cao. Điều này rất mâu thuẫn với độ đo mà chúng ta mong muốn,
vì tần suất cao có ý nghĩa hơn so với tần suất thấp.
Định nghĩa MI đƣợc trình bày ở trên là định nghĩa đƣợc chấp nhận rộng rãi trong
lĩnh vực nghiên cứu ngôn ngữ học, nhƣng không phổ biến trong lý thuyết về thông tin.
Thông tin tƣơng hỗ trong lý thuyết thông tin đề cập đến sự kỳ vọng :
35
Bảng 17 trình bày các định nghĩa khác nhau về thông tin tƣơng hỗ của Cover,
Thomas (1991) [20] và Fano (1961) [17].
Bảng 17. Các định nghĩa khác nhau về thông tin tƣơng hỗ.
Thông tin tƣơng hỗ thƣờng đƣợc sử dụng trong các ứng dụng thực hành (Fontenelle
1994) [20] hoặc nó đƣợc định nghĩa là để bù cho độ chênh lệch của
định nghĩa gốc trong các biến cố có tần suất thấp (Fontenelle 1994, Hodges 1996)
[20][15].
36
Chƣơng 3. COLLOCATION TRONG TIẾNG VIỆT
3.1. Đặc điểm từ vựng Tiếng Việt
T ỗ
ằ . Dƣới đây là một số đặc điểm của từ vựng
tiếng Việt theo quan điểm của các nhà ngôn ngữ học Việt Nam.
3.1.1. Đơn vị cấu tạo từ
Đơn vị cơ sở để cấu tạo từ Tiếng Việt là các tiếng, cái mà ngữ âm học vẫn gọi là các
âm tiết. Mặc dù nguyên tắc phổ biến là các từ đƣợc cấu tạo từ các hình vị, nhƣng hình vị
trong các ngôn ngữ khác nhau có thể không nhƣ nhau.
g, . Tiếng của Tiếng Việt có giá trị tƣơng
đƣơng nhƣ hình vị trong các ngôn ngữ khác, và ngƣời ta cũng gọi chúng là các hình tiết
(morphemesyllable) – âm tiết có giá trị hình thái học... [2]
3.1.2. Phƣơng thức cấu tạo từ
Từ Tiếng Việt đƣợc cấu tạo hoặc là bằng các dùng một tiếng, hoặc là tổ hợp các
tiếng lại theo lối nào đó.
Phƣơng thức dùng một tiếng làm một từ sẽ cho ta các từ đơn (còn gọi là từ đơn tiết).
Vậy từ đơn ở đây đƣợc hiểu là những từ cấu tạo bằng một tiếng. V
T .
Ví dụ: tôi, bác, người, nhà, cây, hoa, trâu, ngựa...
đi, chạy, cười, đùa, vui, buồn, hay, đẹp...
vì, nếu, đã, đang, à, ư, nhỉ, nhé...
Việc tổ hợp tiếng phƣơng thức .
: ...
ừ : (e-mail),
37
(voice mail), (version),
...
:
... [5]
3.1.3. Biến thể của từ
Trong hoạt động của mình, một số từ tiếng Việt có thể có biến động về cấu trúc. Tuy
nhiên, cần nói rằng đó không phải là những biến dạng theo nguyên tắc hình thái học nhƣ
các dạng thức khác nhau của từ trong ngôn ngữ biến hình. Ở đây chúng thƣờng chỉ đƣợc
coi là dạng lâm thời biến động hoặc dạng “lời nói” của từ. Có nghĩa rằng, những biến
động ấy không đều đặn, không thƣờng xuyên ở tất cả mọi từ. Chúng chỉ lâm thời xảy ra ở
một số từ trong một số trƣờng hợp sử dụng. Đại thể có những dạng biến động nhƣ sau [2]:
a. Biến một từ có cấu trúc lớn, phức tạp hơn sang cấu trúc nhỏ, đơn giản hơn. Thực
chất đây là sự rút gọn một từ dài thành từ ngắn hơn.
Ví dụ: ki-lô-gram ki lô/kí lô
(ông) cử nhân (ông) cử
Xu hƣớng biến đổi này không có tính bắt buộc, không đều đặn ở mọi từ, và nhiều
khi chỉ vì lí do tiết kiệm trong ngôn ngữ. Không phải ngày nay tiếng Việt mới có hiện
tƣợng rút gọn nhƣ vậy, mà những cặp từ song song tồn tại giữa một bên là từ đa tiết với
một bên là từ đơn tiết chứng tỏ rằng hiện tƣợng này đã có từ lâu.
Chẳng hạn: ve ve ve
bươm bướm bướm
Rất nhiều tên gọi các tổ chức chính trị, xã hội, tôn giáo, các danh nhân, địa danh...
trong tiếng Việt ngày nay đã đƣợc rút gọn lại nhƣ vậy.
Ví dụ: Đảng Cộng sản Việt Nam Đảng
hợp tác xã hợp
38
Xu hƣớng biến đổi một từ đơn giản thành một từ có cấu trúc phức tạp hơn, trong
tiếng Việt hiện nay không thấy có. Rất có thể vì nó trái với nguyên tắc tiết kiệm mà ngƣời
sử dụng ngôn ngữ thƣờng xuyên phải tính đến.
b. Lâm thời phá vỡ cấu trúc của từ, phân bố lại yếu tố tạo từ với những yếu tố khác
ngoài từ chen vào.
Ví dụ: khổ sở lo khổ lo sở
ngặt nghẽo cười ngặt cười nghẽo
Sự biến đổi theo kiểu này rất đa dạng, nhằm nhiều mục đích. Cũng có khi ngƣời nói,
với dụng ý ít nhiều mang tính chơi chữ, đã phá vỡ cấu trúc từ để dùng yếu tố tạo từ với tƣ
cách nhƣ một từ.
Ví dụ: tìm hiểu tìm mà không hiểu
đánh đổ đánh mãi mà không đổ
3.1.4. Những quá trình diễn ra trong sự phát triển từ vựng Tiếng Việt
Trong sự phát triển của từ vựng tiếng Việt mấy chục năm qua đã diễn ra những quá
trình chủ yếu sau đây [3]:
a. Sự hình thành, phát triển và toàn thắng của những từ ngữ cách mạng tiến
bộ
Những thuật ngữ cách mạng, tiến bộ về chính trị, xã hội và triết học đã phôi thai ở
Việt Nam từ những năm 1930. Cho đến năm 1945, những từ ngữ cách mạng chỉ đƣợc lƣu
hành trong phạm vi nào đó. Phải chờ đến năm 1945, khi Cách mạng Tháng Tám thành
công, vốn từ cách mạng dồi dào sau bao năm tích luỹ mới bùng ra mạnh mẽ. Tất cả mọi
ngƣời dân Việt Nam đều quen thuộc và hay dùng những từ ngữ mới của cách mạng nhƣ:
cách mạng, cứu quốc, đế quốc, độc lập, phản đế, phản phong, quốc dân, thực dân, tiến
bộ, Việt Minh... Từ đó đến nay, cùng với những bƣớc tiến vĩ đại của dân tộc trong hai
cuộc chiến tranh bảo vệ Tổ quốc và công cuộc xây dựng chủ nghĩa xã hội, vốn từ ngữ
cách mạng ngày càng phát triển, trở thành lớp từ tích cực, thâm nhập vào lời ăn tiếng nói
hàng ngày của quần chúng.
Trong khi đó, hàng loạt từ ngữ phản ánh những tƣ tƣởng chính trị, tôn giáo, triết
học... lạc hậu, phản động trƣớc đây đƣợc dùng rộng rãi, ngày nay đã bị thu hẹp phạm vi
39
sử dụng hoặc có khi bị loại hẳn ra khỏi vốn từ tiếng Việt. Ví dụ: a dong, a hành, a đảng,
ái quốc chủ nghĩa, can vanh chủ nghĩa, cao hoàng, cao môn, đạo nhân, đăng đệ...
b. Sự thâm nhập mạnh mẽ của các từ ngữ dân gian vào ngôn ngữ văn hoá
Cho đến những năm 20 của thế kỉ XX, Phạm Quỳnh vẫn coi “tiếng Nôm là lời tục
trong dân gian của những kẻ không biết chữ” [4] và không thể dùng chúng trong văn
chƣơng cao quý của các bậc học giả, trí thức. Thế nhƣng, mấy chục năm qua là thời kì
vƣơn mình mạnh mẽ của tiếng nói dân tộc. Các từ ngữ dân gian đã thâm nhập mạnh mẽ
vào ngôn ngữ văn hoá, trở thành bộ phận nòng cốt của ngôn ngữ văn hoá dân tộc.
Tuy nhiên, ngày nay, chẳng mấy ai còn dùng những từ nhƣ: bằng hữu, bỉ nhân, cố
nhân, đại huynh, lữ khách, ngõ hầu, phụng hành, tấu nhạc, tiện thiếp, tiểu đệ...
c. Sự thâm nhập lẫn nhau của từ vựng khẩu ngữ và từ vựng sách vở
Trong khi các từ thuộc khẩu ngữ hàng ngày của nhân dân đƣợc sử dụng rộng rãi trên
sách báo các loại, là nguồn quan trọng để cấu tạo ra các thuật ngữ khoa học, kĩ thuật thì
chúng ta lại thấy một quá trình ngƣợc lại: sự thâm nhập ngày càng nhiều của các từ vựng
sách vở vào khẩu ngữ của quần chúng. Những thuật ngữ chính trị, xã hội thông thƣờng đã
trở nên rất quen thuộc với tất cả mọi ngƣời: bình đẳng, cách mạng, cộng sản chủ nghĩa,
dân chủ, hợp tác xã, làm chủ tập thể, phổ thông đầu phiếu,...
Những thuật ngữ thuộc các lĩnh vực khác nhau nhƣ: chiến dịch, chiến lược, chiến
thuật, hạt nhân, kế hoạch, mặt trận, nguyên tử, phân phối, tấn công, tiêu dùng... cũng khá
phổ biến. Sở dĩ có tình hình trên là vì tình hình chính trị văn hoá của quần chúng ngày
càng đƣợc nâng cao. Khoa học, kĩ thuật, sách vở, không còn là của cải riêng của một số
ngƣời nào đó nữa mà dần dần trở thành vốn quý mà mọi ngƣời đều có quyền biết.
d. Sự thâm nhập của các từ địa phƣơng vào ngôn ngữ văn học toàn dân và sự
phổ biến rộng rãi của ngôn ngữ văn hoá toàn dân
Sự phát triển của từ vựng tiếng Việt chẳng những là một quá trình làm giàu thêm
kho từ ngữ của tiếng Việt mà còn là một quá trình thống nhất từ vựng, tiêu chuẩn hoá từ
vựng tiếng Việt. Từ vựng tiếng Việt ngày càng thống nhất thì lẽ tự nhiên, những từ địa
phƣơng sẽ bị gạt bỏ dần dần. Chính nhờ khuynh hƣớng đó mà ngôn ngữ văn hoá ngày
càng trong sáng, mẫu mực hơn ngôn ngữ thƣờng ngày. Hơn nữa, những từ địa phƣơng
40
trong tác phẩm văn học sau này, nói chung, là những từ thƣờng dùng, có tần suất sử dụng
cao [1].
Trong quá trình phát triển của từ vựng tiếng Việt, rất nhiều từ địa phƣơng đã đƣợc
thu hút vào vốn từ toàn dân, làm giàu thêm cho ngôn ngữ văn hoá của toàn dân. Đó chính
là những từ ngữ chỉ sản vật của địa phƣơng, những từ ngữ nghề nghiệp của riêng từ vựng,
chẳng hạn: lúa vào sữa, lúa toát đòng, lợn kéo xác, mạ ngồi, ngô xoáy uốn, tằm ăn rỗi...
3.2. Khái niệm collocation trong Tiếng Việt
Theo nhƣ cách dịch trong các cuốn từ điển Anh – Việt, Collocation nghĩa là “sự sắp
xếp vào một chỗ, sự sắp đặt theo thứ tự”. Trong lĩnh vực ngôn ngữ, collocation có thể
hiểu nôm na là “(cách) dùng từ, (cách) kết hợp từ”.
Tiếng Việt có một khái niệm rất gần với ý nghĩa của từ collocation, đó chính là cụm
từ cố định. Cụm từ cố định là đơn vị do một số từ hợp lại, tồn tại với tƣ cách một đơn vị
có sẵn nhƣ từ, có thành tố cấu tạo và ngữ nghĩa cũng ổn định nhƣ từ [2].
Nghĩa của cụm từ cố định đƣợc xây dựng và tổ chức theo lối tổ chức nghĩa của cụm
từ, và nói chung là mang tính hình tƣợng. Chính vì vậy, nếu chỉ căn cứ vào bề mặt, vào
nghĩa của từng thành tố cấu tạo thì nói chung là không thể hiểu đƣợc đích thực của toàn
cụm từ. Ví dụ: anh hùng rơm, đồng không mông quạnh, tiếng bấc tiếng chì…
Thêm nữa, cụm từ cố định có ý nghĩa nhƣ một chỉnh thể tƣơng ứng với một chỉnh
thể cấu trúc vật chất của nó. Có nghĩa là nó có tính thành ngữ rất cao, ví dụ, chỉnh thể ý
nghĩa của cụm từ cố định: rán sành ra mỡ, méo miệng đòi ăn xôi vò, say như điếu đổ… có
tính thành ngữ cao đến mức tối đa.
Cụm từ cố định cần đƣợc phân biệt với những đơn vị lân cận, dễ lầm lẫn với chúng,
là từ ghép và cụm từ tự do.
Nếu tạm thời chấp nhận tên gọi mà chƣa xác định ngay nội dung khái niệm của
chúng, thì có thể tóm tắt một trong những bức tranh phân loại cụm từ cố định Tiếng Việt
nhƣ sau [1]:
41
Hình 3. Phân loại cụm từ cố định Tiếng Việt.
Việc phân loại các cụm từ cố định tiếng Việt trên đây không phải là đã vạch ra
những ranh giới tuyệt đối giữa các loại, và không phải các đơn vị trong mỗi loại đều thể
hiện những thuộc tính thuần khiết của loại. Có những đơn vị trung gian đƣợc cấu tạo theo
lối thành ngữ nhƣng tính tự do, kém ổn định vẫn còn rõ nét. Có những đơn vị đã đạt đƣợc
tính thành ngữ khá cao nhƣng tính bền chắc, tính chỉnh thể về cấu trúc lại kém ổn định.
Nghĩa là số thành tố cấu tạo nên chúng có thể còn tăng hay giảm đƣợc một cách tuỳ nghi.
3.3. Bài toán xác định collocation trong Tiếng Việt
Khái niệm collocation và cụm từ cố định Tiếng Việt tuy rất gần nhau, nhƣng với Bài
toán xác định collocation trong Tiếng Việt, collocation đƣợc hiểu theo nghĩa rộng hơn
cụm từ cố định. Bắt nguồn từ đặc trƣng của collocation (cụm từ gồm hai hay nhiều từ
thƣờng xuyên cùng xuất hiện), Bài toán xác định collocation trong Tiếng Việt trở thành
bài toán trích chọn ra các n-gram gồm nhiều từ thƣờng xuyên xuất hiện cùng với nhau.
Collocation trong Bài toán xác định collocation trong Tiếng Việt bao gồm: từ ghép,
cụm từ cố định, hay thậm chí là cụm từ tự do... nếu chúng cùng xuất hiện với tần suất rất
lớn trong kho ngữ liệu.
Từ hơn 20 năm trƣớc, lĩnh vực Xử lý ngôn ngữ tự nhiên đã đạt đƣợc nhiều thành tựu
(nhƣ gán nhãn từ loại, phát hiện chủ đề, hoặc thu hồi thông tin...). Tuy nhiên, hầu hết
những công trình này đƣợc thực hiện cho các ngôn ngữ phƣơng Tây và giá trị của chúng
bị mất mát tƣơng đối khi đƣợc áp dụng vào các ngôn ngữ khác [7].
Chỉ rất gần đây, những nhà nghiên cứu Việt Nam mới bắt đầu bị thu hút vào lĩnh
vực Xử lý ngôn ngữ tự nhiên. Nên có rất ít các công trình nghiên cứu chính thức về ngôn
ngữ học cùng với các chuẩn từ loại Tiếng Việt, các công trình phân tích văn bản Tiếng
Việt cơ sở nhƣ gán nhãn từ loại, phân tích cú pháp... đƣợc đƣa ra. Những kho ngữ liệu cần
42
thiết đƣợc xây dựng không theo một tiêu chuẩn nhất định, và cho đến nay hầu nhƣ không
có tài nguyên nào đƣợc chia sẻ công khai [7]. Đây là khó khăn cho những ngƣời không
chuyên muốn tìm hiểu, nghiên cứu về lĩnh vực này.
Trong Luận văn Cao học của Thạc sỹ Nguyễn Cẩm Tú [27] (về vấn đề Phát hiện chủ
đề ẩn cho việc phân lớp và phân cụm tài liệu web tiếng Việt), đã sinh ra các nhãn dựa vào
Ngram testing để trích ra các cụm từ có ý nghĩa (hay các collocation) từ các n-gram trên
cơ sở các phép thử thống kê. Luận văn này có kể đến tên một vài phƣơng pháp thống kê
để xác định collocation, nhƣ Đo thông tin tƣơng hỗ (mutual information), các kỹ thuật
Kiểm thử Giả thuyết (hypothesis testing technologies), Giả thuyết Không (null
hypothesis) về tính độc lập của các từ trong n-gram và các các cách Kiểm thử để kiểm tra
tính hợp lệ của Giả thuyết Không...
Trong đó, tác giả đã sử dụng phƣơng pháp Kiểm thử Giả thuyết với n-gram (n<=2),
dựa vào Kiểm thử khi-bình phƣơng để tìm ra các collocation. Giá trị khi-bình phƣơng của
chúng đƣợc tính toán từ một tập hợp dữ liệu lớn (dữ liệu Vnexpress (199MB) và
Wikipedia (270MB) với khoảng 200 chủ đề), và có đƣa vào giá trị ngƣỡng để xác định
collocation (mà tác giả gọi là coloThreshold).
Sau đây là Bảng liệt kê các collocation với giá trị khi-bình phƣơng cao nhất.
43
Bảng 18. Các collocation có giá trị khi-bình phƣơng cao nhất.
44
Chƣơng 4. THỰC NGHIỆM VÀ ĐÁNH GIÁ
4.1. Dữ liệu thực nghiệm
4.1.1. Chuẩn bị dữ liệu
Để áp dụng các phƣơng pháp xác định collocation trong Tiếng Việt, Khóa luận này
sử dụng một bộ dữ liệu Tiếng Việt lấy từ VnExpress [5] – tờ báo điện tử đầu tiên tại Việt
Nam không có phiên bản báo giấy, là một trong những tờ báo có số ngƣời truy cập lớn
nhất Việt Nam.
Kho ngữ liệu bao gồm nhiều chủ đề thuộc nhiều lĩnh vực khác nhau, nhƣ Xã hội,
Đời sống, Văn hóa, Khoa học, Thể thao... với 135 MB dữ liệu tƣơng ứng với các trang
web đƣợc crawl bằng cách sử dụng Nutch [26].
4.1.2. Tiền xử lý dữ liệu
Dữ liệu trƣớc hết sẽ đƣợc tiền xử lý qua các bƣớc sau:
- Loại bỏ các thẻ HTML (HTML remover).
- Tách câu (Sentence segmentation): thông thƣờng, mỗi câu đƣợc phân tách nhau
bởi dấu chấm câu, dấu hỏi chấm, hoặc dấu chấm cảm (., ?, !). Tuy nhiên chúng ta phải
phân biệt dấu hiệu phân tách các câu với các trƣờng hợp khác (ví dụ, dấu chấm trong số
thập phân, địa chỉ thƣ điện tử...).
- Từ tố hóa từng câu (Sentence tokenization): tách câu thành từng từ tố (token) riêng
biệt.
- Tách từ (Word segmentation): Tiếng Việt thƣờng bao gồm từ một âm tiết, tuy
nhiên một từ có thể có nhiều hơn một am tiết. Điều này gây ra khó khăn trong việc tách
từ. Ở bƣớc này, chúng ta kết hợp hai hay nhiều âm tiết để tạo thành một từ và phân cách
chúng bởi khoảng trắng (white space).
- Lọc (Filter): sau khi tách từ, đến bƣớc loại bỏ các từ tố nói về con số, ngày tháng,
thời gian... và các từ không quan trọng (ví dụ, các từ chức năng, các từ xuất hiện quá ít
hoặc quá thƣờng xuyên).
Công việc tiền xử lý dữ liệu đƣợc thực hiện bằng công cụ JvnTextPro [28] [26].
45
4.2. Thiết kế thực nghiệm
4.2.1. Phƣơng pháp thực nghiệm
Do trong Tiếng Việt, hiếm gặp những cụm từ kiểu knock... door nhƣ trong Tiếng
Anh nên phần thực nghiệm tạm thời bỏ qua phƣơng pháp Kỳ vọng và phương sai (Mean
and variance).
Các phƣơng pháp đƣợc tiến hành thử nghiệm để xác định collocation là: Tần suất
(Frequency), Kiểm thử t (t test), Kiểm thử khi-bình phương (chi-square test), Tỉ lệ
likelihood (likelihood ratio) và Thông tin tương hỗ (mutual information). Các phƣơng
pháp này sẽ thao tác trên kho ngữ liệu VnExpress đã qua bƣớc tiền xử lý.
4.2.2. Môi trƣờng thực nghiệm
a. Cấu hình phần cứng
Quá trình thực nghiệm đƣợc tiến hành trên máy tính có cấu hình phần cứng nhƣ sau:
Thành phần Chỉ số
CPU 1 Pentium IV 2.40 GHz
RAM 1.0 GB
OS WindowsXP Service Pack 2
Bộ nhớ ngoài 120GB
Bảng 19. Cấu hình phần cứng sử dụng trong thực nghiệm.
b. Cài đặt chƣơng trình
Chƣơng trình thử nghiệm viết trên ngôn ngữ python, thực hiện trích ra các bigram
(với gram ở mức từ) từ kho ngữ liệu VnExpress đã qua bƣớc tiền xử lý nói trên, tính các
số đo cho các bigram dựa vào các phƣơng pháp thống kê kể trên.
Chƣơng trình thực hiện những công việc cụ thể nhƣ sau:
- Đọc dữ liệu từ các file text chứa trong các thƣ mục của kho ngữ liệu.
- Loại bỏ các ký tự đặc biệt, trích ra các bigram.
46
- Tính toán các giá trị Tần suất, Kiểm thử t, Kiểm thử khi-bình phương, Tỉ lệ
likelihood, Thông tin tương hỗ cho mỗi bigram bằng cách áp dụng các công thức
(đã trình bày trong phần lý thuyết).
- Sắp xếp các bigram theo thứ tự giá trị thống kê giảm dần, ghi kết quả ra các file
text.
4.2.3. Các giá trị ngƣỡng đối với từng phƣơng pháp
Ngƣỡng collocation đối với từng phƣơng pháp đƣợc chọn nhƣ bảng dƣới đây.
Phƣơng pháp Giá trị ngƣỡng
Tần suất 100
Kiểm thử t 8.40
Kiểm thử khi-bình phƣơng 983,214.93
Tỷ lệ likelihood 205.10
Thông tin tƣơng hỗ 19.86
Bảng 20. Giá trị ngƣỡng cho các phƣơng pháp xác định collocation.
Ngƣỡng đặt ra đối với các phƣơng pháp Kiểm thử đúng ra phải tuân theo Bảng phân
phối giá trị t và khi-bình phƣơng (Phụ lục) nhƣ trong phần lý thuyết đã trình bày. Tuy
nhiên dựa trên kết quả thực nghiệm và Luận văn Cao học của Thạc sỹ Nguyễn Cẩm Tú
[27], có thể đặt lại các ngƣỡng cho hai phép kiểm thử này để rút bớt số lƣợng collocation
mà các phƣơng pháp trả về, từ đó đơn giản hóa việc lấy mẫu.
4.3. Kết quả thực nghiệm và đánh giá kết quả
Từ kho ngữ liệu đƣợc chuẩn bị ban đầu (VnExpress), trích ra đƣợc gần 2 triệu
bigram. Sau khi thiết lập giá trị ngƣỡng, rút gọn đƣợc tập kết quả và thu đƣợc các bigram
có khả năng cao nhất là collocation. Việc đánh giá các phƣơng pháp dựa trên một độ đo là
độ chính xác. Cụ thể cách đánh giá nhƣ sau:
47
Tính bằng tay một tập dữ liệu test - bao gồm các bigram tốt nhất đƣợc đƣa ra bởi
mỗi phƣơng pháp đang đƣợc đánh giá. Độ chính xác đƣợc tính theo công thức:
Trong đó, tử số là số lƣợng các bigram đúng là collocation nhận đƣợc từ phƣơng
pháp, mẫu số là tổng số các collocation nhận đƣợc từ phƣơng pháp.
Phƣơng pháp Giá trị ngƣỡng Số lƣợng các
collocation
đúng nhận
đƣợc từ
phƣơng pháp
Số lƣợng các
collocation
nhận đƣợc từ
phƣơng pháp
Độ chính xác
(precision)
Tần suất 100 854 6,013 14.20%
Kiểm thử t 8.40 1,527 6,701 22.79%
Kiểm thử khi-
bình phƣơng
983,214.93 2,316 6,321 36.64%
Tỷ lệ
likelihood
205.10 1,481 6,032 24.55%
Thông tin
tƣơng hỗ
19.86 1,392 6,504 21.40%
Bảng 21. Đánh giá độ chính xác của các phƣơng pháp xác định collocation.
Trong các phƣơng pháp trên, phƣơng pháp Kiểm thử khi-bình phƣơng xem ra phù
hợp nhất với kho ngữ liệu Tiếng Việt đƣợc sử dụng (độ chính xác cao nhất, đạt xấp xỉ
36.64%).
Nhận xét rằng, độ chính xác của các phƣơng pháp đã đƣợc đƣa ra thử nghiệm còn
thấp, lý do có thể đƣợc giải thích một cách cảm tính nhƣ sau:
48
- Do ngƣời thực hiện phải đánh giá bằng tay để tìm ra các collocation trong tổng
số hàng chục nghìn kết quả, và không có sự thẩm định lại của chuyên gia, nên
khả năng lựa chọn mẫu còn chƣa chính xác.
- Bộ dữ liệu sử dụng trong thực nghiệm chƣa đủ lớn để bao phủ miền tiếng Việt.
- Riêng đối với phƣơng pháp Tần suất, chƣa có bộ lọc từ loại Tiếng Việt để tối ƣu
kết quả thu đƣợc, nên trong miền dữ liệu rải rác ở các lĩnh vực khác nhau,
phƣơng pháp Tần suất đã đƣa ra các collocation không tốt.
Bảng 22 liệt kê một số collocation với các số đo tƣơng ứng sau khi thu đƣợc từ thực
nghiệm.
Collocation Tần suất Kiểm thử t Kiểm thử khi-
bình phƣơng
Tỷ lệ
likelihood
Thông tin
tƣơng hỗ
tay vợt 5,901 76.70 4,071,297.37 33,835.18 9.39
giải đấu 1,353 36.71 723,085.02 6,626.91 8.96
thị_trƣờng
chứng_khoán
992 31.31 208,296.54 3,703.80 7.41
giám_đốc
điều_hành
599 24.44 519,288.99 3,128.79 9.65
công_nghệ
thông_tin
469 21.49 73,891.87 1,629.13 7.07
đội_tuyển
quốc_gia
340 18.38 116,530.84 1,422.93 8.21
vũ_khí
hạt_nhân
285 16.87 518,370.02 1,648.56 10.66
Bảng 22. Một số collocation thu đƣợc từ thực nghiệm.
49
Kết luận
Collocation là một phần của Ngôn ngữ tự nhiên, việc Xử lý ngôn ngữ tự nhiên sẽ
thuận lợi hơn nhiều nếu xác định đƣợc các collocation có ý nghĩa. Collocation đƣợc sử
dụng trong một số ứng dụng nhƣ: dịch máy, sinh ngôn ngữ tự nhiên, tóm tắt văn bản, xây
dựng từ điển... Chính vì vậy nghiên cứu các phƣơng pháp xác định collocation là một
công việc rất đáng đƣợc quan tâm.
Do có nhiều sự nhập nhằng của ngôn ngữ tự nhiên, và chƣa có ranh giới phân biệt
thực sự rõ ràng, nên khái niệm collocation vẫn còn mơ hồ, và rất dễ bị nhầm lẫn với các
khái niệm về từ hoặc cụm từ khác.
Khóa luận này tiếp cận các vấn đề nói trên và nghiên cứu các phƣơng pháp thống kê
phổ biến hiện nay cho việc xác định collocation, từ đó lựa chọn phƣơng pháp và thuật
toán áp dụng vào Tiếng Việt.
Khóa luận đã đạt đƣợc những kết quả sau:
- Tìm ra các cách định nghĩa khác nhau về collocation.
- Phân tích các vấn đề xung quanh bài toán xác định collocation.
- Bàn về các phƣơng pháp thống kê đang đƣợc sử dụng phổ biến để xác định
collocation.
- Khái niệm collocation trong Tiếng Việt.
- Xây dựng chƣơng trình thực nghiệm, áp dụng các thuật toán xác định collocation
trong Tiếng Việt.
Do giới hạn về thời gian cũng nhƣ kiến thức của ngƣời làm Khóa luận nên hiệu quả
chƣơng trình thực nghiệm cho Tiếng Việt còn thấp. Hơn nữa, chƣơng trình chỉ thực hiện
trích ra và tính toán thống kê cho các bigram. Hạn chế này cần đƣợc tiếp tục nghiên cứu
và cải tiến để cho kết quả tìm kiếm collocation tốt hơn trong Tiếng Việt.
50
Tài liệu tham khảo
Tài liệu Tiếng Việt
[1] Hoàng Thị Châu. Vài nhận xét về quá trình tiêu chuẩn hoá tiếng Việt thể hiện qua
cách dùng từ địa phương trong sách vở, báo chí trước và sau Cách mạng Tháng Tám.
Tạp chí Ngôn ngữ, số 4 (1970),
[2] Mai Ngọc Chừ; Vũ Đức Nghiệu & Hoàng Trọng Phiến. Cơ sở ngôn ngữ học và tiếng
Việt. Nxb Giáo dục, H., 1997.
[3] Nguyễn Thiện Giáp. Từ vựng học tiếng Việt. Nxb Giáo dục, H., 2002.
[4] Phạm Quỳnh. Bàn về sự dùng chữ nho trong văn học quốc ngữ. Nam Phong tạp chí,
số 9 (1919),
[5] Báo điện tử VnExpress,
[6] Trung tâm ngôn ngữ học Việt Nam, Đặc điểm Tiếng Việt,
Tài liệu Tiếng Anh
[7] Thanh Bon Nguyen, Thi Minh Huyen Nguyen, Laurent Romary, Xuan Luong Vu,
Lexical Descriptions For Vietnamese Language Processing, 2004,
[8] Church Kenneth W., and Robert L. Mercer. 1993. Introduction to the special issue on
computational linguistics using large corpora. Computational Linguistics 19:1–24.
[9] Church Kenneth W., and William A. Gale. 1991. Concordances for parallel text.In
Proceedings of the Seventh Annual Conference of the UW Centre for the NewOED
and Text Research, pp. 40–62, Oxford.
[10] Church Kenneth W., and Patrick Hanks. 1989. Word association norms, mutual
information and lexicography. In ACL 27, pp. 76–83,
51
[11] Church Kenneth, William Gale, Patrick Hanks, and Donald Hindle. 1991. Using
statistics in lexical analysis. In Uri Zernik (ed.), Lexical Acquisition: Exploiting On-
Line Resources to Build a Lexicon, pp. 115–164. Hillsdale, NJ: LawrenceErlbaum.
[12] Cover, Thomas M., and Joy A. Thomas. 1991. Elements of Information Theory.
New York: John Wiley & Sons.
[13] Dunning, Ted. 1993. Accurate methods for the statistics of surprise and
coincidence. Computational Linguistics 19:61–74.
[14] Gitsaki C., Daigaku N. and Taylor R. (2000). English collocations and their place
in the EFL, classroom available at:
[15] Hodges, Julia, Shiyun Yie, Ray Reighart, and Lois Boggess. 1996. An automated
system that assists in the generation of document indexes. Natural Language
Engineering 2:137–160.
[16] Joachim Wermter Udo Hahn - Computerlinguistik, Friedrich-Schiller-Universität
Jena - Fürsten graben 30, D-07743 Jena, Germany. Collocation extraction based on
modifiability statistics,
[17] Kostas Fragos, Yannis Maistros, Christos Skourlas. Extracting collocation in
modern Greek language,
[18] Krenn and S. Evert. 2001. Can we do better than frequency? A case study on
extracting pp-verb collocations. In Proceedings of the ACL Workshop on
Collocations.
[19] Lin D. (1998). Extracting collocations from text corpora. In First Workshop on
Computational Terminology, Montreal, Canada, Augaust,
[20] Manning C. And Schütze H. (1999). Foudations of statistical Natural Language
Processing (fifth printing 2002). The MIT Press.
[21] Mood, Alexander M., Franklin A. Graybill, and Duane C. Boes. 1974. Introduction
to the theory of statistics. New York: McGraw-Hill. 3rd edition.
52
[22] Raplph Grishman. Computational linguistic. Courant Institute of Mathematical
Sciences, New Yourk University.
[23] Smadja, Frank A., and Kathleen R. McKeown. 1990. Automatically extracting and
representing collocations for language generation. In ACL 28, pp. 252–259,
[24] Smandja F. (1993). Retrieving collocations from text: Xtract. Computational
Linguistics, 19(1):143-177, March.
[25] Smith A. David (2002). Detecting events with date and place information in
unstructured,
[26] Le Dieu Thu, On the analysis of large-scale datasets towards online contextual
advertising, Thesis in College of Technology, Viet Nam National University, 2008.
[27] Nguyen Cam Tu, Hidden topic discovery toward classification and clustering in
Vietnamese web documents, Master Thesis in College of Technology, Viet Nam
National University, 2008.
[28] Nguyen Cam Tu, JVnTextpro: A Java-based Vietnamese Text Processing Toolkit.
[29] Distribution tables,
53
Phụ lục
1. Bảng phân phối t [29]
54
2. Bảng phân phối [29]
Các file đính kèm theo tài liệu này:
- LUẬN VĂN-NGHIÊN CỨU BÀI TOÁN XÁC ĐỊNH COLLOCATION TRONG TIẾNG VIỆT.pdf