Luận văn Các kỹ thuật xác định collocation và ứng dụng cho tiếng Việt

Tài liệu Luận văn Các kỹ thuật xác định collocation và ứng dụng cho tiếng Việt: ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Đồng Thị Ngân CÁC KỸ THUẬT XÁC ĐỊNH COLLOCATION VÀ ỨNG DỤNG CHO TIẾNG VIỆT KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công Nghệ Thông Tin HÀ NỘI - 2010 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Đồng Thị Ngân CÁC KỸ THUẬT XÁC ĐỊNH COLLOCATION VÀ ỨNG DỤNG CHO TIẾNG VIỆT KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công Nghệ Thông Tin Cán bộ hướng dẫn: TS. Lê Anh Cường HÀ NỘI - 2010 LỜI CẢM ƠN Trước hết, em xin gửi lời cảm ơn chân thành tới TS. Lê Anh Cường, người đã luôn theo sát giúp đỡ em trong quá trình hoàn thành luận văn này. Đồng thời, em cũng xin cảm ơn các thầy cô giáo trong bộ môn Khoa học máy tính nói riêng và các thầy cô giáo trong khoa Công nghệ thông tin nói chung. Nếu không có các thầy, các cô và khoa thì chắc chắn em không thể hoàn thành tốt khoá luận. Cuối cùng, tôi xin bày tỏ sự biết ơn vô hạn tới cha mẹ, các anh chị và bạn bè đã luôn ở bên cạnh khuyến khíc...

49 trang | Chia sẻ: haohao | Lượt xem: 1287 | Lượt tải: 0

Bạn đang xem trước 20 trang mẫu tài liệu Luận văn Các kỹ thuật xác định collocation và ứng dụng cho tiếng Việt, để tải tài liệu gốc về máy bạn click vào nút DOWNLOAD ở trên

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Đồng Thị Ngân CÁC KỸ THUẬT XÁC ĐỊNH COLLOCATION VÀ ỨNG DỤNG CHO TIẾNG VIỆT KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công Nghệ Thông Tin HÀ NỘI - 2010 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Đồng Thị Ngân CÁC KỸ THUẬT XÁC ĐỊNH COLLOCATION VÀ ỨNG DỤNG CHO TIẾNG VIỆT KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công Nghệ Thông Tin Cán bộ hướng dẫn: TS. Lê Anh Cường HÀ NỘI - 2010 LỜI CẢM ƠN Trước hết, em xin gửi lời cảm ơn chân thành tới TS. Lê Anh Cường, người đã luôn theo sát giúp đỡ em trong quá trình hoàn thành luận văn này. Đồng thời, em cũng xin cảm ơn các thầy cô giáo trong bộ môn Khoa học máy tính nói riêng và các thầy cô giáo trong khoa Công nghệ thông tin nói chung. Nếu không có các thầy, các cô và khoa thì chắc chắn em không thể hoàn thành tốt khoá luận. Cuối cùng, tôi xin bày tỏ sự biết ơn vô hạn tới cha mẹ, các anh chị và bạn bè đã luôn ở bên cạnh khuyến khích, động viên, giúp em vượt qua những khó khăn trong quá trình thực hiện luận văn. Hà Nội, ngày 21 tháng 5 năm 2010 Sinh viên thực hiện ĐỒNG THỊ NGÂN TÓM TẮT LUẬN VĂN Collocation đóng vai trò quan trọng trong các ứng dụng xử lý ngôn ngữ tự nhiên cũng như biên soạn từ điển. Tuy nhiên, ở Việt Nam hiện nay, nghiên cứu về collocation là một lĩnh vực khá mới mẻ. Luận văn này tập trung vào nghiên cứu một số phương pháp trích chọn collocations nhằm tìm ra mô hình hiệu quả cho việc trích chọn collcations trong tiếng Việt. Các phương pháp được nêu ra bao gồm một số phương pháp thống kê cổ điển thường được sử dụng cho tiếng Anh và tiếng Đức đồng thời đề xuất một số phương pháp tổng hợp nhằm tăng độ chính xác của quá trình trích chọn. Không chỉ dừng lại ở các phương pháp, chúng tôi cũng tiến hành nghiên cứu ảnh hưởng của việc tiền xử lý dữ liệu lên độ chính xác của chương trình trích chọn. Dữ liệu thử nghiệm bao gồm cả dữ liệu thô, chưa qua xử lý, dữ liệu đã được qua một bộ gán nhãn từ loại và dữ liệu đã được phân tích cú pháp. Thông qua việc chạy các chương trình với đầu vào dữ liệu khác nhau, so sánh độ chính xác của các phương pháp, chúng tôi đề xuất mô hình trích chọn hiệu quả cho tiếng Việt. GIỚI THIỆU Trong tiếng Anh, người ta chỉ dùng “strong tea”, chứ không dùng “powerful tea”, mặc dù “strong” và “powerful” tương đương với nhau về nghĩa, và “powerful tea” không sai cả về cấu trúc ngữ pháp và về nghĩa. Nhưng nó không được dùng đơn giản chỉ là bởi vì người bản xứ không quen dùng như vậy. Những sự kết hợp từ không tuân theo một quy tắc ngữ pháp hay ngữ nghĩa nào như vậy được giới hạn trong một định nghĩa collocations. Như vậy, một collocation có thể được hiểu là một sự kết hợp các từ không tuân theo một quy tắc ngữ pháp hay ngữ nghĩa nào cả. Xét về một số khía cạnh nào đó, collocations mang tính thành ngữ, cứng nhắc. Nghĩa của một collocation thường không được suy ra từ nghĩa của các từ thành phần, và sự thay thế một từ thành phần bằng một từ đồng nghĩa có thể làm thay đổi hoàn toàn nghĩa của collocation đó. Có rất nhiều định nghĩa về collocation đã được đưa ra, tuy nhiên, không một định nghĩa nào được coi là chính thống, hay chuẩn. Định nghĩa và phương pháp trích chọn collocation phụ thuộc vào mục đích sử dụng của người làm nghiên cứu. Trong luận văn này, chúng tôi chấp nhận định nghĩa collocation là một sự kết hợp các từ thường xuất hiện cùng nhau trên mức bình thường trong văn bản, với vị trí và quan hệ ngữ pháp tương đối cố định. Collocations có ứng dụng rộng rãi trong các lĩnh vực ngôn ngữ học [2, 21, 23], biên soạn từ điển[1] cũng như các bài toán xử lý ngôn ngữ tự nhiên[4, 14, 16, 18, 25, 27, 29]. Chính vì vậy, việc trích chọn các collocations trong mỗi ngôn ngữ là thực sự cần thiết, nhằm nâng cao độ chính xác và tính tự nhiên của các ứng dụng xử lý ngôn ngữ tự nhiên, cũng như giúp việc học một ngôn ngữ mới dễ dàng hơn. Có khá nhiều nghiên cứu về việc trích chọn collocations cho tiếng Anh đã được tiến hành, tuy nhiên, nghiên cứu về collocations cho tiếng Việt vẫn còn là một lĩnh vực khá mới mẻ. Chưa có nhiều nghiên cứu được tiến hành và kết quả thu được vẫn còn ở mức độ rất hạn chế. Luận văn này tập trung vào việc áp dụng một số phương pháp thống kê vào trích chọn collocation trong tiếng Việt, nghiên cứu tác động của việc tiền xử lý văn bản lên quá trình trích chọn, so sánh độ chính xác các mô hình thử nghiệm; từ đó, đề xuất một số phương pháp kết hợp nhằm cải thiện độ chính xác của chương trình. Mục tiêu của luận văn:  Khái quát về collocations trong tiếng Việt: trình bày chi tiết về định nghĩa, đặc trưng, phân loại, và một số ứng dụng của collocations trong dịch máy và các bài toán xử lý ngôn ngữ tự nhiên.  Trình bày một số phương pháp trích chọn collocation dựa trên thống kê. Cụ thể hơn, trong giới hạn luận văn này, chúng tôi sẽ đi sâu vào bốn phương pháp: phương pháp dựa trên tần số, hai phương pháp kiểm định giả thuyết và phương pháp dựa trên thông tin tương hỗ. Với mỗi phương pháp, từ việc trình bày cơ sở lý thuyết liên quan, chúng tôi đi đến cách áp dụng chúng vào bài toán trích chọn collocations trong tiếng Việt, một số mô hình thực nghiệm, kết quả và đánh giá về việc áp dụng bốn phương pháp đó vào trích chọn collocations trong tiếng Việt.  Đề xuất một số phương pháp thống kê là kết hợp của ba hoặc bốn phương pháp đã được trình bày ở trên, xây dựng mô hình thực nghiệm, đánh giá kết quả và độ chính xác của chương trình.  Đề xuất một phương pháp kết hợp thống kê và thông tin cú pháp áp dụng cho trích chọn collocation có dạng cụm danh từ. Từ việc trình bày cơ sở lý thuyết, chúng tôi xây dựng mô hình thực nghiệm, đánh giá kết quả thu được và độ chính xác của chương trình dựa trên phương pháp này. MỤC LỤC GIỚI THIỆU Chương 1. KHÁI QUÁT VỀ COLLOCATIONS TRONG TIẾNG VIỆT 1 1.1. ĐỊNH NGHĨA ............................................................................................ 1 1.2. ĐẶC TRƯNG ............................................................................................. 1 1.2.1. Được sử dụng lặp đi lặp lại trong văn bản. .............................................. 1 1.2.2. Có tính cứng nhắc: .................................................................................. 2 1.2.3. Phụ thuộc vào lĩnh vực của văn bản. ....................................................... 2 1.2.4. Có liên kết kết chặt chẽ về mặt từ vựng: ................................................. 3 1.3. PHÂN LOẠI ............................................................................................... 3 1.4. ỨNG DỤNG ............................................................................................... 5 Chương 2. MỘT SỐ PHƯƠNG PHÁP CỔ ĐIỂN DỰA TRÊN THỐNG KÊ 7 2.1. PHƯƠNG PHÁP DỰA TRÊN TẦN SỐ ..................................................... 8 2.2. PHƯƠNG PHÁP KIỂM ĐỊNH GIẢ THUYẾT .......................................... 9 2.2.1. Phương pháp kiểm tra t ........................................................................... 9 2.2.2. Phương pháp kiểm tra Pearson Chi bình phương. ................................. 12 2.3. PHƯƠNG PHÁP SỬ DỤNG THÔNG TIN TƯƠNG HỖ (POINTWISE MUTUAL INFORMATION (PMI))...................................................................... 13 2.4. KẾT QUẢ THỰC NGHIỆM .................................................................... 15 2.4.1. Khái quát về dữ liệu sử dụng ................................................................ 15 2.4.2. Trích chọn bigrams ............................................................................... 16 2.4.3. Các mô hình thử nghiệm ....................................................................... 18 2.4.4. Kết quả thực nghiệm ............................................................................. 19 Chương 3. MỘT PHƯƠNG PHÁP KẾT HỢP ÁP DỤNG CHO TRÍCH CHỌN COLLOCATIONS CÓ DẠNG CỤM DANH TỪ ............................ 25 3.1. GIAI ĐOẠN 1: TRÍCH CHỌN CÁC COLLCOATIONS CÓ DẠNG BIGRAM. ............................................................................................................. 26 3.1.1. Bước 1: Trích chọn bigram ................................................................... 26 3.1.2. Bước 2: Lọc các bigram không hợp lệ .................................................. 27 3.2. GIAI ĐOẠN 2: TRÍCH CHỌN CÁC COLLOCATIONS LÀ CỤM DANH TỪ CÓ DẠNG N-GRAM. .................................................................................... 28 3.2.1. Bước 1: ................................................................................................. 29 3.2.2. Bước 2: ................................................................................................. 29 3.2.3. Bước 3: ................................................................................................. 29 3.3. KẾT QUẢ THỰC NGHIỆM .................................................................... 30 Chương 4. KẾT LUẬN ............................................................................. 33 TÀI LIỆU THAM KHẢO PHỤ LỤC A PHỤ LỤC B DANH SÁCH HÌNH VẼ Hình 2-1: Kết quả chạy 4 phương pháp khi chạy trên bộ dữ liệu chỉ được tách từ với độ lớn cửa sổ thay đổi từ 1 đến 5 ..................................................................................... 20 Hình 2-2: Kết quả thử nghiệm trên bộ dữ liệu đã được gán nhãn ................................ 21 Hình 2-3: Kết quả chạy thực nghiệm 9 mô hình trên bộ dữ liệu đã được phân tích cú pháp ........................................................................................................................... 22 Hình 2-4: Kết quả chạy thực nghiệm trên tất cả các mô hình với 3 tập dữ liệu đầu vào ................................................................................................................................... 22 DANH SÁCH BẢNG Bảng 1-1: Một số collocation có quan hệ vị ngữ trong tiếng Việt................................. 4 Bảng 2-1: Mẫu nhãn từ loại cho bộ lọc nhãn từ loại cho tiếng Anh .............................. 8 Bảng 2-2: Mẫu nhãn cho bộ lọc nhãn từ loại cho tiếng Việt ......................................... 9 Bảng 2-3: Một số collocations được trích chọn bằng phương pháp kiểm tra t ............ 11 Bảng 2-4: Ví dụ sử dụng phương pháp kiểm tra Chi-square bình phương .................. 12 Bảng 2-5: Kết quả thu được khi trích chọn collocations sử dụng phương pháp kiểm tra Chi bình phương ......................................................................................................... 13 Bảng 2-6: Một số collocation trích chọn được bằng phương pháp dựa trên thông tin tương hỗ ..................................................................................................................... 14 Bảng 2-7: Bộ nhãn sử dụng bởi vnTagger................................................................... 15 Bảng 2-8: Kết quả chạy thực nghiệm 4 phương pháp trên bộ dữ liệu đã được tách từ với độ lớn cửa sổ thay đổi từ 1 đến 5 .......................................................................... 19 Bảng 2-9: Kết quả thu được khi chạy 9 mô hình trên bộ dữ liệu đã được gán nhãn từ loại ............................................................................................................................. 20 Bảng 2-10: Kết quả chạy thực nghiệm 9 mô hình trên bộ dữ liệu đã được phân tích cú pháp ........................................................................................................................... 21 Bảng 2-11: Kết quả chạy thực nghiệm trên tất cả các mô hình thực nghiệm............... 23 Bảng 3-1: Một số bigrams và thông tin về vị trí và tần suất xuất hiện của chúng ....... 27 Bảng 3-2: Một số bigram là kết quả của giai đoạn 1 .................................................. 30 Bảng 3-3: Kết quả chạy chương trình ở giai đoạn 1 ................................................... 30 Bảng 3-4: Một số cụm danh từ cố định được trích chọn từ giai đoạn 2....................... 31 1 Chương 1. KHÁI QUÁT VỀ COLLOCATIONS TRONG TIẾNG VIỆT Vì những nghiên cứu về collocations cho tiếng Việt còn ở mức độ hạn chế cả về số lượng và chất lượng, khái niệm về collocations còn ít nhiều xa lạ với nhiều người, ngay cả đối với những người làm nghiên cứu trong lĩnh vực xử lý ngôn ngữ tự nhiên. Chương đầu tiên của luận văn này làm nhiệm vụ giới thiệu khái quát về collocation và liên hệ cho tiếng Việt, giúp người đọc hiểu hơn về collocations và sự cần thiết của việc xây dựng một hệ thống trích chọn collocations cho tiếng Việt. Cụ thể hơn, nó có nhiệm vụ trả lời bốn câu hỏi chính: Collocations là gì? Đặc trưng của một collocation? Có những loại collocations nào? Phải trích chọn collocations để làm gì? Phần còn lại của chương sẽ đi sâu vào trả lời bốn câu hỏi này. 1.1. ĐỊNH NGHĨA Firth[17] định nghĩa collocation là một khái niệm cú pháp trừu tượng, không trực tiếp liên hệ với nghĩa của các từ cấu thành lên nó. Choueka[5] quan niệm collocation là một dãy gồm hai hoặc nhiều hơn các từ liên tiếp nhau, có những đặc trưng của một đơn vị cú pháp có nghĩa, và nghĩa của nó không thể được suy ra trực tiếp từ nghĩa của các từ thành phần. Còn theo Benson[2]: một collocation là một tổ hợp cố định và lặp đi lặp lại các từ. Như vậy, Firth thiên về góc độ từ vựng của collocation, còn Choueka lại thiên về chức năng cú pháp của collocation trong văn bản. Định nghĩa của Benson là một trong những định nghĩa hay được sử dụng nhất, tuy nhiên nó đã bỏ qua một số đặc trưng và thuộc tính của collocation ứng dụng trong dịch máy như không thể dịch một collocation trong tiếng Anh sang tiếng Việt theo cách đơn thuần dịch từ tương ứng với từ. Đã có khá nhiều nghiên cứu về collocation cho tiếng Anh được tiến hành, tuy nhiên không có định nghĩa chuẩn nào về collocation được đưa ra, và định nghĩa về collocation phụ thuộc vào quan điểm và mục đích sử dụng của mỗi người làm nghiên cứu. Trong luận văn này, chúng tôi chấp nhận định nghĩa: collocation là một sự kết hợp các từ thường xuất hiện cùng nhau trên mức bình thường trong văn bản, với vị trí và quan hệ ngữ pháp tương đối cố định. 1.2. ĐẶC TRƯNG Theo định nghĩa được nêu ra ở trên, một collocation có 4 đặc trưng chính: 1.2.1. Được sử dụng lặp đi lặp lại trong văn bản. Sự xuất hiện cùng nhau của các từ tạo thành collocation trong một văn bản không phải là một trường hợp đặc biệt, mà chúng được sử dụng lặp đi lặp lại trong một ngữ cảnh nhất định. Các cụm từ như “to make a decision, to hit a record, to perform 2 an operation” là các collocation thường gặp trong văn bản tiếng Anh, hay “nhiễm HIV/AIDS, chuyển_dịch cơ_cấu, học_hỏi kinh_nghiệm” là các collocation thường gặp trong văn bản tiếng Việt; và các cụm từ như “to buy short, to ease the jib” hoặc “tiêm vaccine, kiểm_thử phần_mềm”là các collocation đặc trưng cho các lĩnh vực chuyên môn. Cả hai loại collocation đều được sử dụng lặp đi lặp lại trong các ngữ cảnh nhất định. 1.2.2. Có tính cứng nhắc: Theo một nghĩa nào đó, nghĩa của một collocation mang tính thành ngữ, hay cố định. Nghĩa của một collocation thường không thể trực tiếp được suy ra từ nghĩa của các từ cấu thành nên nó. Trong hầu hết trường hợp, một collocation không thể được dịch theo kiểu từ đối từ từ một ngôn ngữ sang một ngôn ngữ khác. Ví dụ, chúng ta có thể dịch cụm từ “mở cửa” trong tiếng Việt sang tiếng Anh, tiếng Đức một cách dễ dàng, nhưng không thể dịch từ đối từ cụm từ “cạnh_tranh gay_gắt, phản_đối kịch_liệt” từ tiếng Việt sang tiếng Anh hay tiếng Đức. Một người học tiếng Việt không thể dễ dàng sử dụng cụm từ “cạnh_tranh gay_gắt, phản_đối kịch_liệt” nếu họ không biết trước nghĩa của cả cụm từ trước đó. Dịch một văn bản từ ngôn ngữ này sang một ngôn ngữ khác không chỉ đòi hỏi kiến thức về các quy tắc ngữ pháp và ngữ nghĩa vì collocations có tính cứng nhắc, kho ngữ liệu song ngữ về collocations thực sự cần thiết cho một ứng dụng dịch máy hiệu quả. 1.2.3. Phụ thuộc vào lĩnh vực của văn bản. Trong các văn bản chuyên ngành, tồn tại rất nhiều collocations. Các thuật ngữ chuyên ngành thường ít nhiều xa lạ với những người không nghiên cứu, học tập trong lĩnh vực đó. Thêm vào đó, có những từ quen thuộc với người đọc nhưng được sử dụng với nghĩa hoàn toàn khác nghĩa thông thường trong các văn bản chuyên ngành. Ví dụ trong ngành công nghệ thông tin các từ như “kỹ_nghệ phần_mềm, xử_lý bó, tài_nguyên hệ_thống…” hoàn toàn là những từ mới đối với những người học trong ngành xã hội, hoặc kinh tế khác. Bên cạnh đó, có rất nhiều cụm từ không chứa các thuật ngữ chuyên ngành nhưng nghĩa của nó vẫn không quen thuộc với những người không thuộc chuyên ngành. Ví dụ, trong văn bản tiếng Anh, “a dry suit” không phải là một bộ comple khô, mà là một loại trang phục đặc biệt giúp người thủy thủ không bị ướt trong các điều kiện thời tiết khắc nghiệt. Người bản xứ thường không ý thức được tính cứng nhắc của các collocation trong các văn bản thông thường, tuy nhiên, tính cứng nhắc của collocation trong các văn bản chuyên ngành cũng gây cho họ không ít khó khăn. 3 1.2.4. Có liên kết kết chặt chẽ về mặt từ vựng: Chúng ta thường không thể thay thế một thành phần tạo thành collocation bằng từ đồng nghĩa của nó, vì việc thay thế có thể dẫn đến làm thay đổi hoàn toàn nghĩa của cụm từ ban đầu. Tính chất này của collocation thường được sử dụng bởi các nhà thực hành và biên soạn từ điển khi sưu tập các collocations (Cowie[7]; Benson[2]). Các nhà thực hành và biên soạn từ điển dựa vào ý niệm ngôn ngữ của người khác để quyết định cụm từ nào là collocation và cụm từ nào không phải là collocation. Họ thu thập thông tin dưới dạng bảng hỏi bao gồm các câu, mỗi câu đều bị lấy đi một từ. Các từ khuyết có thể dễ dàng được trả lời bởi người bản xứ, trong khi với người học ngôn ngữ (đó, đó là việc không đơn giản. Chính vì vậy, collocation có phân phối xác suất riêng (Halliday[22]; Cruse[8]). Nói cách khác, ví dụ, xác suất cụm “red herring” xuất hiện liền nhau trong văn bản sẽ lớn hơn tích xác suất xuất hiện của “red” với xác suất xuất hiện của “herring”; hay chúng ta không thể coi hai từ đó là hai biến ngẫu nhiên độc lập. Dựa trên nhận định này, chúng ta xây dựng được tập các phương pháp trích chọn và nhận dạng collocation từ các corpus dữ liệu lớn dựa trên thống kê. 1.3. PHÂN LOẠI Các nhà ngôn ngữ học và các nhà biên soạn từ điển đã tiến hành khá nhiều nghiên cứu nhằm đưa ra một hệ thống phân loại dành cho collocations. Một hệ thống phân loại đã được đưa ra dựa trên quan hệ giữa hai từ thành phần. Theo đó, có hai loại collocation chính là collocation có quan hệ về ngữ pháp và collocation có quan hệ về ngữ nghĩa. Collocations có quan hệ về ngữ pháp thường bao gồm các giới từ, bao gồm các cặp từ có cấu trúc dạng động từ + giới từ(ví dụ come to, put on), tính từ + giới từ (như afraid of, fond of) và danh từ + giới từ (ví dụ: by accident, witness to). Collocations có quan hệ về mặt ngữ nghĩa là các cặp từ giới hạn về mặt từ vựng, không phải khi nào chúng ta cũng có thể thay thế một từ thành phần bằng từ đồng nghĩa của nó. Một hệ thống phân loại khác là thiên về cấu trúc của collocation. Theo đó, có hai loại collocations: các collocations là các cụm từ ghép và các collocation có cấu trúc linh động hơn. Collocations là các cụm từ ghép bao gồm các cặp từ xuất hiện liền nhau trong văn bản, và với chức năng cú pháp cố định. Cụm danh từ + danh từ là ví dụ về loại collocation như thế. Các collocation là các cặp từ linh động bao gồm các collocations có dạng chủ ngữ và động từ, và giữa chúng có thể có khoảng cách (hay xuất hiện các từ xen ngang). 4 Một hệ thống nữa được đưa ra bởi Smadja[19] trong bộ công cụ Xtract, theo đó, các collocation được chia làm 3 loại chính: - Collocations có quan hệ cú pháp: là loại collocation có cấu trúc linh động nhất. Chúng thường là các cặp từ không liền nhau trong văn bản, xuất hiện cùng nhau lặp đi lặp lại với một cấu trúc ngữ pháp nhất định. Ví dụ: “hostile-takeover”, “make-decision”. Bảng 1-1 minh họa một số collocations có quan hệ vị ngữ trong tiếng Việt. Bảng 1-1: Một số collocation có quan hệ vị ngữ trong tiếng Việt Loại Collocations N-A Màu_sắc sinh_động N-A Đồi trọc N-A Nụ_cười rạng_rỡ V-A Tàn_phá nặng_nề V-A Thở_phào nhẹ_nhõm V-A Cảm_thông sâu_sắc V-V Thực_hiện cải_cách V-V Đề_nghị hợp_tác V-O Khủng_hoảng tài_chính V-O Chăn_nuôi heo V-O Lập biên_bản với N là danh từ, V là động từ và A là tính từ - Collocations là các cụm danh từ cố định: là loại collocation có cấu trúc cố định nhất. Chúng bao gồm các cụm danh từ mang tính chất thuật ngữ trong các lĩnh vực cụ thể, và các cụm danh từ mà nghĩa của nó không thể được suy ra từ nghĩa của các từ thành phần. Ví dụ: “stock market”, “foreign exchange”, “New York Stock Exchange”, “The Dow Jones average of 30 industrials”. Bảng 1-2 minh họa một số collocation có dạng cụm danh từ cố định trong tiếng Việt. 5 Bảng 1-2: Một số collocations có dạng cụm danh từ cố định Mức thuế_suất nhập_khẩu Tình_hình kinh_tế chính_trị Khối đại_đoàn_kết toàn dân Quyền và nghĩa_vụ của công_dân Cuộc chiến_tranh Đồn biên_phòng - Collocations là các cụm từ khuôn mẫu: thường bao gồm các cụm từ mang tính chất thành ngữ, chứa một, một vài, hoặc không có chỗ trống nào. Nếu tồn tại chỗ trống, các cụm từ khuôn mẫu cho phép xác định nhãn của các từ có thể được thêm vào chỗ trống đó. Ví dụ: “The average finished the week with a net loss of *NUMBER*”. Bảng 1-3: Một số collocation có dạng cụm từ khuôn mẫu Vận_tải hành_khách công_cộng quyền và lợi_ích hợp_pháp chính_đáng mối quan_hệ hợp_tác hữu_nghị giữa nhân kỷ_niệm * NUMBER * năm Hiệp_định Thương_mại * NOUN * ông * NOUN * - Phó_Giám đốc 1.4. ỨNG DỤNG Collocations tồn tại rất nhiều trong văn bản. Khái niệm về collocation bao trùm từ các cụm từ hay đi liền nhau trong văn bản đến các cụm từ mang tính chất thành ngữ, các thuật ngữ chuyên ngành. Có hai vấn đề chính cần được quan tâm khi nhắc đến collocation, cũng xuất phát từ chính định nghĩa của nó, đó là tính cứng nhắc và không thể tách rời về nghĩa giữa các cụm từ. Có những cụm từ, không sai về cấu trúc ngữ pháp, cũng không sai về nghĩa hay vi phạm quy tắc từ vựng nào, nhưng vẫn không được coi là đúng, hay không được chấp nhận, chỉ đơn giản vì người bản xứ không nói như thế, không sử dụng một cụm từ được kết hợp như thế. Vấn đề này chính là nguyên nhân của không ít khó khăn mà người mới học một ngôn ngữ gặp phải. Chính vì vậy, 6 một nhu cầu tự nhiên, rất thường gặp trong đời sống hàng ngày là trích chọn các collocations cho một ngôn ngữ để giúp người học ngôn ngữ đó quen với cách dùng từ, kết hợp từ của người bản ngữ. Một vấn đề thứ hai liên quan đến collocation chúng tôi muốn nhắc đến ở đây là vấn đề liên quan đến nghĩa của collocation. Như đã nói ở trên, nghĩa của một collocation thường không được suy ra trực tiếp từ nghĩa của các từ thành phần. Đặc trưng này có ảnh hưởng quan trọng đến một hệ thống dịch máy. Yêu cầu người dùng đối với mỗi hệ thống dịch máy là văn bản đích đạt được một độ chính xác và một độ trôi chảy nhất định. Sử dụng phương pháp dịch từ đối từ để dịch một collocation từ một ngôn ngữ này sang một ngôn ngữ khác không chỉ làm giảm độ chính xác của hệ thống mà còn ảnh hưởng không nhỏ tới độ trôi chảy của văn bản đích. Chính vì vậy, một chương trình dịch máy có khả năng nhận dạng collocation và dịch, đồng thời cập nhật vào từ điển collocation song ngữ không chỉ làm tăng độ chính xác của chương trình mà còn làm tăng tính tự nhiên của văn bản. Thêm vào đó, kho ngữ liệu song ngữ về collocation còn giúp ích không nhỏ cho các chương trình sinh ngôn ngữ và nhiều ứng dụng khác. Nói tóm lại, trong khi nhu cầu về các ứng dụng xử lý ngôn ngữ tự nhiên đang ngày càng tăng cao, việc trích chọn một collocation trong một ngôn ngữ là thực sự cần thiết. Nó không chỉ giúp tăng độ chính xác của các chương trình, mà còn làm cho kết quả (bản dịch hay ngôn ngữ được sinh ra…) gần với ngôn ngữ tự nhiên hơn. 7 Chương 2. MỘT SỐ PHƯƠNG PHÁP CỔ ĐIỂN DỰA TRÊN THỐNG KÊ Hướng tiếp cận cổ điển trong nghiên cứu về collocation là hướng tiếp cận của các nhà thực hành và biên soạn từ điển. Theo Benson và Morton[2], các thành phần tạo thành collocation không thể tách ra xử lý một cách độc lập. Do đó, quá trình trích chọn collocation là không theo một khuôn mẫu có sẵn nào, mà phải được trích chọn bằng tay, và thêm vào trong từ điển. Trong những năm gần đây, các cách tiếp cận dựa trên thống kê đã được áp dụng trong các nghiên cứu về ngôn ngữ và sự trích chọn các collocation. Điều này một phần xuất phát từ thực tế rằng ngày càng có nhiều corpus dữ liệu lớn tồn tại dưới dạng máy tính có thể hiểu được. Chouka[5] đã phát triển chương trình tự động trích chọn collocation từ văn bản sử dụng n-gram từ 2 đến 6 từ. Một phương pháp đơn giản để xác định các collocation trong corpus dữ liệu là dựa trên tần suất xuất hiện. Nếu hai hay nhiều từ thường xuất hiện cùng nhau, chúng hoàn toàn có thể tạo thành collocation. Tuy nhiên, n-grams có tần suất xuất hiện cao nhất đôi khi lại không phải là một collocation. Ví dụ, nếu chúng ta xét các bigram trong corpus dữ liệu như of the, in the, to the, etc. Để giải quyết vấn đề này, Justeson và Katz[28] đưa ra một phương pháp dựa trên kinh nghiệm để cải thiện độ chính xác chương trình, bằng cách cho các bigram đi qua một bộ lọc dựa trên nhãn từ loại. Bộ lọc này chỉ cho đi qua các N-gram có cấu trúc xác định. Một số mẫu được sử dụng để dọc như AN, NN, AAN, và ANN, với A tương ứng với tính từ, N tương ứng với danh từ. Mặc dù phương pháp dựa trên kinh nghiệm được đưa vào khá đơn giản, tuy nhiên đã cải thiện đáng kể độ chính xác của chương trình. Phương pháp trích chọn dựa trên tần suất được áp dụng khá hiệu quả cho các cụm danh từ cố định. Tuy nhiên, nó lại không thực sự hiệu quả với các collcation có cấu trúc linh động hơn, hay với các collcation có các từ thành phần không liền nhau trong văn bản. Các phương pháp kiểm định giả thuyết và phương pháp dựa trên thông tin tương hỗ được đưa ra để cải thiện tình trạng này. Tuy nhiên, mỗi phương pháp có một điểm mạnh và điểm yếu nhất định, và tùy vào bộ dữ liệu sử dụng, chúng ta quyết định phương pháp trích chọn nào là thích hợp nhất. Phần còn lại của chương này, chúng tôi đi sâu vào giới thiệu chi tiết bốn phương pháp cổ điển dựa trên thống kê thường được dùng trong trích chọn collocation: phương pháp dựa trên tần số, phương pháp kiểm tra t, phương pháp kiểm tra Chi bình phương, và phương pháp sử dụng thông tin tương hỗ. 8 2.1. PHƯƠNG PHÁP DỰA TRÊN TẦN SỐ Phương pháp này dựa trên giả định: collocation là tổ hợp các từ thường xuất hiện cùng nhau trong văn bản. Nếu hai từ (không phải là hư từ), xuất hiện cùng nhau nhiều lần hơn một ngưỡng nào nó, có thể coi chúng có quan hệ với nhau, hay có thể coi chúng là collocation. Tuy nhiên, độ chính xác của phương pháp này rất hạn chế. Ta có thể cải tiến phương pháp này bằng cách cho các cụm từ là bigram đi qua một bộ lọc. Bộ lọc này chủ yếu dựa trên nhãn từ loại của các từ trong cụm đưa vào, và chỉ cho qua các cụm từ mà nó cho là có thể là một cụm từ. Justeson and Katz[28] đưa ra các mẫu cho các cụm từ như vậy cho tiếng Anh. Bảng 2-1 minh họa bộ nhãn sử dụng cho tiếng Anh được đề xuất bởi Justeson and Katz[28]. Tuy nhiên, do đặc thù của tiếng Việt là tính từ thường đi sau bổ nghĩa cho danh từ, vị trí động từ, tính từ và giới từ trong câu khác với tiếng Anh, chúng tôi đề xuất một mô hình nhãn từ loại cho tiếng Việt như trong bảng 2-2. Trong các mẫu này, A đại diện cho tính từ, P đại diện cho giới từ và N đại diện cho danh từ. Khi tiến hành so sánh kết quả thực nghiệm, quả thật trích chọn các bigram theo mẫu sẵn có cải thiện đáng kể độ chính xác của chương trình trích chọn dựa trên tần số. Phần cuối của chương sẽ trình bày chi tiết hơn về vấn đề này. Bảng 2-1: Mẫu nhãn từ loại cho bộ lọc nhãn từ loại cho tiếng Anh A N Linear function N N Regression coefficients A A N Gaussian random variable A N N Cumulative distribution function N A N Mean squared error N N N Class probability function N P N Degree of freedom Trong đó, A: tính từ, N: danh từ và P: giới từ. 9 Bảng 2-2: Mẫu nhãn cho bộ lọc nhãn từ loại cho tiếng Việt N A Cà_phê đặc N N Áo sơmi, V N Hát ông_ổng, nói the_thé… V A Sống lâu, chạy nhanh… Đây là phương pháp đơn giản nhất để trích chọn collocations trong văn bản. Tuy nhiên, phương pháp này đòi hỏi bộ dữ liệu vào lớn và độ chính xác của chương trình phụ thuộc nhiều vào độ lớn của corpus dữ liệu. Thêm vào đó, nó chỉ trích chọn được các collocation là cặp từ cố định, trong khi đó, có rất nhiều collocation xuất hiện trong văn bản không đi liền nhau. 2.2. PHƯƠNG PHÁP KIỂM ĐỊNH GIẢ THUYẾT Trong rất nhiều trường hợp, hai từ có thể ngẫu nhiên xuất hiện cùng nhau mà không lập thành collocation. Với những trường hợp như vậy, chúng ta không thể áp dụng cách tiếp cận dựa trên tần số. Vì thế, phương pháp kiểm định giả thuyết được đưa ra. Bản chất của phương pháp kiểm định giả thuyết là đưa ra kết luận chấp nhận hoặc bác bỏ giả thuyết rỗng. Trong bài toán trích chọn collocations, phép kiểm định giả thuyết giúp chúng ta xác định xem hai từ xuất hiện cùng nhau một cách ngẫu nhiên hay đó là một collocation. Giả thuyết ban đầu H0 là không có sự liên quan giữa các từ ngoài các sự xuất hiện ngẫu nhiên. Từ giả thuyết rỗng này, chúng ta xác định các sự kiện xảy ra nếu H0 đúng. Tính xác suất p xuất hiện sự kiện khi H0 đúng và loại H0 nếu p quá thấp (thông thường p<0.05, 0.01, 0.005 hay 0.001) và giữ lại H0 trong các trường hợp khác. 2.2.1. Phương pháp kiểm tra t Kiểm tra t là một phương pháp kiểm định giả thuyết thường dùng. Trong phép kiểm tra t, phân phối xác suất của từ wi xung quanh từ gốc w được giả định là tuân theo phân phối chuẩn. Giả thuyết rỗng là tập mẫu có phân phối trung bình là µ, phép kiểm tra t xem xét sự sai khác giữa giá trị trung bình của tập mẫu và giá trị trung bình phân phối chuẩn của nó. Nếu t lớn hơn một ngưỡng t0 nhất định, giả thuyết rỗng H0 được chấp nhận; ngược lại, H0 bị bác bỏ. Giá trị t được tính dựa theo công thức: t = 10 Trong đó là giá trị trung bình mẫu (= count(w1, w2) / N),  là trung bình phân phối (trong bài toán này, ta coi  = P(w1w2 ),  2 là phương sai mẫu (= p(1-p) ≈ p (với p rất nhỏ)) và N là cỡ mẫu. Sau khi đã tính xong giá trị của t, chúng ta tra bảng phân phối của t ứng với độ lệch α tương ứng. Nếu t lớn hơn giá trị t0 ứng với độ lệch  xác định, ta có thể loại bỏ giả thuyết H0 với độ chính xác (1-). Ví dụ áp dụng t-test: Giả thuyết rỗng của chúng ta được phát biểu như sau: trung bình chiều cao của nam giới là 158cm. Chúng ta xét một tập mẫu gồm chỉ số chiều cao của 200 nam giới, với = 169 và σ2 = 2600 và chúng ta muốn xác định tập mẫu này có được lấy từ tập dân số đang xét ở trên không, nói cách khác nó có tuân theo giả thuyết rỗng không. Giá trị của t được tính như sau: t = ≈ 3.05 Tra bảng giá trị của t tương ứng với độ chính xác α = 0.005, chúng ta thấy giá trị t0 = 2.576. Vì t = 3.05 > 2.576 = t0 nên chúng ta có thể bác bỏ giả thuyết rỗng với độ chính xác 99.5%. Do đó, tập mẫu không được lấy từ tập dân số ở trên, và độ chính xác của phép kiểm tra lên đến 99.5%. Để minh họa việc sử dụng phép kiểm tra t trong trích chọn collocations, chúng ta tính toán giá trị t cho cụm từ new companies. Chúng ta coi corpus dữ liệu là một dãy gồm N bigrams, và tập mẫu là một tập các biến ngẫu nhiên tương ứng với mỗi bigram, nhận giá trị bằng 1 khi bigram xuất hiện trong corpus dữ liệu, và nhận giá trị bằng 0 trong trường hợp ngược lại. Trong corpus dữ liệu của chúng ta, new xuất hiện 15,828 lần, companies xuất hiện 4675 lần, và có tất cả 14,307,668 bigrams. Giá trị xác suất cho new và companies được tính như sau: P(new) = P(companies) = Giả thuyết rỗng được phát biểu rằng new và companies xuất hiện độc lập với nhau. Hay: 11 H0: P(new companies) = P(new) P(companies) = × ≈ 3.615 x 10-7 Nếu giả thuyết rỗng là đúng, quá trình sinh ngẫu nhiên các cặp bigrams và gán các giá trị bằng 0 khi bigram được sinh ra là new companies và 0 trong các trường hợp khác tuân theo phân phối Bernoulli với p = 3.615 x 10-7 là xác suất bigram được sinh ra là new companies. Giá trị trung bình phân phối: µ = 3.615 x 10-7 và độ lệch σ2 = p(1-p) ≈ p (do p có giá trị rất nhỏ). Trong corpus dữ liệu đang xét, new companies xuất hiện 8 lần, có tất cả 14307668 bigrams. Do đó, với corpus dữ liệu đang xét, chúng ta có giá trị trung bình mẫu = ≈ 5.591 x 10-7. Từ các giá trị xác suất tính được chúng ta tính được giá trị t cho cặp từ new companies bằng: t = ≈ .× .× .× ≈ 0.999932 Do t = 0.999932 < 2.576 = t0, ứng với độ chính xác α = 0.005, nên chúng ta không thể bác bỏ giả thuyết rỗng rằng new companies xuất hiện độc lập với nhau và không tạo thành collocation. Bảng 2-3: Một số collocations được trích chọn bằng phương pháp kiểm tra t w1 w2 w1 w2 freq w1 freq w2 freq t-score nợ_nần chồng_chất 11 11 11 1251.52307213141 biển_thủ công_quỹ 11 11 11 1251.52307213141 sương_mù dày_đặc 11 11 11 1251.52307213141 hồ_chứa_nước Phú_Ninh 11 11 11 1251.52307213141 rạp chiếu_bóng 11 11 11 1251.52307213141 san phẳng 12 12 12 1251.5222731106 Dàn_nhạc Giao_hưởng 12 12 12 1251.5222731106 phong_tục tập_quán 22 22 22 1251.51428290252 thiêu rụi 22 22 22 1251.51428290252 12 2.2.2. Phương pháp kiểm tra Pearson Chi bình phương. Việc sử dụng phương pháp kiểm tra t gặp phải hạn chế vì nó giả định các xác suất được phân phối đều, tuy nhiên trong thực tế, điều kiện này rất khó đươc thỏa mãn. Chính vì vậy, phương pháp kiểm tra Chi bình phương được đưa ra. Trong trường hợp đơn giản nhất, phương pháp này được áp dụng cho hai từ ứng với bảng 2x2 như hình 2-4. Bản chất của phép kiểm tra này là so sánh tần suất quan sát được trong bảng với giá trị tần suất kỳ vọng. Nếu độ lệch giữa tần suất được kỳ vọng và tần suất quan sát được lớn, chúng ta có thể bác bỏ giả thuyết rỗng về sự độc lập. Bảng 2-4: Ví dụ sử dụng phương pháp kiểm tra Chi-square bình phương w1 = new w1 # new w2 = companies 8 4667 w2 = companies 15820 14287181 Bảng 2-4 cho thấy các giá trị tần suất của new và companies trong corpus dữ liệu. C(new) = 15,828, C(companies) = 4,675, C(new companies) = 8 và có tất cả 14,307,668 bigrams. Chỉ số Chi bình phương được tính bằng tổng bình phương hiệu của giá trị mỗi ô (i,j) với giá trị kỳ vọng của nó chia cho giá trị kỳ vọng. Cụ thể, nó được xác định theo công thức: χ = ∑ , Trong đó i là chỉ số hàng và j là chỉ số cột, N là cỡ mẫu, Eij là giá trị kỳ vọng tại ô (i,j). Với bảng 2x2, Ei = (Ei1+Ei2)(E1j+E2j) / N. Phép kiểm tra Chi bình phương có thể áp dụng được cho bảng với bất kỳ kích cỡ nào; với bảng 2x2 ta có công thức đơn giản để tính giá trị Chi bình phương như sau: χ = () ()()()() Theo công thức này, giá trị Chi bình phương cho bảng 2-4 được tính bằng: ( ) ()()()() ~ 1.55 13 Tra bảng ta thấy α = 0.05 tương ứng với χ = 3.841 > 1.55, do đó, chúng ta không thể bác bỏ giả thuyết rỗng rằng new và companies xuất hiện độc lập với nhau. Hay new và companies không thể tạo thành collocation. Nhìn chung, với bài toán trích chọn collocation, phương pháp kiểm tra t và phương pháp Pearson Chi bình phương không có sự khác biệt lớn về kết quả. Trong một số trường hợp, phương pháp kiểm tra Chi bình phương tỏ ra thích hợp hơn với các xác suất lớn, khi giả định phân phối chuẩn của phép kiểm tra t không được thỏa mãn. Chính vì lý do đó, phương pháp kiểm tra Chi bình phương thường được áp dụng phổ biến hơn trong trích chọn collocation. Bảng 2-5 minh họa một số kết quả thu được khi áp dụng phương pháp kiểm tra Chi bình phương trong trích chọn collocation. Bảng 2-5: Kết quả thu được khi trích chọn collocations sử dụng phương pháp kiểm tra Chi bình phương w1 w2 w1 w2 freq w1 freq w2 freq Chi-score Giáo_hội Phật_giáo 19 19 19 1566332 Biên_soạn từ_điển 13 13 13 1566332 Công_nương Diana 13 13 13 1566332 Tật khúc_xạ 14 14 14 1566332 Xắn tay_áo 27 27 27 1566332 Nông_trường Sông_Hậu 42 54 42 1218248.88863862 đống đổ_nát 35 46 35 1191765.97807385 tiểu thủ_công_nghiệp 52 90 52 904969.865937749 Đo_lường Chất_lượng 19 33 19 901819.454447676 Bác_Hồ kính_yêu 19 33 19 901819.454447676 2.3. PHƯƠNG PHÁP SỬ DỤNG THÔNG TIN TƯƠNG HỖ (POINTWISE MUTUAL INFORMATION (PMI)) Church và Hanks [6] định nghĩa một collocation được định nghĩa là một cặp các từ xuất hiện cùng nhau trên mức tình cờ trong văn bản. Phương pháp trích chọn collocations dựa trên thông tin tương hỗ xuất phát từ định nghĩa này. Xét hai từ x và y, có xác suất xuất hiện tương ứng là P(x) và P(y), thì thông tin tương hỗ I(x,y) của hai từ được xác định bằng: I(x, y) = log (,) ().() 14 Thông tin tương hỗ giúp chúng ta xác định mức độ phụ thuộc về thông tin của 2 phần tử x, y. Trong lý thuyết thông tin, thông tin tương hỗ thường được định nghĩa là thông tin thu được từ các biến ngẫu nhiên, không phải các giá trị của các biến ngẫu nhiên như chúng ta định nghĩa ở đây. Fano định nghĩa thông tin tương hỗ là: “Lượng thông tin thu được từ sự xuất hiện của sự kiện được biểu diễn bởi [y’] về sự xuất hiện của sự kiện được biểu diễn bởi [x’]”. Ví dụ, việc đo thông tin tương hỗ cho ta thấy lượng thông tin chúng ta có về sự xuất hiện của Ayatollah tại vị trí i trong corpus dữ liệu tăng 18.38bit nếu chúng ta biết Ruhollah xuất hiện tại vị trí i+1. Hay, thông tin về sự xuất hiện của Ruhollah tại vị trí i+1 trong corpus dữ liệu tăng 18.38 bits nếu chúng ta biết Ayatollah xuất hiện tại vị trí i. Chúng ta cũng có thể nói răng độ không chắc chắn của chúng ta giảm 18.38bits. Nói cách khác, chúng ta có thể chắc chắn hơn rằng Ruhollah sẽ xuất hiện tại ví trí tiếp theo nếu chúng ta biết rằng Ayatollah là từ đang xét. Có thể thấy rằng thông tin tương hỗ phản ánh khá tốt tính độc lập giữa hai sự kiện. Giá trị thông tin tương hỗ tiệm cận 0 chứng tỏ hai sự kiện độc lập nhưng giá trị thông tin tương hỗ lớn hơn 0 không thực sự phản ánh được quan hệ phụ thuộc giữa hai biến vì quan hệ phụ thuộc còn phụ thuộc rất nhiều vào tần suất xuất hiện 2 sự kiện. Nói cách khác, hai từ có giá trị thông tin tương hỗ lớn chưa hẳn đã là một collocation. Một giải pháp cho vấn đề này được đưa ra đó là tách ngưỡng với một tần suất lớn hơn một giá trị ngưỡng. Tuy nhiên, điều này vẫn chưa thực sự giải quyết được vấn đề đang tồn tại, mà chỉ giảm nhẹ tác động của nó. Một hạn chế nữa của phương pháp này là do nó dựa trên giả định là hai từ tạo thành collocation phải có quan hệ phụ thuộc lẫn nhau, tập kết quả thường bao gồm cả các cụm từ không phải là collocations nhưng có quan hệ với nhau về nghĩa (ví dụ: doctor-nurse, doctor-dentist). Như đã nói ở trên, thông tin tương hỗ không thực sự phản ánh khả năng có thể tạo thành collocation của 2 từ (x,y), do đó, phương pháp trích chọn collocations dựa trên thông tin tương hỗ thường chỉ tồn tại trong các nghiên cứu về lý thuyết và thường không được sử dụng trong các ứng dụng thực tế. Bảng 2-6 minh họa một số collocations được trích chọn bằng phương pháp sử dụng thông tin tương hỗ. Bảng 2-6: Một số collocation trích chọn được bằng phương pháp dựa trên thông tin tương hỗ w1 w2 w1 w2 freq w1 freq w2 freq PMI – score nền kinh_tế_thị_trường 67 1544 84 6.69599122813447 15 tài_nguyên thiên_nhiên 28 111 161 7.80551708204994 lý_luận chính_trị 21 35 940 6.90754163914149 đội quân 106 1835 461 5.28221694345149 sạt_lở nặng 22 82 1166 5.88723597735516 kháng_chiến chống 104 281 2121 5.61064041341448 gây hoang_mang 12 5308 12 5.68727674271944 2.4. KẾT QUẢ THỰC NGHIỆM Do cả 4 phương pháp được đề cập ở trên đều nhận đầu vào là tập các bigram và thông tin về tần suất xuất hiện của chúng, chúng tôi chia quá trình trích chọn collocations dựa trên các phương pháp thống kê làm 3 bước chính: bước 1: trích chọn bigram; bước 2: chạy thử nghiệm trên các mô hình; và bước 3: đánh giá kết quả thu được. Từ việc xây dựng các mô hình thử nghiệm khác nhau, thu thập kết quả, đánh giá và so sánh, chúng tôi đề xuất mô hình hiệu quả cho việc trích chọn collocations trong tiếng Việt dựa trên thống kê. Phần bên dưới sẽ trình bày chi tiết hơn về dữ liệu sử dụng, ba bước chính trong quá trình trích chọn collcations và một số đề xuất, nhận xét về kết quả thu được. 2.4.1. Khái quát về dữ liệu sử dụng Chúng tôi tiến hành thử nghiệm bốn phương pháp trên với đầu vào là ba bộ dữ liệu. Ba bộ dữ liệu này đều xuất phát từ cùng một tập dữ liệu được sưu tầm từ báo Lao Động và PCWorld gồm khoảng 300,000 câu, tương đương với 7,142,500 từ. Điểm khác nhau duy nhất giữa các bộ dữ liệu là ở thông tin về nhãn từ loại và cú pháp. Ba bộ dữ liệu được đề cập bao gồm một bộ dữ liệu chỉ được tách từ đơn thuần, một bộ được gán nhãn từ loại và một bộ đã được phân tích cú pháp. Thông tin về nhãn từ loại và cú pháp sẽ được sử dụng để loại bỏ các bigrams không phù hợp; từ đó, làm tăng độ chính xác của chương trình trích chọn. Bộ gán nhãn từ loại được chúng tôi sử dụng là bộ vnTagger – một bộ công cụ mã nguồn mở được phát triển bởi tác giả Lê Hồng Phương, có thể được download từ trang với độ chính xác đạt xấp xỉ 95% (*). Bộ nhãn được sử dụng bao gồm 17 nhãn chính. Bảng 2-7 trình bày bộ nhãn sử dụng bởi bộ vnTagger. Bảng 2-7: Bộ nhãn sử dụng bởi vnTagger STT Nhãn Chú thích 1 N Danh từ 16 2 Np Danh từ riêng 3 Nc Danh từ chỉ loại 4 Nu Danh từ đơn vị 5 V Động từ 6 A Tính từ 7 P Đại từ 8 L Định từ (lượng từ) 9 M Số từ 10 R Phụ từ 11 E Giới từ 12 C Liên từ 13 I Thán từ 14 T Trợ từ, tiểu từ, từ tình thái 15 U Từ đơn lẻ 16 X Từ viết tắt 17 Y Các từ không phân loại được (*): Bộ phân tích cú pháp được sử dụng là bộ phân tích được phát triển bởi nhóm Lê Anh Cường, Nguyễn Phương Thái, Vương Hoài Vũ, Phạm Minh Thu, Hồ Tú Bảo; được trình bày trong bài báo “An Experimental on Lexicalized Statiscal Parsing for Vietnamese” trình bày tại hội nghị KSE năm 2009, tổ chức tại trường ĐH Công Nghệ, ĐH Quốc Gia Hà Nội; với độ chính xác khoảng 78%. Bộ phân tích cú pháp cũng sử dụng bộ nhãn được miêu tả trong bảng 2-7. 2.4.2. Trích chọn bigrams Vì cả bốn phương pháp đều nhận đầu vào là một file chứa thông tin về các bigrams và tần suất xuất hiện của chúng, chúng tôi xây dựng một module riêng chỉ đảm nhiệm việc trích chọn bigram, và kết quả của quá trình trích chọn sẽ được dùng làm đầu vào cho cả 4 phương pháp. Như đã đề cập ở phần trên, chúng tôi tiến hành chạy thử nghiệm cả 4 phương pháp trên 3 bộ dữ liệu. Các bộ dữ liệu đều xuất phát từ cùng một nguồn, nên có thể nói về cơ bản chúng giống nhau. Điểm khác nhau duy nhất giữa ba tập dữ liệu là thông tin về nhãn từ loại và thông tin cú pháp. Tuy nhiên, nhìn vào công thức của cả bốn phương pháp, chúng ta thấy không chỗ nào đề cập đến thông tin về cú pháp hay thông tin từ loại. Công thức được sử dụng trong cả 3 trường hợp đều như nhau nhưng kết quả thực nghiệm lại khác nhau. Điều này có thể được giải thích đơn giản là do chúng tôi áp dụng ba cách trích chọn bigram khác nhau cho 3 tập dữ liệu. Nói cách khác, các thông tin thêm vào ở mỗi tập dữ liệu được đưa vào mô hình trích chọn bigram để lọc ra các bigram không phù hợp. Chi tiết về các mô hình trích chọn bigram cho từng bộ dữ liệu sẽ được trình bày chi tiết ở phần bên dưới. 17 2.4.2.1. Mô hình trích chọn bigrams cho bộ dữ liệu đã được tách từ Với đầu vào là một file văn bản đơn thuần, chương trình sinh các bigram thỏa mãn hai điều kiện sau: - Hai từ tạo thành bigram phải nằm trong cùng 1 câu và có khoảng cách giữa chúng không quá window_size từ nhất định. - Hai từ tạo thành bigram phải không được là một trong số các từ: {là, hả, hử, à, ừ, và, không, rất, sẽ, đã, rồi, được, đây, đó, nay, này, kia, sao, tại, ở, về, thì, rằng, để, nhiều, ít, chỉ, với, bằng, của, cho, các, có, vẫn, những, lại, mà, kia, quá, một, cũng, như, đây, đấy, đó, sau, khi, một, trong, cả, tới, từ, đến, bị} Vì các từ tạo thành collocation có quan hệ với nhau, nên ta giới hạn hai từ tạo thành bigram phải nằm trong cùng một cửa sổ có độ lớn window_size từ. Các nghiên cứu về collocations trong tiếng Anh cho thấy, độ lớn cửa sổ thích hợp nhất cho hai từ tạo thành bigram là 5 từ. Với tiếng Việt, chưa nghiên cứu nào đưa ra độ lớn cửa sổ thích hợp nhất cho việc trích chọn collocation trong tiếng Việt; vì vậy, với nỗ lực tìm ra độ lớn cửa sổ phù hợp nhất cho việc trích chọn bigram trong tiếng Việt, trong phạm vi luận văn này, chúng tôi cho window_size chạy từ 1 đến 5. 5 file bigram được chiết xuất đều được dùng làm đầu vào cho các phương pháp được nêu ở chương 3. Thêm vào đó, qua thực nghiệm chúng tôi xác định được các từ được đưa ra trong điều kiện thứ 2 làm giảm đáng kể độ chính xác của chương trình trích chọn; do đó, chúng tôi quyết định loại bỏ các từ đó trong quá trình sinh bigrams. Cũng dựa trên thực nghiệm, chúng tôi nhận thấy việc lọc ngưỡng tần số cho file bigram đầu vào sẽ cải thiện đáng kể độ chính xác các phương pháp, do đó các file bigram trong giới hạn luận văn này đều được lọc ngưỡng tần số bằng 10. Kết quả sau khi chạy chương trình là 2 file: file bigram chứa thông tin về bigram (hai từ tạo thành cách nhau bởi dấu cách trắng) cùng tần suất xuất hiện của nó trong văn bản, và file unigram chứa thông tin về các từ đơn lẻ và tần suất xuất hiện của chúng trong file bigram kết quả. 2.4.2.2. Mô hình trích chọn bigrams cho bộ dữ liệu đã được gán nhãn Một số nghiên cứu cho tiếng Đức[15, 35] hay nghiên cứu cho tiếng Anh của Justeson và Katz[28] đã khẳng định việc trích chọn các collocations theo các mẫu cho trước sẽ đem lại hiệu quả cao hơn. Do đó, chúng tôi tiến hành thử nghiệm phương pháp này cho tiếng Việt, với các mẫu trích chọn có dạng: VN, VA, NA và NN. Trong đó N là danh từ, A là tính từ, V là động từ. Tập dữ liệu đầu vào đã được gán nhãn với bộ nhãn sử dụng được miêu tả trong bảng 2-7. Do chúng tôi trích chọn các bigram dựa trên mẫu, nên độ lớn cửa sổ không cần giới hạn trong bước này. Giả sử một bigram có 18 cấu trúc dạng w1w2; khi đó, w1w2 là kết quả sau khi chạy chương trình khi và chỉ khi nó thỏa mãn 2 điều kiện sau: - w1 là một động từ hoặc 1 danh từ - w2 là một danh từ hoặc tính từ xuất hiện đầu tiên sau w1 trong cùng một cụm danh từ (tương ứng với w1 là danh từ) hoặc động từ (tương ứng với w1 là động từ) và không có động từ nào xen ngang giữa w1 và w2. Kết quả sau khi chạy chương trình là 2 file: file bigram chứa thông tin về bigram cùng tần suất xuất hiện của nó trong văn bản; và file unigram chứa thông tin về các unigram và tần suất xuất hiện của nó trong danh sách bigram. Các bigram có tần suất nhỏ hơn 10 sẽ bị loại khỏi danh sách kết quả. 2.4.2.3. Mô hình trích chọn bigrams cho bộ dữ liệu đã được phân tích cú pháp Mô hình trích chọn bigram cho bộ dữ liệu đã được phân tích cú pháp cũng tương tự như mô hình trích chọn bigram cho bộ dữ liệu đã gán nhãn. Tuy nhiên, với bộ dữ liệu đã gán nhãn: các bigram có dạng VN và VA phải có hai từ thành phần thuộc cùng một cụm động từ; các bigram có dạng NA hoặc NN phải có hai từ thành phần thuộc cùng một cụm danh từ; và trong cả hai trường hợp, không có động từ xen ngang giữa hai từ. Kết quả sau khi chạy chương trình cũng là hai file: file bigram chứa thông tin về bigram cùng tần suất xuất hiện của nó trong văn bản; và file unigram chứa thông tin về các unigram và tần suất xuất hiện của nó trong danh sách bigram. Các bigram có tần suất nhỏ hơn 10 cũng bị loại khỏi danh sách kết quả. 2.4.3. Các mô hình thử nghiệm Với các bộ dữ liệu được miêu tả trong phần trên, chúng tôi xây dựng các mô hình thử nghiệm trên bốn phương pháp đã được đề cập. Vì mục đích của luận văn là nghiên cứu độ chính xác của các phương pháp trích chọn cho tiếng Việt cũng như tác động của việc tiền xử lý văn bản lên các phương pháp trích chọn và do số lượng các file bigram được sinh ra từ tập dữ liệu chỉ được tách từ khá lớn(do độ lớn cửa sổ thay đổi, với mỗi cửa sổ, ta lại thu được một tập bigram); chúng tôi tiến hành thử nghiệm từng phương pháp trên cả ba bộ dữ liệu, và chỉ tiến hành thử nghiệm các phương pháp kết hợp trên bộ dữ liệu đã được gán nhãn và được phân tích cú pháp. Các mô hình thử nghiệm được chia làm hai nhóm chính: thử nghiệm trên từng phương pháp và thử nghiệm bằng cách kết hợp ba hoặc bốn phương pháp. Với các phương pháp kết hợp, trong phạm vi luận văn này, việc kết hợp mới chỉ dừng lại ở mức lọc ra các kết quả trùng khớp từ tập kết quả chạy riêng lẻ của 3 hoặc cả 4 phương pháp trên cùng một tập dữ liệu đầu vào. Như vậy, chúng ta sẽ có tất cả 9 mô hình thử nghiệm (4 đơn lẻ, 4 kết 19 hợp của 3 phương pháp, và 1 kết hợp của cả 4 phương pháp) để chạy với các bộ dữ liệu đầu vào thay đổi. Trong phần tiếp theo, chúng tôi sẽ trình bày chi tiết hơn về kết quả thu được từ việc chạy chương trình trên các mô hình thử nghiệm đã được trình bày. 2.4.4. Kết quả thực nghiệm Phương pháp kiểm thử chủ yếu trong các nghiên cứu về collocations đến thời điểm này[19, 34, 40] vẫn là phương pháp thủ công. Do vậy, trong giới hạn của luận văn này, chúng tôi cũng áp dụng phương pháp kiểm thử bằng tay để đánh giá độ chính xác của chương trình trích chọn. Với mỗi tập kết quả, chúng tôi lấy ra 500 kết quả đầu tiên. Từ 500 kết quả đó, chúng tôi cho sinh ngẫu nhiên 100 kết quả. 100 kết quả thu được từ quá trình sinh ngẫu nhiên này sẽ được đánh giá bằng tay từ đó dùng để đánh giá độ chính xác của chương trình. Phần bên dưới trình bày chi tiết hơn về kết quả thực nghiệm thu được. 2.4.4.1. Bộ dữ liệu chỉ được tách từ đơn thuần Chạy thử nghiệm bốn phương pháp trên bộ dữ liệu chỉ được tách từ, với độ lớn cửa sổ thay đổi từ 1 đến 5, ta sẽ thu được 20 tập kết quả. Bảng 2-8 và hình 2-1 minh họa kết quả thu được bằng phương pháp kiểm thử bằng tay khi chạy các mô hình thực nghiệm trên bộ dữ liệu đã được tách từ. Bảng 2-8: Kết quả chạy thực nghiệm 4 phương pháp trên bộ dữ liệu đã được tách từ với độ lớn cửa sổ thay đổi từ 1 đến 5 Window size Freq- based Chi- square PMI T-test 1 62% 66% 69% 71% 2 57% 65% 67% 65% 3 46% 59% 55% 64% 4 47% 66% 68% 61% 5 43% 60% 69% 70% 20 Hình 2-1: Kết quả chạy 4 phương pháp khi chạy trên bộ dữ liệu chỉ được tách từ với độ lớn cửa sổ thay đổi từ 1 đến 5 Nhìn vào hình vẽ và bảng chúng ta thấy độ lớn cửa sổ bằng 1 đem lại kết quả khả quan nhất. Khi so sánh các phương pháp, phương pháp kiểm tra t đem lại độ chính xác cao nhất cho tiếng Việt, phương pháp kiểm tra Chi bình phương và phương pháp dựa trên thông tin tương hỗ (PMI) cũng đem lại kết quả khá khả quan, trong khi đó, phương pháp dựa trên tần số mang lại độ chính xác thấp hơn hẳn, đặc biệt khi độ lớn cửa sổ tăng lên và có độ chính xác bị ảnh hưởng nhiều nhất bởi độ lớn cửa sổ. Độ chính xác của phương pháp trích chọn dựa trên tần số tỉ lệ nghịch với độ lớn của cửa sổ. Qua thực nghiệm, chúng tôi cũng nhận thấy phương pháp kiểm tra t và phương pháp kiểm tra Chi có độ trùng khớp về kết quả khác lớn, và cả hai phương pháp này thích hợp hơn cho việc trích chọn các collocations có dạng cụm danh từ cố định, đặc biệt là cụm danh từ riêng (ví dụ: Bộ Công_An, Đoàn thanh_tra, Bí_thư Đảng_ủy, Công_nương Diana…). 2.4.4.2. Bộ dữ liệu đã được tách từ và gán nhãn từ loại Bảng 2-9 và hình 2-2 minh họa kết quả thu được khi chạy thử nghiệm 9 mô hình trên tập dữ liệu đã gán nhãn. Bảng 2-9: Kết quả thu được khi chạy 9 mô hình trên bộ dữ liệu đã được gán nhãn từ loại Freq- based Chi- square PMI T-test Freq- Chi-PMI Freq-Chi- T-test Chi-PMI- T-test Freq-PMI- T-test Freq-Chi- PMI-T-test 65% 63% 65% 64% 57% 56% 66% 55% 66% 0% 10% 20% 30% 40% 50% 60% 70% 80% Freq-based Chi-square PMI T-test Window_size = 1 Window_size = 2 Window_size = 3 Window_size = 4 Window_size = 5 21 Hình 2-2: Kết quả thử nghiệm trên bộ dữ liệu đã được gán nhãn Nhìn vào bảng kết quả và hình vẽ, chúng ta thấy, nếu xét các mô hình thực nghiệm dựa trên các phương pháp riêng lẻ, các phương pháp đạt độ chính xác xấp xỉ nhau, trong khoảng từ 63%-65%; phương pháp dựa trên thông tin tương hỗ và phương pháp dựa trên tần số đem lại kết quả cao nhất. Khi xét các phương pháp kết hợp, việc kết hợp cả 4 phương pháp và việc kết hợp 3 phương pháp: phương pháp kiểm tra chi, phương pháp kiểm tra t, và phương pháp dựa trên thông tin tương hỗ tỏ ra thích hợp nhất. Sở dĩ kết quả trích chọn từ 3 bộ 3 phương pháp còn lại thấp là do tập kết quả của các phương pháp đó khác nhau khá nhiều, độ lớn của tập kết quả nhỏ, do đó, tập kết quả chung của 3 phương pháp sẽ chứa nhiều bigram không phải là collocation; dẫn đến làm giảm độ chính xác của các phương pháp. Qua đánh giá kết quả, chúng ta cũng nhận thấy thông tin về nhãn từ loại, với cách áp dụng đã được trình bày, không cải thiện độ chính xác của quá trình trích chọn. 2.4.4.3. Bộ dữ liệu đã được phân tích cú pháp Hình 2-9 và bảng 2-3 minh họa kết quả chạy thực nghiệm trên 9 mô hình, với bộ dữ liệu đầu vào đã được phân tích cú pháp. Bảng 2-10: Kết quả chạy thực nghiệm 9 mô hình trên bộ dữ liệu đã được phân tích cú pháp Freq- based Chi- square PMI T-test Freq- Chi-PMI Freq-Chi- T-test Freq-PMI- T-test Chi-PMI- T-test Fre-Chi- PMI-T-test 78% 75% 89% 84% 87% 92% 86% 85% 88% 0% 10% 20% 30% 40% 50% 60% 70% Hiệu suất 22 Hình 2-3: Kết quả chạy thực nghiệm 9 mô hình trên bộ dữ liệu đã được phân tích cú pháp Nhìn vào bảng và hình vẽ chúng ta thấy thông tin cú pháp làm cải thiện đáng kể độ chính xác chương trình trích chọn trên cả 9 mô hình thử nghiệm. Sự kết hợp 3 phương pháp: phương pháp dựa trên tần số, phương pháp dựa trên thông tin tương hỗ, và phương pháp kiểm tra t đem lại độ chính xác cao nhất, tuy nhiên, phương pháp kết hợp cả 4 phương pháp, phương pháp dựa trên thông tin tương hỗ cũng đem lại độ chính xác rất cao. 2.4.4.4. Đánh giá Hình 2-4: Kết quả chạy thực nghiệm trên tất cả các mô hình với 3 tập dữ liệu đầu vào 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% Hiệu suất 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% Window_size = 1 Window_size = 2 Window_size = 3 Window_size = 4 Window_size = 5 POS_TAGGED PARSED 23 Bảng 2-11: Kết quả chạy thực nghiệm trên tất cả các mô hình thực nghiệm Phương pháp Dữ liệu chỉ được tách từ Dữ liệu đã gán nhãn Dữ liệu đã phân tích cú pháp w = 1 w = 2 w = 3 w = 4 w = 5 Freq-based 62% 57% 46% 47% 43% 65% 78% Chi-square 66% 65% 59% 66% 60% 63% 75% PMI 69% 67% 55% 68% 69% 65% 89% t-test 71% 65% 64% 61% 70% 64% 87% Freq-Chi-PMI 57% 87% Freq-Chi-T-test 56% 92% Chi-PMI-T-test 66% 86% Freq-PMI-T-test 55% 85% Freq-Chi-PMI-T-test 66% 88% Nghiên cứu và thực nghiệm cho thấy, các phương pháp thống kê cổ điển đạt độ chính xác khá cao trong trích chọn collocations trong tiếng Việt. Hình 2-4 minh họa kết quả thu được từ tất cả các mô hình thực nghiệm trên tất cả các bộ dữ liệu. Nhìn vào đồ thị ta thấy, phương pháp dựa trên tần số có độ chính xác thấp hơn cả và phương pháp kiểm tra t tỏ ra khả quan nhất. Khi xét các phương pháp kết hợp, kết quả cho thấy phương pháp kết hợp cả 4 phương pháp đã giúp cải thiện độ chính xác chương trình, đặc biệt trên bộ dữ liệu đã được phân tích cú pháp. Quả thật, độ chính xác của chương trình trích chọn dựa trên tần số với bộ dữ liệu gán nhãn đã được cải thiện đáng kể, tuy nhiên, độ chính xác của các phương pháp còn lại trên bộ dữ liệu đã được gán nhãn không đạt được độ chính xác cao như mong đợi. Có thể nói, thông tin về nhãn từ loại không làm cải thiện độ chính xác các phương pháp kiểm định giả thuyết và dựa trên thông tin tương hỗ, thậm chí còn làm giảm đáng kể độ chính xác của các phương pháp kết hợp so với việc áp dụng cho các phương pháp riêng lẻ. Nguyên nhân của vấn đề này có thể là do độ chính xác của chương trình gán nhãn cũng như việc áp dụng các mô hình trích chọn không phù hợp với các phương pháp đó. Kết quả chạy thử nghiệm cả 9 mô hình thử nghiệm trên cả 3 bộ dữ liệu cho thấy thông tin cú pháp thêm vào làm cải thiện đáng kể độ chính xác của chương trình trích chọn. Thông tin cú pháp thêm vào đã có tác dụng tích cực đối với độ chính xác của chương trình. Độ chính xác cao nhất trong trích chọn collocations cho bộ dữ liệu đã được phân tích cú pháp, sử dụng phương pháp kết hợp cả bốn phương pháp lên tới khoảng 90%. Như vậy, phương pháp trích chọn collocations bằng cách kết hợp cả 4 phương pháp trên bộ dữ liệu đã được phân tích cú pháp có thể nói là hướng trích chọn collocations thích hợp nhất cho tiếng Việt. 24 Tuy nhiên cần phải chú ý là độ chính xác của chương trình cũng bị ảnh hưởng không nhỏ bởi độ chính xác của chương trình phân tích cú pháp và chương trình gán nhãn từ loại. Do vậy, lựa chọn một chương trình phân tích cú pháp phù hợp cũng làm ảnh hưởng không nhỏ tới độ chính xác chương trình 25 Chương 3. MỘT PHƯƠNG PHÁP KẾT HỢP ÁP DỤNG CHO TRÍCH CHỌN COLLOCATIONS CÓ DẠNG CỤM DANH TỪ Các phương pháp được trình bày ở chương 2 chỉ có thể trích chọn được các collocations là bigrams. Song trên thực tế, collocations có dạng n-grams cũng xuất hiện khá thường xuyên trong các văn bản. Do vậy, một yêu cầu rất tự nhiên là trích chọn cả các collocations có dạng n-grams. Một phương pháp đơn giản được đề xuất có thể là trích chọn tất cả các n-grams trong tập dữ liệu để làm đầu vào cho các phương pháp thống kê nhằm trích chọn danh sách collcoations. Tuy nhiên, cách tiếp cận đó có độ phức tạp và thời gian tính toán khổng lồ. Chính vì vậy, khi corpus dữ liệu lớn, n lớn, việc trích chọn collocations là n-gram sử dụng phương pháp này là không thể thực hiện được và đặc biệt kém hiệu quả. Trong chương này, chúng tôi đề xuất một phương pháp trích chọn collocations có dạng bigram hoặc n-gram là cụm danh từ trong văn bản. Phương pháp này xuất phát từ ý tưởng được sử dụng trong công cụ Xtract[19] được Frank Smadja trình bày vào năm 1993 và dựa chủ yếu trên nghiên cứu của Chouka, sử dụng các giả định thống kê dựa trên các đặc trưng của collocations kết hợp với sử dụng các thông tin về ngữ nghĩa. Cụ thể hơn, chúng tôi sẽ trích chọn các collocations có quan hệ ngữ pháp giữa các từ thành phần, và sẽ trích chọn các collocation có dạng n-gram xuất phát từ tập collocations có dạng bigram. Chương trình có thể trích chọn được các bigram liền nhau cũng như ngắt quãng, có thể trích chọn các collcations là bigram hay n-gram. Dữ liệu đầu vào của chương trình là một bộ dữ liệu đã được đi qua bộ phân tích cú pháp. Trong phạm vi luận văn này, chúng tôi sử dụng tập dữ liệu khoảng 300,000 câu đã được phân tích cú pháp, tương đương với khoảng 7,142,500 từ. Tuy nhiên, trong giới hạn của luận văn này, chúng tôi chỉ trích chọn các bigram là collocations có dạng N+A và N+N trong tiếng Việt và các n-gram collocations là cụm danh từ cố định. Do vậy, từ bộ dữ liệu đã được phân tích cú pháp, chúng tôi viết chương trình lọc các cụm danh từ. Các cụm danh từ này sẽ được sử dụng làm đầu vào cho chương trình trích chọn collocation trình bày bên dưới. Có khoảng 719,000 cụm danh từ đã được trích chọn từ tập dữ liệu văn bản gồm 300,000 câu. Quá trình trích chọn collocation được chia ra làm 2 giai đoạn chính. Kết quả của giai đoạn thứ nhất sẽ được đưa vào làm đầu vào của giai đoạn thứ hai. Giai đoạn thứ nhất có nhiệm vụ chiết xuất các collocation có dạng bigram sử dụng một số phép lọc và phép kiểm tra thống kê. Giai đoạn thứ hai có nhiệm vụ trích chọn các collocation có dạng n-gram từ các cặp bigram là kết quả của bước 1. Cụ thể hơn, so với mô hình thông thường, chúng tôi không giới hạn n mà chỉ giới hạn các câu dùng trong quá trình 26 trích chọn. Chúng tôi không sử dụng tất cả các câu đầu vào ở bước 1 để trích chọn danh sách n-gram mà chỉ sử dụng các câu có chứa các bigram với vị trí tương đối của hai từ thành phần là kết quả của giai đoạn một. Danh sách các từ xuất hiện xung quanh hai từ thành phần tạo thành bigram gốc sẽ được lưu lại cùng với tần suất và vị trí tương đối của chúng so với bigram. Một bước lọc thống kê sẽ được đưa vào để loại bỏ các từ có xác suất xuất hiện nhỏ hơn một ngưỡng nhất định. Từ kết quả của bước lọc, chúng tôi thu được danh sách các collocations là n-gram. Chi tiết về các bước xử lý được thực hiện tại mỗi giai đoạn sẽ được chúng tôi trình bày chi tiết ở phần còn lại của chương. 3.1. GIAI ĐOẠN 1: TRÍCH CHỌN CÁC COLLCOATIONS CÓ DẠNG BIGRAM. Do mục đích của chương trình là trích chọn các collocations là cụm danh từ và do độ phức tạp, thời gian chạy chương trình khá lớn; trong giới hạn của luận văn này, chúng tôi chỉ tập trung trích chọn các collocation có dạng N+A hoặc N+N. Dữ liệu đầu vào đã được đưa qua một bộ phân tích cú pháp, sau đó được đi qua một chương trình do chúng tôi tự phát triển nhằm lọc ra các cụm danh từ và gán nhãn các từ theo từ loại. Tập nhãn sử dụng gồm 4 nhãn: {N, A, V, U} trong đó, N: danh từ, A: tính từ, V: động từ và U cho các từ còn lại. Sau khi được phân tích cú pháp và thông qua bước tiền xử lý dữ liệu, file dữ liệu đầu vào cho bước 1 là file văn bản gồm các cụm danh từ, mỗi cụm danh từ trên một dòng và mỗi từ được gán một trong bốn nhãn trong tập nhãn đã đề cập ở trên. Quá trình trích chọn các collocation từ tập bigram dựa trên hai giả định: - Hai từ phải xuất hiện cùng nhau lặp đi lặp lại, trên mức bình thường trong văn bản. - Hai từ phải thuộc cùng một cụm danh từ. Dựa vào hai giả định này, chương trình thực hiện các bước lọc dựa trên thống kê để trích chọn ra các bigram có khả năng tạo thành collocations. Kết thúc giai đoạn một, chúng ta sẽ nhận được danh sách các bigram cùng thông tin về tần suất, vị trí tương đối của hai từ được lưu trữ dưới dạng một file văn bản có phần mở rộng “.txt” và danh sách các unigram và thông tin về tần suất xuất hiện của nó trong tập bigram; danh sách này cũng được lưu trữ dưới dạng file văn bản có phần mở rộng “.txt”. Quá trình trích chọn và lọc các bigram được chia làm 2 bước chính: 3.1.1. Bước 1: Trích chọn bigram Chương trình đọc dữ liệu từ file văn bản đầu vào bao gồm các cụm danh từ, với mỗi cụm danh từ trên một dòng. Các bigram được trích chọn trong bước này có dạng wwi và phải thỏa mãn hai điều kiện sau: 27 - w là danh từ chính trong cụm danh từ - wi là danh từ hoặc tính từ đầu tiên ngay sau w và với điều kiện không có động từ nào xen ngang. Các bigram là kết quả của chương trình sẽ được lưu trữ dưới dạng từ điển cùng thông tin về tần suất xuất hiện và vị trí tương đối của hai từ thành phần trong tập ngữ liệu. Trong chương này, chúng ta sẽ ký hiệu freqi là tần suất xuất hiện của wwi và p i j là tần suất xuất hiện của wi xung quanh w sao cho khoảng cách của chúng là j từ. Bảng 3-1 minh họa một số bigram cùng thông tin về tần suất, vị trí của chúng trích chọn được từ tập dữ liệu. Bảng 3-1: Một số bigrams và thông tin về vị trí và tần suất xuất hiện của chúng STT w wi freqi j 1 báo_cáo chính_trị 12 1 2 báo_cáo Ngành 12 5 3 báo_cáo mới 12 2 4 báo_cáo nhất 12 2 5 lãnh_đạo tỉnh 114 3 6 lãnh_đạo tỉnh 13 5 7 lãnh_đạo tỉnh 29 4 8 lãnh_đạo tỉnh 3 2 9 lãnh_đạo Cty 66 1 10 lãnh_đạo Cty 1 3 11 lãnh_đạo Cty 5 5 12 lãnh_đạo Cty 3 4 13 vai_trò quan_trọng 83 2 14 vai_trò quan_trọng 28 3 3.1.2. Bước 2: Lọc các bigram không hợp lệ Bước 2 nhận dữ liệu vào là các cặp từ {w, wi} trích chọn được ở bước 1 cùng các thông tin về vị trí, tần suất xuất hiện của chúng trong corpus dữ liệu. Chương trình sẽ tiến hành lọc dựa trên các giá trị thống kê để lọc ra các cụm từ có tính chất: Hai từ xuất hiện cùng nhau lặp đi lặp lại, trên mức bình thường trong văn bản, với khoảng cách tương đối cố định. 28 Bước đầu tiên trong quá trình lọc, chúng tôi loại bỏ các bigram có tần suất xuất hiện nhỏ hơn 10. Sau đó, chương trình tiến hành phân tích phân phối xác suất của các từ xuất hiện xung quanh w. Chúng ta kí hiệu freqi là tần suất xuất hiện của wi xung quanh w. là giá trị tần suất trung bình tần suất của tất cả các từ xuất hiện xung quanh w,  là độ lệch chuẩn ứng với giá trị trung bình tần suất đó. Giả sử có tất cả n từ wi1, wi2, … win có khả năng kết hợp với w để tạo thành bigram. Tần suất xuất hiện tương ứng với n từ này lần lượt là freqi1, freqi2, …, freqin. Khi đó, tần suất trung bình . được tính theo công thức: = ⋯ Độ lệch σ được tính theo công thức: σ = ⋯ Từ các giá trị về tần suất, độ lệch tính được, chúng ta tính được chỉ số z (kí hiệu là: ki) tương ứng với nó. ki đại diện cho mức độ gắn kết của cặp từ, nó đại diện cho độ lệch tiêu chuẩn so với giá trị trung bình tần suất của cặp từ w và wi, ki lớn chứng tỏ w và wi thường xuất hiện cùng nhau trên mức bình thường trong văn bản, và có thể nói chúng có quan hệ với nhau. ki được tính theo công thức: = (1a) Sau hai bước lọc, một bigram chứa w là đầu ra của giai đoạn 1 sẽ được xác định bởi bộ {wi, ki, j} thỏa mãn: tần suất xuất hiện của wi xung quanh w lớn hơn 10 và thỏa mãn bất đẳng thức: = − > (C1) Điều kiện C1 giúp loại bỏ các cặp từ có tần suất xuất hiện nhỏ hơn hoặc chỉ xung quanh giá trị tần suất trung bình. Trong hầu hết các phân phối thống kê, bước tách ngưỡng này loại bỏ phần lớn các cặp từ không phù hợp. Bước lọc dựa trên giá trị trung bình và độ lệch giúp loại bỏ các cặp từ có phân phối tần suất xuất hiện theo vị trí dàn trải. Bảng 3-2 minh họa một số bigram là kết quả của giai đoạn 1. 3.2. GIAI ĐOẠN 2: TRÍCH CHỌN CÁC COLLOCATIONS LÀ CỤM DANH TỪ CÓ DẠNG N-GRAM. 29 Nhiệm vụ của bước 2 là sinh các collocation có nhiều hơn 2 từ và lọc bỏ những chuỗi từ không phù hợp. Giai đoạn 2 liên quan đến nghiên cứu của Choueka[5], và trong một số giới hạn nào đấy, nó đã được áp dụng trong bài toán nhận dạng ngôn ngữ. Với mỗi bigram được xác định ở giai đoạn 1, chương trình duyệt tất cả các câu có chứa bigram đó, với khoảng cách giữa hai từ cố định được xác định ở bước một, để lưu lại thông tin về tần suất, vị trí của các từ xung quanh bigram đó. Từ việc phân tích tần suất, vị trí của các từ lân cận đó, chương trình trả ra các collocation có dạng n- gram. Giai đoạn chia làm 3 bước chính. Phần bên dưới sẽ trình bày chi tiết hơn về các công việc xử lý thực hiện tại mỗi bước. 3.2.1. Bước 1: Giống như trong giai đoạn 1, đầu vào của bước này là một cặp {wi, w} và tần suất xuất hiện, khoảng cách giữa hai từ. Bước này sẽ trả ra tất cả các câu chứa hai từ này với thông tin về vị trí như vậy. 3.2.2. Bước 2: Từ các câu nhận được sau bước 1, chương trình trích chọn được thông tin về các từ lân cận của w, wi, tần suất xuất hiện, cũng như vị trí của chúng. Trong bước này, ta cũng thực hiện việc duyệt và lưu trữ giống hệt bước 1 trong giai đoạn 1, tuy nhiên, các từ được đưa thêm vào không chỉ giới hạn ở các từ có nhãn tính từ hoặc danh từ, mà bao gồm tất cả các từ xuất hiện xung quanh vị trí của w và wi. 3.2.3. Bước 3: Một từ w0 là lân cận của w, chỉ được giữ lại trong n-gram kết quả nếu và chỉ nếu xác suất để w0 xuất hiện ở vị trí i so với w lớn hơn một ngưỡng T nhất định. Nói cách khác, w0 phải thỏa mãn đẳng thức sau đây: p(word[i] = w0 ) > T, với p(word[i] = w0) là xác suất để w0 xuất hiện ở vị trí i xung quanh w. Vai trò của giai đoạn 2 là loại bỏ các quan hệ từ vựng không phù hợp. Giai đoạn này có thể sinh ra cả các cụm từ khuôn mẫu và cụm danh từ cố định, tuy nhiên, trong phạm vi luận văn này, chúng tôi chỉ trích chọn các cụm danh từ cố định, vì tập nhãn sử dụng còn hạn chế, dựa chủ yếu vào thông tin từ bộ phân tích cú pháp. Như vậy, giai đoạn 2 đã mở rộng các collocation là bigram thành n-gram. Phương pháp này làm đơn giản hơn rất nhiều độ phức tạp của chương trình so với cách tiếp cận được đưa ra bởi Choueka[5]. Có thể khái quát phương pháp tiếp cận bởi Choueka như sau: với mỗi giá trị n, sinh tất cả chuỗi có độ dài bằng n và sắp xếp chúng giảm dần theo tần số. Với bộ dữ liệu gồm 12 triệu từ, Chouka nhận được 10 collocations có độ dài 30 bằng sáu; 115 collocations có độ dài bằng năm; 1024 collocaitions có độ dài bằng bốn; 4,777 collocations có độ dài bằng ba, và 15,973 collocations có độ dài bằng 2. Ngưỡng được đưa ra bằng 14. Phương pháp được sử dụng bởi chương trình có hai ưu điểm nổi bật so với cách tiếp cận bởi Chouka: - Nó giúp loại bỏ các m-grams là chuỗi con của một n-gram cho trước. Vì giai đoạn hai sinh chuỗi có độ dài lớn nhất từ một bigram cho trước, cho nên chuỗi m-gram (m<n) sẽ không được sinh ra. - Thêm vào đó, nó là đơn giản hóa hơn rất nhiều quá trình tính toán các collocation là n-gram, vì nó chỉ xét các câu có chứa các bigram với các khoảng cách cho trước là kết quả của giai đoạn một. So với các phương pháp đã được tiến hành trước đó như của Chouka, phương pháp này tỏ ra hiệu quả rõ rệt, đặc biệt là trên một tập dữ liệu lớn vì nó giúp giảm đáng kể thời gian tính toán. 3.3. KẾT QUẢ THỰC NGHIỆM Bảng 3-2: Một số bigram là kết quả của giai đoạn 1 W wi Distance freq doanh nghiệp tư_nhân 1 94 doanh nghiệp tư_nhân 2 112 cơ_sở pháp_lý 1 60 cơ_sở sản_xuất 1 136 cơ_sở vật_chất 1 146 cơ_sở y_tế 1 80 cơ_sở y_tế 3 9 vai_trò quan_trọng 2 83 vai_trò quan_trọng 3 28 Chúng tôi tiến hành chạy chương trình với bộ dữ liệu được sưu tầm từ các báo Lao động và PCWorld, gồm khoảng 300,000 câu tương đương với 7,142,500 từ. Sau khi cho tập dữ liệu qua chương trình tiền xử lý (nhằm trích chọn các cụm danh từ), chúng tôi thu được khoảng 719,000 cụm danh từ. Trong giai đoạn một, ngưỡng k0 (được đưa vào để lọc các bigrams theo điều kiện C1) được cho chạy từ 0.1 đến 0.5 với độ lệch bằng 0.05. Như vậy, chúng ta sẽ thu được 9 tập kết quả. Từ 9 tập kết quả đó, chúng tôi cho sinh ngẫu nhiên 100 kết quả, và đánh giá 100 kết quả đó bằng tay. Bảng 3-2 minh họa một số kết quả thu được sau giai đoạn 1 và bảng 3-3 minh họa độ chính xác của chương trình ở giai đoạn 1 sau khi đánh giá tập kết quả: Bảng 3-3: Kết quả chạy chương trình ở giai đoạn 1 k0 Độ chính xác 31 0.1 80% 0.15 75% 0.2 84% 0.25 88% 0.3 84% 035 84% 0.4 83% 0.45 80% 0.5 80% Với k0 là ngưỡng được đưa vào để lọc các bigram theo điều kiện C1 Như vậy, độ chính xác của giai đoạn 1 đạt được khá cao. Nhìn vào bảng ta thấy, ngưỡng k0 = 0.25 làm cho chương trình có độ chính xác cao nhất. Chúng tôi lấy tập kết quả của giai đoạn 1 với ngưỡng k0 = 0.25 làm đầu vào cho giai đoạn 2. Với ngưỡng T được xác định bằng 0.3, chúng tôi thu được thêm 150 collocations có dạng từ 3-gram trở lên. Có thể nói, phương pháp được đề xuất trong chương này là phương pháp khả thi cho trích chọn collocations trong tiếng Việt. Độ chính xác đạt được ở cả hai giai đoạn đều khá cao. Điểm nổi bật của phương pháp này là nó cho phép trích chọn các collocations là n-gram. Giai đoạn 1 đóng vai trò trích chọn các collocation là bigram. Độ chính xác giai đoạn này đạt được trong khoảng trên 80% và trong phạm vi luận văn này, độ chính xác cao nhất đạt được khi ngưỡng k0 bằng 0.25 là 88%. Giai đoạn 2 có nhiệm vụ trích chọn các collocations là n-gram. Phương pháp được áp dụng giúp giảm đáng kể thời gian tính toán và độ phức tạp so với việc sinh tất cả các cụm n-gram và áp dụng các công thức thống kê vào để trích chọn. Bảng 3-4 minh họa một số bigram được trích chọn từ giai đoạn 2: Bảng 3-4: Một số cụm danh từ cố định được trích chọn từ giai đoạn 2 quyền hợp_pháp của quyền và nghĩa_vụ của người lao_động Cty tài_chính Sài_Gòn nhiều nội_dung về tình_hình kinh_tế vốn đầu_tư trực_tiếp 32 thông_tin về tình_hình chính_trị xã_hội điều_kiện để thúc_đẩy tăng_trưởng chủ_quyền từng tấc đất từng mét biển của ta vùng đồng_bào dân_tộc miền những nhiệm_vụ kinh_tế xã_hội 33 Chương 4. KẾT LUẬN Luận văn đã trình bày nghiên cứu về đề tài “Các kỹ thuật xác định collocations và ứng dụng cho tiếng Việt” và đạt các kết quả sau:  Về mặt lý thuyết, trong giới hạn của luận văn, chúng tôi đã tìm hiểu các khái niệm và kỹ thuật chung áp dụng cho trích chọn collocations. Từ đó, chúng tôi đưa ra cơ sở lý thuyết liên quan đến collocations cho tiếng Việt: định nghĩa, đặc trưng, phân loại và ứng dụng. Dựa trên cơ sở lý thuyết đó, chúng tôi xây dựng các phương pháp trích chọn, nghiên cứu tác động của việc tiền xử lý văn bản lên chương trình trích chọn, tìm ra độ lớn cửa sổ, thao tác tiền xử lý văn bản phù hợp cho chương trình trích chọn, đồng thời đề xuất một số phương pháp kết hợp nhằm tăng độ chính xác.  Về mặt thực nghiệm, chúng tôi đã xây dựng hệ thống trích chọn collocations dựa trên tất cả các phương pháp đã trình bày, tiến hành chạy thực nghiệm và đánh giá độ chính xác của các phương pháp, từ đó tìm ra, đề xuất, xây dựng mô hình hiệu quả cho trích chọn collocation trong tiếng Việt. Mô hình trích chọn collocation là cụm danh từ đạt được độ chính xác khá cao, hoàn toàn có thể mở rộng để trở thành một hệ thống trích chọn collcoations hiệu quả cho tiếng Việt.  Về việc đóng góp và xây dựng tài nguyên, luận văn đóng vai trò là một trong những nghiên cứu đầu tiên về collocations cho tiếng Việt. Chúng tôi đã xây dựng cơ sở lý thuyết liên quan, đưa ra một số phương pháp trích chọn khá hiệu quả cho tiếng Việt. Phương pháp trích chọn collocations có dạng cụm danh từ được đề xuất chứng tỏ là một hướng nghiên cứu khả thi trong trích chọn collocations trong tiếng Việt.  Hướng nghiên cứu trong tương lai trong thời gian tới, chúng tôi dự định sẽ tiếp tục nghiên cứu sâu hơn việc vận dụng các thông tin cú pháp vào chương trình trích chọn, mở rộng phương pháp trích chọn collocations là cụm danh từ để có thể trích chọn các loại collocations còn lại, đồng thời, nghiên cứu ứng dụng của từ điển collocation vào các ứng dụng xử lý ngôn ngữ tự nhiên (như dịch máy, sinh ngôn ngữ…). ii TÀI LIỆU THAM KHẢO [1]. Adam Kilgarriff and David Tugwell. WORD SKETCH: Extraction and Display of Significant Collocations for Lexicography. Proc. ACL workshop on COLLOCATION: Computational Extraction, Analysis and Exploitation. Toulouse, July: 32-38. [2]. Benson & Morton 1989. The structure of the collocational dictionary. In International Journal of Lexicography 2:1-14. [3]. Brigitte Krenn and Stefan Evert. Can we do better than frequency? A case study on extracting PP-verb collocations. In Proceedings of the ACL Workshop on Collocations, Toulouse, France, 39-46. [4]. Caroll J.,Minnen G., Pearse D., Canning Y., Delvin S. and Tait J. (1999). Simplifying text for language-impaired readers. In preceedings of 9th Conference of European Chapter of the ACL (EACL ’99), Bergen, Norway, June. [5]. Choueka, Yaacov, Fraenkel, Aviezri S., Klein, S.T.. "Compression of Concordances in Full-Text Retrieval Systems" (ed.) Proc. SIGIR, p. 597-612, 1988. [6]. Church, K. and Hanks, P. Word association norms, mutual information, and lexicography. In Proceedings of the 27th annual meeting on Association for Computational Linguistics, p. 76-83, 1989. [7]. Cowie, A. P. "The treatment of collocations and idioms in learners' dictionaries". In Applied Linguistics, Vol.II, No. 3, p.223-235, 1981. [8]. Cruse, D.A Lexical semantics. Cambridge University Press, 1991. [9]. Danieala Kurz, Feiyu Xu. Text Mining for the Extraction of Domain Relevant Terms and Term Collocations, In International Workshop on Computational Approaches to Collocations, Vienna, 2002. [10]. Darren Pearce. A Comparative Evaluation of Collocation Extraction Techniques. In The third International Conferene on Language Resources and Evaluation, p. 1530- 1536, 2002. [11]. Darren Pearce. Synonymy in Collocation Extraction. In Proceedings of the 2009 Conference on Empirical Methods in Natural Language Processing: Volume 2 - Volume 2, Singapore, p.487-495, 2009. [12]. Darren Pearce. Using conceptual similarity for collocation extraction. In Proc. of the 4th UK Special Interest Group for Computational Linguistics (CLUK4), 2001. [13]. Dekang Lin. Extracting Collocations from Text Corpora. In First Workshop on Computational Terminology, p. 57--63, Montreal. iii [14]. Dekang Lin. Using Collocation Statistics in Information Extraction. In Proceedings of the 7th Message Understanding Conference, 1998c. [15]. Elisabeth Breidt. Extraction of V-N-Collocations from Text Corpora: A feasibility Study for German. In Proceedings of the Workshop on Very Large Corpora: Academic and Industrial Perspectives, Ohio State University, Columbus, OH, pp. 74-83. [16]. Eric Gaussier, David A. Hull, Salah Ait-Mokhatar. Term Alignment in Use: Machine-Aided Human Translation. In J. Veronis (Ed.), Parallel Text Processing Alignment and Use of Translation Corpora. Kluwer Academic Publishers. [17]. Firth J. R. A synopsis of linguistic theory 1930-1955. In Studies in Linguisti Analysis, pp 1-32. Oxford: Philological society. [18]. Frank Smadja and Kathleen McKeown, Translating Collocations for Use in Bilingual Lexicons. In Proceedings of a Workshop about Human Language Technology held at Plainsboro, New Jerey, USA, March 8-11, 1994. [19]. Frank Smadja. Retrieving Collocations from text: Xtract. In Computational Linguistics, Vol 19, p.143-177 (1993) [20]. Gerlof Bouma. Normalized (Pointwise) Mutual Information in Collocation Extraction. In: Chiarcos, Eckart de Castilho & Stede (eds), Von der Form zur Bedeutung: Texte automatisch verarbeiten / From Form to Meaning: Processing Texts Automatically, Proceedings of the Biennial GSCL Conference 2009, pp31-40, Tübingen, Gunter Narr Verlag. [21]. Gitsaky C.Daigaku N. and Tailor R. (2000). English collocations and their place in the EFL. In Iranian Journal of Applied Linguistics, 6, p.137-169. [22]. Halliday, M. (1966). Patterns in words. The Listener, Vol. LXXV, no. 1920: p.53- 55. [23]. Howarth P. and Nesi H. The teaching of collocations in EAP. Technical report University of Leeds, June, 1996. [24]. Hua WU, Ming ZHOU, Synonymous Collocation Extraction Using Translation Information. In Proceedings of the 41st Annual Meeting on Association for Computational Linguistics, p.120-127, July 07-12, 2003, Sapporo, Japan [25]. Janyce Wiebe and Theresa Wilson and Matthew Bell. Identifying Collocation fro Recognizing Opinions. In Proceedings of the ACL-01 Workshop on Collocations: Computational Extraction, Analysis, and Exploitation, p.24-31. iv [26]. Jiansheng Yu, Zihui Jin, Zhenshan Wen. Automatic Detection of Collocation. In The 4th Chinese lexical semantics workshop, 2003. [27]. Johannes Matiasek and Marco Baroni. Exploiting long distance collocational relations in predictive typing. In project FASTY(IST-2000-25420). [28]. Justeson, John S., and Slava M. Katz. Technical terminology: some linguistic properties and an algorithm for identification in text. In Natural Language Engineering (1995), 1:9-27 Cambridge University Press. [29]. Kathleen R. McKKeown and Dragomir R. Radev. Collocations. In Robert Dale, Hermann Moisl, and Harold Somers, editors, A Handbook of NaturalLanguage Processing. Marcel Dekker, 2000. [30]. Kostas Fragos, Yannis Maistros, Christos Skourlas. Extracting Collocations in Modern Greek Language. In Proceedings of the 1st International Workshop on Natural Language Understanding and Cognitive Science, NLUCS 2004, In conjunction with ICEIS 2004, Porto, Portugal, April 2004 2004. [31]. Lin D. Extracting collocations from text corpora. In First Workshop on Computational Terminology, Montreal, Canada, Augaust. [32]. Manning C. and Schutze H. Foundations of Statiscal Natural Language Processing (Fifth Printing 2002). The MIT Press.A14 [33]. Pavel Pecina and Pavel Schlesinger. Combining Association Measures for Collocation Extraction. In Proceedings of the COLING/ACL on Main conference poster sessions, p.651-658, July 17-18, 2006, Sydney, Australia [34]. Qin Lu, Yin Li and Ruifeng Xu. Improving Xtract for Chinese Collocation Extraction. In Proceedings of IEEE Int. Conf. Natural Language Processing and Knowledge Engineering 2003, Beijing, p. 333-338 [35]. Sasa Petrovic. Collocation Extraction measures for text mining applications. Diploma Thesis num. 1693. 2007. [36]. Sabine Schulte In Walde. A Collocation Database for German Verbs and Nouns. In Proceedings of the 7th Conference on Computational Lexicography and Text Research. Budapest, Hungary, April 2003 [37]. Sayori Shimohata, Toshiyuki Sugio and Junji Nagata. Retrieving Collocations by Co-occurrences and Word Order Constraints. In Proceedings of the 35th Annual Meeting of the ACL and 8th Conference of the EACL (ACL-EACL'97), p. 476-81, Madrid, Spain, 1997 v [38]. Smith A. David (2002). Searching across language, time, and space: Detecting events with date and place information in unstructured text. In Proceedings of the second ACM/IEEE-CS joint conference on Digital libraries, July 2002. [39]. Violeta Seretan, Eric Wehrli. Accurate Collocation Extraction Using a Multilingual Parser. In Proceedings of the Workshop on Multilingual Language Resources and Interoperability, Sydney, Australia, p.40-49, 2006 [40]. Wan Yin Li, Qin Lu, James Liu. TCtract-A Collocation Extraction Approach for Noun Phrases Using Shallow Parsing Rules and Statistic Models. In 20th Pacific Asia Conference on Language, Information and Computation (PACLIC¡¦06), Wuhan, China, November 1-3, 2006, p. 109-116. vi PHỤ LỤC A: Bảng giá trị chỉ số t df\p 0.4 0.25 0.1 0.05 0.025 0.01 0.005 0.0005 1 0.32492 1 3.077684 6.313752 12.7062 31.82052 63.65674 636.6192 2 0.288675 0.816497 1.885618 2.919986 4.30265 6.96456 9.92484 31.5991 3 0.276671 0.764892 1.637744 2.353363 3.18245 4.5407 5.84091 12.924 4 0.270722 0.740697 1.533206 2.131847 2.77645 3.74695 4.60409 8.6103 5 0.267181 0.726687 1.475884 2.015048 2.57058 3.36493 4.03214 6.8688 6 0.264835 0.717558 1.439756 1.94318 2.44691 3.14267 3.70743 5.9588 7 0.263167 0.711142 1.414924 1.894579 2.36462 2.99795 3.49948 5.4079 8 0.261921 0.706387 1.396815 1.859548 2.306 2.89646 3.35539 5.0413 9 0.260955 0.702722 1.383029 1.833113 2.26216 2.82144 3.24984 4.7809 10 0.260185 0.699812 1.372184 1.812461 2.22814 2.76377 3.16927 4.5869 11 0.259556 0.697445 1.36343 1.795885 2.20099 2.71808 3.10581 4.437 12 0.259033 0.695483 1.356217 1.782288 2.17881 2.681 3.05454 4.3178 13 0.258591 0.693829 1.350171 1.770933 2.16037 2.65031 3.01228 4.2208 14 0.258213 0.692417 1.34503 1.76131 2.14479 2.62449 2.97684 4.1405 15 0.257885 0.691197 1.340606 1.75305 2.13145 2.60248 2.94671 4.0728 16 0.257599 0.690132 1.336757 1.745884 2.11991 2.58349 2.92078 4.015 17 0.257347 0.689195 1.333379 1.739607 2.10982 2.56693 2.89823 3.9651 18 0.257123 0.688364 1.330391 1.734064 2.10092 2.55238 2.87844 3.9216 19 0.256923 0.687621 1.327728 1.729133 2.09302 2.53948 2.86093 3.8834 20 0.256743 0.686954 1.325341 1.724718 2.08596 2.52798 2.84534 3.8495 21 0.25658 0.686352 1.323188 1.720743 2.07961 2.51765 2.83136 3.8193 22 0.256432 0.685805 1.321237 1.717144 2.07387 2.50832 2.81876 3.7921 23 0.256297 0.685306 1.31946 1.713872 2.06866 2.49987 2.80734 3.7676 24 0.256173 0.68485 1.317836 1.710882 2.0639 2.49216 2.79694 3.7454 25 0.25606 0.68443 1.316345 1.708141 2.05954 2.48511 2.78744 3.7251 26 0.255955 0.684043 1.314972 1.705618 2.05553 2.47863 2.77871 3.7066 27 0.255858 0.683685 1.313703 1.703288 2.05183 2.47266 2.77068 3.6896 28 0.255768 0.683353 1.312527 1.701131 2.04841 2.46714 2.76326 3.6739 29 0.255684 0.683044 1.311434 1.699127 2.04523 2.46202 2.75639 3.6594 30 0.255605 0.682756 1.310415 1.697261 2.04227 2.45726 2.75 3.646 inf 0.253347 0.67449 1.281552 1.644854 1.95996 2.32635 2.57583 3.2905 vii PHỤ LỤC B: Bảng giá trị chỉ số Chi bình phương df\area 0.995 0.99 0.975 0.95 0.9 0.75 0.5 0.25 0.1 0.05 0.025 0.01 0.005 1 0.00004 0.00016 0.00098 0.00393 0.01579 0.10153 0.45494 1.3233 2.70554 3.84146 5.02389 6.6349 7.87944 2 0.01003 0.0201 0.05064 0.10259 0.21072 0.57536 1.38629 2.77259 4.60517 5.99146 7.37776 9.21034 10.59663 3 0.07172 0.11483 0.2158 0.35185 0.58437 1.21253 2.36597 4.10834 6.25139 7.81473 9.3484 11.34487 12.83816 4 0.20699 0.29711 0.48442 0.71072 1.06362 1.92256 3.35669 5.38527 7.77944 9.48773 11.14329 13.2767 14.86026 5 0.41174 0.5543 0.83121 1.14548 1.61031 2.6746 4.35146 6.62568 9.23636 11.0705 12.8325 15.08627 16.7496 6 0.67573 0.87209 1.23734 1.63538 2.20413 3.4546 5.34812 7.8408 10.64464 12.59159 14.44938 16.81189 18.54758 7 0.98926 1.23904 1.68987 2.16735 2.83311 4.25485 6.34581 9.03715 12.01704 14.06714 16.01276 18.47531 20.27774 8 1.34441 1.6465 2.17973 2.73264 3.48954 5.07064 7.34412 10.21885 13.36157 15.50731 17.53455 20.09024 21.95495 9 1.73493 2.0879 2.70039 3.32511 4.16816 5.89883 8.34283 11.38875 14.68366 16.91898 19.02277 21.66599 23.58935 10 2.15586 2.55821 3.24697 3.9403 4.86518 6.7372 9.34182 12.54886 15.98718 18.30704 20.48318 23.20925 25.18818 11 2.60322 3.05348 3.81575 4.57481 5.57778 7.58414 10.341 13.70069 17.27501 19.67514 21.92005 24.72497 26.75685 12 3.07382 3.57057 4.40379 5.22603 6.3038 8.43842 11.34032 14.8454 18.54935 21.02607 23.33666 26.21697 28.29952 13 3.56503 4.10692 5.00875 5.89186 7.0415 9.29907 12.33976 15.98391 19.81193 22.36203 24.7356 27.68825 29.81947 14 4.07467 4.66043 5.62873 6.57063 7.78953 10.16531 13.33927 17.11693 21.06414 23.68479 26.11895 29.14124 31.31935 15 4.60092 5.22935 6.26214 7.26094 8.54676 11.03654 14.33886 18.24509 22.30713 24.99579 27.48839 30.57791 32.80132 16 5.14221 5.81221 6.90766 7.96165 9.31224 11.91222 15.3385 19.36886 23.54183 26.29623 28.84535 31.99993 34.26719 17 5.69722 6.40776 7.56419 8.67176 10.08519 12.79193 16.33818 20.48868 24.76904 27.58711 30.19101 33.40866 35.71847 18 6.2648 7.01491 8.23075 9.39046 10.86494 13.67529 17.3379 21.60489 25.98942 28.8693 31.52638 34.80531 37.15645 19 6.84397 7.63273 8.90652 10.11701 11.65091 14.562 18.33765 22.71781 27.20357 30.14353 32.85233 36.19087 38.58226 20 7.43384 8.2604 9.59078 10.85081 12.44261 15.45177 19.33743 23.82769 28.41198 31.41043 34.16961 37.56623 39.99685 21 8.03365 8.8972 10.2829 11.59131 13.2396 16.34438 20.33723 24.93478 29.61509 32.67057 35.47888 38.93217 41.40106 22 8.64272 9.54249 10.98232 12.33801 14.04149 17.23962 21.33704 26.03927 30.81328 33.92444 36.78071 40.28936 42.79565 23 9.26042 10.19572 11.68855 13.09051 14.84796 18.1373 22.33688 27.14134 32.0069 35.17246 38.07563 41.6384 44.18128 24 9.88623 10.85636 12.40115 13.84843 15.65868 19.03725 23.33673 28.24115 33.19624 36.41503 39.36408 42.97982 45.55851 25 10.51965 11.52398 13.11972 14.61141 16.47341 19.93934 24.33659 29.33885 34.38159 37.65248 40.64647 44.3141 46.92789 26 11.16024 12.19815 13.8439 15.37916 17.29188 20.84343 25.33646 30.43457 35.56317 38.88514 41.92317 45.64168 48.28988 27 11.80759 12.8785 14.57338 16.1514 18.1139 21.7494 26.33634 31.52841 36.74122 40.11327 43.19451 46.96294 49.64492 28 12.46134 13.56471 15.30786 16.92788 18.93924 22.65716 27.33623 32.62049 37.91592 41.33714 44.46079 48.27824 50.99338 29 13.12115 14.25645 16.04707 17.70837 19.76774 23.56659 28.33613 33.71091 39.08747 42.55697 45.72229 49.58788 52.33562 30 13.78672 14.95346 16.79077 18.49266 20.59923 24.47761 29.33603 34.79974 40.25602 43.77297 46.97924 50.89218 53.67196

Các file đính kèm theo tài liệu này:

LUẬN VĂN- CÁC KỸ THUẬT XÁC ĐỊNH COLLOCATION VÀ ỨNG DỤNG CHO TIẾNG VIỆT.pdf