Luận văn Tích hợp thông tin hình thái từ vào hệ dịch máy thống kê Anh - Việt

Tài liệu Luận văn Tích hợp thông tin hình thái từ vào hệ dịch máy thống kê Anh - Việt: ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN NGUYỄN THỊ NGỌC MAI TÍCH HỢP THÔNG TIN HÌNH THÁI TỪ VÀO HỆ DỊCH MÁY THỐNG KÊ ANH - VIỆT LUẬN VĂN THẠC SĨ NGÀNH KHOA HỌC MÁY TÍNH Thành phố Hồ Chí Minh - 2010 Trang 1 MỤC LỤC MỤC LỤC ................................................................................................................... 1 DANH SÁCH CÁC BẢNG ........................................................................................ 4 DANH SÁCH CÁC HÌNH ......................................................................................... 5 CHƢƠNG 1: GIỚI THIỆU ......................................................................................... 6 1.1. Đặt vấn đề ...................................................................................................... 6 1.2. Hƣớng tiếp cận của đề tài .............................................................................. 8 1.3. Nội dung của luận văn ....

92 trang | Chia sẻ: hunglv | Lượt xem: 1480 | Lượt tải: 0

Bạn đang xem trước 20 trang mẫu tài liệu Luận văn Tích hợp thông tin hình thái từ vào hệ dịch máy thống kê Anh - Việt, để tải tài liệu gốc về máy bạn click vào nút DOWNLOAD ở trên

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN NGUYỄN THỊ NGỌC MAI TÍCH HỢP THÔNG TIN HÌNH THÁI TỪ VÀO HỆ DỊCH MÁY THỐNG KÊ ANH - VIỆT LUẬN VĂN THẠC SĨ NGÀNH KHOA HỌC MÁY TÍNH Thành phố Hồ Chí Minh - 2010 Trang 1 MỤC LỤC MỤC LỤC ................................................................................................................... 1 DANH SÁCH CÁC BẢNG ........................................................................................ 4 DANH SÁCH CÁC HÌNH ......................................................................................... 5 CHƢƠNG 1: GIỚI THIỆU ......................................................................................... 6 1.1. Đặt vấn đề ...................................................................................................... 6 1.2. Hƣớng tiếp cận của đề tài .............................................................................. 8 1.3. Nội dung của luận văn ................................................................................... 9 CHƢƠNG 2: TỔNG QUAN ..................................................................................... 11 2.1. Dịch máy thống kê ....................................................................................... 11 2.1.1. Dịch máy thống kê dựa trên từ ............................................................. 11 2.1.2. Mô hình dịch máy thống kê dựa trên ngữ ............................................. 19 2.1.3. Mô hình dịch thống kê factored (Factored SMT) ................................. 26 2.1.4. Mô hình dịch máy thống kê dựa trên cú pháp ...................................... 29 2.2. Các tiêu chuẩn đánh giá chất lƣợng dịch ..................................................... 31 2.2.1. BLEU (Bilingual Evaluation Understudy) ........................................... 32 2.2.2. NIST ...................................................................................................... 32 2.2.3. TER (Translation Error Rate) ............................................................... 32 CHƢƠNG 3: ............................................................................................................. 33 CÁC HƢỚNG TÍCH HỢP TRI THỨC NGÔN NGỮ VÀO DỊCH MÁY THỐNG KÊ .............................................................................................................................. 33 3.1. Sử dụng tri thức ngôn ngữ để tiền xử lý ...................................................... 33 3.1.1. Dùng thông tin cú pháp ......................................................................... 34 Trang 2 3.1.2. Sử dụng thông tin từ loại ...................................................................... 36 3.1.3. Sử dụng luật biến đổi hình thái từ ......................................................... 37 3.2. Tích hợp tri thức vào hệ thống dịch máy ..................................................... 39 3.2.1. Tích hợp thông tin hình thái vào mô hình dịch..................................... 39 3.2.2. Tích hợp thông tin cú pháp vào mô hình dịch ...................................... 40 3.2.3. Tích hợp vào mô hình ngôn ngữ ........................................................... 41 CHƢƠNG 4: MÔ HÌNH CỦA ĐỀ TÀI ................................................................... 42 4.1. Tích hợp thông tin hình thái từ tiếng Anh ................................................... 43 4.1.1. Thông tin từ loại ................................................................................... 43 4.1.2. Thông tin biến cách của từ .................................................................... 44 4.1.3. Sử dụng luật chuyển đổi trật tự ............................................................. 45 4.2. Thêm thông tin hình thái từ tiếng Việt ........................................................ 50 4.2.1. Thông tin ranh giới từ ........................................................................... 50 4.2.2. Thông tin từ loại ................................................................................... 51 4.3. Thêm thông tin hình thái từ cho tiếng Anh và tiếng Việt ............................ 52 CHƢƠNG 5: THỰC NGHIỆM VÀ ĐÁNH GIÁ ..................................................... 54 5.1. Ngữ liệu ....................................................................................................... 54 5.2. Các công cụ ................................................................................................. 55 5.3. Thí nghiệm ................................................................................................... 55 5.3.1. Tích hợp thông tin hình thái từ trong câu tiếng Anh ............................ 55 4.4. Tóm tắt kết quả thí nghiệm .......................................................................... 74 CHƢƠNG 6: KẾT LUẬN ........................................................................................ 76 TÀI LIỆU THAM KHẢO ......................................................................................... 78 PHỤ LỤC .................................................................................................................. 82 Trang 3 A. Đối chiếu hình thái từ Anh – Việt (biến cách) ................................................ 82 B. Kết quả dịch của một số mô hình .................................................................... 82 Trang 4 DANH SÁCH CÁC BẢNG Bảng 2.1. Bảng biểu diễn gióng hàng từ dạng bảng ................................................. 15 Bảng 5.1 Thông tin về ngữ liệu ................................................................................. 59 Bảng 5.2. Kết quả dịch của các hệ tích hợp thông tin hình thái từ vào câu tiếng Anh ................................................................................................................................... 60 Bảng 5.3. Kết quả dịch của các hệ chuyển đổi trật tự từ........................................... 63 Bảng 5.4. Kết quả dịch của các hệ tích hợp thông tin hình thái từ vào câu tiếng Việt ................................................................................................................................... 64 Bảng 5.5. Số liên kết gióng hàng từ trong các mô hình ............................................ 65 Bảng 5.6 Kết quả dịch của hệ dịch tích hợp từ loại tiếng Việt ................................. 68 Bảng 5.7. Kết quả dịch của các hệ tích hợp thông tin hình thái từ vào câu tiếng Anh và tiếng Việt .............................................................................................................. 71 Trang 5 DANH SÁCH CÁC HÌNH Hình 2.1. Mô hình dịch máy thống kê ...................................................................... 12 Hình 2.2. Biểu diễn gióng hàng từ dạng liên kết ...................................................... 14 Hình 2.3. Hình minh hoạ quá trình cải tiến gióng hàng từ ....................................... 19 Hình 2.4. Ví dụ về dịch thống kê dựa trên ngữ ......................................................... 20 Hình 2.5. Mô hình dịch factored SMT ...................................................................... 27 Hình 4.1. Mô hình chung của luận văn ..................................................................... 43 Hình 4.2. Mô hình ngôn ngữ từ vựng ....................................................................... 49 Hình 4.3. Mô hình ngôn ngữ từ loại .......................................................................... 49 Hình 4.4. Mô hình factored SMT tích hợp từ loại .................................................... 50 Hình 4.5. Mô hình factored SMT tích hợp nguyên mẫu và từ loại ........................... 51 Hình 4.5. Mô hình factored SMT tích hợp các thông tin hình thái từ ...................... 51 Trang 6 CHƢƠNG 1: GIỚI THIỆU 1.1. Đặt vấn đề Dịch máy hay còn gọi là dịch tự động đã và đang đƣợc con ngƣời quan tâm hiện nay. Các nhà nghiên cứu đƣa tri thức nhằm khai thác sức mạnh xử lý tính toán của máy tính và tạo ra ứng dụng phục vụ con ngƣời trong thời đại công nghệ thông tin phát triển. Khi việc giao tiếp và việc nắm bắt thông tin nhanh chóng sẽ tạo nên nhiều cơ hội cho con ngƣời đi đến thành công, chƣơng trình dịch tự động sẽ là công cụ giúp họ vƣợt qua rào cản ngôn ngữ, giúp họ chuyển đổi ngôn ngữ nhanh và tiết kiệm công sức. Dịch máy là một lĩnh vực rất thú vị, thu hút sự quan tâm của rất nhiều nhóm nghiên cứu trên thế giới. Tuy nhiên, bản thân từng ngôn ngữ đã rất phức tạp, thƣờng hay có nhập nhằng. Mặc khác, giữa các ngôn ngữ luôn có sự khác biệt, từ từ vựng đến các cấu trúc để tạo thành câu. Việc xây dựng một hệ dịch máy có khả năng hiểu ngữ cảnh, khử nhập nhằng và dịch đƣợc gần với con ngƣời vẫn đang là một thách thức lớn. Đối với tiếng Việt, hiện nay có rất nhiều nhóm đầu tƣ vào các hệ dịch theo nhiều hƣớng tiếp cận khác nhau: - Nhóm nghiên cứu của PGS. TS. Đinh Điền (Đại học Khoa học Tự nhiên- Đại học Quốc gia Thành phố Hồ Chí Minh): Dự án nghiên cứu của nhóm dựa trên việc học luật chuyển đổi từ ngữ liệu song ngữ. - Nhóm nghiên cứu của PGS. TS. Phan Thị Tƣơi (Đại học Bách Khoa Thành phố Hồ Chí Minh): Nhóm sử dụng phƣơng pháp phân tích cú pháp có xác suất để dịch văn bản Anh-Việt và Việt-Anh. - Nhóm nghiên cứu của TS. Lê Khánh Hùng Softex (Phòng Công nghệ Phần Mềm - Viện Ứng dụng công nghệ - Bộ Khoa học và Công nghệ Việt Nam): hệ dịch đã đƣợc đƣa vào sử dụng trong thực tế và thƣơng mại hoá sản phẩm ( EVTRAN là một hệ dịch máy hoàn toàn dựa vào luật, sử Trang 7 dụng các luật đƣợc xây dựng bằng tay để dịch văn bản từ Anh sang Việt. Từ năm 2006, bản EVTRAN 3.0 (đƣợc gọi là Ev-Shuttle) có thể dịch đƣợc văn bản hai chiều Anh-Việt và Việt-Anh. Do hệ dịch dựa trên luật nên kết quả của hệ dịch phụ thuộc nhiều vào câu đầu vào có phù hợp với các luật đã đƣợc thiết lập hay không. - Nhóm dự án ERIM của Đại học Bách Khoa Đà Nẵng kết hợp với GETA – ĐHBK Grenoble, thử nghiệm dịch Anh-Việt, Pháp-Việt của Đoàn Nguyên Hải ( tại LATL. - Google Transle (www.translate.google.com): Hỗ trợ hơn 50 ngôn ngữ bao gồm cả tiếng Việt. Sử dụng phƣơng pháp dịch máy thống kê dựa trên kho ngữ liệu song ngữ. Tốc độ dịch nhanh và có tính năng tƣơng tác với ngƣời dùng nhằm tăng chất lƣợng dịch cho các lần sau. - Dịch máy trên Xalo.vn (www.dich.xalo.vn): đƣa ra dịch vụ dịch trực tuyến một chiều từ Anh sang Việt, do công ty Cổ phần Công nghệ Tinh Vân tự phát triển, hỗ trợ dịch theo từng lĩnh vực, đồng thời cho phép ngƣời dùng chỉnh sửa, góp ý về nội dung dịch nhằm nâng cao chất lƣợng dịch. - Lạc Việt (công ty từng phát triển và đƣa ra bộ từ điển Lạc Việt www.vietgle.vn/tratu/dich-tu-dong): chỉ hỗ trợ dịch từ Anh sang Việt có thêm phần dịch chuyên ngành (tin học, toán học, y học và kế toán) và hỗ trợ dịch tốt hơn bởi ngƣời dùng. Do xây dựng trên các mô hình khác nhau, các hệ thống cho ra chất lƣợng dịch khác nhau, tuỳ thuộc vào dạng câu đầu vào. Các hệ thống dựa trên luật do sử dụng tri thức ngôn ngữ nhƣ thông tin cú pháp, ngữ nghĩa nên dịch khá hiệu quả. Tuy nhiên, máy tính khó có thể phân tích cú pháp chính xác cho những câu có ngữ nghĩa phức tạp. Mặc khác, việc xây dựng tập luật cú pháp và luật chuyển đổi có thể bao quát đƣợc mọi trƣờng hợp rất khó khăn, đòi hỏi ngƣời thực hiện phải có kiến thức sâu về ngôn ngữ. Ngƣợc lại, hệ dịch máy thống kê (Statistical Machine Translation – SMT) lại hoàn toàn dựa trên các kết quả thống kê từ kho ngữ liệu song ngữ. Kết quả trung gian của Trang 8 hệ dịch này là các bảng thống kê về từ, ngữ và các qui luật chuyển đổi mà không cần đến tri thức ngôn ngữ. Với phƣơng pháp này, ngữ liệu càng lớn và có chất lƣợng tốt thì hệ dịch sẽ càng hiệu quả. Ƣu điểm của hệ dịch này là do chỉ thuần tuý thống kê nên độc lập về ngôn ngữ, có thể áp dụng đƣợc trên bất kì cặp ngôn ngữ nào. Mặc khác, chúng ta có thể tiền xử lý trên dữ liệu đầu vào, miễn là thực hiện biến đổi đồng nhất trong cả quá trình huấn luyện và dịch. Ngoài ra, những ngƣời cũng có thể theo dõi hoặc can thiệp vào quá trình dịch thông qua các bảng thống kê trung gian. Chính vì những đặc điểm này mà mô hình dịch máy thống kê có tiềm năng rất lớn trong ứng dụng dịch máy. Rất nhiều nhóm nghiên cứu đang tập trung khai thác và phát triển hệ dịch máy trên mô hình này. Do đó, chúng tôi hƣớng đến phát triển một hệ dịch sử dụng đồng thời tri thức thống kê từ kho ngữ liệu song ngữ và tri thức về phân tích ngôn ngữ. Luận văn sẽ tập trung khảo sát việc tích hợp thông tin hình thái từ vào dịch máy thống kê và phát triển một hệ thống dịch máy thống kê Anh - Việt sử dụng các tri thức ngôn ngữ này. 1.2. Hƣớng tiếp cận của đề tài Đề tài sẽ tập trung vào khảo sát các hƣớng tích hợp trực tiếp tri thức ngôn ngữ vào trong hệ dịch máy thống kê dựa trên ngữ. Khảo sát các tri thức ngôn ngữ trong dịch máy thống kê Anh - Việt. Các tri thức đƣợc tập trung khảo sát bao gồm hình thái từ, từ loại và các cách kết hợp các thông tin này và tìm hiểu ảnh hƣởng của các thông tin này lên hệ dịch. Tiếng Anh và tiếng Việt rất khác biệt về loại hình ngôn ngữ. Tiếng Việt là ngôn ngữ đơn lập, quan hệ ngữ pháp chỉ đƣợc diễn đạt bằng trật tự trƣớc sau của từ và bằng các hƣ từ. Trong tiếng Việt, từ không có hiện tƣợng biến hình, đơn vị cơ bản là hình tiết: đây là một đơn vị có nghĩa, có vỏ ngữ âm thƣờng trùng với âm tiết, có khả năng vừa dùng nhƣ từ vừa dùng nhƣ hình vị. Ở loại hình này, ngƣời ta thƣờng hay nói đến vấn đề khó xác định ranh giới từ, vấn đề khó phân biệt các yếu tố hƣ với yếu tố thực cũng nhƣ vấn đề mặt cấu tạo từ ít phát triển. Trong khi tiếng Anh là Trang 9 ngôn ngữ hoà kết, từ tiếng Anh chính là những từ chính tả phân biệt bởi khoảng trắng. Từ vựng tiếng Anh có hai đặc điểm là biến cách và dẫn xuất. Biến cách là dạng mà trong đó có một hình vị ràng buộc kết hợp vào một từ để thể hiện những ý nghĩa ngữ pháp nhƣ: thì (tense), số (number), cách (case), v.v… Dẫn xuất là dạng từ mới đƣợc hình thành trên cơ sở từ gốc kết hợp với các phụ tố nhằm thể hiện những ý nghĩa từ vựng, nhƣ: lặp lại (re-), chống (anti-), ngƣời/vật thực hiện (-er/-or), ... Phụ tố của dẫn xuất bao gồm các hậu tố và tiền tố. Nhiều nghiên cứu đã tiếp cận theo hƣớng tập trung vào giải quyết sự khác biệt về trật tự từ giữa tiếng Anh và tiếng Việt nhƣ nghiên cứu của nhóm Nguyễn Phƣơng Thái [32], nhóm nghiên cứu của nhóm Nguyễn Thị Hồng Nhung [24], Duy Vũ [3] và đạt đƣợc một số kết quả khả quan. Tuy nhiên, sự khác nhau về hình thái từ giữa tiếng Anh và tiếng Việt vẫn chƣa đƣợc quan tâm. Do đó, đề tài sẽ tiếp cận theo hƣớng tích hợp tri thức ngôn ngữ vào hệ thống dịch máy thống kê Anh - Việt ở mức độ hình thái từ. Từ tiếng Anh sẽ đƣợc đƣa về nguyên mẫu, tách các phụ tố và gán nhãn từ loại, từ tiếng Việt sẽ đƣợc phân đoạn từ và gán nhãn từ loại. Đề tài cũng sẽ phân tích các từ loại có ảnh hƣởng tích cực đến chất lƣợng dịch của hệ thống. 1.3. Nội dung của luận văn Phần còn lại của luận văn sẽ bao gồm các chƣơng sau: Chƣơng 2 – TỔNG QUAN: Chƣơng này sẽ trình bày hƣớng tiếp cận dịch máy thống kê dựa trên ngữ, các thành phần cấu thành hệ thống dịch máy thống kê này. Chƣơng 3 – CÁC HƢỚNG TÍCH HỢP TRI THỨC NGÔN NGỮ VÀO DỊCH MÁY THỐNG KÊ: Chƣơng này sẽ khảo sát các hƣớng tiếp cận để đƣa tri thức ngôn ngữ vào trong hệ máy thống kê, phân tích ƣu khuyết điểm của các hƣớng tiếp cận này. Trang 10 Chƣơng 4 – MÔ HÌNH CỦA ĐỀ TÀI: Chƣơng này sẽ mô tả mô hình đƣợc sử dụng trong đề tài, các tri thức đƣợc đƣa vào hệ thống dịch máy thống kê Anh - Việt dựa trên ngữ và lí do lựa chọn các tri thức này. Chƣơng 5 – THỰC NGHIỆM VÀ ĐÁNH GIÁ: Chƣơng này sẽ mô tả chi tiết về các thí nghiệm đã thực hiện để đánh giá hiệu quả hƣớng tiếp cận của đề tài, đồng thời so sánh các tri thức ngôn ngữ khác nhau ảnh hƣởng nhƣ thế nào trong dịch máy thống kê Anh - Việt. Chƣơng 6 – KẾT LUẬN: nêu lên những kết quả mà luận văn đã đạt đƣợc và hƣớng phát triển trong tƣơng lai. TÀI LIỆU THAM KHẢO VÀ PHỤ LỤC: trình bày các thông tin khác có liên quan và đƣợc sử dụng trong đề tài. CÔNG TRÌNH ĐÃ CÔNG BỐ: liệt kê các bài báo khoa học, các công trình đã đƣợc công bố trong quá trình thực hiện đề tài. Trang 11 CHƢƠNG 2: TỔNG QUAN 2.1. Dịch máy thống kê Dịch máy thống kê (Statistical Machine Translation - SMT) đƣợc nghiên cứu từ những năm 1980 trong dự án Candide của IBM. Phƣơng pháp đƣợc IBM sử dụng là dịch máy thống kê dựa trên từ (word based SMT), phƣơng pháp này dịch từ một từ thuộc ngôn ngữ nguồn sang một hoặc nhiều từ thuộc ngôn ngữ đích và cho phép thêm, xoá các từ trên câu đích. Sau này, nhiều nhóm nghiên cứu đã đạt đƣợc kết quả dịch tốt hơn nhờ phƣơng pháp dịch máy thông kê dựa trên ngữ (phrase based SMT). Phƣơng pháp này đƣợc đặt nền móng từ mô hình mẫu gióng hàng (alignment template model) của [10], mô hình này có thể chuyển đổi thành một hệ thống dịch máy thống kê dựa trên ngữ. Nhiều nhóm nghiên cứu sử dụng kết quả của dịch dựa trên ngữ để tích hợp vào hệ thống của mình, chẳng hạn [34] đã thành công khi sử dụng cách dịch dựa trên ngữ trong mô hình dịch máy dựa trên cú pháp (syntax-based) của mình. Hầu hết các hệ thống dịch máy thống kê hiện nay đều sử dụng cách dịch dựa trên ngữ, một số hệ thống dịch máy nổi tiếng trong số này là CMU, IBM, ISI và Google. Các hệ thống dịch máy dựa trên ngữ đạt đƣợc những kết quả vƣợt trội trong các hội nghị đánh giá chất lƣợng dịch máy thời gian gần đây (DARPA TIDES Machine Translation Evaluation). Ngoài phƣơng pháp thống kê còn nhiều phƣơng pháp khác đƣợc sử dụng trong dịch máy. Đa số các hệ thống dịch thƣơng mại sử dụng các luật chuyển đổi và các bộ từ vựng phong phú. Cho tới gần đây, các nghiên cứu về dịch máy thƣờng tập trung vào các hệ thống dựa trên tri thức (knowledge based) sử dụng interlingua làm ngôn ngữ trung gian trong quá trình dịch. 2.1.1. Dịch máy thống kê dựa trên từ Mô hình dịch máy thống kê dựa trên từ [25] đƣợc đƣa ra bởi Brown vào năm 1990. Mô hình này giả sử rằng câu 𝑒 ở ngôn ngữ nguồn có câu dịch là câu 𝑣 ở ngôn ngữ Trang 12 đích. Một câu e có thể dịch sang đƣợc nhiều câu v. Trong dịch thống kê, ta chọn câu v có khả năng là câu dịch của e là nhiều nhất. Với mỗi cặp câu 𝑣 𝑒 ta gọi 𝑝 𝑣 𝑒 là xác suất mà 𝑒 có thể dịch thành 𝑣. Mục đích của dịch máy thống kê là tìm câu 𝑣 có xác suất 𝑝 𝑣 𝑒 là cao nhất. Tuy nhiên, việc tính xác suất 𝑝 𝑣 𝑒 không khả thi vì câu đích đƣợc tạo ra bởi chuỗi các từ vựng của ngôn ngữ đích, có thể chuỗi này không phải là câu đúng ngữ pháp. Do đó, công thức Bayes đƣợc dùng để triển khai cho xác suất 𝑝 𝑣 𝑒 : 𝑝 𝑣 𝑒 = 𝑝 𝑣 .𝑝 𝑒 𝑣 𝑝 𝑒 (2.1) Vì câu tiếng Anh e không đổi nên 𝑝(𝑒) sẽ không ảnh hƣởng đến việc chọn câu 𝑒, ta có thể bỏ qua 𝑝(𝑒). Khi đó, câu dịch 𝑣 đƣợc chọn sẽ là câu có 𝑝 𝑣 .𝑝 𝑒 𝑣 lớn nhất. 𝑣 = 𝑎𝑟𝑔𝑚𝑎𝑥𝑣 𝑝 𝑣 𝑒 = 𝑎𝑟𝑔𝑚𝑎𝑥𝑣 𝑝 𝑣 . 𝑝 𝑒 𝑣 (2.2) Hệ dịch máy thống kê gồm 3 phần: - Mô hình ngôn ngữ 𝑝(𝑣) (language model): Phản ánh độ trôi chảy của câu dịch. Các câu v đúng ngữ pháp và gần với cách nói tự nhiên trong ngôn ngữ đích sẽ có giá trị xác suất 𝑝(𝑣) cao hơn. Mô hình này đƣợc huấn luyện dựa trên ngữ liệu đơn ngữ. - Mô hình dịch 𝑝(𝑣) (translation model): Đƣa ra sự tƣơng ứng giữa các từ, ngữ trong các cặp ngôn ngữ. Với câu e cho trƣớc, câu dịch v nào có xác suất 𝑝(𝑣) cao hơn thì sẽ là câu dịch hợp lý hơn. Mô hình này đƣợc huấn luyện dựa trên các cặp câu song ngữ. - Bộ giải mã (Decoder): Tích hợp giữa mô hình dịch và mô hình ngôn ngữ để thực hiện quá trình dịch. Trang 13 Hình 2.1. Mô hình dịch máy thống kê 2.1.1.1. Mô hình ngôn ngữ Mô hình ngôn ngữ giúp hệ dịch xác định độ chính xác của trật tự từ (có thể cả ngữ pháp) trong câu đƣợc phát sinh. Từ chuỗi từ đƣợc phát sinh ra, hệ dịch tính tần suất dãy các từ này cùng xuất hiện trong ngôn ngữ đích. Thông tin này sẽ đƣợc dùng trong quá trình giải mã để tìm ra câu dịch hay nhất. Các hệ thống hiện nay thƣờng tính toán sử dụng mô hình ngôn ngữ n-gram, cụ thể là trigram. Mô hình ngôn ngữ n-gram tính xác suất xuất hiện của một từ dựa trên 𝑛 − 1 từ đứng trƣớc nó trong câu. Cho câu 𝑠 gồm chuỗi các từ 𝑤1,𝑤2,…𝑤𝑛 , ta tính các xác suất trong mô hình ngôn ngữ nhƣ sau: Xác suất unigram: 𝑝 𝑤1 = 𝑆ố 𝑙ầ𝑛 𝑥𝑢ấ𝑡 𝑕𝑖ệ𝑛 𝑡ừ 𝑤1 𝑇ổ𝑛𝑔 𝑠ố 𝑡ừ (2.3) Xác suất bigram: 𝑝 𝑤1|𝑤2 = 𝑆ố 𝑙ầ𝑛 𝑥𝑢ấ𝑡 𝑕𝑖ệ𝑛 𝑐ụ𝑚 𝑤1𝑤2 𝑆ố 𝑙ầ𝑛 𝑥𝑢ấ𝑡 𝑕𝑖ệ𝑛 𝑡ừ 𝑤1 (2.4) Ngữ liệu song ngữ Ngữ liệu đơn ngữ Thống kê Thống kê Mô hình dịch Mô hình ngôn ngữ Quá trình giải mã Câu nguồn Câu đích Trang 14 Xác suất trigram: 𝑝 𝑤3|𝑤1𝑤2 = 𝑆ố 𝑙ầ𝑛 𝑥𝑢ấ𝑡 𝑕𝑖ệ𝑛 𝑐ụ𝑚 𝑤1𝑤2𝑤3 𝑆ố 𝑙ầ𝑛 𝑥𝑢ấ𝑡 𝑕𝑖ệ𝑛 𝑐ụ𝑚 𝑤1𝑤2 (2.5) Xác suất xuất hiện của câu 𝑠 đƣợc tính bằng tích của tất cả các xác suất xuất hiện của từng từ có trong câu 𝑠. Dƣới đây là ví dụ về cách tính xác suất xuất hiện của câu “I like bungee jumping off high bridges” theo mô hình ngôn ngữ trigram. 𝑝 𝐼 𝑙𝑖𝑘𝑒 𝑏𝑢𝑛𝑔𝑒𝑒 𝑗𝑢𝑚𝑝𝑖𝑛𝑔 𝑜𝑓𝑓 𝑕𝑖𝑔𝑕 𝑏𝑟𝑖𝑑𝑔𝑒𝑠 = 𝑝 𝐼 × 𝑝 𝑙𝑖𝑘𝑒 𝐼 × 𝑝 𝑏𝑢𝑛𝑔𝑒𝑒 𝐼 𝑙𝑖𝑘𝑒 × 𝑝 𝑗𝑢𝑚𝑝𝑖𝑛𝑔 𝑙𝑖𝑘𝑒 𝑏𝑢𝑛𝑔𝑒𝑒 × 𝑝 𝑜𝑓𝑓 𝑏𝑢𝑛𝑔𝑒𝑒 𝑗𝑢𝑚𝑝𝑖𝑛𝑔 × 𝑝 𝑕𝑖𝑔𝑕 𝑗𝑢𝑚𝑝𝑖𝑛𝑔 𝑜𝑓𝑓 × 𝑝 𝑏𝑟𝑖𝑑𝑔𝑒𝑠 𝑜𝑓𝑓 𝑕𝑖𝑔𝑕 × 𝑝( |𝑕𝑖𝑔𝑕 𝑏𝑟𝑖𝑑𝑔𝑒𝑠) × 𝑝( |𝑏𝑟𝑖𝑑𝑔𝑒𝑠 ) Trong thực tế, ngữ liệu thƣờng bị phân tán, nếu từ không tồn tại trong ngữ liệu thì xác suất xuất hiện của nó sẽ bằng 0. Điều này dẫn đến xác suất của chuỗi từ đƣợc tính bằng tích các xác suất của từng từ sẽ bằng 0. Để tránh xác suất 0, công thức tính xác suất xuất hiện của từ đƣợc điều chỉnh nhƣ sau: 0.8 × 𝑝 𝑤3 𝑤1𝑤2 + 0.15 × 𝑝 𝑤3 𝑤2 + 0.049 × 𝑝 𝑤3 + 0.001 Ngoài mô hình ngôn ngữ n-gram, còn có một số mô hình ngôn ngữ khác nhƣ: mô hình ngôn ngữ web n-gram và mô hình ngôn ngữ cú pháp. 2.1.1.2. Gióng hàng từ Để ƣớc lƣợng các tham số trong mô hình dịch, bảng dịch ngữ đƣợc tạo ra dựa trên gióng hàng từ. Gióng hàng là tạo liên kết giữa các cặp từ (ngữ) tƣơng ứng bằng cách đánh dấu vị trí của những từ ở câu nguồn vào từ (ngữ) ở câu đích. Ví dụ, gióng hàng từ giữa cặp câu song ngữ: She takes a small green box. Cô ấy lấy một chiếc hộp nhỏ màu xanh. Trang 15 đƣợc biểu diễn nhƣ sau: Hình 2.2. Biểu diễn gióng hàng từ dạng liên kết Một cách khác để biểu diễn gióng hàng từ là sử dụng bảng nhƣ bảng 2.1. Bảng 2.1. Bảng biểu diễn gióng hàng từ dạng bảng She takes a small green box . Cô ấy lấy một chiếc hộp nhỏ màu xanh . Mô hình gióng hàng từ IBM (Brown, 1993) mặc dù đƣợc đƣa ra từ rất lâu nhƣng hiện nay vẫn đƣợc xem là mô hình tiên tiến nhất hiện nay. Mô hình này giả sử rằng các liên kết từ giữa cặp câu luôn tồn tại, nhƣng chƣa xác định đƣợc vị trí của các liên kết đó. Giả sử ta có cặp câu song ngữ, câu tiếng Anh 𝑒 có 𝑚 từ và câu tiếng Việt 𝑣 có 𝑛 từ: 𝑒 = 𝑒1, 𝑒2,…𝑒𝑚 𝑣 = 𝑣1, 𝑣2,…𝑣𝑛 . She takes a small green box . Cô ấy lấy một chiếc hộp nhỏ màu xanh Trang 16 Gọi gióng hàng từ 𝑎𝑗 : 𝑗 → 𝑖 liên kết từ tiếng Anh thứ 𝑗 sang từ tiếng Việt thứ 𝑖 và 𝑎 là tập các liên kết từ tất cả các từ trong câu e 𝑎 = 𝑎1,𝑎,…𝑎𝑚 Từ xác suất gióng hàng từ, ta có thể tính đƣợc xác suất dịch theo công thức: 𝑝 𝑣 𝑒 = 𝑝 𝑎, 𝑒 𝑣 𝑎 (2.6) Xác suất gióng hàng từ giữa các từ trong cặp câu, 𝑝 𝑎, 𝑒 𝑣 đƣợc tính nhƣ sau: 𝑝 𝑎, 𝑒 𝑣 = 𝑡 𝑒𝑗 𝑣𝑖 𝑚 𝑗=1 (2.7) Trong đó, 𝑡 𝑒𝑗 𝑣𝑖 đƣợc tính dựa trên các gióng hàng từ (ngữ) trong ngữ liệu song ngữ. Tuy nhiên, để tạo ra ngữ liệu gióng hàng từ (ngữ) đòi hỏi rất nhiều công sức cho việc gán nhãn. Do đó, thật toán Expectation Maximization (EM) đã đƣợc [24] đề xuất để ƣớc lƣợng các gióng hàng từ (ngữ) này. Ý tƣởng của thuật toán EM nhƣ sau: Đầu tiên, với mọi cặp câu song ngữ có trong ngữ liệu, ta giả định tất cả các từ trong câu nguồn đều có gióng hàng từ với tất cả các từ trong câu đích, các xác suất gióng hàng từ đƣợc khởi tạo giá trị ban đầu nhƣ nhau. Sau đó, qua mỗi lần lặp, các cặp từ thƣờng gióng hàng với nhau nhất sẽ đƣợc xác định. … my house … small house … my mobile … … nhà của tôi … nhà nhỏ … điện_thoại của tôi … Trang 17 Liên kết giữa “my” và “của tôi” đƣợc xác định: Liên kết “house” và “nhà” đƣợc xác định: Các liên kết khác đƣợc xác định: Kết quả gióng hàng từ cuối cùng: Cuối cùng, các xác suất gióng hàng từ sẽ hội tụ, giá trị không thay đổi nhiều. Khi đó ta đƣợc cả hai thông tin là thông tin về gióng hàng từ và giá trị xác suất tƣơng ứng. Sử dụng thuật toán EM, Stephan Vogel đề ra các mô hình IBM có tên gọi lần lƣợt là IBM1, IBM2, IBM3, IBM4, IBM5 và Franz-Joseph Och đề ra mô hình 6 để tạo ra gióng hàng từ trên các cặp câu song ngữ. … my house … small house … my mobile … … nhà của tôi … nhà nhỏ … điện_thoại của tôi … … my house … small house … my mobile … … nhà của tôi … nhà nhỏ … điện_thoại của tôi … … my house … small house … my mobile … … nhà của tôi … nhà nhỏ … điện_thoại của tôi … … my house … small house … my mobile … … nhà của tôi … nhà nhỏ … điện_thoại của tôi … Trang 18 Hiện tại, công cụ phổ biến nhất để gióng hàng từ là GIZA++. Công cụ này đƣợc xây dựng dựa trên các mô hình IBM. Tuy nhiên, công cụ này có hạn chế là chỉ cho phép gióng hàng một từ thuộc ngôn ngữ nguồn với một hoặc nhiều từ thuộc ngôn ngữ đích. [10] đề xuất cách tiếp cận dựa trên heuristic để cải tiến kết quả gióng hàng từ có đƣợc từ GIZA++. Tất cả các điểm nằm trong vùng giao của hai gióng hàng từ sẽ đƣợc giữ lại và vùng gióng hàng từ đƣợc mở rộng tối đa không vƣợt quá vùng giao của hai gióng hàng từ. Đầu tiên, ngữ liệu song ngữ đƣợc gióng hàng từ cả hai phía, từ ngôn ngữ nguồn sang ngôn ngữ đích và từ ngôn ngữ đích sang ngôn ngữ nguồn. Quá trình này tạo ra hai gióng hàng từ. Nếu lấy phần giao hai gióng hàng từ này, chúng ta sẽ có gióng hàng từ với độ chính xác cao (high-precision). Ngƣợc lại, nếu lấy phần hợp của hai gióng hàng từ, chúng ta sẽ có gióng hàng từ với độ bao phủ (high-recall) cao. Hình 2.2 minh họa quá trình này. Trong hình, các điểm nằm trong vùng giao có màu đen, các điểm mở rộng có màu xám. Trang 19 Hình 2.3. Hình minh hoạ quá trình cải tiến gióng hàng từ 2.1.1.3. Quá trình giải mã (decoding) Nhiệm vụ của của quá trình này là tìm câu dịch thích hợp nhất khi biết câu nguồn. - Chia câu nguồn thành nhiều từ hoặc cụm từ. - Tra trong bảng ngữ để tìm các ngữ dịch tƣơng ứng. - Kết hợp các ngữ tìm đƣợc lại thành câu và chọn những câu có xác suất mô hình dịch nhân với xác suất mô hình ngôn ngữ lớn nhất. 2.1.2. Mô hình dịch máy thống kê dựa trên ngữ Hệ dịch thống kê dựa trên từ có khuyết điểm là không lấy đƣợc thông tin ngữ cảnh mà chỉ dựa trên các phân tích thống kê về từ. Mô hình dịch máy thống kê dựa trên ngữ cải tiến hơn ở chỗ thay vì xử lý trên từ thì xử lý trên ngữ. Điều này cho phép hệ thống có thể dịch các cụm từ tránh đƣợc dịch word-by-word. Trang 20 Trong hệ dịch máy thống kê dựa trên ngữ [26], câu ở ngôn ngữ nguồn e đƣợc tách thành nhiều ngữ 𝑒𝑖 (là một dãy nhiều từ, không nhất thiết phải là ngữ đúng ngữ pháp, dấu câu cũng đƣợc xem nhƣ là một từ). Mỗi ngữ 𝑒𝑖 đƣợc dịch thành ngữ 𝑣𝑖 tƣơng ứng dựa vào phân phối xác suất 𝜙(𝑒 𝑖|𝑣 𝑖). Sau đó các ngữ 𝑣𝑖 sẽ đƣợc chuyển đổi trật tự dựa trên mô hình chuyển đổi 𝑑(𝑎𝑖 − 𝑏𝑖−1), với 𝑎𝑖 là vị trí bắt đầu của ngữ 𝑒𝑖 và 𝑏𝑖−1 là vị trí kết thúc của ngữ 𝑣𝑖 . Do vậy, hệ dịch thống kê trên ngữ sẽ học đƣợc các cặp cụm từ song ngữ, đặc biệt là các câu thành ngữ. Nhƣ vậy, câu dịch tốt nhất thoả công thức (2.1) sẽ đƣợc viết lại thành: 𝑝 𝑒𝑖 𝑣𝑖 = 𝜙(𝑒 𝑖|𝑣 𝑖) × 𝑚 𝑖=1 𝑑(𝑎𝑖 − 𝑏𝑖−1) (2.6) Hình 2.4 minh hoạ quá trình dịch máy thống kê dựa trên ngữ. Câu đầu vào tiếng Anh đƣợc tách thành nhiều cụm từ, hay còn gọi là ngữ. Các ngữ đƣợc dịch sang ngữ tiếng Việt tƣơng ứng, các ngữ tiếng Việt đầu ra có thể chuyển đổi trật tự trong câu cho phù hợp với tiếng Việt. Hình 2.4. Ví dụ về dịch thống kê dựa trên ngữ Do thống kê trên các cặp ngữ, hệ dịch này có thể chuyển đổi trật tự giữa các từ trong ngữ, nhƣng vẫn chƣa tự động chuyển đổi trật tự các cụm từ ở xa nhau trong câu. Có nhiều cách khác nhau để rút trích các cặp ngữ từ ngữ liệu song ngữ. [16] đã thử nghiệm 3 phƣơng pháp sau: i. Lấy ngữ dựa vào kết quả gióng hàng từ . She takes a small green box . Cô ấy lấy một chiếc hộp nhỏ màu xanh Trang 21 Tác giả sử dụng công cụ GIZA++ để gióng hàng từ trong ngữ liệu song ngữ. Sau đó, Koehn dùng một số heuristic để cải tiến thêm kết quả gióng hàng và lấy toàn bộ các cặp ngữ chứa những từ có liên kết. Khi đó, 𝜙(𝑒 𝑖|𝑣 𝑖) đƣợc tính nhƣ sau: 𝜙 𝑒 𝑖 𝑣 𝑖 = 𝑐𝑜𝑢𝑛𝑡(𝑒 |𝑣 ) 𝑐𝑜𝑢𝑛𝑡(𝑒 |𝑣 )𝑒 (2.7) ii. Tách ngữ cú pháp Trƣớc tiên, tác giả gióng hàng từ cho cặp câu song ngữ, sau đó phân tích cặp câu ra cây cú pháp. Tác giả rút trích các cặp ngữ song ngữ bằng cách lấy chuỗi từ nằm trong cây con của cây cú pháp và có liên kết gióng hàng từ. Xác suất dịch của cặp ngữ đƣợc tính tƣơng tự nhƣ mô hình trên. iii. Dùng mô hình kết hợp do Marcu, D. và Wong, W đề xuất: Hình thành ngữ trực tiếp trên ngữ liệu song ngữ Thông qua các thí nghiệm, tác giả kết luận rằng mô hình dựa trên gióng hàng từ cho kết quả tốt nhất trong 3 mô hình. Xét cặp câu song ngữ: That girl is the highest pupil in the class. Cô bé đó là học sinh cao nhất trong lớp. Mô hình rút các cặp ngữ từ kết quả gióng hàng từ sau: Từ kết quả gióng hàng từ của cặp câu: Trang 22 Các cặp ngữ rút ra phải nhất quán nhƣ hình (a), những từ có liên kết với từ trong ngữ nguồn thì cũng đƣợc đƣa vào trong ngữ đích. Cách rút ngữ trong hình (b) là sai vì từ “là” có liên kết với từ “is” nhƣng không đƣợc đƣa vào ngữ. Ban đầu, ta có thể lấy các ngữ từ các liên kết gióng hàng từ (That, ấy), (girl, cô bé), (is, là), (highest, cao nhất), (pupil, học sinh), (in, trong), (class, lớp), (., .) Trang 23 (That, ấy), (girl, Cô bé), (is, là), (highest, cao nhất), (pupil, học sinh), (in, trong), (class, lớp), (., .), (That girl, Cô bé ấy), (is the, là), (highest pupil, học sinh cao nhất), (the class, trong lớp) (That, ấy), (girl, Cô bé), (is, là), (highest, cao nhất), (pupil, học sinh), (in, trong), (class, lớp), (., .), (That girl, Cô bé ấy), (is the, là), (highest pupil, học sinh cao nhất), (the class, trong lớp), (That girl is, Cô bé ấy là), (highest pupil in, học sinh cao nhất trong), (in the class, trong lớp), (the class . , trong lớp .) (That, ấy), (girl, Cô bé), (is, là), (highest, cao nhất), (pupil, học sinh), (in, trong), (class, lớp), (., .), (That girl, Cô bé ấy), (is the, là), (highest pupil, học sinh cao nhất), (the class, trong lớp), (That girl is, Cô bé ấy là), (highest pupil in, học sinh cao nhất trong), (in the class, trong lớp), (the class . , trong lớp .), (That girl is the, Cô bé ấy là), (is the highest pupil, là học sinh cao nhất), (highest pupil in the, cao nhất trong), (in the class, trong lớp) Trang 24 (That, ấy), (girl, Cô bé), (is, là), (highest, cao nhất), (pupil, học sinh), (in, trong), (class, lớp), (., .), (That girl, Cô bé ấy), (is the, là), (highest pupil, học sinh cao nhất), (the class, trong lớp), (That girl is, Cô bé ấy là), (highest pupil in, học sinh cao nhất trong), (in the class, trong lớp), (the class . , trong lớp .), (That girl is the, Cô bé ấy là), (is the highest pupil, là học sinh cao nhất), (highest pupil in the, cao nhất trong), (in the class, trong lớp), (That girl is the highest pupil, Cô bé ấy là học sinh cao nhất), (is the highest pupil in the, là học sinh cao nhất trong), (highest pupil in the class ., học sinh cao nhất trong lớp .) (That, ấy), (girl, Cô bé), (is, là), (highest, cao nhất), (pupil, học sinh), (in, trong), (class, lớp), (., .), (That girl, Cô bé ấy), (is the, là), (highest pupil, học sinh cao nhất), (the class, trong lớp), (That girl is, Cô bé ấy là), (highest pupil in, học sinh cao nhất trong), (in the class, trong lớp), (the class. , trong lớp .), (That girl is the, Cô bé ấy là), (is the highest pupil, là học sinh cao nhất), (highest pupil in the, cao Trang 25 nhất trong), (in the class, trong lớp), (That girl is the highest pupil, Cô bé ấy là học sinh cao nhất), (is the highest pupil in the, là học sinh cao nhất trong), (highest pupil in the class ., học sinh cao nhất trong lớp .), (That girl is the highest pupil in the, Cô bé ấy là học sinh cao nhất trong), (is the highest pupil in the class ., là học sinh cao nhất trong lớp .) (That, ấy), (girl, Cô bé), (is, là), (highest, cao nhất), (pupil, học sinh), (in, trong), (class, lớp), (., .), (That girl, Cô bé ấy), (is the, là), (highest pupil, học sinh cao nhất), (the class, trong lớp), (That girl is, Cô bé ấy là), (highest pupil in, học sinh cao nhất trong), (in the class, trong lớp), (the class. , trong lớp .), (That girl is the, Cô bé ấy là), (is the highest pupil, là học sinh cao nhất), (highest pupil in the, cao nhất trong), (in the class, trong lớp), (That girl is the highest pupil, Cô bé ấy là học sinh cao nhất), (is the highest pupil in the, là học sinh cao nhất trong), (highest pupil in the class., học sinh cao nhất trong lớp.), (That girl is the highest pupil in the, Cô bé ấy là học sinh cao nhất trong), (is the highest pupil in the class., là học sinh cao nhất trong lớp.) (That girl is the highest pupil in the class ., Cô bé đó là học sinh cao nhất trong lớp .) Từ các cặp ngữ rút ra đƣợc, mô hình dịch dựa trên ngữ sẽ lƣu lại bảng ngữ (phrase- table) chứa các cặp ngữ rút ra từ các cặp câu song ngữ cùng với xác suất 𝜙(𝑒 𝑖|𝑣 𝑖). Trang 26 2.1.3. Mô hình dịch thống kê factored (Factored SMT) Một hạn chế của hệ dịch thống kê dựa trên ngữ là vẫn chƣa sử dụng thông tin ngôn ngữ vào hệ dịch. Đối với các ngôn ngữ biến đổi hình thái, hệ dịch xem các dạng biến cách nhƣ là những từ phân biệt, do hệ dịch chỉ nhận diện bề mặt chữ chứ không có thông tin liên hệ nào giữa các dạng biến cách. Ví dụ, trong tiếng Anh, houses (những ngôi nhà) là biến cách danh từ số nhiều của house (ngôi nhà). Tuy nhiên, hệ dịch dựa trên ngữ sẽ xem đây là hai từ riêng biệt. Nếu trong quá trình huấn luyện, hệ thống đã gặp từ house nhƣng chƣa gặp từ houses thì sẽ không dịch đƣợc từ này. Nhóm nghiên cứu của [27] đã đề xuất mô hình dịch factored (đại diện) tích hợp trực tiếp tri thức ngôn ngữ vào mô hình dịch. Mô hình này đƣợc phát triển dựa trên cách tiếp cận dịch máy dựa trên ngữ. Cải tiến của mô hình này là các thông tin về tri thức đƣợc tích hợp vào hệ thống ở mức độ từ. Một từ trong mô hình này đƣợc xem nhƣ là một vector đại diện chứa nhiều thông tin khác nhau. Ví dụ, mỗi từ trong câu nguồn và câu đích có thể thêm các factor: từ nguyên mẫu, từ loại, biến cách Hình 2.5. Mô hình dịch factored SMT Mô hình này có quá trình huấn luyện và dịch giống mô hình dịch dựa trên trên ngữ. Tuy nhiên, bƣớc tạo mô hình dịch của hệ factored SMT sẽ đƣợc chia ra thành ba bƣớc nhỏ. Ví dụ từ tiếng Đức häuse khi đƣợc dịch sang tiếng Anh sẽ đƣợc xử lý nhƣ sau: Câu đích Từ Từ loại Hình thái Câu nguồn Từ Từ loại Hình thái Nguyên mẫu Nguyên mẫu Trang 27 Từ häuse đƣợc thêm các thông tin hình thái từ: Từ häuse | nguyên mẫu hause | từ loại NN | số đếm Plural và đƣợc dịch theo các bƣớc: - Dịch từ nguyên mẫu của câu đích sang từ nguyên mẫu của câu đích haus → house, home, building, shell - Dịch các factor nguyên mẫu, từ loại, hình thái NN|plural → NN|singular, NN|plural - Phát sinh từ từ kết quả dịch từ nguyên mẫu và các factor house + NN|singular → house|house|NN|singular house + NN|plural → houses|house|NN|singular home + NN|singular → home|home|NN|singular home + NN|plural → homes|home|NN|singular … Quá trình dịch từ nguyên mẫu và các factor giống nhƣ dịch dựa trên ngữ. Hệ thống sẽ rút các cặp ngữ từ kết quả gióng hàng từ và tính xác suất có điều kiện dựa bằng cách thống kê tầng suất xuất hiện của các ngữ. Ứng với mỗi bƣớc dịch, hệ thống sẽ tạo ra một bảng dịch. Bƣớc phát sinh chỉ thực hiện trên mức độ từ và xử lý trên câu đích, không liên quan đến kết quả gióng hàng từ. Trong quá trình giải mã, tìm kiếm câu dịch thích hợp, thay vì chỉ sử dụng một bảng dịch ngữ nhƣ mô hình dịch máy dựa trên ngữ, mô hình factored phải sử dụng nhiều bảng, quá trình tính toán cũng phức tạp hơn. Công thức tính xác suất 𝑝 𝑣 𝑒 nhƣ sau: 𝑝 𝑣 𝑒 = 1 𝑍 𝑒𝑥𝑝 𝜆𝑖𝑕𝑖 𝑣, 𝑒 𝑛 𝑖=1 (2.8) Trang 28 Trong đó, Z là hằng số chuẩn, có thể bỏ qua trong thí nghiệm. Nhƣ vậy, để tính xác suất dịch từ câu 𝑒 sang câu 𝑣, ta phải tính từng hàm đặc trƣng 𝑕𝑖 bao gồm hàm đặc trƣng về mô hình ngôn ngữ, mô hình chuyển đổi trật tự, các bƣớc dịch và phát sinh. Hàm đặc trƣng cho mô hình ngôn ngữ bigram sẽ là: 𝑕𝐿𝑀 𝑣 𝑒 = 𝑝 𝑣 = 𝑝 𝑣1 𝑝 𝑣2 𝑣1 … 𝑝 𝑣𝑚 𝑣𝑚−1 (2.9) Đối với các bƣớc dịch, mỗi câu 𝑒, 𝑣 sẽ đƣợc tách ra nhiều cặp ngữ 𝑒 𝑗 ,𝑣𝑗 . Cách tính xác suất cặp ngữ 𝜏 𝑒 𝑗 ,𝑣 𝑗 cũng tƣơng tự cho mô hình dịch trong dịch máy thống kê dựa trên ngữ. Hàm đặc trƣng cho bƣớc dịch đƣợc tính nhƣ sau: 𝑕𝜏 𝑒, 𝑣 = 𝜏 𝑒 𝑗 ,𝑣 𝑗 𝑗 (2.10) Hàm đặc trƣng cho bƣớc phát sinh nhƣ sau: 𝑕𝐺 𝑒, 𝑣 = 𝛾 𝑣𝑘 𝑘 (2.11) 𝛾 𝑣𝑘 là phân phối xác suất có điều kiện giữa factor đầu vào và factor đầu ra của từ 𝑣𝑘 . Ví dụ, hệ thống phát sinh từ nguyên mẫu house và từ loại NN và số đếm Plural thành từ ở dạng đầy đủ houses sẽ học xác suất 𝑝 𝑕𝑜𝑢𝑠𝑒,𝑁𝑁,𝑃𝑙𝑢𝑟𝑎𝑙|𝑕𝑜𝑢𝑠𝑒𝑠 và 𝑝 𝑕𝑜𝑢𝑠𝑒𝑠| 𝑕𝑜𝑢𝑠𝑒,𝑁𝑁,𝑃𝑙𝑢𝑟𝑎𝑙 . Các giá trị phân phối này hệ thống thống kê từ ngữ liệu đơn ngữ của ngôn ngữ đích. Mô hình này thích hợp đối với hệ dịch cho cặp ngôn ngữ giàu hình thái, dạng của từ phụ thuộc vào các yếu tố hình thái nhƣ từ loại, số đếm, giới tính, thì (quá khứ, tƣơng lai…) Trang 29 2.1.4. Mô hình dịch máy thống kê dựa trên cú pháp Mô hình dịch máy thống kê dựa trên cú pháp là một mô hình dịch kết hợp giữa thống kê và những tri thức, ràng buộc về ngữ pháp vào trong quá trình dịch. Dịch thống kê dựa trên cú pháp có nhiều mô hình, sau đây là một số mô hình tiêu biểu: - Dịch từ cây cú pháp sang câu (tree-to-string ) [34] o Quá trình học: Từ câu nguồn, tác giả phân tích thành cây cú pháp. Mô hình này học xác suất chuyển đổi trật tự giữa các nút có nút con trong cây, xác suất chèn từ vào các nút và xác suất dịch các nút lá thành câu đích. o Quá trình dịch: Với mỗi câu đầu vào, hệ dịch phân tích cú pháp. Dựa vào bảng xác suất chuyển đổi trật tự, mô hình sẽ đổi trật tự giữa các nút. Từ cây cú pháp mới, mô hình thêm các từ của ngôn ngữ đích dựa vào xác suất chèn từ. Cuối cùng, hệ dịch các từ ở nút lá ra ngôn ngữ đích, nút lá có thể dịch ra thành từ rỗng (NULL). - Chuyển đổi dựa trên cây cú pháp của cả hai ngôn ngữ (tree-based transfer) [33] Trang 30 o Câu nguồn và câu đích đƣợc phân tích ra thành cây cú pháp, thƣờng là cây nhị phân để giảm độ phức tạp khi chuyển đổi trật tự. o Cây cú pháp của câu đích đƣợc đổi trật tự và kết hợp với cây cú pháp của câu nguồn. - Chuyển đổi dựa trên cấu trúc kế thừa (hierarchical transfer) Trong mô hình này, tác giả tập trung biến đổi trật tự cho các ngữ có chứa ngữ con. - Dịch dựa trên mệnh đề (clause level restructuring) Do cấu trúc câu của tiếng Đức khác các ngôn ngữ khác: không có trật tự, vị trí của trạng từ, mệnh đề phụ. [7] phân tích câu ra thành các mệnh đề và áp dụng sáu bƣớc chuyển đổi trật tự trên cây cú pháp của câu nguồn nhằm tạo sự tƣơng đồng về trật từ từ giữa câu nguồn và câu đích. Đánh giá mô hình dịch dựa trên cú pháp, [18] đã chỉ ra ƣu điểm của phƣơng pháp này nhƣ sau: Trang 31 - Có thể chuyển đổi trật tự dựa trên thông tin cú pháp. Chẳng hạn nhƣ chuyển tân ngữ của câu tiếng Anh sang cuối câu trƣớc khi dịch sang tiếng Đức. - Dịch những từ chức năng (giới từ, mạo từ,...) tốt hơn. - Có thể lấy thông tin về quan hệ cú pháp giữa các từ trong câu. Chẳng hạn nhƣ chuyển đổi trật tự giữa chủ ngữ và tân ngữ. - Có thể khai thác mô hình ngôn ngữ cú pháp: o Cây cú pháp đúng sẽ tạo ra câu dịch đúng. o Cho phép chuyển đổi trật tự ở xa. Chẳng hạn nhƣ chuyển động từ chính về cuối câu. Tuy nhiên, [18] cũng cho rằng những mô hình hiện tại vẫn chƣa khai thác hết thông tin cú pháp vì các mô hình về cơ bản vẫn là dịch dựa trên ngữ, nghĩa là xem các từ trong câu là chuỗi token. Tác giả đƣa ra lý do của thông tin cú pháp chƣa thật sự có ích vì: hệ dịch cần công cụ phân tích cú pháp tốt, có độ chính xác cao. Ngoài ra, thông tin cú pháp khá là phức tạp, khó để con ngƣời theo dõi khi huấn luyện cũng nhƣ khi dịch và ít có nhà nghiên cứu nào vừa nắm vững về các mô hình thống kê lại hiểu rõ về lý thuyết ngôn ngữ. 2.2. Các tiêu chuẩn đánh giá chất lƣợng dịch Việc đánh giá chất lƣợng dịch rất phức tạp vì mỗi câu nguồn thƣờng có thể có nhiều câu dịch khác nhau. Tuỳ theo cách chọn từ, văn phong mà ta có thể tạo ra câu dịch khác nhau cho cùng một câu nguồn. Phƣơng pháp đáng tin cậy nhất là để con ngƣời đánh giá. Tuy nhiên, để ngƣời đánh giá sẽ chậm và tốn nhiều chi phí. Mặc khác, mỗi ngƣời sẽ có cách nhìn nhận chủ quan khác nhau. Do vậy, đánh giá bằng máy đƣợc sử dụng vì khách quan và nhanh chóng, ít tốn chi phí. Để ƣớc lƣợng hiệu quả của hệ dịch, phƣơng pháp đánh giá tự động thƣờng đo độ tƣơng tự giữa câu máy dịch và câu dịch tham chiếu trong ngữ liệu. Trong khuôn khổ của đề tài, luận văn sử dụng ba độ đo để khảo sát kết quả dịch: BLEU, NIST và TER. Trang 32 2.2.1. BLEU (Bilingual Evaluation Understudy) Điểm BLEU [28] là một trong những tiêu chuẩn đo hiệu quả dịch đƣợc sử dụng rộng rãi nhất hiện nay. Để đo BLEU, ngƣời ta tính dựa trên trung bình hình học (geometric mean) số lần đồng xuất hiện của các gram ở câu dịch tự động và câu dịch tham chiếu. Các n-gram gồm: 1-gram, 2-gram, 3-gram và 4-gram. Điểm BLEU có giá trị trong khoảng [0,1], theo tiêu chuẩn này thì sẽ có rất ít câu dịch đạt đƣợc điểm tối đa, ngoại trừ những câu thực sự khớp với câu dịch mà hệ thống đánh giá tham chiếu tới. Với tiêu chuẩn BLEU thì điểm càng cao có nghĩa là hệ thống dịch càng tốt. 2.2.2. NIST NIST [8] là độ đo có cách đánh giá tƣơng tự nhƣ BLEU nhƣng sử dụng trung bình số học (arithmetic mean) thay vì (geometric mean) nhằm tăng tính chính xác khi đánh giá. Ngoài ra NIST còn đánh số điểm cao hơn cho các n-gram chứa nhiều thông tin hơn trong khi đối với BLEU là nhƣ nhau nếu cùng số từ. Với tiêu chuẩn này, số điểm cao thì hệ dịch đƣợc xem là tốt. 2.2.3. TER (Translation Error Rate) TER [31] là tiêu chuẩn đánh giá dựa trên số lần chỉnh sửa để chuyển câu kết quả từ máy dịch thành câu tham chiếu. Đây là độ đo đƣợc đánh giá là gần với con ngƣời nhất. Tỉ lệ lỗi sẽ đƣợc tính theo công thức: 𝑇𝐸𝑅 = 𝑠ố 𝑏ướ𝑐 𝑐𝑕ỉ𝑛𝑕 𝑠ử𝑎 𝑠ố 𝑡ừ 𝑡𝑟𝑢𝑛𝑔 𝑏ì𝑛𝑕 𝑡𝑟𝑜𝑛𝑔 𝑐â𝑢 𝑡𝑕𝑎𝑚 𝑐𝑕𝑖ế𝑢 Các bƣớc chỉnh sửa bao gồm thêm, xoá hoặc thay thế từ trong câu. Với độ đo này, tỉ lệ lỗi càng thấp đồng nghĩa với hệ dịch càng tốt. Trang 33 CHƢƠNG 3: CÁC HƢỚNG TÍCH HỢP TRI THỨC NGÔN NGỮ VÀO DỊCH MÁY THỐNG KÊ Hƣớng tiếp cận dịch máy dựa trên ngữ hiện đƣợc xem là state-of-the-art trong dịch máy thống kê. Tuy nhiên, cách tiếp cận này bị hạn chế khi không trực tiếp tích hợp các tri thức ngôn ngữ vào hệ thống, chẳng hạn nhƣ hình thái từ, ngữ pháp hoặc ngữ nghĩa. Những tri thức này đã đƣợc nghiên cứu tích hợp vào các hệ thống dịch máy dựa trên ngữ trong quá trình tiền xử lí hoặc hậu xử lí và đã đạt đƣợc một số kết quả nhất định. Cách tích hợp tri thức ngôn ngữ vào hệ dịch máy thống kê có thể chia làm hai hƣớng chính là sử dụng tri thức để tiền xử lý và đƣa tri thức ngôn ngữ vào hệ dịch. 3.1. Sử dụng tri thức ngôn ngữ để tiền xử lý Hƣớng tiếp cận thứ nhất đƣợc tập trung nghiên cứu rất nhiều và đạt đƣợc một số kết quả khả quan. Hƣớng này chủ yếu tập trung vào chuyển đổi trật tự từ hoặc phân tích từ pháp ở câu nguồn nhằm giảm bớt sự khác biệt giữa hai ngôn ngữ. Các tri thức để chuyển đổi bao gồm tri thức về hình thái từ, phân tích cây cú pháp và các luật chuyển đổi dựa trên sự khác biệt giữa hai ngôn ngữ. Thông thƣờng, quá trình biến đổi này đƣợc thực hiện ở bƣớc tiền xử lý trên câu nguồn hay câu đích, hoặc cả hai phía và kết quả thu đƣợc sẽ đƣợc đem làm đầu vào cho hệ dịch. Mặc dù áp dụng theo nhiều cách khác nhau, nhƣng hầu hết các mô hình theo hƣớng này đều hiệu quả hơn so với mô hình baseline. Do mục tiêu chính của những phƣơng pháp này là hƣớng đến sự tƣơng đồng giữa hai ngôn ngữ nên đã khắc phục đƣợc khá nhiều lỗi khi thực thi hệ dịch thống kê, gồm những lỗi về gióng hàng từ, chọn từ dịch tƣơng ứng hay chuyển đổi trật tự. Ngoài ra, việc phân tích hình thái từ còn làm giảm đƣợc số từ chƣa có trong ngữ liệu huấn luyện. Trang 34 3.1.1. Dùng thông tin cú pháp Xia và McCord [11] sử dụng các luật đảo trật tự từ trong văn phạm phi ngữ cảnh. Trong quá trình huấn luyện, hệ thống sẽ tự động rút luật từ cây cú pháp của câu nguồn và câu đích cùng với kết quả gióng hàng từ. Khi thực thi, các luật này sẽ đƣợc sử dụng để sắp xếp lại trật tự câu nguồn nhằm tạo sự tƣơng tự giữa hai ngôn ngữ. Mô hình này đã cải tiến đƣợc hệ dịch máy thống kê Anh – Pháp. Nhóm nghiên cứu của Collins [7] đƣa ra mô hình cũng áp dụng kết quả phân tích cú pháp vào hệ dịch thống kê. Tuy nhiên, tác giả chỉ lấy thông tin cú pháp của câu nguồn. Hệ thống sẽ tự động rút ra luật chuyển đổi từ cây cú pháp và câu đích, sau đó áp dụng các luật chuyển đổi trật tự cho mệnh đề tiếng Đức để tạo sự tƣơng tự về mặt cú pháp với tiếng Anh, áp dụng ở giai đoạn tiền xử lý trong hệ dịch dựa trên ngữ. Kết quả thử nghiệm cho thấy hệ đã cải tiến đƣợc đáng kể, điểm BLEU từ 25,2% tăng lên 26,8%. Nhóm nghiên cứu của Zhang [35] đƣa ra mô hình tƣơng tự nhƣ Xia và McCord [11]. Trƣớc tiên, câu nguồn đƣợc gán nhãn từ loại, phân tích ranh giới ngữ. Sau đó tác giả lấy kết quả gióng hàng và câu đã đƣợc phân tích để tự động rút luật chuyển đổi trật tự trong dịch máy thống kê Hoa – Anh. Tuy nhiên, công trình này mới ở chỗ họ chỉ phân tích cú pháp ở câu nguồn và sử dụng mọi khả năng đảo trật tự đã học trong quá trình huấn luyện và biểu diễn ở dạng lƣới. Kết quả tăng từ 0,5% đến 1,8% điểm BLEU, tốt hơn so với hệ dịch chỉ lấy thông tin POS. [12] sử dụng kết quả gióng hàng trong ngữ liệu song ngữ để rút ra các luật chuyển đổi trật tự từ dựa trên cú pháp. Sau đó, các luật này đƣợc dùng để đảo cho ngôn ngữ nguồn trong cả hai quá trình huấn luyện và kiểm tra đánh giá. Khi có align giữa câu nguồn S và câu đích T, thêm vào cây cú pháp của câu nguồn PS, với mỗi node N trong PS, Nizar Habash tìm những vị trí từ trên T mà N và tất cả các con của N có liên kết đến. Sau đó, dựa vào cây PS, tìm điều kiện (C) để đổi trật tự từ (R) tạo thành các luật chuyển đổi. Những luật có phân phối điều kiện cao nhất sẽ đƣợc chọn. Nizar Habash dịch từ tiếng Ả-rập sang tiếng Anh sử dụng ngữ Trang 35 liệu NIST MTEval, sử dụng GIZA++ cho liên kết từ, sử dụng BLEU và NIST để đánh giá. Kết quả tốt nhất tăng 25% điểm BLEU. Một hƣớng cải tiến gióng hàng từ do May và Knight [14] đề ra nhƣ sau: dùng những ràng buộc về cú pháp để gióng hàng lại ngữ liệu song ngữ đã đƣợc gióng bởi công cụ GIZA++. Từ cây cú pháp của câu đích và kết quả gióng hàng, họ rút ra luật biến đổi giữa câu và cây (string-to-tree). Với mỗi cặp string/tree (câu nguồn và cây cú pháp của câu đích) trong ngữ liệu, họ sử dụng các luật này để xây dựng rừng dẫn xuất string-to-tree có thể có. Sau đó, tác giả sử dụng mô hình EM để chọn cây dẫn xuất cho mỗi cặp. Kết quả là các cặp câu đƣợc align lại từ cây dẫn xuất Viterbi. Sử dụng thuật toán trên, nhóm nghiên cứu của Victoria Fossum [33] đề xuất cải tiến gióng hàng từ bằng cách sử dụng hai đặc trƣng của các luật đƣợc rút ra là kích thƣớc của luật lớn nhất và số lƣợng luật để dò tìm tự động và xoá liên kết sai do GIZA++ gióng hàng. Sau khi xoá liên kết này, kết quả gióng hàng và chất lƣợng dịch đã đƣợc cải thiện rất nhiều trong dịch Hoa – Anh và Ả Rập – Anh. Điểm BLEU tăng từ 0,5 đến 1,4 và độ đo f-measure của gióng hàng từ tăng từ 1 đến 3%. Thuật toán của các tác giả trên khác với May và Knight [14] ở chỗ tập các liên kết từ mới mà họ phát sinh ra đƣợc chỉ giới hạn trong các liên kết mà GIZA++ gán ban đầu trong ngữ liệu huấn luyện. Trong khi đó, thuật toán của Victoria Fossum [33] thì sẽ phát hiện đƣợc tất cả các gióng hàng bằng cách xoá đi một liên kết từ kết quả của GIZA++ ban đầu. Ngoài ra, nếu sử dụng thuật toán của May và Knight sẽ tốn nhiều thời gian trong quá trình huấn luyện vì phải tìm gióng hàng nào tốt nhất cho mỗi cặp câu. Đối với thuật toán của [33], họ sử dụng phƣơng pháp tìm kiếm Greedy nên sẽ tìm ra liên kết cần xoá nhanh hơn, do đó thuật toán tiết kiệm đƣợc nhiều thời gian hơn. Phƣơng pháp này không những cải thiện đƣợc kết quả gióng hàng mà còn làm tăng độ chính xác của trật tự từ kết quả dịch. Việc sử dụng thông tin cây cú pháp giúp hệ dịch xử lý trƣờng hợp những từ ở xa có ràng buộc với nhau về mặt ngữ pháp. Tuy nhiên, quá trình rút ra luật chuyển đổi phụ thuộc rất nhiều vào việc phân tích cây cú Trang 36 pháp cho cả hai ngôn ngữ và kết quả gióng hàng từ. Nếu những thông tin này không chính xác, dẫn đến luật học cũng sai và ảnh hƣởng đến kết quả hệ dịch. Và đó cũng là trở ngại khi đem mô hình này áp dụng cho những cặp ngôn ngữ khác. 3.1.2. Sử dụng thông tin từ loại Bên cạnh đó, một số nhóm nghiên cứu khác tạo luật chuyển đổi trật tự dựa trên thông tin từ loại. Tác giả khảo sát sự khác biệt về trật tự của các cặp ngôn ngữ và rút ra các luật chuyển đổi. Nhóm nghiên cứu của Hermann Ney [20] đƣa ra hai cách chuyển đổi trật tự tuỳ thuộc vào cặp ngôn ngữ và chiều dịch: đổi trật tự nội bộ trong các danh từ và tính từ khi dịch từ Tây Ban Nha và dịch sang Tây Ban Nha, đổi trật tự cho động từ khi dịch sang tiếng Đức. Kết quả giảm đƣợc 2% WER và tăng 7% BLEU. - Chuyển đổi cục bộ: Trong tiếng Tây Ban Nha, tính từ đặt sau danh từ, trong khi tiếng Anh và hầu hết những ngôn ngữ không thuộc dòng Roman thì trật tự ngƣợc lại. Nếu dịch từ tiếng Tây Ban Nha thì danh từ sẽ đƣợc đảo ra sau. Nếu dịch sang tiếng Tây Ban Nha thì ở câu nguồn, tính từ chuyển ra sau danh từ. - Chuyển đổi xa: Trong tiếng Đức, động từ thƣờng đƣợc đặt ở cuối câu nếu ở dạng nguyên mẫu (infinitive) hay quá khứ phân từ (past participle). Do đó, khi dịch sang tiếng Đức, hệ dịch sẽ chuyển các động từ ở dạng nguyên mẫu hay quá khứ phân từ về cuối câu. Một nghiên cứu khác cũng sử dụng luật chuyển đổi dựa trên sự khác biệt về trật tự từ giữa tiếng Hoa và tiếng Anh. Nhóm nghiên cứu của [6] đổi trật tự câu tiếng Hoa trƣớc khi đƣa vào hệ dịch. Họ đƣa ra hệ luật chuyển đổi bằng cách khảo sát thành phần của các loại ngữ trong Penn Chinese Treebank guidelines. Những loại ngữ có thứ tự thành phần tƣơng tự tiếng Anh thì sẽ đƣợc giữ nguyên, chẳng hạn nhƣ ngữ tính từ, ngữ trạng từ,… Tác giả rút luật chuyển đổi từ sự khác biệt trong các ngữ danh từ, ngữ động từ, ngữ định vị (tƣơng ứng với ngữ giới từ trong tiếng Anh). Kết quả hệ đƣợc cải tiến từ 28,52 đến 30,86 điểm BLEU. Trang 37 Ƣu điểm của phƣơng pháp này là có thể đƣa ra luật chuyển đổi bằng tay dựa trên khảo sát sự khác biệt của cặp ngôn ngữ, đặc biệt là những cặp khác nhau nhiều về trật tự từ. 3.1.3. Sử dụng luật biến đổi hình thái từ Ngoài thông tin từ loại, các nhà nghiên cứu còn sử dụng thông tin hình thái khác nhƣ dạng nguyên mẫu, phụ tố của từ. Các tác giả dùng những tri thức này để biến đổi từ sang dạng mới, nhằm tạo sự tƣơng đƣơng giữa hai ngôn ngữ, giảm bớt các trƣờng hợp gióng hàng không phải 1-1. Nicola Ueffing và Hermann Ney [23] đƣa ra mô hình dịch từ ngôn ngữ ít biến đổi hình thái nhƣ tiếng Anh sang ngôn ngữ giàu hình thái. Các dạng từ trong tiếng Anh thƣờng không chứa đủ các thông tin cần thiết để hoàn chỉnh từ trong ngôn ngữ đích. Tác giả đƣa ra mô hình cải tiến chất lƣợng hệ dịch bằng cách sử dụng thông tin từ loại và mô hình maximum entropy. Kết quả dịch từ tiếng Anh sang Tây Ban Nha và Catalan trên ngữ liệu LC-STAR bao gồm thể loại đàm thoại về kế hoạch công việc và du lịch. Tác giả đƣa ra cách dịch chuỗi tiếng Anh bao gồm cả thông tin từ loại. - Động từ: Trong tiếng Catalan và Tây Ban Nha, đại từ đứng trƣớc động từ thƣờng đƣợc bỏ qua và thay vào đó, ngƣời ta thể hiện thông qua đuôi của động từ. Phần cuối này cho biết động từ đang ở thì tƣơng lai hay là các dạng trợ động từ nhƣ “should”, “would” trong tiếng Anh. Để giải quyết vấn đề này, tác giả đề ra phƣơng pháp tạo dạng từ mới của tiếng Anh bằng cách nối động từ với đại từ và trợ động từ và thông tin từ loại sẽ hỗ trợ cho hệ thống dò tìm ra đại từ và trợ động từ. Vd: “you will have” đƣợc nối thành “you_will_have” tƣơng ứng với “tendrás” tiếng Tây Ban Nha và “tindràs” trong Catalan. - Đảo câu nghi vấn: Trong tiếng Anh, ngữ nghi vấn có trật tự từ khác với câu khẳng định: Trợ động từ đƣợc đảo ra trƣớc đại từ và động từ chính chuyển về nguyên mẫu. Trật từ này khác so với tiếng Catalan và Tây Ban Trang 38 Nha, tác giả đƣa ra trật tự mới trong tiếng Anh để tạo ra sự giống nhau giữa các cặp ngôn ngữ này. Trong câu hỏi của tiếng Anh, thông tin trợ động từ “do” không có ích nên tác giả bỏ trợ động từ này đi và không gây ảnh hƣởng đến kết quả dịch (nhƣ công bố của [27] khi dịch từ tiếng Đức sang Anh). Nhƣng tác giả không bỏ trợ động từ ở thì quá khứ. Khi xử lý, hệ thống đảo trợ động từ ra sau đại từ. Vd: “how are you” đƣợc chuyển thành “how_you_are” Kết quả, tỉ lệ lỗi dịch Anh – Catalan giảm ~ 2% (WER), 3% (BLEU) và Anh – Tây Ban Nha giảm ~0,5% (WER), ~0,7% (BLEU). Tuy nhiên, tỉ lệ lỗi của hệ dịch Anh – Tây Ban Nha vẫn cao hơn Anh – Catalan. Nguyên nhân chính là do từ vựng của tiếng Tây Ban Nha chứa nhiều nội dung hơn. Hệ dịch này có thể cải tiến thêm bằng cách xử lý thêm các loại từ khác ngoài động từ. Trong bài báo của Nguyễn Phƣơng Thái và Akira Shimazu [32], tác giả sử dụng các luật chuẩn đổi hình thái bằng tay, về cú pháp, họ sử dụng mô hình chuyển đổi dựa trên công thức Bayes. Câu nguồn đã đƣợc chuyển đổi ở phần tiền xử lý. Kết quả thử nghiệm trên ngữ liệu Anh – Việt, cải tiến đƣợc 3,28% so với phrase-base SMT bằng Pharaoh. Trong nghiên cứu này, tác giả đƣa ra mô hình khác với [10] và [6] ở chỗ mô hình chuyển đổi dựa trên quyết định thống kê. Mặt khác, tác giả chỉ phân tích cú pháp cho một phía là ngôn ngữ nguồn. Một điểm khác nữa là tác giả ứng dụng trên cặp ngôn ngữ Anh – Việt (khác về đặc trƣng ngôn ngữ) và kết hợp chuyển đổi cú pháp với chuyển đổi hình thái. Tác giả đƣa ra các luật chuyển đổi dựa trên những điểm khác biệt giữa hai ngôn ngữ. Tiếng Việt khác tiếng Anh ở chỗ tiếng Việt là ngôn ngữ đơn lập, không thể phân biệt ranh giới từ bằng khoảng trắng. Mặt khác, từ tiếng Việt không có biến tố nhƣ tiếng Anh. Tác giả phân tích từ tiếng Anh về nguyên mẫu và lấy thông tin các phụ tố và hình thái, từ đó chuyển thành chuỗi mới. Vd: “books” đƣợc chuyển thành “book_s”, “booking” chuyển thành “book_ing”. Trang 39 Về chuyển đổi cú pháp, tác giả phân tích cú pháp câu nguồn và lấy kết quả gióng hàng từ đƣa vào huấn luyện. Các luật chuyển đổi sẽ đƣợc rút ra khi cây cú pháp câu nguồn và chuỗi câu đích bị chéo nhau. Sau đó, hệ thống tính xác suất của những luật này. Khi thực thi, hệ thống sử dụng công thức Bayes để tìm luật chuyển đổi cú pháp cho cây cú pháp của câu nguồn. Sau khi chuyển đổi cú pháp và phân tích hình thái cho câu nguồn, chuỗi nhận đƣợc cùng với câu đích sẽ là đầu vào của hệ dịch. Kết quả thử nghiệm trên ngữ liệu Anh – Việt, điểm BLEU tăng lên ~4% với chủ đề máy tính và ~3% chủ đề đàm thoại. Phƣơng pháp này có thể áp dụng cho các cặp ngôn ngữ khác, đặc biệt là khi kích thƣớc ngữ liệu nhỏ. Do phân tích hình thái từ và chuyển về nguyên mẫu, mô hình này giảm đƣợc phần nào trƣờng hợp từ chƣa gặp trong ngữ liệu huấn luyện. Đồng thời, khi tách phụ tố và đảo trật tự theo tiếng Việt, mô hình tăng cƣờng gióng hàng 1-1 nên kết quả gióng hàng chính xác hơn. Mô hình này khá hiệu quả đối với những cặp khác biệt nhau về mặt hình thái, mức độ biến hình của từ của hai ngôn ngữ. 3.2. Tích hợp tri thức vào hệ thống dịch máy Tƣơng tự hƣớng tiếp cận thứ nhất, những mô hình trong hƣớng này cũng sử dụng các thông tin ngôn ngữ nhƣ: từ loại, hình thái từ, cây cú pháp,... để cải tiến hệ dịch. Chỉ khác ở chỗ, những tri thức này đƣợc đính kèm vào trong các cặp câu và đƣa vào mô hình dịch hoặc mô hình ngôn ngữ vào hệ factored SMT. Đây là mở rộng của hệ dịch dựa trên ngữ, cho phép ngƣời dùng đƣa những thông tin khác đi kèm với từ. Những thông tin này có thể đƣa vào mô hình dịch hoặc mô hình ngôn ngữ. 3.2.1. Tích hợp thông tin hình thái vào mô hình dịch Đối với một số ngôn ngữ (Tây Ban Nha, Anh,…), động từ có thể chia ở nhiều dạng khác nhau, dẫn đến khó có một ngữ liệu nào có thể chứa hết các dẫn xuất của các động từ. [5] đƣa ra mô hình phân lớp loại từ sẽ tạo một token tƣơng ứng với tất cả các dẫn xuất của một động từ. Làm cách này, các dạng động từ sẽ xuất hiện nhiều hơn và dễ ƣớc lƣợng hơn. Ngoài ra, có một mô hình tƣơng tự đối với động từ của ngôn ngữ đích. Trang 40 Trong bài báo [29], Sonja NieBen and Hermann Ney dùng tri thức ngôn ngữ để biến đổi câu nguồn trong dịch từ tiếng Đức sang tiếng Anh. Dựa trên sự khác biệt giữa 2 ngôn ngữ, tác giả tách động từ về dạng nguyên mẫu và phụ tố và tách từ ghép ra theo từng thành phần của nó. Chẳng hạn, từ Fruchtetee đƣợc tách thành Fruchte và tee, trong đó từ đƣợc đánh nhãn từ loại để khử nhập nhằng nghĩa của từ. Ngoài ra, tác giả còn nối ngữ, nghĩa là các từ tạo thành một ngữ có vai trò cú pháp và ý nghĩa riêng biệt đƣợc nối với nhau. Về vấn đề từ chƣa gặp trong ngữ liệu huấn luyện, chẳng hạn nhƣ tên riêng, tác giả không đổi khi dịch, và những từ khác thì tách từ ghép và tách phụ tố của động từ làm giảm lƣợng từ chƣa gặp. Giảm đƣợc 8,9% số từ chƣa gặp. Các bƣớc xử lý này cải tiến hệ dịch so với hệ cơ sở, tách từ ghép tỉ lệ lỗi giảm 4,5%, tách động từ và phụ tố cải tiến nhiều nhất, giảm tới 7,1% tỉ lệ lỗi. Tác giả không đƣa ra kết quả của hệ dịch với ngữ liệu đƣợc gán nhãn từ loại, ngoài ra, theo tác giả, vì ngữ liệu huấn luyện nhỏ (~27000 cặp câu) và thiếu đồng nhất dẫn đến một số lỗi khi dịch. [21] dùng thông tin hình thái và cú pháp vào factored translation model: kết hợp kiểm tra tích hợp nguyên mẫu, tách danh từ ghép tiếng Đức (decompounding German nominal compounds), chuyển đổi trật tự dựa trên hình thái và nhãn từ loại từ. Họ sử dụng những thông tin sau làm factor cho hệ dịch: từ, nguyên mẫu, từ loại, hậu tố. Kết quả thử nghiệm cho thấy hệ dịch dùng thông tin nguyên mẫu tốt hơn là từ loại. Tuy nhiên tác giả không đƣa kết luận cuối cùng và không lý giải kết quả này. 3.2.2. Tích hợp thông tin cú pháp vào mô hình dịch Nhóm nghiên cứu của [5] đề xuất mô hình phrase-based SMT tích hợp thông tin cú pháp nhằm kết hợp thế mạnh của cả mô hình phrase-based và cấu trúc cú pháp bằng cách sử dụng thông tin cú pháp nhãn văn phạm CCG (Combinatiorial Categorial Grammar) vào hệ dịch. Tác giả đƣa supertag (nhãn thông tin cú pháp) nhƣ là một factor ở câu nguồn hoặc câu đích. Chất lƣợng dịch đƣợc cải tiến nhờ chuyển đổi trật tự từ. Trang 41 Trong đó, văn phạm CCG chứa hầu hết các cấu trúc ngữ pháp. Vì vậy, thông tin supertag ở câu nguồn cho phép bộ giải mã quyết định chọn lựa dựa trên cấu trúc của đầu vào. Kết quả dịch từ tiếng Hà Lan – tiếng Anh: thêm POS tăng 0,14; supertag 0,45; cả POS và supertag tăng 0,46 BLEU. Supertag chứa nhiều thông tin hơn POS vì chứa cả ngữ cảnh cú pháp chứ không chỉ riêng thông tin của từ đó. 3.2.3. Tích hợp vào mô hình ngôn ngữ Nhóm nghiên cứu của [9] đƣa ra phƣơng pháp mới về sử dụng thông tin cú pháp cho dịch máy thống kê. Họ sử dụng mô hình phân tích cú pháp thống kê nhƣ là mô hình ngôn ngữ trong SMT. Kết quả thử nghiệm cho thấy hệ này cải tiến điểm BLEU tăng thêm 25% so với hệ base-line syntax-based SMT. Hƣớng tiếp cận này khai thác đƣợc tri thức ngôn ngữ khá hiệu quả, nhất là đối với các ngôn ngữ đích là ngôn ngữ giàu hình thái, cần nhiều thông tin để phát sinh ra dạng đúng của từ. Trang 42 CHƢƠNG 4: MÔ HÌNH CỦA ĐỀ TÀI Trong các hƣớng tiếp cận tích hợp tri thức ngôn ngữ vào hệ thống dịch máy thống kê, luận văn khảo sát ảnh hƣởng của các tri thức hình thái và từ loại vào hệ thống dịch máy thống kê Anh - Việt dựa trên ngữ. Cách tích hợp bao gồm tiền xử lí câu đầu vào và chọn mô hình dịch. Chƣơng này trình bày chi tiết về các cách tích hợp tri thức ngôn ngữ đƣợc đƣa vào trong luận văn. Hình 4.1 mô tả hệ dịch máy thống kê Anh - Việt dựa trên ngữ và công đoạn can thiệp để tích hợp tri thức ngôn ngữ vào hệ thống này của luận văn. Hình 4.1. Mô hình chung của luận văn Luận văn sẽ tích hợp tri thức ngôn ngữ gồm hình thái từ và từ loại. Ngoài ra luận văn còn khảo sát, đánh giá mức độ ảnh hƣởng của các thông tin này vào hệ dịch thống kê Anh – Việt. Mô hình dịch thống kê Anh – Việt Câu tiếng Anh Ngữ liệu song ngữ Tiếng Anh Tiếng Việt Mô hình dịch Mô hình ngôn ngữ Bộ giải mã Câu dịch tiếng Việt Tích hợp thông tin: - Từ loại - Hình thái từ Chuyển đổi trật tự Tích hợp thông tin: - Ranh giới từ - Từ loại Trang 43 Phần thí nghiệm của đề tài thực hiện các hƣớng tiếp cận nhƣ sau: - Tích hợp thông tin từ loại, tách từ tiếng Anh ra thành từ nguyên mẫu và phụ tố. o Gán nhãn từ loại vào mỗi từ tiếng Anh o Phân tích từ thành nguyên mẫu và phụ tố o Sử dụng luật chuyển đổi trật tự dựa trên thông tin hình thái từ. - Tích hợp thông tin ranh giới từ, từ loại tiếng Việt o Tách từ tiếng Việt o Gán nhãn từ loại tiếng Việt - Sử dụng mô hình factored SMT cho hệ Anh – Việt o Gán nhãn từ loại cho cả tiếng Anh và tiếng Việt o Phân tích từ tiếng Anh thành nguyên mẫu và phụ tố, thêm từ loại cho tiếng Anh và tiếng Việt 4.1. Tích hợp thông tin hình thái từ tiếng Anh 4.1.1. Thông tin từ loại Khi phân tích lỗi của hệ dịch thống kê dựa trên ngữ, ta nhận thấy, hệ thƣờng mắc phải một số lỗi sau: dịch sai nghĩa hoặc không dịch đƣợc từ tiếng Anh sang tiếng Việt. Trƣờng hợp dịch sai nghĩa nguyên nhân chính là do một từ thƣờng có nhiều nghĩa, đôi khi do quá trình gióng hàng từ bị sai, dẫn đến các ngữ chứa trong bảng ngữ bị sai. Ngoài ra, nhiễu trong ngữ liệu cũng gây nên tình trạng này. Việc không dịch đƣợc từ tiếng Anh sang tiếng Việt xảy ra khi ngữ liệu không bao phủ đƣợc các câu kiểm tra. Trƣờng hợp từ bị dịch sai nghĩa do từ có nhiều nghĩa có thể xét ví dụ sau: * I like reading book. + Tôi thích đọc sách. * Book early if you want good seats. + Đặt chỗ sớm nếu bạn muốn có chỗ ngồi tốt. Trang 44 Từ “book” trong câu đầu tiên đƣợc dịch đúng là “sách”. Tuy nhiên, từ “book” trong câu thứ hai bị dịch sai, hệ thống cho kết quả câu đầu ra là “Sách sớm nếu bạn muốn có chỗ ngồi tốt.” Khi so sánh sự khác biệt về từ loại của tiếng Anh và tiếng Việt, [1, tr. 46] phân tích và kết luận rằng từ loại thực từ và mang tính phổ quát nhƣ danh từ, động từ, tính từ và đại từ của hai ngôn ngữ có tính tƣơng đồng. Xét trƣờng hợp dịch sai ở trên, ta thấy đây là lỗi khi một từ có nhiều nghĩa. Để khắc phục lỗi này, luận văn sử dụng nhãn từ loại để khử nhập nhằng. Trong câu “I like reading book.” thì chữ “book” đƣợc gán nhãn là danh từ, khi dịch danh từ “book” ra tiếng Việt, chúng ta sẽ có đƣợc nghĩa đúng là “sách”. Trong câu “Book early if you want good seats.” thì chữ “book” đƣợc gán nhãn là động từ, khi dịch “book” động từ ra tiếng Việt, chúng ta sẽ có đƣợc nghĩa đúng là “đặt chỗ”. Vì vậy, trong phần thí nghiệm, luận văn khảo sát sự ảnh hƣởng của nhãn từ loại tiếng Anh vào hệ dịch thống kê. 4.1.2. Thông tin biến cách của từ Do tiếng Anh thuộc ngôn ngữ biến hình và tiếng Việt thuộc ngôn ngữ đơn lập nên phƣơng thức ngữ pháp dùng để biểu thị ý nghĩa ngữ pháp của hai ngôn ngữ cũng khác nhau [1, tr. 46]. Tiếng Anh dùng hình vị phụ tố, tiếng Việt dùng từ hƣ. Tuy nhiên hầu hết các trƣờng hợp dẫn xuất và biến cách trong tiếng Anh đều có ánh xạ tƣơng ứng sang tiếng Việt. [1] đƣa ra danh sách đối chiếu hình thái từ cho các tiền tố, hậu tố của tiếng Anh và nghĩa tiếng Việt tƣơng ứng. Dựa vào đặc điểm trên, luận văn khai thác thông tin phụ tố để cải tiến hệ dịch. Trƣờng hợp từ không dịch đƣợc do từ không có trong ngữ liệu có thể chia làm hai dạng, dạng một là từ hoàn toàn không có trong ngữ liệu, cách khắc phục dạng này là mở rộng ngữ liệu huấn luyện. Dạng thứ hai là từ không có trong ngữ liệu nhƣng biến cách của nó lại nằm trong ngữ liệu, ví dụ nhƣ hệ thống có thể dịch đƣợc từ “house” thành “ngôi nhà” nhƣng lại không thể dịch đƣợc từ “houses” thành “những ngôi nhà”. Vì từ “house” và “houses” đƣợc hệ thống xem nhƣ là hai từ khác biệt, Trang 45 không có mối liên hệ nào với nhau. Để khắc phục khuyết điểm này, trong quá trình cài đặt, luận văn xem từ “houses” nhƣ là hai từ “house” và “s”. Nhƣ vậy, hệ thống có thể dịch đƣợc các từ dạng này mà không cần phải bổ sung mở rộng ngữ liệu song ngữ huấn luyện. Trong khuôn khổ của đề tài, luận văn khảo sát sự biến đổi kết quả dịch khi chuyển từ tiếng Anh về dạng nguyên mẫu và thêm thông tin phụ tố biến cách. Ngoài ra, luận văn còn thực thi thêm mô hình kết hợp chuyển về từ nguyên mẫu, thêm phụ tố và tích hợp nhãn từ loại vào câu tiếng Anh. 4.1.3. Sử dụng luật chuyển đổi trật tự Sử dụng kết quả nghiên cứu của ngành ngôn ngữ học so sánh, đối chiếu điểm tƣơng đồng và khác biệt giữa tiếng Anh và tiếng Việt về hình thái từ [1], trật tự từ [2], luận văn áp dụng tập luật thủ công nhằm tạo sự tƣơng đồng cho cặp câu song ngữ. Tiếng Anh có 5 loại ngữ chính là: danh ngữ (noun phrase), động ngữ (verb phrase), tính ngữ (adjective phrase), trạng ngữ (adverbial phrase) và ngữ giới từ (preposition phrase). Khi so sánh đối chiếu giữa hai ngôn ngữ, [2] chỉ ra các điểm khác biệt về trật tự từ giữa những từ trong ngữ. 4.1.3.1. Danh ngữ  Định từ (determiner) Trong danh ngữ, một số định từ đứng trƣớc danh từ khi dịch sang tiếng Việt sẽ chuyển về cuối. Xét định từ “the”, thông thƣờng từ này sẽ không đƣợc dịch. Ví dụ: the book  cuốn sách the phone  điện thoại Với các định từ “this”, “that”, “these”, “those”, khi đứng trƣớc danh từ khi dịch sang tiếng Việt sẽ đƣợc chuyển về cuối. Ví dụ: This table  cái bàn này Trang 46 Those white rabbits  những con thỏ trắng kia Dựa vào đặc điểm này, chúng tôi rút luật nhƣ sau: Trong danh ngữ, nếu định từ “this”, “that”, “these”, “those” đứng đầu thì sẽ đƣợc chuyển về cuối. Áp dụng luật chuyển đổi cho 2 ví dụ trên ta đƣợc: This table  table this Those white rabbits  white rabbits those  Tính từ bổ nghĩa trước danh từ chính (pre-modifier) Trong tiếng Anh, tính từ bổ nghĩa luôn đứng trƣớc danh từ, trong khi đối với tiếng Việt, tính từ đứng sau danh từ. Xét các ví dụ sau: An interesting film  Một bộ phim hay The small blue house  Căn nhà nhỏ màu xanh Nhƣ vậy, luật đƣợc rút nhƣ sau: Trong danh ngữ, nếu tính từ hoặc tính ngữ đứng trƣớc danh từ thì chuyển ra sau danh từ. Áp dụng luật cho 2 ví dụ trên, ta đƣợc: An interesting film  An film interesting The small blue house  The house small blue  Tính từ sở hữu (possessive adjective) Trong danh ngữ tiếng Anh, tính từ sở hữu đứng trƣớc danh từ nhƣng trong tiếng Việt, tính từ sở hữu đứng sau danh từ. Xét 2 ví dụ: My computer  Máy tính của tôi Their children  Con của họ Luật đƣợc rút ra là: Nếu trong danh ngữ có chứa tính từ sở hữu thì chuyển từ này về cuối. Áp dụng luật trên cho 2 ví dụ: Trang 47 My computer  computer my Their children  children their 1.1.1.1. Sở hữu cách (possessive case) Trong tiếng Anh, thứ tự của danh từ và sở hữu cách bị đảo ngƣợc so với tiếng Việt: Mary’s box  Chiếc hộp của Mary book’s cover Bìa của quyển sách Trong trƣờng hợp, luật đƣợc rút ra là: Trong danh ngữ, nếu có sở hữu cách giữa hai danh từ thì sẽ đảo vị trí của hai danh từ. Áp dụng luật trên, ta đƣợc: Mary’s box  box „s Mary Book ‟s cover  cover „s book  Danh từ phụ (sub noun) Trong tiếng Anh, danh từ phụ đứng trƣớc bổ nghĩa cho danh từ chính. Trong khi thứ tự trong tiếng Việt thì ngƣợc lại. Nuclear weapons  vũ khí hạt nhân Computer science  khoa học máy tính Luật đƣợc rút ra là: Trong danh ngữ, nếu hai danh từ đứng liền nhau thì sẽ đƣợc đảo vị trí. Nếu áp dụng luật cho 2 ví dụ trên, ta đƣợc: Nuclear weapons  wepons nuclear Computer science  science computer 4.1.3.2. Động ngữ So sánh động ngữ của tiếng Anh và tiếng Việt, vị trí của các thành phần đa số là nhƣ nhau, trừ trƣờng hợp phủ định của trợ động từ (modal verb) và một số trạng từ. Trang 48  Phủ định của trợ động từ Trong câu tiếng Anh có trợ động từ ở thể phủ định, trạng từ “not” đứng sau trợ động từ. Khi dịch sang tiếng Việt câu sẽ dịch trạng từ phủ định trƣớc trợ động từ. Xét ví dụ sau: Could not  không thể Should not  không nên Từ nhận xét trên, chúng tôi rút ra luật: Trong động ngữ, nếu trợ động từ ở dạng phủ định thì sẽ đảo trạng từ phủ định lên trƣớc trợ động từ. Cụm từ ở trên sẽ thay đổi sau khi áp dụng luật: Could not  not could Should not  not should  Trạng từ/ngữ Trạng từ/ngữ của động ngữ tiếng Anh nếu đứng trƣớc động từ thì khi dịch sang tiếng Việt sẽ đƣợc đảo ra sau. Ví dụ: greatly influence  ảnh hƣởng lớn carefully design  thiết kế một cách cẩn thận Do đó, chúng tôi rút ra luật nhƣ sau: Trong động ngữ, nếu trạng từ/ ngữ đứng trƣớc động từ thì sẽ đƣợc chuyển ra sau động từ. Kết quả áp dụng luật cho ví dụ trên: greatly influence  influence greatly carefully design  design carefully Trang 49 4.1.3.2. Tính ngữ  Trạng từ so sánh (comparative adverb, superlative adverb) Trong tiếng Anh có trạng từ so sánh hơn và trạng từ so sánh cực cấp. Khi có trạng từ này trong tính ngữ, câu đƣợc dịch sang tiếng Việt sẽ biểu thị mức so sánh sau cùng. Ví dụ: The most expensive  đắt nhất More complex  phức tạp hơn Luật đƣợc rút trích nhƣ sau: Nếu trong tính ngữ chứa trạng từ so sánh và tính từ thì trạng từ so sánh sẽ đƣợc chuyển ra sau cùng. Sau khi áp dụng luật cho ví dụ trên, ta đƣợc: The most expensive  the expensive most More complex  complex more  Động từ/ ngữ Tƣơng tự nhƣ trong động ngữ, nếu tính ngữ chứa trạng từ và động từ/ngữ thì tính trạng từ sẽ đƣợc đảo ra sau động từ/ngữ.  Danh ngữ Nếu tính ngữ chứa danh ngữ bổ nghĩa cho tính từ thì sẽ đƣợc chuyển danh ngữ ra sau tính từ. Xét ví dụ sau: (6 metters) long  dài 6 mét Cụm tính ngữ sẽ đƣợc đảo nhƣ sau: (6 metters) long  long (6 metters) 4.1.3.3. Trạng ngữ Tƣơng tự với tính ngữ, nếu trạng ngữ chứa trạng từ so sánh và trạng từ thì trạng từ so sánh sẽ đƣợc chuyển ra sau. Ví dụ: Trang 50 More importantly  importantly more The most specially  the specially most 4.1.3.4. Trật tự của các ngữ trong câu Trật tự của các ngữ trong câu tiếng Anh và tiếng Việt phần lớn là tƣơng đồng với nhau. Câu ở dạng khẳng định thƣờng có cấu trúc: S-V-O: Chủ ngữ - động từ - tân ngữ. Tuy nhiên tiếng Anh có dạng câu hỏi wh-question là những câu hỏi bắt đầu bằng đại từ nghi vấn: what, where, when, how, who, whom, which, whose. Trong khi câu nghi vấn tiếng Việt sẽ để những trợ từ này sau cùng. Dựa trên điểm khác biệt này, chúng tôi rút ra luật: Nếu có một trong những từ trên đứng đầu câu, tiếp theo sau là trợ động từ thì sẽ đảo vị trí trợ động từ và đại từ nghi vấn, sau đó chuyển nguyên cụm này ra cuối câu. Xét ví dụ sau: Câu input: Where are his friend „s books ? Câu sau khi đƣợc phân tích: [Where] [are] [his friend „s books] ? Sau khi áp dụng luật chuyển đổi trật tự các ngữ, câu trở thành: [his friend „s books] [are] [Where] ? Tƣơng ứng với câu dịch tiếng Việt là: Mấy quyển sách của bạn anh ấy ở đâu ? 4.2. Thêm thông tin hình thái từ tiếng Việt 4.2.1. Thông tin ranh giới từ Tiếng Việt là ngôn ngữ đơn lập, việc xác định ranh giới từ không chỉ đơn thuần dựa trên khoảng trắng mà phải dựa vào ngữ cảnh và nghĩa của từ. Một ví dụ điển hình cho thấy nhập nhằng trong bài toán tách từ tiếng Việt: Học sinh học sinh học. Câu trên có thể đƣợc gán nhãn ranh giới từ nhƣ sau: Trang 51 Học_sinh học_sinh học. Hoặc là: Học_sinh học sinh_học. Trong mô hình máy thống kê dựa trên ngữ, hệ dịch thống kê tần suất xuất hiện của các cặp ngữ trong mô hình dịch và tính xác suất chuỗi từ trong mô hình ngôn ngữ. Việc rút ngữ không dựa vào tri thức ngôn ngữ mà chỉ đơn thuần là một dãy các token. Thiếu thông tin ranh giới từ có thể khiến từ bị gián đoạn trong các ngữ đƣợc rút ra. Do đó, chúng tôi khảo sát sự ảnh hƣởng của thông tin ranh giới từ đến hệ dịch thống kê Anh – Việt. Câu tiếng Việt trong cặp câu song ngữ và câu tiếng Việt trong ngữ liệu đơn ngữ sẽ đƣợc tách từ. Xét cặp câu sau: * Conservation efforts to save the saola have faced numerous difficulties . + Những nỗ lực bảo tồn để cứu Sao la đã phải đối mặt với nhiều khó khăn . Câu tiếng Việt trong cặp câu đầu vào này sẽ đƣợc tách từ: * Conservation efforts to save the saola have faced numerous difficulties . + Những nỗ_lực bảo_tồn để cứu Sao_la đã phải đối_mặt với nhiều khó_khăn . 4.2.2. Thông tin từ loại Một trong những thành phần quan trọng trong hệ dịch thống kê là mô hình ngôn ngữ. Mô hình này có vai trò xác định câu dịch tự nhiên trong ngôn ngữ đích. Mô hình ngôn ngữ sử dụng phƣơng pháp thống kê n-gram, sử dụng xác suất để dự đoán từ tiếp theo trong chuỗi từ cho trƣớc và không quan tâm đến yếu tố ngôn ngữ. Mặc khác, mô hình dịch Factored SMT cho phép tích hợp thông tin khác trong mô hình ngôn ngữ đƣợc gọi là Factored language model (FLM). Một ƣu điểm của FLM là có thể ƣớc lƣợng xác suất của chuỗi từ chƣa gặp trƣớc đó. Trang 52 Để khảo sát ảnh hƣởng của thông tin từ loại tiếng Việt, chúng tôi gán nhãn từ loại cho ngữ liệu đơn ngữ. Ngữ liệu này sẽ đƣợc thống kê để tạo thành mô hình ngôn ngữ. Xét ví dụ ở phần trên, câu tiếng Việt sẽ đƣợc gán nhãn nhƣ sau: * Conservation efforts to save the saola have faced numerous difficulties . + Những|Nq nỗ_lực|Nn bảo_tồn|Vv để|Cm cứu|Vv Sao_la|Nn đã|R phải|Vv đối_mặt|Vv với|Cp nhiều|Aa khó_khăn|Nn .|PU Khi đƣa cặp câu này làm đầu vào cho hệ dịch Factored SMT, hệ thống sẽ học mô hình dịch từ từ tiếng Anh sang từ tiếng Việt cùng với nhãn từ loại của tiếng Việt. Ngoài ra, hệ thống sẽ học hai mô hình ngôn ngữ: mô hình ngôn ngữ thống kê chuỗi từ và mô hình ngôn ngữ thống kê chuỗi từ loại. Hình 4.2. Mô hình ngôn ngữ từ vựng Hình 4.3. Mô hình ngôn ngữ từ loại Trong mô hình thứ hai, hệ thống học xác suất để dự đoán nhãn từ loại tiếp theo với chuỗi nhãn cho trƣớc. Với các tham số này, hệ dịch có thể ƣớc lƣợng cho các chuỗi từ mới chƣa gặp trong ngữ liệu. 4.3. Thêm thông tin hình thái từ cho tiếng Anh và tiếng Việt Trong mô hình này, chúng tôi đƣa thông tin từ loại cho cả hai phía tiếng Anh và tiếng Việt và đƣa vào hệ dịch Factored SMT. -0.4073871 đối_mặt với nhiều -0.1396443 đối_mặt với -0.2439401 Vv Cp Aa -0.5738485 Vv Cp Nn Trang 53 Hình 4.4. Mô hình factored SMT tích hợp từ loại Trong quá trình huấn luyện, hệ thống học mô hình dịch từ sang từ (word-word), sau đó học mô hình dịch từ loại sang từ loại (POS-POS). Sau đó là quá trình kiểm tra chuỗi nhãn từ loại ở phía kết quả. Nhƣ vậy, ngoài xác suất dịch chuỗi từ 𝑝 𝑒𝑤𝑜𝑟𝑑 𝑣𝑤𝑜𝑟𝑑 , hệ thống còn học xác suất dịch chuỗi từ loại 𝑝 𝑒𝑃𝑂𝑆 𝑣𝑃𝑂𝑆 . Thông qua các tham số này, hệ dịch học đƣợc các luật cú pháp đơn giản trong dịch Anh – Việt. Từ Tiếng Việt Từ loại Tiếng Anh Từ Từ loại Trang 54 CHƢƠNG 5: THỰC NGHIỆM VÀ ĐÁNH GIÁ 5.1. Ngữ liệu Ngữ liệu đƣợc sử dụng để huấn luyện và kiểm chứng trong hệ thống của chúng tôi là ngữ liệu song ngữ Anh-Việt của nhóm VCL (Vietnamese Computation Linguistic). Ngữ liệu này thuộc nhiều chủ đề, bao gồm hơn 20.000 cặp câu và đã đƣợc chỉnh sửa bằng tay theo một số tiêu chuẩn sau: - Đồng bộ về mặt nội dung. - Đồng bộ về mặt hình thức (dấu câu, số liệu, tên riêng…). - Kiểm lỗi chính tả. - Giữ lại các dấu kí hiệu trong từ viết tắt. - Loại bỏ câu trùng. - Loại bỏ câu ngắn dƣới 10 từ. Bảng sau mô tả các thông tin chi tiết về ngữ liệu. Bảng 5.1 Thông tin về ngữ liệu Số cặp câu Số token Chiều dài câu trung bình Số token phân biệt Tiếng Anh 542.328 23,58461 50.281 Tiếng Việt 745.449 32,41787 24.953 Tổng cộng 22.996 1.287.777 28,00124 Để đánh giá các mô hình, chúng tôi chia ngẫu nhiên ngữ liệu thành 10 phần, 9 phần dùng để huấn luyện hệ dịch, 0,5 phần dùng để điều chỉnh tham số và 0,5 dùng để kiểm chứng. Trang 55 5.2. Các công cụ Để huấn luyện các hệ dịch, chúng tôi sử dụng công cụ Moses [21] huấn luyện mô hình dịch thống kê dựa trên ngữ, dùng GIZA++ để huấn luyện cho mô hình gióng hàng từ và SRILM [4] để tạo mô hình ngôn ngữ. Để phân tích hình thái (phụ tố) từ tiếng Anh, chúng tôi sử dụng công cụ Morph. Và sử dụng công cụ SVMTool [13] để gán nhãn từ loại tiếng Anh (độ chính xác ~97%). Công cụ này dựa trên mô hình SVM (support vector machines) và đƣợc huấn luyện trên tập ngữ liệu Wall Street Journal. 5.3. Thí nghiệm Để so sánh hiệu quả của các mô hình, chúng tôi thực thi hệ dịch thống kê dựa trên ngữ làm cơ sở. Kết quả thực nghiệm của các mô hình tích hợp thông tin hình thái từ vào hệ dịch nhƣ sau: 5.3.1. Tích hợp thông tin hình thái từ trong câu tiếng Anh 5.3.1.1. Thêm thông tin hình thái từ Trong phần thí nghiệm, luận văn khảo sát thông tin hình thái từ của tiếng Anh bao gồm: từ loại, nguyên mẫu và phụ tố. Bảng 5.2 mô tả kết quả dịch của hệ Anh – Việt khi thêm các thông tin này vào câu nguồn. Bảng 5.2. Kết quả dịch khi tích hợp thông tin hình thái từ vào câu nguồn BLEU NIST TER Hệ cơ sở 43,31 9,8269 37,914 Thêm từ loại 42,68 9,7634 38,335 Tách thành nguyên mẫu và phụ tố 41,72 9,5169 39,754 Tách thành nguyên mẫu và phụ tố + Thêm từ loại 42,48 9,6482 38,855 Trang 56 Từ bảng kết quả trên, ta có thể nhận thấy hệ dịch khi tích hợp thêm thông tin từ loại và biến đổi từ thành nguyên mẫu và phụ tố làm giảm hiệu quả của hệ dịch. i. Ảnh hƣởng của thông tin từ loại trong câu tiếng Anh: Kết quả thực nghiệm cho thấy thông tin từ loại cải thiện một số kết quả dịch. Ta có thể xét một số ví dụ sau: Ví dụ 1: Tiếng Anh A project to build Ha Long into a smoke - free tourist city started in Ha Long city , northern coastal Quang Ninh province on Sept . Tiếng Việt Một dự án xây dựng Hạ Long thành một thành phố du lịch không khói thuốc đã bắt đầu tại thành phố Hạ Long , ven biển phía bắc tỉnh Quảng Ninh vào tháng chín . Baseline Một dự án để xây dựng Hạ Long vào một thuốc tự do thành phố du lịch đã bắt đầu tại thành phố Hạ Long , ven biển phía bắc tỉnh Quảng Ninh vào tháng 9 . Tiếng Anh POS A|a|DT project|project|NN to|to|TO build|build|VB Ha|ha|NNP Long|long|NNP into|into|IN a|a|DT smoke|smoke|NN -|-|: free|free|JJ tourist|tourist|NN city|city|NN started|start|VBD in|in|IN Ha|ha|NNP Long|long|NNP city|city|NN ,|,|, northern|northern|JJ coastal|coastal|JJ Quang|Quang|NNP Ninh|Ninh|NNP province|province|NN on|on|IN Sept|Sept|NNP .|.|. POS Một dự án để xây dựng Hạ Long vào một không khói thuốc thành phố du lịch đã bắt đầu tại thành phố Hạ Long , ven biển phía bắc tỉnh Quảng Ninh vào tháng 9 . Ví dụ 2: Ngữ liệu However , it ' s unclear if Hoang will play today because Calisto Trang 57 has stated that he will not risk his player . Tuy nhiên , không rõ liệu Hoàng sẽ chơi ngày hôm nay không vì Calisto đã tuyên bố rằng ông sẽ không mạo hiểm đối với cầu thủ của ông . Baseline Tuy nhiên , nó không rõ ràng nếu Hoàng sẽ chơi ngày hôm nay vì Calisto đã nói rằng ông sẽ không có nguy cơ đối thủ . Thêm từ loại tiếng Anh However|however|RB ,|,|, it|it|PRP '|'|'' s|s|VBZ unclear|unclear|JJ if|if|IN Hoang|Hoang|NNP will|will|MD play|play|VB today|today|NN because|because|IN Calisto|Calisto|NNP has|have|VBZ stated|state|VBN that|that|IN he|he|PRP will|will|MD not|not|RB risk|risk|VB his|his|PRP$ player|player|NN .|.|. Tuy nhiên , nó không rõ ràng nếu Hoàng sẽ chơi ngày hôm nay vì Calisto đã tuyên bố rằng ông sẽ không mạo hiểm đối thủ . Tuy nhiên, thông tin từ loại đã dẫn đến kết quả dịch tệ hơn hệ cơ sở do các lý do sau: o Mỗi từ tiếng Anh có thể có nhiều hơn một nhãn từ loại. Nhƣng ngữ liệu không thể bao quát đƣợc hết mọi trƣờng hợp. Do đó, với cùng một từ đã xuất hiện trong ngữ liệu huấn luyện nhƣng đƣợc đánh nhãn từ loại chƣa gặp, hệ dịch xem nhƣ là một từ mới và không dịch đƣợc. Ví dụ: Ngữ liệu The Control Board may use independent consultants to perform assigned duties . Ban kiểm soát có thể sử dụng các nhà tƣ vấn tự do để thực hiện các nhiệm vụ đƣợc giao . Baseline Ban kiểm soát có thể sử dụng độc lập consultants để thực hiện Trang 58 các nhiệm vụ đƣợc giao . Thêm từ loại tiếng Anh The|the|DT Control|control|NNP Board|board|NNP may|may|MD use|use|VB independent|independent|JJ consultants|consultant|NNS to|to|TO perform|perform|VB assigned|assign|JJ duties|duty|NNS .|.|. Ban kiểm soát có thể sử dụng độc lập consultants để thực hiện assigned nhiệm vụ . Từ “assigned” trong ngữ liệu huấn luyện đƣợc đánh nhãn VBN, động từ ở dạng quá khứ phân từ nhƣng chƣa gặp trƣờng hợp từ “assigned” đƣợc đánh nhãn JJ, tính từ. o Trƣờng hợp công cụ gán nhãn sai cũng tạo nên câu dịch tệ hơn. Vì khi kết hợp với nhãn sai, từ tiếng Anh cũng tạo nên từ chƣa gặp trong ngữ liệu. Xét ví dụ sau: Ngữ liệu Hitler also has a devastating new weapon to unveil - the magnetic mine , dropped into the sea from the air to cling to a passing vessel and explode . Hitler cũng có một loại vũ khí tàn phá mới để công bố - mỏ từ trƣờng , bị bỏ vào trong biển từ trên không để bám víu vào một con tàu đi qua và nổ . Baseline Hitler cũng đã tàn phá vũ khí mới để công bố - magnetic mỏ , giảm xuống vào biển từ không khí để cling đến một thông qua các tàu và explode . Thêm từ loại tiếng Anh Hitler|hitler|NNP also|conjurer|RB has|have|VBZ a|a|DT devastating|devastate|VBG new|new|JJ weapon|weapon|NN to|to|TO unveil|unveil|VB -|-|: the|the|DT magnetic|magnetic|JJ mine|mine|NN ,|,|, dropped|drop|VBD into|into|IN the|the|DT sea|sea|NN from|from|IN the|the|DT air|air|NN to|to|TO cling|cling|VB to|to|TO a|a|DT passing|pass|NN vessel|vessel|NN Trang 59 and|and|CC explode|explode|VB .|.|. Hitler cũng có một tàn phá vũ khí mới để công bố - magnetic mỏ , giảm xuống vào biển từ không khí để cling đến một passing tàu và explode . o Ngoài ra, do hệ dịch chọn lựa ngữ dịch tƣơng ứng dựa trên nhãn từ loại nên nhãn từ loại sai dẫn đến câu dịch cũng sai. Ví dụ: Ngữ liệu When Spring comes , Sa Dec bonsai village also starts its festival . Khi mùa xuân đến , làng cây cảnh Sa Đéc cũng bắt đầu lễ hội của nó . Baseline Khi mùa xuân đến , Sa Đéc cây cảnh làng cũng bắt đầu của nó lễ hội . Thêm từ loại tiếng Anh When|when|WRB Spring|spring|NNP comes|come|VBZ ,|,|, Sa|Sa|NNP Dec|Dec|NNP bonsai|bonsai|NN village|village|NN also|conjurer|RB starts|start|VBZ its|its|PRP$ festival|festival|NN .|.|. Khi Lƣơng đến , Sa Đéc cây cảnh làng cũng bắt đầu của nó lễ hội . Từ đƣợc đánh nhãn sai làm ảnh hƣởng kết quả gióng hàng từ. Nếu từ không đƣợc gióng hàng sẽ không đƣợc thống kê, do đó khi dịch hệ thống không gặp khi tra phrase-table dẫn đến từ không đƣợc dịch. ii. Ảnh hƣởng của biến đổi từ thành nguyên mẫu và phụ tố Mặc dù việc phân tích từ tiếng Anh sang nguyên mẫu và phụ tố có cải thiện kết quả dịch so với hệ dịch cơ sở. Nhƣng kết quả phân tích cũng tạo nên từ/ngữ chƣa gặp trong ngữ liệu huấn luyện nên kết quả dịch nhìn chung bị giảm. Trang 60 Sau đây là hai ví dụ cho thấy ảnh hƣởng tích cực của phép phân tích. Ví dụ 1: Ngữ liệu No matter what happens , we ' ll be as well prepared as we can be given the enormous potential for crowds . Dù bất kỳ vấn đề nào xảy ra , chúng tôi sẽ chuẩn bị tốt khi chúng tôi có thể đƣợc đƣa ra tiềm năng to lớn cho đám đông . Baseline Không có vấn đề về những gì sẽ xảy ra , chúng tôi sẽ là cũng đƣợc chuẩn bị vì chúng tôi có thể đƣợc đƣa ra các rất lớn tiềm năng cho các crowds . Tách từ tiếng Anh thành nguyên mẫu và phụ tố No matter what happen s , we 'll be as well prepare ed as we can be give en the enormous potential for crowd s . Không có vấn đề những gì xảy ra , chúng tôi sẽ là cũng nhƣ đƣợc chuẩn bị nhƣ chúng tôi có thể đƣợc đƣa ra những lớn tiềm năng cho đám đông . Ví dụ 2: Ngữ liệu The boat cruises down the canal making stops at points of interest along the way . Các chuyến đi tàu xuống kênh dừng tại các điểm thú vị trên đƣờng đi . Baseline Các thuyền cruises xuống kênh làm dừng tại điểm của sự quan tâm dọc theo đƣờng . Tách từ tiếng Anh thành nguyên mẫu và phụ tố The boat cruise s down the canal make ing stop s at point s of interest along the way . Các thuyền đi xuống các kênh làm việc dừng tại điểm quan tâm dọc theo đƣờng . o Tuy nhiên, kết quả dịch tệ hơn so với hệ cơ sở trong các trƣờng hợp sau: Trang 61 Ngữ liệu Tasmania has long been a location for cloud seeding programs , following apparent success with the programs in the 1960 's and 1970 's when significant rainfall increases of more than 30 percent were measured and reported by CSIRO scientists . Tasmania từ lâu đã là nơi cho các chƣơng trình tạo mƣa nhân tạo , sau thành công rực rỡ với các chƣơng trình trong những năm 1960 và 1970 khi lƣợng mƣa tăng lên đáng kể với hơn 30 phần trăm đƣợc đo và báo cáo bởi các nhà khoa học CSIRO . Baseline Tasmania từ lâu đã đƣợc một địa điểm cho các đám mây chƣơng trình tạo mƣa nhân tạo , sau đây rõ ràng thành công với các chƣơng trình trong những năm 1960 của và 1970 của khi quan trọng lƣợng mƣa tăng hơn 30 phần trăm đã đƣợc đo và báo cáo của cây trồng các nhà khoa học . Tách từ tiếng Anh thành nguyên mẫu và phụ tố Tasmanium s have s long be en a location for cloud seed ing program s , follow ing apparent success with the program s in the 1960 ' s and 1970 ' s when significant rainfall increase s of more than 30 percent be ed measure ed and report ed by CSIRO scientist s . Tasmania đã lâu dài đƣợc một địa điểm cho đám mây hạt giống các chƣơng trình , đi theo rõ ràng thành công với các chƣơng trình trong thập niên 1960 của và 1970 của khi quan trọng lƣợng mƣa tăng của hơn 30 phần trăm đã đƣợc đo và báo cáo của CSIRO các nhà khoa học . o Do công cụ phân tích từ về nguyên mẫu dựa trên kết quả gán nhãn từ loại nên nhãn từ loại sai sẽ dẫn đến kết quả phân tích sai. Ngữ liệu Professor Johnson was not involved in the study but wrote an accompanying article in the same issue of Science , outlining its Trang 62 significance . Giáo sƣ Johnson đã không tham gia vào nghiên cứu này , nhƣng đã viết một bài báo đi kèm trong cùng một ấn bản Khoa học , phác thảo ra ý nghĩa của nó . Baseline Giáo sƣ Johnson đã không tham gia vào việc nghiên cứu , nhƣng đã viết một đi kèm bài viết trong cùng một vấn đề về Khoa học , phác thảo của nó có ý nghĩa . Tách từ tiếng Anh thành nguyên mẫu và phụ tố Professor Johnson be ed not involve ed in the study but write ed an accompanying article in the same issue of Science , outline ing its significance . Giáo sƣ Johnson là không liên quan đến việc nghiên cứu , nhƣng đã viết một accompanying bài viết trong cùng một vấn đề của Khoa học , phác thảo của nó có ý nghĩa . Nhƣ vậy, việc tích hợp thông tin từ loại và hình thái của tiếng Anh đã có cải thiện kết quả dịch trong một số trƣờng hợp. Tuy nhiên, kết quả dịch vẫn phụ thuộc rất nhiều vào hiệu quả của các công cụ đánh nhãn từ loại và phân tích hình thái. Do đó, từ trong câu tiếng Anh bị phân tích sai dẫn đến nhiều trƣờng hợp câu dịch tệ hơn hệ cơ sở. Mặc khác, ngữ liệu không bao phủ hết các nhãn từ loại của từ cũng dẫn đến hệ dịch không hiệu quả. 5.3.1.2. Chuyển đổi trật tự từ Bảng 5.3. Kết quả dịch của các hệ chuyển đổi trật tự từ BLEU NIST TER Hệ cơ sở 43,31 9,8269 37,914 Chuyển đổi trật tự 45,88 9,9461 36,429 Trang 63 Bảng 5.3 hiển thị kết quả dịch của hệ dịch áp dụng luật chuyển đổi trật tự. Kết quả cho thấy khi dùng luật chuyển đổi, hiệu quả dịch cao hơn so với hệ cơ sở. Kết quả gióng hàng từ cho thấy, sau khi áp dụng luật chuyển đổi trật tự cho câu nguồn, số lƣợng gióng hàng chéo giảm đáng kể. Do câu tiếng Anh đã đƣợc thay đổi vị trí sao cho gần giống với tiếng Việt nhất. Nhờ vậy, hệ thống dịch hiệu quả hơn. Ngữ liệu Our training time is too long and could limit the doctors ' motivation and waste our medical talent . Thời gian đào tạo của chúng tôi là quá dài và có thể giới hạn động cơ của các bác sĩ và lãng phí tài năng y học của chúng ta . Baseline của chúng tôi đào tạo thời gian là quá lâu dài và có thể giới hạn sự bác sĩ của động lực và chất thải của chúng tôi y tế tài năng . Chuyển đổi trật tự time training Our is too long and could limit the motivation ' doctors and waste talent medical our . thời gian đào tạo của chúng tôi là quá lâu dài và có thể giới hạn sự động lực của các bác sĩ và chất thải tài năng y tế của chúng tôi . Ngữ liệu But his real interest remains in the distant provinces of the empire . Nhƣng sự quan tâm thực sự của ông vẫn còn ở các tỉnh xa xôi của đế quốc . Baseline Nhƣng ông thực sự quan tâm vẫn còn ở xa xôi tỉnh của đế quốc . Chuyển đổi trật tự But interest real his remains in the provinces distant of the empire . Nhƣng sự quan tâm thực sự của ông vẫn còn ở các tỉnh xa xôi Trang 64 của đế quốc . Tuy nhiên, không phải trƣờng hợp áp dụng luật nào cũng cải thiện đƣợc hệ dịch. Vì không phải luật nào cũng bao quát đƣợc mọi trƣờng hợp. Luật đƣợc áp dụng sai dẫn đến lƣợng gióng hàng chéo trong câu lại tăng lên, kéo theo kết quả dịch tệ hơn so với hệ dịch cơ sở. Ngữ liệu In the plan toward the year 2010 , Vietnam National Administration of Tourism declares Van Phong as " the most important region for tourism development " . Trong kế hoạch hƣớng tới năm 2010 , Tổng cục Du lịch Việt Nam công bố Văn Phong là khu phát triển du lịch quan trọng nhất . Baseline Trong các kế hoạch hƣớng đến năm 2010 , Việt Nam Tổng cục Du lịch tuyên bố Vân Phong là " quan trọng nhất của khu vực cho phát triển du lịch " . Chuyển đổi trật tự In the plan toward the year 2010 , Vietnam National Administration of Tourism declares Van Phong as " the most region important for tourism development " . Trong các kế hoạch đến năm 2010 , Việt Nam Tổng cục Du lịch tuyên bố Vân Phong là " hầu hết các khu vực quan trọng cho phát triển du lịch " . 5.1.1.1. Thêm thông tin hình thái từ trong câu tiếng Việt Thông tin hình thái từ của tiếng Việt đƣợc khảo sát bao gồm ranh giới từ và từ loại. i. Phân đoạn từ trong câu tiếng Việt Kết quả dịch của các mô hình tách từ cho tiếng Việt nhƣ sau: Trang 65 Bảng 5.4. Kết quả dịch của các hệ tích hợp thông tin hình thái từ vào câu tiếng Việt BLEU NIST TER Hệ cơ sở 43,31 9,8269 37,914 Tách từ tiếng Việt 44,19 9,9079 37,103 Đổi trật tự từ tiếng Anh 45,88 9,9461 36,429 Đổi trật tự từ tiếng Anh + Tách từ tiếng Việt 46,49 10,0107 35,850 Kết quả cho thấy hệ dịch đƣợc cải thiện nếu khi gán nhãn ranh giới từ cho câu tiếng Việt. Khi kết hợp chuyển đổi trật tự từ ở câu tiếng Anh và phân đoạn từ tiếng Việt, kết quả đƣợc cải tiến đáng kể. Hiệu quả dịch đƣợc nâng cao do số liên kết gióng hàng từ 1− 𝑛 (liên kết giữa 1 token với nhiều token) giảm đáng kể và từ trong các ngữ đƣợc rút ra không bị gián đoạn. Nhờ vậy, hệ dịch có thể thống kê các cặp ngữ chính xác hơn và tìm kiếm câu dịch tốt hơn. Bảng 5.5. Số liên kết gióng hàng từ trong các mô hình Tổng số liên kết Số liên kết trung bình trong câu Cơ sở 771.492 37,74 Tách từ tiếng Việt 616.846 30,18 Đổi trật tự tiếng Anh 770.424 37,69 Đổi trật tự tiếng Anh + Tách từ tiếng Việt 616.589 30,16 Sau đây là một số ví dụ cho kết quả gióng hàng từ của hệ cơ sở và hệ dịch có câu tiếng Việt đƣợc tách từ: Ví dụ 1: Trang 66 All industrial and processing zones must have waste treatment systems . Tất_cả các khu công_nghiệp và khu chế_xuất phải có các hệ_thống xử_lý chất_thải . Kết quả gióng hàng từ hệ baseline: 0-0 0-1 4-2 4-3 1-4 1-5 2-6 3-7 4-7 3-8 3-9 5-10 6-11 9-13 9-14 8-15 8-16 7-17 7-18 10-19 All industrial and processing zones must have waste treatment systems . Tất cả các khu công nghiệp và khu chế xuất phải có các hệ thống xử lý chất thải . Kết quả gióng hàng từ của hệ dịch khi tách từ: 0-0 4-2 1-3 2-4 4-5 3-6 5-7 6-8 9-10 8-11 7-12 10-13 All industrial and processing zones must have waste treatment systems . Tất_cả các khu công_nghiệp và khu chế_xuất phải có các hệ_thống xử_lý chất_thải . Ví dụ 2: On the way to the central provinces of Binh Thuan and Ninh Thuan , tourists can catch a view of deserted sand dunes and peaceful villages. Trên đường đến các tỉnh miền trung của tỉnh Bình Thuận và Ninh Thuận , các du khách có thể bắt gặp cảnh một cồn cát hoang vu và những ngôi làng yên bình . Kết quả gióng hàng từ của hệ cơ sở: 0-0 2-1 3-2 4-3 6-4 5-5 5-6 7-7 6-8 8-9 9-10 10-11 11-12 12-13 13-14 14-15 14-16 14-17 15-18 15-19 16-20 16-21 18-22 17-23 22-24 21-25 20-26 20-27 23-28 22-29 25-30 25-31 24-32 24-33 26-34 Trang 67 On the way to the central provinces of Binh Thuan and Ninh Thuan , tourists Trên đƣờng đến các tỉnh miền trung của tỉnh Bình Thuận và Ninh Thuận , các du khách can catch a view of deserted sand dunes and peaceful villages . có thể bắt gặp cảnh một cồn cát hoang vu và những ngôi làng yên bình . Kết quả gióng hàng từ của hệ có tách từ tiếng Việt: 0-0 2-1 3-2 4-3 6-4 5-5 5-6 7-7 8-8 10-10 11-11 12-11 13-12 14-13 14-14 15- 15 16-16 18-17 17-18 22-19 21-20 20-21 23-22 25-24 25-25 24-26 26-27 On the way to the central provinces of Binh Thuan and Ninh Thuan , tourists Trên đƣờng đến các tỉnh miền trung của tỉnh Bình_Thuận và Ninh_Thuận , các du_khách can catch a view of deserted sand dunes and peaceful villages . có_thể bắt_gặp cảnh một cồn cát hoang_vu và những ngôi làng yên_bình . Sau đây là một số kết quả dịch của hệ dịch cơ sở và hệ dịch có tách từ tiếng Việt: Ngữ liệu Each member of the Management Board shall have a single vote . Mỗi thành viên của Hội đồng quản trị sẽ có một phiếu bầu duy nhất . Cơ sở Mỗi một thành viên của Hội đồng quản trị sẽ có duy nhất có một phiếu biểu quyết . Tách từ Mỗi thành_viên của Hội_đồng_quản_trị sẽ có một phiếu bầu duy_nhất . Trang 68 Ngữ liệu Tasmania has long been a location for cloud seeding programs , following apparent success with the programs in the 1960 's and 1970 's when significant rainfall increases of more than 30 percent were measured and reported by CSIRO scientists . Tasmania từ lâu đã là nơi cho các chƣơng trình tạo mƣa nhân tạo , sau thành công rực rỡ với các chƣơng trình trong những năm 1960 và 1970 khi lƣợng mƣa tăng lên đáng kể với hơn 30 phần trăm đƣợc đo và báo cáo bởi các nhà khoa học CSIRO . Cơ sở Tasmania từ lâu đã đƣợc một địa điểm cho các đám mây chƣơng trình tạo mƣa nhân tạo , sau đây rõ ràng thành công với các chƣơng trình trong những năm 1960 của và 1970 của khi quan trọng lƣợng mƣa tăng hơn 30 phần trăm đã đƣợc đo và báo cáo của cây trồng các nhà khoa học . Tách từ Tasmania từ lâu đã đƣợc một địa_điểm cho chƣơng_trình tạo mƣa nhân_tạo , sau đây rõ_ràng thành_công với các chƣơng_trình trong những năm 1960 của và 1970 của khi đáng_kể lƣợng mƣa tăng hơn 30 phần_trăm đã đƣợc đo và báo_cáo của CSIRO các nhà khoa_học . ii. Tích hợp thông tin từ loại trong câu tiếng Việt Bảng 5.6 Kết quả dịch của hệ dịch tích hợp từ loại tiếng Việt BLEU NIST TER Hệ cơ sở 43,31 9,8269 37,914 Thêm từ loại tiếng Việt 42,58 9,7837 38,072 Đổi trật tự từ tiếng Anh 45,88 9,9461 36,429 Đổi trật tự từ tiếng Anh + Thêm từ loại tiếng Việt 44,99 9,8972 36,864 Trang 69 Kết quả cho thấy hệ dịch khi thêm thông tin từ loại vào phía tiếng Việt làm giảm hiệu quả so với hệ cơ sở. Đối với mô hình này, hệ thống học mô hình dịch từ từ tiếng Anh sang từ tiếng Việt. Sau đó, hệ sẽ phát sinh từ loại cho từ tiếng Việt này. Bộ giải mã chọn câu tiếng Việt đã đƣợc gán nhãn từ loại có xác suất cao nhất dựa vào mô hình dịch, mô hình ngôn ngữ của từ và mô hình ngôn ngữ của từ loại. Nhƣ vậy, hệ dịch này khác với hệ dịch cơ sở ở chỗ là chịu ảnh hƣởng của mô hình ngôn ngữ của từ loại. Khi khảo sát kết quả, chúng tôi nhận thấy kết quả phát sinh từ loại cho câu tiếng Việt không chính xác, dẫn đến kết quả dịch cũng tệ hơn so với hệ cơ sở. Ví dụ: Ngữ liệu From Belgium we got to know that : " it might be interesting for you to know that currently an application for a field trial with GM poplar trees is [ being ] considered . Từ Bỉ , chúng_tôi đã cho_biết rằng : " có_thể rất thú_vị khi bạn biết rằng hiện_nay một ứng_dụng cho thử_nghiệm bên ngoài với GM cây dƣơng là [ đang ] đƣợc xem_xét . Tách từ tiếng Việt Từ Bỉ , chúng_tôi nhận đƣợc biết rằng : " nó có_thể đƣợc thú_vị cho bạn biết rằng hiện đơn xin cho một thử_nghiệm bên ngoài với biến_đổi gen cây dƣơng là [ đƣợc coi là ] . Thêm từ loại tiếng Việt Từ|Cm Bỉ|Nr ,|PU chúng_tôi|Pp đã|R nhận|Vv đƣợc|M biết|Vv rằng|Cp :|PU "|PU nó|Pp có_thể|Aa đƣợc|Vv thú_vị|Aa cho|Cp Tiếng Việt Từ loại Tiếng Anh Từ Từ Trang 70 bạn|Pp biết|Vv rằng|Cp hiện|Vv đơn|Nn xin|Vv cho|Cp một|Nq thử_nghiệm|Nn bên|Nn ngoài|Nn với|Cp biến_đổi|Nn gen|Nn cây|Nn dƣơng|Aa là|Vc [|PU đƣợc|Vv ]|PU xem_xét|Vv .|PU Mặc khác, kết quả dịch bị chi phối rất nhiều bởi mô hình nhãn từ loại. Do xác suất n-gram của từ loại thƣờng lớn hơn xác suất của chuỗi từ. Xét câu dịch sau: Ngữ liệu Earlier , Hung signed a decision to take legal action over the illegal transport and purchase of wild animals and handed over both of the suspects and the evidence to the Lac Duong district police for investigation . Trƣớc đó , Hƣng đã ký một quyết_định để thực_hiện hành_động pháp_lý đối_với việc vận_tải và mua_bán bất_hợp_pháp động_vật hoang_dã và giao_nộp cả hai nghi_phạm và chứng_cứ cho công_an huyện Lạc_Dƣơng để điều_tra . Cơ sở Trƣớc đó , Hƣng đã ký một quyết_định để thực_hiện hành_động pháp_lý trong việc vận_chuyển và mua các động_vật hoang_dã và bàn_giao cả các nghi_phạm và bằng_chứng đến Lạc_Dƣơng huyện cảnh_sát để điều_tra . Thêm từ loại tiếng Việt Trƣớc|Nn đó|Pd ,|PU ông|Nn Hùng|Nr đã|R ký|Vv một|Nq quyết_định|Nn để|Cm thực_hiện|Vv các|Nq hành_động|Nn pháp_lý|Nn trong|Cm việc|Nc vận_chuyển|Vv và|Cp mua|Vv của|Cm các|Nq loài|Nn động_vật|Nn hoang_dã|Aa và|Cp bàn_giao|Vv cả|Pp của|Cm các|Nq nghi_phạm|Nn và|Cp bằng_chứng|Nn đến|Cm Lạc_Dƣơng|Nr huyện|Nu cảnh_sát|Nn cho|Cp điều_tra|Vv .|PU Xác suất chuỗi nhãn từ loại trong mô hình ngôn ngữ: Trang 71 -0.8658289 Vv Nq Nn Nn Aa -0.5041147 Vv Cm Nq Nn Nn Rõ ràng xác suất 5-gram của chuỗi từ loại sau cao hơn, dẫn đến hệ dịch chọn câu dịch tệ hơn. Sau đây là ví dụ khác cho thấy ảnh hƣởng của mô hình ngôn ngữ từ loại. Ngữ liệu Under the monoculture plantation approach , the rubber farmers must obey and follow the instructions given to them . Theo phƣơng_pháp đồn_điền độc_canh , nông_dân trồng cây cao_su phải tuân theo những hƣớng_dẫn đƣợc giao cho họ . Cơ sở Theo các đồn_điền đ

Các file đính kèm theo tài liệu này:

Đề Tài- Tích hợp thông tin hình thái từ vào hệ dịch máy thống kê Anh-Việt.pdf