Tài liệu Đề tài Nghiên cứu phát triển công nghệ nhận dạng, tổng hợp và xử lý ngôn ngữ tiếng Việt: VIỆN KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
VIỆN CÔNG NGHỆ THÔNG TIN
18 Hoàng Quốc Việt, Hà Nội
BÁO CÁO TỔNG KẾT KHOA HỌC VÀ KỸ THUẬT ĐỀ TÀI
NGHIÊN CỨU PHÁT TRIỂN CÔNG NGHỆ
NHẬN DẠNG, TỔNG HỢP VÀ XỬ LÝ NGÔN NGỮ
TIẾNG VIỆT
Thời gian thực hiện: 2001- 6/2004
Chủ nhiệm đề tài: GS.TSKH. Bạch Hưng Khang
HÀ NÔI, 12/2004
Bản quyền 2004 thuộc Viện Công nghệ thông tin
Đơn xin sao chép toàn bộ hoặc từng phần tài liệu này phải gửi đến
Viện trưởng Viện Công nghệ thông tin trừ trường hợp sử dụng
với mục đích nghiên cứu
2
VIỆN KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
VIỆN CÔNG NGHỆ THÔNG TIN
18 Hoàng Quốc Việt, Hà Nội
BÁO CÁO TỔNG KẾT KHOA HỌC VÀ KỸ THUẬT ĐỀ TÀI
NGHIÊN CỨU PHÁT TRIỂN CÔNG NGHỆ
NHẬN DẠNG, TỔNG HỢP VÀ XỬ LÝ NGÔN NGỮ
TIẾNG VIỆT
Thời gian thực hiện: 2001- 6/2004
Chủ nhiệm đề tài: GS.TSKH. Bạch Hưng Khang
HÀ NỘI, 12/2004
Tài liệu này được chuẩn bị trên cơ sở kết quả thực hiện
Đề tài cấp Nhà nước mã số KC01-03
3
DANH SÁCH NHỮNG NGƯỜI THỰC HIỆN CHÍNH
T...
121 trang |
Chia sẻ: hunglv | Lượt xem: 1265 | Lượt tải: 2
Bạn đang xem trước 20 trang mẫu tài liệu Đề tài Nghiên cứu phát triển công nghệ nhận dạng, tổng hợp và xử lý ngôn ngữ tiếng Việt, để tải tài liệu gốc về máy bạn click vào nút DOWNLOAD ở trên
VIỆN KHOA HỌC VÀ CƠNG NGHỆ VIỆT NAM
VIỆN CƠNG NGHỆ THƠNG TIN
18 Hồng Quốc Việt, Hà Nội
BÁO CÁO TỔNG KẾT KHOA HỌC VÀ KỸ THUẬT ĐỀ TÀI
NGHIÊN CỨU PHÁT TRIỂN CƠNG NGHỆ
NHẬN DẠNG, TỔNG HỢP VÀ XỬ LÝ NGƠN NGỮ
TIẾNG VIỆT
Thời gian thực hiện: 2001- 6/2004
Chủ nhiệm đề tài: GS.TSKH. Bạch Hưng Khang
HÀ NƠI, 12/2004
Bản quyền 2004 thuộc Viện Cơng nghệ thơng tin
Đơn xin sao chép tồn bộ hoặc từng phần tài liệu này phải gửi đến
Viện trưởng Viện Cơng nghệ thơng tin trừ trường hợp sử dụng
với mục đích nghiên cứu
2
VIỆN KHOA HỌC VÀ CƠNG NGHỆ VIỆT NAM
VIỆN CƠNG NGHỆ THƠNG TIN
18 Hồng Quốc Việt, Hà Nội
BÁO CÁO TỔNG KẾT KHOA HỌC VÀ KỸ THUẬT ĐỀ TÀI
NGHIÊN CỨU PHÁT TRIỂN CƠNG NGHỆ
NHẬN DẠNG, TỔNG HỢP VÀ XỬ LÝ NGƠN NGỮ
TIẾNG VIỆT
Thời gian thực hiện: 2001- 6/2004
Chủ nhiệm đề tài: GS.TSKH. Bạch Hưng Khang
HÀ NỘI, 12/2004
Tài liệu này được chuẩn bị trên cơ sở kết quả thực hiện
Đề tài cấp Nhà nước mã số KC01-03
3
DANH SÁCH NHỮNG NGƯỜI THỰC HIỆN CHÍNH
TT Họ và tên Chức vụ,
học vị
Đơn vị cơng
tác
Nhiệm vụ thuộc đề tài
1 Bạch Hưng Khang GS.TSKH
NCVCC
Viện CNTT Chủ nhiệm đề tài
2 Ngơ Cao Sơn KS Viện CNTT Thư ký
3 Lương Chi Mai TS. NCVC Viện CNTT Chủ trì nhánh nghiên cứu
4 Ngơ Quốc Tạo PGS. TS.
NCVC
Viện CNTT Chủ trì nhánh nghiên cứu
5 Lê Khánh Hùng TS. Viện
NCUDCN
Chủ trì nhánh nghiên cứu
6 Vũ Kim Bảng TS Trung tâm
Ngữ âm học
thực nghiệm
Chủ trì nhánh nghiên cứu
7 Hồ Tú Bảo GS. TSKH Viện CNTT Chủ trì nhánh nghiên cứu
8 Nguyễn Thị Minh
Huyền
Thạc sĩ ĐHKHTN
Hà nội
Chủ trì nhánh nghiên cứu
9 Đàm Hiếu Dũng KS Trung tâm
kỹ thuật
thơng tấn
Chủ trì nhánh nghiên cứu
10 Ngơ Hồng Huy KS Viện CNTT Trưởng nhĩm
Đơn vị phối hợp
Hoạt động của các tổ chức phối hợp tham gia thực hiện dự án
TT Tên tổ chức Địa chỉ Hoạt động/đĩng gĩp cho đề tài
1 Trung tâm Ngữ âm học thực
nghiệm, Viện Ngơn ngữ học,
Trung tâm khoa học xã hội
và nhân văn.
22 Lý Thái
Tổ
Xây dựng CSDL ngữ âm, phân
tich các đặc trưng ngơn ngữ, ngữ
âm, thanh điệu cho tiếng Việt:
- Phân tích phổ của các âm vị
khĩ.
- Nghiên cứu cấu trúc nguyên
âm.
- Nghiên cứu cấu trúc âm tiếng
Việt, tổng hợp giọng nĩi.
2 Trug tâm nghiên cứu ứng
dụng quang điện tử, Viện
nghiên cứu ứng dụng cơng
nghệ.
C6 Thanh
xuân bắc,
Hà nội
Nghiên cứu và phát triển phương
pháp dịch tự động Việt - Anh
3 Khoa Tốn – Cơ – Tin học,
Bộ mơn Tin học, ĐHKHTN
Hà nội
Nguyễn
Trãi, Hà nội
Nghiên cứu phương pháp dĩng
hàng trong các văn bản song ngữ
Pháp - Việt / Việt – Pháp
4 Trung tâm kỹ thuật thơng tấn
– TTXVN
5 Lý
Thường
Kiệt
Xây dựng cơng nghệ Coding ngữ
nghĩa của âm thanh
4
5 Nhĩm nghiên cứu triển khai
của Cơng ty NetNam
18 Đường
Hồng Quốc
Việt
Tích hợp cơng nghệ tổng hợp và
nhận dạng tiếng Việt với các
dịch vụ số của INTERNET thế
hệ hai và ứng dụng.
6 GS John-Paul Hosom,
CSLU- Center of Spoken
Language Understanding,
OGI, USA
Cascade
Building
20000 N.W.
Walker
Road
Beaverton,
OR 97006
Cung cấp cơng cụ và phương
pháp nhận dạng bằng HMM và
ANN, CSDL tiếng Việt qua
mạng điện thoại.
7 GS Hansjoerg Mixdorff,
University of Applied
Science, Berlin
Steinstr. 27
A, 12307
Berlin
Germany
Phương pháp và mơ hình
Fujisaki cho các ngơn ngữ cĩ
thanh điệu
8 GS Hiroya Fujisaki, Frontier
Informatics, School of
Frontier Science, University
of Tokyo
7-3-1
Hongo
Bunkyo-ku,
Tokyo
113003
Japan
Phương pháp và mơ hình
Fujisaki cho các ngơn ngữ cĩ
thanh điệu
5
TĨM TẮT
Kể từ thế hệ máy tính điện tử (MTĐT) đầu tiên, giới nghiên cứu và cơng nghệ đã ý
thức được rằng muốn phát huy khả năng xử lý của MTĐT thì phải tìm cách để máy
và người cĩ thể giao tiếp với nhau bằng ngơn ngữ tự nhiên. Trong đĩ cĩ rất nhiều
vấn đề khác nhau cần giải quyết nhưng một số vấn đề mấu chốt trong giao tiếp
người máy là xử lý ngơn ngữ tự nhiên, tổng hợp, nhận dạng tiếng nĩi, chữ viết,
dịch tự động. Sau gần nửa thế kỷ nghiên cứu và thử nghiệm, hiện nay đã cĩ một số
phần mềm thương phẩm, chủ yếu cho tiếng Anh. Đối với tiếng Việt là một ngơn
ngữ đơn âm cĩ thanh điệu cịn chưa cĩ nhiều nghiên cứu và kết quả.
Mục đích của đề tài là nghiên cứu khảo sát xây dựng các phương pháp hiệu quả
cho tổng hợp, nhận dạng và xử lý ngơn ngữ tiếng Việt. Ba nội dung chính quan hệ
chặt chẽ với nhau được nghiên cứu trong đề tài KC01-03 là:
1. Nhận dạng và tổng hợp tiếng Việt
2. Nhận dạng chữ Việt in và viết tay cĩ hạn chế
3. Xử lý ngơn ngữ tự nhiên tiếng Việt (các giải pháp trong xử lý ngơn ngữ tự
nhiên tiếng Việt, nhằm tới mục đích dịch tự động).
Các nội dung của đề tài tập trung vào nghiên cứu đặc thù trong ngữ âm, thanh
điệu, văn phạm tiếng Việt; kế thừa, phát triển các cơng cụ trong tổng hợp, nhận
dạng, phân tích văn phạm, dịch tự động để áp dụng hiệu quả cho tiếng Việt. Đề tài
vừa phát triển một số giải pháp, phương pháp và cơng cụ cơ bản, vừa từng bước
tạo ra một số sản phẩm thiết thực phục vụ cho ứng dụng. Mỗi nhánh của đề tài đều
cĩ những sản phẩm phần mềm như phần mềm tổng hợp tiếng Việt VnVoice 2.0,
phần mềm nhận dạng lệnh VnCommand, phần mềm viết chính tả phụ thuộc giọng
đọc VnDictator; phần mềm nhận dạng chữ Việt in VnDOCR 3.0; phần mềm nhận
dạng phiếu điều tra MarkRead 2.0 cĩ modul tích hợp chữ viết tay hạn chế; phần
mềm dịch tự động Việt – Anh EVTRAN 2.5. Ngồi những sản phẩm nĩi trên cịn
cĩ các kết quả ở dạng cơng cụ phục vụ cho nghiên cứu tiếng Việt như phương
pháp và cơng nghệ xây dựng CSDL ngữ âm tiếng Việt, dĩng hàng song ngữ, mơ
hình từ điển điện tử cho xử lý ngơn ngữ tự nhiên. Đề tài cũng đã đĩng gĩp các bài
nghiên cứu đã được cơng bố ở các tạp chí, hội nghị trong và ngồi nước,làm phong
phú thêm về mặt lý thuyết cho tổng hợp và nhận dạng ngơn ngữ đơn âm đa thanh
điệu, một mảng chưa cĩ thật nhiều kết quả trên thế giới.
6
MỤC LỤC
1. Lời mở đầu ................................................................................................... 7
2. Nội dung chính của báo cáo......................................................................... 7
2.1 Tổng quan tình hình nghiên cứu trong và ngồi nước ......................... 7
2.2 Những nội dung đã thực hiện ...............................................................10
2.2.1 Kết quả nghiên cứu về Tổng hợp và Nhận dạng tiếng Việt ........10
2.2.1.1 Các kết quả nghiên cứu .......................................................10
Khảo sát về ngữ âm tiếng Việt...................................................10
Tổng hợp tiếng Việt ...................................................................11
Nhận dạng tiếng Việt .................................................................12
2.2.1.2 Sản phẩm phần mềm ..........................................................17
Hệ thống Tổng hợp tiếng nĩi VnVoice 2.0 ...............................17
Chương trình nhận dạng lệnh VnCommand..............................18
Chương trình đọc chính tả VnDictator .....................................18
Chương trình xây dựng cơng nghệ coding
ngữ nghĩa của âm thanh .............................................................19
2.2.1.3 Về triển khai ứng dụng........................................................20
Ứng dụng của tổng hợp tiếng nĩi ..............................................20
2.2.2 Nghiên cứu phát triển kỹ thuật nhận dạng chữ in và
viết tay tiếng Việt.......................................................................20
Nhận dạng chữ Việt in VnDOCR 3.0 ........................................22
Nhận dạng chữ viết tay cĩ hạn chế ............................................22
2.2.3 Nghiên cứu phát triển các kỹ thuật xử lý ngơn ngữ
tự nhiên tiếng Việt ....................................................................24
2.2.3.1 Dịch tự độngViệt – Anh ......................................................24
2.2.3.2 Dĩng hàng văn bản song ngữ Pháp-Việt.............................26
2.2.3.2 Mơ hình từ điển điện tử .......................................................28
2.3 Tổng quát hố và đánh giá kết quả thu được........................................28
2.4 Kết luận và kiến nghị............................................................................29
2.5 Tài liệu tham khảo................................................................................31
7
1. LỜI MỞ ĐẦU
Nhận dạng và xử lý ngơn ngữ nĩi và viết tiếng Việt là nhu cầu thiết yếu của phát
triển và ứng dụng cơng nghệ thơng tin ở Việt nam. Giới nghiên cứu và cơng
nghiệp trên thế giới do theo đuổi các nghiên cứu cơ bản và cơng nghệ này từ hàng
chục năm qua, gần đây đã thu được nhiều thành tựu quan trọng. Khác với các sản
phẩm khác của cơng nghệ thơng tin, sản phẩm về tiếng nĩi, chữ viết và ngơn ngữ
Việt khơng thể mua được từ nước ngồi, chỉ cĩ thể do người Việt làm ra trên cơ sở
tiếp thu được các thành tựu khoa học cơng nghệ trên thế giới và theo đuổi thực
hiện lâu dài. Những năm qua trong khuơn khổ chương trình trọng điểm nhà nước,
một số kết quả nghiên cứu và sản phẩm về nhận dạng và xử lý tiếng Việt - tập
trung cho nhận dạng chữ Việt in - đã thành cơng và bắt đầu được sử dụng rộng rãi.
Đề tài này nhằm theo đuổi những nghiên cứu và phát triển phải thực hiện lâu dài
về tiếng Việt trên máy tính với sự triển khai một số phương hướng mới. Mục tiêu
của đề tài là nghiên cứu làm chủ các phương pháp, kỹ thuật tiên tiến trong một số
lĩnh vực của trí tuệ nhân tạo và lý thuyết nhận dạng trên thế giới để xây dựng các
phương pháp hiệu quả cho nhận dạng tiếng nĩi, chữ viết, và xử lý ngơn ngữ tự
nhiên tiếng Việt. Đề tài vừa tiếp tục xây dựng các phương pháp và cơng cụ cơ bản
vừa từng bước tạo ra một số sản phẩm thiết thực nhằm giải quyết một số bài tốn
cấp bách trong phát triển và ứng dụng cơng nghệ thơng tin ở Việt nam. Ba nội
dung chính quan hệ chặt chẽ với nhau được nghiên cứu trong đề tài là:
1. Nhận dạng và tổng hợp tiếng Việt
2. Nhận dạng chữ Việt in và viết tay
3. Xử lý ngơn ngữ tự nhiên tiếng Việt
2. NỘI DUNG CHÍNH CỦA BÁO CÁO
2.1. Tổng quan tình hình nghiên cứu trong và ngồi nước
Ba lĩnh vực (1) nhận dạng và tổng hợp tiếng nĩi, (2) nhận dạng chữ, và (3)
xử lý ngơn ngữ tự nhiên cĩ liên quan mật thiết với nhau, và là nền tảng cho sự phát
triển và ứng dụng cơng nghệ thơng tin của mọi quốc gia
Nhận dạng tiếng nĩi nhằm chuyển thơng tin từ tiếng nĩi con người vào máy
tính, và tổng hợp tiếng nĩi nhằm tự động tạo ra tiếng người nĩi bằng máy tính.
Cùng với sự phát triển nhanh chĩng của cơng nghệ thơng tin nĩi chung và mạng
Internet nĩi riêng, nhận dạng và tổng hợp tiếng nĩi càng ngày càng trở nên là một
xu hướng tất yếu cho những máy tính thế kỉ 21. Trong vịng 50 năm qua, rất nhiều
thuật tốn được đề xuất và triển khai trên các hệ tự động nhận dạng và tổng hợp
tiếng nĩi. Trên thế giới đã cĩ nhiều bộ phần mềm thương mại dành cho tiếng Anh
như IBM ViaVoice, Dragon Naturally Speaking, L&H Voice Xpress. Những phần
mềm này cung cấp các chức năng chủ yếu như: nhập văn bản vào máy, đọc văn
bản thành lời, duyệt Web bằng giọng nĩi. Gần đây nhất hãng Microsoft đã cơng bố
việc tích hợp VUI (Voice User Interface) thay cho GUI (Graphic User Interface)
truyền thống vào phiên bản hệ điều hành Windows thế hệ mới với mật danh
8
Whistler. Kết quả này cĩ ý nghĩa rất lớn trong giao tiếp người-máy: thay vì giao
tiếp với máy tính qua những biểu tượng và cửa sổ, các máy tính trong tương lai chỉ
giao tiếp với con người bằng những mệnh lệnh đơn giản. Nhận dạng và tổng hợp
tiếng nĩi cĩ vai trị quan trọng đối với việc phát triển các hệ thơng tin di động thế
hệ thứ 3 (3G), với các tính năng ưu việt tập trung trong chiếc máy điện thoại di
động mà một trong các dịch vụ điển hình là hệ thống thơng điệp hợp nhất (Unified
Messaging System - UMS). Sản phẩm về các bo mạch của Dialogic đã tích hợp
các cơng nghệ tổng hợp và nhận dạng tiếng nĩi qua điện thoại cho nhiều ngơn ngữ
hệ Latinh. Ngồi ra, một trong những ứng dụng điển hình và mang tính chất kinh
điển từ trước tới nay của nhận dạng tiếng phục vụ cho điều khiển bằng giọng nĩi
và bảo mật, cho tự động hố văn phịng, những ứng dụng rộng rãi trong viễn
thơng, bảo tồn văn hố, hỗ trợ người khuyết tật...
Về lĩnh vực nhận dạng chữ, các phần mềm thương phẩm nhận dạng chữ in
cho các ngơn ngữ hệ Latinh và Slavơ đã đạt được chất lượng nhận dạng rất cao, ví
dụ như OMNIPAGE 11.0 của Caere (Mỹ), Fine Reader 7.0 của ABBYY (Nga),
Yonde OCR của Aisoft và KanjiScan (Nhật). Để đạt tới các phiên bản với chất
lượng cao như vậy, từ hơn 10 năm nay, các hãng phần mềm này vẫn phải liên tục
cho phát triển hồn thiện các chức năng nhận dạng cũng như tiền và hậu xử lý.
Nhưng đối với chữ viết tay trực tuyến hoặc gián tiếp, chất lượng nhận dạng thấp
hơn nhiều và các phương pháp hiện nay mới chỉ nhận dạng được chữ viết tay cĩ
hạn chế. Vì vậy trên các tạp chí chuyên ngành về nhận dạng, các chủ đề này vẫn
cịn đang được đề cập đến nhiều với các cách tiếp cận khác nhau, đề cập tới các
phương pháp cải tiến để tăng chất lượng nhận dạng, tách và cắt chữ, và kết hợp với
ngữ nghĩa của từng ngơn ngữ cụ thể.
Xử lý ngơn ngữ tự nhiên là lĩnh vực nhằm làm cho máy tính cĩ thể hiểu và
sử dụng được ngơn ngữ tự nhiên của con người (cả ngơn ngữ nĩi và ngơn ngữ
viết), bao gồm các hệ dịch tự động, tìm kiếm thơng tin, tổng hợp văn bản tự động,
tính tốn ngơn ngữ, v.v.
Dịch văn bản từ một ngơn ngữ qua ngơn ngữ khác bằng máy tính là mơ ước
từ buổi đầu của cơng nghệ thơng tin. Với thành tựu nghiên cứu về xử lý ngơn ngữ
tự nhiên bắt đầu từ những năm 60, cùng với sự tiến bộ nhanh chĩng của kỹ thuật
tính tốn, việc dịch tự động ngơn ngữ tự nhiên đang được từng bước ứng dụng.
Hiện nay trên thế giới đã cĩ nhiều hệ dịch máy thương phẩm với chất lượng chấp
nhận được (SYSTRAN, GLOBALINK, STYLUS, IBM, ...). Các cặp ngơn ngữ đã
được thực hiện chủ yếu là những ngơn ngữ Âu châu (bao gồm Anh-Pháp, Pháp-
Anh, Anh-Đức, Anh-Tây ban nha, Anh-Nga, Anh-Nhật, Nhật-Anh, v.v. và một số
sản phẩm dịch một chiều khác). Các sản phẩm dịch tự động được sử dụng phổ biến
từ những phần mềm cho các hệ máy lớn, trạm làm việc và máy tính cá nhân đến
những thiết bị dịch tự động chuyên dụng cầm tay. Trên thế giới chưa cĩ thương
phẩm nào biên dịch Anh-Việt hay Việt-Anh.
Tình hình nghiên cứu trong nước:
Nghiên cứu về nhận dạng và ứng dụng đã được tiến hành ở nước ta từ khá sớm.
Các chương trình trọng điểm quốc gia về tin học, CNTT từ năm 1981 đến nay đều
cĩ nội dung nghiên cứu về nhận dạng. Đặc biệt từ năm 1991 đến nay, trong
9
chương trình khoa học và cơng nghệ KC-01 (giai đoạn 1991-1995, 1996-2000),
các vấn đề về Nhận dạng và xử lý thơng tin hình ảnh đã được quan tâm và là nội
dung nghiên cứu chính của đề tài KC-01-10, KC-01-07. Các đề tài đều được
nghiệm thu đánh giá xuất sắc. Tuy nhiên trong giai đoạn này mới chỉ tập trung nỗ
lực vào vấn đề nhận dạng chữ (sản phẩm VnDOCR 1.0 và 2.0) và một phần về
dịch tự động (sản phẩm EVETRAN 1.0), nhận dạng và tổng hợp tiếng nĩi mới là
những nghiên cứu thử nghiệm. Mặc dù trên thế giới đã cĩ những bước tiến khá dài
trong lĩnh vực nhận dạng-tổng hợp tiếng nĩi, và xử lý ngơn ngữ tự nhiên, ở Việt
nam vấn đề này chỉ mới được quan tâm và chưa nhiều người nghiên cứu. Trong
khi đĩ nhu cầu giao tiếp với máy tính bằng tiếng Việt đang ngày càng cấp thiết bởi
chúng ta khơng thể lúc nào cũng sử dụng các phần mềm nhận dạng và tổng hợp
tiếng nĩi với ngơn ngữ là tiếng Anh. Nhận dạng, tổng hợp tiếng nĩi Việt, nhận
dạng chữ viết Việt, máy hiểu ngơn ngữ Việt khơng chỉ cần những nghiên cứu cơ
bản và kỹ thuật chung, mà cịn phải dựa trên các đặc trưng ngơn ngữ tiếng Việt. Đã
cĩ những bước đi ban đầu của một số cơ sở cĩ tiến hành nghiên cứu về lĩnh vực
này:
- Phịng Nhận dạng và Cơng nghệ Tri thức, Viện Cơng nghệ Thơng tin,
- Trung tâm MICA, Đại học Bách khoa, Hà nội
- Nhĩm nghiên cứu của Bộ mơn Khoa học Máy tính, Khoa CNTT, ĐHBK Hà
Nội,
- Nhĩm nghiên cứu của Khoa Cơng nghệ Thơng tin, Trường Đại học Khoa học
Tự nhiên, TP. Hồ Chí Minh,
- Cơng ty CDIT, Tổng Cơng ty Bưu chính Viễn thơng Việt nam
- Softext, Viện ứng dụng cơng nghệ
và cịn một số cơng trình của các cá nhân làm đề tài thạc sĩ và tiến sĩ.
Về nhận dạng và tổng hợp tiếng Việt: Trước hết đây là vấn đề khĩ, địi hỏi phải
cĩ tập trung nghiên cứu trong thời gian dài. Trong thời gian qua, các nghiên cứu
cịn tản mạn, các kết quả tập trung chủ yếu vào thử nghiệm bước đầu tổng hợp
tiếng Việt dựa trên một số kỹ thuật cơ bản, và giải quyết các ứng dụng điều khiển
bằng giọng nĩi với lượng từ vựng nhỏ để cĩ thể triển khai nhanh, để minh họa và
thực tế là chưa khai thác đặc điểm riêng của ngữ âm tiếng Việt. Trong đề tài KC-
01-10, các nội dung về tổng hợp và nhận dạng tiếng Việt mới được tiến hành
nghiên cứu ở hai năm cuối (1999-2000). Vì thế chưa cĩ sản phẩm cĩ khả năng ứng
dụng rộng rãi chẳng hạn cho các ứng dụng văn phịng hay các ứng dụng trong viễn
thơng.
Về nhận dạng chữ Việt: Phịng Nhận dạng và Cơng nghệ tri thức Viện CNTT đã
bước đầu thành cơng trong lĩnh vực nhận dạng chữ Việt in, đã và đang phát triển
phần mềm Nhận dạng VnDOCR 2.0 hiện đang thương mại hố rộng rãi trên thị
trường. Cũng như bất kỳ một sản phẩm phần mềm nào, VnDOCR cần được hồn
thiện để giải quyết các yêu cầu cao hơn về chất lượng nhận dạng trên các văn bản
đầu vào xấu hơn, các tài liệu cũ, v.v. Ngồi ra, các khoa Cơng nghệ Thơng tin của
các trường đại học như Bách khoa Hà nội, Đại học Quốc gia, Đại học KHTN TP
10
Hồ Chí Minh cho sinh viên làm luận văn cao học hoặc cử nhân về nhận dạng chữ,
nhưng đều ở dạng tiếp cận kiến thức, chưa thành dạng thương phẩm. Sản phẩm
Image Scan của Cơng ty CadPro cũng cĩ giới thiệu bước đầu trên thị trường.
Ngồi ra vấn đề nhận dạng chữ viết tay tiếng Việt cũng cần được đặt ra để giải
quyết cho từng bài tốn cụ thể.
Về xử lý ngơn ngữ tự nhiên tiếng Việt: Các nghiên cứu hướng nhiều vào dịch tự
động. Sản phẩm phần mềm EVTRAN (Phịng thí nghiệm Cơng nghệ Phần mềm
máy tính, Trung tâm Cơng nghệ vi điện tử và Tin học) biên dịch tự động Anh Việt
đã cĩ mặt trên thị trường. Hiện nay đã cĩ phiên bản EVTRAN 2.0 với nhiều tính
năng trợ lý ngơn ngữ thuận tiện. Đây cũng là thương phẩm duy nhất về dịch tự
động Anh-Việt. EVTRAN đã được phát triển trên mười năm (bắt đầu từ năm
1990). Sản phẩm đã gĩp phần hỗ trợ mọi người trong việc đọc hiểu văn bản tiếng
Anh và biên dịch sang tiếng Việt. Tuy nhiên chưa cĩ hệ dịch cho chiều ngược lại
(Việt- Anh). Cũng như hấu hết các sản phẩm dịch tự động hiện nay trên thế giới,
do vấn đề quá khĩ, EVTRAN cịn phải được theo đuổi lâu dài để dần hồn thiện.
Điều đáng chú ý là cần chú trọng hơn đến các nghiên cứu và cơng cụ cơ sở của xử
lý ngơn ngữ tự nhiên tiếng Việt, như từ điển điện tử, phân tích và hiểu tiếng Việt
trên máy tính...
2.2. Những nội dung đã thực hiện
2.2.1 Kết quả về Tổng hợp và Nhận dạng tiếng Việt
Khảo sát về ngữ âm tiếng Việt
Để cĩ thể tiến hành nghiên cứu về tổng hợp cũng như nhận dạng tiếng Việt, đề tài
ban đầu phải tập trung vào nghiên cứu các khía cạnh ngữ âm của tiếng Việt. Tiếng
Việt là ngơn ngữ đơn âm (monosyllable) và cĩ thanh điệu (tonal). Tiếng Việt cĩ 6
thanh theo truyền thống (thanh khơng, hỏi, ngã, nặng, sắc, huyền), và 8 thanh theo
ngữ âm học, cĩ khoảng 6.700 âm tiết cĩ nghĩa (trong số hơn 19.000 âm tiết cĩ
thể). Âm tiết nào của tiếng Việt cũng mang một thanh điệu và cấu trúc ổn định.
Cấu trúc tổng quát của âm tiết tiếng Việt được trình bày như sau
Cấu trúc tổng quát của một âm tiết tiếng Việt là (C1)(w)V(C2). Trong đĩ C1 là
phụ âm đầu, (w) là âm đệm, V là âm chính và C2 là âm cuối. Âm đầu thường là
phụ âm, được gọi là phụ âm đầu. Âm đệm nằm giữa âm đầu và âm chính làm thay
đổi âm sắc của âm tiết. Âm chính luơn luơn cĩ mặt trong mọi âm tiết và cĩ chức
năng qui định âm sắc chủ yếu của âm tiết. Âm chính luơn là nguyên âm. Âm cuối
Thanh điệu
Âm đầu
Phần vần
Âm đệm Âm chính Âm cuối
11
là phụ âm hoặc là bán nguyên âm, cĩ chức năng là cơ sở để phân chia loại hình âm
tiết, để nhận ra sự phân bố, xuất hiện của thanh điệu. Âm đầu, âm đệm và âm cuối
cĩ thể khuyết trong một số trường hợp. Thanh điệu luơn cĩ mặt trong âm tiết và cĩ
chức năng khu biệt âm tiết về cao độ và thanh điệu là yếu tố siêu đoạn tính.
Để xây dựng CSDL âm (cho hai giọng Nam và Nữ chuẩn Hà nội), chia phần vần
thành các nhĩm đặc trưng, thu mẫu âm thanh, đo số liệu Pitch bằng máy
Sonagraph, từ đĩ rút ra số liệu đặc trưng cho 8 thanh tiếng Việt. Đề tài đã tập trung
phân tích âm tiết tiếng Việt, cụ thể phân tích ảnh hưởng thanh điệu của phụ âm dấu
hữu thanh, nguyên âm chính, phụ âm cuối; phân tích các yếu tố âm như sự tắc
họng, yếu tố định lượng như trường độ (duration).
Tiếng Việt gồm 22 phụ âm đầu, 20 phần chính (âm đệm và nguyên âm chính) và
155 phần vần khơng dấu, với các phân tích trên:
• 22 phụ âm đầu chia thành 4 nhĩm:
+ vơ thanh (stop, voiceless): p, t, k-c-q
+ âm xát (fricative): ph, x, kh, h, v, d, đ, ch, ng-ngh, g-gh, th
+ âm vang (resonant or cororal): m, n, nh, l
+ âm bật đầu lưỡi (retroflex): tr, s, gi, r
• 20 phần chính:
+ âm đệm (zero-/u/) + nguyên âm chính: a, ă, â, e, ê, i, ia, iê, o, oa, oe, ơ,
ơ, u, uâ, uyê, uyu, uơ, ư, ươ.
• 155 phần vần:
+ Thu phần vần với thanh khơng dấu và khơng tận cùng bởi tắc vơ thanh,
khoảng gần 100 vần
+ Thu phần vần với các thanh sắc (acute-mark) cho các âm tận cùng là là
p, t, k, khoảng 55 vần
2.2.1.1 Tổng hợp tiếng Việt
Trong thời gian thực hiện Đề tài, đã nghiên cứu 3 phương pháp tổng hợp tiếng
Việt: 1/ghi âm thuần tuý (cho tồn bộ từ điển); 2/ kết nối các đơn vị âm cơ bản của
ngơn ngữ (các âm cơ bản được ghi sẵn) để tạo thành một mẫu âm thanh cho âm
tiết bất kỳ (số đơn vị cơ bản là rất nhỏ, khơng hạn chế số lượng từ), 3/ tái tạo lại
tiếng trên cơ sơ phân tích các tham số âm học của tiếng nĩi (như các phooc măng,
tần số cơ bản). Sau khi nghiên cứu, đề tài đã lựa chọn phương pháp kết nối các đơn
vị âm cơ bản của ngơn ngữ (PSOLA – Pitch Synchronize OverLap Adding), là
bước đầu nghiên cứu để tìm hiểu bản chất của âm tiết và cĩ thể tạo ra sản phẩm
nhằm đưa tới các định hướng ứng dụng cụ thể, đã tiến hành lựa chọn biểu diễn nhỏ
nhất cĩ thể cho tiếng Việt. Với cách lựa chọn giải pháp trên, vấn đề đặt ra là
nghiên cứu tổng hợp tiếng nĩi ở mức từ & cụm từ tiếng Việt. Các vấn đề nghiên
cứu và các cơng cụ sau đã được được thực hiện và phát triển nhằm giải quyết vấn
đề trên:
− Nghiên cứu các bộ đơn vị khác nhau cho tổng hợp tiếng Việt,
− Tìm kiếm từ và gán nhãn từ loại, tích hợp phần phân đoạn từ trong câu tiếng
Việt,
12
− Phân tích hiện tượng từ láy trong ngơn ngữ tiếng Việt,
− Lập bộ các mẫu của cặp các thanh điệu của một từ,
− Khảo sát ban đầu các quy luật về khoảng lặng giữa các từ, giữa các âm tiết,
− Phân tích hiện tượng biến thanh khi phát âm một từ đơi, từ ba,
− Đang tích hợp thuật tốn kết nối các âm tiết trong một từ để thể hiện khả năng
đọc dính âm.
Kết quả của các nghiên cứu trên đã làm tăng chất lượng tiếng nĩi tổng hợp so với
các phiên bản tiếng nĩi tổng hợp đầu tiên của đề tài. Hiện tại chất lượng tiếng nĩi
tổng hợp trong phiên bản hiện tại đã đạt khoảng 75-80% tiếng nĩi tự nhiên (xem
đánh giá). Trong giai đoạn nghiên cứu tiếp theo, để cĩ thể tiến tới giải quyết vấn
đề ngơn điệu (prosody), đề tài đang nghiên cứu mơ hình Fujisaki, một mơ hình đã
được chứng tỏ cĩ hiệu quả cho các ngơn ngữ cĩ thanh điệu.
− Ghi bộ dữ liệu âm cho tổng hợp tiếng Việt
• Lựa chọn các mẫu cộng tác viên (CTV) nĩi giọng Hà Nội (21 người đọc);
• Ghi âm theo tiêu chuẩn phân tích: 21 CTV x 3 lần người x 9 nguyên âm;
• Phân tích hệ Phooc măng của 21 CTV theo tần số (Hz).
• Tổng kết hệ Phooc măng của nguyên âm tiếng Việt phục vụ cho tổng hợp
tiếng Việt bằng phương pháp Phooc măng.
Sản phẩm phần mềm: Hệ thống Tổng hợp tiếng nĩi VnVoice 2.0
Phương pháp
Hệ thống tổng hợp tiếng nĩi (từ văn bản chữ in tiếng Việt thành tiếng nĩi) dựa trên
kỹ thuật PSOLA - Pitch Synchronize OverLap Adding với bộ đơn vị âm đủ nhỏ
cho phép thực hiện nhanh việc tạo CSDL âm và cĩ khả năng tích hợp vào các ứng
dụng nhúng. Với phiên bản VnVoice 2.0, CSDL âm bao gồm 19 phụ âm đầu cĩ
tính ngữ cảnh, 12 nguyên âm chính, hơn 700 vần với đầy đủ thanh, tổng số hơn
900 đơn vị. Phiên bản VnVoice 1.0 cĩ CSDL gồm 330 đơn vị, gồm 19 phụ âm đầu
cĩ tính ngữ cảnh 12 nguyên âm chính và 163 vần khơng mang thanh hoặc vần
mang thanh sắc cho các vần kết thúc bằng p,t,c-ch, với bộ đơn vị này chương trình
phải thay đổi F0 để tạo các thanh khác nhau từ vần gốc.
• Dựa trên phương pháp ghép nối các đơn vị âm cơ bản, sử dụng phương
pháp PSOLA (khoảng 900 đơn vị) dung lượng bộ nhớ 6MB RAM
• Tổng hợp được tất cả các thanh tiếng Việt, bao gồm cả thanh ngã và thanh
nặng.
• Đọc các khuơn dạng phi từ: biểu thức số, ngày tháng, giờ điện tử, tiền Việt,
các đơn vị đo lường, các xâu viết tắt thơng dụng.
• Đọc tự động văn bản hỗn hợp Việt - Anh, hoặc thuần Việt, hoặc thuần Anh.
Chức năng hoạt động
− Giao diện:
13
• Đọc các văn bản từ các nguồn: trên clipboard, các khoản mục trên Menu
của chương trình, văn bản từ bàn phím gõ vào, văn bản trên các Website,
trong các ứng dụng Microsoft Word, Outlook Express.
Phương pháp đánh giá độ hiểu và độ tự nhiên của phần mềm tổng hợp tiếng
Việt VnVoice
− Để đánh giá độ hiểu của tiếng Việt tổng hợp, đề tài đã làm thực hiện những
đánh giá và kết quả thống kê trên 100 đối tượng sau: Nhĩm A (50 người, khác
nhau về tuổi và giới tính) là những người nghiên cứu và sử dụng tiếng Việt, do
vậy yêu cầu của họ khi nghe chương trình tổng hợp tiếng Việt là khắt khe hơn,
Nhĩm B (50 người, khác nhau về tuổi và giới tính) chiếm số đơng trong xã hội,
yêu cầu quan trọng nhất cho việc đánh giá tiếng Việt tổng hợp là mức độ hiểu
của họ là bao nhiêu. Kết quả cụ thể như sau (đề tài cĩ bản thống kê so sánh chi
tiết) :
Đối với nhĩm A:
Ý kiến thống nhất:
- Đánh giá của cả hai nhĩm về chất lượng của nguyên âm và phụ âm cuối
tốt là tương đối thống nhất
- Nhĩm A1 (cán bộ nghiên cứu ngơn ngữ): cĩ 68% đánh giá phụ âm đầu
của văn bản tổng hợp cĩ lỗi, nhĩm A2 là 58%.
- Nhĩm A2 (phĩng viên): cĩ 64% đánh giá tốc độ của văn bản tổng hợp là
chậm, nhĩm A2 là 84%.
Ý kiến khác biệt: Sự khác biệt lớn nhất là đánh giá về lỗi thanh điệu và so sánh
với lời nĩi thực:
- 100% nhĩm A1 cho rằng thanh điệu của lời nĩi tổng hợp khơng cĩ lỗi.
Trong khi đĩ chỉ cĩ 54% của nhĩm A2 cho rằng thanh điệu của lời nĩi
tổng hợp khơng cĩ lỗi.
- 48% nhĩm A1 cho rằng giọng nĩi tổng hợp đạt tỉ lệ 90% so với tiếng nĩi
thực, 36% nhĩm A2 đánh giá giọng nĩi tổng hợp đạt tỉ lệ 50% so với tiếng nĩi
thực
Đối với nhĩm B, chia làm 2 nhĩm nhỏ B1 (cơng chức) và nhĩm nhỏ B2
(người khiếm thị):
Đánh giá hiểu khi nghe: nhĩm B1 cĩ 92% , nhĩm B2 cĩ 40%.
Đánh giá giọng nĩi tốt, dễ hiểu: nhĩm B1 cĩ 4%, nhĩm B2 cĩ 36%.
Nhận xét tổng quan:
− Về cơ bản giọng nĩi tổng hợp VnVoice đã thực hiện được một cách cơ bản
chức năng chuyển văn bản sang giọng nĩi. Giọng nĩi ở bước đầu đã đạt được ở
mức độ rõ ràng, mạch lạc và người nghe cĩ thể hiểu được đoạn văn bản.Trong
giai đoạn đầu tiên, sản phẩm của đề tài chưa tập trung giải quyết vấn đề ngữ
điệu mà chỉ tập trung giải quyết đọc rõ âm tiết và một phần tính đều trong câu,
do đã cĩ áp dụng việc phân tích câu. Tuy nhiên một số từ ghép chưa đảm bảo
tính đều do giải quyết trường độ trong các cặp âm tiết với kết thúc bằng phụ âm
14
tắc vơ thanh p-t-c-ch chưa triệt để do cần cĩ những nghiên cứu sâu sắc hơn.
Việc nghiên cứu mơ hình Fujisaki (một mơ hình đã được chứng tỏ cĩ hiệu quả
với các ngơn ngữ cĩ thanh điệu như tiếng Trung, tiếng Thái) mà đề tài đang
nghiên cứu và đã cĩ những kết quả ban đầu nhằm giải quyết trong giai đoạn
tiếp theo về ngữ điệu của câu tổng hợp và trường độ trong câu.
− Các lỗi tập trung ở một số phụ âm đầu, thanh điệu (do dữ liệu âm thanh) và tốc
độ đọc chậm (xử lý thuật tốn). Những lỗi này cĩ thể sớm khắc phục được
− Vấn đề cịn tồn tại lớn nhất là ngữ điệu trong câu: sự kết nối giữ các âm tiết,
ngừng nghỉ sau các dấu câu kể cả trường độ của những âm tiết mang trọng âm
câu.
Cĩ thể khẳng định giọng nĩi tổng hợp VnVoice của đề tài đã giải quyết căn bản
vấn đề tổng hợp âm tiết tiếng Việt. Những vấn đề thuộc phạm vi ngồi âm tiết: từ
láy, ghép, cụm từ (thành ngữ, tục ngữ…) và câu cịn cần tiếp tục hồn thiện.
2.2.1.2 Nhận dạng tiếng Việt
Mục tiêu của đề tài là nghiên cứu các phương pháp nhận dạng câu liên tục tiếng
Việt với lượng từ vựng cỡ nhỏ và trung bình. Sau khi đạt được những kết quả và
kinh nghiệm trong tạo lập CSDL ngữ âm và đánh giá giải pháp, tiến tới nhận dạng
câu liên tục với lượng từ vựng lớn. Các vấn đề sau đã được giải quyết:
− Nghiên cứu, phân tích các đặc trưng ngữ âm, thơng số của tiếng Việt, văn phạm
tiếng Việt phục vụ cho nhận dạng tiếng nĩi, đặc biệt là các vấn đề liên quan
đến thanh điệu và độ dài của các phụ âm đầu và vần.
• Xây dựng module xử lý mơ hình ngơn ngữ với phân loại nhĩm từ và tính
các bảng xác suất chuyển trạng thái âm tiết.
− Nghiên cứu một số khía cạnh của ngơn ngữ tiếng Việt, đặc biệt về từ vựng học
(lexicon), ngữ âm và văn phạm tiếng Việt (grammar).
• Xây dựng module phân tích văn bản tiếng Việt (VTA) chuẩn hố văn bản,
tìm kiếm kết thúc câu, phân lớp từ sử dụng mơ hình ngơn ngữ n-grams với
các phép làm trơn, phân lớp văn bản theo từng chủ đề, tìm kiếm từ khố
trong văn bản, phân đoạn từ và gán nhãn từ loại trong văn bản, xây dựng bộ
văn phạm tiếng Việt (ứng dụng cho cả tổng hợp và nhận dạng tiếng Việt).
− Nghiên cứu để tạo lập CSDL các mẫu câu để tạo tham số huấn luyện cho mơ
hình 3 mức: âm tiết - âm vị - âm học.
− Nghiên cứu bài tốn nhận dạng tiếng nĩi liên tục trên CSDL từ vựng cỡ nhỏ,
trung bình, tiến tới lớn CSDL lớn. Các mơ hình và giải pháp sau đã được khảo
sát và áp dụng cụ thể để phát triển các chưong trình nhận dạng câu lệnh liên
tục, các chữ số tiếng Việt phát âm liên tục:
• Nghiên cứu mơ hình Markov ẩn và mạng nơ ron nhân tạo, các mơ hình lai
ghép giữa mạng nơ ron nhân tạo và mơ hình Markov ẩn trong huấn luyện
tham số nhận dạng tiếng nĩi liên tục.
• Khai thác các bộ mã nguồn mở như CSLU Toolkit, HTK nhằm áp dụng
phương pháp mơ hình Markov ẩn và mạng nơ ron nhân tạo để nhận dạng
trên bộ CSDL nhỏ và vừa.
• Nghiên cứu các vấn đề làm trơn xác suất khi tính các bảng chuyển trạng
thái xác suất của các âm tiết tiếng Việt rời.
15
− Nghiên cứu các cách tiếp cận nhận dạng tiếng nĩi trong thời gian thực, hướng
tĩi các ứng dụng thực tế.
− Khai thác các mơi trường phát triển như MATLAB, PRAAT với các cơng cụ
về xử lý tín hiệu tiếng nĩi.
− Xây dựng CSDL ngữ âm
• CSDL tiếng nĩi gồm 250 giọng với bộ từ vựng là chữ số, chữ cái, lệnh
• CSDL tiếng nĩi của 1 giọng với hơn 3000 mẫu vần, 3000 mẫu phụ âm đầu.
• Thiết lập được CSDL văn bản gồm 265-800 câu tiếng Việt làm mẫu huấn
luyện, CSDL câu và gán nhãn bằng tay để huấn luyện đơn vị âm trong ngữ
cảnh.
2.2.1.2 Sản phẩm phần mềm
Chương trình nhận dạng lệnh VnCommand
A. Nhận dạng lệnh, trình diễn khả năng điều khiển chương trình ứng dụng trên
Windows.
Mục đích
Phần mềm nhận dạng lệnh ứng dụng trong điều khiển thay thế cho người dùng
nhấn chuột hoặc gõ lệnh từ bản phím. CSDL gồm tập các lệnh nhỏ (dưới 100
lệnh). Kết quả của sản phẩm: chỉ ra khả năng tạo ra một hệ thống nhận dạng lệnh
tiếng Việt, độc lập người nĩi với độ chính xác rât cao trên một tập lệnh với độ
đồng âm giữa các lệnh thấp.
Phương pháp nhận dạng:
Sử dụng mơ hình Markov GMM thơng thường (Gaussian Markov Model) với huấn
luyện riêng rẽ từng tổ hợp âm và giai đoạn nhận dạng là khá nhanh.
Bước 1. Xử lý tiếng nĩi trong thời gian thực, theo từng khung cỡ 20 mili giây, mỗi
khung được lấy đặc trưng bởi các hệ số MFCC và hệ số năng lượng.
Vịng lặp xác định điểm kết thúc của một đoạn tiếng nĩi, nếu tìm thấy thốt
khỏi vịng lặp.
Bước 2. Chuyển qua mơ hình GMM của từng tổ hợp âm.
Bước 3. Quyết định nhận dạng.
Chức năng hoạt động
− Điều khiển máy tính thực hiện một số lệnh trong phần mềm ứng dụng phổ dụng
− Nhận dạng độc lập người nĩi một số lệnh của Internet Explorer bao gồm tích
hợp các modul sau:
• Modul nhận dạng từ đơn lẻ trạng thái tĩnh.
• Tập từ vựng
16
Bảng lệnh Internet Explorer
Ghi Trang ngầm định
In Tải lại trang
Tuỳ chọn in Xem mã nguồn
Xem để in Tồn màn hình
Gửi nội dung Trang ưa thích
Gửi địa chỉ Gửi thư
Thuộc tính Đọc thư
Ngừng kết nối mạng Tuỳ chọn
Xố Trợ giúp
Copy Ghi tệp
Dán Ghi file
Chọn hết Tìm kiếm
• Modul thu nhận tín hiệu tiếng nĩi từ các nguồn vào Audio, Headphone, File
• Tìm kiếm các diểm đầu-cuối của một từ (cụm từ) trong mơi trờng thời gian
thực.
− Giao diện
• Hệ thống chạy nền, gồm nhiều luồng, màn hình ứng dụng thu gọn gồm
nhiều dịch vụ nền
• Cửa hội thoại cho phép thay đổi tham số nhận dạng, lấy thơng số nền như
độ nhiễu của mơi trường xung quanh.
− Phạm vi ứng dụng :
• Ứng dụng cho các hệ thống điều khiển bằng giọng nĩi
• Số lượng từ vựng cho trước, cĩ thể lên đến 200 khẩu lệnh (các lệnh cĩ độ
đồng âm thấp).
• Việc quyết định nhận dạng tương đối dễ dàng, cho phép nhúng vào các hệ
thống với tài nguyên thấp (bộ nhớ, năng lực tính tốn...)
Đánh giá thực nghiệm module VnCommand
− Mơi trường thu tín hiệu : văn phịng, trường học.
− Thiết bị thu nhận tín hiệu: card âm thanh onboard trên máy NoteBook.
− Số lượng giọng và mẫu huấn luyện: 200 người, 100 nam, 100 nữ giọng miền
Bắc. Mỗi người đọc 1 lệnh 1 lần. trong đĩ số lượng âm tiết rời là 40, đọc rời
rạc (cĩ ngừng giữa các âm tiết ) hay dính âm.
17
− Số lượng giọng kiểm tra : 38, một số giọng khơng đọc đủ mẫu
− Kết quả nhận dạng : sai số 2/695 *100 (sai 2 lỗi trên tổng số 695 âm kiểm tra),
hệ thống cho độ chính xác là 99.7%
Nhận xét :
− Hệ thống huấn luyện từng tổ hợp âm là riêng rẽ, vì thế việc thêm một vài tổ
hợp âm mới là dễ dàng và độc lập với những mơ hình của các tổ hợp âm. Tuy
nhiên độ chính xác sẽ kém đi với những tổ hợp cĩ sự đồng âm.
− Mơ hình là bất biến với tốc độ phát âm, cĩ thể đọc nhanh hoặc đọc chậm một tổ
hợp âm, độ chính xác vẫn khá cao.
− Hệ thống là độc lập người nĩi, độ chính xác sẽ rất cao nếu cĩ một cơ sở dữ liệu
cỡ 1000 giọng khác nhau. Hiện tại chương trình đã xử lý 240 giọng trên một cơ
sở dữ liệu 300 giọng đọc.
Chương trình nhận dạng lệnh 10 chữ số tiếng Việt liên tục qua điện thoại
Mục tiêu
Xây dựng hệ thống nhận dạng mười chữ số tiếng Việt liên tục qua mạng điện
thoại, dùng hệ thống nhận dạng lai ghép giữa mạng nơ ron nhân tạo và mơ hình
Markov ẩn (ANN/HMM)
Phương pháp nhận dạng
Phương pháp nghiên cứu sử dụng hệ thống nhận dạng lai ghép giữa mạng neuron
và mơ hình Markov ẩn HMM/ANN (Hidden Markov Model/ Artificial Intelligent
Network). Đây là phương pháp nhận dạng tiên tiến, đã được sử dụng rộng rãi tại
nhiều trung tâm nghiên cứu trên thế giới, tận dụng hai ưu điểm của HMM và
ANN: khả năng phân lớp của mạng neuron và khả năng mơ hình hố thơng tin thời
gian của mơ hình Markov ẩn.
Cĩ khá nhiều kiến trúc hệ thống lai ghép HMM/ANN đã được đề xuất, trong đĩ
thơng dụng nhất là kiến trúc dùng mạng MLP làm xác suất phát xạ quan sát trong
các hệ thống mạng lai ghép. Hàm bj(k) trong mơ hình Markov ẩn khơng phải hàm
mất độ xác suất mà là giá trị xác suất đầu ra của mạng ANN.
Hình dưới đây miêu tả quan hệ giữa các mơ hình HMM và mạng neuron ANN.
Mỗi nút ra của mạng ANN tương ứng với một trạng thái của mơ hình HMM.
Trạng thái của âm vị /oo/ trong hai từ ”bốn” và ”một” cĩ chung nhau một nút ra
của mạng ANN. Như vậy mỗi một category của một âm vị tương ứng với mỗi
trạng thái.
...
...
...
b-oo+n m-oo+tc
C¸c m« h×nh
Markov
C¸c nĩt ra cđa
ANN
C¸c nĩt Èn
cđa ANN
C c nĩt vµo
18
Hệ thống lai ghép HMM/ANN được huấn luyện bằng huấn luyện nhúng
(embedded). Tưng ứng với mỗi phát âm, các mơ hình Markov ẩn của các đơn vị
nhận dạng trong phát âm đĩ được nối ghép lại với nhau tạo thành một mơ hình
HMM lớn. Thuật tốn forward-backward được áp dụng để điều chỉnh các tham số
của các mơ hình lớn này. Các giá trị output của mạng ANN được dùng làm xác
suất phát xạ quan sát của mỗi trạng thái trong mơ hình.
Trong mỗi vịng lặp của huấn luyện forward-backward, thuật tốn Viterbi được áp
dụng để tìm ra dãy các trạng thái tốt nhất trong mơ hình HMM lớn tương ứng với
phát âm dùng để huấn luyện. Từ dãy trạng thái này, tại mỗi thời điểm tương ứng
với một khung thời gian tín hiệu tiếng nĩi, ta sẽ cĩ giá trị output của mạng ANN.
Nút output tưng ứng với trạng thái hiện tại cĩ giá trị là 1, các nút output khác cĩ
giá trị 0. Từ các giá trị output này, mạng ANN được huấn luyện lại bằng thủ tục
truyền ngược sai số.
Chức năng hoạt động
− Khai thác mơi trường tín hiệu tiếng nĩi trên điện thoại, cụ thể khai thác và lập
trình trên card Dialogic cho mơi trường Windows. Với card Dialogic
JCT120LS cung cấp 12 kênh riêng biệt với các khả năng sau:
• Thu, mã hĩa và nén âm thanh trong thời gian thực
• Phát những files âm thanh
• Phát / phát hiện các Tones như DTMF, MF
• Khởi động và nhận các cuộc gọi giao diện điện thoại, khởi động lặp vịng
• Thực thi việc phân tích tiến trình cuộc gọi
− Nhận dạng đạt độ chính xác 97,46% ở mức từ gần tương đương với các cơng
bố về nhận dạng mười chữ số liên tục trên thế giới như tiếng Anh, Ý, Tây ban
nha (cao nhất là 98,01%).
Phương pháp và kết quả đánh giá
− Cơ sở dữ liệu tiếng nĩi được sử dụng được trích ra từ hai cơ sở dữ liệu tiếng
nĩi điện thoại “22 Language v1.2”, và “Multi-Language Telephone Speech
v1.2” của trung tâm CSLU (Center for Speech Language Understanding), Viện
Sau Đại học Oregon, Hoa kỳ. Đề tài đã cĩ hợp tác với trung tâm này trong quá
trình nghiên cứu triển khai nhận dạng mười chữ số liên tục.
− CSDL tiếng nĩi bao gồm 442 câu, 2345 từ, 243 người nĩi (165 nam, 78 nữ),
thu âm theo hình thức phỏng vấn qua điện thoại. Câu dài nhất cĩ 18 từ và câu
ngắn nhất cĩ 1 từ. Các câu được thu âm theo PCM 8kHz, 8bit mã hố. Cơ sở
dữ liệu được chia thành ba tập: tập dữ liệu huấn luyện (training set) và tập dữ
liệu kiểm tra (test set). Tập dữ liệu huấn luyện bao gồm 300 câu, 1686 từ, do
158 người nĩi (104 nam và 54 nữ). Tập dữ liệu phát triển cĩ 74 câu, 342 từ do
38 người nĩi (27 nam, 11 nữ) , tập dữ liệu kiểm tra cĩ 68 câu, 317 từ do 47
người nĩi (34 nam, 13 nữ). Để đảm bảo tính khách quan, người nĩi trong tập
dữ liệu kiểm tra là độc lập với người nĩi trong tập dữ liệu huấn luyện. Độ chính
xác 97,58% được thực hiện trên tập dữ liệu thử này.
19
− Người nĩi phát âm các câu bao gồm các chữ số như: số điện thoại, địa chỉ, số
bưu điện, tuổi, ... Các câu được thu âm từ nhiều máy điện thoại khác nhau.
Kiểu của máy điện thoại và đặc tính của kênh thoại khơng được xác định. Các
câu thu được đa dạng và khác nhau về tốc độ phát âm; về độ to nhỏ; cĩ câu
được người nĩi nĩi trong văn phịng yên tĩnh, cĩ câu cĩ lẫn nhiều tạp âm như
tiếng đài, ti vi xen vào khi người nĩi ngồi trong nhà, hay tiếng ơ tơ khi người
nĩi đứng tại trạm bưu điện cơng cộng,... Tất cả các câu trong cơ sở dữ liệu
tiếng đều được phiên âm chính tả và gán nhãn bằng tay tại mức âm vị.
Chương trình đọc chính tả VnDictator
Đánh giá thực nghiệm Module thử nghiệm VnDictator (chưa thử
nghiệm kết hợp mơ hình ngơn ngữ)
Mục đích: Nghiên cứu, đề xuất các cách tiếp cận nhận dạng tiếng nĩi rời rạc hoặc
liên tục, phụ thuộc hoặc khơng phụ thuộc người nĩi với lượng từ vựng lớn (là tịan
bộ từ điển âm tiết, từ tiếng Việt).
Phương pháp nhận dạng:
− Cĩ hai lược đồ đã thử nghiệm:
• Dựa trên từng khung tiếng nĩi (phương pháp frame-based)
• Dựa trên từng đoạn được gán nhãn (phương pháp segment-based), phát
triển thêm mơ hình tích hợp nhận dạng thanh điệu. Các nhãn ở đây là phụ
âm đầu, nguyên âm chính, âm cuối của một âm tiết. Kết quả nhận dạng
riêng rẽ từng thành phần với kết quả đầu ra cĩ thể nhiều hơn 1, sau đĩ kết
hợp với từ điển âm tiết và mơ hình ngơn ngữ để cho ra một câu cĩ nhiều
khả năng nhất.
− Sử dụng mơ hình Markov ẩn HMM kiểu cạnh tranh (Cĩ tích hợp phương pháp
học dựa trên sự khác nhau của từng cặp âm tiếng nĩi).
• Huấn luyện riêng rẽ từng đơn vị âm với mơ hình HMM thơng thường
• Chia các âm thành các lớp như với phụ âm đầu lớp âm mũi, lớp âm xát vơ
thanh, lớp âm xát hữu thanh, lớp âm tắc vơ thanh, lớp âm xát hữu thanh.
• Huấn luyện phân biệt theo từng lớp bằng cách chỉnh sửa đồng thời tất cả
các mơ hình trong cùng một lớp dựa trên các mẫu huấn luyện được đưa vào
− Mơ tả thuật tốn
Bước 1. Khởi tạo tham số cho bộ phân tích F0
Bước 2. Tải các tham số của 5 thanh điệu và các phụ âm đầu, nguyên âm,
âm cuối vào bộ nhớ
Bước 3. Xử lý buff bộ đệm trong thời gian thực, ta thu được các tham số
đặc trưnng, mẫu tín hiệu, phần phân đọan các thành phần âm tiết.
Bước 4. Nhận dạng âm tiết từ các thành phần nhận dạng âm đầu, nguyên
âm, âm cuối, tone và kiểm tra trong từ điển âm tiết
Kết quả thử nghiệm: Phương pháp segment-based
20
− Thuật tốn phân đoạn âm tiết rời thành các thành phần phụ âm đầu, nguyên âm
chính, âm cuối dựa trên ngưỡng của năng lượng, trong đĩ phụ âm đầu và âm
cuối cĩ năng lượng thấp, khoảng 10%-15% so với năng lượng của thành phần
nguyên âm.
− Danh sách các đơn vị âm dùng trong chương trình:
• 19 phụ âm đầu: ng-ngh, nh, m, n, l, v, s, ph, kh, g, h, q-c-k, d-r, t, th, ch, đ,
b, khơng_phụ_âm
• 12 nguyên âm chính: i, ê, e, iê, ư, ơ, a, ươ, u, ơ, o, uơ
• 7 âm cuối: m, n, i, u, nh, ng, khơng_âm_cuối
• 8 thanh điệu
Đánh giá độ chính xác :
− Tập huấn luyện: hơn 3970 âm tiết
− Tập kiểm tra : 3500 âm tiết
− Trong phần này cĩ sử dụng một số khái niệm về nhận dạng n-best nếu trong kết
quả nhận dạng đưa ra n phần tử "tốt nhất" của phép quyết định. Thường người
sử dụng chỉ quan tâm tới 1-best tức là buộc kết quả đầu ra là duy nhất, tuy vậy
trong các bài tốn nhận dạng tiếng nĩi, thường phải chia thành nhiều pha nhận
dạng trước khi cho ra kết quả cuối cùng vì vậy người ta thường lấy 1, 2, 3 hoặc
thậm chí 5-best ở các pha trước để chuyển tới pha quyết định tiếp theo.
• Nhận dạng 19 phụ âm đầu: kết quả với 1-best đạt 88%, 2-best là 93%
• Nhận dạng nguyên âm đơn, đơi trong vần: đạt 95,75% cho 3-best,
• Nhận dạng phụ âm cuối đạt 91,7% cho 3-best,
• Nhận dạng thanh điệu: độ chính xác trung bình khoảng 95%. cho âm tiết
đọc rời, một giọng đọc phát thanh viên. Với chỉ 5 thanh (phát thanh viên
này cĩ thanh huyền trùng với thanh hỏi). Phải kết hợp với các điều kiện
khác để phân biệt thanh huyền và thanh hỏi.
− Kết quả nhận dạng cụ thể vầ thanh điệu, 19 phụ âm đầu, 7 phụ âm cuối, 12
nguyên âm chính cho một giọng nữ được chỉ ra trong các Bảng 1 đến Bảng 4
sau:
STT Thanh điệu Số mẫu huấn luyện
Số mẫu
kiểm tra Kết quả
1 Thanh ngã(x) 214 54 96,20%
2 Thanh huyền (f) 422 110 99,00%
3 Thanh hỏi (r) 394 101 93,06%
4 Thanh ngang (midle) 438 215 96,70%
5 Thanh sắc (s) 417 182 98,30%
6 Thanh sắc cĩ kết thúc âm tiết /p/, /t/, /k/ (s2) 273 78 97,40%
7 Thanh nặng (j) 341 94 98.90%
8 Thanh nặng cĩ kết thúc âm
tiết /p/, /t/, /k/ (j2)
187 46 93,40%
21
Độ chính xác trung bình cho thanh điệu 95,75%
Bảng 1: Kết quả nhận dạng thanh điệu giọng nữ.
Phụ âm
đầu
Tỉ lệ mẫu sai
1-best và đúng
tương ứng (%)
Tỉ lệ mẫu sai
2-best và
đúng tương
ứng (%)
Ng 6/72 ; 91,6 3/72 ; 95,8
Nh 6/74 ; 91,8 0/74 ; 100
M 1/101 ; 99 1/101 ; 99
N 3/78 ; 96 1/78 ; 98,7
L 3/106 ; 97 2/106 ; 98,1
Null 9/100 ; 91 8/100 ; 92
S 5/101 ; 95 2/101 ; 98
Ph 3/53 ; 94,3 1/53 ; 98
Kh 1/90 ; 98,8 0/90 ; 100
G 10/34 ; 70,5 4/34 ; 88,2
H 5/101 ; 95 2/101 ; 98
Q 5/100 ; 95 5/100 ; 95
D 7/103 ; 93,2 0/103 ; 100
T 15/106 ; 85,8 11/106 ; 89,6
Th 0/102 ; 100 0/102 ; 100
Ch 1/100 ; 99 1/100 ; 99
Đ 7/100 ; 93 4/100 ; 96
B 2/100 ; 98 1/100 ; 99
V 10/101 ; 90 6/101 ; 94
Tổng 99/1722 52/1722
Độ chính xác 94,2% 96,9%
Bảng 2: Kết quả nhận dạng 19 phụ âm đầu.
Phụ âm
cuối
Tỉ lệ mẫu sai
1-best(%)
Tỉ lệ mẫu sai
2-best (%)
M 64/300 ; 78,6 31/300 ; 89,6
N 43/300 ; 85,6 12/300 ; 96
I 8/288 ; 97,2 2/288 ; 99,3
U 17/150 ; 88,6 9/150 ; 94
Nh 46/150 ; 69,3 19/150 ; 87,3
Ng 50/300 ; 83,3 16/300 ; 94,6
Null 113/312; 63,7 59/312 ; 81
Tổng 341/1800 148/1800
Độ chính xác 81.% 91,7%
Bảng 3: Kết quả nhận dạng 7 phụ âm cuối.
22
Nguyên
âm chính
Tỉ lệ mẫu sai
1-best(%)
Tỉ lệ mẫu sai
3-best (%)
I 16/100 ; 84 2/100 ; 98
Ê 16/100 ; 84 4/100 ; 96
E 16/100 ; 84 0/100 ; 100
Iê 12/100 ; 88 4/100 ; 96
Ư 22/100 ; 78 6/100 ; 94
Ơ 96/200 ; 52 28/200 ; 86
A 12/200 ; 94 1/200 ; 99,5
Ươ 22/69 ; 68 12/69 ; 82,6
U 35/80 ; 56,2 4/80 ; 95
Ơ 3/200 ; 98,5 1/200 ; 99,5
O 2/200 ; 99 2/200 ; 99
Uơ 14/50 ; 72 1/50 ; 98
Tổng 266/1499 65/1499
Độ chính xác 82,2% 95,6%
Bảng 4: Kết quả nhận dạng 12 nguyên âm chính.
− Tích hợp từ điển âm tiết: Lọc từ 18 khả năng tổ hợp âm tiết từ kết quả nhận
dạng để rt gọ xuống 1-5best : chưa đánh giá độ rút gọn được là bao nhiêu phần
trăm
− Tích hợp mơ hình ngơn ngữ trên tồn bộ câu: chưa thực hiện được để tích hợp
xác định lưới âm vị từ mỗi âm tiết để từ đĩ nhân ra 1 -3 câu tốt nhất cĩ thể.
Chức năng hoạt động
− Nhận dạng phu thuộc người nĩi (giọng của phát thanh viên đã được huấn
luyện), lượng từ vựng đọc về cơ bản khơng hạn chế, thay thế cho việc người
dùng gõ phím:
• Module huấn luyện tham số cho các mơ hình nhận dạng.
• Module nhận dạng thanh điệu thử nghiệm.
• Module nhận dạng tiếng nĩi liên kết (connected speech)
• Module phân lớp người nĩi ứng dụng cho việc nâng cao chất lượng nhận
dạng tiếng nĩi độc lập người nĩi và nhận dạng người nĩi.
− Giao diện
• Hệ thống chạy nền, gồm nhiều luồng, màn hình ứng dụng thu gọn gồm
nhiều dịch vụ nền,
• Cửa hội thoại cho phép thay dổi tham số nhận dạng, lấy thơng số nền như
độ nhiễu của mơi trường xung quanh.
23
Nhận xét :
− Với chương trình nhận dạng tồn bộ âm tiết tiếng Việt, đề tài đã giải quyết ba
vấn đề:
• Huấn luyện âm vị trong ngữ cảnh câu và kết hợp mơ hình ngơn ngữ để nhận
dạng câu,
• Cải tiến chất lượng nhận dạng âm vị cho mơ hình HMM gồm 19 phụ âm
đầu, 12 nguyên âm chính và các âm cuối,
• Nhận dạng thanh điệu tiếng Việt.
− Mỗi vấn đề trên đều cĩ những đặc điểm khác cơ bản so với tiếng Anh và cả với
các tiếng Trung, Thái gần với tiếng Việt. Cụ thể:
• Các âm vị tiếng Việt ngắn hơn rất nhiều so với âm vị tiếng Anh, một số âm
kết thúc với p, t, c-ch khơng cĩ trong tiếng Trung, tiếng Thái,
• Thanh điệu tiếng Việt phức tạp hơn so với các ngơn ngữ cĩ thanh điệu
khác.
− Khơng thể nhận dạng tốt một âm tiết (mặc dù chương trình đã nhận khá chính
xác các âm tiết cĩ phụ âm đầu b, d, đ, c, ch, kh , vì thế để nâng cao độ chính
xác phải tích hợp mơ hình ngơn ngữ dù là đang xét với câu đọc rời rạc so với
câu đọc liên tục)
− Bắt buộc phải dùng mơ hình ngơn ngữ trong mọi bài tĩan nhận dạng từ điển
lớn, tuy nhiên cách áp dụng là rất khác nhau giữa tiếng Anh và tiếng Việt, trong
đĩ âm tiết là một thành phần quan trọng để biểu diễn từ tiếng Việt. Mơ hình
ngơn ngữ phải cải tiến cho các từ đơi, ba, …
− Khơng thể hồn tịan giao phĩ cho việc lựa chọn câu tốt nhất dựa trên mơ hình
ngơn ngữ, vì nĩ cĩ thể đưa ra các kết quả rất “ngớ ngẩn” trong một vài trường
hợp, khi mà nếu tích hợp mơ hình xử lý âm tiết vào ta cĩ thể đĩan nhận từng
âm tiết kết quả là gần với kết quả mong muốn hơn.
− Huấn luyện phân biệt các đơn vị âm là yếu tố quan trọng để giảm sự ngẫu
nhiên trong kết quả đưa ra của mơ hình Markov ẩn thuần túy dựa trên thống kê.
Đánh giá thực nghiệm Module thử nghiệm VnDictator (thử nghiệm kết
hợp mơ hình ngơn ngữ)
Mục tiêu: Xây dựng phần mềm nhận dạng kiểu đọc chính tả tiếng Việt các từ rời
với lượng từ vựng khơng hạn chế thay thế cho người dùng gõ phím. Phần mềm cĩ
khả năng nhận dạng tiếng nĩi của phát thanh viên, đọc chậm trong mơi trường cĩ
độ nhiễu nhỏ.
Phương pháp nhận dạng
Phuơng pháp nhận dạng dùng Mơ hình Markov ẩn trong cơng cụ HTK của Đại học
Cambridge, xây dựng mỗi mơ hình Markov cho một đơn vị nhận dạng (phone). Sử
dụng phương pháp HMM cho huấn luyện nhúng, dùng 9/10 file dữ liệu âm thanh
24
và phiên âm văn bản tương ứng cho huấn luyện, 10% cịn lại dùng làm dữ liệu
kiểm tra.
− Trích trọn các đặc điểm
Hệ thống nhận dạng làm việc dựa trên các khung tín hiệu (frame) 10ms. Phương
pháp trích trọn đặc điểm PLP (Perceptron) được áp dụng cho mỗi khung tín hiệu
tạo ra một vector gồm 39 đặc tính bao gồm: 12 giá trị hệ số PLP và giá trị năng
lượng, 13 giá trị đạo hàm của các giá trị trên, 13 giá trị đạo hàm mức 2 của giá trị
trên. Phương pháp xử lý tín hiệu dùng kích thước cửa sổ Hamming là 25sm, số
mạch lọc là 22, hệ số dùng để nhấn mạnh (pre-emphasis) là 0.97, phương pháp
CMS được áp dụng để lọc bỏ nhiễu.
− Mơ hình Markov ẩn
Hệ thống nhận dạng dùng các mơ hình Markov ẩn cho các đơn vị ngữ âm cơ bản là
âm vị. Mỗi mơ hình Markov chứa nhiều trạng thái, trong đĩ cĩ một trạng thái khởi
đầu và một trạng thái kết thúc là các trạng thái đặc biệt khơng phát sinh quan sát
(non-emitting), nghĩa là khơng cĩ xác suất phát xạ quan sát bj(ot) kết hợp với các
trạng thái này.
Mỗi mơ hình Markov ẩn bao gồm năm trạng thái trong đĩ cĩ trạng thái khởi đầu
và trạng thái kết thúc.
Mơ hình Markov ẩn dùng trong thử nghiệm
Đối với các trạng thái khơng phải là trạng thái đầu và trạng thái cuối, xác suất phát
xạ quan sát là một hàm mật độ xác suất được xây dựng trên cơ sở các hàm mật độ
xác suất Gauss. Hàm này bao gồm một hoặc nhiều các dịng (stream), mỗi dịng cĩ
thể cĩ một hoặc nhiều thành phần trộn bao gồm các hàm mật độ xác suất Gauss.
Cấu trúc nhiều dịng cho phép hệ thống mơ hình hố nhiều dịng thơng tin khác
nhau. Thơng thường số lượng dịng tối đa là 4 dịng.
− Định nghĩa từ điển
Từ điển được định nghĩa trong một tệp văn bản bao gồm các từ vựng mà hệ thống
cĩ thể nhận dạng được và các phiên âm của các từ này thành các âm vị của hệ
thống. Một từ điển bao gồm nhiều dịng, mỗi dịng tương ứng với một từ và phiên
âm của nĩ. Một từ cĩ thể cĩ nhiều phiên âm khác nhau.
Đối với các ngơn ngữ nước ngồi, các bộ từ điển dùng cho các hệ thống nhận dạng
đã được nghiên cứu kỹ từ lâu. Mỗi trung tâm nghiên cứu tự xây dựng một bộ từ
điển của riêng mình, ví dụ như các bộ từ điển phiên âm nối tiếng của tiếng Anh: bộ
25
từ điển của CMU bao gồm 100 000 từ tiếng Anh; bộ từ điển Beep, bao gồm phiên
âm 250 000 từ tiến Anh.
Đối với ngơn ngữ tiếng Việt, rất tiếc là cho tới thời điểm hiện nay chưa cĩ một bộ
từ điển phiên âm với kích thước lớn nào được cơng bố cho các hệ thống nhận
dạng. Việc nghiên cứu để xây dựng một bộ từ điển bao gồm tất cả các âm tiết tiếng
Việt là một vấn đề cần được quan tâm nghiên cứu.
Để tiến hành xây dựng bộ từ điển gồm khoảng 4000 âm tiết cho hệ thống nhận
dạng, chúng tơi xây dựng một chương trình tự động phân tích một âm tiết thành
các âm vị tương ứng. Sở dĩ cĩ thể xây dựng một chương trình tự động như vậy là
do tiếng Việt cĩ một cấu trúc bền vững, ổn định. Sự kết hợp giữa các âm vị trong
tiếng Việt để tạo thành từ cĩ qui luật và cĩ thể lập trình được.
Để tiến hành phân tích một từ thành các âm vị, chúng tơi sử dụng các giao trình
sách giáo khoa tiếng Việt, trong đĩ nếu cĩ sự khơng thống nhất tạm thời giữa các
giáo trình, chúng tơi sử dụng tài liệu của Nguyễn Thiện Thuật.
Ví dụ về một phần từ điển như sau:
soo s oo sp
soo s oo sil
ddieen dd ie n sp
ddieen dd ie n sil
thoai th w aw i sp
thoai th w aw i sil
quen k w e n sp
quen k w e n sil
thuooc th uo kc sp
thuooc th uo kc sil
cua k uo sp
cua k uo sil
− Huấn luyện mơ hình Markov ẩn
Đầu tiên các âm đơn gồm các đơn vị nhận dạng cơ bản được huấn luyện. Sau một
quá trình gán nhãn cưỡng bức, các âm đơn được huấn luyện lại một lần nữa trước
khi các âm đơn này được sao chép thành các âm ba. Chúng tơi sử dụng các âm ba
giới nội từ (word internal), ngữ cảnh chỉ ảnh hưởng tới các âm ba trong một từ, các
từ được coi là cách nhau bởi một khoảng yên lặng. Sau khi các âm ba được huấn
luyện, cĩ khoảng 400 âm ba khơng cĩ đủ dữ liệu để huấn luyện. Các âm ba này
được buộc (tied) vào nhau để chia xẻ chung nhau dữ liệu huấn luyện.
Để huấn luyện các mơ hình Markov ẩn chúng tơi sử dụng hàm trộn gồm 8 hàm
Gauss. Đầu tiên các mơ hình với một hàm Gauss được huấn luyện với một hàm
Gauss, sau đĩ hàm này được sao chép thành 2 hàm Gauss. Sau khi các âm ba được
huấn luyện với các hàm vừa được tạo, chúng lại tiếp tục được sử dụng để sao chép
26
tạo thành các hàm Gauss mới. Quá trình lặp lại cho đến khi số lượng hàm Gauss
đạt được như mong muốn.
Trong quá trình nhận dạng chúng tơi sử dụng mơ hình ngơn ngữ bigram để đưa các
thơng tin về mơ hình ngơn ngữ vào trong quá trình tìm kiếm Viterbi. Xác suất xuất
hiện của các từ cũng như của cặp các từ được đưa vào trong mạng tìm kiếm.
Chức năng hoạt động
− Thử nghiệm nhận dạng giọng đọc chính tả tiếng Việt, đọc chậm trong mơi
trường văn phịng độ nhiễu thấp.
Kết quả đánh giá thử nghiệm
− CSDL tiếng nĩi bao gồm 23.434 câu thu từ các bài trên VOV (Voice of
Vietnam ), quãng 28.000 âm tiết gồm giọng đọc của gần 30 phát thanh viên,
trong đĩ cĩ 4 giọng nữ. Tổng cộng cĩ khoảng 4.400 âm tiết khác nhau trên
tổng số 6.700 âm tiết cĩ nghĩa trong tiếng Việt. Mỗi câu cĩ trung bình từ 5 dến
15 âm tiết. Các câu được thu âm theo PCM 16kHz, sử dụng 16 bit mã hố.. Tất
cả dữ liệu được gán với văn bản.
−
Nhận xét
Dù rằng một số giải pháp đã tích hợp vào hệ VnDictator mới chỉ là thử nghiệm
nhưng nĩ đã chứng tỏ khả năng sử dụng được và sẽ đạt được nhiều kết quả hơn
nếu được đầu tư nhiều hơn về thời gian.
− Như đăng ký, chương trình nhận dạng đọc chính tả tiếng Việt là chương trình
thử nghiệm, chỉ nhận dạng giọng đọc phụ thuộc người nĩi, (giọng của phát
thanh viên) và mơi trường văn phịng cĩ độ ồn thấp. Vấn đề cịn sai số trong
nhận dạng tự động là điều khơng thể tránh khỏi. Trong phương pháp được sử
dụng, ngồi mơ hình nhận dạng cịn kết hợp cả mơ hình ngơn ngữ. Kết quả
nhận dạng trên câu chưa thật chính xác phụ thuộc cả vào hai yếu tố: dữ liệu
huấn luyện cho nhận dạng cịn thiếu, một trong những vấn đề then chốt trong
nhận dạng là phải đảm bảo đủ dữ liệu huấn luyện, Việc xây dựng CSDL phải
là một dự án co qui mơ lớn. Ngồi ra, cũng dựa trên CSDL lớn mới cĩ thể huấn
luyện mơ hình ngơn ngữ phong phú. Trong chương trình thử nghiệm đăng ký
trong đề tài, chỉ tập trung với một bộ dữ liệu huấn luyện (truyên Dế mèn phiêu
lưu ký) nên sai số là điều khơng thể tránh khỏi. Nhưng cách tiếp cận của đề tài
bám theo những kết quả nghiên cứu về nhận dạng trên thế giới, kết hợp với đặc
thù ngữ âm và mơ hình ngơn ngữ tiếng Việt nên đảm bảo hướng đi đúng đắn
trong các nghiên cứu tiếp theo.
Nghiên cứu thử nghiệm xây dựng cơng nghệ coding ngữ nghĩa của âm thanh
27
Ngồi hai nội dung nghiên cứu về tổng hợp và nhận dạng tiếng Việt như đã trình
bày trong hai phần trên, một nhánh nghiên cứu khác của đề tài nhằm tập trung vào
một giải pháp mới khơng kinh điển, với hy vọng tạo ra cách tiếp cận mới. Nội
dung nghiên cứu định hướng giải pháp theo ba lớp và cũng là ba giai đoạn nghiên
cứu như sau:
− Lớp thứ nhất: Tìm hiểu quá trình biến đổi tín hiệu dao động âm thành tín hiệu
điện mà các dây thần kinh thính giác truyền về não. Qua đĩ xây dựng các thuật
tốn cụ thể tác động lên chuỗi âm thanh số để thu được các số liệu phản ánh tín
hiệu âm tương tự như những tín hiệu mà cơ quan thính giác của con người nhận
được.
− Lớp thứ hai: Nghiên cứu để xây dựng các đối tượng và cơ sở dữ liệu nhận dạng
tiếng nĩi từ các tín hiệu nĩi trên. Hệ thống này cần tuân theo một số nguyên tắc
của “phản xạ cĩ điều kiện”.
− Lớp thứ ba: Nghiên cứu quá trình dự báo ngữ nghĩa của tiếng nĩi, trên cơ sở
“đã nhận ra một số âm”. Trong đĩ trọng tâm là tổng hợp và áp dụng các qui
luật ngơn ngữ để lựa chọn dự báo ngữ nghĩa mà người phát âm muốn truyền
đạt.
Theo hướng này, đến nay, nhánh đề tài mới đạt một số kết quả thuộc lớp thứ nhất
và lớp thứ hai. Lớp thứ ba định hướng cho giai đoạn nghiên cứu tiếp theo. Cụ thể
là:
Các kết quả về lý thuyết:
− Xác định tần số của các nốt nhạc đàn dương cầm bằng cách ghi âm số và ứng
dụng thuật tốn tính pitch. Sau đĩ dùng giả thiết các nốt nhạc cách đều trên trục
logarit của tần số, hiệu chỉnh các giá trị tần số của mọi nốt nhạc.
− Đề xuất "Phổ sensor" trên cơ sở tìm hiểu giải phẫu học của cơ quan thính giác
và khả năng phân biệt nốt nhạc của nĩ. Phổ sensor được xem như là bức tranh
tín hiệu mà các dây thần kinh thính giác chuyển về não.
− Xây dựng phương pháp tốn để xác định các giá trị của phổ sensor, và phương
pháp để xác định một hệ số thực nghiệm đề cập trong phương pháp tốn.
− Với qui ước âm cơ bản là âm tiết khi phát âm khơng địi hỏi bất kỳ một chuyển
động nào của khoang miệng, đã chọn ra 9 âm cơ bản trong tiếng Việt.
− Chọn chiều hướng vi phân của phổ sensor theo tần số để hình thành “dạng phổ
sensor”. Việc so sánh ngữ nghĩa của các phổ sensor được thực hiện qua việc so
sánh độ trùng nhau giữa các “dạng phổ sensor”.
− Đề xuất một tệp dữ liệu bao gồm phổ sensor của các âm cơ bản (hoặc các dạng
đặc trưng của nĩ) và các tham số bổ trợ với tên gọi là "nhận thức ngữ âm", làm
cơ sở để thực hiện nhận dạng tiếng nĩi. Việc xây dựng tệp dữ liệu này tuân
theo một số tiêu chí của phản xạ cĩ điều kiện.
Các kết quả ứng dụng thử nghiệm:
− Bảng xác định các tần số trung tâm của các sensor từ 16hz đến 20khz (vùng
nghe được). Trong đĩ 29 tần số (in đậm) giới hạn từ 266hz đến 4256hz là vùng
đủ để nghe được tiếng nĩi.
28
Do Re Mi Pha Son La Si
16.63 18.36 20.27 22.38 24.70 27.28 30.12
33.25 36.71 40.53 44.75 49.41 54.55 60.23
66.50 73.42 81.06 89.50 98.82 109.1 120.5
133.0 146.8 162.1 179.0 197.6 218.2 240.9
266.0 293.7 324.3 358.0 395.3 436.4 481.8
532.0 587.4 648.5 716.0 790.5 872.8 963.7
1064 1174 1297 1432 1581 1746 1927
2128 2350 2594 2864 3162 3491 3855
4256 4699 5188 5728 6324 6983 7710
8512 9398 10380 11460 12650 13970 15420
17020 18800 20750
− Hệ số thực nghiệm Kn trong cơng thức tính giá trị của sensor:
Kn = 0.9 - 0.016*n
Trong đĩ n là chỉ số thứ tự của sensor
− Xây dựng tệp dữ liệu “nhận thức ngữ âm” của 9 âm cơ bản, theo phương pháp
địa chỉ hĩa từ dạng phổ sensor với 413 địa chỉ được dạy.
Chương trình xây dựng cơng nghệ coding ngữ nghĩa của âm thanh
− Mơi trường: chương trình phát triển trên ngơn ngữ Visual C++ 6.0 để chạy
trên máy PC cĩ HĐH từ Win 98 trở lên.
− Xây dựng ứng dụng vnptich để dùng máy tính PC làm cơng cụ chủ yếu phục vụ
việc nghiên cứu trong phạm vi đề tài. Ứng dụng vnptich cĩ các tính năng cơ
bản để xử lý âm thanh số như: giao tiếp với soundcard, với ổ đĩa v.v... và được
tích hợp mọi thuật tốn riêng của đề tài này.
− Xây dựng thuật tốn tổng hợp chuỗi tín hiệu âm tần, để tạo tín hiệu PCM của
các âm tần chuẩn.
− Xây dựng thuật tốn phân tích Fourier và đánh giá mức độ chính xác của thuật
tốn thơng qua việc dùng thuật tốn này để phân tích các chuẩn PCM được tạo
ra bới thuật tốn nêu trên.
− Xây dựng thuật tốn xác định pitch theo phương pháp Cepstrum.
− Xây dựng thuật tốn tính phổ sensor theo phương pháp nêu trên.
− Xây dựng thuật tốn tổng hợp chuỗi tín hiệu âm từ một bộ tần số hài, hoặc từ
một nhĩm các tần số cho trước, với biên độ bị điều tiết bởi một hàm phổ theo
tần số và theo thời gian.
− Xây dựng các thuật tốn để tạo dựng tệp dữ liệu nhận thức ngữ âm.
2.2.1.3 Về triển khai ứng dụng
Ứng dụng của tổng hợp tiếng nĩi
29
− Nâng cấp Module đọc tiếng Việt trong hệ thống thơng điệp hợp nhất (UMS)
phối hợp với nhĩm nghiên cứu phát triển của cơng ty NetNam.
− Triển khai tích hợp Module đọc tiếng Việt kết nối với phần mềm JAWS đọc
màn hình qua Microsoft SAPI cho người khiếm thị. Modul tích hợp đang được
thử nghiệm cho người khiếm thị tại Viện vệ sinh dịch tễ, khả năng sẽ được
cung cấp cho Hội người mù Việt nam sau khi hồn thiện. Hiện tại đã cĩ 8 đặt
hàng của Hội người khiếm thị và ..... bộ VnVoice đã được thương mại hố.
− Tích hợp module tổng hợp tiếng Việt 3i School Voice Portal: Chức năng truy
cập CSDL học sinh như: nghe điểm các mơn học, sự chuyên cần, khen thưởng,
kỷ luật, tình trạng đĩng học phí, nghe họ tên người đăng nhập hệ thống:
• Chức năng studio: Thu âm thơng báo của nhà trường, thay đổi tốc độ phát
âm trên điện thoại
• Chức năng hộp thư thoại, từ điển phát âm tiếng Anh trên điện thoại, thơng
báo của nhà trường từ văn bản, dùng module tổng hợp tiếng nĩi VnVoice.
2.2.2 Nghiên cứu phát triển kỹ thuật nhận dạng chữ in và viết tay tiếng Việt
Mục tiêu
Nhu cầu tự động hố văn phịng đã thúc đẩy sự ra đời của các chương trình nhận
dạng văn bản, nhận dạng tiếng nĩi. Chương trình nhận dạng chữ Việt in VnDOCR
phiên bản 1.0 ra đời (trong khuơn khổ của đề tài thuộc chương trình KHCN01-10)
nhằm đáp ứng nhu cầu nĩi trên. Phiên bản nâng cấp VnDOCR 3.0 là một nội dung
nghiên cứu của đề tài KC01-03, nâng cao chất lưọng nhận dạng.
Phương pháp
Trong chương trình này, việc nhận dạng văn bản dựa chủ yếu vào các thuật tốn
nhận dạng và cho kết quả khá tốt đối với văn bản đầu vào rõ nét, sạch sẽ. Mơ hình
của quá trình nhận dạng trong VnDOCR 3.0 được biểu diễn như sau:
− Khối nhận dạng OCR: thực hiện các thuật tốn nhận dạng, đầu vào là ảnh của
văn bản, đầu ra là văn bản thơ, chưa sửa chính tả.
− Khối tự động kiểm tra chính tả: Kiểm tra văn bản thơ, tự động sửa những lỗi
chính tả đơn giản, đánh dấu những cụm ký tự sai chính tả khơng tự động sửa
được. Khối kiểm tra chính tả bán tự động: cùng với người dùng, sửa những lỗi
chính tả cuối cùng trước khi đưa ra văn bản hồn chỉnh
Phương pháp nhận dạng
Nghiên cứu hai thành phần chủ yếu trong một thuật tốn nhận dạng là trích chọn
đặc tính (feature extraction) và phân loại (classification) dựa trên đặc tính:
30
• Các đặc tính của ký tự được trích chọn bằng cách tiếp cận thống kê cĩ kết hợp
với cách tiếp cận cấu trúc đảm bảo tính nhận dạng khơng cần khai báo font
(omnifont) và kích cỡ chữ. Hai cách tiếp cận trên là những cách tiếp cận truyền
thống trong nhận dạng, tuy nhiên các tác giả của sản phẩm đã đề xuất một cách
tiếp cận tổ hợp (xem bài báo [7, 9, 10, 11]) và đã chứng tỏ tính hiệu quả của
cách tiếp cận tổ hợp này trong chất lượng của phần mềm.
Theo cách tiếp cận của chúng tơi, các ký tự ảnh được rút gọn vào khung m x n
(đã thử nghiệm trên khung 8 x 8 và 16 x 16), sau đĩ thật tốn phân loại được áp
dụng trên các khung này.
Ảnh bitmap của kí tự và ma trận mẫu tương ứng.
Để biểu diễn bản chất của thuật tốn do các kí tự được biểu diễn như một ma
trận nhị phân kích thước m x n, dưới đây đưa ra một khái niệm cơ bản của thuật
tốn về tính nhúng của một ma trận này vào trong một ma trận khác. Từ mục
tiêu đĩ cần cĩ định nghĩa một ma trận nhỏ nhất trong một tập các ma trận, độ
khác biệt của hai ma trận và độ khác biệt của một ma trận so với lớp các ma
trận. Mục tiêu cuối cùng là phải tìm ra một ma trận cĩ độ khác biệt nhỏ nhất so
với tập các lớp ma trận mẫu.
Gọi Tm x n = {tp}m x n là tập các ma trận nhị phân của các kí tự kích thước
m x n
Định nghĩa 1: Giả sử hai ma trận t1, t2 ∈ T. Ta nĩi rằng t1 được nhúng trong t2
(kí hiệu bởi t1 t2) nếu t1[i, j ] ≤ t2[i, j] với ∀i = 1, 2, ..., m, ∀j = 1, 2, ..., n
Định nghĩa 2: Giả sử C ⊆ T, t ∈ C. ta nĩi rằng t là ma trận nhỏ nhất trong C
nếu ti ∈ C: t ti
Định nghĩa 3: Giả sử hai ma trận t1, t2 ∈ T. Độ khác biệt của t1 với t2 được
định nghĩa như sau:
d(t1, t2') = card ({(i,j)⏐ t1[i,j] < t2[i,j] }) .
Định nghĩa 4: Giả sử ma trận t ∈ T, Cq ⊆ T. Độ khác biệt của t với Cq được
định nghĩa như sau:
d(t, Cq) = min d(t, t')
t’∈Cq
Định nghĩa 5: Giả sử ma trận t ∈ T, C1, C2, ...CK ⊆ T. Ta nĩi rằng Cq , q ∈ {1,
2, ...,K} là lớp mẫu đối sánh tốt nhất với t nếu:
31
d(t, Cq) = min d(t, ,Cj)
1 ≤j ≤K
Tĩm lại, nĩi một cách mơ tả, bài tốn nhận dạng đặt ra là giả sử tồn tại K lớp
mẫu chữ Cj, j=1, ..., K, khi xuất hiện một chữ mới ta cần xếp nĩ vào một trong
các lớp này sao cho thoả mãn định nghĩa 5.
• Thuật tốn phân loại mẫu học (tập các ký tự cần nhận dạng) được phân thành 2
giai đoạn với mục đích tăng tốc độ và độ chính xác:
- Thuật tốn phân loại thơ (dùng để phân nhĩm các chữ đồng dạng về mặt cấu
trúc)
- Thuật tốn phân loại mịn (các hàm đánh giá và đối sánh phức tạp dần)
- Tiêu chuẩn đối sánh nhanh dựa trên nghiên cứu và đề xuất độ đo đồng dạng
giữa hai ảnh ký tự.
Phương pháp kết hợp kiến thức chính tả
Tuy nhiên, khi gặp các văn bản bị mờ khiến chữ bị đứt nét hoặc các văn bản nhoè
khiến các chữ bị dính với nhau thì chất lượng nhận dạng vẫn cịn chưa cao. Việc
phát triển các thuật tốn nhận dạng để giải quyết vấn đề trên rất khĩ thực hiện và
cũng chỉ cĩ giới hạn nhất định. Do đĩ, cần cĩ thêm kiến thức về đối tượng được
nhận dạng để cải tiến chất lượng nhận dạng. Đối tượng đĩ chính là văn bản tiếng
Việt. Kiến thức về văn bản tiếng Việt phù hợp với việc áp dụng cho máy tính thực
hiện là chính tả tiếng Việt. Như vậy cần phải kết hợp kiến thức về chính tả tiếng
Việt để gĩp phần làm nâng cao chất lượng nhận dạng. Đây cũng là hướng tiếp cận
của các chương trình nhận dạng văn bản nổi tiếng trên thế giới.
Với khối tự động kiểm tra chính tả, yêu cầu của khối này là: 1/ Hạn chế tối đa việc
sửa âm tiết đúng thành sai, 2/ Sửa được một số lượng đáng kể số lỗi trên văn bản
thơ, 3/ Thời gian thực hiện phải đủ nhanh sao cho người dùng nhanh chĩng cĩ
được văn bản hồn chỉnh hơn là hồn tồn sửa lỗi bằng tay.
Vấn đề là tìm được một cách tiếp cận sửa lỗi chính tả sao cho phù hợp với những
yêu cầu đã đề ra. Như đã trình bày ở trên, cách tiếp cận ở mức độ từ vựng và cú
pháp, ngữ nghĩa hiện vẫn cịn là những vấn đề khĩ, các thuật tốn hiện thời địi hỏi
nhiều thời gian và độ chính xác chưa cao. Với những gì đã trình bày ở mục 2 thì ta
thấy cách tiếp cận sửa lỗi chính tả ở mức âm tiết đảm bảo thoả mãn điều kiện 1/
và 3/ so với hai cách tiếp cận cịn lại. Hơn nữa, trong thực tế số lượng các lỗi sai
thực sự về mặt âm tiết ở văn bản thơ đối với ảnh đầu vào chất lượng kém là khá
lớn nên nếu được thực hiện tốt cách tiếp cận này sẽ đảm bảo thoả mãn được điều
kiện 2/. Thơng thường, lỗi chính tả được xử lý theo thứ tự: Âm tiết - Từ vựng -
Ngữ nghĩa. Sau đây là một số phương pháp được sử dụng trong VnDOCR 3.0.
− Phát hiện sai: Các phương pháp phát hiện sai đều khơng thể hồn tồn chính
xác và đều cĩ lỗi. Lỗi sai gồm cĩ 2 loại: âm tiết đúng được coi là sai và âm tiết
sai được coi là đúng. Như vậy, thuật tốn phát hiện sai phải đề ra những tiêu
32
chuẩn nhận biết các trường hợp trên, tránh việc sửa nhầm. Tĩm lại sử dụng
những cách đốn nhận như trên ta vẫn phải chấp nhận một tỷ lệ sai nào đĩ.
Trong quá trình kiểm nghiệm thực tế cĩ thể đưa ra thêm một số tiêu chuẩn mới
hoặc điều chỉnh lại các tiêu chuẩn đã đề ra để giảm tỷ lệ lỗi đối với các loại văn
bản thơng dụng.
− Sửa sai: Quá trình sửa sai gồm hai bước: 1/ Từ một âm tiết bị sai tìm ra các âm
tiết đúng tương ứng, các âm tiết đúng này là các ứng cử viên. 2/ Chọn ra trong
số các ứng cử viên nĩi trên một ứng cử viên cĩ khả năng là đúng nhất. Các
phương pháp sửa chủ yếu sử dụng luật cấu tạo âm tiết và sử dụng kiến thức liên
quan đến vị trí và mối liên hệ giữa các ký tự. Lựa chọn âm tiết đúng trong
nhiều khả năng sử dụng điểm về n-gram của nĩ cao.
Quá trình kiểm tra chính tả tự động được thực hiện tương đối đơn giản hơn và thực
tế là nĩ đã tiết kiệm được đáng kể thời gian xử lý của người dùng. Tính hiệu quả
của nĩ phụ thuộc vào các thuật tốn phát hiện sai, sửa sai, và lựa chọn ứng cử viên.
Hướng phát triển tiếp theo của phần này là: tăng cường tốc độ thực hiện; cải tiến
độ chính xác của các thuật tốn phát hiện sai, sửa sai; bổ sung thêm dữ liệu về các
dạng sai, dữ liệu để xây dựng mơ hình n-gram cho thật hồn chỉnh; Xây dựng một
mơ hình sửa lỗi chính tả hồn thiện hơn mơ hình hiện cĩ.
Mơ hình áp dụng việc sửa chính tả được trình bày ở trên khơng phải là duy nhất.
Ví dụ như cĩ thể tích hợp quá trình sửa lỗi chính tả tự động vào trong quá trình
nhận dạng. Cách làm này cĩ lợi điểm là thay vì làm việc với văn bản thơ, quá trình
sửa chính tả sẽ cĩ nhiều thơng tin hơn từ quá trình nhận dạng. Hoặc quá trình sửa
lỗi chính tả tự động khơng chỉ dừng ở mức âm tiết mà cĩ thể thực hiện sửa lỗi ở
các mức cao hơn như từ vựng, cú pháp...
Chức năng của phần mềm Nhận dạng chữ Việt in VnDOCR 3.0
VnDOCR 3.0 là phiên bản nâng cấp chính thức của VnDOCR 2.0 sau hai năm phát
triển các tính năng mới và sửa lỗi. Phiên bản này cĩ những tính năng mới nổi trội
sau đây:
− Tự động phát hiện được bảng biểu.
− Tự động kiểm tra chính tả tiếng Việt ngay sau khi nhận dạng xong, tự động
thay thế những từ nhận dạng sai bằng những từ cĩ trong từ điển với độ chính
xác cao.
− Nhận dạng đa luồng cho phép vừa nhận dạng vừa quét tài liệu, giúp giảm đáng
kể về cả thời gian lẫn cơng sức của người sử dụng.
− Cho phép quét nhiều trang tài liệu mà khơng cần khởi tạo lại máy quét – việc
khởi tạo lại máy quét sau khi quét một trang tài liệu thường thấy với các máy
quét dịng HP – Tính năng này giúp cho việc quét sách báo với khối lượng
tương đối lớn dễ dàng hơn rất nhiều.
− Chất lượng nhận dạng trên 98% với các văn bản cĩ chất lượng trung bình, in từ
các máy in lazer, sách, báo, tạp chí phát hành hiện nay.
33
− Lưu văn bản hỗ trợ ba loại bảng mã tiếng Việt phổ biến nhất hiện nay là
Unicode TCVN6990-2001, TCVN5712 (ABC), VNI.
Phương pháp và kết quả đánh giá
CSDL văn bản test:
• Các dạng văn bản dùng để test:
- Văn bản dạng cơng văn, tài liệu in từ máy in Lazer với các kiểu phơng chữ
khác nhau: Arial, Avant, Helvetica, Time, Time New Roman, Courier, cĩ
kích thước của kí tự từ 8 đến 72 điểm.
- Bài báo trên các loại báo như: Hà nội mới, Lao động, PC World Việt Nam,
Tuổi trẻ TP HCM, Thể thao, Thời báo Kinh tế Việt Nam, Kinh doanh tiếp
thị, Thời báo tài chính Việt Nam, Đầu tư, Thanh niên, Tièn phong, An ninh
thue dơ, Cơng an TP HCM, Cơng an nhân dân, Đại đồn kết, Tuổi trẻ, An
ninh thế giới, Lao động xã hội.
• Tiêu chí để kiểm tra:
Quét ảnh:
- Quét đen/trắng
- Văn bản được quét ở độ phân giải 300 dpi. Đối với các loại tài liệu cĩ cỡ
chữ nhỏ như các cột báo, nên đặt độ phân giải 400 dpi.
- Đối với một sĩ tài liệu cần lựa chọn độ Sáng tối (Brightness) và Tương
phản (Contrast). Việc lụa chọn thích hợp các tham số này sẽ làm tăng chất
lượng nhận dạng và giảm đáng kể thời gian chỉnh sửa văn bản sau nhận
dạng.
- Văn bản nên đặt thẳng, khơng bị nghiêng hoặc xoay. Chương trình cho
phép xoay văn bản một gĩc nghiêng nhỏ hơn 15o, tuy nhiên nếu khơng phải
can thiệp sau khi quét, chất lượng nhận dạng thường đảm bảo hơn.
• Số lượng văn bản test:
- Lựa chọn bất kỳ các văn bản trên các tài liệu đã nĩi trên
- Số lượng văn bản dùng để test: quãng 500 trang A4 và các cột báo
- Độ chính xác mức từ quãng 98%.
Nhận dạng chữ viết tay cĩ hạn chế
Cho đến năm 2001 Việt Nam hiện tại chưa cĩ sản phẩm nào về nhận dạng dấu
quang học cĩ cả chữ viết tay hạn chế.
Mục tiêu
Nghiên cứu, thiết kế và cài đặt thử nghiệm một số mơ hình nhận dạng số và chữ
viết tay hạn chế trong hệ thống MarkRead. Chữ viết tay hạn chế gồm các số và chữ
34
viết tách rời nhau giống chữ in và viết trong các ơ hình chữ nhật của các phiếu điều
tra.
(MarkRead - Phần mềm nhận dạng dấu quang học phục vụ nhập liệu tự động phiếu
điều tra, kiểm phiếu, thi trắc nghiệm, kiểm tra, phiếu thăm dị ý kiến và các phiếu
mẫu văn phịng khác chứa các ơ hình vuơng, chữ nhật, hình trịn, elip cĩ đánh
dấu).
Phương pháp
− Nghiên cứu phương pháp nhận dạng chữ viết tay hạn chế theo mơ hình nhận
dạng cấu trúc,
− Nghiên cứu phương pháp nhận dạng theo đối sánh mẫu,
− Nghiên cứu phương pháp nhận dạng bằng biểu đồ tần xuất (histogram),
− Nghiên cứu phương pháp nhận dạng tổ hợp.
Phương pháp nhận dạng đối sánh mẫu
Chữ viết tay hạn chế trong hệ thống MarkRead là các chữ/số được viết riêng rẽ rời
nhau và gần giống chữ in hoa, mực viết cần rõ ràng để khi quét vào máy quét giữ
được hình ảnh các chữ rõ ràng. Chúng tơi đã nghiên cứu nhiều phương pháp nhận
dạng và đã cài đặt trong hệ thống nhận dạng MarkRead phương pháp nhận dạng
theo đối sánh mẫu.
Trích chọn đặc trưng: với một mẫu a, trích các thơng số gọi là đặc trưng của
mẫu đĩ. Kí hiệu đặc trưng của mẫu a là Fa.
Học mẫu: một tập mẫu được dùng để học bằng cách lưu đặc trưng các mẫu học
đĩ vào cơ sở dữ liệu, kí hiệu là L.
Nhận dạng: với mỗi mẫu vào là x chưa biết, ta trích chọn đặc trưng tương ứng
Fx. Tìm trong cơ sở dữ liệu đặc trưng Fb ∈L “gần giống” với Fx nhất theo nghĩa:
)Fd(F,min)F,d(F xLFxb ∈=
Khi đĩ mẫu x được nhận dạng là mẫu b trong cơ sở dữ liệu.
Trích chọn đặc trưng:
Phân đoạn: Từ ảnh vào, tiến hành phân đoạn ảnh thành dạng đen/trắng
35
Xác định vùng chứa chữ: thơng qua trọng tâm
Chuẩn hĩa hĩa các kí tự : chuẩn hĩa thành ma trận 27¯27
Tính trọng số I ứng với ma trận ảnh kí tự T:
I[i][j] được tính bằng bình phương khoảng cách từ điểm (i,j) đến điểm đen gần
nhất trong T.
]z)-(jk)-[(iminz)](k,j),[(i,dminI[i][j] 22
B(T)z)(k,
2
B(T)z)(k,
+== ∈∈
Trong đĩ: B(T) là tập các điểm đen của T:
B(T)={(i,j)| T[i][j]=0}
Khoảng cách giữa hai đối tượng I, I’ được tính bằng:
∑
∈
=
B(I))B(I'j)(i,
| [i][j]I'-I[i][j] | )I'd(I,
U
Trong đĩ B(I), B(I’) là tập các điểm đen của I và I’:
ảnh phân ngưỡng T
Ma trận trọng số I
36
B(I)={(i,j)| I[i][j]=0}, B(I’)={(i,j)| I’[i][j]=0}
Học đối với phương pháp đối sánh mẫu
Kí hiệu tập các mẫu để huấn luyện là K và C(Fa,L) là kết quả nhận dạng đặc trưng
của mẫu a với tập dữ liệu học là L.
C(x) là nhãn của mẫu x (tên của chữ).
Thuật tốn học của phương pháp đối sánh mẫu được thực hiện như sau:
Vào: K – tập các mẫu cần huấn luyện
Ra: L – tập các đặc trưng mẫu đã được học
L = ∅
repeat
ok = 1;
for x ∈ K do
begin
if C(x) ≠ C(Fx,L) then
begin
L:= L∪{Fx}
ok:= 0
end_if
end_for
until (ok);
Kết quả thực nghiệm
CSDL thử nghiệm: các kiểu chữ và số viết tay do 250 người viết, độ phân giải
300dpi cĩ kích cỡ khoảng 50¯50, sau đĩ cắt các chữ cái và chữ số thành các ảnh
kí tự riêng rẽ, rồi chuẩn hĩa thành ma trận 27x27.
− Trong đĩ tập các số được dùng làm mẫu 14000 mẫu, trong đĩ tập huấn luyện
gồm 10.000 và tập test 4000.
− Tập các chữ cái gồm 42000 mẫu chữ chia làm 2 tập: tập huấn luyện gồm 30000 mẫu
và tập test 12000 mẫu.
− Tập các mấu số của MNIST gồm 60.000 (20x20) chia làm 2 tập, tập học
50.000, tập test 10.000.
Kết quả thực nghiệm ở mức kí tự riêng rẽ với độ chính xác như sau:
− Đối với các kí tự là chữ kết quả nhận dạng đạt 80%.
− Đối với các kí tự là số kết quả nhận dạng đạt 85%
Một số kiểu mẫu gây ra nhận nhầm, sai:
ảnh các chữ số cĩ nhiễu.
37
ảnh các chữ cĩ nhiễu hoặc thiếu nét
38
Kết quả nhận dạng trên các cách tiếp cận khác nhau:
− Nhận dạng bằng đối sánh mẫu, cĩ tỷ lệ với chữ (số) là 80% (85%).
− Nhận dạng bằng cấu trúc xương ký tự, cĩ tỷ lệ với chữ (số) là 75% (80%) .
− Nhận dạng bằng histogram, cĩ tỷ lệ với chữ (số) là 77 % (84%) .
Sản phẩm
MarkRead 1.0: Nhập tự động các phiếu điều tra, thi trắc nghiệm dưới dạng đánh
dấu và số, chũ viết tay trong các ơ định sẵn.
− Chức năng hoạt động:
• Quét phiếu điều tra theo lơ hoặc từng trang,
• Tiền xử lý: xố nhiễu, tăng giảm độ dày, nối các nét đứt, phát hiện gĩc
nghiêng trang tài liệu với gĩc nhỏ hơn 15o và hiệu chỉnh lề.
• Chọn vùng chứa dấu hoặc cữ viết tay hạn chế trong các ơ hoặc bảng một
chiều.
• Nhận dạng các ơ được đánh dấu, kết hợp các ơ để nhận dạng số/chữ viết tay
hạn chế.
• Ghi dữ liệu đã được nhận dạng ra các tệp của nhiều hệ quản trị CSDL phổ
dụng.
− Giao diện:
• Hình thức giao diện theo chuẩn của các phần mềm Microsoft, cĩ các thao
tác trên tệp, soạn thảo, hiển thị ảnh / kết quả nhận dạng, các thao tác trên
các bản ghi, nhận dạng và trợ giúp, giao diện được thể hiện bằng tiếng Việt
(font TCVN3 ABC), hoặc tiếng Anh.
• Các chức năng được được thể hiện qua giao diện thực đon, thanh cơng cụ
hoặc thực đơn động.
• Chọn máy quét, chọn số trang/phiếu (bản ghi kết quả), số trang/hàng,
ngưỡng nhận dạng, kích thước của các đối tượng chứa dấu.
2.2.3. Nghiên cứu phát triển các kỹ thuật xử lý ngơn ngữ tự nhiên tiếng Việt
39
Do xu hướng tồn cầu hố đi kèm với địa phương hố, nhu cầu dịch trong tất cả
các lĩnh vực khơng ngừng tăng lên. Trong khi đĩ, lĩnh vực dịch tự động tuy đã ra
đời từ hơn 50 năm trước, nhưng cho đến nay kết quả vẫn cịn hết sức hạn chế. Đề
tài đã nghiên cứu một số cách tiếp cận khác nhau trong dịc tự động. Một trong
những kết quả chính của đề tài là dựa trên một số cách tiếp cận dựa trên cấu trúc
văn phạm của các ngơn ngữ để tiến hành dịch tự động và tiếp tục phát triển phần
mềm EVTRAN cho phần dịch Việt – Anh. Đồng thời một xu hướng mới đã ra đời
trong những năm gần đây nhằm tận dụng khai thác kho tàng khổng lồ các văn bản
dịch trong nhiều thứ tiếng, thuộc đủ thể loại như văn học, báo chí, hàn lâm hay luật
học. Việc sử dụng kho tài nguyên gồm các bản dịch đa phần cĩ chất lượng rất tốt
này để xây dựng các bộ nhớ dịch hay các bộ từ vựng đa ngữ trong các hệ thống
dịch máy cĩ vẻ là một giải pháp hợp lí. Cách khai thác kho văn bản dịch đa ngữ
hay cịn gọi là văn bản song song (parallel texts) này là thực hiện việc dĩng hàng
(alignment), tức là tìm kiếm tự động các tương ứng dịch trong các văn bản vốn
được dịch ra từ cùng một văn bản gốc nào đĩ. Các tương ứng dịch này cĩ thể ở các
mức độ chi tiết khác nhau: cĩ khi chỉ địi hỏi ít chi tiết là mức đoạn, phổ biến nhất
là ở mức câu, và chi tiết, lí tưởng hơn là mức ngữ đoạn hoặc từ. Chính vì vậy ở 3
phần tiếp sau của, trình bày các nghiên cứu và kết quả về:
- Dịch Việt Anh theo cách tiếp cận dựa trên cấu trúc văn phạm
- Dĩng hàng các văn bản song ngữ Phap- Việt, tiền thân của khuynh hướng dịch
tự động
- Xây dựng mơ hình từ điển điện tử cho tiếng Việt, một cơng cụ thiết yếu cung
cấp nguồn tri thức giúp giúp máy tính cĩ thể hiểu được ngơnngữ con người vF
đĩng vai trị nền tảng cho các nghiên cứu vè ngơn ngữ tự nhiên.
2.2.3.1 Dịch tự độngViệt - Anh
Nghiên cứu
− Đề xuất văn phạm định biên (bound controlled grammar) – một dạng mở
rộng của mơ hình văn phạm phi ngữ cảnh, chỉ ra một số tính chất của văn
phạm, trong đĩ chứng minh được rằng lớp ngơn ngữ định biên là bao đĩng của
lớp ngơn ngữ phi ngữ cảnh đối với phép giao. Điều đĩ cĩ nghĩa rằng văn phạm
định biên là sự mở rộng đủ và tối thiểu cho lớp ngơn ngữ phi ngữ cảnh để thành
một tập hợp đĩng kín đối với phép hợp và phép giao. Ý nghĩa của văn phạm
định biên là ở chỗ các kết quả lý thuyết và giải thuật trên lớp ngơn ngữ phi ngữ
cảnh đều cĩ thể áp dụng cho ngơn ngữ định biên. Nĩi riêng, các giải thuật phân
tích văn phạm phi ngữ cảnh cũng như độ phức tạp của chúng được giữ nguyên
gần như hồn tồn trong văn phạm định biên.
− Đề xuất văn phạm cảm ngữ đoạn (phrase sensitive grammar) – một phát triển
tiếp tục của văn phạm định biên cho phép mơ tả được nhiều tính chất phụ thuộc
ngữ cảnh của ngơn ngữ tự nhiên, đặc biệt, đề xuất khái niệm ngữ đoạn như một
yếu tố ràng buộc trọng tâm trong định nghĩa các cấu trúc của ngơn ngữ.
Một số tính chất của văn phạm:
40
• Các phần tử từ vựng, cú pháp, ngữ nghĩa và tập quy tắc được tổ chức thành
hệ phân cấp (dàn đại số)
• Đưa vào khái niệm “phần tử được đánh dấu” để thể hiện những ràng buộc
ngữ nghĩa trong quy tắc văn phạm, đặc biệt, để biểu diễn các nút cĩ số
nhánh biến thiên trong cây phân cấp ngữ nghĩa. Bộ phân tích khơng dựng
cây cú pháp mà dựng mơ hình biểu diễn bên trong (cây phân cấp ngữ nghĩa)
của câu văn trên cơ sở áp dụng các quy tắc cảm ngữ đoạn.
− Đề xuất phương pháp giải quyết nhập nhằng ứng dụng trong xử lý ngơn ngữ tự
nhiên dựa trên sự phân cấp của hệ luật sinh sử dụng một mơ hình logic mới,
trong đĩ miền giá trị khơng phải là nhị phân (true, false – như trong logic cổ
điển) hay một đoạn liên tục (các số thực từ 0 đến 1 – như trong logic mờ) mà là
một dàn đại số. Giải pháp đề xuất một mơ hình hình thức cho sự “lập luận theo
lẽ thường” (common-sense reasoning) đối với tri thức ngơn ngữ.
Mơ hình phân cấp ngữ nghĩa áp dụng trong văn phạm cảm ngữ đoạn cho ta một
cơng cụ để mơ tả những quy tắc ngơn ngữ, vốn rất khĩ diễn đạt bằng tốn học.
Với cách tiếp cận được đề xuất, mỗi luật sinh đều cĩ một phạm vi tác dụng
trong khuơn khổ một hệ phân cấp miền tác dụng của tập luật. Tập các miền tác
dụng của bộ luật tạo nên một phủ trên tồn bộ ngơn ngữ.
Những kết quả nghiên cứu này tạo thành nền tảng để xây dựng một giải pháp
dịch máy liên ngữ khả thi (hiện đang được phát triển tại Viện Ứng dụng Cơng
nghệ). Cách tiếp cận cĩ các đặc trưng cơ bản sau:
• Bộ phân tích khơng dựng cây cú pháp mà dựng mơ hình biểu diễn bên trong
(cây phân cấp ngữ nghĩa) của câu văn
• Bước Tổng hợp là quá trình đơn ngữ, được thực hiện hồn tồn độc lập với
quá trình Phân tích. Vì vậy, trong mơ hình dịch máy được đề xuất, cơng
đoạn tổng hợp văn bản khĩ hơn nhiều so với khâu phân tích, và văn bản
được sản sinh ra sẽ tự nhiên, bản ngữ hơn, khơng phụ thuộc vào cách đặt
câu của văn bản gốc.
− Phát triển giải thuật phân tích văn phạm cảm ngữ đoạn.
Xây dựng mơ hình xử lý nhập nhằng cho kho ngữ liệu được tổ chức theo mơ
hình phân cấp dựa vào logic trên dàn và văn phạm cảm ngữ đoạn. Thuật tốn
phân tích theo sơ đồ dưới lên và từ phải sang trái (bottom-up right-most
analysis) dựng cây phân tích ngữ nghĩa khơng phụ thuộc ngơn ngữ và họ các
bộ giá trị trạng thái liên ngơn ngữ.
− Phát triển giải thuật tổng hợp văn phạm cảm ngữ đoạn.
Xây dựng sơ đồ tổng hợp văn bản
− Ứng dụng một phần các kết quả lý thuyết và cơng nghệ được phát triển vào
phần mềm dịch máy
− Ứng dụng một số heuristics nhằm cải thiện tốc độ cho giải thuật phân tích văn
phạm và biên dịch văn bản
− Xây dựng hệ phân cấp từ loại tiếng Việt để đưa vào cơ sở tri thức tiếng Việt
trên cơ sở mơ hình ngữ nghĩa chung cho Hệ thống từ loại tiếng Việt, áp dụng lý
thuyết dàn (lattice) làm mơ hình ngữ nghĩa cho hệ thống từ loại tiếng Việt.
− Khảo sát trên 400.000 mẫu câu song ngữ Việt-Anh thơng dụng.
41
− Xây dựng cơ sở tri thức dịch máy Anh Việt – Việt Anh bao gồm:
• Trên 7.600 quy tắc văn phạm và biên dịch Anh-Việt và Việt-Anh
• Trên 230.000 đơn vị từ vựng dịch Anh-Việt
• Trên 260.000 đơn vị từ vựng dịch Việt-Anh
Sản phẩm phần mềm
Phần mềm EVTRAN 2.5 dịch hai chiều Anh-Việt, Việt-Anh (dịch Việt – Anh là
sản phẩm đăng ký của đề tài) là sản phẩm ứng dụng một phần kết quả lý thuyết và
cơng nghệ đã trình bày trên vào phần mềm dịch máy. Ngồi ra, một trong những
đĩng gĩp của đề tài là ứng dụngmột số giải pháp kiểm - thử (heuristic) nhằm cải
tiến tốc độ cho giải thuật phân tích văn phạm và biên dịch văn bản.
− Đặc trưng kỹ thuật chính của phần mềm EVTRAN 2.0:
• Dịch hai chiều Anh-Việt và Việt-Anh
• Chương trình tự động đốn nhận ngơn ngữ nguồn
• Cơ sở tri thức dịch máy Anh Việt – Việt Anh bao gồm:
+ Trên 7.600 quy tắc văn phạm và biên dịch Anh-Việt và Việt-Anh
+ Trên 230.000 đơn vị từ vựng dịch Anh-Việt
+ Trên 260.000 đơn vị từ vựng dịch Việt-Anh
• Cĩ tính năng đa ngữ, cĩ thể dễ dàng đưa một cặp ngơn ngữ mới vào hệ
thống để biên dịch qua lại giữa hai ngơn ngữ mà khơng cần phải lập trình.
• Cĩ khả năng vận dụng tri thức ngơn ngữ trong phân tích : kho ngữ liệu càng
lớn thì tốc độ phân tích câu – và tương ứng – tốc độ biên dịch văn bản càng
cao, trái với các giải thuật phân tích đơn định (chẳng hạn đối với giải thuật
Early thì thời gian phân tích tỷ lệ nghịch với bình phương kích thước của bộ
quy tắc văn phạm).
• Cĩ các cơng cụ cập nhật tri thức ngơn ngữ và biểu diễn trực quan cây cú
pháp để hỗ trợ việc hiệu chỉnh cơ sở tri thức
• Cĩ kèm theo một số từ điển tra cứu thơng dụng (Computing Dictionary,
Thesaurus, Từ điển Anh-Việt và Việt-Anh, Oxford Advanced Learner’s
Encyclopedic Dictionary, Webster’s Dictionary,...) để tiện việc cập nhật dữ
liệu ngơn ngữ
Đánh giá kết quả
Nguyên lý thiết kế của phần mềm dựa vào việc mở rộng mơ hình văn phạm để cĩ
thể mơ tả được đầy đủ hơn các yếu tố của ngơn ngữ tự nhiên. Do khối lượng cơng
việc cần làm để cĩ được sản phẩm chất lượng cao là rất lớn. Trong khuơn khổ của
đề tài chúng tơi đã thực hiện cả nghiên cứu lý thuyết và triển khai cơng nghệ.
Về mặt Lý thuyết cĩ những kết quả sau:
− Phát triển mơ hình văn phạm cảm ngữ đoạn làm cơng cụ hình thức để mơ tả
ngơn ngữ tự nhiên
− Đưa ra một cách tiếp cận trong việc hình thức hĩa sự lập luận theo lẽ thường để
mơ tả tri thức ngơn ngữ và giải quyết nhập nhằng;
42
− Giới thiệu mơ hình dịch máy liên ngữ dựa trên Cây phân cấp ngữ nghĩa – một
mơ hình biểu diễn tri thức ngơn ngữ độc lập với các ngơn ngữ tự nhiên.
Về mặt Cơng nghệ cĩ những kết quả sau:
− Xây dựng được khung ứng dụng dịch Việt – Anh.
− Áp dụng một phần những kết quả nghiên cứu lý thuyết trong phần mềm. Chúng
tơi sẽ tiếp tục áp dụng những kết quả trên, nhất là mơ hình dịch mới dựa trên
cấu trúc trung gian là cây phân cấp ngữ nghĩa sẽ được tích hợp trong phiên bản
tiếp theo của sản phẩm.
− Nhập trên 250.000 mục từ vựng và 5.000 quy tắc dịch Việt-Anh (Khối lượng
theo đăng ký đề tài là 150.000 mục từ vựng và 5.000 quy tắc dịch)
− Thơng thường các hệ dịch tự động đa dụng (ứng dụng cho nhiều lĩnh vực) địi
hỏi khoảng 600.000 mục từ vựng và 26.000 quy tắc dịch (theo số liệu của cơng
ty Logomedia – một cơng ty chuyên kinh doanh sản phẩm dịch máy). Chúng
tơi sẽ tiếp tục bổ sung dữ liệu tri thức ngơn ngữ để sản phẩm cĩ thể bao quát
được hầu hết các tình huống ngơn ngữ tiếng Việt. Đây là quá trình lâu dài và
địi hỏi cơng sức lớn (vào thời điểm này đã cĩ trên 270.000 mục từ).
− Hiện nay, phần mềm cĩ thể biên dịch một số mẫu câu thơng thường với độ
chính xác hạn chế. Quá trình phát triển tiếp theo là duyệt, dịch thử và hiệu
chỉnh cơ sở tri thức trên một lượng văn bản Internet tiếng Việt và tiếng Anh đủ
lớn để tiếp tụng nâng cao chất lượng dịch.
− Trong quá trình thử nghiệm, chúng tơi đã khảo sát dịch thử một văn bản gồm
94 câu. Chất lượng dịch Việt-Anh đạt 23 câu xem hiểu tạm chấp nhận được.
Sau khi bổ sung 16 từ, số câu cĩ thể hiểu đúng là 47. Sau khi bổ sung 6 thành
ngữ và 5 quy tắc văn phạm cịn thiếu, cĩ thể hiểu được 62 câu trong bản dịch
với hành văn rõ ràng hơn.
− Từ kết quả thử nghiệm và từ các phân tích đã nêu trên, ta cĩ thể đi đến kết luận:
• Rất khĩ giới hạn việc chuẩn bị cơ sở tri thức ngơn ngữ cho một lĩnh vực
chuyên mơn hay một lớp cấu trúc văn phạm hẹp.
• Cần phải thử nghiệm trên một lượng văn bản thực tế đủ lớn để tinh chỉnh
sản phẩm – Đây là một cơng việc rất mất cơng.
• Cần phải kết hợp với việc hồn thiện mơ hình dịch tự động để cĩ những cải
thiện về chất lượng dịch máy.
2.2.3.2 Dĩng hàng văn bản song ngữ Pháp-Việt
Cho đến nay các hệ thống dĩng hàng ở mức câu đã được kết quả khá tốt, với độ
chính xác xấp xỉ 95% mà chỉ sử dụng các thơng tin thống kê khá độc lập với ngơn
ngữ, trừ trường hợp các văn bản dịch khơng thật sự "song song" (chẳng hạn như
dịch lược bớt nhiều). Trong khi đĩ các hệ thống dĩng hàng ở mức từ, ngữ đoạn thì
kết quả kém chính xác hơn và hiển nhiên phụ thuộc vào từng cặp ngơn ngữ cụ thể.
Trong khuơn khổ của dự án này, chúng tơi tập trung nghiên cứu dĩng hàng ở mức
câu và mức từ/ngữ cho các văn bản song ngữ Pháp - Việt. Đối với việc dĩng hàng
ở mức câu, chúng tơi áp dụng phương pháp đã được nhĩm triển khai ở giai đoạn
43
trước cho các cặp ngơn ngữ Ấn - Âu cho cặp tiếng Pháp - Việt và đánh giá kết quả
nhằm điều chỉnh các tham số của hệ thống một cách phù hợp nhất.
Đối với việc dĩng hàng ở mức từ ngữ, nghiên cứu tập trung vào việc cải tiến kĩ
thuật dĩng hàng ở mức từ sử dụng phương pháp vectơ khoảng cách bằng cách kết
hợp với kĩ thuật dĩng hàng cĩ cấu trúc. Việc dĩng hàng văn bản song ngữ ở mức
từ địi hỏi bước tiền xử lí là phân tích từ ngữ trong các văn bản được xét. Điều này
địi hỏi các cơng cụ phân tích văn bản trong từng ngơn ngữ, ở đây là tiếng Pháp và
tiếng Việt. Trong khi các cơng cụ và tài nguyên ngơn ngữ cho phân tích các ngơn
ngữ Ấn Âu nĩi chung và tiếng Pháp nĩi riêng được phát triển đa dạng từ nhiều
năm nay thì cơng cụ và đặc biệt là tài nguyên ngơn ngữ cho việc phân tích tiếng
Việt cĩ thể nĩi là khơng cĩ gì. Khĩ khăn là chưa cĩ một sự hợp tác chặt chẽ giữa
những nhà nghiên cứu Việt ngữ và những người làm Tin học: cộng đồng ngơn ngữ
học trong nước khá "thờ ơ" với lĩnh vực cơng nghệ ngơn ngữ và rất hiếm người
nghiên cứu ngơn ngữ hình thức. Trong khi đĩ các nhà ngơn ngữ cho đến nay vẫn
khĩ thống nhất với nhau về những vấn đề nền tảng của phân tích ngơn ngữ như từ
loại tiếng Việt, phân tích thành phần câu. Vì những lí do đĩ, các nghiên cứu trong
khuơn khổ đề tài này đã tập trung đa phần thời gian và nhân lực để xây dựng và
phát triển tài nguyên ngơn ngữ và cơng cụ chuẩn mực cho việc phân tích văn bản
tiếng Việt, bao gồm xây dựng kho từ vựng chứa thơng tin ngữ pháp, phân tách và
gán nhãn từ loại cho các đơn vị từ vựng trong văn bản bằng phương pháp thống kê,
xây dựng văn phạm phân tích ngữ pháp tiếng Việt (theo hệ hình thức TAG). Đây
là những ngữ liệu và cơng cụ cơ bản mà các nghiên cứu về xử lí ngơn ngữ tự nhiên
đều cần đến. Các kho ngữ liệu này được mã hố theo cấu trúc XML đang được
xem xét đưa vào chuẩn quốc tể về biểu diễn và quản lí tài nguyên ngơn ngữ (ISO
TC 37 SC4).
Nội dung nghiên cứu lý thuyết
− Phương pháp phân tách từ tiếng Việt: sử dụng ơtơmat để nhận dạng chuỗi kí tự
tương ứng với đơn vị từ vựng trong từ điển.
− Xây dựng bộ nhãn từ loại tiếng Việt: tiến hành mơ tả từ vựng theo mơ hình hai
lớp, tương thích với mơ hình MULTEXT cho các ngơn ngữ Tây Âu và Đơng
Âu. Chọn phương pháp quá trình ngẫu nhiên để giải quyết bài tốn gán nhãn từ
vựng.
− Xây dựng văn phạm tiếng Việt theo hệ hình thức TAG (Tree Adjoining
Grammar)
− Dĩng hàng song ngữ: Kết hợp phương pháp dĩng hàng sử dụng vectơ khoảng
cách và phương pháp dĩng hàng dựa vào văn bản cĩ cấu trúc.
Sản phẩm
− Dĩng hàng:
• Cơng cụ phần mềm: hệ thống cĩ khả năng xác định các tương đương dịch ở
mức từ/ngữ đoạn trong các văn bản song ngữ Pháp - Việt, nhằm hỗ trợ cho
việc dịch tự động hay dịch tay, cũng như phục vụ cho các nghiên cứu ngơn
ngữ về từ vựng, thuật ngữ trong một hay nhiều ngơn ngữ hoặc cĩ thể hỗ trợ
cho việc học tiếng.
44
• Kho ngữ liệu: kho văn bản song ngữ Pháp - Việt và Anh - Việt được thu
thập và mã hố theo sơ đồ biểu diễn đang được xem xét đưa vào chuẩn
quốc tế về biểu diễn và quản lí tài nguyên ngơn ngữ quốc tế.
− Sản phẩm kèm theo:
• Cơng cụ phần mềm: Bộ cơng cụ xử lí tự động văn bản tiếng Việt như phần
mềm tách từ (tokenizer), phần mềm gán nhãn từ loại tự động (POS tagger),
phần mềm đối chiếu từ loại (concordancer), phần mềm phân tích cú pháp
câu tiếng Việt (parser).
• Kho ngữ liệu: Cơ sở ngữ liệu tiếng Việt gồm bộ từ vựng cĩ mơ tả các thơng
tin ngữ pháp, từ vựng; kho văn bản tiếng Việt cĩ gán nhãn từ loại, tập quy
tắc ngữ pháp. Cũng như kho ngữ liệu song ngữ ở trên, kho ngữ liệu tiếng
Việt này cũng được mã hố theo sơ đồ biểu diễn đang được xem xét đưa
vào chuẩn quốc tể về biểu diễn và quản lí tài nguyên ngơn ngữ.
Trả lời ý kiến nhận xét
− Trong quá trình nghiên cứu, nhĩm nhận thức được tầm quan trọng của việc xây
dựng một kho ngữ liệu cĩ chú giải ngữ pháp - khơng chỉ trong giới hạn của đề
tài này mà phục vụ cho tất cả các nghiên cứu khác cần đến phân tích văn bản
(tham khảo hội thảo về tài nguyên ngơn ngữ LREC -
conf.org/). Vì vậy bộ cơng cụ nhĩm đã xây dựng là nhằm đáp ứng việc quản lí,
cập nhật dữ liệu lâu dài. Nhĩm cũng quan tâm đến việc theo đuổi các sơ đồ mã
hố chuẩn quốc tế (đang được nghiên cứu, thảo luận trong dự án ISO TC37
SC4), hướng tới mục tiêu trao đổi tri thức tiếng Việt trong cộng đồng nghiên
cứu ứng dụng đa ngữ.
− Phần mềm gán nhãn sử dụng một kho văn bản gán nhãn bằng tay làm dữ liệu
huấn luyện. Việc gán nhãn bằng tay địi hỏi nhiều cơng sức, đặc biệt trong điều
kiện vấn đề phân loại từ tiếng Việt cĩ rất nhiều tranh cãi trong giới ngơn ngữ
học, chưa đi đến kết luận chuẩn mực. Cũng như các hệ thống quản lí kho văn
bản cĩ chú ngữ pháp khác trên thế giới, hệ thống của chúng tơi thực hiện gán
nhãn tự động với cơ sở tri thức “học được” từ kho văn bản gán nhãn bằng tay
với kích thước nhỏ (100 nghìn từ, so với các hệ thống khác sử dụng hàng triệu
từ); sau đĩ chỉnh sửa kết quả bằng tay để mở rộng khơng ngừng kho văn bản
mẫu. Ngồi ra, bộ nhãn đưa ra cũng cần được tiếp tục đánh giá và chỉnh sửa đề
phản ánh tốt hơn quan hệ ngữ pháp giữa các từ. Về mặt phương pháp luận,
nhĩm sử dụng phương pháp đơn giản vì thực ra vấn đề quan trọng cần giải
quyết trước là xây dựng kho từ vựng và ngữ liệu mẫu. Các phương pháp đơn
giản hay cải tiến theo đánh giá của các hệ thống cho kết quả khác nhau dưới
2% phần trăm nếu cĩ một kho ngữ liệu mẫu đủ lớn.
− Tĩm lại, đây là đề tài cần phải tiếp tục nghiên cứu lâu dài và cĩ nhiều can thiệp
hơn nữa của giới ngơn ngữ học. Nhĩm hiện đang tiếp tục nghiên cứu và sắp tới
sẽ phổ biến phần mềm và triển khai các hoạt động hợp tác nghiên cứu với các
nhà ngơn ngữ.
− Về phần mềm dĩng hàng, hiện tại nhĩm đang đánh giá kết quả dĩng hàng ở
mức từ (kết quả dĩng hàng ở mức câu cho kết quả đạt yêu cầu - đạt 98 -> 99%
đối với văn bản song ngữ cĩ chất lượng dịch tốt). Kho dữ liệu song ngữ thu
45
thập được cũng được mã hố theo sơ đồ XML chuẩn được thiết kế cho các kho
ngữ liệu đơn và đa ngữ trong cộng đồng nghiên cứu xử lí ngơn ngữ tự nhiên.
− Kết luận: nhĩm thực hiện mục tiêu xây dựng một hệ thống nghiên cứu mở và
hợp tác với các nhĩm nghiên cứu khác - điều kiện cần thiết để thúc đẩy việc
nghiên cứu xử lí tự động tiếng Việt vốn chậm hơn các nước tiên tiến nhiều
chục năm.
2.2.3.2 Mơ hình từ điển điện tử
Một trong các mục tiêu quan trọng của ngành Cơng nghệ thơng tin là làm cho máy
tính cĩ khả năng giao tiếp với con người bằng ngơn ngữ của con người (ngơn ngữ
tự nhiên). Tương tự việc con người cần đến từ điển khi học và sử dụng một ngơn
ngữ, máy tính cần cĩ từ điển của riêng mình để cĩ thể hiểu và sử dụng các từ trong
một ngơn ngữ tự nhiên. Từ điển điện tử cung cấp nguồn tri thức giúp máy tính cĩ
thể hiểu được ngơn ngữ con người và đĩng vai trị nền tảng cho các nghiên cứu về
ngơn ngữ tự nhiên.
Khác với các từ điển trên máy tính dành cho con người như Lạc Việt Từ điển,
Click and See hay Kim từ điển… từ điển điện tử được thiết kế riêng cho các ứng
dụng xử lý ngơn ngữ tự nhiên như dịch máy, trả lời tự động… Vì vậy hệ thống ngữ
nghĩa (cách biểu diễn nghĩa của từ) trong từ điển điện tử khơng được lưu trữ dưới
dạng ngơn ngữ tự nhiên như trong từ điển thơng thường mà phải ở một số dạng
đặc biệt để máy tính cĩ thể xử lý được như mạng ngữ nghĩa, frame…
Để cĩ thể thấy rõ hơn vai trị của từ điển điện tử ta hãy xét một số ví dụ sau đây:
Xây dựng engine tìm kiếm dựa trên ngữ nghĩa: với các engine tìm kiếm thơng
dụng như Google hay Yahoo, ta cĩ thể tìm được những văn bản cĩ chứa một từ
khĩa nào đĩ. Tuy nhiên, với các từ khĩa đa nghĩa như table (là “bàn” hoặc “bảng
biểu”) và nếu người dùng chỉ muốn tìm các văn bản cĩ chứa từ “table” với nghĩa
“bảng biểu” thì các engine tìm kiếm hiện nay sẽ trả về rất nhiều tài liệu khơng liên
quan. Trong trường hợp này nếu ta thực hiện việc chỉ mục các văn bản khơng phải
theo sự xuất hiện của từ khĩa mà theo nghĩa của từ thì ta cĩ thể dễ dàng giải quyết
vấn đề nêu trên.
Xây dựng hệ quản trị cơ sở dữ liệu cho phép truy vấn dựa trên ngữ nghĩa: Giả sử
ta cĩ câu truy vấn sau: “Hãy tìm tất cả những người trí thức đang sống trong khu
phố X”. Với một hệ quản trị cơ sở dữ liệu thơng thường trong điều kiện ta chỉ cĩ
trường mơ tả nghề nghiệp, ta khơng thể thực hiện được câu truy vấn này bởi trong
cơ sở dữ liệu khơng lưu trữ bản ghi nào cĩ giá trị trường nghề nghiệp là “trí thức”
cả. Tuy nhiên, với sự hỗ trợ của từ điển điện tử, ta cĩ thể biết rằng “bác sỹ”, “kỹ
sư”, “nhà văn”, “nhà thơ”… là những nghề nghiệp của giới trí thức. Vì vậy ta cĩ
thể tìm ra tất cả các bản ghi cĩ chứa những từ này.
Trên thế giới, đã cĩ rất nhiều dự án lớn kéo dài nhiều năm nghiên cứu về từ điển
điện tử như dự án WORDNET tại Đại học Princeton, dự án Cyc phát triển bởi
cơng ty CYCORP, dự án EDR của Viện nghiên cứu về từ điển điện tử của Nhật
bản. Tại Việt Nam, từ điển điện tử cũng đã bắt đầu được sử dụng trong một số ứng
dụng xử lý ngơn ngữ tự nhiên tiếng Việt. Mặc dù vậy, các từ điển này được thiết
46
kế chuyên biệt cho từng ứng dụng cụ thể nên chúng khĩ cĩ thể được áp dụng một
cách rộng rãi. Hơn nữa, việc thiếu những nghiên cứu chuyên sâu về từ điển điện tử
đã phần nào ảnh hưởng đến chất lượng của các từ điển này.
Trong khuơn khổ đề tài KC01-03, chúng tơi đã thực hiện được những cơng việc
sau:
− Nghiên cứu đánh giá các từ điển điện tử nổi tiếng trên thế giới như Cyc,
WordNet, EDR.
− Dựa trên các nghiên cứu đĩ, xây dựng được một mơ hình chi tiết cho từ điển
điện tử tiếng Việt, phù hợp với các yêu cầu đa dạng của các ứng dụng xử lý
ngơn ngữ tự nhiên tiếng Việt nhưng vẫn đảm bảo tính khả thi.
− Xác định các bước cần thực hiện cũng như các vấn đề cần giải quyết để xây
dựng nên từ điển hồn chỉnh.
Trả lời ý kiến nhận xét
− Đây là một nhánh nhỏ của đề tài nhằm nghiên cứu mơ hình lý thuyết và đưa ra
mơ hình của từ điển điện tử (TĐĐT) cho tiếng Việt.
− TĐĐT cho tiếng Việt là cơng cụ cơ bản để hiểu ngơn ngữ trên máy tính, ý
nghĩa tương tự như con người cầ cĩ từ điển liên quan đến các đề tài khác với
dịch tự động, tuy nhiên do mục tiêu chỉ làm mơ hình nên chưa thể kết nối ngay
được. Đây là một vấn đề phức tạp (Nhật bản cĩ cả một Viện chuyên ngành làm
chuyện này) nên mục tiêu chỉ giới hạn như vậy, làm cơ sở cho các nghiên cứu
tiếp theo.
Nhận xét về tên "Mơ hình từ điển" hay "Từ điển mơ hình" là chưa chính xác. Đã
viết rõ từ đầu đây là "Mơ hình của từ điển điện tử".
Trong thời gian tới, chúng tơi sẽ tiến hành xây dựng một số chương trình thử
nghiệm dùng cho việc xây dựng từ điển, nhập dữ liệu mẫu với một số lượng nhỏ
các từ, kết nối dữ liệu của từ điển mẫu với các chương trình ứng dụng, sử dụng từ
điển mẫu cố gắng giải quyết một số vấn đề của xử lý ngơn ngữ tự nhiên cho tiếng
Việt.
Mơ hình VMTD mới chỉ là bước đầu trong quá trình xây dựng một từ điển điện tử
thực sự. Quá trình này địi hỏi phải cĩ sự đầu tư nghiên cứu lâu dài của nhiều
chuyên gia về ngơn ngữ học cũng như về tin học để cĩ thể xây dựng được một từ
điển điện tử chất lượng cao.
2.3. Tổng quát hố và đánh giá kết quả thu được
Lần đầu tiên ở Việt Nam cĩ một đề tài nghiên cứu cấp nhà nước về nhận dạng,
tổng hợp và xử lý tiếng Việt, một vấn đề hết sức quan trọng của CNTT mang đặc
thù Việt Nam. Tập thể cán bộ tham gia đề tài đã thực hiện đầy đủ các nhiệm vụ đặt
ra trong thuyết minh đề cương ban đầu cũng như trong hợp đồng. Đề tài trong ba
năm thực hiện đã tập trung nghiên cứu vào những vấn đề cơ bản nhất trong ba nội
dung đã đăng ký là 1/ Nhận dạng và tổng hợp tiếng Việt; 2/ Nhận dạng chữ Việt in
và viết tay cĩ hạn chế, 3/ Xử lý ngơn ngữ tự nhiên tiếng Việt (các giải pháp trong
xử lý ngơn ngữ tự nhiên tiếng Việt, nhằm tới mục đích dịch tự động).
47
Đề tài đã tạo ra một số phần mềm ứng dụng, trong số đĩ đã cĩ sản phẩm trở thành
thương phẩm. Do thời gian mới thực hiện trong vịng ba năm, việc triển khai các
sản phẩm này vào thực tế cịn cần thời gian để xem xét, tuy nhiên đã cĩ thể đánh
gi
Các file đính kèm theo tài liệu này:
- 34 (1).pdf