Tài liệu Các giải thuật phát hiện chữ viết đối với các ngôn ngữ có dấu: Thông tin khoa học công nghệ
Tạp chí Nghiên cứu KH&CN quân sự, Số 46, 12 - 2016 163
CÁC GIẢI THUẬT PHÁT HIỆN CHỮ VIẾT
ĐỐI VỚI CÁC NGÔN NGỮ CÓ DẤU
Lê Ngọc Thúy*
Tóm tắt: Có rất nhiều nghiên cứu trong thời gian gần đây về vấn đề phát hiện và
nhận dạng chữ viết trong ảnh và video. Tuy nhiên, hầu hết các nghiên cứu này tập
trung vào giải quyết bài toán đối với chữ viết tiếng Anh mà có rất ít nghiên cứu
dành cho chữ viết của các ngôn ngữ khác. Trong khi đó, chữ viết có dấu là một vấn
đề phức tạp để có thể định vị và nhận dạng chính xác do phần dấu thường nằm tách
biệt so với phần chính của ký tự. Bài báo này giới thiệu tổng quan các giải thuật
phát hiện chữ viết trong ảnh của các ngôn ngữ có dấu trên thế giới để cung cấp các
hướng nghiên cứu đối với bài toán phát hiện chữ viết tiếng Việt.
Từ khóa: OCR, Phát hiện chữ viết trong ảnh chụp, Nhận dạng chữ viết trong ảnh chụp.
1. GIỚI THIỆU
Bài toán nhận dạng văn bản trong ảnh quét (Optical Character Recognition –
O...
7 trang |
Chia sẻ: quangot475 | Lượt xem: 271 | Lượt tải: 0
Bạn đang xem nội dung tài liệu Các giải thuật phát hiện chữ viết đối với các ngôn ngữ có dấu, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
Thông tin khoa học công nghệ
Tạp chí Nghiên cứu KH&CN quân sự, Số 46, 12 - 2016 163
CÁC GIẢI THUẬT PHÁT HIỆN CHỮ VIẾT
ĐỐI VỚI CÁC NGÔN NGỮ CÓ DẤU
Lê Ngọc Thúy*
Tóm tắt: Có rất nhiều nghiên cứu trong thời gian gần đây về vấn đề phát hiện và
nhận dạng chữ viết trong ảnh và video. Tuy nhiên, hầu hết các nghiên cứu này tập
trung vào giải quyết bài toán đối với chữ viết tiếng Anh mà có rất ít nghiên cứu
dành cho chữ viết của các ngôn ngữ khác. Trong khi đó, chữ viết có dấu là một vấn
đề phức tạp để có thể định vị và nhận dạng chính xác do phần dấu thường nằm tách
biệt so với phần chính của ký tự. Bài báo này giới thiệu tổng quan các giải thuật
phát hiện chữ viết trong ảnh của các ngôn ngữ có dấu trên thế giới để cung cấp các
hướng nghiên cứu đối với bài toán phát hiện chữ viết tiếng Việt.
Từ khóa: OCR, Phát hiện chữ viết trong ảnh chụp, Nhận dạng chữ viết trong ảnh chụp.
1. GIỚI THIỆU
Bài toán nhận dạng văn bản trong ảnh quét (Optical Character Recognition –
OCR) là vấn đề đã được giải quyết tốt với nhiều sản phẩm thương mại trên thị
trường. Tuy nhiên, phát hiện và nhận dạng chữ viết trong ảnh chụp là một vấn đề
còn có nhiều thách thức và đang rất được các nhà khoa học quan tâm trong thời
gian gần đây. Vấn đề này có những nét tương đồng nhưng gặp nhiều thách thức
hơn so với bài toán OCR do các nguyên nhân sau:
(i) Sự phức tạp của khung cảnh trong ảnh: có rất nhiều vật thể, biểu tượng,
tranh ảnh,... xen lẫn vào trong khung cảnh của ảnh chụp tự nhiên với những
họa tiết, cấu trúc và đặc trưng tương tự như chữ viết;
(ii) Ảnh bị mờ, kém chất lượng do camera focus không đúng;
(iii) Độ sáng trong ảnh không đồng đều;
(iv) Chữ viết bị biến dạng do trục quang học của camera không vuông góc với
mặt phẳng chữ viết.
Bài toán nhận dạng chữ viết trong ảnh chỉ mới nhận được nhiều sự quan tâm
của các học giả gần đây nhờ vào sự phát triển của các thiết bị di động về cả khả
năng thu nhận hình ảnh và khả năng xử lý, tính toán. Kết quả của cuộc thi đọc máy
ICDAR 2015 cho thấy: kết quả phát hiện và nhận dạng chữ viết còn thấp với
trường hợp ảnh chụp ở góc độ bất kỳ. Khả năng nhận dạng chữ viết tốt nhất trong
cuộc thi với ngữ cảnh tổng quát là 12,37% (các nghiên cứu khác cung cấp kết quả
cao hơn sau cuộc thi đạt khả năng nhận dạng dưới 50%).
Có nhiều bài báo tổng quan về các nghiên cứu trong lĩnh vực này trong thời
gian gần đây. Nổi bật nhất là bài giới thiệu tổng quan gần đây của Q. Ye và D.
Doermann [1] với hơn 200 bài báo tham khảo được phân loại một cách tổng quát
thành hai nhóm. Nhóm thứ nhất bao gồm các giải thuật thực hiện các giai đoạn xác
định vị trí có chữ viết trong ảnh, phân đoạn ký tự và nhận dạng ký tự một cách
riêng rẽ dựa vào các mô-đun độc lập. Nhóm thứ hai bao gồm các giải thuật tiến
hành các nhiệm vụ kể trên theo phương pháp tổng thể, thống nhất. Đối với mỗi
nhóm, các phương pháp lại được phân chia theo các hướng tiếp cận khác nhau.
Y. Zhu và các tác giả đưa ra bức tranh tổng quan khác về vấn đề phát hiện và
nhận dạng chữ viết trong thời gian gần đây [2]. Bài báo tập trung vào giới thiệu các
Kỹ thuật điều khiển & Điện tử
Lê Ngọc Thúy, “Các giải thuật phát hiện chữ viết đối với các ngôn ngữ có dấu.” 164
giải thuật phát hiện và nhận dạng chữ viết đối với ảnh tĩnh. Ưu điểm của bài báo là
đã nêu ra được các điểm mạnh và điểm yếu đối với một số các giải thuật tiêu biểu
cho mỗi dạng bài toán. Đối với việc phát hiện chữ viết, các giải thuật có thể phân
chia thành các hướng nghiên cứu chính như sau:
- Hướng nghiên cứu dựa trên dạng hoa văn: các giải thuật phát triển theo hướng
nghiên cứu này xem chữ viết là một dạng hoa văn đặc biệt và sử dụng các tính chất
của hoa văn này để phân biệt giữa vùng có chữ viết và vùng không có chữ viết.
Phương pháp này thường sử dụng cửa sổ quét dọc theo ảnh để rút trích ra các tính
chất hoa văn trong toàn bộ ảnh. Nhược điểm của hướng tiếp cận dựa trên hoa văn
là yêu cầu về khả năng tính toán lớn, dễ bị ảnh hưởng với hướng và kích cỡ của
chữ viết.
- Hướng nghiên cứu dựa trên các thành phần liên kết: hướng nghiên cứu này
phân tích ảnh thành các thành phần liên kết với nhau, với mỗi nhóm liên kết được
gán chung một nhãn duy nhất dựa vào sự tương tự về màu sắc hay khoảng cách
trong không gian của các điểm ảnh. Sau đó, các giải thuật đề xuất các quy luật
hoặc sử dụng bộ phân loại để phân biệt các vùng chứa chữ viết so với các vùng
không chứa chữ viết. Hướng nghiên cứu này đang được quan tâm trong thời gian
gần đây do yêu cầu tính toán ít hơn và thường ít bị ảnh hưởng bởi hướng và kích
cỡ của chữ viết trong ảnh.
- Bên cạnh đó, một số giải thuật tiếp cận bài toán theo hướng tích hợp, sử dụng
nhiều dạng đặc trưng khác nhau để xác định vùng có chữ viết ở trong ảnh.
Mặc dù vấn đề nhận dạng chữ viết trong ảnh/video đã nhận được rất nhiều sự
quan tâm của các nhà nghiên cứu trong thời gian qua nhưng hầu hết các kết quả
nghiên cứu đều tập trung vào việc phát hiện và nhận dạng chữ viết đối với tiếng
Anh. Kết quả của cuộc thi nhận dạng chữ viết ICDAR 2013 nhấn mạnh rằng phần
lớn các dấu chấm trong hai chữ cái “i” và “j” khi viết ở dạng chữ thường bị mất đi
trong quá trình nhận dạng của các giải thuật. Do đó, nếu sử dụng trực tiếp các giải
thuật này vào việc phát hiện và nhận dạng chữ viết tiếng Việt nói riêng, hay các
ngôn ngữ có dấu nói chung, sẽ gặp khó khăn trong việc tách biệt và nhận dạng
đúng các ký tự, chữ có dấu của các ngôn ngữ đó.
Các bài phân tích tổng quan các giải thuật nhận dạng chữ viết trong ảnh trước
đây chưa đề cập đến những vấn đề chi tiết trong phát hiện và nhận dạng của các
ngôn ngữ khác. Bài báo này sẽ tập trung vào giới thiệu các giải thuật nhận dạng
chữ viết trong ảnh và video của các ngôn ngữ có dấu trên thế giới để cung cấp
thêm các cơ sở khoa học, hỗ trợ trong định hướng phát triển các giải thuật phát
hiện, tách biệt chữ viết tiếng Việt trong ảnh và video. Phần 2 của bài báo sẽ giới
thiệu một số công trình nghiên cứu phát hiện và nhận dạng chữ viết trong ảnh đối
với một số ngôn ngữ có dấu trên thế giới như tiếng Ả-rập, tiếng Thái, tiếng Urdu.
Phần 3 sẽ trình bày một số giải thuật xử lý đa ngôn ngữ. Cuối cùng, bài báo đưa ra
một số kết luận và đề xuất cho việc nghiên cứu phát hiện và nhận dạng chữ viết
tiếng Việt trong ảnh.
2. CÁC GIẢI THUẬT XỬ LÝ CHỮ VIẾT CÓ DẤU
2.1. Chữ viết Ả-rập
Thông tin khoa học công nghệ
Tạp chí Nghiên cứu KH&CN quân sự, Số 46, 12 - 2016 165
Phần này giới thiệu một số nghiên cứu trong lĩnh vực định vị và nhận dạng chữ
viết Ả-rập trong hình ảnh và video [3, 4, 5, 7, 8, 9].
Fathalla, R. và các tác giả [3] đề xuất giải thuật để tách biệt phần chữ viết Ả-
rập ra khỏi phần nền phức hợp phía sau từ một ảnh màu. Giải thuật sử dụng
phương pháp các thành phần liên kết (Connected Components) sử dụng biến đổi
Watershed từ ảnh màu RGB. Các vùng ảnh phân chia dựa trên biến đổi Watershed
sẽ được nối lại với nhau dựa trên tính đồng nhất của vùng ảnh đấy. Sau đó, các
vùng ảnh này được phân loại thành vùng chứa chữ viết Ả-rập hay không sử dụng
phương pháp SVM (Support Vector Machine).
Giải thuật M1 [4] là một trong các nghiên cứu gần đây định vị chữ viết Ả-rập
trong video sử dụng phương pháp học máy. Nghiên cứu đã đề xuất hai giải thuật
khác nhau sử dụng đặc trưng Haar-like và đặc trưng họa tiết các khối nhị phân
(Multi-Block Local Binary Patterns - MBLBP) làm đầu vào của mạng nơ-ron để
xây dựng các bộ phân loại vùng có chữ viết và vùng không có chữ viết. Giải thuật
sử dụng các cửa sổ trượt với các kích thước khác nhau quét dọc theo khung hình để
nhận biết mỗi vùng ảnh có chữ viết hay không. Kết quả thử nghiệm đối với các
video lấy từ các kênh tin tức tiếng Ả-rập cho thấy giải thuật sử dụng đặc trưng họa
tiết các khối nhị phân có kết quả định vị vùng có chữ viết Ả-rập tốt hơn giải thuật
sử dụng đặc trưng Haar-like. Tuy nhiên, độ định vị chính xác cũng không vượt quá
bảy mươi hai phần trăm.
Đối với bài toán định vị và nhận dạng chữ viết Ả-rập trong video có thể kể đến
các nghiên cứu của Halima và các tác giả [6]. Nghiên cứu này có ưu điểm là giải
thuật xử lý phân đoạn video trước khi định vị chữ viết trong khung hình. Để phân
đoạn video, các khung hình sẽ được nhóm lại thành các nhóm chính dựa trên kỹ
thuật nhận dạng khuôn mặt. Giải thuật cũng sử dụng phương pháp tích hợp nhiều
khung hình (Multiple Frames Integration - MFI) để tối thiểu sự thay đổi của cảnh
nền. Nghiên cứu sử dụng các trích chọn đặc trưng được xây dựng dựa trên cường
độ sáng của ảnh màu (trong không gian HSV) và dựa trên các đường biến (xác
định bằng toán tử Sobel) để làm đầu vào cho mạng nơ-ron phân loại vùng có chữ
viết và vùng không có chữ viết. Kết quả định vị chữ viết Ả-rập của phương pháp
này tương đối khả quan với độ chính xác định vị đạt xấp xỉ chín mươi phần trăm.
2.2. Chữ viết Thái Lan
Việc phát hiện và nhận dạng chữ viết Thái trong ảnh có nhiều điểm khác biệt so
với phát hiện và nhận dạng chữ viết tiếng Anh. Tuy nhiên, hiện vẫn còn rất ít
nghiên cứu đóng góp cho vấn đề này [10, 11, 13, 15, 16, 17].
Wittaya và các tác giả đề xuất giải thuật phát hiện và tách biệt chữ viết Thái tự
động dựa vào các thành phần liên kết xây dựng dựa trên các đường biên (xác định
bằng phương pháp Laplacian of Gaussian) [14]. Các thành phần liên kết được xem
là có khả năng là ký tự (dựa vào tỷ số giữa chiều rộng và chiều cao) sẽ được phân
lớp để tìm ra các nguyên âm và dấu nằm ở trên và dưới thành phần chính của dòng
chữ. Các chữ viết sau đó được tách ra khỏi ảnh nền dựa vào mô hình Gaussian hỗn
hợp trên các lớp màu khác nhau. Tuy nhiên, phương pháp này chỉ mới thử nghiệm
trên các ảnh bảng chỉ dẫn đơn giản có độ phân giải thấp.
Trong khi đó, một giải thuật được đề xuất trong thời gian gần đây có khả năng
phát hiện và nhận dạng chữ viết Thái với độ chính xác lên đến 80% [10]. Giải thuật
Kỹ thuật điều khiển & Điện tử
Lê Ngọc Thúy, “Các giải thuật phát hiện chữ viết đối với các ngôn ngữ có dấu.” 166
sử dụng trích chọn đặc trưng SIFT (Scale Invariant Feature Transform) để xây
dựng một bảng cơ sở dữ liệu các đặc trưng của mỗi ký tự. Mỗi ký tự sẽ được mô
hình hóa dựa trên các dữ liệu đặc trưng trong cơ sở dữ liệu sử dụng thuật toán K-
means Clustering (kỹ thuật phổ biến để chia một nhóm các đối tượng với số lượng
lớn thành k nhóm với đặc tính riêng cho mỗi nhóm). Mô hình các ký tự này sẽ
được so sánh với vùng ảnh quan tâm để nhận dạng ký tự.
Trong khi các nghiên cứu kể trên áp dụng các quy luật toán học để phát hiện
chữ viết Thái, Thananop và các tác giả sử dụng mạng nơ-ron để định vị chữ viết
Thái trong ảnh [12]. Một cửa sổ trượt dùng để quét vùng hình ảnh và đưa vào
mạng nơ-ron phát hiện chữ viết (dùng phương pháp Convolutional Neural
Network). Sau đó, giải thuật xác định các đường cơ sở của các vùng chữ viết, loại
bỏ các đường cắt vô nghĩa giữa các đường cơ sở. Do đặc trưng của chữ viết Thái
có nhiều lớp nên giải thuật bổ sung thêm bước hậu xử lý để mở rộng các đường
bao của mỗi ký tự chính về phía trên và phía dưới, và gán các dấu vào các chữ
dựa trên góc mở 45 độ về mỗi bên ở phía trên phần chữ viết chính. Kết quả thử
nghiệm cho thấy giải thuật có khả năng phát hiện các chữ viết Thái theo các
hướng khác nhau.
2.3. Các chữ viết có dấu khác
Ngoài ra, còn có một số ngôn ngữ khác có chữ viết với phần dấu và các phần
phụ tách rời khỏi phần chính của chữ viết tương tự như chữ viết tiếng Việt. Số
lượng các nghiên cứu về vấn đề phát hiện và nhận dạng chữ viết của các ngôn ngữ
này còn rất hạn chế, chẳng hạn như chữ viết Urdu của Pakistan [18, 19, 20], chữ
viết Bangla của Ấn Độ [21]. Việc phát triển các giải thuật phát hiện và nhận dạng
chữ viết trong ảnh đối với các ngôn ngữ này còn gặp nhiều khó khăn do các
nguyên nhân sau:
(i) Cấu tạo chữ viết phức tạp với nhiều thành phần nằm tách rời phần chính của
chữ viết;
(ii) Chưa thu hút được nhiều nhà nghiên cứu như đối với chữ viết tiếng Anh vì
đây không phải là ngôn ngữ quốc tế;
(iii) Cơ sở dữ liệu hình ảnh chữ viết phong phú và được phân loại đối với các
ngôn ngữ này còn thiếu.
3. CÁC GIẢI THUẬT XỬ LÝ ĐA NGÔN NGỮ
Có một số nghiên cứu giải quyết bài toán định vị chữ viết trong ảnh trên phương
diện rộng hơn: phát hiện chữ viết của nhiều ngôn ngữ khác nhau chứ không tập trung
vào nghiên cứu cho một loại ngôn ngữ cụ thể nào. Các giải thuật được thử nghiệm
để phát hiện đồng thời rất nhiều loại chữ viết khác nhau như: Anh, Ả-rập, Trung
Quốc, Nhật, Hàn Quốc, chữ Urdu, Thái Lan, chữ Kannada/ Bengali/ Tamil/ Hindi
của Ấn Độ, [22, 23, 24, 25, 26]. Việc xử lý đa ngôn ngữ thường đòi hỏi phải sử
dụng nhiều trích chọn đặc trưng đa dạng để đảm bảo rút trích được các đặc tính của
nhiều ngôn ngữ khác nhau. Quá trình phân loại có thể tiến hành theo hai hướng: sử
dụng mạng nơ-ron nhân tạo hoặc sử dụng các mô hình xác suất toán học.
4. KẾT LUẬN VÀ ĐỀ XUẤT
Nhu cầu nhận dạng chữ viết trong ảnh là rất lớn, hiện các nghiên cứu vẫn chưa
Thông tin khoa học công nghệ
Tạp chí Nghiên cứu KH&CN quân sự, Số 46, 12 - 2016 167
đạt được đến mức độ thỏa mãn cho các ứng dụng thực tiễn. Cần có nhiều nỗ lực
đóng góp cho nghiên cứu trong lĩnh vực này. Đặc biệt, cần có sự quan tâm hơn nữa
đối với việc nhận dạng các chữ viết không phải là tiếng Anh, các chữ viết sử dụng
các ký tự khác bộ chữ cái La-tinh.
Khi nghiên cứu nhận dạng chữ viết tiếng Việt cần lưu ý đến vấn đề nhận dạng
dấu. Việc nhận dạng dấu có ý nghĩa quan trọng vì đa số các từ trong tiếng Việt đều
có dấu. Trong quá trình nhận dạng các ký tự tiếng Việt có thể vận dụng các giải
thuật nhận dạng ký tự mang lại hiệu quả cao đối với bộ chữ cái La-tinh, nhưng cần
lưu ý cải tiến giải thuật để phù hợp với tiếng Việt có dấu. Trong quá trình nhận
dạng từ, cần lưu ý rằng tiếng Việt khác các ngôn ngữ tiêu biểu của La-tinh (Tiếng
Anh, tiếng Pháp,) ở chỗ tiếng Việt có cả từ đơn và từ ghép nên khi nhận dạng từ
có thể không chỉ dựa trên từng tiếng đơn lẻ mà phải phối hợp với quá trình nhận
dạng của hai, ba tiếng liên tiếp.
Khi phát triển các giải thuật phân tách chữ viết tiếng Việt theo hướng các thành
phần liên kết thì cần lưu ý xử lý các dấu rời so với thành phần chính của từ vì các
thành phần rời này có thể dễ dàng bị xem là nhiễu và bỏ qua.
Rất nhiều nghiên cứu hiện nay còn bị giới hạn khả năng do chỉ phân loại được
các chữ viết theo phương nằm ngang. Các giải thuật này có thể cải tiến bằng cách
sử dụng thêm các cửa sổ trượt theo những hướng khác nhau để phát hiện các chữ
viết bố trí theo các phương khác phương ngang.
Việc nhận dạng chữ viết tiếng Việt trong ảnh cũng có thể sử dụng các kết quả
tiên tiến đã được công bố/ thương mại hóa trong lĩnh vực nhận dạng văn bản quét
(OCR). Để sử dụng kết quả của các giải thuật OCR trước đây đối với tiếng Việt,
cần xác định vị trí có chữ viết và chuẩn hóa vùng có chữ viết trong ảnh (lọc bỏ
hình nền, chỉnh lại góc nghiêng của chữ, chuẩn hóa về độ sáng hoặc nhị phân hóa
vùng có chữ viết).
TÀI LIỆU THAM KHẢO
[1]. Q. Ye and D. Doermann, "Text detection and recognition in imagery: A
survey", IEEE Trans. Pattern Anal. Mach. Intell., vol. 37, no. 7 (2014), pp.
1480-1500.
[2]. Y. Zhu, C. Yao and X. Bai, "Scene text detection and recognition: Recent
advances and future trends", Frontiers of Computer Science, Vol. 10, Issue 1
(2015), pp 19-36.
[3]. Fathalla, Radwa, Yasser El Sonbaty, and Mohamed A. Ismail. "Extraction of
Arabic Words form Complex Color Images." 9th IEEE International
Conference on Document Analysis and Recognition (ICDAR 2007), Brazil.
[4]. Yousfi, Sonia, Sid-Ahmed Berrani, and Christophe Garcia. "Arabic text
detection in videos using neural and boosting-based approaches: Application
to video indexing." 2014 IEEE International Conference on Image Processing
(ICIP). IEEE, (2014).
[5]. Saudagar, Abdul Khader Jilani, et al. "Efficient Arabic text extraction and
recognition using thinning and dataset comparison technique."
Communication, Information & Computing Technology (ICCICT), 2015
International Conference on. IEEE, (2015).
Kỹ thuật điều khiển & Điện tử
Lê Ngọc Thúy, “Các giải thuật phát hiện chữ viết đối với các ngôn ngữ có dấu.” 168
[6]. Halima, M. Ben, Hichem Karray, and Adel M. Alimi. "Arabic text
recognition in video sequences." arXiv preprint arXiv:1308.3243 (2013).
[7]. Asma Andleeb and Mehreen Sirshar, “Extraction of Arabic Text Regions
From Images”, International Journal of Computer and Communication
System Engineering (IJCCSE), Vol. 2 (1), 2015, pp 8-10.
[8]. Moalla, Ikram, et al. "Extraction of Arabic text from multilingual
documents." Systems, Man and Cybernetics, 2002 IEEE International
Conference on. Vol. 4. IEEE, (2002).
[9]. Kadhim Mahdi Al-Musawi, Noor Ali Al_helaly, “Arabic Text Extraction
from Video Film”, International Journal of Computer Science and Mobile
Computing, Vol. 4, Issue. 5, May 2015, pp.1117 – 1123.
[10]. Sriman B., Schomaker L., “Object Attention Patches for Text Detection and
Recognition in Scene Images using SIFT”, ICPRAM 2015, Lisbon, Portugal,
Vol. 1, p. 304-311.
[11]. Kuntpong Woraratpanya, Pimlak Boonchukusol, Yoshimitsu Kuroki, and
Yasushi Kato “Improved Thai Text Detection from Natural Scenes”, pp. 137-
142, Yokjakata, Indonesia, 7-8 Oct. 2013.
[12]. Thananop Kobchaisawat, Thanarat H. Chalidabhongse, “A Method for Multi-
Oriented Thai Text Localization in Natural Scene Images using
Convolutional Neural Network”, 2015 IEEE International Conference on
Signal and Image Processing Applications (ICSIPA).
[13]. Thananop Kobchaisawat, Thanarat H. Chalidabhongse, “Thai Text
Localization in Natural Scene Images using Convolutional Neural Network”,
APSIPA 2014.
[14]. Wittaya Jirattitichareon, Thanarat H. Chalidabhongse, “Automatic Detection
and Segmentation of Text in Low Quality Thai Sign Images”.
[15]. Rapeeporn Chamchong, Chun Che Fung, “Segmentation of Thai Handwritten
Text for Automatic Document Retrieval”.
[16]. Ungsumalee Suttapakti, Kuntpong Woraratpanya, Kitsuchart Pasupa, Pimlak
Boonchukusol, Taravichet Titijaroonroj, Rattaphon Hokking, Yoshimitsu
Kuroki, Yasushi Kato, “Text-Background Decomposition for Thai Text
Localization and Recognition in Natural Scenes”, In Proceeding of the 6th
International Conference on Information Technology and Electrical
Engineering (ICITEE 2014), 7-8 Oct 2014, Yogyakarta, Indonesia, 2014.
[17]. Tomas Tinoco De Rubira, “Mobile Sign Translator for the Thai Language”.
[18]. A Jamil, A Abidi, I Siddiqi, F Arif, "A Hybrid Approach for Artificial Urdu
Text Detection in Video Images", 21st International Conference on Pattern
Recognition (ICPR 2012) November 11-15, 2012. Tsukuba, Japan.
[19]. I. S. Akhtar Jamil, FahimArif and AhsenRaza, "Edge-based Features for
Localization of Artificial Urdu Text in Video Images" presented at the
International Conference on Document Analysis and Recognition, Beijing,
China, (2011).
[20]. Samabia Tehsin, Sumaira Kausar, “Urdu Text Extraction Method from
Images”, World Academy of Science, Engineering and Technology
Thông tin khoa học công nghệ
Tạp chí Nghiên cứu KH&CN quân sự, Số 46, 12 - 2016 169
International Journal of Computer and Information Engineering Vol:1,
No:10, (2014).
[21]. U. Bhattacharya, S. K. Parui and S. Mondal, "Devanagari and Bangla Text
Extraction from Natural Scene Images" 2009 10th International Conference
on Document Analysis and Recognition, Barcelona, (2009), pp. 171-175.
[22]. Zhou, Gang, et al. "Detecting multilingual text in natural scene." Access
Spaces (ISAS), 2011 1st International Symposium on. IEEE, (2011).
[23]. Buta, Michal. "FASText: Efficient unconstrained scene text detector." 2015
IEEE International Conference on Computer Vision (ICCV). IEEE, (2015).
[24]. Liu, Xiabi, Hui Fu, and Yunde Jia. "Gaussian mixture modeling and learning
of neighboring characters for multilingual text extraction in images." Pattern
Recognition 41.2 (2008), pp: 484-493.
[25]. Yoichiro, B. A. B. A., and Akira Hirose. "Spectral fluctuation method: a
texture-based method to extract text regions in general scene images." IEICE
transactions on information and systems 92.9 (2009), pp: 1702-1715.
[26]. J Akhtar, B Azra, M Zumra, IS Ali, Mirza, “Multilingual Artificial Text
Extraction and Script Identification from Video Images”, International
Journal of Advanced Computer Science and Applications, Vol. 7(4), (2016),
pp: 529–539.
ABSTRACT
TEXT DETECTION FOR LANGUAGES WITH ACCENT MARKS: A SURVEY
There have been numerous studies investigating the text localization and
recognition in images and videos recently. However, most of studies try to
solve the problem for text in English while very few studies address the issue
with other languages. In fact, it is a big challenge for researchers in
accurately localizing and recognizing text with accent marks in images
because accent marks are often separate from the main part of characters.
The paper summarizes the algorithms in text detection for languages with
accent marks and suggests the approaches for Vietnamese text detection.
Keywords: OCR, Scene text detection, Scene text recognition.
Nhận bài ngày 01 tháng 09 năm 2016
Hoàn thiện ngày 26 tháng 09 năm 2016
Chấp nhận đăng ngày 14 tháng 12 năm 2016
Địa chỉ: Khoa Kỹ thuật Điện tử, Học viện Công nghệ Bưu chính Viễn thông.
*Email: thuyln@ptit.edu.vn
Các file đính kèm theo tài liệu này:
- 20_thuy_8248_2150953.pdf