Tài liệu Xây dựng công cụ hỗ trợ đọc xuất bản phẩm lưu chiểu dựa trên phương pháp đối sánh ảnh tài liệu: AGU International Journal of Sciences – 2019, Vol. 23 (2), 96 - 108
96
XÂY DỰNG CƠNG CỤ HỖ TRỢ ĐỌC XUẤT BẢN PHẨM LƯU CHIỂU
DỰA TRÊN PHƯƠNG PHÁP ĐỐI SÁNH ẢNH TÀI LIỆU
Phạm Thị Minh Thư1, Lê Việt Phương1
1Trường Cao đẳng nghề An Giang
2Sở Thơng Tin và Truyền Thơng Tỉnh An Giang
Thơng tin chung:
Ngày nhận bài: 01/10/2018
Ngày nhận kết quả bình duyệt:
14/11/2018
Ngày chấp nhận đăng:
08/2019
Title:
A supportive tool for reading
depository publications based
on document image matching
Keywords:
Document images matching,
local feature, DBSCAN, SIFT,
SURF
Từ khĩa:
Đối sánh ảnh tài liệu, gom
cụm DBSCAN, đặc trưng
SIFT, SURF
ABSTRACT
The research was carried out in many stages such as local features
extraction image, then segmenting the image by DBSCAN algorithm
(Density-Based Spatial Clustering of Application with Noise), clustering
local features and comparing each document image area to matching local
features algorithms (SIFT, SURF)...
13 trang |
Chia sẻ: quangot475 | Lượt xem: 435 | Lượt tải: 0
Bạn đang xem nội dung tài liệu Xây dựng công cụ hỗ trợ đọc xuất bản phẩm lưu chiểu dựa trên phương pháp đối sánh ảnh tài liệu, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
AGU International Journal of Sciences – 2019, Vol. 23 (2), 96 - 108
96
XÂY DỰNG CƠNG CỤ HỖ TRỢ ĐỌC XUẤT BẢN PHẨM LƯU CHIỂU
DỰA TRÊN PHƯƠNG PHÁP ĐỐI SÁNH ẢNH TÀI LIỆU
Phạm Thị Minh Thư1, Lê Việt Phương1
1Trường Cao đẳng nghề An Giang
2Sở Thơng Tin và Truyền Thơng Tỉnh An Giang
Thơng tin chung:
Ngày nhận bài: 01/10/2018
Ngày nhận kết quả bình duyệt:
14/11/2018
Ngày chấp nhận đăng:
08/2019
Title:
A supportive tool for reading
depository publications based
on document image matching
Keywords:
Document images matching,
local feature, DBSCAN, SIFT,
SURF
Từ khĩa:
Đối sánh ảnh tài liệu, gom
cụm DBSCAN, đặc trưng
SIFT, SURF
ABSTRACT
The research was carried out in many stages such as local features
extraction image, then segmenting the image by DBSCAN algorithm
(Density-Based Spatial Clustering of Application with Noise), clustering
local features and comparing each document image area to matching local
features algorithms (SIFT, SURF). Finally, determining the mismatched
areas, wrong positions of licensing printing and has been printed document
images. The propose method is capable to decay document images into each
separated block (title, image, paragraph, table), do not use machine
learning and do not need to know the detail layout of document images
previously; the matching performance is more accurately because of only
using each decayed image region to matching and detect the differences
instead of using all document images. The experimental result on 223
document images were collected at “Read Depositary” part, presented the
accuracy of the propose method is 91%, also found the difference image
regions between two document images and found the wrong position about
layout on two document images.
TĨM TẮT
Nghiên cứu được thực hiện qua nhiều cơng đoạn như rút trích đặc trưng cục
bộ cho ảnh, sau đĩ thực hiện phân vùng ảnh với thuật tốn DBSCAN
(Density-Based Spatial Clustering of Application with Noise), gom cụm các
đặc trưng cục bộ và đối sánh từng vùng ảnh tài liệu với giải thuật đối sánh
các đặc trưng cục bộ SIFT, SURF. Cuối cùng là xác định được các vùng bị
sai khác, sai vị trí của ảnh tài liệu xin cấp phép in và ảnh tài liệu đã được in.
Phương pháp nghiên cứu đưa ra cĩ khả năng phân rã được ảnh tài liệu
thành từng khối riêng biệt (tiêu đề, hình ảnh, đoạn văn bản, bảng biểu),
khơng sử dụng máy học cũng như khơng cần biết trước bố cục cụ thể của ảnh
tài liệu; hiệu quả đối sánh ảnh chính xác hơn vì chỉ sử dụng từng vùng ảnh
đã phân rã để đối sánh và phát hiện sai khác, thay vì sử dụng tồn bộ ảnh để
đối sánh. Kết quả thực nghiệm trên 223 ảnh tài liệu được thu tập tại bộ phận
đọc lưu chiểu, cho thấy độ chính xác đạt được của phương pháp đề xuất là
91%, và đã tìm ra được những vùng ảnh khác nhau trên hai ảnh tài liệu,
cũng như tìm ra được những vùng bị sai vị trí về bố cục trên hai ảnh tài liệu.
AGU International Journal of Sciences – 2019, Vol. 23 (2), 96 - 108
97
1. GIỚI THIỆU
Từ nhu cầu thực tế của bộ phận “đọc lưu chiểu”
tại Sở Thơng tin và Truyền thơng tỉnh An Giang
cũng như việc nghiên cứu bài tốn đối sánh ảnh
tài liệu, chúng tơi thực hiện đề tài nghiên cứu và
xây dựng cơng cụ thực hiện việc đối sánh hai ảnh
tài liệu với nhau nhằm phát hiện ra sự khác nhau
giữa hai trang tài liệu, so sánh cả về mặt nội dung
và bố cục văn bản.
Trong hai hướng tiếp cận của bài tốn đối sánh
ảnh về đặc trưng tồn cục (Global feature (Kyrki,
2002; Lim & Galoogahi, 2010; Raoui, Houssine
BOUYAKHF, Devy, & Regragui, 2011)) và đặc
trưng cục bộ (Local feature (Kyrki 2002; Lê Việt
Phương, 2015; Raoui et al. 2011)). Chúng tơi đi
sâu nghiên cứu hướng tiếp cận đối sánh ảnh tài
liệu dựa trên các đặc trưng cục bộ SIFT (Lowe,
1999; Lê Việt Phương, Nayef, Visani, Ogier, &
Trần Cao Đệ, 2014). SIFT được nhiều nghiên cứu
của các nhà khoa học dùng rộng rãi để trích xuất
và mơ tả các điểm đặc trưng do nĩ cĩ những đặc
điểm như: Bất biến với độ co, phép quay, một
phần phép biến đổi affine và mạnh với những thay
đổi về độ sáng, sự che khuất và nhiễu. Bên cạnh
đĩ giải thuật gom cụm DBSCAN (Atrayee Dhua,
Sarma, Singh, & Roy, 2015; Ester, Xu, Kriegel, &
Sander, 1996), thực hiện gom cụm các đặc trưng
cục bộ sẽ được nghiên cứu cho việc phân vùng
ảnh tài liệu, thành các cụm theo bố cục cụ thể của
từng đối tượng trong trang ảnh tài liệu, kết quả sẽ
chia ảnh tài liệu thành nhiều vùng cụ thể theo
từng đối tượng trong ảnh tài liệu.
Trong các cơng trình nghiên cứu về đối sánh ảnh
với đặc trưng cục bộ như của tác giả Lê Việt
Phương với nghiên cứu “Logo detection,
recognition and spotting in context by matching
local visual features” (Lê Việt Phương, 2015, tr.
1) thực hiện việc nhận dạng logo trên ảnh tài liệu.
Tác giả sử dụng nhiều loại đặc trưng cục bộ khác
nhau trong mơ tả logo, định vị và nhận dạng logo
trên ảnh tài liệu và kết quả nghiên cứu thể hiện
đặc trưng cục bộ SIFT mang lại kết quả tối ưu.
Tác giả I. Amerini và các cộng sự đã sử dụng đặc
trưng cục bộ SIFT trong nghiên cứu “A SIFT-
based forensic method for copy-move attack
detection and transformation recovery” (Amerini,
Ballan, Caldelli, Del Bimbo, & Serra, 2011, tr. 1)
với mục tiêu phát hiện ra các vùng ảnh bị sao
chép. Tác giả Olivier Augereau a và cs. với
nghiên cứu “Semi-structured document image
matching and recognition” (Augereau, Journet, &
Domenger, 2013, tr. 1) về đối sánh và nhận dạng
ảnh tài liệu cũng đã trình bày về việc sử dụng đặc
trưng cục bộ SIFT trong đối sánh và nhận dạng
ảnh tài liệu. Trong nghiên cứu “Image Matching
Using SIFT, SURF, BRIEF and ORB:
Performance Comparison for Distorted Images”
(Karami, Prasad, & Shehata, 2015, tr. 1) thực hiện
nghiên cứu đối sánh ảnh sử dụng các đặc trưng
cục bộ SIFT, SURF, BRIEF và ORB trong trường
hợp ảnh bị biến dạng. Kết quả trình bày trong
nhiều trường hợp thì kỹ thuật ORB mang lại hiệu
suất nhanh nhất về mặt thời gian, tuy nhiên về tỉ
lệ chính xác thì kỹ thuật SIFT mang lại hiệu quả
cao hơn.
Với bài tốn trên từ nhu cầu thực tiễn và các cơng
trình nghiên cứu trước về đối sánh ảnh sử dụng
đặc trưng cục bộ. Chúng tơi thực hiện nghiên cứu
đối sánh ảnh tài liệu với phương pháp sử dụng các
đặc trưng cục bộ, thực hiện việc đối sánh với hai
mục tiêu chính. Thứ nhất là xác định xem trong
hai ảnh tài liệu cĩ những vùng nào bị khác nhau
khơng. Thứ hai cĩ vùng nào trên ảnh tài liệu bị sai
vị trí khơng.
AGU International Journal of Sciences – 2019, Vol. 23 (2), 96 - 108
98
2. PHƯƠNG PHÁP NGHIÊN CỨU
2.1 Mơ hình đề xuất
Hình 1. Mơ hình đề xuất đối sánh ảnh tài liệu
2.2 Trích chọn đặc trưng cục bộ SIFT
SIFT (Scale invariant Feature Trasnorm)
(Rusiđol & Lladĩs 2009; Lê Việt Phương, 2015)
là đặc trưng cục bộ bất biến đối với những phép
biến đổi tỉ lệ, tịnh tiến, phép quay và khơng đổi
một phần đối với những thay đổi gĩc nhìn; đồng
thời nĩ cũng rất mạnh với những thay đổi về độ
sáng, sự che khuất, nhiễu. Phương pháp rút trích
đặc trưng SIFT cĩ thể được tĩm tắt như sau:
• Phát hiện các điểm cực trị Scale-Space
(Scale-Space extrema detection): Sử dụng
hàm sai khác Gausian (Different-of-
Gaussian) để xác định tất cả các điểm hấp
dẫn tiềm năng mà bất biến với quy mơ và
hướng của ảnh.
• Định vị các điểm hấp dẫn (key-point
localization): Ứng với mỗi vị trí tiềm năng,
hàm kiểm tra sẽ được đưa ra để quyết định
xem các điểm hấp dẫn tiềm năng cĩ được lựa
chọn dựa trên việc đo lường tính ổn định của
chúng.
• Xác định hướng cho các điểm hấp dẫn
(Orientation assignment): Một hoặc nhiều
hướng được gán cho mỗi vị trí điểm hấp dẫn
dựa trên hướng gradient cục bộ của ảnh.
• Mơ tả các điểm hấp dẫn (Key-point
descriptor): Các gradient ảnh cục bộ được
xác định ở tỷ lệ được chọn trong vùng bao
quanh mỗi điểm hấp dẫn. Các gradient được
biểu diễn sang một dạng mà cho phép bất
biến với sự thay đổi về hình dạng và điều
kiện chiếu sáng.
Hình 2 là mơ phỏng biên độ gradient của hướng
tại mỗi mẫu ảnh trong một vùng lân cận với điểm
hấp dẫn. Mỗi điểm hấp dẫn sau khi được xác định
hướng sẽ được mơ tả dưới dạng một vec-tor đặc
trưng cĩ 4 x 4 x 8=128 chiều.
AGU International Journal of Sciences – 2019, Vol. 23 (2), 96 - 108
99
Hình 2. Ví dụ mơ tả SIFT trong vùng kích thước 4 x 4 x 8
2.3 Phân cụm các đặc trưng với giải thuật
DBSCAN
Density-Based Spatial Clustering of Application
with Noise (DBSCAN) là giải thuật phân cụm dựa
trên mật độ đề xuất bởi Ester, Kriegel và Sander
vào năm 1996. DBSCAN sử dụng hai tham số:
Khoảng cách (eps) và số điểm ít nhất cần cĩ để
thành một cụm MinPts. Khơng giống như giải
thuật phân cụm dựa trên khoảng cách khác,
DBSCAN (Ester & cs., 1996; Yaikhom, 1996)
xác định số lượng các cụm một cách tự động và
các cụm cĩ hình dạng bất kỳ, điều này phù hợp
với bất kỳ đối tượng nào trong ảnh tài liệu khi tiến
hành phân rã ảnh tài liệu. Việc phân cụm các đặc
trưng cục bộ giúp chúng ta tìm ra được các khối
cho từng đối tượng trong ảnh tài liệu như: đoạn
văn bản, ảnh, bảng biểu
Hình 3. Kết quả phân cụm bởi giải thuật DBSCAN (mỗi cụm một màu).
Thuật tốn DBSCAN cĩ thể tìm ra các cụm với
hình thù bất kỳ, trong khi đĩ tại cùng một thời
điểm ít bị ảnh hưởng bởi thứ tự của các đối tượng
dữ liệu nhập vào. Khi cĩ một đối tượng được chèn
vào chỉ tác động đến một láng giềng xác định. Eps
và MinPts là hai tham số tồn cục được xác định
bằng thủ cơng hoặc theo kinh nghiệm. Tham số
Eps được đưa vào là nhỏ so với kích thước của
khơng gian dữ liệu, thì độ phức tạp tính tốn trung
bình của mỗi truy vấn là O(nlogn).
Trong thực nghiệm trên giá trị 𝑒𝑝𝑠 =
max(𝑤, ℎ) /100 được chọn, trong đĩ w, h là độ
cao và độ rộng của ảnh tài liệu. Tuy nhiên với
ngưỡng eps này đơi khi khơng phân vùng được
chi tiết đối tượng cụ thể như ảnh, đoạn văn bản,
bảng biểu, logo.... Như trong hình 4(a) cho thấy
được cĩ những vùng ảnh được phân vùng chưa
chính xác như vùng được đánh dấu số 1, 2 và
được bao màu xanh. Khi đĩ để việc phân đoạn
ảnh mang lại độ chính xác cao, phân vùng được
từng đối tượng ảnh, đoạn văn bản... chúng tơi đã
xử lý thêm cho những vùng được tơ màu xanh
bằng cách kiểm tra nếu những phân đoạn ảnh cĩ
kích thước lớn hơn 1/5 của ảnh tài liệu thì cần
gom nhĩm các đặc trưng cục bộ với DBSCAN lần
2 với ngưỡng eps nhỏ hơn eps=eps*85%. Kết quả
trong hình 10(b) cho thấy kết quả tối ưu hơn.
AGU International Journal of Sciences – 2019, Vol. 23 (2), 96 - 108
100
(a) (b)
Hình 4. Kết quả gom cụm đặc trưng cục bộ DBSCAN lần 2 với các vùng ảnh 1,2 trong hình 4 (a)
vì lớn hơn 1/5 của kích thước ảnh tài liệu. Những vùng được đánh số 1.1, 1.2 là được gom cụm lại
từ vùng 1 như kết quả trong hình 4 (b).
2.4 Phương pháp đối sánh điểm đặc trưng
Một phân đoạn ảnh cho trước 𝐿𝑖 được biểu diễn
bằng 𝑛𝑖 các điểm đặc trưng (key-point). Mỗi điểm
đặc trưng k được mơ tả bằng một vector đặc trưng
Dk . Cĩ thể được biểu diễn như sau:
𝐿𝑖 = {(𝑥𝑘 , 𝑦𝑘 , 𝐷𝑘)} 𝑤𝑖𝑡ℎ 𝑘 ∈ {1, , 𝑛𝑖}
(1)
trong đĩ 𝑥𝑘 , 𝑦𝑘 là vị trí x và y của điểm phát hiện
đặc trưng cục bộ thứ k. 𝐷𝑘 là một vector mơ tả
của key-point với chiều dài của nĩ tùy thuộc vào
mơ tả đặc trưng cục bộ (ví dụ, một vector 128-
chiều của mơ tả SIFT và một vector 256-chiều của
mơ tả BRIEF(Calonder, Lepetit, Strecha, & Fua,
2010)). Một key-point q thứ i trong phân vùng
ảnh được ký hiệu bằng 𝐿𝑖
𝑞
.
Tương tự như vậy, một ảnh tài liệu 𝑇𝑖 được biểu
diễn bằng một tập hợp các key-point đặc trưng
cục bộ được phát hiện trong ảnh tài liệu thứ i:
𝑇𝑖 = {(𝑥𝑘 , 𝑦𝑘 , 𝐷𝑘)} 𝑤𝑖𝑡ℎ 𝑘 ∈ {1, , 𝑚𝑖} (2)
và mỗi một phần tử tiếp theo cũng được mơ tả
tương tự như trên.
Hai vector đặc trưng được định nghĩa là gần nhất
nếu chúng cĩ khoảng cách gần nhất. Khoảng cách
giữa hai điểm cũng được xét theo nhiều cách như
độ đo Cosine, khoảng cách gĩc, khoảng cách
Euclid, khoảng cách city-block.
Đối sánh các điểm đặc trưng cục bộ là việc so
sánh giữa tập các key-points được phát hiện trong
ảnh đối sánh và tập key-point được phát hiện
trong ảnh được đối sánh. Để xác định key-point
được gọi là khớp nhau (giống nhau) bằng cách
xác định các điểm láng giềng gần nhất trong tập
hợp điểm key-point của ảnh được đối sánh. Trong
phương thức này, láng giềng gần nhất được định
nghĩa là một key-point với khoảng cách gần nhất
trong khơng gian mơ tả.
Việc đối sánh các điểm đặc trưng được thực hiện
trên từng điểm đặc trưng của ảnh tài liệu cần đối
sánh. Mỗi điểm đặc trưng q của ảnh cần đối sánh
đi tìm hai điểm đặc trưng t1 và t2 của ảnh tài liệu
truy vấn sau cho hai điểm này là gần nhất theo
khoảng cách Euclidean trong khơng gian của
vector đặc trưng (ví dụ khơng gian 128 chiều của
vector đặc trưng SIFT).
AGU International Journal of Sciences – 2019, Vol. 23 (2), 96 - 108
101
𝑑1 = 𝑚𝑖𝑛𝑘(||𝑆𝑞 − 𝑆𝑘||) Và 𝑘
∗ = 𝑎𝑟𝑔𝑚𝑖𝑛𝑘(||𝑆𝑞 − 𝑆𝑘||)
(3)
𝑑2 = 𝑚𝑖𝑛𝑘#𝑘∗(||𝑆𝑞 − 𝑆𝑘||)
Với ||𝑆𝑞 − 𝑆𝑘|| là khoảng cách Euclidean giữa
hai vector mơ tả 𝑆𝑞 𝑣à 𝑆𝑘 của hai điểm đặc trưng
tương ứng q và k.
Tỉ số 𝑟 =
𝑑1
𝑑2
sẽ được dùng để quyết định cặp đối
sánh (q,t1) cĩ thích hợp hay khơng dựa trên
ngưỡng 𝜑 cho trước. Nếu 𝑟 > 𝜑 cĩ nghĩa là cặp
đối sánh này khơng đáng tin cậy, vì sẽ cĩ sự mập
mờ khơng rõ ràng khi chọn điểm đối sánh là t1
trong khi t2 cũng là điểm đối sánh tiềm năng.
Trong trường hợp ngược lại, khi 𝑟 ≤ 𝜑 thì cĩ sự
phân biệt nhất định giữa t1 và t2’, do đĩ cặp đối
sánh (q, t1) sẽ được chấp nhận. Trong thực
nghiệm, chúng tơi chọn 𝜑 = 0.75 dựa trên các
thực nghiệm.
2.5 Gom nhĩm các đặc trưng được đối sánh
Sau khi các đặc trưng cục bộ đã được đối sánh để tìm ra các cặp đặc trưng tương đồng thỏa điều kiện
ngưỡng 𝜑 = 0.75. Tuy nhiên vẫn sẽ cịn những cụm key-point khơng chính xác do khi đối sánh hai ảnh
tài liệu cĩ nhiều đối tượng như hình ảnh, bảng biểu, biểu đồ và văn bản; đặc biệt là văn bản sẽ tìm ra
nhiều cặp key-point tương đồng ở các khối văn bản khác trên ảnh tài liệu như hình 5. Chính vì vậy sau
khi tìm được số cặp key-point tương đồng chúng tơi tiến hành gom nhĩm các key-point tương đồng của
ảnh tài liệu thứ hai với thuật tốn gom cụm DBSCAN và trên thực nghiệm chúng tơi xác định được tham
số eps=max(w,h)/2 với w, h là độ rộng và độ cao của khối ảnh đang được đối sánh và MinPts=4 là hai
tham số tối ưu được thực nghiệm cho việc tìm ra nhĩm cĩ số key-point cao nhất.
Hình 5. (trái) Ảnh mơ tả các cặp key-point được đối sánh trước khi gom nhĩm và (phải) sau khi đã gom nhĩm.
2.6 Lọc key-point được đối sánh với
Homography và định vị
Sau khi thực hiện gom nhĩm các đặc trưng cục bộ
được đối sánh kết quả đạt được như hình 5, tuy
nhiên, trong kết quả biểu diễn các đường nối các
cặp keypoint đối sánh, cịn một số keypoint chưa
chính xác (các đường màu vàng); từ đĩ dẫn đến
việc định vị vùng ảnh được đối sánh khơng chính
xác, cũng như tỉ lệ % xác định vùng ảnh là đúng
hay sai chưa tốt. Chúng tơi tiến hành lọc các key-
point khơng thực sự chính xác và xác định vùng
ảnh của ảnh tài liệu đối sánh trên ảnh được đối
sánh dựa trên Homography dùng RANSAC(Lê
Việt Phương, Nayef, Visani, Ogier, & Trần Cao
Đệ, 2014; Lê Việt Phương, Visani, Trần Cao Đệ,
& Ogier, 2013; Krishnan & Jawahar 2016; Lê
Việt Phương, 2015; Lê Việt Phương, Đặng Quốc
Bảo, & Trần Cao Đệ, 2015).
AGU International Journal of Sciences – 2019, Vol. 23 (2), 96 - 108
102
(a)
(b)
(c)
(d)
Hình 6. Ảnh mơ tả những cặp key-point được đối sánh sau khi được RANSAC loại bỏ những điểm đặc trưng
khơng thực sự giống nhau.
Trong thực nghiệm đối sánh ảnh tài liệu đã phát
hiện ra được những vùng ảnh khơng giống nhau
trên hai ảnh tài liệu với một số trường hợp cụ thể,
khi tỉ lệ phần % key-point nhỏ hơn ngưỡng 𝜔 =
7%. Nếu chọn ngưỡng cao sẽ dẫn đến việc bỏ qua
những vùng đúng nhưng cĩ tỉ lệ thấp do bố cục
ảnh phức tạp nhiều ảnh, văn bản hay biểu đồ cĩ
nhiều key-point tương đồng nhau. Ngược lại, nếu
chọn ngưỡng quá thấp thì sẽ cĩ nhiều vùng khơng
giống nhưng bị nhận lầm là giống nhau dẫn đến
kết quả đối sánh khơng cao; do cĩ thể bị phát hiện
nhầm các vùng ảnh cĩ bố cục phức tạp, hoặc ảnh
scan bị mờ. Từ đĩ cho thấy việc chọn ngưỡng cao
sẽ hạn chế được lỗi phát hiện nhầm nhưng cũng sẽ
AGU International Journal of Sciences – 2019, Vol. 23 (2), 96 - 108
103
loại bỏ những vùng đúng cĩ tỉ lệ thấp như hình
6(a).
Để khắc phục nhược điểm này, chúng tơi đề xuất
giải pháp cải tiến nâng cao tỉ lệ bằng cách cố gắng
tìm kiếm thêm các cặp key-point đúng. Để tìm
kiếm thêm các cặp key-point đúng, chúng tơi tiến
hành thực nghiệm đối sánh ảnh tài liệu lần 2
nhưng chỉ với các key-point nằm trong vùng đã
xác định của ảnh được đối sánh (Lê Việt Phương
& Trần Cao Đệ, 2015; Lê Việt Phương, Visani,
Trần Cao Đệ, & Ogier, 2013). Việc này sẽ làm
tăng tỉ lệ key-point đúng lên cao hơn nếu hai vùng
ảnh thật sự giống nhau và sẽ khơng tăng tỉ lệ key-
point đúng (hoặc tăng khơng đáng kể) nếu hai
vùng ảnh thật sự khác nhau. Thuật tốn được đề
xuất cho việc lọc các keypoint khơng chính xác và
định vị vị trí của phân đoạn ảnh trong ảnh tài liệu
đối sánh so với ảnh được đối sánh như sau:
Đối với mỗi ứng viên trong vùng của phân đoạn
ảnh tài liệu:
1. Tìm một phép biến đổi H giữa các cặp key-
point được đối sánh trong vùng ứng viên của
phân đoạn ảnh tài liệu.
2. Xác định một vùng giới hạn cĩ thể chứa một
phân đoạn ảnh trong ảnh được đối sánh, nhờ
vào phép biến đổi H và bốn gĩc của vùng phân
đoạn ảnh tài liệu. Trích xuất tất cả các key-
point trong vùng giới hạn này. Tiến hành đối
sánh lần 2 giữa vùng cần đối sánh với tất cả
key-point trích xuất này. Khi đĩ 𝑠𝑖(𝑥𝑖1, 𝑥𝑖2) là
tọa độ của các điểm key-point được đối sánh
trong phân đoạn ảnh của ảnh tài liệu đối sánh
cần được đối sánh, và 𝑡𝑖(𝑦𝑖1, 𝑦𝑖2) là tọa độ của
các điểm key-point được đối sánh trong hình
ảnh được đối sánh.
3. Ước lượng lại phép biến đổi H bằng cách sử
dụng tất cả các cặp key-point được đối sánh
(𝑠𝑖, 𝑡𝑖) trong bước 2.
4. Lọc các điểm key-point khơng thật sự chính
xác: 𝑖𝑓 ‖𝑡𝑖 − 𝐻(𝑠𝑖)‖ ≥ 𝜃 thì loại số key-point
được đối sánh khơng thực sự chính xác.
5. Xác định lại vị trí phân đoạn ảnh tài liệu được
ước tính dựa trên bốn gĩc và phép biến đổi H.
6. Cuối cùng, xác định tỉ lệ % của số key-point
được đối sánh và số key-point của phân đoạn
ảnh trên ảnh tài liệu đối sánh để xác định được
là phân đoạn ảnh cĩ giống hay khác trên ảnh
được đối sánh với ngưỡng tỉ lệ cho trước.
Trong kết quả trình bày của hình 7 sau khi thực
hiện tính số key-point của vùng được đối sánh và
thực hiện đối sánh lần 2 thì kết quả tỉ lệ % đã lớn
hơn ngưỡng 7%. Do đĩ, thay vì bị kết luận là sai
như trường hợp trong hình 7(a), sau khi thực hiện
đối sánh theo thuật giải đã cải tiến thì kết quả đã
được ghi nhận là đúng như hình 7(b). Và so với
kết quả quan sát thực tế là các vùng ảnh là đúng.
(a) (b)
Hình 7. Kết quả đối sánh vùng ảnh với tỉ lệ là 6.8% (a) và kết quả đối sánh sau cải tiến là 14.43%
2.7 Xác định vùng ảnh tài liệu bị sai vị trí
Kết thúc quá trình đối sánh, chúng tơi xác định
được những đối tượng tồn tại (hoặc khơng tồn tại)
và vị trí của nĩ trong ảnh được đối sánh. Tuy
nhiên, theo nhu cầu thực tế bài tốn đặt ra là cần
phải kiểm tra vị trí xuất hiện của đối tượng cĩ
đúng vị trí tương đối so với ảnh đối sánh hay
khơng. Vì vậy mà cơng việc tiếp theo của nghiên
cứu là xác định các vùng đã cho là đúng cĩ bị sai
vị trí về mặt bố cục khơng.
AGU International Journal of Sciences – 2019, Vol. 23 (2), 96 - 108
104
Để thực hiện, chúng tơi tiến hành so sánh vị trí
tương đối của tâm của hai vùng ảnh so với biên
của hai ảnh đã được chuẩn hố. Hai vùng ảnh
được cho là khơng đúng vị trí khi các tọa độ của
vùng ảnh bị lệch nhau ở một ngưỡng cho trước
(trong thực nghiệm dùng α=0.05).
3. KẾT QUẢ VÀ THẢO LUẬN
Trong phần thực nghiệm, chúng tiến hành cài đặt
bằng ngơn ngữ Python và sử dụng thư viện mã
nguồn mở OpenCV của Intel (Bradski & Kaehler,
2012; Laganière, 2011) thực hiện việc trích đặc
trưng SIFT (Đặng Quốc Bảo & cs, 2015; Lê Việt
Phương & Trần Cao Đệ, 2015), SURF(Bay,
Tuytelaars, & Van Gool, 2006; Đặng Quốc Bảo &
cs, 2015; Mandle & Pahadiya, 2016) và đối sánh
các đặc trưng cục bộ. Sử dụng DBSCAN trong
thư viện sklearn.cluster cho quá trình gom cụm
các đặc trưng cục bộ. Chúng tơi sử dụng tập dữ
liệu thực tế từ bộ phận “đọc lưu chiểu” của Sở
Thơng tin và Truyền thơng tỉnh An Giang với số
ảnh tài liệu chạy thực nghiệm là 223 ảnh.
Sau khi phân rã ảnh với DBSCAN, chúng tơi tiến
hành bước thứ hai là thực hiện việc tìm từng khối
ảnh của ảnh thứ nhất trên ảnh thứ hai với việc đối
sánh các cặp đặc trưng cục bộ được mơ tả bởi các
vector mơ tả SIFT. Trong quá trình đối sánh các
cặp đặc trưng cục bộ để xác định khối ảnh cĩ
trong ảnh thứ hai khơng, chúng tơi thực hiện tính
tỉ lệ giữa số key-point được tìm trên ảnh thứ hai
và số key-point của ảnh thứ nhất với giá trị
ngưỡng 𝜔 = 0.07. Nghĩa là nếu số lượng key-
point được tìm thấy trên ảnh thứ hai đạt tỉ lệ là 7%
trở lên so với số key-point được trích đặc trưng từ
khối ảnh thứ nhất. Thì xác định là khối ảnh cĩ
trong ảnh thứ hai và ngược lại thì đánh dấu khối
ảnh đĩ khơng cĩ tại vị trí trên ảnh số hai.
Như trên hình 8.a thể hiện tỉ lệ đối sánh giữa
khối ảnh trên ảnh đối sánh và ảnh được đối sánh
thỏa điều kiện đạt tỉ lệ key-point trên ngưỡng ω =
0.07. Và với hình 8.b thể hiện tỉ lệ số key-point
khơng thỏa ngưỡng ω = 0.07. Và cuối cùng ở
hình 8.c thể hiện kết quả đối sánh giữa hai ảnh tài
liệu với nhau.
(a)
(b)
AGU International Journal of Sciences – 2019, Vol. 23 (2), 96 - 108
105
(c)
Hình 8. Kết quả đối sánh ảnh tài liệu, xác định được cĩ 3 vùng khơng giống nhau được vẽ khung màu đỏ và 1 vùng
sai vị trí được vẽ khung màu vàng
Trong bảng 1 trình bày kết quả đánh giá độ chính xác của cơng cụ đối sánh ảnh tài liệu với hai kỹ thuật
SIFT, SURF.
Bảng 1. Kết quả đánh giá độ chính xác của cơng cụ “Đọc lưu chiểu dựa trên phương pháp đối sánh
ảnh tài liệu”
Từ kết quả độ chính xác của cơng cụ đối sánh ảnh
tài liệu, cho thấy cả hai giá trị precision và recall
đều cao, từ đĩ kết quả đối sánh ảnh tài liệu với
phương pháp đối sánh các điểm đặc trưng cục bộ
SIFT, SURF mang lại kết quả cao trong phạm vi
của tập dữ liệu thực nghiệm.
Tuy nhiên bên cạnh đĩ cơng cụ vẫn chưa thể hỗ
trợ chính xác tuyệt đối cho việc tìm ra hết các
vùng khác nhau, các vùng sai vị trí. Cũng như
cơng cụ vẫn cịn phát hiện nhầm các vùng bị sai,
một phần do chất lượng ảnh tài liệu scan vào
khơng tốt như trong hình 9 thể hiện một số trường
hợp cơng cụ bị phát hiện nhầm như sau:
AGU International Journal of Sciences – 2019, Vol. 23 (2), 96 - 108
106
(a:Nguyên nhân do bản in và bản xin cấp phép khi scan bị mờ)
(b: Nguyên nhân ảnh tài liệu khi scan bị mất thơng tin thực tế so với bản in )
(c: Số lượng keypoint được phát hiện khơng đủ % ngưỡng xác định là đúng)
Hình 9. Ảnh bị phát hiện các vùng ảnh bị sai khơng đúng thực thực tế quan sát.
AGU International Journal of Sciences – 2019, Vol. 23 (2), 96 - 108
107
4. KẾT LUẬN VÀ KHUYẾN NGHỊ
Bài báo đã trình bày giải pháp đối sánh ảnh tài
liệu với mục tiêu tìm ra được những vùng khơng
giống nhau, sai vị trí trên hai ảnh tài liệu. Với mơ
hình đề xuất đối sánh ảnh tài liệu qua năm giai
đoạn: (1) Trích đặc trưng cục bộ ảnh tài liệu với
đặc trưng cục bộ SIFT, SURF; (2) Gom cụm các
đặc trưng cục bộ với DBSCAN và gom cụm lại
khi vùng ảnh được gom lớn hơn 1/5 kích thước
ảnh tài liệu; (3) Đối sánh các đặc trưng cục bộ; (4)
Định vị và xác định vị trí của vùng đối sánh
(Homography dùng RANSAC); (5) Xác định
vùng ảnh sai vị trí với đề xuất xác định tỉ lệ
khoảng cách từ tâm vùng ảnh đến biên ảnh. Kết
quả thực nghiệm cho thấy phương pháp đề xuất
đạt được độ chính xác cao cĩ thể hỗ trợ cho cơng
tác đọc lưu chiểu.
Trong tương lai chúng tơi sẽ ứng dụng kết quả
nghiên cứu trong các hệ thống văn phịng điện tử
đáp ứng nhu cầu thực tế như: Xây dựng hệ thống
đối chiếu văn bản đã phát hành của một cơ quan
đơn vị, chấm bài thi tin học văn phịng tự động
qua ảnh kết quả bài thi... Bên cạnh đĩ, chúng tơi
tiếp tục nghiên cứu các giải thuật phân vùng và
đối sánh ảnh tài liệu cũng như việc kết hợp thêm
các đặc trưng khác về màu sắc, hình dạng, kết
cấu... với mục tiêu nâng cao khả năng đối sánh
ảnh tài liệu.
TÀI LIỆU THAM KHẢO
Amerini, I., Ballan, L., Caldelli, R., Del Bimbo,
A., & Serra, G. (2011). A SIFT-based forensic
method for copy-move attack detection and
transformation recovery. IEEE Transactions
on Information Forensics and Security, 6(3
PART 2), 1099–1110.
https://doi.org/10.1109/TIFS.2011.2129512
Atrayee Dhua, Sarma, D. N., Singh, S., & Roy, B.
(2015). Segmentation of Images using
Density-Based Algorithms. International
Journal of Advanced Research in Computer
and Communication Engineering, 4 (5), 273–
278.
https://doi.org/10.17148/IJARCCE.2015.4561
Augereau, O., Journet, N., & Domenger, J.-P.
(2013). Semi-structured document image
matching and recognition, 8658, 865804.
https://doi.org/10.1117/12.2003911
Calonder, M., Lepetit, V., Strecha, C., & Fua, P.
(2010). BRIEF: Binary robust independent
elementary features. Lecture Notes in
Computer Science (Including Subseries
Lecture Notes in Artificial Intelligence and
Lecture Notes in Bioinformatics), 6314
LNCS(PART 4), 778–792.
https://doi.org/10.1007/978-3-642-15561-1_56
Đặng Quốc Bảo., Lê Việt Phương., Luqman, M.
M., Coustaty, M., Trần Cao Đệ., & Ogier, J.-
M. (2015). Camera-based document image
retrieval system using local features -
comparing SRIF with LLAH, SIFT, SURF and
ORB. In 2015 13th International Conference
on Document Analysis and Recognition
(ICDAR) (pp. 1211–1215). IEEE.
https://doi.org/10.1109/ICDAR.2015.7333956
Edla, D. R., & Jana, P. K. (2012). A Prototype-
Based Modified DBSCAN for Gene
Clustering. Procedia Technology, 6, 485–492.
https://doi.org/10.1016/j.protcy.2012.10.058
Ester, M., Xu, X., Kriegel, H., & Sander, J.
(1996). Density-based algorithm for
discovering clusters in large spatial databases
with noise. Proc. Acm Sigkdd Int. Conf.
Knowl. Discov. Data Min., pages, 226–231.
Retrieved from
1507
Holzinger, W. E., Lưcker, H., & Lưcker, B.
(2008). Fulgoromorpha of Seychelles: A
preliminary checklist. Bulletin of Insectology,
61(1), 121–122.
https://doi.org/10.1007/11744023_32
Karami, E., Prasad, S., & Shehata, M. (2015).
Image Matching Using SIFT , SURF , BRIEF
and ORB : Performance Comparison for
Distorted Images Image Matching Using SIFT,
AGU International Journal of Sciences – 2019, Vol. 23 (2), 96 - 108
108
SURF, BRIEF and ORB: Performance
Comparison for Distorted Images, (February
2016).
https://doi.org/10.13140/RG.2.1.1558.3762
Krishnan, P., & Jawahar, C. V. (2016). Matching
handwritten document images. Lecture Notes
in Computer Science (Including Subseries
Lecture Notes in Artificial Intelligence and
Lecture Notes in Bioinformatics), 9905 LNCS,
766–782.
https://doi.org/10.1007/978-3-319-46448-0_46
Le Viet Phuong (2015). Logo Detection,
Recognition and Spotting in Context by
Matching Local Visual Features, (October).
Retrieved from
https://tel.archives-ouvertes.fr/tel-01373417
Le Viet Phuong., Dang Quoc Bao., & Trần Cao
Đệ., (2015). Logo Spotting on Document
Images using Local Features. In Proceedings
of the Sixth International Symposium on
Information and Communication Technology -
SoICT 2015 (pp. 1–8). New York, New York,
USA: ACM Press.
https://doi.org/10.1145/2833258.2833292
Le Viet Phuong, Nayef, N., Visani, M., Ogier, J.
M., & Trần Cao Đệ., (2014). Document
retrieval based on logo spotting using key-
point matching. In Proceedings - International
Conference on Pattern Recognition (pp. 3056–
3061). IEEE.
https://doi.org/10.1109/ICPR.2014.527
Le Viet Phuong, & Tran Cao De.,(2015). Key-
point matching with post-filter using SIFT and
BRIEF in logo spotting. In The 2015 IEEE
RIVF International Conference on Computing
& Communication Technologies - Research,
Innovation, and Vision for Future (RIVF) (pp.
89–93). IEEE.
https://doi.org/10.1109/RIVF.2015.7049880
Le Viet Phuong, Visani, M., Tran, C. De, &
Ogier, J.-M. (2013). Improving Logo Spotting
and Matching for Document Categorization by
a Post-Filter Based on Homography. In 2013
12th International Conference on Document
Analysis and Recognition (pp. 270–274).
IEEE. https://doi.org/10.1109/ICDAR.2013.61
Lim, K.-L., & Galoogahi, H. K. (2010). Shape
Classification Using Local and Global
Features. 2010 Fourth Pacific-Rim Symposium
on Image and Video Technology, 115–120.
https://doi.org/10.1109/PSIVT.2010.26
Lowe, D. G. (1999). Object recognition from local
scale-invariant features. In Proceedings of the
Seventh IEEE International Conference on
Computer Vision (pp.1150–1157, vol.2).
https://doi.org/10.1109/ICCV.1999.790410
Mandle, P., & Pahadiya, B. (2016). An Advanced
Technique of Image Matching Using SIFT and
SURF, 5(5), 462–466.
https://doi.org/10.17148/IJARCCE.2016.5510
9
Raoui, Y., Houssine BOUYAKHF, E., Devy, M.,
& Regragui, F. (2011). Global and Local
Image Descriptors for Content Based Image
Retrieval and Object Recognition. Applied
Mathematical Sciences, 5(42), 2109–2136.
Rusiđol, M., & Lladĩs, J. (2009). Logo spotting
by a bag-of-words approach for document
categorization. Proceedings of the
International Conference on Document
Analysis and Recognition, ICDAR, 111–115.
https://doi.org/10.1109/ICDAR.2009.103
Các file đính kèm theo tài liệu này:
- 1576049048_11_pham_thi_minh_thupdf_4648_2200911.pdf