Tài liệu Nâng cao chất lượng thuật toán lan truyền tin cậy xác định bản đồ sai lệch ứng dụng cho thị giác Robot: Nghiên cứu khoa học công nghệ
Tạp chí Nghiên cứu KH&CN quân sự, Số 52, 12 - 2017 111
NÂNG CAO CHẤT LƯỢNG THUẬT TOÁN LAN TRUYỀN TIN CẬY
XÁC ĐỊNH BẢN ĐỒ SAI LỆCH ỨNG DỤNG CHO THỊ GIÁC ROBOT
Đoàn Văn Tuấn1*, Bùi Trung Thành2
Tóm tắt: Trong bài báo này, chúng tôi đề xuất một phương pháp kết hợp giữa
thuật toán CSBP (Constant Space Belief Propagation) và thuật toán cục bộ CT
(Census Transfrom). Điểm khớp trung tâm ảnh camera kép (Stereo Camera) được
xác định bằng thuật toán CT. Từ điểm khớp trung tâm, chúng tôi chia ảnh thành 4
phần và mỗi phần sẽ thực hiện lan truyền tin cậy dùng thuật toán CSBP với điểm
khớp ban đầu là điểm khớp trung tâm. Với phương pháp đề xuất này cho kết quả
thực hiện bản đồ sai lệch có tin cậy cao hơn và hiệu năng thực hiện nhanh 2,4 lần
so với thuật toán CSBP.
Từ khóa: Bản đồ sai lệch, Thị giác robot, Lan truyền tin cậy với không gian cố định, Biến đổi kiểm kê,
Camera kép.
1. MỞ ĐẦU
Bản đồ sai lệch là thông số rất quan
trọng trong t...
10 trang |
Chia sẻ: quangot475 | Lượt xem: 513 | Lượt tải: 0
Bạn đang xem nội dung tài liệu Nâng cao chất lượng thuật toán lan truyền tin cậy xác định bản đồ sai lệch ứng dụng cho thị giác Robot, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
Nghiên cứu khoa học công nghệ
Tạp chí Nghiên cứu KH&CN quân sự, Số 52, 12 - 2017 111
NÂNG CAO CHẤT LƯỢNG THUẬT TOÁN LAN TRUYỀN TIN CẬY
XÁC ĐỊNH BẢN ĐỒ SAI LỆCH ỨNG DỤNG CHO THỊ GIÁC ROBOT
Đoàn Văn Tuấn1*, Bùi Trung Thành2
Tóm tắt: Trong bài báo này, chúng tôi đề xuất một phương pháp kết hợp giữa
thuật toán CSBP (Constant Space Belief Propagation) và thuật toán cục bộ CT
(Census Transfrom). Điểm khớp trung tâm ảnh camera kép (Stereo Camera) được
xác định bằng thuật toán CT. Từ điểm khớp trung tâm, chúng tôi chia ảnh thành 4
phần và mỗi phần sẽ thực hiện lan truyền tin cậy dùng thuật toán CSBP với điểm
khớp ban đầu là điểm khớp trung tâm. Với phương pháp đề xuất này cho kết quả
thực hiện bản đồ sai lệch có tin cậy cao hơn và hiệu năng thực hiện nhanh 2,4 lần
so với thuật toán CSBP.
Từ khóa: Bản đồ sai lệch, Thị giác robot, Lan truyền tin cậy với không gian cố định, Biến đổi kiểm kê,
Camera kép.
1. MỞ ĐẦU
Bản đồ sai lệch là thông số rất quan
trọng trong thị giác robot (Robot
Vision). Từ thông tin bản đồ sai lệch,
robot xác định được ảnh 3D và bản đồ
độ sâu của vật và được ứng dụng trong
công nghiệp 4.0 [1]. Trong công nghiệp
4.0, robot dần thay thế sức lao động của
con người, do vậy, con người mong
muốn tạo hệ thị giác robot như hệ thị
giác con người thông qua hệ camera kép
(Stereo Camera) [2]. Camera kép như
hai mắt người. Nguồn tài nguyên bộ nhớ của robot có hạn nên các thuật toán thực hiện bản
đồ sai lệch của hệ camera kép phải tự cân bằng các tiêu chí về độ tin cậy, hiệu năng thực
hiện và yêu cầu tài nguyên bộ nhớ. Tùy theo từng công việc cụ thể thì thị giác robot sẽ lựa
chọn thuật toán thực hiện bản đồ sai lệch có ưu điểm về độ tin cậy, hiệu năng thực hiện và
yêu cầu bộ nhớ. Sẽ rất khó có giải pháp thực hiện tốt được độ tin cậy cao, hiệu năng thực
hiện nhanh và yêu cầu bộ nhớ thấp.
Thị giác robot yêu cầu thực hiện nhanh theo thời gian thực thì các thuật toán thực hiện
bản đố sai lệch của camera kép có mật độ thưa thớt (Sparse) được lựa chọn như thuật toán
SIFT [3] và SURF [4] thường được ứng dụng cho SLAM (Simultataneous Localization
and Mapping). Các thuật toán này có độ tin cậy thấp, số lượng điểm khớp khoảng 30% của
ảnh camera kép bù lại tốc độ thực hiện nhanh và yêu cầu bộ nhớ thấp. Các thuật toán thực
hiện bản đồ sai lệch của camera kép có mật độ phân theo đoạn (Segmentation) [5] thường
cân bằng giữa độ tin cậy, hiệu năng thực hiện và yêu cầu bộ nhớ. Để đáp ứng được độ tin
cậy cao thì thuật toán thực hiện trên camera kép có mật độ dầy đặc (Dense) như thuật toán
SAD [6], CT [7], và BP [8]. Ngoài ra, có một số thuật toán kết hợp giữa thuật toán toàn
cục và thuật toán cục bộ như [9]. Các thuật toán này có độ tin cậy cao nhưng chưa đáp ứng
về hiệu năng cũng như yêu cầu về bộ nhớ. Hiện nay, thuật toán cục bộ đã được một số nhà
sản xuất thực hiện hệ camera kép thương mại như ZED [10].
Thuật toán BP (Belief Propagation) thực hiện dựa trên các vòng lặp và cho độ tin cậy
cao đối với ảnh camera kép có mật độ dầy đặc. Tuy nhiên, thuật toán BP có nhược điểm là
độ phức tạp của tính toán cao và yêu cầu bộ nhớ lớn. Để khắc phục nhược điểm này cần
Hình 1. Mô hình ảnh camera kép.
Kỹ thuật điều khiển & Điện tử
Đ. V. Tuấn, B. T. Thành, “Nâng cao chất lượng thuật toán ứng dụng cho thị giác robot.” 112
phải giảm độ phức tạp của tính toán, giảm yêu cầu về bộ nhớ và xử lý song song, tuy nhiên
đều phải trả giá về độ tin cậy. Các thuật toán BP nâng cao được thực hiện song song trên
nền hệ thống nhúng GPU [11] hay FPGA [12]. Đa số các thuật toán BP cải tiến đều thực
hiện trên cấu trúc ảnh dạng lưới với 4 kết nối cho một điểm ảnh.
Trong các thuật toán BP cải tiến, thuật toán CSBP (Constant Space Belief Propagation)
[13] của Yang đã giảm 12,5% yêu cầu bộ nhớ và tăng hiệu năng thực hiện so với thuật
toán BP tiêu chuẩn. Điểm nổi bật của thuật toán CSBP là cố định các mức sai lệch được
chọn cho vòng lặp, do vậy, bộ nhớ sẽ phụ thuộc vào số mức sai lệch được chọn mà không
phụ thuộc vào các mức sai lệch của ảnh camera kép. Điểm hạn chế của thuật toán CSBP là
tăng độ phức tạp tính toán và giảm độ tin cậy so với thuật toán BP.
Để khắc phục nhược điểm của thuật toán CSBP, chúng tôi đề xuất một giải pháp sau,
thay vì điểm khớp xuất phát ban đầu thường được chọn là điểm khớp trên cùng bên trái
của ảnh camera kép bằng điểm khớp tại trung tâm của ảnh. Điểm khớp trung tâm của ảnh
camera kép được xác định dùng thuật toán cục bộ CT (Census transform). Thuật toán CT
có hàm biến đổi mạnh và không phụ thuộc cường độ ánh sang của ảnh [14]. Khi đã xác
định được điểm khớp trung tâm, chúng tôi chia ảnh thành 4 phần và coi điểm khớp trung
tâm là điểm khớp xuất phát thông điệp ban đầu cho mỗi phần và lan truyền tin cậy với số
mức sai lệch được lựa chọn cố định. Thuật toán đề xuất có ưu điểm là tăng được tốc độ
thực hiện và nâng cao được độ tin cậy so với thuật toán CSBP.
Phần còn lại của bài báo được tổ chức như sau: phần 2 trình bày một số kiến thức liên
quan đến thuật toán thực hiện bản đồ sai lệch như CSBP và CT. Phần 3 đề xuất thuật toán
kết hợp giữa CSBP và CT. Kết quả thực nghiệm đưa ra trong phần 4; Kết luận được cho
trong phần 5.
2. CÁC NGHIÊN CỨU LIÊN QUAN
Bảng 1 sau đây liệt kê một số kí hiệu được sử dụng trong bài báo này.
Bảng 1. Các kí hiệu và định nghĩa của nó.
Kí hiệu Định nghĩa
G Mô hình đồ thị biểu diễn bản đồ sai lệch của ảnh camera kép.
V Tập các nút trên mô hình đồ thị (nút biểu diễn sự sai lệch của cặp ảnh
tương đồng trong ảnh camera kép).
E Tập các cạnh trên mô hình đồ thị (cạnh biểu diễn năng lượng chi phí
cuat nút với các nút lân cận của nó).
i,j Biểu diễn nút thứ i và nút lân cận i.
Xi Biến ngẫu nhiên của nút i.
xi Sự chuẩn hóa của Xi và Xi là không gian trạng thái của xi (xiϵ Xi)
X Biến ngẫu nhiên liên kết x.
x Sự chuẩn hóa các giá trị mô hình đồ thị trong không gian X
p(x) Xác xuất hậu nghiệm (posterior) MAP.
(x )i i Xác suất nút i.
i( , )jx x Xác suất nút i với nút j lân cận nút i.
E(x) Năng lượng chi phí
D(xi) Hàm năng lượng chi phí cho nút i
( , )i jV x x Hàm năng lượng chi phí giữa nút i và nút j lân cận
( )ti j jm x
Thông điệp chuyển từ nút i sang nút lân cận j.
Nghiên cứu khoa học công nghệ
Tạp chí Nghiên cứu KH&CN quân sự, Số 52, 12 - 2017 113
( )j jb x Độ tin cậy nút j
c Tỉ lệ tăng của hàm nhẵn
d
k
Ngưỡng dừng tăng của hàm nhẵn
Số mức sai lệch được lựa chọn
E(i)\j Tập các nút i ngoài trừ nút j.
dC(x,y) Bản đồ sai lệch thực hiện
dT(x,y) Bản đồ sai lệch mẫu
2.1. Thuật toán CSBP
Thuật toán CSBP là thuật toán suy diễn lặp gần đúng dựa trên trường ngẫu nhiên
Markov với không gian mức sai lệch cố định [13]. Xét mô hình trường ngẫu nhiên Markov
(Markov Random Filed: MRF) như hình 2, trong đó, G = (V, E), x= (xi)iϵV và X = (Xi)iϵV.
Từ [8] và bảng 1, xác suất hậu nghiệm (Posterior) MAP được xác định:
i
/
( ) ( ) ( , )i j
i V i V j V i
p x x x x
(1)
Từ phương trình 1 chúng ta xác định được MAP (Maximum a Posterior) thông qua
phương pháp tích cực đại (Max-Product). Phương pháp tích cực đại tương đương với
phương pháp tổng cực tiểu (Min- Sum). Đối với phương pháp tổng cực tiểu chúng ta đi tìm
năng lượng chi phí cho việc chuyển thông điệp giữa các nút từ đó chúng ta sẽ tìm cách tối
thiểu hóa năng lượng chi phí.
,
( ( )) log ( ) log ( , )i i j
i V i j E
E p x x x x
(2)
Chúng ta đơn giản E(p(x)) thành E(x), khi đó, hàm năng lượng được viết:
,
( ) ( ) ( , )i i j
i V i j E
E x D x V x x
(3)
Trong thị giác nổi, các nút là các biến ngẫu nhiên, nó biểu diễn cho mức sai lệch của hai
điểm ảnh trên ảnh camera kép tương ứng. Hàm năng lượng chi phí của cặp nút đến các điểm
lân cận dựa trên sự khác nhau giữa các nút. Do vậy, hàm năng lượng được xác định là:
( , ) ( )i j i jV x x V x x (4)
,
( ) ( ) ( )i i j
i V i j E
E x D x V x x
(5)
Thông điệp cập nhật tại vòng lặp t được xác định là:
1
( )\
( ) min( ( ) ( ) ( ))
i
t t
i j j i j i i s i i
x
s E i j
m x V x x D x m x
(6)
Sau T vòng lặp thì độ tin cậy của mỗi nút là:
( )
( ) ( ) ( )Tj j j j i j j
i N j
b x D f m x
(7)
Nút
*
jx được lựa chọn và xác định theo
công thức:
* arg min ( )j j jx b x (8)
Thông thường hàm năng lượng chi phí nhẵn
được xác định theo mô hình tuyến tính.
Hình 2. Mô hình MRF.
Kỹ thuật điều khiển & Điện tử
Đ. V. Tuấn, B. T. Thành, “Nâng cao chất lượng thuật toán ứng dụng cho thị giác robot.” 114
( ) min( , )i j i jV x x c x x d (9)
Khi đó, thông điệp cập nhật được xác định:
1
( )\
( ) min(min( , ) ( ) ( ))
i
t t
i j j i j i i s i i
x
s E i j
m x c x x d D x m x
(10)
2.2. Thuật toán CT
CT là thuật toán biến đổi kiểm kê cục bộ không tham số, không phụ thuộc vào điều
kiện ánh sáng của ảnh [14]. Nguyên lý hoạt động của CT là biến đổi mỗi điểm ảnh thành
một chuỗi bít có độ dài N bít với kiến trúc không gian cục bộ. Đối với mỗi điểm ảnh lân
cận ngoại trừ điểm trung tâm sẽ biến đổi tương ứng thành một bít trong chuỗi N bít theo
ngưỡng nếu giá trị cường độ (Intensity) bít lân cận lớn hơn giá trị cường độ bít trung tâm
thì tương ứng với bít bằng 1, ngoài ra thì bít bằng 0.
Hình 3. Biến đổi kiểm kê với cửa sổ 3x3 và khoảng cách Hamming.
Hình 3 mô tả thuật toán CT với cửa sổ 3x3, giá trị cường độ điểm trung tâm là 35. Các
điểm lân cận có giá trị lớn hơn 35 thì tương ứng với bít bằng 1 ngoài ra thì bít bằng 0.
Thực hiện biến đổi CT ảnh trái và ảnh phải được hai chuỗi bít, so sánh hai chuỗi bít và
đếm số bít khác nhau hai chuỗi bít được gọi là khoảng cách Hamming [15] và được tính
theo công thức (11). Hai điểm ảnh của hai ảnh trái và phải có khoảng cách Hamming nhỏ
nhất được chọn là khớp nhau.
0 0
( , )
( , ) arg min Hamming( ( , ), ( , ))L R
x y
x y T x y T x d y (11)
trong đó, TL(x, y) và TR(x, y) là các chuỗi bít của điểm ảnh khớp trong ảnh trái và ảnh phải
của ảnh camera kép.
3. ĐỀ XUẤT THUẬT TOÁN KẾT HỢP
3.1. Mô tả thuật toán đề xuất
Khi điểm xuất phát ban đầu để lan truyền tin cậy không khớp dẫn đến yêu cầu chi phí
năng lượng lớn và độ tin cậy thấp khi thực hiện bản đồ sai lệch như hình 4.d.
(a) (b) (c) (d)
Hình 4. Ảnh hưởng của điểm khớp ban đầu: (a) Ảnh camera kép trái,
(b) Ảnh camera kép phải, (c) Bản đồ sai lệch mẫu và (d) Bản đồ sai lệch.
85
Nghiên cứu khoa học công nghệ
Tạp chí Nghiên cứu KH&CN quân sự, Số 52, 12 - 2017 115
Để khắc phục nhược điểm này, chúng tôi đề xuất điểm khớp xuất phát là điểm khớp
trung tâm của ảnh camera kép. Điểm khớp trung tâm của ảnh camera kép được xác định
dùng phương pháp biến đổi kiểm kê. Sau khi đã xác định được điểm khớp trung tâm,
chúng tôi chia ảnh thành 4 phần và coi điểm khớp trung tâm là điểm khớp ban đầu để lan
truyền tin cậy cho mỗi phần. Tại mỗi phần, ảnh camera kép được chia thô tới mịn mức 2
như hình 5, quá trình này làm giảm số lượng ảnh đi 4 lần. Khi chia thô tới mịn mức 2 thì
năng lượng chi phí cho mỗi mức chia được tính theo công thức (12). Số lượng mức sai
lệch được lựa chọn D = 100 mức, có nghĩa là khi mức sai lệch của ảnh camera kép tăng
lên thì hiệu năng thực hiện và yêu cầu về bộ nhớ không đổi (các mức sai lệch của ảnh
camera kép lớn hơn D mức).
*
[1,4]
( ) ( )i
i
E x D x
(12)
Tại mỗi mức sai lệch được lựa chọn, thông điệp được lan truyền tin cậy giữa các nút
như hình 6 và đồng thời thực hiện CSBP cho cả bốn phần nhờ vào cấu trúc xử lý song
song như phần cứng GPU và phần mềm CUDA.
Hình 5. Chia thô tới mịn mức 2. Hình 6. Sơ đồ thông điệp lan truyền.
3.2. Chương trình đề xuất
Thuật toán đề xuất CTCSBP (Census Transform Constant Space Belief Propagation)
Đầu vào: Ảnh camera kép có độ phân giải cao (M, N, D =100, c = 10, d = 0.7).
Đầu ra: Bản đồ sai lệch ảnh camera kép có mật độ dầy đặc (M, N).
Các bước thực hiện:
1. Xác định điểm khớp trung tâm ảnh camera kép dùng thuật toán CT theo công thức (11)
với cửa sổ 5x5.
2. Từ điểm khớp trung tâm, chia ảnh thành 4 phần và lấy điểm khớp trung tâm là điểm
khớp ban đầu lan truyền tin cậy cho mỗi phần như hình 6.
3. Thực hiện lan truyền tin cậy cả 4 phần đồng thời như sau:
4. Thực hiện chia thô tới mịn mức 2 như hình 5.
5. Tính toán năng lượng chi phí dữ liệu tại mỗi mức chia thô tới mịn mức 2 theo
công thức (12).
6. Lựa chọn D mức sai lệch tương ứng với D vòng lặp.
7. Tại mỗi mức sai lệch được chọn sẽ thực hiện:
8. Đặt các thông điệp ban đầu bằng 0.
9. Cập nhật thông điệp lan truyền tin cậy xuất phát từ điểm khớp ban đầu
theo công thức (10).
10. Tính toán độ tin cậy của nút theo công thức (7).
11. Nút
*
jx được lựa chọn và xác định theo công thức (8).
12. Tính tổng năng lượng chi phí theo công thức (5).
13. Tính tổng năng lượng chi phí của D mức sai lệch.
Kỹ thuật điều khiển & Điện tử
Đ. V. Tuấn, B. T. Thành, “Nâng cao chất lượng thuật toán ứng dụng cho thị giác robot.” 116
4. KẾT QUẢ THỰC NGHIỆM MÔ PHỎNG VÀ THẢO LUẬN
4.1. Dữ liệu thực nghiệm
Hệ thống thực nghiệm như hình 7 với cấu hình PC được mô tả trong bảng 2 và ảnh
camera kép trong tập dữ liệu kiểm thử [16] được mô tả trong bảng 3.
Hình 7. Hệ thống thực nghiệm.
Bảng 2. Mô tả cấu hình PC Destop.
Phần cứng Phần mềm
CPU RAM Card màn hình Hệ điều hành Phần mềm ứng dụng
Intel
core i7
8GB Geforce GTX750 Ti
Bộ nhớ trong: 2GB
Core: 460 nhân
BUS: 128 bít
Window 8.1
64 bít
QT Creator 5.4
OpenCV 3.0
Visual Studio 2013
CUDA
4.2. Chỉ số đánh giá độ tin cậy RMSE
Để đánh giá độ tin cậy của kết quả thực nghiệm, chúng tôi sử dụng tham số RMSE
(Root Mean Squared Error: sai số toàn phương trung bình) theo công thức (13). Tham số
RMSE càng nhỏ càng tốt, điều đó chứng tỏ kết quả bản đồ sai lệch thực hiện được càng
gần với bản đồ sai lệch mẫu.
𝑅𝑀𝑆𝐸 = (
1
𝑁
𝑑𝐶 𝑥,𝑦 − 𝑑𝑇(𝑥,𝑦)
2
𝑥 ,𝑦 )
1
2 (13)
Bảng 3. Tập dữ liệu kiểm thử.
Ký
hiệu
Tên ảnh Kích thức
Độ sai
lệch
Ảnh trái Ảnh phải
Bản đồ sai lệch
mẫu
#1 Baby 620x555 300
#2 Aloe 641x555 270
Nghiên cứu khoa học công nghệ
Tạp chí Nghiên cứu KH&CN quân sự, Số 52, 12 - 2017 117
#3 Cloth 626x555 290
#4
Flower
pots
656x555 251
#5 Bowling 665x555 240
#6 Book 695x555 200
4.3. Kết quả thực nghiệm và thảo luận
Để đánh giá hiệu quả của thật toán đề xuất, chúng tôi đưa ra một số thực nghiệm cơ bản
và so sánh kết quả của phương pháp đề xuất với kết quả của phương pháp được mô tả
trong [13]. Trong thực nghiệm chúng tôi sử dụng đa dạng ảnh camera kép để kiểm thử với
độ phức tạp khác nhau như bảng 3 với cấu hình PC như bảng 2.
(a) (b) (c) (d) (e) (f)
Hình 8. Bản đồ sai lệch dùng thuật toán đề xuất: trong đó (a), (b), (c), (d), (e) và (f) là
bản đồ sai lệch tương ứng của các ảnh #1, #2, #3, #4, #5 và #6.
Kết quả thực nghiệm với 6 mẫu ảnh camera kép thu được bản đồ sai lệch với thuật toán
đề xuất hình 8 và thuật toán CSBP hình 9. Để đánh giá độ tin cậy của thuật toán đề xuất so
với thuật toán CSBP, chúng tôi đã thực hiện kết quả bản đồ sai lệch thu được như hình 8
và hình 9 so với sai lệch mẫu bảng 3 thông qua chỉ số RMSE theo công thức (13) và được
mô tả như bảng 4.
Bảng 4. Chỉ số đánh giá sai số toàn phương trung bình RMSE.
Ảnh Thuật toán CSBP Thuật toán đề xuất
#1 0,7300 0,7250
#2 1,1821 1,0768
#3 2,2537 1,1560
#4 3,0911 2,9121
#5 4,6338 4,2676
#6 5,0050 4,4860
Kỹ thuật điều khiển & Điện tử
Đ. V. Tuấn, B. T. Thành, “Nâng cao chất lượng thuật toán ứng dụng cho thị giác robot.” 118
Bảng 4 cho thấy thuật toán đề xuất có độ tin cậy cao hơn thuật toán CSBP. Đối với các
ảnh #1, #2 và #3 có bề mặt đơn giản sẽ cho kết quả RMSE thấp hơn các ảnh #4, #5 và #6
có bề mặt ảnh phức tạp. Ngoài ra, độ tin cậy cũng phụ thuộc vào độ phân giải và mức độ
sai lệch của ảnh camera kép mẫu. Điều này lý giải, đối với các ảnh camera kép có bề mặt
đơn giản thì sẽ thu được bản đồ sai lệch gần bản đồ sai lệch mẫu.
Bảng 5. Đánh giá hiệu năng thực hiện (ms).
Ảnh Thuật toán CSBP Thuật toán đề xuất
#1 199 83
#2 203 84
#3 200 83
#4 217 89
#5 222 92
#6 229 94
Bảng 5 cho thấy, đối với các ảnh kiểm thử có kích thước tương đương nhau và có mức
sai lệch khác nhau thì thời gian thực hiện hầu như không thay đổi khi thực hiện cùng một
thuật toán. Điều này cho thấy hiệu năng thực hiện bản đồ sai lệch không phụ thuộc vào độ
phức tạp và độ sai lệch của ảnh mẫu mà chỉ phụ thuộc vào độ phân giải của ảnh. Ngoài ra
bảng 5 còn thể hiện sự hiệu năng của thuật toán đề xuất tăng khoảng 2,4 lần so với thuật
toán CSBP. Các kết quả thực nghiệm được thực hiện trên phần mềm mở OpenCV 3.0.
Ngoài ra, hiện nay còn có phần mềm cũng thực hiện đánh giá bản đồ sai lệch như Matlab
[17]. Cả hai phần mềm này đều là công cụ hữu ích cho thực hiện mô phỏng thị giác robot.
(a) (b) (c) (d) (e) (f)
Hình 9. Bản đồ sai lệch dùng thuật toán BP: trong đó (a), (b), (c), (d), (e) và (f) là bản đồ
sai lệch tương ứng của các ảnh #1, #2, #3, #4, #5 và #6.
5. KẾT LUẬN
Trong bài báo này chúng tôi đề xuất giải pháp cải tiến thuật toán CSBP [13]. Với
những ảnh camera kép kiểm thử [16] đa dạng về độ phức tạp đã cho kết quả bản đồ sai
lệch như hình 8. Đánh giá hiệu quả của thuật toán đề xuất được, chúng tôi mô tả như bảng
4 và bảng 5. Bảng 4 thể hiện các chỉ số RMSE giữa bản đồ sai lệch thu được so với bản đồ
sai lệch mẫu của thuật toán CSBP và thuật toán đề xuất. Bảng 5 thể hiện hiệu năng thực
hiện của thuật toán CSBP và thuật toán đề xuất thông qua hệ thống thực nghiệm như hình
7 với cấu hình như bảng 2.
Chúng tôi đề xuất giải pháp cải tiến thuật toán CSBP bằng giải pháp thay vì điểm khớp
xuất phát lan truyền tin cậy tại điểm trên cùng bên trái của ảnh camera kép bằng điểm
khớp trung tâm của ảnh và được xác định bằng thuật toán CT. Chia ảnh thành 4 phần và
coi điểm khớp trung tâm làm điểm khớp ban đầu của mỗi phần và thực hiện lan truyền tin
cậy với mức sai lệch được lựa chọn cố định là 100 mức. Thuật toán đề xuất cho độ tin cậy
cao và hiệu năng thực hiện tăng khoảng 2,4 lần so với thuật toán CSBP.
Hướng nghiên cứu tiếp theo của bài báo là thực nghiệm thuật toán đề xuất với ảnh
camera kép được thực hiện trực tiếp trên camera kép và đánh giá hiệu quả qua phần
mềm Matlab.
Nghiên cứu khoa học công nghệ
Tạp chí Nghiên cứu KH&CN quân sự, Số 52, 12 - 2017 119
PHỤ LỤC
Định nghĩa: Khoảng cách Hamming D(x, y) giữa hai véc tơ x,y € F(n) là các hệ số mà
chúng khác nhau. F là một trường hữu hạn.
Định luật: D thỏa mãn các đều kiện sau:
1. D(x, y) ≥ 0 và D(x,y) = 0 nếu và chỉ nếu x = y.
2. D(x, y) = D(y, x).
3. D(x, z) ≤ D(x,y) + D(y, z) với mọi y. [15].
Lời cảm ơn: Nghiên cứu này được tài trợ bởi Trung tâm Nghiên cứu Ứng dụng Khoa học và
Công nghệ, Trường Đại học Sư phạm Kỹ thuật Hưng Yên, đề tài mã số UTEHY.T01406.P1718.01.
TÀI LIỆU THAM KHẢO
[1]. M.A.K. Bahrin, "Industry 4.0: A Review on Industrial Automation and Robotic,"
Jurnal Teknologi (Sciences & Engineering), no. 78, 6 – 13, pp. 137–143, 2016.
[2]. Lazaros Nalpantidis, “Stereo Vision for Robotic Applications in the Presence of Non-
Ideal Lighting Conditions,” Image and Vision Computing, vol 26, no. 6, pp. 940 –
951, 2010.
[3]. P. Piccinini, A. Prati, R. Cucchiara, "Real-Time Object Detection and Localization
with SIFT-based Clustering," Image and Vision Computing, vol 30, no. 8, pp. 573 –
587, 2012.
[4]. D. Rodriguez, N. Aouf, “Robust Harris-SURF Features for Robotic Vision Based
Navigation,” Annual Conference on Intelligent Transportation Systems Madeira
Island, Portugal, September 19-22, 2010.
[5]. J. Chen, C. Cai, C. Li, “A Novel Stereo Object Segmentation Algorithm Using
Disparity and Temporal Information, ” Journal of Applied Science and Engineering,
Vol. 16, no. 3, pp. 225 – 232, 2013.
[6]. C. Lin, C. Kuo, L. Fu, “A Stereo Matching based on Adaptive Windows,”
International Journal of Electronic Commerce Studies Vol. 3, no. 1, pp. 21 - 34,
2012.
[7]. S. Perri, P. Corsonello, G. Cocorullo “Adaptive Census Transform: A Novel
Hardware-Oiented Stereo Vision Algorithm,” Image and Vision Computing, vol 117,
pp. 29 – 41, 2013.
[8]. J. Sun, N. N. Zheng and H. Y. Shum, “Stereo Matching Using Belief Propagation”,
IEEE Trans. Pattern Analysis and Machine Intelligence, vol. 7, no. 25, pp. 787-800,
2003.
[9]. X. Wang, H. Wang, Y. Su “Accurate Belief Propagation with Parametric and Non-
Parametric
Measure for Stereo Matching,” Image and Vision Computing, vol. 126, pp. 545 –
550, 2015.
[10]. Https://www.stereolabs.com/
[11]. K. Zhang, J. B. Lu, Q. Yang, G. Lafruit, R. Lauwereins and L.V. Gool, “Real-Time
and Accurate Stereo: A Scalable Approach with Bitwise Fast Voting on CUDA”,
IEEE Transactions on Circuits and Systems for Video Technology, vol. 7, no. 21,
pp.867-879, 2011.
[12]. S. Jin, J. Cho, X. D. Pham, K. M. Lee, S. K. Park, M. Kim and J. W. Jeon, “FPGA
Design and Implementation of a Real-Time Stereo Vision System”, IEEE
Kỹ thuật điều khiển & Điện tử
Đ. V. Tuấn, B. T. Thành, “Nâng cao chất lượng thuật toán ứng dụng cho thị giác robot.” 120
ABSTRACT
QUALITY IMPROVEMENT OF BELIEF PROPAGATION ALGORITHM FOR
DISPARITY MAP DETECTION APPLIED IN ROBOT VISION
In this paper, a method with the combination of CSBP (Constant Space
Belief Propagation) and CT (census transform) algorithms is proposed. The starting
point of these stereo camera images are the central points of these two images,
which are determined by CT algorithm. From this point, the image is devided into
four parts and each part will do belief propagation by CSBP algorithm with the
center starting points. By using this proposed method, the results of the disparity
map is more reliable and performance is 2.4 times faster than the CSBP algorithm.
Keywords: Disparity map, Robotics vision, Constant Space Belief propagation, Census transform, Stereo
camera.
Nhận bài ngày 03 tháng 11 năm 2017
Hoàn thiện ngày 17 tháng 11 năm 2017
Chấp nhận đăng ngày 20 tháng 12 năm 2017
Địa chỉ: 1Viện KH-CNQS;
2Trường Đại học Sư phạm Kĩ thuật Hưng Yên.
*Email: tuandv.ute@gmail.com.
Transactions on Circuits and Systems for Video Technology, vol. 1, no. 20, pp. 15-
26, 2010.
[13]. L. W. a. N. A. Q. Yang, "A Constant-sapce Belief Propagation Algorithm for Stereo
Matching," IEEE Computer Society Conference on Computer Vision and Pattern
Recognition, pp. 1458-1465, 2010.
[14]. Zabih, R. and Woodfill, J., "Non-Parametric Local Transforms for Computing
Visual Correspondence," Proceedingsings of Third European Conference of
Computer Vision, vol. 801, pp. 151 - 158, 1994.
[15]. H. Gopalakrishra Gadiyar and P. Padma, “A historical introduction to coding theory
through Hamming’s work,” V. I. T University, Vellore, 2015.
[16]. D. Scharstein and R. Szeliski. Middlebury benchmark.
[17]. Https://www.mathworks.com/help/vision/examples/depth-estimation-from-stereo-
video.html
Các file đính kèm theo tài liệu này:
- 13_tuan_4469_2151718.pdf