Tài liệu Giải pháp nâng cao hiệu quả xử lý tín hiệu trong thị giác Robot: Nghiên cứu khoa học công nghệ
Tạp chí Nghiên cứu KH&CN quân sự, Số 53, 02 - 2018 19
GIẢI PHÁP NÂNG CAO HIỆU QUẢ XỬ LÝ TÍN HIỆU
TRONG THỊ GIÁC ROBOT
Đoàn Văn Tuấn1,*, Bùi Trung Thành2, Hà Hữu Huy1
Tóm tắt: Bài báo này chúng tôi đề xuất một phương pháp cải tiến thuật toán BP
(Belief Propagation) để xác định bản đồ sai lệch của ảnh camera kép (Stereo
camera) có mật độ dầy đặc ứng dụng cho thị giác robot. BP là thuật toán suy diễn
dựa trên mô hình trường ngẫu nhiên Markov có độ tin cậy cao, tuy nhiên, độ phức
tạp và yêu cầu bộ nhớ lớn. BP thực hiện lan truyền tin cậy theo vòng lặp, số lượng
vòng lặp phụ thuộc vào các mức sai lệch của ảnh camera kép. Trong phương pháp
đề xuất, chúng tôi thực hiện lựa chọn số mức sai lệch cố định và sau mỗi vòng lặp
mức sai lệch sẽ thực hiện chia thô tới mịn mức 2. Phương pháp đề xuất tên là
CFCSBP (Coarse to Fine Constant Space Belief Propagation) đã nâng cao hiệu
quả thực hiện bản đồ sai lệch so với thuật toán BP. Hiệu quả được ...
9 trang |
Chia sẻ: quangot475 | Lượt xem: 434 | Lượt tải: 0
Bạn đang xem nội dung tài liệu Giải pháp nâng cao hiệu quả xử lý tín hiệu trong thị giác Robot, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
Nghiên cứu khoa học công nghệ
Tạp chí Nghiên cứu KH&CN quân sự, Số 53, 02 - 2018 19
GIẢI PHÁP NÂNG CAO HIỆU QUẢ XỬ LÝ TÍN HIỆU
TRONG THỊ GIÁC ROBOT
Đoàn Văn Tuấn1,*, Bùi Trung Thành2, Hà Hữu Huy1
Tóm tắt: Bài báo này chúng tôi đề xuất một phương pháp cải tiến thuật toán BP
(Belief Propagation) để xác định bản đồ sai lệch của ảnh camera kép (Stereo
camera) có mật độ dầy đặc ứng dụng cho thị giác robot. BP là thuật toán suy diễn
dựa trên mô hình trường ngẫu nhiên Markov có độ tin cậy cao, tuy nhiên, độ phức
tạp và yêu cầu bộ nhớ lớn. BP thực hiện lan truyền tin cậy theo vòng lặp, số lượng
vòng lặp phụ thuộc vào các mức sai lệch của ảnh camera kép. Trong phương pháp
đề xuất, chúng tôi thực hiện lựa chọn số mức sai lệch cố định và sau mỗi vòng lặp
mức sai lệch sẽ thực hiện chia thô tới mịn mức 2. Phương pháp đề xuất tên là
CFCSBP (Coarse to Fine Constant Space Belief Propagation) đã nâng cao hiệu
quả thực hiện bản đồ sai lệch so với thuật toán BP. Hiệu quả được thể hiện qua
hiệu năng thực hiện đã tăng nhanh 2,3 lần và yêu cầu bộ nhớ giảm 22 lần so với
thuật toán BP khi thực hiện trên GPU GTX 750Ti dùng CUDA.
Từ khóa: Bản đồ sai lệch, Thị giác robot, Lan truyền tin cậy với không gian cố định, Biến đổi kiểm kê, Camera kép.
1. MỞ ĐẦU
Thị giác robot (Robot Vision) đóng vai trò quan trọng trong công nghiệp 4.0 [1]. Từ
thông tin bản đồ sai lệch, robot xác định được ảnh 3D và bản đồ độ sâu của vật. Trong
công nghiệp 4.0, robot dần thay thế sức lao động của con người, do vậy, con người mong
muốn tạo hệ thị giác robot như hệ thị giác con người thông qua hệ camera kép (Stereo
Camera) [2]. Một thách thức khó khăn cho thị giác robot là độ phân giải ảnh ngày càng
tăng, tốc độ xử lý nhanh và yêu cầu bộ nhớ thấp. Các thuật toán SIFT [3] và SURF [4] dựa
theo mật độ thưa (Sparse) số lượng điểm khớp khoảng 30% của ảnh camera kép có tốc độ
thực hiện nhanh và yêu cầu bộ nhớ thấp tuy nhiên độ tin cậy thấp. Các thuật toán thực hiện
bản đồ sai lệch của camera kép có mật độ phân theo đoạn (Segmentation) [5] thường cân
bằng giữa độ tin cậy, hiệu năng thực hiện và yêu cầu bộ nhớ. Để đáp ứng được độ tin cậy
cao, thuật toán thực hiện trên camera kép có mật độ dầy đặc (Dense) như thuật toán SAD
[6], CT [7], và BP [8]. Các thuật toán này có độ tin cậy cao nhưng chưa đáp ứng về hiệu
năng cũng như yêu cầu về bộ nhớ.
Thuật toán BP (Belief Propagation) thực hiện dựa trên các vòng lặp và cho độ tin cậy
cao nhưng có nhược điểm là độ phức tạp của tính toán cao và yêu cầu bộ nhớ lớn. Để khắc
phục nhược điểm này, các thuật toán BP cải tiến được thực hiện song song trên nền hệ
thống nhúng GPU [9] hay FPGA [10] và giảm độ phức tạp tính toán và yêu cầu bộ nhớ.
Đã có nhiều thuật toán BP cải tiến đề xuất đều thực hiện trên cấu trúc ảnh dạng lưới với 4
kết nối cho một điểm ảnh. Tác giả Sun [8] đã biểu diễn BP dùng suy diễn MAP (Maximum
a Posterior) với độ phức tạp tính toán O(L2), trong đó, L là véc tơ độ sâu của ảnh. Tác giả
Felzenszwalb [11] đã dùng phương pháp tối ưu năng lượng chi phí theo tích chập tối thiểu
đã giảm thời gian tính toán từ O(L2) xuống O(L) và thực hiện chia thô tới mịn (Coarse to
Fine) điều này đã giảm được số vòng lặp và bộ nhớ yêu cầu tuy nhiên phải trả giá cho độ
chính xác. Tác giả Li Zhang [12] đề xuất bổ xung tham số MRF cho hàm chi phí, điều đó
làm giảm không gian tìm kiếm do đó cũng nâng cao được tốc độ. Tác giả Yu-Cheng Tseng
[13] đã đề xuất một giải pháp nhằm giảm bộ nhớ bằng cách chia ảnh thành các khối độc
lập và thực hiện BP riêng từng khối, phương pháp này có ưu điểm là thực hiện nhanh
nhưng độ tin cậy giảm. Để khắc phục nhược điểm này tác giả Chia [14] đã đề xuất như
mỗi khối sẽ được lưu trữ các thông tin của các điểm đường bao của khối do vậy nó cần bổ
xung bộ nhớ cho các thông tin đường bao. Để giảm yêu cầu bộ nhớ cho thông tin đường
Kỹ thuật điều khiển & Điện tử
Đ. V. Tuấn, B. T. Thành, H. H. Huy, “Giải pháp nâng cao hiệu quả thị giác robot.” 20
bao, tác giả Chao [15] đã đề xuất là tái sử dụng thông tin đường bao nhưng độ phức tạp
của tính toán tăng lên. Tác giả Yang [16] đề xuất giải pháp giảm bộ nhớ 12% so với BP
bằng cách cố định không gian sai lệch.
Trong bài báo này, chúng tôi đề xuất một giải pháp cải tiến thuật toán BP, với phương
pháp lựa chọn cố định các mức sai lệch để thực hiện lặp lan truyền tin cậy thông tin. Sau
mỗi vòng lặp sẽ thực hiện chia thô tới mịn mức 2. Với phương pháp đề xuất thực hiện bản
đồ sai lệch ảnh camera kép có mật độ dầy đặc sẽ tăng được hiệu năng thực hiện và giảm
được yêu cầu về bộ nhớ tuy nhiên độ tin cậy sẽ bị trả giá so với thuật toán BP tiêu chuẩn.
Phần còn lại của bài báo được tổ chức như sau: phần 2 trình bày cơ sở toán học cho
thuật toán đề xuất CFCSBP. Kết quả thực nghiệm và thảo luận đưa ra trong phần 3; Kết
luận được cho trong phần 4.
2. CƠ SỞ TOÁN HỌC ĐỀ XUẤT THUẬT TOÁN CFCSBP
2.1. Thuật toán BP
Thuật toán BP là thuật toán suy diễn lặp gần đúng dựa trên mô hình trường ngẫu nhiên
Markov, lan truyền độ tin cậy giữa các nút bằng thông điệp [8]. Đây là thuật toán toàn cục,
có ưu điểm là độ tin cậy cao nhưng độ phức tạp tính toán và yêu cầu bộ nhớ lớn. Bảng 1
liệt kê một số kí hiệu được sử dụng trong bài báo này.
Bảng 1. Các kí hiệu và định nghĩa của nó.
Kí hiệu Định nghĩa
i,j Biểu diễn nút thứ i và nút lân cận i.
X,Xi Biến ngẫu nhiên liên kết x và biến ngẫu nhiên của nút i.
xi Sự chuẩn hóa của Xi và Xi là không gian trạng thái của xi (xiϵ Xi)
xiL,xiR Cường độ sáng điểm ảnh i của ảnh trái và ảnh phải.
x Sự chuẩn hóa các giá trị mô hình đồ thị trong không gian X
E(x) Giá trị năng lượng.
D(xi) Giá trị năng lượng cho nút i
W( , )i jx x Giá trị năng lượng giữa nút i và nút j lân cận
( )i jV x x Giá trị năng lượng sai lệch giữa nút i và nút j lân cận
( )ti j jm x
Thông điệp chuyển từ nút i sang nút lân cận j.
( )j jb x Độ tin cậy nút j
c Tỉ lệ tăng của hàm nhẵn
d
k,k
’
Ngưỡng dừng tăng của hàm nhẵn
Số mức sai lệch và số mức sai lệch được lựa chọn
E(i)\j Tập các nút i ngoài trừ nút j.
dC(x,y) Bản đồ sai lệch thực hiện
dT(x,y) Bản đồ sai lệch mẫu
Xét mô hình trường ngẫu nhiên Markov
(Markov Random Filed: MRF) như hình 1. Từ [11]
và bảng 1, năng lượng chi phí được xác định là
,
( ) ( ) W( , )i i j
i V i j E
E x D x x x
(1)
Trong thị giác robot, các nút là các nhãn được
gán cho sự sai lệch cường độ sáng của điểm ảnh
tương đồng trên ảnh camera kép. Giá trị năng lượng
Hình 1. Mô hình MRF.
Nghiên cứu khoa học công nghệ
Tạp chí Nghiên cứu KH&CN quân sự, Số 53, 02 - 2018 21
của nút đến các nút lân cận dựa trên sự khác nhau giữa các nút. Do vậy, giá trị năng lượng
được xác định là:
W( , ) ( )i j i jx x V x x (2)
,
( ) ( ) ( )i i j
i V i j E
E x D x V x x
(3)
Thuật toán BP dựa trên phương pháp lặp, với sự lan truyền thông điệp tin cậy qua các
nút. Mỗi thông điệp là một véc tơ của kích thước được cho bởi số lượng các nút có thể có, k.
Thông điệp cập nhật tại vòng lặp t được xác định là:
1
( )\
( ) min( ( ) ( ) ( ))
i
t t
i j j i j i i s i i
x
s E i j
m x V x x D x m x
(4)
Thông thường, giá trị năng lượng chi phí nhẵn được xác định theo mô hình tuyến tính.
( ) min( , )i j i jV x x c x x d (5)
Khi đó, thông điệp cập nhật được xác định:
1
( )\
( ) min(min( , ) ( ) ( ))
i
t t
i j j i j i i s i i
x
s E i j
m x c x x d D x m x
(6)
Sau T vòng lặp thì véc tơ độ tin cậy của mỗi nút được xác định là:
( )
( ) ( ) ( )Tj j j j i j j
i N j
b x D x m x
(7)
Nút
*
jx được lựa chọn và xác định theo công thức:
* arg min ( )j j jx b x (8)
Giá trị năng lượng được xác định:
iR
,
( ) min( , )iL i j
i V i j E
E x x x c x x d
(9)
2.2. Mô tả thuật toán đề xuất
Hình 2. Chia thô tới mịn mức 2. Hình 3. Sơ đồ thông điệp lan truyền.
Thuật toán BP yêu cầu bộ nhớ lớn do vậy chiếm dụng nhiều tài nguyên bộ nhớ của thị
giác robot. Để giảm yêu cầu về bộ nhớ, chúng tôi đề xuất, lựa chọn cố định k’ các mức sai
lệch để thực hiện lặp lan truyền thông điệp. Sau khi thực hiện xong k” mức sai lệch, chúng
tôi thực hiện chia thô tới mịn mức 2 như hình 2, quá trình này số lượng điểm ảnh giảm đi 4
lần và thực hiện k” vòng lặp tiếp theo. Tại mỗi vòng lặp, các thông điệp được thực hiện
đồng thời với cấu trúc xử lý song song như hình 3. Khi chia thô tới mịn mức 2 thì giá trị
năng lượng chi phí cho mỗi mức chia được tính theo công thức (10). Số lượng mức sai
lệch được lựa chọn k’ = 100 mức (ảnh kiểm thử có mức sai lệch k = 300) và k” = 10 (ảnh
Kỹ thuật điều khiển & Điện tử
Đ. V. Tuấn, B. T. Thành, H. H. Huy, “Giải pháp nâng cao hiệu quả thị giác robot.” 22
kiểm thử có kích thước 620 x555), có nghĩa là khi mức sai lệch của ảnh camera kép tăng
lên thì hiệu năng thực hiện và yêu cầu về bộ nhớ không đổi.
*
[1,4]
( ) ( )i
i
E x D x
(10)
2.3. Chương trình đề xuất
Đầu vào: Ảnh camera kép #1 ((620x555), k=300, k’ = 100, k”=10, i)
Đầu ra: Bản đồ sai lệch.
Các bước thực hiện:
1. Lựa chọn k’ mức sai lệch tương ứng với k’ vòng lặp.
2. For (i = 0, i ≤ k”, i++)
3. Tại mỗi mức sai lệch được chọn sẽ thực hiện:
4. Đặt các thông điệp ban đầu bằng 0.
5. Cập nhật thông điệp lan truyền tin cậy xuất phát từ nút có tọa độ (0,0) theo
công thức (6).
6. Tính toán độ tin cậy của nút theo công thức (7).
7. Nút
*
jx được lựa chọn và xác định theo công thức (8).
8. Tính giá trị năng lượng chi phí theo công thức (9).
9. Tính tổng năng lượng của k” mức sai lệch.
10. Thực hiện chia thô tới mịn mức 2 như hình 2.
11. Tính năng lượng chi phí cho mỗi mức chia theo công thức (10)
12. Lặp lại bước 2
13. Tính tổng năng lượng chi phí của k’ mức sai lệch.
3. KẾT QUẢ THỰC NGHIỆM MÔ PHỎNG VÀ THẢO LUẬN
3.1. Dữ liệu thực nghiệm
Hệ thống thực nghiệm với cấu hình PC được mô tả trong bảng 2 và ảnh camera kép
trong tập dữ liệu kiểm thử [17] được mô tả trong bảng 3.
Bảng 2. Mô tả cấu hình PC Destop.
Phần cứng Phần mềm
CPU RAM Card màn hình Hệ điều hành Phần mềm ứng dụng
Intel
core i7
8GB Geforce GTX750 Ti
Bộ nhớ trong: 2GB
Core: 460 nhân
BUS: 128 bít
Window 8.1
64 bít
QT Creator 5.8
OpenCV 3.0
Visual Studio 2013
CUDA
3.2. Chỉ số đánh giá độ tin cậy RMSE
Để đánh giá độ tin cậy của kết quả thực nghiệm, chúng tôi sử dụng tham số RMSE
(Root Mean Squared Error: Sai số toàn phương trung bình) theo công thức (11). Tham số
RMSE càng nhỏ càng tốt, điều đó chứng tỏ kết quả bản đồ sai lệch thực hiện được càng
gần với bản đồ sai lệch mẫu.
𝑅𝑀𝑆𝐸 = (
1
𝑁
𝑑𝐶 𝑥,𝑦 − 𝑑𝑇(𝑥,𝑦)
2
𝑥 ,𝑦 )
1
2 (11)
Nghiên cứu khoa học công nghệ
Tạp chí Nghiên cứu KH&CN quân sự, Số 53, 02 - 2018 23
Bảng 3. Tập dữ liệu kiểm thử.
Ký
hiệu
Tên ảnh Kích thức
Độ sai
lệch
Ảnh trái Ảnh phải
Bản đồ sai lệch
mẫu
#1 Baby 620x555 300
#2 Aloe 641x555 270
#3 Cloth 626x555 290
#4
Flower
pots
656x555 251
#5 Bowling 665x555 240
#6 Book 695x555 200
3.3. Kết quả thực nghiệm và thảo luận
(a) (b) (c) (d) (e) (f)
Hình 4. Bản đồ sai lệch dùng thuật toán đề xuất: trong đó (a), (b), (c), (d), (e) và (f) là
bản đồ sai lệch tương ứng của các ảnh #1, #2, #3, #4, #5 và #6.
Để đánh giá hiệu quả của thật toán đề xuất, chúng tôi đưa ra một số thực nghiệm cơ bản
và so sánh kết quả của phương pháp đề xuất với kết quả của phương pháp được mô tả
trong [11]. Trong thực nghiệm chúng tôi sử dụng đa dạng ảnh camera kép để kiểm thử với
độ phức tạp và mức sai lệch khác nhau như bảng 3 với cấu hình PC như bảng 2. Kết quả
Kỹ thuật điều khiển & Điện tử
Đ. V. Tuấn, B. T. Thành, H. H. Huy, “Giải pháp nâng cao hiệu quả thị giác robot.” 24
thực nghiệm với 6 mẫu ảnh camera kép thu được bản đồ sai lệch với thuật toán đề xuất
hình 4 và thuật toán BP hình 5.
Bảng 4. Đánh giá hiệu năng thực hiện (ms).
Ảnh Thuật toán BP Thuật toán đề xuất
#1 439 191
#2 457 199
#3 442 195
#4 473 203
#5 478 204
#6 494 211
Bảng 4 cho thấy, đối với các ảnh kiểm thử có kích thước tương đương nhau và có mức
sai lệch khác nhau thì thời gian thực hiện gần như không thay đổi khi thực hiện cùng một
thuật toán. Điều này cho thấy hiệu năng thực hiện bản đồ sai lệch không phụ thuộc vào độ
phức tạp và độ sai lệch của ảnh mẫu mà chỉ phụ thuộc vào độ phân giải của ảnh. Ngoài ra
bảng 4 còn thể hiện sự hiệu năng của thuật toán đề xuất tăng khoảng 2,3 lần so với thuật
toán BP tiêu chuẩn.
Bộ nhớ yêu cầu khi thực hiện bản đồ sai lệch theo thuật toán BP tiêu chuẩn bao gồm bộ
nhớ lưu trữ thông điệp lan truyền và bộ nhớ lưu trữ năng lượng chi phí dữ liệu. Đặt M là
bộ nhớ yêu cầu của thuật toán BP, Mp là bộ nhớ yêu cầu lưu trữ thông điệp lan truyền, Md
là bộ nhớ yêu cầu lưu trữ năng lượng chi phí dữ liệu, N là kích thước ảnh và D là mức sai
lệch ảnh camera kép. Khi đó:
p dM M M
Xét ảnh #1 trong bảng 1 với điểm ảnh có 4 kết nối và bộ nhớ dùng bus 16 bit:
- Thuật toán BP tiêu chuẩn:
16 (4 )
16 5
10 620 550 300
1023000000
975,6
M x xNxD NxD bit
M x xNxDbit
M x x x B
M B
M MB
- Thuật toán đề xuất được tính:
0 1 2 3 4 5 6 7 8 9
0 1 2 3 4 5 6 7 8 9
9
1 1 1 1 1 1 1 1 1 1
16 5 620 550 10( )
4 4 4 4 4 4 4 4 4 4
1 1 1 1 1 1 1 1 1 1
10 620 550 10( )
4 4 4 4 4 4 4 4 4 4
4 1
10 620 550 10 ( )
3 3 4
43,36
M x x x x bit
M x x x B
M x x x x B
x
M MB
Bảng 5. Dung lượng yêu cầu bộ nhớ RAM (MB).
Ảnh Thuật toán BP Thuật toán đề xuất
#1 975,60 43,36
#2 916,06 45,23
#3 960,87 44,18
Nghiên cứu khoa học công nghệ
Tạp chí Nghiên cứu KH&CN quân sự, Số 53, 02 - 2018 25
#4 871,50 46,29
#5 844,74 46,93
#6 735,71 49,04
Bảng 5 cho thấy, đối với tập ảnh kiểm thử có mức sai lệch khác nhau thì dung lượng bộ
nhớ yêu cầu của thuật toán đề xuất không thay đổi. Dung lượng bộ nhớ chỉ phụ thuộc vào
kích thước của ảnh camera kép. Thuật toán BP yêu cầu bộ nhớ lớn không những phụ thuộc
vào kích thước của ảnh mà còn phụ thuộc vào mức độ sai lệch của ảnh camera kép. Dung
lượng yêu cầu bộ nhớ của thuật toán đề xuất giảm khoảng 22 lần so với yêu cầu bộ nhớ
của thuật toán BP tiêu chẩn.
(a) (b) (c) (d) (e) (f)
Hình 5. Bản đồ sai lệch dùng thuật toán BP: trong đó (a), (b), (c), (d), (e) và (f) là bản đồ
sai lệch tương ứng của các ảnh #1, #2, #3, #4, #5 và #6.
Để đánh giá độ tin cậy của thuật toán đề xuất so với thuật toán BP, chúng tôi đã thực
hiện kết quả bản đồ sai lệch thu được như hình 4, hình 5 và hình 6 so với sai lệch mẫu
bảng 3 thông qua chỉ số RMSE theo công thức (11) và được mô tả như bảng 6. Bảng 6 cho
thấy, thuật toán đề xuất có độ tin cậy cao hơn thuật toán CT và thấp hơn thuật toán BP, có
nghĩa là khi cải thiện được tốc độ thực hiện và yêu cầu bộ nhớ thì phải trả giá về độ tin
cậy. Đối với các ảnh #1, #2 và #3 có bề mặt đơn giản sẽ cho kết quả RMSE thấp hơn các
ảnh #4, #5 và #6 có bề mặt ảnh phức tạp. Ngoài ra, độ tin cậy cũng phụ thuộc vào mức độ
sai lệch của ảnh camera kép mẫu. Điều này lý giải, đối với các ảnh camera kép có bề mặt
đơn giản thì sẽ thu được bản đồ sai lệch gần bản đồ sai lệch mẫu.
Bảng 6. Chỉ số đánh giá sai số toàn phương trung bình RMSE.
Ảnh Thuật toán BP Thuật toán đề xuất
#1 0.7200 0,7350
#2 1,0921 1,1985
#3 2.2737 2,2840
#4 3.05911 3,1121
#5 4.7338 4,7960
#6 5,0250 5,1840
Các kết quả thực nghiệm trên được thực hiện trên phần mềm mở OpenCV 3.0. Ngoài
ra, hiện nay còn có phần mềm cũng thực hiện đánh giá bản đồ sai lệch như Matlab [18].
Cả hai phần mềm này đều là công cụ hữu ích cho thực hiện mô phỏng thị giác robot.
4. KẾT LUẬN
Trong bài báo này chúng tôi đề xuất giải pháp cải tiến thuật toán BP [11]. Với những
ảnh camera kép kiểm thử [17] đa dạng về độ phức tạp cũng như mức sai lệch như bảng 3
đã cho kết quả bản đồ sai lệch như hình 6. Các kết quả thực nghiệm được thực hiện thông
qua hệ thống thực nghiệm với cấu hình như bảng 2.
Giải pháp cải tiến thuật toán BP của chúng tôi là thay vì thực hiện lặp và lan truyền
thông điệp tin cậy tất cả các mức sai lệch ảnh camera kép ảnh #1 (k = 300), chúng tôi lựa
chọn k’ vòng lặp cố định tương ứng với các mức sai lệch cố định (k’ = 100). Ngoài ra, sau
k
”
vòng lặp chúng tôi thực hiện chia thô tới mịn mức 2 (k” = 10).
Kỹ thuật điều khiển & Điện tử
Đ. V. Tuấn, B. T. Thành, H. H. Huy, “Giải pháp nâng cao hiệu quả thị giác robot.” 26
Các kết quả thực nghiệm đã chứng tỏ rằng phương pháp đề xuất làm việc tốt trên các
ảnh camera kép có mật độ cao với hiệu năng tăng 2,3 lần và yêu cầu bộ nhớ giảm 22 lần so
với thuật toán BP.
Hướng nghiên cứu tiếp theo của bài báo là thực nghiệm thuật toán đề xuất với ảnh
camera kép được thực hiện trực tiếp trên camera kép và đánh giá hiệu quả qua phần mềm
Matlab.
TÀI LIỆU THAM KHẢO
[1]. M.A.K. Bahrin, "Industry 4.0: A Review on Industrial Automation and
Robotic,"Jurnal Teknologi (Sciences & Engineering), no.78, 6 – 13, pp. 137–143,
2016.
[2]. Lazaros Nalpantidis, “Stereo Vision for Robotic Applications in the Presence of Non-
Ideal Lighting Conditions,” Image and Vision Computing, vol 26, no. 6, pp. 940 –
951, 2010.
[3]. P. Piccinini, A. Prati, R. Cucchiara, "Real-Time Object Detection and Localization
with SIFT-based Clustering," Image and Vision Computing, vol 30, no. 8, pp. 573 –
587, 2012.
[4]. D. Rodriguez, N. Aouf, “Robust Harris-SURF Features for Robotic Vision Based
Navigation,” Annual Conference on Intelligent Transportation Systems Madeira
Island, Portugal, September 19-22, 2010.
[5]. J. Chen, C. Cai, C. Li, “A Novel Stereo Object Segmentation Algorithm Using
Disparity and Temporal Information,” Journal of Applied Science and Engineering,
Vol. 16, no. 3, pp. 225 – 232, 2013.
[6]. C. Lin, C. Kuo, L. Fu, “A Stereo Matching based on Adaptive Windows,”
International Journal of Electronic Commerce Studies Vol. 3, no. 1, pp.21-34, 2012.
[7]. S. Perri, P. Corsonello, G. Cocorullo “Adaptive Census Transform: A Novel
Hardware-Oiented StereoVision Algorithm,” Image and Vision Computing, vol 117,
pp. 29 – 41, 2013.
[8]. J. Sun, N. N. Zheng and H. Y. Shum, “Stereo Matching Using Belief Propagation”,
IEEE Trans.PatternAnalysis and Machine Intelligence, vol. 7, no. 25, pp. 787-800,
2003.
[9]. K. Zhang, J. B. Lu, Q. Yang, G. Lafruit, R. Lauwereins and L.V. Gool, “Real-Time
and Accurate Stereo: A Scalable Approach with Bitwise Fast Voting on CUDA”,
IEEE Transactions on Circuits and Systems for Video Technology, vol. 7, no. 21,
pp.867-879, 2011.
[10]. S. Jin, J. Cho, X. D. Pham, K. M. Lee, S. K. Park, M. Kim and J. W. Jeon, “FPGA
Design and Implementation of a Real-Time Stereo Vision System”, IEEE
Transactions on Circuits and Systems for Video Technology, vol. 1, no. 20, pp. 15-
26, 2010.
[11]. P. F. Felzenszwalb and D. P. Huttenlocher, "Efficient Belief Propagation for Early,"
Proc. IEEE Int. Conf. Computer Vision and Pattern Recognition, vol. 1, no. 70, pp.
261 - 267, 2004.
[12]. L. Zhang and S. M. Seitz, "Parameter Estimation for MRF Stereo," Proc. IEEE Int'l
Conf. Computer Vision and Pattern Recognition (CVPR '05), pp. 288 - 295, 20 - 25
June 2005.
[13]. N. C. a. T. C. Y. C Tseng, "Low Memory Cost Block - based Belief Propagations for
Nghiên cứu khoa học công nghệ
Tạp chí Nghiên cứu KH&CN quân sự, Số 53, 02 - 2018 27
ABSTRACT
QUALITY PERFORMANCE IMPROVEMENT OF SIGNAL PROCESSING
FOR ROBOT VISION
In this paper, a method for improving the BP (Belief Propagation) algorithm to
determine the disparity map of the dense stereo camera image applied for robot
vision is proposed. BP is an inference algorithm based on the highly reliable
Markov random-field model, but its complexity and memory requirements are large.
BP performs loop-through reliable propagation, the number of loops depends on
the degree of distortion of the dual camera image. In the proposed method, fixed
number of disparities is made and after each loop the disparity will be implemented
coarse to fine lever 2. The proposed method (Coarse to Fine Constant Space Belief
Propagation) improves performance of disparity map compared to BP. It is 2.3
times faster and memory requirements were reduced to 22 times lower compared to
the BP algorithm using GPU GTX 750Ti with CUDA.
Keywords: Disparity map, Robotics vision, Constant Space Belief propagation, Census transform, Stereo
camera.
Nhận bài ngày 10 tháng 11 năm 2017
Hoàn thiện ngày 31 tháng 01 năm 2018
Chấp nhận đăng ngày 26 tháng 02 năm 2018
Địa chỉ: 1 Viện Khoa học Công nghệ quân sự;
2 Trường Đại học Sư phạm Kĩ thuật Hưng Yên.
*Email: tuandv.ute@gmail.com.
Stereo Correspondence," 2007 IEEE International conference on Multimedia and
Expo,pp. 1415 - 1418, 2 - 5 july 2007.
[14]. C. K. Liang, C. C. Cheng, Y. C. Lai, L. G. Chen and H. H. Chen, "Hardware
Efficient Belief Propagation," Proc. of IEEE Conf. Computer Vision and Pattern
Recognition, pp. 80 - 87, 20 -25 June 2009.
[15]. Y. C. Tseng and T. S. Chang, "Architecture Design of Belief Propagation for Real
Time Disparity Estimation," IEEE Transaction on Circuits and Systems for Video
Technology, vol. 11, no. 20, pp. 1555 - 1565, 2010.
[16]. L. W. a. N. A. Q. Yang, "A Constant-sapce Belief Propagation Algorithm for Stereo
Matching," IEEE Computer Society Conference on Computer Vision and Pattern
Recognition, pp. 1458-1465, 2010.
[17]. D. Scharstein and R. Szeliski. Middlebury benchmark.
[18]. Https://www.mathworks.com/help/vision/examples/depth-estimation-from-stereo-
video.html
Các file đính kèm theo tài liệu này:
- 03_doan_tuan_0591_2151632.pdf