Nâng cao chất lượng thuật toán lan truyền tin cậy xác định bản đồ sai lệch ứng dụng cho thị giác Robot

Tài liệu Nâng cao chất lượng thuật toán lan truyền tin cậy xác định bản đồ sai lệch ứng dụng cho thị giác Robot: Nghiên cứu khoa học công nghệ Tạp chí Nghiên cứu KH&CN quân sự, Số 52, 12 - 2017 111 NÂNG CAO CHẤT LƯỢNG THUẬT TOÁN LAN TRUYỀN TIN CẬY XÁC ĐỊNH BẢN ĐỒ SAI LỆCH ỨNG DỤNG CHO THỊ GIÁC ROBOT Đoàn Văn Tuấn1*, Bùi Trung Thành2 Tóm tắt: Trong bài báo này, chúng tôi đề xuất một phương pháp kết hợp giữa thuật toán CSBP (Constant Space Belief Propagation) và thuật toán cục bộ CT (Census Transfrom). Điểm khớp trung tâm ảnh camera kép (Stereo Camera) được xác định bằng thuật toán CT. Từ điểm khớp trung tâm, chúng tôi chia ảnh thành 4 phần và mỗi phần sẽ thực hiện lan truyền tin cậy dùng thuật toán CSBP với điểm khớp ban đầu là điểm khớp trung tâm. Với phương pháp đề xuất này cho kết quả thực hiện bản đồ sai lệch có tin cậy cao hơn và hiệu năng thực hiện nhanh 2,4 lần so với thuật toán CSBP. Từ khóa: Bản đồ sai lệch, Thị giác robot, Lan truyền tin cậy với không gian cố định, Biến đổi kiểm kê, Camera kép. 1. MỞ ĐẦU Bản đồ sai lệch là thông số rất quan trọng trong t...

pdf10 trang | Chia sẻ: quangot475 | Lượt xem: 552 | Lượt tải: 0download
Bạn đang xem nội dung tài liệu Nâng cao chất lượng thuật toán lan truyền tin cậy xác định bản đồ sai lệch ứng dụng cho thị giác Robot, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
Nghiên cứu khoa học công nghệ Tạp chí Nghiên cứu KH&CN quân sự, Số 52, 12 - 2017 111 NÂNG CAO CHẤT LƯỢNG THUẬT TOÁN LAN TRUYỀN TIN CẬY XÁC ĐỊNH BẢN ĐỒ SAI LỆCH ỨNG DỤNG CHO THỊ GIÁC ROBOT Đoàn Văn Tuấn1*, Bùi Trung Thành2 Tóm tắt: Trong bài báo này, chúng tôi đề xuất một phương pháp kết hợp giữa thuật toán CSBP (Constant Space Belief Propagation) và thuật toán cục bộ CT (Census Transfrom). Điểm khớp trung tâm ảnh camera kép (Stereo Camera) được xác định bằng thuật toán CT. Từ điểm khớp trung tâm, chúng tôi chia ảnh thành 4 phần và mỗi phần sẽ thực hiện lan truyền tin cậy dùng thuật toán CSBP với điểm khớp ban đầu là điểm khớp trung tâm. Với phương pháp đề xuất này cho kết quả thực hiện bản đồ sai lệch có tin cậy cao hơn và hiệu năng thực hiện nhanh 2,4 lần so với thuật toán CSBP. Từ khóa: Bản đồ sai lệch, Thị giác robot, Lan truyền tin cậy với không gian cố định, Biến đổi kiểm kê, Camera kép. 1. MỞ ĐẦU Bản đồ sai lệch là thông số rất quan trọng trong thị giác robot (Robot Vision). Từ thông tin bản đồ sai lệch, robot xác định được ảnh 3D và bản đồ độ sâu của vật và được ứng dụng trong công nghiệp 4.0 [1]. Trong công nghiệp 4.0, robot dần thay thế sức lao động của con người, do vậy, con người mong muốn tạo hệ thị giác robot như hệ thị giác con người thông qua hệ camera kép (Stereo Camera) [2]. Camera kép như hai mắt người. Nguồn tài nguyên bộ nhớ của robot có hạn nên các thuật toán thực hiện bản đồ sai lệch của hệ camera kép phải tự cân bằng các tiêu chí về độ tin cậy, hiệu năng thực hiện và yêu cầu tài nguyên bộ nhớ. Tùy theo từng công việc cụ thể thì thị giác robot sẽ lựa chọn thuật toán thực hiện bản đồ sai lệch có ưu điểm về độ tin cậy, hiệu năng thực hiện và yêu cầu bộ nhớ. Sẽ rất khó có giải pháp thực hiện tốt được độ tin cậy cao, hiệu năng thực hiện nhanh và yêu cầu bộ nhớ thấp. Thị giác robot yêu cầu thực hiện nhanh theo thời gian thực thì các thuật toán thực hiện bản đố sai lệch của camera kép có mật độ thưa thớt (Sparse) được lựa chọn như thuật toán SIFT [3] và SURF [4] thường được ứng dụng cho SLAM (Simultataneous Localization and Mapping). Các thuật toán này có độ tin cậy thấp, số lượng điểm khớp khoảng 30% của ảnh camera kép bù lại tốc độ thực hiện nhanh và yêu cầu bộ nhớ thấp. Các thuật toán thực hiện bản đồ sai lệch của camera kép có mật độ phân theo đoạn (Segmentation) [5] thường cân bằng giữa độ tin cậy, hiệu năng thực hiện và yêu cầu bộ nhớ. Để đáp ứng được độ tin cậy cao thì thuật toán thực hiện trên camera kép có mật độ dầy đặc (Dense) như thuật toán SAD [6], CT [7], và BP [8]. Ngoài ra, có một số thuật toán kết hợp giữa thuật toán toàn cục và thuật toán cục bộ như [9]. Các thuật toán này có độ tin cậy cao nhưng chưa đáp ứng về hiệu năng cũng như yêu cầu về bộ nhớ. Hiện nay, thuật toán cục bộ đã được một số nhà sản xuất thực hiện hệ camera kép thương mại như ZED [10]. Thuật toán BP (Belief Propagation) thực hiện dựa trên các vòng lặp và cho độ tin cậy cao đối với ảnh camera kép có mật độ dầy đặc. Tuy nhiên, thuật toán BP có nhược điểm là độ phức tạp của tính toán cao và yêu cầu bộ nhớ lớn. Để khắc phục nhược điểm này cần Hình 1. Mô hình ảnh camera kép. Kỹ thuật điều khiển & Điện tử Đ. V. Tuấn, B. T. Thành, “Nâng cao chất lượng thuật toán ứng dụng cho thị giác robot.” 112 phải giảm độ phức tạp của tính toán, giảm yêu cầu về bộ nhớ và xử lý song song, tuy nhiên đều phải trả giá về độ tin cậy. Các thuật toán BP nâng cao được thực hiện song song trên nền hệ thống nhúng GPU [11] hay FPGA [12]. Đa số các thuật toán BP cải tiến đều thực hiện trên cấu trúc ảnh dạng lưới với 4 kết nối cho một điểm ảnh. Trong các thuật toán BP cải tiến, thuật toán CSBP (Constant Space Belief Propagation) [13] của Yang đã giảm 12,5% yêu cầu bộ nhớ và tăng hiệu năng thực hiện so với thuật toán BP tiêu chuẩn. Điểm nổi bật của thuật toán CSBP là cố định các mức sai lệch được chọn cho vòng lặp, do vậy, bộ nhớ sẽ phụ thuộc vào số mức sai lệch được chọn mà không phụ thuộc vào các mức sai lệch của ảnh camera kép. Điểm hạn chế của thuật toán CSBP là tăng độ phức tạp tính toán và giảm độ tin cậy so với thuật toán BP. Để khắc phục nhược điểm của thuật toán CSBP, chúng tôi đề xuất một giải pháp sau, thay vì điểm khớp xuất phát ban đầu thường được chọn là điểm khớp trên cùng bên trái của ảnh camera kép bằng điểm khớp tại trung tâm của ảnh. Điểm khớp trung tâm của ảnh camera kép được xác định dùng thuật toán cục bộ CT (Census transform). Thuật toán CT có hàm biến đổi mạnh và không phụ thuộc cường độ ánh sang của ảnh [14]. Khi đã xác định được điểm khớp trung tâm, chúng tôi chia ảnh thành 4 phần và coi điểm khớp trung tâm là điểm khớp xuất phát thông điệp ban đầu cho mỗi phần và lan truyền tin cậy với số mức sai lệch được lựa chọn cố định. Thuật toán đề xuất có ưu điểm là tăng được tốc độ thực hiện và nâng cao được độ tin cậy so với thuật toán CSBP. Phần còn lại của bài báo được tổ chức như sau: phần 2 trình bày một số kiến thức liên quan đến thuật toán thực hiện bản đồ sai lệch như CSBP và CT. Phần 3 đề xuất thuật toán kết hợp giữa CSBP và CT. Kết quả thực nghiệm đưa ra trong phần 4; Kết luận được cho trong phần 5. 2. CÁC NGHIÊN CỨU LIÊN QUAN Bảng 1 sau đây liệt kê một số kí hiệu được sử dụng trong bài báo này. Bảng 1. Các kí hiệu và định nghĩa của nó. Kí hiệu Định nghĩa G Mô hình đồ thị biểu diễn bản đồ sai lệch của ảnh camera kép. V Tập các nút trên mô hình đồ thị (nút biểu diễn sự sai lệch của cặp ảnh tương đồng trong ảnh camera kép). E Tập các cạnh trên mô hình đồ thị (cạnh biểu diễn năng lượng chi phí cuat nút với các nút lân cận của nó). i,j Biểu diễn nút thứ i và nút lân cận i. Xi Biến ngẫu nhiên của nút i. xi Sự chuẩn hóa của Xi và Xi là không gian trạng thái của xi (xiϵ Xi) X Biến ngẫu nhiên liên kết x. x Sự chuẩn hóa các giá trị mô hình đồ thị trong không gian X p(x) Xác xuất hậu nghiệm (posterior) MAP. (x )i i Xác suất nút i. i( , )jx x Xác suất nút i với nút j lân cận nút i. E(x) Năng lượng chi phí D(xi) Hàm năng lượng chi phí cho nút i ( , )i jV x x Hàm năng lượng chi phí giữa nút i và nút j lân cận ( )ti j jm x Thông điệp chuyển từ nút i sang nút lân cận j. Nghiên cứu khoa học công nghệ Tạp chí Nghiên cứu KH&CN quân sự, Số 52, 12 - 2017 113 ( )j jb x Độ tin cậy nút j c Tỉ lệ tăng của hàm nhẵn d k Ngưỡng dừng tăng của hàm nhẵn Số mức sai lệch được lựa chọn E(i)\j Tập các nút i ngoài trừ nút j. dC(x,y) Bản đồ sai lệch thực hiện dT(x,y) Bản đồ sai lệch mẫu 2.1. Thuật toán CSBP Thuật toán CSBP là thuật toán suy diễn lặp gần đúng dựa trên trường ngẫu nhiên Markov với không gian mức sai lệch cố định [13]. Xét mô hình trường ngẫu nhiên Markov (Markov Random Filed: MRF) như hình 2, trong đó, G = (V, E), x= (xi)iϵV và X = (Xi)iϵV. Từ [8] và bảng 1, xác suất hậu nghiệm (Posterior) MAP được xác định: i / ( ) ( ) ( , )i j i V i V j V i p x x x x       (1) Từ phương trình 1 chúng ta xác định được MAP (Maximum a Posterior) thông qua phương pháp tích cực đại (Max-Product). Phương pháp tích cực đại tương đương với phương pháp tổng cực tiểu (Min- Sum). Đối với phương pháp tổng cực tiểu chúng ta đi tìm năng lượng chi phí cho việc chuyển thông điệp giữa các nút từ đó chúng ta sẽ tìm cách tối thiểu hóa năng lượng chi phí.  , ( ( )) log ( ) log ( , )i i j i V i j E E p x x x x         (2) Chúng ta đơn giản E(p(x)) thành E(x), khi đó, hàm năng lượng được viết:  , ( ) ( ) ( , )i i j i V i j E E x D x V x x      (3) Trong thị giác nổi, các nút là các biến ngẫu nhiên, nó biểu diễn cho mức sai lệch của hai điểm ảnh trên ảnh camera kép tương ứng. Hàm năng lượng chi phí của cặp nút đến các điểm lân cận dựa trên sự khác nhau giữa các nút. Do vậy, hàm năng lượng được xác định là: ( , ) ( )i j i jV x x V x x  (4)  , ( ) ( ) ( )i i j i V i j E E x D x V x x       (5) Thông điệp cập nhật tại vòng lặp t được xác định là: 1 ( )\ ( ) min( ( ) ( ) ( )) i t t i j j i j i i s i i x s E i j m x V x x D x m x        (6) Sau T vòng lặp thì độ tin cậy của mỗi nút là: ( ) ( ) ( ) ( )Tj j j j i j j i N j b x D f m x     (7) Nút * jx được lựa chọn và xác định theo công thức: * arg min ( )j j jx b x (8) Thông thường hàm năng lượng chi phí nhẵn được xác định theo mô hình tuyến tính. Hình 2. Mô hình MRF. Kỹ thuật điều khiển & Điện tử Đ. V. Tuấn, B. T. Thành, “Nâng cao chất lượng thuật toán ứng dụng cho thị giác robot.” 114 ( ) min( , )i j i jV x x c x x d   (9) Khi đó, thông điệp cập nhật được xác định: 1 ( )\ ( ) min(min( , ) ( ) ( )) i t t i j j i j i i s i i x s E i j m x c x x d D x m x        (10) 2.2. Thuật toán CT CT là thuật toán biến đổi kiểm kê cục bộ không tham số, không phụ thuộc vào điều kiện ánh sáng của ảnh [14]. Nguyên lý hoạt động của CT là biến đổi mỗi điểm ảnh thành một chuỗi bít có độ dài N bít với kiến trúc không gian cục bộ. Đối với mỗi điểm ảnh lân cận ngoại trừ điểm trung tâm sẽ biến đổi tương ứng thành một bít trong chuỗi N bít theo ngưỡng nếu giá trị cường độ (Intensity) bít lân cận lớn hơn giá trị cường độ bít trung tâm thì tương ứng với bít bằng 1, ngoài ra thì bít bằng 0. Hình 3. Biến đổi kiểm kê với cửa sổ 3x3 và khoảng cách Hamming. Hình 3 mô tả thuật toán CT với cửa sổ 3x3, giá trị cường độ điểm trung tâm là 35. Các điểm lân cận có giá trị lớn hơn 35 thì tương ứng với bít bằng 1 ngoài ra thì bít bằng 0. Thực hiện biến đổi CT ảnh trái và ảnh phải được hai chuỗi bít, so sánh hai chuỗi bít và đếm số bít khác nhau hai chuỗi bít được gọi là khoảng cách Hamming [15] và được tính theo công thức (11). Hai điểm ảnh của hai ảnh trái và phải có khoảng cách Hamming nhỏ nhất được chọn là khớp nhau. 0 0 ( , ) ( , ) arg min Hamming( ( , ), ( , ))L R x y x y T x y T x d y  (11) trong đó, TL(x, y) và TR(x, y) là các chuỗi bít của điểm ảnh khớp trong ảnh trái và ảnh phải của ảnh camera kép. 3. ĐỀ XUẤT THUẬT TOÁN KẾT HỢP 3.1. Mô tả thuật toán đề xuất Khi điểm xuất phát ban đầu để lan truyền tin cậy không khớp dẫn đến yêu cầu chi phí năng lượng lớn và độ tin cậy thấp khi thực hiện bản đồ sai lệch như hình 4.d. (a) (b) (c) (d) Hình 4. Ảnh hưởng của điểm khớp ban đầu: (a) Ảnh camera kép trái, (b) Ảnh camera kép phải, (c) Bản đồ sai lệch mẫu và (d) Bản đồ sai lệch. 85 Nghiên cứu khoa học công nghệ Tạp chí Nghiên cứu KH&CN quân sự, Số 52, 12 - 2017 115 Để khắc phục nhược điểm này, chúng tôi đề xuất điểm khớp xuất phát là điểm khớp trung tâm của ảnh camera kép. Điểm khớp trung tâm của ảnh camera kép được xác định dùng phương pháp biến đổi kiểm kê. Sau khi đã xác định được điểm khớp trung tâm, chúng tôi chia ảnh thành 4 phần và coi điểm khớp trung tâm là điểm khớp ban đầu để lan truyền tin cậy cho mỗi phần. Tại mỗi phần, ảnh camera kép được chia thô tới mịn mức 2 như hình 5, quá trình này làm giảm số lượng ảnh đi 4 lần. Khi chia thô tới mịn mức 2 thì năng lượng chi phí cho mỗi mức chia được tính theo công thức (12). Số lượng mức sai lệch được lựa chọn D = 100 mức, có nghĩa là khi mức sai lệch của ảnh camera kép tăng lên thì hiệu năng thực hiện và yêu cầu về bộ nhớ không đổi (các mức sai lệch của ảnh camera kép lớn hơn D mức). * [1,4] ( ) ( )i i E x D x    (12) Tại mỗi mức sai lệch được lựa chọn, thông điệp được lan truyền tin cậy giữa các nút như hình 6 và đồng thời thực hiện CSBP cho cả bốn phần nhờ vào cấu trúc xử lý song song như phần cứng GPU và phần mềm CUDA. Hình 5. Chia thô tới mịn mức 2. Hình 6. Sơ đồ thông điệp lan truyền. 3.2. Chương trình đề xuất Thuật toán đề xuất CTCSBP (Census Transform Constant Space Belief Propagation) Đầu vào: Ảnh camera kép có độ phân giải cao (M, N, D =100, c = 10, d = 0.7). Đầu ra: Bản đồ sai lệch ảnh camera kép có mật độ dầy đặc (M, N). Các bước thực hiện: 1. Xác định điểm khớp trung tâm ảnh camera kép dùng thuật toán CT theo công thức (11) với cửa sổ 5x5. 2. Từ điểm khớp trung tâm, chia ảnh thành 4 phần và lấy điểm khớp trung tâm là điểm khớp ban đầu lan truyền tin cậy cho mỗi phần như hình 6. 3. Thực hiện lan truyền tin cậy cả 4 phần đồng thời như sau: 4. Thực hiện chia thô tới mịn mức 2 như hình 5. 5. Tính toán năng lượng chi phí dữ liệu tại mỗi mức chia thô tới mịn mức 2 theo công thức (12). 6. Lựa chọn D mức sai lệch tương ứng với D vòng lặp. 7. Tại mỗi mức sai lệch được chọn sẽ thực hiện: 8. Đặt các thông điệp ban đầu bằng 0. 9. Cập nhật thông điệp lan truyền tin cậy xuất phát từ điểm khớp ban đầu theo công thức (10). 10. Tính toán độ tin cậy của nút theo công thức (7). 11. Nút * jx được lựa chọn và xác định theo công thức (8). 12. Tính tổng năng lượng chi phí theo công thức (5). 13. Tính tổng năng lượng chi phí của D mức sai lệch. Kỹ thuật điều khiển & Điện tử Đ. V. Tuấn, B. T. Thành, “Nâng cao chất lượng thuật toán ứng dụng cho thị giác robot.” 116 4. KẾT QUẢ THỰC NGHIỆM MÔ PHỎNG VÀ THẢO LUẬN 4.1. Dữ liệu thực nghiệm Hệ thống thực nghiệm như hình 7 với cấu hình PC được mô tả trong bảng 2 và ảnh camera kép trong tập dữ liệu kiểm thử [16] được mô tả trong bảng 3. Hình 7. Hệ thống thực nghiệm. Bảng 2. Mô tả cấu hình PC Destop. Phần cứng Phần mềm CPU RAM Card màn hình Hệ điều hành Phần mềm ứng dụng Intel core i7 8GB Geforce GTX750 Ti Bộ nhớ trong: 2GB Core: 460 nhân BUS: 128 bít Window 8.1 64 bít QT Creator 5.4 OpenCV 3.0 Visual Studio 2013 CUDA 4.2. Chỉ số đánh giá độ tin cậy RMSE Để đánh giá độ tin cậy của kết quả thực nghiệm, chúng tôi sử dụng tham số RMSE (Root Mean Squared Error: sai số toàn phương trung bình) theo công thức (13). Tham số RMSE càng nhỏ càng tốt, điều đó chứng tỏ kết quả bản đồ sai lệch thực hiện được càng gần với bản đồ sai lệch mẫu. 𝑅𝑀𝑆𝐸 = ( 1 𝑁 𝑑𝐶 𝑥,𝑦 − 𝑑𝑇(𝑥,𝑦) 2 𝑥 ,𝑦 ) 1 2 (13) Bảng 3. Tập dữ liệu kiểm thử. Ký hiệu Tên ảnh Kích thức Độ sai lệch Ảnh trái Ảnh phải Bản đồ sai lệch mẫu #1 Baby 620x555 300 #2 Aloe 641x555 270 Nghiên cứu khoa học công nghệ Tạp chí Nghiên cứu KH&CN quân sự, Số 52, 12 - 2017 117 #3 Cloth 626x555 290 #4 Flower pots 656x555 251 #5 Bowling 665x555 240 #6 Book 695x555 200 4.3. Kết quả thực nghiệm và thảo luận Để đánh giá hiệu quả của thật toán đề xuất, chúng tôi đưa ra một số thực nghiệm cơ bản và so sánh kết quả của phương pháp đề xuất với kết quả của phương pháp được mô tả trong [13]. Trong thực nghiệm chúng tôi sử dụng đa dạng ảnh camera kép để kiểm thử với độ phức tạp khác nhau như bảng 3 với cấu hình PC như bảng 2. (a) (b) (c) (d) (e) (f) Hình 8. Bản đồ sai lệch dùng thuật toán đề xuất: trong đó (a), (b), (c), (d), (e) và (f) là bản đồ sai lệch tương ứng của các ảnh #1, #2, #3, #4, #5 và #6. Kết quả thực nghiệm với 6 mẫu ảnh camera kép thu được bản đồ sai lệch với thuật toán đề xuất hình 8 và thuật toán CSBP hình 9. Để đánh giá độ tin cậy của thuật toán đề xuất so với thuật toán CSBP, chúng tôi đã thực hiện kết quả bản đồ sai lệch thu được như hình 8 và hình 9 so với sai lệch mẫu bảng 3 thông qua chỉ số RMSE theo công thức (13) và được mô tả như bảng 4. Bảng 4. Chỉ số đánh giá sai số toàn phương trung bình RMSE. Ảnh Thuật toán CSBP Thuật toán đề xuất #1 0,7300 0,7250 #2 1,1821 1,0768 #3 2,2537 1,1560 #4 3,0911 2,9121 #5 4,6338 4,2676 #6 5,0050 4,4860 Kỹ thuật điều khiển & Điện tử Đ. V. Tuấn, B. T. Thành, “Nâng cao chất lượng thuật toán ứng dụng cho thị giác robot.” 118 Bảng 4 cho thấy thuật toán đề xuất có độ tin cậy cao hơn thuật toán CSBP. Đối với các ảnh #1, #2 và #3 có bề mặt đơn giản sẽ cho kết quả RMSE thấp hơn các ảnh #4, #5 và #6 có bề mặt ảnh phức tạp. Ngoài ra, độ tin cậy cũng phụ thuộc vào độ phân giải và mức độ sai lệch của ảnh camera kép mẫu. Điều này lý giải, đối với các ảnh camera kép có bề mặt đơn giản thì sẽ thu được bản đồ sai lệch gần bản đồ sai lệch mẫu. Bảng 5. Đánh giá hiệu năng thực hiện (ms). Ảnh Thuật toán CSBP Thuật toán đề xuất #1 199 83 #2 203 84 #3 200 83 #4 217 89 #5 222 92 #6 229 94 Bảng 5 cho thấy, đối với các ảnh kiểm thử có kích thước tương đương nhau và có mức sai lệch khác nhau thì thời gian thực hiện hầu như không thay đổi khi thực hiện cùng một thuật toán. Điều này cho thấy hiệu năng thực hiện bản đồ sai lệch không phụ thuộc vào độ phức tạp và độ sai lệch của ảnh mẫu mà chỉ phụ thuộc vào độ phân giải của ảnh. Ngoài ra bảng 5 còn thể hiện sự hiệu năng của thuật toán đề xuất tăng khoảng 2,4 lần so với thuật toán CSBP. Các kết quả thực nghiệm được thực hiện trên phần mềm mở OpenCV 3.0. Ngoài ra, hiện nay còn có phần mềm cũng thực hiện đánh giá bản đồ sai lệch như Matlab [17]. Cả hai phần mềm này đều là công cụ hữu ích cho thực hiện mô phỏng thị giác robot. (a) (b) (c) (d) (e) (f) Hình 9. Bản đồ sai lệch dùng thuật toán BP: trong đó (a), (b), (c), (d), (e) và (f) là bản đồ sai lệch tương ứng của các ảnh #1, #2, #3, #4, #5 và #6. 5. KẾT LUẬN Trong bài báo này chúng tôi đề xuất giải pháp cải tiến thuật toán CSBP [13]. Với những ảnh camera kép kiểm thử [16] đa dạng về độ phức tạp đã cho kết quả bản đồ sai lệch như hình 8. Đánh giá hiệu quả của thuật toán đề xuất được, chúng tôi mô tả như bảng 4 và bảng 5. Bảng 4 thể hiện các chỉ số RMSE giữa bản đồ sai lệch thu được so với bản đồ sai lệch mẫu của thuật toán CSBP và thuật toán đề xuất. Bảng 5 thể hiện hiệu năng thực hiện của thuật toán CSBP và thuật toán đề xuất thông qua hệ thống thực nghiệm như hình 7 với cấu hình như bảng 2. Chúng tôi đề xuất giải pháp cải tiến thuật toán CSBP bằng giải pháp thay vì điểm khớp xuất phát lan truyền tin cậy tại điểm trên cùng bên trái của ảnh camera kép bằng điểm khớp trung tâm của ảnh và được xác định bằng thuật toán CT. Chia ảnh thành 4 phần và coi điểm khớp trung tâm làm điểm khớp ban đầu của mỗi phần và thực hiện lan truyền tin cậy với mức sai lệch được lựa chọn cố định là 100 mức. Thuật toán đề xuất cho độ tin cậy cao và hiệu năng thực hiện tăng khoảng 2,4 lần so với thuật toán CSBP. Hướng nghiên cứu tiếp theo của bài báo là thực nghiệm thuật toán đề xuất với ảnh camera kép được thực hiện trực tiếp trên camera kép và đánh giá hiệu quả qua phần mềm Matlab. Nghiên cứu khoa học công nghệ Tạp chí Nghiên cứu KH&CN quân sự, Số 52, 12 - 2017 119 PHỤ LỤC Định nghĩa: Khoảng cách Hamming D(x, y) giữa hai véc tơ x,y € F(n) là các hệ số mà chúng khác nhau. F là một trường hữu hạn. Định luật: D thỏa mãn các đều kiện sau: 1. D(x, y) ≥ 0 và D(x,y) = 0 nếu và chỉ nếu x = y. 2. D(x, y) = D(y, x). 3. D(x, z) ≤ D(x,y) + D(y, z) với mọi y. [15]. Lời cảm ơn: Nghiên cứu này được tài trợ bởi Trung tâm Nghiên cứu Ứng dụng Khoa học và Công nghệ, Trường Đại học Sư phạm Kỹ thuật Hưng Yên, đề tài mã số UTEHY.T01406.P1718.01. TÀI LIỆU THAM KHẢO [1]. M.A.K. Bahrin, "Industry 4.0: A Review on Industrial Automation and Robotic," Jurnal Teknologi (Sciences & Engineering), no. 78, 6 – 13, pp. 137–143, 2016. [2]. Lazaros Nalpantidis, “Stereo Vision for Robotic Applications in the Presence of Non- Ideal Lighting Conditions,” Image and Vision Computing, vol 26, no. 6, pp. 940 – 951, 2010. [3]. P. Piccinini, A. Prati, R. Cucchiara, "Real-Time Object Detection and Localization with SIFT-based Clustering," Image and Vision Computing, vol 30, no. 8, pp. 573 – 587, 2012. [4]. D. Rodriguez, N. Aouf, “Robust Harris-SURF Features for Robotic Vision Based Navigation,” Annual Conference on Intelligent Transportation Systems Madeira Island, Portugal, September 19-22, 2010. [5]. J. Chen, C. Cai, C. Li, “A Novel Stereo Object Segmentation Algorithm Using Disparity and Temporal Information, ” Journal of Applied Science and Engineering, Vol. 16, no. 3, pp. 225 – 232, 2013. [6]. C. Lin, C. Kuo, L. Fu, “A Stereo Matching based on Adaptive Windows,” International Journal of Electronic Commerce Studies Vol. 3, no. 1, pp. 21 - 34, 2012. [7]. S. Perri, P. Corsonello, G. Cocorullo “Adaptive Census Transform: A Novel Hardware-Oiented Stereo Vision Algorithm,” Image and Vision Computing, vol 117, pp. 29 – 41, 2013. [8]. J. Sun, N. N. Zheng and H. Y. Shum, “Stereo Matching Using Belief Propagation”, IEEE Trans. Pattern Analysis and Machine Intelligence, vol. 7, no. 25, pp. 787-800, 2003. [9]. X. Wang, H. Wang, Y. Su “Accurate Belief Propagation with Parametric and Non- Parametric Measure for Stereo Matching,” Image and Vision Computing, vol. 126, pp. 545 – 550, 2015. [10]. Https://www.stereolabs.com/ [11]. K. Zhang, J. B. Lu, Q. Yang, G. Lafruit, R. Lauwereins and L.V. Gool, “Real-Time and Accurate Stereo: A Scalable Approach with Bitwise Fast Voting on CUDA”, IEEE Transactions on Circuits and Systems for Video Technology, vol. 7, no. 21, pp.867-879, 2011. [12]. S. Jin, J. Cho, X. D. Pham, K. M. Lee, S. K. Park, M. Kim and J. W. Jeon, “FPGA Design and Implementation of a Real-Time Stereo Vision System”, IEEE Kỹ thuật điều khiển & Điện tử Đ. V. Tuấn, B. T. Thành, “Nâng cao chất lượng thuật toán ứng dụng cho thị giác robot.” 120 ABSTRACT QUALITY IMPROVEMENT OF BELIEF PROPAGATION ALGORITHM FOR DISPARITY MAP DETECTION APPLIED IN ROBOT VISION In this paper, a method with the combination of CSBP (Constant Space Belief Propagation) and CT (census transform) algorithms is proposed. The starting point of these stereo camera images are the central points of these two images, which are determined by CT algorithm. From this point, the image is devided into four parts and each part will do belief propagation by CSBP algorithm with the center starting points. By using this proposed method, the results of the disparity map is more reliable and performance is 2.4 times faster than the CSBP algorithm. Keywords: Disparity map, Robotics vision, Constant Space Belief propagation, Census transform, Stereo camera. Nhận bài ngày 03 tháng 11 năm 2017 Hoàn thiện ngày 17 tháng 11 năm 2017 Chấp nhận đăng ngày 20 tháng 12 năm 2017 Địa chỉ: 1Viện KH-CNQS; 2Trường Đại học Sư phạm Kĩ thuật Hưng Yên. *Email: tuandv.ute@gmail.com. Transactions on Circuits and Systems for Video Technology, vol. 1, no. 20, pp. 15- 26, 2010. [13]. L. W. a. N. A. Q. Yang, "A Constant-sapce Belief Propagation Algorithm for Stereo Matching," IEEE Computer Society Conference on Computer Vision and Pattern Recognition, pp. 1458-1465, 2010. [14]. Zabih, R. and Woodfill, J., "Non-Parametric Local Transforms for Computing Visual Correspondence," Proceedingsings of Third European Conference of Computer Vision, vol. 801, pp. 151 - 158, 1994. [15]. H. Gopalakrishra Gadiyar and P. Padma, “A historical introduction to coding theory through Hamming’s work,” V. I. T University, Vellore, 2015. [16]. D. Scharstein and R. Szeliski. Middlebury benchmark. [17]. Https://www.mathworks.com/help/vision/examples/depth-estimation-from-stereo- video.html

Các file đính kèm theo tài liệu này:

  • pdf13_tuan_4469_2151718.pdf