Nghiên cứu thuật toán học tăng cường sâu cho bài toán tìm kiếm cứu nạn trong môi trường mô phỏng 3-D gazebo - Lê Phú Cường

Tài liệu Nghiên cứu thuật toán học tăng cường sâu cho bài toán tìm kiếm cứu nạn trong môi trường mô phỏng 3-D gazebo - Lê Phú Cường: Nghiên cứu khoa học công nghệ Tạp chí Nghiên cứu KH&CN quân sự, Số Đặc san CNTT, 04 - 2019 33 NGHIÊN CỨU THUẬT TOÁN HỌC TĂNG CƯỜNG SÂU CHO BÀI TOÁN TÌM KIẾM CỨU NẠN TRONG MÔI TRƯỜNG MÔ PHỎNG 3-D GAZEBO Lê Phú Cường1,*, Nguyễn Thế Hùng2, Lê Đình Sơn3, Phạm Quang Chiến3, Lại Phú Minh3 Tóm tắt: Vấn đề tìm kiếm cứu nạn (TK-CN) là một yêu cầu rất cấp thiết ở trong và ngoài Quân đội. Trong những môi trường đặc thù, như trong trận chiến hay trong địa hình rừng núi phức tạp và nguy hiểm, đề giảm thiểu yếu tố nguy hiểm tới người cứu hộ, việc sử dụng các robot đang là một xu thế tất yếu trong các hoạt động TK-CN. Trong bài báo này, nhóm tác giả đề xuất một mô hình học tăng cường sâu (DRL) để xây dựng hệ thống Trí tuệ nhân tạo (AI) cho robot di chuyển trên mặt đất trong bài toán TK-CN. Trong mô hình học tăng cường sâu chúng tôi đề xuất sử dụng dữ liệu ảnh từ camera và tín hiệu từ các sensors gắn trên robot. Việc kết hợp giữa dữ liệu ảnh và tín hiệu sensor cho phép rob...

9 trang | Chia sẻ: quangot475 | Lượt xem: 642 | Lượt tải: 0

Bạn đang xem nội dung tài liệu Nghiên cứu thuật toán học tăng cường sâu cho bài toán tìm kiếm cứu nạn trong môi trường mô phỏng 3-D gazebo - Lê Phú Cường, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên

Nghiên cứu khoa học công nghệ Tạp chí Nghiên cứu KH&CN quân sự, Số Đặc san CNTT, 04 - 2019 33 NGHIÊN CỨU THUẬT TOÁN HỌC TĂNG CƯỜNG SÂU CHO BÀI TOÁN TÌM KIẾM CỨU NẠN TRONG MÔI TRƯỜNG MÔ PHỎNG 3-D GAZEBO Lê Phú Cường1,*, Nguyễn Thế Hùng2, Lê Đình Sơn3, Phạm Quang Chiến3, Lại Phú Minh3 Tóm tắt: Vấn đề tìm kiếm cứu nạn (TK-CN) là một yêu cầu rất cấp thiết ở trong và ngoài Quân đội. Trong những môi trường đặc thù, như trong trận chiến hay trong địa hình rừng núi phức tạp và nguy hiểm, đề giảm thiểu yếu tố nguy hiểm tới người cứu hộ, việc sử dụng các robot đang là một xu thế tất yếu trong các hoạt động TK-CN. Trong bài báo này, nhóm tác giả đề xuất một mô hình học tăng cường sâu (DRL) để xây dựng hệ thống Trí tuệ nhân tạo (AI) cho robot di chuyển trên mặt đất trong bài toán TK-CN. Trong mô hình học tăng cường sâu chúng tôi đề xuất sử dụng dữ liệu ảnh từ camera và tín hiệu từ các sensors gắn trên robot. Việc kết hợp giữa dữ liệu ảnh và tín hiệu sensor cho phép robot có khả năng di chuyển thông minh hơn so với một số hướng tiếp cận khác khi mà chỉ dùng dữ liệu ảnh hoặc tín hiệu sensor. Bên cạnh đó, chúng tôi cũng đưa ra một hàm giá trị trong mô hình được đề xuất giúp cho việc học của robot nhanh và đồng thời chính xác hơn. Môi trường thực nghiệm được xây dựng trên nền môi trường mô phỏng thế giới thực 3-D Gazebo mã nguồn mở. Các kết quả thu được chỉ ra rằng mô hình DRL được đề xuất trong bài báo là có tính khả thi khi robot vượt qua được những môi trường kiểm thử khác nhau. Từ khóa: Học tăng cường sâu (Deep reinforcement learning); Học sâu (Deep learning); Tìm kiếm và cứu nạn; Thiết bị tự hành. 1. MỞ ĐẦU Học tăng cường (Reinforcement Learning hay RL) [1] là một lĩnh vực đã được thế giới nghiên cứu và phát triển từ lâu. Lịch sử phát triển của RL ban đầu được đi theo hai hướng độc lập. Trong đó, hướng thứ nhất phát triển theo phương pháp học dựa trên quá trình thử-sai “trial and error”; hướng thứ hai phát triển dựa trên cơ sở giải quyết các bài toán điều khiển tối ưu thông qua quy hoạch động và hàm giá trị (value function). Đến cuối những năm 1980, các hướng này được kết hợp lại với nhau và hình thành một ngành học mới mà hiện nay chúng ta gọi là RL. Trong những năm gần đây, chịu ảnh hưởng từ sự phát triển vượt bậc của AI nói chung và Deep learning (DL) [2] nói riêng, RL đã có những thành tựu mang tính chất bước ngoặt, có thể kể đến là sự ra đời của một hướng đi mới: Học tăng cường sâu (Deep Reinforcement Learning -DRL) [3]. DRL có thể nói là hoàn toàn tương tự như RL, điểm khác biệt duy nhất nằm ở việc ứng dụng DL trong RL. Trước đây, để tiến hành huấn luyện các mô hình của RL, các đại lượng biểu diễn trạng thái của môi trường (đóng vai trò mô tả môi trường, hoàn cảnh mà tác tử đang gặp phải) thường được xây dựng dựa vào kinh nghiệm của người phát triển. Rõ ràng, đối với môi trường có tính chất phức tạp, đa dạng, việc xây dựng các đại lượng này trở nên vô cùng khó khăn và khả năng xuất hiện thiếu sót là cao. Ngày nay, tận dụng khả năng tự học đặc trưng của DL, quá trình “mô tả” trạng thái của môi trường diễn ra hoàn toàn tự động và có độ tin cậy cao. Chính ưu điểm này đã đẩy RL nói chung lên một nấc thang mới, đồng thời tạo ra nhiều thành tựu, sản phẩm có tính đột phá, Công nghệ thông tin L. P. Cường, , L. P. Minh, “Nghiên cứu thuật toán học mô phỏng 3-D Gazebo.” 34 như: chương trình chơi cờ vây AlphaGo [4][5], các thiết bị bay hay dưới mặt đất không người lái (UAV) tự hành [6][7]. Bài toán tự hành tìm kiếm và cứu nạn đối tượng từ lâu đã là một trong các nhu cầu cần thiết đối với các hoạt động trong quân đội cũng như dân sự [8]. Đa phần công việc tìm kiếm phải diễn ra trong điều kiện môi trường phức tạp, gây nguy hiểm đến tính mạng con người. Do đó, việc nghiên cứu xây dựng các robot có khả năng hoạt động độc lập trong các điều kiện môi trường không biết trước là một yêu cầu cấp thiết hiện nay. Trong nội dung của bài báo, nhóm tác giả đề xuất một mô hình học tăng cường sâu (DRL) cho bài toán tự hành tìm kiếm và cứu nạn trong một môi trường có các chướng ngại vật. Môi trường thực nghiệm được xây dựng trên nền tảng mô phỏng 3- D Gazebo [9]. Các kết quả thu được chỉ ra rằng mô hình đề xuất của chúng tôi cho phép thiết bị tự hành có khả năng đi đến được đích trong các môi trường khác nhau. Bài báo được cấu trúc như sau: Mục 2 trình bày về cơ sở lý thuyết, mục 3 đề xuất mô hình thuật toán học tăng cường sâu, mục 4 thực nghiệm và kết quả đạt được, mục 5 là kết luận và hướng phát triển tiếp theo. 2. CƠ SỞ LÝ THUYẾT 2.1. Học tăng cường (Reinforcement learning - RL) Học tăng cường được sử dụng để tính toán các chiến lược hành vi, hay còn gọi là chính sách (policy), để tối đa hoá một tiêu chí thoả mãn của bài toán – tổng phần thưởng dài hạn, bằng cách tương tác với môi trường thông qua thử nghiệm và lỗi (Hình 1). Hình 1. Giao thức tương tác giữa tác tử và môi trường. Một bài toán học tăng cường bao gồm một tác tử/đối tượng ra quyết định, gọi là agent, hoạt động trong một môi trường được mô hình hoá bởi trang thái ( st ∈ S). Agent có khả năng thực hiện hành động at ∈A(st), là một hàm của trạng thái hiện tại st. Sau khi chọn một hành động ở thời điểm t, agent nhận được một giá trị thưởng rt+1 ∈ R và chuyển sang một trạng thái mới st+1 phụ thuộc vào trạng thái hiện tại và hành động được chọn. Ở mỗi thời điểm, agent đi theo một chiến lược, gọi là chính sách πt, ánh xạ từ trạng thái đến xác suất chọn hành động: π(s,a) ký hiệu xác suất mà a=at nếu s=st Mục tiêu của học tăng cường là sử dụng các tương tác của agent với môi trường để suy ra (ước lượng) một chính sách tối ưu (optimal policy) để tối đa hoá lượng điểm thưởng nhận được bởi agent sau thời gian dài huấn luyện. Nghiên cứu khoa học công nghệ Tạp chí Nghiên cứu KH&CN quân sự, Số Đặc san CNTT, 04 - 2019 35 Hình 2. Ví dụ về học tăng cường trong bài toán robot dập lửa. Một quy trình quyết định Markov (MDP) là một ví dụ riêng của học tăng cường tại đó tập hợp trạng thái là hữu hạn, tập hợp hành động là hữu hạn, và môi trường thoả mãn tính Markov như sau: Công thức 1. Tính xác suất chuyển từ trạng thái tới trạng thái . Nói cách khác, xác suất đạt được trạng thái từ trạng thái bằng cách thực hiện hành động là độc lập với các hành động khác hoặc trạng thái khác trong quá khứ (trước thời điểm ). Như vậy, ta có thể biểu diễn một chuỗi các hành động, trạng thái, giá trị thưởng từ một MDP bởi một mạng quyết định (decision network) (xem Hình 3). Hình 3. Mạng quyết định biểu diễn một chu kỳ học (episode) trong MDP. Để tối đa hoá điểm thưởng tích luỹ dài hạn sau thời điểm hiện tại t, trong trường hợp thời gian hữu hạn (finite time horizon) kết thúc ở thời điểm T, kết quả Rt bằng: Công thức 2. Công thức tính giá trị thưởng trả về theo thời gian hữu hạn. Trong trường hợp thời gian vô hạn, thông thường người ta hay sử dụng kết quả khấu hao: Công nghệ thông tin L. P. Cường, , L. P. Minh, “Nghiên cứu thuật toán học mô phỏng 3-D Gazebo.” 36 Công thức 3. Công thức tính giá trị thưởng trả về theo thời gian vô hạn. Kết quả này sẽ hội tụ nếu ta giả định là điểm thưởng có giới hạn và γ < 1. Ở đây γ là một hằng số trong khoảng từ [0,1], và được gọi là hệ số khấu hao (discount factor). Nói chung ta sẽ sử dụng định nghĩa về khấu hao này cho kết quả trả về. Để tìm được chính sách tối ưu (optimal policy), một số thuật toán dựa trên các hàm giá trị (value functions), V(s), để biểu diễn agent được hưởng lợi như thế nào nếu đạt được một trạng thái s cho trước. Hàm này cung cấp cho mỗi trạng thái một giá trị ước lượng về điểm thưởng tiềm năng có thể đạt được ở tương lai tính từ trạng thái đó, và do đó nó phụ thuộc vào chính sách π được sử dụng thực tế bởi agent: Công thức 4. Tính giá trị của một trạng thái s. Trong đó Eπ [.] là giá trị kỳ vọng khi agent theo chính sách π, và t ở bất cứ thời điểm nào. Tương tự, ta định nghĩa giá trị của việc thực hiện hành động a trong trạng thái s dưới chính sách π là hàm hành động-giá trị Q: Công thức 5. Tính giá trị hành động của một trạng thái s. Chính sách tối ưu π* là một chính sách đạt được giá trị thưởng kỳ vọng dài hạn lớn nhất. Chính sách π được định nghĩa là bằng hoặc tốt hơn chính sách π' nếu giá trị kỳ vọng của nó lớn hơn hoặc bằng giá trị kỳ vọng của π' cho tất cả các trạng thái. Do vậy: Công thức 6. Chính sách tối ưu π* một trạng thái s. 2.2. Thuật toán Học tăng cường sâu (Deep Q- learning - DQL) Thuật toán DQN nguyên gốc được trình bày trong bài báo [3], chúng tôi chỉ phân tích các điểm chính của thuật toán ở phần dưới. Trước đây, người ta biết rằng RL không ổn định hoặc thậm chí có hiện tượng phân kỳ khi hàm giá trị hành động được ước lượng với một hàm phi tuyến như các mạng nơron. Thuật toán DQN [3] ra đời đã có giải quyết một số vấn đề quan trọng:  Ổn định việc huấn luyện phép ước lượng hàm giá trị hành động với mạng nơron sâu (CNN) sử dụng thuật tái hiện trải nghiệm (experience replay) [10] và mạng mục tiêu; Nghiên cứu khoa học công nghệ Tạp chí Nghiên cứu KH&CN quân sự, Số Đặc san CNTT, 04 - 2019 37  Thiết kế phương pháp RL đầu cuối end-to-end, chỉ với các pixel và điểm số trong game là đầu vào, do đó chỉ cần có kiến thức tối thiểu về lĩnh vực áp dụng;  Huấn luyện một mạng linh hoạt với cùng một thuật toán, kiến trúc mạng và các tham số để thực hiện tốt nhiều tác vụ khác nhau, ví dụ: 49 trò chơi Atari [11], và vượt qua các thuật toán trước đó thậm chí ở mức tương đương với trình độ chuyên nghiệp của con người. 3. MÔ HÌNH HỌC TĂNG CƯỜNG SÂU CHO BÀI TOÁN TK-CN Trong mô hình học tăng cường sâu chúng tôi đề xuất được phát triển dựa trên nền thuật toán DQN [3]. Kiến trúc mạng trong mô hình được đề xuất (Hình 4), sẽ có 3 khối chính: khối xử lý ảnh từ camera gắn trên robot (chúng tôi gọi là khối CNNs); khối xử lý tín hiệu từ các sensors trên robot (khối Sensors); và khối cuối là một mạng sâu 2 lớp kết nối đầy đủ (khối FNNs). Hình 4. Mô hình học tăng cường sâu. Trong quá trình tương tác với môi trường (environment), qua mỗi bước robot thu được hình ảnh từ camera và tín hiệu sensor, sau đó dữ liệu này được lưu vào trong bộ đệm sử dụng lại (replay buffer). Đầu vào dữ liệu cho mô hình mạng được lấy từ bộ đệm trên. Với mô hình học tăng cường sâu được thiết kế như trên, cho phép xử lý đầy đủ các đầu vào dữ liệu từ robot như dữ liệu ảnh, tín hiệu LIDAR,; và dữ liệu sẽ được phân chia ra các khối riêng để xử lý, điều này giúp cho việc học hiệu quả hơn trước khi đẩy vào khối mạng sâu để cho ra các hành động của robot. Thông tin từ tín hiệu sensor sẽ giúp đưa ra chỉ dẫn thêm cho robot bên cạnh ảnh từ camera. Ví dụ như: robot khi nhìn thấy vật cản thông qua ảnh, robot có thể xác định được khoảng cách bao xa tới vật cản, từ đó robot có thể đưa ra quyết định tốt hơn để tránh vật cản. Công nghệ thông tin L. P. Cường, , L. P. Minh, “Nghiên cứu thuật toán học mô phỏng 3-D Gazebo.” 38 Thuật toán 1. Thuật toán thiết kế hàm giá trị F(r). Trong bài báo này, chúng tôi nghiên cứu đề xuất một hàm giá trị F(r) (reward function) cho mô hình học tăng cường sâu trên. Chi tiết về hàm giá trị F(r) được miêu tả trong Thuật toán 1. Dữ liệu đầu vào cho mô hình học tăng cường sâu của chúng tôi bao gồm dữ liệu ảnh và sensors. Dữ liệu ảnh được xử lý qua khối mạng học sâu CNN, khi đó đầu vào mạng bao gồm một ảnh 84x84x4 được tạo ra từ ánh xạ tiền xử lý ϕ. Lớp ẩn đầu tiên là lớp tích chập (convolutional) gồm 32 bộ lọc 8x8 với bước trượt stride = 4 trên ảnh đầu vào và áp dụng chỉnh lưu phi tuyến (rectifier nonlinearity). Lớp ẩn thứ hai là lớp tích chập 64 bộ lọc 4x4 với stride 2, và chỉnh lưu phi tuyến. Tiếp theo là một lớp liên kết thứ ba kết hợp 64 bộ lọc 3x3 với stride 1 và chỉnh lưu. Trong khi đó dữ liệu sensors qua khối Sensors sẽ cho ra 6 giá trị số liên tục: một là khoảng cách từ robot tới mục tiêu, góc giữa robot và mục tiêu, vận tốc x và z của robot, và cuối cùng là khoảng cách và góc giữa robot và vật cản gần nhất. 4. THỰC NGHIỆM VÀ KẾT QUẢ 4.1. Thiết kế môi trường thực nghiệm Trong bài báo, môi trường học được thiết kế trên nền tảng mô phỏng 3-D Gazebo [9]. Môi trường bao gồm một số vật cản được đặt cố định ở các vị trí khác nhau; mục tiêu đích được khởi tạo cố định ở một vị trí (ta gọi vị trí đích, vị trí này khác với các vị trí của các vật cản); vị trí bắt đầu của agent được khởi tạo cố định trong môi trường và khác với những vị trị vật cản và vị trí đích. Chúng tôi muốn tăng độ khó trong nhiệm vụ tìm kiếm, do đó, vị trí của các vật cản được đặt giữa vị trí đích và vị trí bắt đầu, khi đó agent cần phải vượt qua tất cả vật cản trước khi vươn tới mục tiêu hay đích. Môi trường được sử dụng để huấn luyện agent bao gồm 3 vật cản (là các khối hình chứ nhật màu đen), mục tiêu là hình trụ màu đỏ, và bao xung quanh là tường có màu xám. Môi trường thử nghiệm trên phần mềm 3D Gazebo bao gồm một phòng kín, có tường bao, trong phòng có 03 vật cản có kích thước tương đương với robot. Mục tiêu tìm kiếm là một khối hình trụ, có màu đỏ. Nghiên cứu khoa học công nghệ Tạp chí Nghiên cứu KH&CN quân sự, Số Đặc san CNTT, 04 - 2019 39 Vị trí của các vật cản, mục tiêu sẽ được thay đổi ở nhiều vị trí khác nhau trong trường hợp learning và testing. Hình 5 dưới đây mô tả chính xác môi trường huấn luyện trong bài báo. Hình 5. Môi trường huấn luyện. Chúng tôi sử dụng thư viện nguồn mới Tensorflow [12] và Keras [13] để thiết kế các mạng học sâu cho mô hình thuật toán được đề xuất. Giao thức tương tác giữa agent và môi trường là thông qua hệ điều hành dành cho robotic (Robotic operating system - ROS) [14]. Tham số huấn luyện cho mô hình học tăng cường sâu là được miêu tả trong Bảng 1. Bảng 1. Tham số trong mô hình học tăng cường sâu. Tham số Giá trị Gamma 0.9 Tốc độ học (Learning rate) 0.0025 Epsilon khởi tạo ban đầu 1 Epsilon nhỏ nhất (Epsilon min) 0.1 Tốc độ giảm epsilon 0.95 Minibatch 32 Replay memory D 10000 Sau khi huấn luyện mô hình thuật toán của chúng tôi thực hiện kiểm thử trên các môi trường khác với môi trường huấn luyện. Trong bài báo, chúng tôi xây dựng 02 môi trường kiểm thử khác nhau (được thể hiện trong Hình 6, 7 với vị trí của vật cản là được thay đổi). Robot được kiểm thử trên 02 môi trường trên, và kết quả cho thấy robot có thể vượt qua các vật cản và vươn tới mục tiêu đích. So việc chỉ dùng dữ liệu ảnh hoặc tín hiệu sensor khi mà robot không thể vượt vươn tới mục tiêu, Hình 6 và 7 chỉ ra đường đi của robot trong những môi trường kiểm thử được huấn luyện bằng mô hình được đề xuất có thể dễ dàng vươn tới mục tiêu đích, và đường đi gần như là đường đi ngắn nhất. Hình 6. Đường đi của robot trong môi trường kiểm thử thứ nhất. Công nghệ thông tin L. P. Cường, , L. P. Minh, “Nghiên cứu thuật toán học mô phỏng 3-D Gazebo.” 40 Hình 7. Đường đi của robot trong môi trường kiểm thử thứ 2. 5. KẾT LUẬN Trong bài này chúng tôi đã trình bày những vấn đề cơ sở lý thuyết tổng quan về hướng tiếp cận học tăng cường sâu, cũng như nhu cầu cấp thiết trong bài toán tìm kiếm cứu nạn. Đề xuất một mô hình học tăng cường sâu cho thiết bị tự hành trong bài toán tìm kiếm cứu nạn. Hiệu quả của việc đề xuất này đã được chứng minh khi robot sau khi đươc huấn luyện có thể vượt qua được các môi trường kiểm thử khác nhau. TÀI LIỆU THAM KHẢO [1]. Sutton.R.S., Barto.A.G, “Reinforcement Learning: An Introduction”. MIT Press, Cambridge (1998). [2]. Schmidhuber.J, “Deep learning in neural networks: an overview.”, Neural Netw. 61, 85–117 (2015). [3]. Mnih.V, et al, “Human-level control through deep reinforcement learning”, Nature. 518(7540), 529–533 (2015). [4]. Silver, D., et al, “Mastering the game of go with deep neural networks and tree search”, Nature 529(7587), 484–489 (2016). [5]. Silver, D., et al. “Mastering the game of go without human knowledge”, Nature 550(7676), 354 (2017). [6]. Kober.J, Bagnell.J.A, Peters.J., “Reinforcement learning in robotics: a survey”, Int. J. Robot. Res. 32, 1238–1274 (2013). p. 0278364913495721. [7]. Ng. A.Y, et al, “Autonomous inverted helicopter flight via reinforcement learning”, In: Ang, M.H., Khatib, O. (eds.) Experimental Robotics IX. STAR, vol. 21, pp. 363–372. Springer, Heidelberg (2006). https://doi.org/10.1007/11552246 35. [8]. Liu Yugang, and Goldie Nejat. "Multirobot cooperative learning for semiautonomous control in urban search and rescue applications." Journal of Field Robotics 33.4 (2016): 512-536. [9]. Koenig, Nathan P., and Andrew Howard. "Design and use paradigms for Gazebo, an open-source multi-robot simulator." IROS. Vol. 4. 2004. [10]. Lin, Long-Ji. "Self-improving reactive agents based on reinforcement learning, planning and teaching." Machine learning 8.3-4 (1992): 293-321. [11]. Mnih, Volodymyr, et al. "Playing atari with deep reinforcement learning." arXiv preprint arXiv:1312.5602 (2013). [12].Abadi, Martín, et al. "Tensorflow: a system for large-scale machine Nghiên cứu khoa học công nghệ Tạp chí Nghiên cứu KH&CN quân sự, Số Đặc san CNTT, 04 - 2019 41 learning." OSDI. Vol. 16. 2016. [13]. Chollet, François. "Keras." (2015). [14].Quigley, Morgan, et al. "ROS: an open-source Robot Operating System." ICRA workshop on open source software. Vol. 3. No. 3.2. 2009. ABSTRACT DOING A RESEARCH ON DEEP REINFORCEMENT LEARNING FOR THE SEARCH AND RESCUE PROBLEM IN 3D-GAZEBO SIMULATION ENVIRONMENT The problem of rescue and search is a necessary requirement not only in military but also in civilian areas. In special environments such as in battlefield or in complex and dangerous mountain-forest terrains, using robots to reduce the unexpected factors, which might cause dangers to rescuers, has been being promising for the search and rescue operations. In this paper, we propose a Deep reinforcement learning (DRL) model allowing develop an artificial intelligence system for an unmanned ground vehicle (UGV) in the search and rescue problem. In our proposed model, the camera-image and sensors data is extracted when the robot is operating. The combination between image and sensors data enables the UGV be able to operate smarter than the traditional approaches in which only image or sensors data is used for training. Additionally, in this paper we also provide a reward function helping to increase the leaning time of the UGV as well as the learning efficiency. An experimental environment is designed on the open- source 3-D simulation framework, namely Gazebo, and the robot operating system (ROS). The results show that our proposed DRL model is feasible and practical when the UGV is able to pass various testing environments. Từ khóa: Deep reinforcement learning; Deep learning; Search and rescue; Unmanned ground vehicle (UGV). Nhận bài ngày 16 tháng 08 năm 2018 Hoàn thiện ngày 06 tháng 11 năm 2018 Chấp nhận đăng ngày 18 tháng 3 năm 2019 Địa chỉ: 1 Viện Công nghệ thông tin, Viện KHCNQS, Bộ Quốc phòng; 2 Bộ Tư lệnh 86, Bộ Quốc phòng; 3 Bệnh viện TWQĐ 108, Bộ Quốc phòng. * Email: cuongle1981@gmail.com.

Các file đính kèm theo tài liệu này:

05_cuong_8034_2150135.pdf