Mô hình huấn luyện mạng nơ-ron dựa trên ảnh mô phỏng - Đặng Hoàng Minh

Tài liệu Mô hình huấn luyện mạng nơ-ron dựa trên ảnh mô phỏng - Đặng Hoàng Minh: Công nghệ thông tin Đ. H. Minh, P. V. Lai, “Mô hình huấn luyện mạng nơ-ron dựa trên ảnh mô phỏng.” 264 MÔ HÌNH HUẤN LUYỆN MẠNG NƠ-RON DỰA TRÊN ẢNH MÔ PHỎNG Đặng Hoàng Minh*, Phạm Văn Lai Tóm tắt: Ngày nay, việc ứng dụng Deep Learning trong xử lý ảnh đã ngày một phổ biến. Trong quá trình khai thác học sâu, người ta dần nhận thấy mối liên hệ mạnh mẽ giữa số lượng dữ liệu đầu vào và độ chính xác của giải thuật. Tuy nhiên trong thực tế, việc lấy dữ liệu cho một số đối tượng cần nhận dạng là phức tạp và rất mất thời gian. Nhằm giải quyết vấn đề đấy, việc học dựa trên dữ liệu mô phỏng trở thành vấn đề được nhiều nhóm nghiên cứu quan tâm. Trong bài báo này, chúng tôi xây dựng mô hình huấn luyện dựa trên ảnh nhân tạo thông qua việc sử dụng một phần của mạng Inception v3 đã huấn luyện. Từ khóa: Deep learning (học sâu), Mạng nơ-ron, Mạng nơ-ron tích chập. 1. MỞ ĐẦU Deep Learning là một mô hình mạnh mẽ cho bài toán nhận dạng đối tượng từ ảnh. Tuy nhiên, nó có một n...

7 trang | Chia sẻ: quangot475 | Lượt xem: 833 | Lượt tải: 0

Bạn đang xem nội dung tài liệu Mô hình huấn luyện mạng nơ-ron dựa trên ảnh mô phỏng - Đặng Hoàng Minh, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên

Công nghệ thông tin Đ. H. Minh, P. V. Lai, “Mô hình huấn luyện mạng nơ-ron dựa trên ảnh mô phỏng.” 264 MÔ HÌNH HUẤN LUYỆN MẠNG NƠ-RON DỰA TRÊN ẢNH MÔ PHỎNG Đặng Hoàng Minh*, Phạm Văn Lai Tóm tắt: Ngày nay, việc ứng dụng Deep Learning trong xử lý ảnh đã ngày một phổ biến. Trong quá trình khai thác học sâu, người ta dần nhận thấy mối liên hệ mạnh mẽ giữa số lượng dữ liệu đầu vào và độ chính xác của giải thuật. Tuy nhiên trong thực tế, việc lấy dữ liệu cho một số đối tượng cần nhận dạng là phức tạp và rất mất thời gian. Nhằm giải quyết vấn đề đấy, việc học dựa trên dữ liệu mô phỏng trở thành vấn đề được nhiều nhóm nghiên cứu quan tâm. Trong bài báo này, chúng tôi xây dựng mô hình huấn luyện dựa trên ảnh nhân tạo thông qua việc sử dụng một phần của mạng Inception v3 đã huấn luyện. Từ khóa: Deep learning (học sâu), Mạng nơ-ron, Mạng nơ-ron tích chập. 1. MỞ ĐẦU Deep Learning là một mô hình mạnh mẽ cho bài toán nhận dạng đối tượng từ ảnh. Tuy nhiên, nó có một nhược điểm là đỏi hỏi lượng dữ liệu quá lớn. Do đó, nhu cầu học dựa trên ảnh mô phỏng được đề ra. Lý do là vì việc tạo ra ảnh mô phỏng đơn giản hơn nhiều so với việc thu thập ảnh thật. Một số nhóm nghiên cứu đã tiến hành thử nghiệm, tuy nhiên, kết quả còn khiêm tốn và chưa thể ứng dụng rộng rãi. Một số nghiên cứu có thể kể đến như sau: - “Học dựa trên ảnh mô phỏng, không giám sát thông qua huấn luyện đối nghịch” [1]. Ý tưởng của công trình này là xây dựng một mạng đối nghịch (Generative Adversarial Network – GAN) [8] có khả năng tinh chỉnh ảnh mô phỏng sao cho nó giống với ảnh thật. Ảnh sau khi được tinh chỉnh có thể sử dụng làm dữ liệu đầu vào cho các mô hình mạng nơ-ron nhận dạng đối tượng. Tuy nhiên, mô hình này mới chỉ ứng dụng với các đối tượng đơn giản(như mắt người). - “Huấn luyện phân loại đối tượng dựa trên dữ liệu nhân tạo thông qua việc sử dụng một autoencoder đa kênh” [2]. Tư tưởng của phương pháp này là sử dụng một autoencoder đa kênh được huấn luyện bởi đồng thời cả ảnh thật và ảnh nhân tạo [2]. Đầu ra của autoencoder sẽ là những ảnh đã được tinh chỉnh để có độ chênh lệch ít đi. Trong bài báo này, nhóm nghiên cứu tập trung nghiên cứu một mô hình mạng nơ-ron cho phép học dựa trên ảnh mô phỏng. 2. LÝ THUYẾT CHUNG Mạng nơ-ron tích chập (CNN)[6]. Mạng tích nơ-ron tích chập gồm hai thành phần chính là lớp tích chập (Convolutional layer) và lớp Pooling. Trong đó, lớp tích chập bao gồm các bộ lọc có kích thước và bước nhảy định nghĩa trước. Các bộ lọc này sẽ lần lượt trượt qua ảnh và tạo ra các kết quả khác nhau. Lớp Pooling xử lý kết quả từ lớp tích chập theo phương cách chọn một phần tử trong cửa sổ trượt đại diện cho cả cửa sổ. Kết quả cuối cùng của lớp Pooling sẽ được làm phẳng trước khi đưa vào lớp Fully connected để nhận dạng. Thông tin Tạp chí Nghi Hình m hơn 10 tri ImageNet phiên b nh hội tụ, nó sẽ chứa trong đó các bộ lọc cho phép tổng hợp ra những đặc tr ứng tr m sau khi đư lọc ra các đặc tr ra, theo ki hu cả những đối t th 1000 đ 3.1. Bài toán nh toán như sau: Th ron b dựa tr nếu điều n Tập dữ liệu phục vụ cho b M ạng CNN ( ất (3.46%). Theo nguyên lý ho ỗi bộ lọc sẽ trích ra một đặc tr ấn luyện với 1 ể thực hiện đ Đ 1 ạng Inception v3 ên ối t ể thử nghiệm mô h ằng ph ên khoa h . Ki ảnh. Nói cách khác, trong một lớp mạng CNN sẽ tập hợp nhiều bộ lọc v ư ảnh mô phỏng nh ên c ến trúc mạng n ệu ảnh của 1000 lớp (loại) đối ợc huấn luyện hội tụ sẽ chứa trong m ểm nghiệm thực tế các lớp CNN trong mạng Inception v3 sau khi đ ợng ban đầu nh 3. BÀI TOÁN NH ương pháp h ày x ọc công nghệ ứu KH&CN hình 2). M ư ư ảy ra, chứng tỏ mạng đ ưng c 000 l ợng không chứa trong nhóm 1000 đối t ợc do trong thực tế, có rất nhiều đối t ận dạng ử nghiệm nhận dạng 05 loại máy bay chiến đấu sử dụng mạng n ản 2012). Inception v3 l Hình ạt động của m ủa 1000 đối t ớp đối t ình h quân s ơ là m ạng Inception v3 đ 2 ưng có cùng ọc tr ưng -ron có s . Ki ọc dựa tr ài toán g ự, ạng n ến trúc của mạng Inception v3. ượng ho Ậ ên ph Số Đặc san ưng khác nhau t N D ảnh mô phỏng. Mạng n ải có khả năng nhận ra đối t ử dụng mạng tích chập trong nhận dạng ảnh. ơ- ình, khi m ượng khác nhau trong thế giới tự nhi Ạ ên ồm 02 th ron nhân t àn toàn có th đ NG VÀ MÔ HÌNH ảnh mô phỏng, nhóm nghi ã h à m ặc tr ọc đ CNTT ược xây dựng để huấn luyện dựa tr tượng khác nhau (theo CSDL ảnh của ột trong các mô h ưng v ư ành ph ạo đ ột lớp mạng CNN ừ ảnh. ình r ợc đối t , 12 ể tổng hợp đ ới 1000 đối t - 20 ư ất nhiều các bộ lọc, cho phép ần: Dữ liệu mô phỏng (đ 17 ợc cấu th Khi đó, m ượng ban đầu. Điều n ượng tuy không nằm trong ơ ượng từ dữ liệu mô phỏng. Đ -ron s Ề ượng đó tr ành b ình có t ư ượng ban đầu. XU ẽ đ đư ạng Inception v ợc đặc tr Ấ ên c ược huấn luyện ởi nhiều lớp ợc huấn luyện T ứu đặt ra b ên ỉ lệ lỗi thấp ưng tương ên. Ngoài ưng c ảnh thật, 265 ày có ư ên à 3 ã ủa ài ơ- ợc Công nghệ thông tin Đ. H. Minh, P. V. Lai, “Mô hình huấn luyện mạng nơ-ron dựa trên ảnh mô phỏng.” 266 sinh từ 3D engine với số lượng 5000 ảnh cho một đối tượng) và dữ liệu ảnh thật (với số lượng 200 ảnh cho một đối tượng). Các loại máy bay chiến đấu được lựa chọn để thử nghiệm là: B2, B25, B52, C130, F111. 3.2. Phương pháp xây dựng dữ liệu Xây dựng bộ dữ liệu ảnh thật: Các ảnh thật được tải về từ Internet dựa trên một số engine tìm kiếm được cung cấp miễn phí. Các ảnh này sau đó được xứ lý (loại bỏ ảnh giống nhau, các ảnh không đúng nội dung, các ảnh chứa thủy ấn) và phân loại về các thư mục tương ứng trước khi sử dụng. Sau quá trình trên, bộ dữ liệu ảnh thật còn khoảng 200 ảnh cho mỗi loại máy bay. Xây dựng bộ dữ liệu ảnh mô phỏng: Các ảnh mô phỏng được xây dựng dựa trên một engine mô phỏng. Engine này tải các đối tượng 3D lên một môi trường địa hình cho trước và tiến hành thay đổi vị chí và góc nhìn đối tượng. Đối với mỗi một lần thay đổi, một bức ảnh đối tượng được sinh ra. Sau quá trình trên, bộ dữ liệu ảnh mô phỏng thu được gồm 5000 ảnh cho mỗi loại máy bay (hình 3 mô tả một số ảnh được sinh ra từ engine mô phỏng). Hình 3. Một số dữ liệu mô phỏng của 5 loại máy bay. 3.3. Kiến trúc mạng nơ-ron đề xuất Kiến trúc của mạng nơ-ron được sử dụng gồm 02 thành phần (hình 4): - Kế thừa các lớp mạng CNN đã huấn luyện của mạng Inception v3 - Xây mới lớp mạng Fully connected. Sau khi đã kế thừa lại các lớp mạng CNN, lớp Fully connected nối tiếp được xây dựng với tham số gồm 2048 nơ-ron (do đầu ra của lớp CNN cuối cùng trong mạng Inception có kích thước 2048) và 5 đầu ra (tương ứng với 5 loại máy bay). Lớp mạng này sẽ được xây mới và huấn luyện từ đầu. Mô hình lớp mạng này được khái quát như sau: he(xi) = f(Wexi + be)(7) Trong đó, f(.) là hàm Softmax; xi là ma trận đầu vào có kích thước [2048,1], xi là giá trị thu được sau khi dữ liệu đi qua toàn bộ các lớp CNN của mạng Inception Thông tin khoa học công nghệ Tạp chí Nghiên cứu KH&CN quân sự, Số Đặc san CNTT, 12 - 2017 267 v3; We là ma trận có kích thước [2048,5]; be có kích thước [2048,1]; he là ma trận kết quả có kích thước [5,1] chứa giá trị từ 0.0 đến 1.0 đánh giá mức độ chắc chắn của mạng nơ-ron về đối tượng đầu vào tương ứng với 1 trong 5 đối tượng đầu ra. Như vậy, một bức ảnh khi đi qua mô hình mới, đầu tiên sẽ được phân tích thành tổ hợp của các đặc trưng đã học được từ tập dữ liệu của ImageNet (đặc điểm này có được do kế thừa từ các lớp CNN của Inception-v3). Các đặc trưng này, sau đó sẽ được tổng hợp để ra quyết định phân loại tại lớp Fully connected mới. Do đó, quá trình huấn luyện sẽ chỉ cần huấn luyện lớp Fully connected này. Đối với bài toàn học dựa trên ảnh mô phỏng, khi một bức ảnh ảo được đưa qua các lớp mạng CNN trên, sẽ được chuyển thành tổ hợp của nhiều đặc trưng thuộc các đối tượng huấn luyện thật. Điều này tạo ưu thế tốt hơn so với việc huấn luyện lại các lớp mạng CNN theo các đặc trưng trên ảnh mô phỏng. Hình 4. Mô hình mạng nơ-ron thử nghiệm. 4. THỬ NGHIỆM VÀ KẾT QUẢ Thử nghiệm khả năng nhận dạng của mô hình đối với đối tượng mô phỏng (thử nghiệm 1): - Tập dữ liệu dùng để huấn luyện: gồm 1000 ảnh mô phỏng cho mỗi loại máy bay. - Tập dữ liệu dùng để kiểm tra: gồm 1000 ảnh mô phỏng dùng cho mỗi loại máy bay. - Kết quả được trình bày dưới dạng ma trận confusion (Confusion Matrix), trong đó hàng dọc là kết quả phán đoán của mạng nơ-ron, hàng ngang biểu thị tập dữ liệu được đưa vào mạng nơ-ron (bảng 1): Bảng 1. Ma trận confusion của mạng khi nhận dạng ảnh mô phỏng. B25 F111 B2 B52 C130 % B25 959 30 3 4 4 95.9 F111 4 965 18 8 5 96.5 B2 0 8 981 9 2 98.1 B52 7 20 11 928 34 92.8 C130 6 13 12 46 923 92.3 AVG 95.12 o Độ chính xác trung bình của mạng nơ-ron cuối quá trình huấn luyện là: 94.3% (E-in) o Độ chính xác trung bình của mạng nơ-ron trên tập dữ liệu kiểm tra: 95.12 % (E-out) Công nghệ thông tin Đ. H. Minh, P. V. Lai, “Mô hình huấn luyện mạng nơ-ron dựa trên ảnh mô phỏng.” 268 Có thể thấy, độ lệch giữa E-in và E-out là nhỏ, cho thấy mạng không bị overfiting hay nói cách khác, dữ liệu mô phỏng được sinh ra đã đảm bảo đủ các yêu cầu về độ ngẫu nhiên của bối cảnh, mô tả được các điểm đặc trưng riêng của từng loại máy bay mô phỏng. Bên cạnh đó, độ chính xác của mạng nơ-ron lớn hơn 95% cho thấy mạng nơ-ron đã được huấn luyện tốt để có thể nhận dạng được đối tượng mô phỏng. Thử nghiệm học dựa trên dữ liệu mô phỏng (thử nghiệm 2): - Tập dữ liệu dùng để huấn luyện tương tự như ở thử nghiệm 1 (huấn luyện trên dữ liệu mô phỏng). - Tập dữ liệu dùng để kiểm tra: gồm 100 ảnh thật cho mỗi loại. - Kết quả thể hiện trên bảng 2: Bảng 2. Ma trận confusion của mạng khi nhận dạng ảnh thật. B25 F111 B2 B52 C130 % B25 70 11 3 3 13 70 F111 12 63 6 4 15 63 B2 8 19 62 0 11 62 B52 29 23 3 10 35 10 C130 49 17 1 3 30 30 AVG 47 o Độ chính xác trung bình của mạng nơ-ron cuối quá trình huấn luyện là: 94.3% (E-in) o Độ chính xác trung bình của mạng nơ-ron sau khi huấn luyện trên tập dữ liệu kiểm tra: 47 % (E-out) Đối với kết quả này có thể nhận thấy như sau:Trước hết, khoảng cách giữa dữ liệu nhân tạo và dữ liệu thật là lớn. Do đó, ở cùng một loại máy bay, tuy mạng nơ- ron có thể nhận dạng nó chính xác trên ảnh mô phỏng (thử nghiệm 1) nhưng lại không thể nhận dạng được trên ảnh thật (thử nghiệm 2). Hay nói cách khác, các đặc trưng được lớp CNN trích ra từ ảnh thật và ảnh mô phỏng nằm trong các nhóm đặc trưng tương đối khác nhau. Để thu nhỏ sự khác biệt này, nhóm nghiên cứu tiến hành thử nghiệm thứ 3. Thử nghiệm rút ngắn khoảng cách giữa dữ liệu mô phỏng và dữ liệu thật. Trong thử nghiệm này: - Tập huấn luyện:1000 ảnh mô phỏng ở dạng tách biên (hình 9). - Tập kiểm tra:100 ảnh thật ở dạng tách biên. - Kết quả được thể hiện trên bảng 3. Bảng 3. Ma trận confusion của mạng sau hiệu chỉnh khi nhận dạng ảnh thật. B25 F111 B2 B52 C130 % B25 59 23 6 4 8 59 F111 10 64 18 3 5 64 B2 1 8 87 3 1 87 B52 9 16 13 56 6 56 C130 5 15 4 5 71 71 AVG 67.4 Thông tin khoa học công nghệ Tạp chí Nghiên cứu KH&CN quân sự, Số Đặc san CNTT, 12 - 2017 269 Có thể thấy, việc tách biên ảnh trước khi đưa vào mạng nơ-ron, khiến cho mạng tập trung vào việc học các hình dáng của đối tượng mà bỏ qua phần biểu bì (texture). Do đó, độ chính xác của mạng đã được nâng lên. Nói cách khác, thông thường cùng một đối tượng máy bay trong ảnh thật tuy có hình dạng giống nhau nhưng có thể được sơn màu, và mang các trang bị, khác nhau. Việc đưa ảnh huấn luyện và kiểm tra về dạng đường viền sẽ khiến mạng chỉ tập trung vào việc nhận dạng hình dáng của đối tượng, do đó, việc học dựa trên ảnh mô phỏng được cải thiện. (a) (b) Hình 5. Ảnh tách biên của máy bay B2. (a) Ảnh mô phỏng tách biên. (b) Ảnh thật được tách biên. 5. KẾT LUẬN Có thể thấy, mô hình đề ra đã giải quyết tốt bài toán nhận dạng thông thường (thử nghiệm 1) nhưng chưa tốt trong việc học trên ảnh mô phỏng (thử nghiệm 2). Để cải thiện hiệu quả của việc học trên (hay nói cách khác, rút ngắn khoảng cách giữa dữ liệu ảnh thật và ảnh ảo) nhóm nghiên cứu đã thử nghiệm tách biên dữ liệu, tuy nhiên kết quả mới chỉ cải thiện được một phần nhỏ. Mô hình được đề xuất ở trên tuy có phần nào cải thiện được hiệu quả nhận dạng của mạng nơ-ron khi chỉ huấn luyện sử dụng ảnh mô phỏng nhưng kết quả nhận dạng đó còn rất thấp để có thể đưa vào ứng dụng nhất định. Trong tương lai, nhóm nghiên cứu sẽ tiếp tục tìm hiểu, bổ sung các phương pháp thu hẹp khoảng cách giữa dữ liệu mô phỏng và dữ liệu thật. TÀI LIỆU THAM KHẢO [1]. Ashish Shrivastava, Tomas Pﬁster, Oncel Tuzel, Josh Susskind, Wenda Wang, Russ Webb Apple Inc. “Learning from Simulated and Unsupervised Images through Adversarial training”. 2016 [2]. Xi Zhang, Yanwei Fu, Andi Zang, Leonid Sigal, Gady Agam. “Learning Classiﬁers from Synthetic Data Using a Multichannel Autoencoder”. 2015 Công nghệ thông tin Đ. H. Minh, P. V. Lai, “Mô hình huấn luyện mạng nơ-ron dựa trên ảnh mô phỏng.” 270 [3]. Ruizhongtai (Charles) Qi Stanford University. “Learning 3D Object Orientations From Synthetic Images”. [4]. Xi Zhang, Yanwei Fu, Shanshan Jiang, Leonid Sigal and Gady Agam. “Learning from Synthetic Data Using a Stacked Multichannel Autoencoder”. [5]. Pierre Baldi. “Autoencoders, Unsupervised Learning, and Deep Architectures”. 2012 [6]. Y. LeCun, L. Bottou, Y. Bengio, and P. Haffner. “Gradient-based learning applied to document recognition.” 1998 [7]. Health Education Training Institute (HETI). “Simulation based education: Professional entry student education and training”. 2014 [8]. IanJ.Goodfellow, JeanPouget-Abadie, MehdiMirza, BingXu, DavidWarde- Farley, SherjilOzair, AaronCourville, YoshuaBengio. “Generative Adversarial Nets”. 2014 [9]. Glorot, Xavier, Bordes, Antoine, and Bengio, Yoshua. “Deep sparse rectifier neural networks”. 2011 ABSTRACT STUDY OF LEARNING FROM SYNTHETIC DATA Solving images classification problem using Deep learning has been researched and deployed in more than decades. However, we did not witness any breakthough until last recent years. This reality is addressed due to the lack of data and calculation capability. Although all people have been using GPU to solve calculation capability problems, lack of data problem stilll remains. Therefore, during last few years, learning from synthetic data has become a hot topic. In this paper, a model to help artificial neural network learn from synthetic data is suggested. Keywords: Deep learning; Neural networks; Convolution neural networks. Nhận bài ngày 16 tháng 8 năm 2017 Hoàn thiện ngày 26 tháng 11 năm 2017 Chấp nhận đăng ngày 28 tháng 11 năm 2017 Địa chỉ: Viện CNTT/ Viện KHCNQS. * Email: danghoangminh86@gmail.com.

Các file đính kèm theo tài liệu này:

28_4622_2151900.pdf