Tài liệu Khóa luận Mạng neural rbf và ứng dụng nhận dạng chữ viết tay: ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Lê Tiến Mười
MẠNG NEURAL RBF
VÀ
ỨNG DỤNG NHẬN DẠNG CHỮ VIẾT TAY
KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY
Ngành: Công nghệ thông tin
HÀ NỘI - 2009
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Lê Tiến Mười
MẠNG NEURAL RBF
VÀ
ỨNG DỤNG NHẬN DẠNG CHỮ VIẾT TAY
KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY
Ngành: Công nghệ thông tin
Cán bộ hướng dẫn: PGS.TS Hoàng Xuân Huấn
HÀ NỘI - 2009
LỜI CẢM ƠN
Tôi muốn bày tỏ sự cảm ơn sâu sắc của mình tới thầy Hoàng Xuân Huấn, thuộc
bộ môn Khoa học máy tính, khoa Công nghệ thông tin, trường Đại học Công nghệ,
ĐHQGHN. Trong thời gian thực hiện khóa luận, thầy đã nhiệt tình hướng dẫn và giúp
đỡ tôi rất nhiều. Ngoài thời gian tìm hiểu và cung cấp tài liệu, thầy cũng chỉ ra những
vướng mắc trong qua trình làm, giúp đỡ tôi khắc phục để đạt hiệu quả cao hơn. Thầy
cũng đã tận tình giúp đỡ tôi có một chỗ làm việc yên tĩnh trong suốt quá trình làm
khóa luận.
...
58 trang |
Chia sẻ: haohao | Lượt xem: 1685 | Lượt tải: 4
Bạn đang xem trước 20 trang mẫu tài liệu Khóa luận Mạng neural rbf và ứng dụng nhận dạng chữ viết tay, để tải tài liệu gốc về máy bạn click vào nút DOWNLOAD ở trên
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Lê Tiến Mười
MẠNG NEURAL RBF
VÀ
ỨNG DỤNG NHẬN DẠNG CHỮ VIẾT TAY
KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY
Ngành: Công nghệ thông tin
HÀ NỘI - 2009
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Lê Tiến Mười
MẠNG NEURAL RBF
VÀ
ỨNG DỤNG NHẬN DẠNG CHỮ VIẾT TAY
KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY
Ngành: Công nghệ thông tin
Cán bộ hướng dẫn: PGS.TS Hoàng Xuân Huấn
HÀ NỘI - 2009
LỜI CẢM ƠN
Tôi muốn bày tỏ sự cảm ơn sâu sắc của mình tới thầy Hoàng Xuân Huấn, thuộc
bộ môn Khoa học máy tính, khoa Công nghệ thông tin, trường Đại học Công nghệ,
ĐHQGHN. Trong thời gian thực hiện khóa luận, thầy đã nhiệt tình hướng dẫn và giúp
đỡ tôi rất nhiều. Ngoài thời gian tìm hiểu và cung cấp tài liệu, thầy cũng chỉ ra những
vướng mắc trong qua trình làm, giúp đỡ tôi khắc phục để đạt hiệu quả cao hơn. Thầy
cũng đã tận tình giúp đỡ tôi có một chỗ làm việc yên tĩnh trong suốt quá trình làm
khóa luận.
Tôi cũng muốn bày tỏ sự cảm ơn của mình tới các các thầy, các cô trong bộ
môn, cũng như các thầy, các cô trong khoa, trường đã hết sức tạo điều kiện tốt và giúp
đỡ cho tôi hoàn thành khóa luận của mình.
TÓM TẮT NỘI DUNG
Mặc dù đã được nghiên cứu từ rất lâu, nhưng đến nay bài toán nội suy và xấp
xỉ hàm nhiều biến vẫn còn có rất ít công cụ toán học để giải quyết. Mạng Neural nhân
tạo là một phương pháp hay để giải quyết bài toán nội suy, xấp xỉ hàm nhiều biến.
Năm 1987 M.J.D. Powell đã đưa ra một cách tiếp cận mới để giải quyết bài toán nội
suy hàm nhiều biến sử dụng kỹ thuật hàm cơ sở bán kính (Radial Basis Function -
RBF), năm 1988 D.S. Bromhead và D. Lowe đề xuất kiến trúc mạng Neural RBF và
đã trở một công cụ hữu hiệu để giải quyết bài toán nội suy và xấp xỉ hàm nhiều
biến(xem [11]).
Nội dung chính của khóa luận là trình bày khảo cứu về mạng Neural RBF để
giải quyết bài toán nội suy, xấp xỉ hàm nhiều biến sau đó ứng dụng cơ sở lý thuyết trên
để xây dựng phần mềm nhận dạng chữ số viết tay.
MỤC LỤC
MỞ ĐẦU................................................................................................................... 1
Chương 1 BÀI TOÁN NỘI SUY, XẤP XỈ HÀM SỐ VÀ MẠNG NEURAL RBF 1
1.1 PHÁT BIỂU BÀI TOÁN NỘI SUY VÀ XẤP XỈ HÀM SỐ ............................ 1
1.1.1 Bài toán nội suy.......................................................................................... 1
1.1.1.1 Nội suy hàm một biến số ...................................................................... 1
1.1.1.2 Bài toán nội suy hàm nhiều biến .......................................................... 2
1.1.2 Bài toán xấp xỉ ........................................................................................... 2
1.1.3 Các phương pháp giải quyết bài toán nội suy và xấp xỉ hàm số .................. 2
1.2 MẠNG NEURAL NHÂN TẠO ....................................................................... 3
1.2.1 Giới thiệu mạng Neural nhân tạo ................................................................ 3
1.2.1.1 Mạng Neural sinh học.......................................................................... 4
1.2.1.2 Mạng Neural nhân tạo ......................................................................... 5
1.3 MẠNG NEURAL RBF..................................................................................... 8
1.3.1 Giới thiệu mạng Neural RBF ...................................................................... 8
1.3.1.1 Bài toán nội suy nhiều biến và kỹ thuật hàm cơ sở bán kính................. 8
1.3.1.2 Kiến trúc mạng Neural RBF............................................................... 10
1.3.1.3 Ứng dụng của mạng Neural RBF ....................................................... 10
1.4 CÁC PHƯƠNG PHÁP HUẤN LUYỆN MẠNG NEURAL RBF ................... 11
1.4.1 Phương pháp huấn luyện một pha............................................................. 11
1.4.2 Phương pháp huấn luyện hai pha .............................................................. 12
1.4.3 Phương pháp huấn luyện 2 pha HDH ....................................................... 13
1.4.4 Phương pháp huấn luyện ba pha đầy đủ.................................................... 16
1.5 KẾT QUẢ THỰC NGHIỆM .......................................................................... 16
1.5.1 Kết quả..................................................................................................... 16
1.5.2 Nhận xét................................................................................................... 19
Chương 2 NHẬN DẠNG CHỮ VIẾT TAY........................................................... 20
2.1 NHẬN DẠNG MẪU ...................................................................................... 20
2.1.1 Nhận dạng mẫu ........................................................................................ 20
2.1.1.1 Mẫu là gì ? ........................................................................................ 20
2.1.1.2 Nhận dạng mẫu là gì ?...................................................................... 20
2.1.1.3 Lịch sử của lĩnh vực nhận dạng mẫu .................................................. 21
2.1.1.4 Ứng dụng của nhận dạng mẫu ........................................................... 21
2.1.1.5 Các bài toán nhận dạng mẫu ............................................................. 22
2.1.1.6 Các bước xử lý trong hệ thống nhận dạng mẫu ................................. 22
2.2 BÀI TOÁN NHẬN DẠNG CHỮ VIẾT TAY................................................. 24
2.2.1 Tình hình chung về nhận dạng chữ viết tay............................................... 24
2.2.2 Giới thiệu bài toán nhận dạng chữ viết tay................................................ 24
2.2.3 Hướng giải quyết cho bài toán nhận dạng ký tự viết tay ........................... 24
2.3 CÁC PHƯƠNG PHÁP TRÍCH CHỌN ĐẶC TRƯNG CHỮ VIẾT TAY ....... 25
2.2.1 Phương pháp trích chọn đặc trưng kết hợp biến đổi DCT và thuật toán phân
tích thành phần chính PCA................................................................................ 25
2.2.1.1 Thuật toán PCA ................................................................................. 26
2.2.1.2 Phương pháp trích chọn đặc trưng kết phép biến đổi DCT và thuật
toán PCA....................................................................................................... 27
2.2.2 Phương pháp trích đặc trưng sử dụng Momen Legendre ........................... 28
2.2.2.1 Momen và Momen Legendre ............................................................. 28
2.2.2.2 Phương pháp trích chọn đặc trưng chữ viết tay bằng Momen Legendre30
2.2.3 Phương pháp sử dụng mạng Neural nhân chập(Convolution neural
network)............................................................................................................ 32
2.2.3.1 Khái niệm cơ sở ................................................................................. 32
2.2.3.2 Phương pháp trích đặc trưng sử dụng mạng Neural nhân chập ......... 33
2.4 THỰC NGHIỆM ............................................................................................ 34
2.4.1 Kết quả..................................................................................................... 35
2.4.2 Nhận xét................................................................................................... 35
Chương 3 CÁC PHƯƠNG PHÁP CẢI THIỆN HIỆU SUẤT CỦA MẠNG
NEURAL RBF........................................................................................................ 36
3.1 CÁC PHƯƠNG PHÁP CẢI THIỆU HIỆU SUẤT CỦA MẠNG NEURAL
RBF...................................................................................................................... 36
3.1 CÁC PHƯƠNG PHÁP CẢI THIỆU HIỆU SUẤT CỦA MẠNG NEURAL
RBF...................................................................................................................... 36
3.1.1 Tăng tập dữ liệu huấn luyện ..................................................................... 36
3.1.1.1 Tăng tập dữ liệu bằng các phép biến đổi hình học ............................. 36
3.1.2 Phương pháp học tập hợp ......................................................................... 37
3.1.2.1 Phương pháp học tập hợp cải tiến...................................................... 38
3.1.3 Phương pháp tăng tốc độ nhận dạng ......................................................... 39
3.1.3.1 Phương pháp bộ nhận dạng ba lớp .................................................... 40
3.2 THỰC NGHIỆM ............................................................................................ 41
Chương 4 GIỚI THIỆU CHƯƠNG TRÌNH NHẬN DẠNG CHỮ SỐ VIẾT TAY
VÀ TỔNG KẾT...................................................................................................... 42
4.1 GIỚI THIỆU CHƯƠNG TRÌNH NHẬN DẠNG CHỮ SỐ VIẾT TAY .......... 42
4.1.1 Chương trình nhận dạng chữ viết tay ........................................................ 42
4.1.1.1 Giới thiệu chương trình...................................................................... 42
4.2 TỔNG KẾT VÀ PHƯƠNG HƯỚNG PHÁT TRIỂN CỦA ĐỀ TÀI ............... 43
4.2.1 Tổng kết ................................................................................................... 43
4.2.1.1 Những công việc đã làm được............................................................ 43
4.2.2.2 Hướng phát triển của đề tài ............................................................... 44
TÀI LIỆU THAM KHẢO...................................................................................... 45
BẢNG DANH MỤC CÁC HÌNH MINH HỌA
Hình 1: Minh họa bài toán nội suy hàm một biến ..............................................................1
Hình 2: Minh họa một Neuron thần kinh sinh học.............................................................4
Hình 3: Cấu tạo một Neural nhân tạo ................................................................................5
Hình 4: Đồ thị hàm ngưỡng ..............................................................................................6
Hình 5: Đồ thị hàm tuyến tính...........................................................................................6
Hình 7: Đồ thị hàm tanh....................................................................................................6
Hình 8: Đồ thị hàm Gauss.................................................................................................7
Hình 9: Kiến trúc mạng Neural truyền tới .........................................................................7
Hình 10: Minh họa sự ảnh hưởng của hàm bán kính .........................................................9
Hình 11: Kiến trúc của mạng RBF ..................................................................................10
Hình 12: Quá trình hội tụ đến giá trị cực tiểu của thuật toán Gradient .............................12
Hình 13: Thuật toán HDH huấn luyện mạng RBF...........................................................15
Hình 14: Các bước xử lý trong hệ thống nhận dạng mẫu .................................................22
Hình 15 : Các bước giải quyết bài toán nhận dạng chữ viết tay .......................................25
Hình 16: Ảnh hưởng của vector riêng, giá trị riêng lên tập dữ liệu ..................................26
Hình 17 : Các bước thực hiện của thuật toán PCA ..........................................................27
Hình 18: Các bước trích chọn đặc trưng bằng biến DCT kết hợp PCA ............................27
Hình 19: Biến đổi DCT và cách lấy dữ liệu theo đường zigzag .......................................28
Hình 21: Các bước thực hiện của phương pháp trích chọn đặc trưng sử dung momen
Legendre.........................................................................................................................32
Hình 22: Thao tác nhân chập ..........................................................................................33
Hình 23: Quá trình trích chọn đặc trưng sử dụng mạng Neural nhân chập.......................34
Hình 24: Minh họa quá trình lấy đặc trưng bằng mạng Neuron nhân chập ......................34
Hình 21: Ma trận vector cho phép biến đổi Elastic ..........................................................37
Hình 22: Ví dụ về phép biến đổi Elastic..........................................................................37
Hình 23: Kiến trúc của phương pháp học tập hợp cải tiến ...............................................39
Hình 24: Kiến trúc của bộ nhận dạng ba lớp ...................................................................40
Hình 25: Biểu đồ so sánh độ chính xác nhận dạng và thời gian huấn luyện của các
phương pháp huấn luyện khác nhau ................................................................................41
Hình 26: Giao diện chính của chương trình.....................................................................43
Hình27: Bảng thông báo kết quả nhận dạng ....................................................................43
BẢNG DANH MỤC TỪ VIẾT TẮT
Ký hiệu Nghĩa tiếng Anh Nghĩa tiếng Việt
ANN Artificial neural network Mạng nơ-ron nhân tạo
DCT Discrete cosin transform Biến đổi cosin rời rạc
IDE
Integrated Development
Environment
Môi trường thiết kế hợp nhất
MLP Multi layer perceptron
Mạng nơ-ron truyền thẳng nhiều
tầng
PCA
Principal component
analysis
Phân tích thành phần chính
PDA Personal Digital Assistant
Thiết bị hỗ trợ cá nhân(thường
ám chỉ các máy tính cầm tay)
RBF Radial Basis Function Hàm cơ sở bán kính
SVM Support Vector Machine Máy vec-tơ hỗ trợ
MỞ ĐẦU
Bài toán nội suy và xấp xỉ hàm số đã được biết đến từ lâu vì nó có ứng dụng trong rất
nhiều lĩnh vực trong khoa học kỹ thuật cũng như đời sống. Ngày nay bài toán nội suy
và xấp xỉ hàm nhiều biến đã trở thành một vấn đề thời sự vì để giải quyết được các bài
toán ứng dụng (ví dụ trong nhận dạng mẫu) nhiều khi buộc con người phải giải quyết
được bài toán nội suy, xấp xỉ hàm nhiều biến. Trong toán học bài toán nội suy, xấp xỉ
hàm một biến đã được giải quyết khá đầy đủ bằng rất nhiều các phương pháp khác
nhau. Tuy nhiên bài toán nội suy, xấp xỉ hàm nhiều biến thì các công cụ toán học vẫn
còn rất hạn chế.
Khái niệm mạng “Neural nhân tạo” xuất hiện đầu thế kỷ 20 trong thời kỳ con người
tìm cách để chế tạo ra những bộ máy có khả năng suy nghĩ, tư duy như con người. Trải
qua một thời gian dài phát triển và nghiên cứu thì cơ sở lý thuyết cũng như thực
nghiệm về mạng Neural nhân tạo đã đạt được những kết quả rất khả quan. Nhờ khả
tính toán mạnh của máy tính, mạng Neural nhân tạo ngày nay là một công cụ rất tốt để
giải quyết bài toán nội suy và xấp xỉ hàm nhiều biến. Vì thế mạng Neural nhân tạo
được sử dụng rất nhiều trong các lĩnh vực tính toán, nhận dạng mẫu cũng như trong
các lĩnh vực khoa học quan trọng khác (xem [11]-chapter 4). Là một loại mạng Neural
nhân tạo, mạng Neural RBF cũng là một công cụ hiệu quả để giải quyết bài toán nội
suy và xấp xỉ hàm nhiều biến với điểm mạnh hơn hẳn các loại mạng Neural khác ở chỗ
nó có thời gian huấn luyện rất nhanh.
Bài toán nhận dạng chữ viết tay là một bài toán quen thuộc và có ứng dụng rất lớn
trong thực tế vì thế từ lâu nó đã thu hút rất nhiều người nghiên cứu. Mặc dù đã đạt
được những kết quả rất cao trong bài toán nhận dạng chữ viết tay (mạng Neural nhân
chập đã đạt độ chính xác 99.61% trên bộ dữ liệu MNIST [8]) song ngày nay người ta
vẫn tiếp tục nghiên cứu những phương pháp nhận dạng tốt hơn hướng đến dùng cho
các thiết bị di động, và các bài toán thời gian thực.
Từ các nhận xét trên, với lòng đam mê muốn nghiên cứu, học hỏi về kiến trúc của
mạng Neural nhân tạo (cụ thể ở đây là mạng Neural RBF) qua đó ứng dụng để viết
phần mềm nhận dạng chữ viết tay, được sự chỉ bảo và giúp đỡ tận tình của thầy giáo
PGS.TS Hoàng Xuân Huấn tôi đã tiến hành thực hiện khóa luận tốt nghiệp với đề tài
“Mạng Neural RBF và ứng dụng nhận dạng chữ viết tay”.
Nội dung của khóa luận sẽ đi sâu nghiên cứu những vấn đề sau:
- Khảo cứu về mạng Neural RBF.
- Tìm hiểu bài toán nhận dạng chữ viết tay và các phương pháp trích chọn đặc
trưng chữ viết tay.
- Nghiên cứu các phương pháp cải tiến hiệu suất của mạng Neural RBF áp dụng
cho bài toán nhận dạng chữ viết tay.
- Tiến hành cài đặt các ứng dụng để thực hiện so sánh hiệu suất các phương pháp
huấn luyện mạng Neural RBF, hiệu suất các phương pháp trích chọn giá trị đặc
trưng, cài đặt các phương pháp để cải thiện hiệu suất của mạng RBF áp dụng
cho bài toán nhận dạng chữ viết tay.
- Tiến hành viết chương trình nhận dạng chữ số viết tay nhận dạng chữ viết tay
tổng hợp tất cả các phần kiến thức đã nghiên cứu.
Với mục tiêu dẫn dắt từ cơ sở lý thuyết mạng Neural RBF đến ứng dụng nhận dạng
chữ viết tay, bài khóa luận được phân thành bốn chương lớn:
+Chương 1: Bài toán nội suy, xấp xỉ hàm số và mạng Neural RBF
Chương này sẽ cung cấp những khái niệm cơ bản nhất về bài toán nội suy, xấp xỉ hàm
cũng như vẽ nên bức tranh tổng quan về mạng Neural nhân tạo. Phần lớn nội dung của
chương này sẽ tập trung đi sâu nghiên cứu về mạng Neural RBF bao gồm kiến trúc và
các phương pháp huấn luyện mạng. Phần cuối chương (1.4) giới thiệu kết quả thực
nghiệm so sánh hiệu suất các phương pháp huấn luyện mạng Neural RBF thông qua
bài toán phân tích thành phần trong ống dầu.
+Chương 2: Nhận dạng chữ viết tay
Phần đầu chương sẽ trình bày sơ lược về bài toán nhận dạng mẫu, ở phần tiếp theo của
chương sẽ làm rõ hơn về các bước để giải quyết bài toán nhận dạng chữ viết tay. Phần
lớn nội dung của chương sẽ tập trung nghiên cứu các phương pháp lấy đặc trưng chữ
viết tay. Phần cuối chương đưa ra kết quả thực nghiệm so sánh hiệu suất các phương
pháp trích chọn đặc trưng chữ viết tay khác nhau.
+Chương 3: Các phương pháp tăng hiệu suất mạng Neural RBF
Nội dung chủ yếu của chương này là giới thiệu một số phương pháp nhằm cải thiện
hiệu suất mạng Neural RBF áp dụng cho bài toán nhận dạng chữ viết tay. Phần đầu
chương giới thiệu phương pháp làm tăng số lượng dữ liệu huấn luyện sử dụng các
phương pháp biến đổi ảnh affine, elastic. Tiếp đó sẽ giới thiệu phương pháp làm tăng
tốc độ và độ chính xác nhận dạng bằng cách sử dụng bộ nhận dạng ba tầng. Phương
pháp học tập hợp (Ensemble Learning) để cải thiện độ chính xác nhận dạng cũng được
đề cập ở chương này. Ở chương này tôi xin đề xuất phương pháp học tập hợp cải tiến
đạt độ chính xác nhận dạng gần 98% cho bộ dữ liệu MNIST và có thời gian huấn
luyện rất nhanh. Ở cuối chương sẽ giới thiệu kết quả thực nghiệm so sánh hiệu suất
nhận dạng của phương pháp hợp cải tiến so với các phương pháp thông thường.
+Chương 4: Giới thiệu chương trình nhận dạng chữ số viết tay và kết luận
Phần đầu chương giới thiệu phần mềm nhận dạng ký tự chữ số viết tay mà tôi đã xây
dựng dựa trên cơ sở tổng hợp toàn bộ nền tảng lý thuyết của bài khóa luận. Cuối cùng
là phần tổng kết của khóa luận.
Chương 1: Bài toán nội suy, xấp xỉ hàm số và mạng Neural RBF
1
CHƯƠNG 1
BÀI TOÁN NỘI SUY, XẤP XỈ HÀM SỐ
VÀ MẠNG NEURAL RBF
Nội dung chương này gồm có:
1.1 Phát biểu bài toán nội suy và xấp xỉ hàm số
1.2 Mạng Neural nhân tạo
1.3 Mạng Neural RBF
1.4 Các thuật toán huấn luyện mạng Neural RBF
1.5 Kết quả thực nghiệm và đánh giá
1.1 PHÁT BIỂU BÀI TOÁN NỘI SUY VÀ XẤP XỈ HÀM SỐ
1.1.1 Bài toán nội suy
1.1.1.1 Nội suy hàm một biến số
Bài toán nội suy hàm một biến tổng quát được đặt ra như sau: Một hàm số xfy
chưa biết và chỉ xác định được tại các điểm 0 1 Nx a x x b K với các giá trị yi=
f(xi). Ta cần tìm một biểu thức giải tích (x) để xác định gần đúng giá trị y x tại
các điểm bax , của hàm f(x) sao cho tại các điểm xi thì hàm số trùng với giá trị yi đã
biết (với bax , ta gọi là ngoại suy). Về phương diện hình học, ta cần tìm hàm (x)
có dạng đã biết sao cho đồ thị của nó đi qua các điểm(xi,yi) với mọi i=0,1,...,N.
Hình 1: Minh họa bài toán nội suy hàm một biến
x0 x1 xn
f(x0)
f(x)
(x)
Chương 1: Bài toán nội suy, xấp xỉ hàm số và mạng Neural RBF
2
Hàm f thường là hàm thực nghiệm hoặc các hàm khó tính giá trị hàm số nên chỉ đo
được ở các điểm nhất định. Các điểm 0
N
i ix sẽ gọi là các mốc nội suy.
1.1.1.2 Bài toán nội suy hàm nhiều biến
Xét một hàm chưa biết : ( )n mf D R R và một tập huấn luyện
1
, ; ,
Nk k k n k m
k
x y x R y R
sao cho ( ) ; 1,k kf x y k N . Chúng ta cần tìm một
hàm số ở một dạng đã biết để thỏa mãn điều kiện nội suy đó là :
( ) ; 1,k kx y k N
1.1.2 Bài toán xấp xỉ
Hàm xfy đo được tại N điểm thuộc đoạn ba,
1 2 Nx x x L ; i iy f x
Với 1k N , ta tìm hàm
1, , ,kx c c x K (1)
Trong đó là hàm cho trước, jc là các tham số cần tìm sao cho sai số trung bình
bình phương 2
1
1 N
i i
i
x y
N
nhỏ nhất khi các tham số jc thay đổi. Khi đó ta
nói x là hàm xấp xỉ tốt nhất của y trong lớp hàm có dạng (1) theo nghĩa bình phư-
ơng tối thiểu. Thường thì bài toán tìm cực tiểu toàn cục của sai số trung bình bình ph-
ương là bài toán khó. Trong trường hợp là hàm tuyến tính của các jc thì cực trị
toàn cục có thể xác định nhờ giải hệ phương trình tuyến tính của điều kiện các đạo
hàm cấp một triệt tiêu.
1
1
, , ,
N
k k k
k
c c x c x
K
(2)
trong đó xk là các hàm đơn giản và độc lập tuyến tính.
1.1.3 Các phương pháp giải quyết bài toán nội suy và xấp xỉ hàm số
Bài toán nội suy hàm một biến là một lĩnh vực nghiên cứu nghiên cứu khá quan trọng
trong ngành giải tích thế kỷ 18. Đầu tiên bài toán nội suy được giải quyết bằng phương
pháp sử dụng đa thức nội suy: đa thức Lagrange, đa thức Chebysev... tuy nhiên khi số
Chương 1: Bài toán nội suy, xấp xỉ hàm số và mạng Neural RBF
3
mốc nội suy lớn thì nội suy bằng đa thức thường xảy ra hiện tượng phù hợp trội(over-
fitting) do bậc của đa thức thường tăng theo số mốc nội suy. Để giải quyết hiện tượng
phù hợp trội thay vì tìm đa thức nội suy người ta chỉ tìm đa thức xấp xỉ (thường giải
quyết bằng phương pháp xấp xỉ bình phương tối thiểu của Gauss...) Một phương pháp
khác được đề xuất vào đầu thế kỷ 20 đó là phương pháp nội suy Spline. Trong đó hàm
nội suy được xác định nhờ ghép trơn các hàm nội suy dạng đơn giản (thường dùng đa
thức bậc thấp) trên từng đoạn con. Phương hay được áp dụng niều trong kỹ thuât. Để
hiểu rõ hơn về các phương pháp trên xem [1,14].
Cùng với phát triển của các ứng dung CNTT, bài toán nội suy nhiều biến được quan
tâm giải quyết và đạt nhiều tiến bộ trong khoảng 30 năm gần đây, với các cách tiếp
cận như:
-Học dựa trên mẫu, bao gồm các phương pháp: k-láng giềng gần nhất với trọng số
nghịch đảo khoảng cách và hồi quy trọng số địa phương.
-Mạng neural truyền thẳng MLP
-Mạng neural RBF
Để rõ hơn về các phương pháp trên xem [11].
1.2 MẠNG NEURAL NHÂN TẠO
1.2.1 Giới thiệu mạng Neural nhân tạo
Bộ não con người chứa đựng những bí mật mà đến bây giờ khoa học vẫn chưa giải đáp
được, chính nhờ có bộ não hoàn chỉnh mà con người đã trở thành động vật bậc cao
thống trị muôn loài. Đã từ lâu con người đã nghiên cứu cấu trúc đặc biệt của bộ não từ
đó ứng dụng để giải quyết những bài toán khoa học kỹ thuật. Người ta đã phát hiện ra
rằng bộ não con người là mạng lưới chằng chịt các Neural liên kết với nhau, đây là cơ
sở hình thành nên cấu trúc của mạng Neural nhân tạo.
Về bản chất toán học thì mạng Neural nhân tạo như là một mặt trong không gian đa
chiều để xấp xỉ một hàm chưa biết nào đấy. Nhưng mạng Neural nhân tạo lại giống
mạng Neural sinh học ở chỗ đó là khả năng có thể huấn luyện (học), đây là đặc điểm
quan trọng nhất của mạng Neural nhân tạo. Chính vì đặc điểm này mà mạng Neural
nhân tạo có khả năng thực hiện tốt các công việc sau khi đã được huấn luyện, và đến
Chương 1: Bài toán nội suy, xấp xỉ hàm số và mạng Neural RBF
4
khi môi trường thay đổi ta lại có thể huấn luyện lại mạng Neural nhân tạo để nó thích
nghi với điều kiện mới.
1.2.1.1 Mạng Neural sinh học
Mạng Neural sinh học là một mạng lưới (plexus) các Neuron có kết nối hoặc có liên
quan về mặt chức năng trực thuộc hệ thần kinh ngoại biên (peripheral nervous system)
hay hệ thần kinh trung ương (central nervous system).
Hình 2: Minh họa một Neuron thần kinh sinh học
Trên đây là hình ảnh của một tế bào thần kinh (Neuron thần kinh), ta chú ý thấy rằng
một tế bào thần kinh có ba phần quan trọng:
-Phần đầu cũng có nhiều xúc tu (Dendrite) là nơi tiếp xúc với các với các điểm kết
nối(Axon Terminal) của các tế bào thần kinh khác
-Nhân của tế bào thần kinh (Nucleus) là nơi tiếp nhận các tín hiệu điện truyền từ xúc
tu. Sau khi tổng hợp và xử lý các tín hiệu nhận được nó truyền tín hiệu kết quả qua
trục cảm ứng (Axon) đến các điểm kết nối (Axon Terminal) ở đuôi.
-Phần đuôi có nhiều điểm kết nối (Axon Terminal) để kết nối với các tế bào thần kinh
khác.
Khi tín hiệu vào ở xúc tu kích hoạt nhân Neuron có tín hiệu ra ở trục cảm ứng thì
Neuron được gọi là cháy. Mặc dù W. Mculloch và W.Pitts (1940) đề xuất mô hình
mạng neural nhân tạo khá sớm nhưng định đề Heb (1949) mới là nền tảng lý luận cho
mạng neural nhân tạo.
Chương 1: Bài toán nội suy, xấp xỉ hàm số và mạng Neural RBF
5
Định đề Heb: Khi một neuron (thần kinh) A ở gần neuron B, kích hoạt thường xuyên
hoặc lặp lại việc làm cháy nó thì phát triển một quá trình sinh hoá ở các neuron làm
tăng tác động này.
1.2.1.2 Mạng Neural nhân tạo
Mạng Neural nhân tạo được thiết kế để mô hình một số tính chất của mạng Neural sinh
học, tuy nhiên, khác với các mô hình nhận thức, phần lớn các ứng dụng lại có bản chất
kỹ thuật. Mạng Neural nhân tạo (ANN) là máy mô phỏng cách bộ não hoạt động thực
hiện các nhiệm vụ của nó. Một mạng Neural là bộ xử lý song song phân tán lớn, nó
giống bộ não người về 2 mặt:
-Tri thức được nắm bắt bởi Neural thông qua quá trình học.
-Độ lớn của trọng số kết nối Neural đóng vai trò khớp nối cất giữ thông tin.
a) Cấu tạo một Neuron trong mạng Neural nhân tạo
Hình 3: Cấu tạo một Neural nhân tạo
Một neuron bao gồm các liên kết nhận tín hiệu vào bằng số có các trọng số kết nối wi
tương ứng với tín hiệu xi, hàm F gọi là hàm kích hoạt để tạo tín hiệu ra dựa trên giá trị
hàm tổng có trọng số của các giá trị đầu vào, Y là giá trị đầu ra của Neuron. Ta có thể
biểu diễn một Neural nhân tạo theo công thức toán học như sau: 0
1
w
N
i i
i
Y F x w
Tùy vào thực tế bài toán hàm F là một hàm cụ thể nào đấy, trong quá trình huấn luyện
(học) thì các tham số wi được xác định. Trên thực tế F thường được chọn trong những
hàm sau:
F ∑
x1
x2
xN
w1
w2
wN
w0
Y
Chương 1: Bài toán nội suy, xấp xỉ hàm số và mạng Neural RBF
6
1) Hàm ngưỡng
1 0
( ) ( )
1 0
x
F x x
x
-1.5
-1
-0.5
0
0.5
1
1.5
-6 -4 -2 0 2 4 6
Hình 4: Đồ thị hàm ngưỡng
2) Hàm tuyến tính
( )F x ax
-4
-3
-2
-1
0
1
2
3
4
-6 -4 -2 0 2 4 6
Hình 5: Đồ thị hàm tuyến tính
3) Hàm sigmoid
1( )
1 x
F x
e
0
0.5
1
-6 -4 -2 0 2 4 6
Hình 6: Đồ thị hàm sigmoid
4) Hàm tanh
1( )
1
x
x
eF x
e
-1
-0.5
0
0.5
1
-6 -4 -2 0 2 4 6
Hình 7: Đồ thị hàm tanh
Chương 1: Bài toán nội suy, xấp xỉ hàm số và mạng Neural RBF
7
5) Hàm bán kính
(Gauss)
2
( ) xF x e
0
0.5
1
-6 -4 -2 0 2 4 6
Hình 8: Đồ thị hàm Gauss
Trên thực tế thì các họ hàm sigmoid thường dùng cho mạng Neural truyền thẳng nhiều
tầng MLP vì các hàm này dễ tính đạo hàm: '( ) ( )(1 ( ))f x f x f x , trong khi đó mạng
Neural RBF lại dùng hàm kích hoạt là hàm bán kính.
b) Kiến trúc của mạng Neural nhân tạo
Kiến trúc của mạng Neural nhân tạo lấy
tư tưởng chính của mạng Neural sinh học
đó là sự kết nối của các Neuon. Tuy
nhiên, mạng Neural nhân tạo có kiến trúc
đơn giản hơn nhiều, về cả số lượng
Neuron và cả kiến trúc mạng, trong khi ở
mạng Neural tự nhiên một Neuron có thể
kết nối với một Neuron khác bất kỳ ở
trong mạng thì ở mạng Neural nhân tạo
các Neuron được kết nối sao cho nó có
thể dễ dàng được biểu diễn bởi một mô
hình toán học nào đấy. Ví dụ trong mạng
Neural truyền tới các Neuron được phân
thành nhiều lớp, các Neuron ở lớp trước
chỉ được kết nối với các Neuron ở lớp
sau.
INPUT
OUTPUT
HIDDEN
Hình 9: Kiến trúc mạng Neural truyền tới
c) Quá trình học
Như đã nói ở trên mạng Neural nhân tạo có khả năng huấn luyện được (học), quá trình
huấn luyện là quá trình mà mạng Neural nhân tạo tự thay đổi mình dưới sự kích thích
Chương 1: Bài toán nội suy, xấp xỉ hàm số và mạng Neural RBF
8
của môi trường (bộ dữ liệu huấn luyện) để phù hợp với điều kiện của môi trường. Quá
trình huấn luyện chỉ có thể được thực hiện khi mạng Neural nhân tạo đã xây dựng
được kiến trúc cụ thể, và hàm kích hoạt F đã được xác định. Về bản chất quá trình học
là quá trình xác định các tham số wi của các Neuron trong mạng Neural. Có ba kiểu
học chính, mỗi kiểu mẫu tương ứng với một nhiệm vụ học trừu tượng. Đó là học có
giám sát, học không có giám sát và học tăng cường. Dưới đây xin nêu ra phương pháp
học có giám sát các phương pháp khác xem thêm [10] – chapter 4.
Học có giám sát
Trong học có giám sát, ta được cho trước một tập ví dụ gồm các cặp
( , , 1.. ), ,i ix y i N x X y Y và mục tiêu là tìm một hàm :f X Y (trong lớp các
hàm được phép) khớp với các ví dụ. Trên thực tế người ta thường tìm hàm f sao cho
tổng bình bình phương sai số đạt giá trị nhỏ nhất trên tập ví dụ: 2
1
( )
N
i i
i
E f x y
.
1.3 MẠNG NEURAL RBF
1.3.1 Giới thiệu mạng Neural RBF
Hàm cơ sở bán kính được giới thiệu bởi M.J.D. Powell để giải quyết bài toán nội suy
hàm nhiều biến năm 1987. Ngày nay, đây là vấn đề hết sức quan trọng được nghiên
cứu trong ngành giải tích số. Trong lĩnh vực mạng Neural, mạng Neural RBF được đề
xuất bởi D.S. Bromhead và D. Lowe năm 1988 cho bài toán nội suy và xấp xỉ hàm
nhiều biến (xem [12]).
1.3.1.1 Kỹ thuật hàm cơ sở bán kính
Bài toán nội suy hàm nhiều biến đã được giới thiệu ở phần 1.1.1.2, như đã nói ở trên
để giải quyết bài toán này D. Powell đã đề xuất dạng của hàm là hàm cơ sở bán
kính. Dưới đây sẽ trình bày sơ lược kỹ thuật sử dụng hàm cơ sở bán kính để giải quyết
bài toán nội suy hàm nhiều biến.
Kỹ thuật hàm cơ sở bán kính
Không mất tính tổng quát giả sử m=1 khi đó hàm có dạng như sau :
Chương 1: Bài toán nội suy, xấp xỉ hàm số và mạng Neural RBF
9
0
1
( ) ( )
N
k k
k
x w x w
(1)
ở đây k là hàm cơ sở bán kính thứ k. Thông thường k có những dạng sau:
2
2
k ( )
k
k
x v
x e
(2)
2 2
k ( )
k
kx x v (3)
k 2 2
1( )
k
k
x
x v
(4)
Trên thực tế thì người ta thường cho k ở dạng (2) và trong khuôn khổ khóa luận này
chỉ xét k ở dạng (2).
2
2
k ( )
k
k
x v
x e
chú ý rằng ở đây ta dùng chuẩn ||.|| là chuẩn Euclide 2
1
N
i
i
u u
; kv
là tâm của mỗi hàm cơ sở bán kính k ; k là bán kính của k . Với mỗi k thì giá trị
của bán kính k điều khiển miền ảnh hưởng của hàm bán kính k . Nếu
3k kx v thì giá hàm ( )k x là rất nhỏ, không có ý nghĩa.
Hình 10: Minh họa sự ảnh hưởng của hàm bán kính
Ví dụ như ở hình trên một vòng tròn to tượng trưng cho một hàm cơ sở bán kính, các
hàm này chỉ ảnh hưởng đến các điểm bên trong bán kính của nó.
Thay công thức (2) vào (1) ta được biểu diễn toán học của kỹ thuật hàm cơ sở bán kính
như sau:
2
2
0 0
1 1
( ) ( )
j k
k
x v
N N
j j j
k k k
k k
x w x w w e w y
(6)
Chương 1: Bài toán nội suy, xấp xỉ hàm số và mạng Neural RBF
10
Một đặc điểm rất lợi thế khi sử dụng hàm bán kính để giải quyết bài toán nội suy hàm
nhiều biến, đó là khi xét giá trị bình phương sai số 2
1
N
i i
i
E x y
thì người ta đã
chứng minh được rằng E chỉ có một cực trị duy nhất. Do vậy việc tìm các tham số của
các hàm cơ sở bán kính( , ,kk kw v ) để cho E đạt cực tiểu sẽ được giải quyết rất nhanh
và hiệu quả.
1.3.1.2 Kiến trúc mạng Neural RBF
Mạng RBF là một loại mạng Neural nhân tạo truyền thẳng gồm có ba lớp. Nó bao gồm
n nút của lớp đầu vào cho vector đầu vào nx R , N neuron ẩn (giá trị của neuron ẩn
thứ k chính là giá trị trả về của hàm cơ sở bán kính k ) và m neuron đầu ra.
Hình 11: Kiến trúc của mạng RBF
Như đã nêu ở trên mạng RBF có thể biểu diễn bằng công thức toán học sau:
2
2
0 0
1 1
( ) ( )
j k
k
x v
N N
j j j
k k k k k
k k
x w x w w e w y
1.3.1.3 Ứng dụng của mạng Neural RBF
Nhờ ưu điểm vượt trội là có thời gian huấn luyện mạng rất ngắn ngày nay mạng
Neural RBF được sử dụng trong rất nhiều lĩnh vực:
-Xử lý ảnh
-Nhận dạng tiếng nói
IN
PU
T
O
U
TPU
T
HIDDEN
k xi wi w0
w0 Y
X
Chương 1: Bài toán nội suy, xấp xỉ hàm số và mạng Neural RBF
11
-Xử lý tín hiệu số
-Xác định mục tiêu cho Radar
-Chuẩn đoán y học
-Quá trình phát hiện lỗi
-Nhận dạng mẫu
1.4 CÁC PHƯƠNG PHÁP HUẤN LUYỆN MẠNG NEURAL RBF
Huấn luyện mạng Neural RBF thực ra là quá trình tìm các tham số ( , ,kk kw v ) của các
hàm bán kính để phù hợp với bài toán nào đấy. So với các mạng Neural khác mạng
Neural RBF có điểm mạnh hơn hẳn đó có có thời gian huấn luyện ngắn. Xét tổng bình
phương sai số 2
1
N
i i
i
E x y
, do E chỉ có một cực trị duy nhất, vì thế nên việc
đi tìm điểm cực trị cho E sẽ rất nhanh chóng do không có cực trị địa phương. Có rất
nhiều phương pháp huấn luyện mạng hầu hết các phương pháp này đều có đặc điểm
chung là đều có xu hướng cực tiểu hóa giá trị bình phương sai số E cho tập dữ liệu
huấn luyện. Có thể chia các kiểu huấn luyện mạng RBF ra thành ba loại: huấn luyện
một pha, huấn luyện hai pha và huấn luyện ba pha (huấn luyện đầy đủ) (xem [4,5]).
1.4.1 Phương pháp huấn luyện một pha
Xét tập dữ liệu huấn luyện
1
, ; ,
Nk k k n k m
k
x y x R y R
ở phương pháp này, người ta
thường chọn tâm kv của các hàm bán kính là một tập con của tập dữ liệu huấn luyện
1
Nk
k
x
, còn các bán kính k được gán giá trị là một hằng số nào đấy, trên cơ sở thực
nghiệm người ta thường đặt 1
1
(2 ) nk M
(trong đó M là số hàm cơ sở bán kính, n là số
Neural đầu vào). Giá trị của các tham số wk thường được tìm ra bằng các phương pháp
học có giám sát như là phương pháp giả nghịch đảo hoặc phương pháp tụt dốc
Gradient. Về bản chất thì hai phương pháp này đều tìm các trong số wk để giá trị bình
phương sai số E đạt cực tiểu.
1) Phương pháp giả nghịch đảo
Chương 1: Bài toán nội suy, xấp xỉ hàm số và mạng Neural RBF
12
Với tập huấn luyện
1
, ; ,
Nk k k n k m
k
x y x R y R
, giả sử mạng RBF của ta có M
Neuron ở tầng ẩn. Ta xét ma trận N MH như sau
2
( , ) ( )
i
k
k
x v
i
kH i k x e
và ma trận
Y là ma trận hàng các yk khi đó giá trị của các wk được tính như sau :
W H Y trong đó 1( )T TH H H H .
2) Phương pháp tụt dốc Gradient
Với phương pháp này, đầu tiên các tham số wk được tạo ra ngẫu nhiên sau đó các tham
số này được cập nhật bằng công thức sau :
( 1) ( )k k kw i w i w
1
N
i i i
k k
i
w x y x
chú ý ở đây ta xét mạng RBF có một Neural ở đầu ra. Hệ
số được gọi là tốc độ học, nếu nhỏ thì giá trị của các trọng số w tiến chậm đến
điểm cực tiểu, nhưng nếu lớn thì giá trị của các trong số w thường có xu hướng dao
động quanh điểm cực tiểu, nói chung để tìm được giá trị hợp lí thì phải qua quá
trình thực nghiệm. Thông thường người ta vẫn chọn có giá trị nhỏ để đảm bảo quá
trình lặp sẽ hội tụ về giá trị cực tiểu cho dù hơi mất thời gian.
Hình 12: Quá trình hội tụ đến giá trị cực tiểu của thuật toán Gradient,
đường nét đứt ứng với giá trị lớn,
đường nét liền ứng với giá trị nhỏ
1.4.2 Phương pháp huấn luyện hai pha
Với phương pháp huấn luyện hai pha thông thường các giá trị tâm vk và bán kính k
của hàm cơ sở bán kính k được tính bằng các thuật toán phân cụm như thuật toán
Chương 1: Bài toán nội suy, xấp xỉ hàm số và mạng Neural RBF
13
phân cụm k-mean, k-mean có ngưỡng… Sau đó giá trị của các trọng số wk được tính
bằng các phương pháp giả nghịch đảo, hay tụt dốc Gradient như đã nêu ở trên.
1) Thuật toán phân cụm k-mean
-Phát biểu bài toán: Cho tập dữ liệu 1 2, ..., ; dn iX x x x x R chúng ta cần phân tập
dữ liệu này thành k tập 1 2
1 1
, ,.. : ; ;
k k
k i i
i i
S S S k n S S X
I U sao cho thỏa mãn:
2
1
arg min
j i
k
j i
S i x S
x
với i là tâm của tập iS .
Về mặt toán học thì bài toán phân cụm trên thuộc loại NP-khó tuy nhiên trên thực tế
thì người ta thường giải bài toán bằng phương pháp heuristic như sau:
Đầu tiền ta khởi tạo ngẫu nhiên tập 1 2, ,... k sau đó thực hiện vòng lặp qua hai
bước sau:
+Bước 1: tạo các cụm
( ) **: ; 1,ti j j i j iS x x x i k
+Bước 2: điều chỉnh lại tâm
( )
( 1)
( )
1
i
t
j i
t
jt
x Si
x
S
Thuật toán sẽ dừng cho đến khi tập 1 2, ,... k không còn có sự thay đổi giá trị(để
hiểu chi tiết hơn về thuật toán phân cụm k-mean có thể tham khảo thêm [18]).
Sau khi chạy thuật toán k-mean ta sẽ chọn tâm vk của các hàm cơ sở bán kính k chính
là tập 1 2, ,... k còn bán kính
1 || ||
j k
k j k
x Sk
x
S
.
1.4.3 Phương pháp huấn luyện 2 pha HDH
Xét tập huấn luyện
1
, ; ,
Nk k k n k m
k
x y x R y R
, không mất tính tổng quát, ở đây ta
xét mạng RBF có một Neuron output (m=1), khi đó biểu diễn toán học của mạng RBF
là:
Chương 1: Bài toán nội suy, xấp xỉ hàm số và mạng Neural RBF
14
0
1
( ) ( )
N
i i i
k k
k
x w x w y
(1)
Xét ma trận ,k i N N trong đó
2 2|| || /
, ( )
i k
kx xi
k i k x e
, chú ý rằng ở đây ta chọn
tâm của các hàm cơ sở bán kính chính là tất cả các điểm thuộc tập dữ liệu input X.
Ta ký hiệu I là ma trận đơn vị cấp N ; W=
Nw
w
...
1
, Z=
Nz
z
...
1
là các véc tơ trong không
gian N-chiều RN trong đó:
zk = yk w0, Nk (2)
và đặt
,k j N N
I
(3)
thì
2 2, || || /
0
j k
k
k j x x
k j
e k j
(4)
Khi đó hệ phương trình (1) tương đương với hệ :
W= W +Z (5)
Với các tham số k đã chọn và w0 tùy ý, hệ (1) và do đó hệ (5) luôn có duy nhất
nghiệm W. Về sau giá trị w0 được chọn là trung bình cộng của các giá trị yk:
w0 =
N
k
ky
N 1
1 (6)
Với mỗi kN, ta có hàm qk của k xác định như sau:
N
j
jkkq
1
,
(7)
Hàm qk là đơn điệu tăng và với mọi số dương q < 1 luôn tồn tại giá trị k sao cho
qk( k )=q.
Mô tả thuật toán.
Với sai số và các hằng số dương q, <1 cho trước, thuật toán bao gồm 2 pha để
xác định các tham số k và W*. Trong pha thứ nhất, ta sẽ xác định các k để qk q và
gần với q nhất (nghĩa là nếu thay k=k/ thì qk>q). Vì vậy, với mọi k, chuẩn của ma
trận tương ứng với chuẩn vector
*
. (cho bởi công thức (16) dưới đây) thuộc đoạn
này. Pha sau tìm nghiệm gần đúng W* của (5) bằng phương pháp lặp đơn giản. Thuật
toán được đặc tả trong hình 13.
Chương 1: Bài toán nội suy, xấp xỉ hàm số và mạng Neural RBF
15
Hình 13: Thuật toán HDH huấn luyện mạng RBF
Để tìm nghiệm W* của hệ (5) ta thực hiện thủ tục lặp như sau.
Khởi tạo W0=Z ;
Tính
Wk+1= kW +Z ; (8)
Nếu điều kiện kết thúc chưa thỏa mãn thì gán W0 := W1 và trở lại bước 2 ;
Với mỗi vectơ N-chiều u, ta ký hiệu chuẩn
N
j
juu
1
*
, điều kiện kết thúc có thể chọn
một trong biểu thức sau.
a)
*
01
1
WW
q
q (9)
b)
q
qZ
q
Z
q
t
ln
)1ln(lnln
ln
)1(ln
**
, với t là số lần lặp.
(10)
Đặc tính hội tụ.
Với mỗi vectơ N-chiều u, ta ký hiệu chuẩn
*
u cho bởi công thức :
N
j
juu
1
*
(11)
Thì thuật toán trên luôn kết thúc sau hữu hạn bước và đánh giá sau đúng.
*
*1 WW (12)
Ký hiệu chuẩn
*
của ma trận tương ứng với chuẩn vectơ (11) là :
*
= ],[max qqqkNk q (13)
ta có đánh giá :
1 1
1 * 1 0
** *1 1
t tq qW W u u Z
q q
(14)
Proceduce Thuật toán 2 pha huấn luyện mạng RBF
for k=1 to N do
Xác định các k để qk q, và nếu thay k=k/ thì qk>q; // Pha 1
Tìm W* bằng phương pháp lặp đơn (hoặc phương pháp lặp Seidel); //Pha 2
End
Chương 1: Bài toán nội suy, xấp xỉ hàm số và mạng Neural RBF
16
Biểu thức (10) tương đương với vế phải của (14) nhỏ hơn hoặc bằng . Mặt khác ở
bước cuối của pha 2, nếu áp dụng (14) cho t=0 ; 1100 ; WuWu ; áp dụng (14) cho
t=0 thì ta có :
1 * 1 0
* *1
qW W w w
q
(15)
Thuật toán này có ưu điểm là cài đặt rất đơn giản và tốc độ hội tụ rất nhanh và ta có
thể điều chỉnh giá trị sai số nội suy nhỏ tùy ý. Song do kiến trúc mạng phức tạp nên
thường xảy ra hiện tượng phù hợp trội(over-fitting) cho tập dữ liệu huấn luyện. Để
hiểu chi tiết hơn về thuật toán HDH xem thêm [2,3].
1.4.4 Phương pháp huấn luyện ba pha đầy đủ
Phương pháp này sử dụng phương pháp tụt dốc Gradient để tìm kiếm cả ba tham số
dùng các công thức lặp dưới đây:
( ( )) ( ) ( )11
1 1
2w
Q J
k q q q
mj mj mj j j m
q jmj
Ew w z y
w M
( ) ( ) 22
1 1
2 Q J k q q q q mm m
n n j j mj m n n
q j
v v z w y x v
M
2
2 2 3
4
1 1 1
2
2
q q q
Q J M mj mk q q
m m j j
q j m m
w x v
w z
M
Chú ý ở đây ta dùng tập dữ liệu huấn luyện
1
, ; ,
Qk k k n k m
k
x y x R y R
trong đó
( )k q là dữ liệu huấn luyện thứ q. Để rõ hơn về phương pháp trên xem [5]. Nhìn chung
phương pháp này cho kết quả huấn luyện khá tốt, song nhược điểm là thời gian huấn
luyện dài nên không phù hợp với các bài toán có dữ liệu lớn.
1.5 KẾT QUẢ THỰC NGHIỆM
1.5.1 Kết quả
Dưới đây tôi xin giới thiệu kết quả thực nghiệm khi tiến hành cài đặt các phương pháp
khác nhau để huấn luyện mạng RBF. Bộ dữ liệu huấn luyện ở đây là dữ liệu được lấy
từ bài toán phân tích thành phần trong ống dầu. Phương pháp lấy dữ liệu như sau:
Chương 1: Bài toán nội suy, xấp xỉ hàm số và mạng Neural RBF
17
người ta dùng tia gamma chiếu vào ống dầu để thu được các đặc trưng khác nhau đồng
thời tại thời điểm đó người ta phân tích tỉ lệ dầu và nước có trong ống dầu. Do tỉ lệ
thành phần dầu và nước có liên quan đến các đặc trưng thu được khi chiếu tia gamma,
người ta mong muốn dự đoán được thành phần dầu và nước dựa vào các đặc trưng thu
được khi chiếu tia gamma vào ống dầu. Bộ dữ liệu bao gồm 900 bộ dữ liệu huấn luyện
và 100 bộ dữ liệu kiểm tra. Mỗi dữ liệu bao gồm 12 giá trị đầu vào (các đặc trưng thu
được khi chiếu tia gamma) và 2 giá trị đầu ra (tỉ lệ dầu và nước), tất cả đều được biểu
diễn bằng số thực. Dữ liệu được tải từ địa chỉ:
Tôi đã tiến hành xây dựng mạng Neural RBF với kiến trúc như sau: có 12 neuron đầu
vào, 2 neuron đầu ra, còn số lượng neuron tầng ẩn tùy vào thuật toán huấn luyện. Sau
đó tiến hành huấn luyện với 4 phương pháp huấn luyện khác nhau để so sánh hiệu
suất(thời gian huấn luyện, sai số của bộ dữ liệu huấn luyện, sai số của bộ dữ liệu kiểm
tra) của chúng. Các phương pháp dùng để huấn luyện đó là:
1) Phương pháp huấn luyện 2 pha HDH(xem 1.4.3)
2) Phương pháp huấn 3 pha đầy đủ(xem 1.4.4)
3) Phương pháp huấn luyện 1 pha, sử dụng phương pháp giả nghịch đảo để tìm
tham số wi.(xem 1.4.1)
4) Phương pháp huấn luyện 2 pha, sử dụng phương pháp giả nghịch đảo để tìm
tham số wi. (xem 1.4.2)
Chương trình được chạy trên máy cấu hình như sau: HĐH Windows XP Professinal,
CPU Intel Core 2 Duo E6300 1.86GHz, Ram 1G. Sau đây là bảng kết quả so sánh hiệu
suất các phương pháp huấn luyện:
Chương 1: Bài toán nội suy, xấp xỉ hàm số và mạng Neural RBF
18
Phương pháp huấn luyện
Sai số trên tập dữ liệu
kiểm tra(tổng bình
phương sai số)
Sai số trên tập dữ liệu
huấn luyện(tổng bình
phương sai số)
Thời gian huấn
luyện(giây)
Phương pháp huấn luyện 2 pha HDH
q=0.9, alpha=0.7, epsilon= 1e-5 3.095031 3.2938e-11 1.921000
q=0.9, alpha=0.75, epsilon= 1e-5 2.929305 2.8989e-11 1.859000
q=0.9, alpha=0.9, epsilon= 1e-5 2.275569 2.9517e-11 2.609000
q=0.99, alpha=0.7, epsilon= 1e-5 2.93460 3.7486e-11 1.703000
q=0.99, alpha=0.8, epsilon= 1e-5 2.47516 1.0336e-11 2.750000
q=0.99, alpha=0.9, epsilon= 1e-5 2.13895 1.2286e-11 1.984000
Phương pháp huấn luyện 3 pha đầy đủ
Số neuron tầng ẩn 20, loop = 1000 0.40966 0.18352 1312.266000
Số neuron tầng ẩn 50, loop = 500 0.38691 0.17951 4198.204000
Số neuron tầng ẩn 100, loop = 500 0.38206 0.24483 11961.4530
Phương pháp huấn luyện 1 pha + giả nghịch đảo
Số neuron tầng ẩn 180 0.2270 1.0226 1.968000
Số neuron tầng ẩn 280 0.14226 0.54680 2.437000
Số neuron tầng ẩn 350 0.091694 0.3864 2.828000
Phương pháp huấn luyện 2 pha + giả nghịch đảo
Số neuron tầng ẩn 180 0.2666 1.2269 2.093000
Số neuron tầng ẩn 280 0.17365 0.9048 2.593000
Số neuron tầng ẩn 350 0.20062 0.5255 3.046000
Bảng 1: Kết quả thực nghiệm hiệu suất các phương pháp huấn luyện mạng Neural RBF
Chương II: Nhận dạng chữ viết tay
19
1.5.2 Nhận xét
Dựa vào bảng số liệu trên ta thấy rằng:
+Thuật toán 1) có thời gian huấn luyện rất nhanh, cho kết quả sai số trên bộ dữ liệu
huấn luyện là rất tốt, nhưng nó có sai số trên bộ kiểm tra là khá cao, như vậy phương
pháp huấn luyện HDH là lựa chọn tốt để giải quyết bài toán nội suy, hoặc giải quyết
các bài toán mà dữ liệu đầu vào có mật độ tập trung dày đặc.
+Thuật toán 2) cho kết quả sai số trên cả bộ dữ liệu huấn luyện và bộ dữ liệu kiểm tra
là rất nhỏ, tuy nhiên nó có điểm rất hạn chế đó là thời gian huấn luyện mạng là rất lâu.
Nói chung phương pháp này không phải là một lựa chọn tốt để giải quyết các bài toán
có bộ dữ liệu huấn luyện lớn.
+Thuật toán 3), 4) cho kết quả sai số trên cả bộ dữ liệu huấn luyện và bộ dữ liệu kiểm
tra là rất nhỏ và thời gian huấn là rất nhanh. Tuy nhiên cả 2 thuật toán này có một
nhược điểm đó là sử dụng phương pháp giả nghịch đảo để tìm các tham số wi mà
phương pháp giả nghịch đảo lại sử dụng nhiều phép tính nhân, nghịch đảo ma trận đây
là các phép tính khó cài đặt và thường cho sai số tính toán cao. Ở đây tôi sử dụng thư
viện MATLAB để thực hiện các phép tính toán này.
Chương 2: Nhận dạng chữ viết tay
20
CHƯƠNG 2
NHẬN DẠNG CHỮ VIẾT TAY
Nội dung chương này gồm có:
2.1 Nhận dạng mẫu
2.2 Bài toán nhận dạng chữ viết tay
2.3 Các phương pháp trích chọn đặc trưng chữ viết tay
2.4 Kết quả thực nghiệm
2.1 NHẬN DẠNG MẪU
Nhận dạng chữ viết tay là một lĩnh vực con của nhận dạng dạng mẫu, do vậy trước khi
đi sâu vào trình bày chi tiết bài toán nhận dạng chữ viết tay, tôi xin trình bày sơ lược
về lĩnh vực nhận dạng mẫu và bài toán nhận dạng mẫu.
2.1.1 Nhận dạng mẫu
2.1.1.1 Mẫu là gì ?
Mẫu(pattern) có thể phân thành 2 loại : mẫu trừu tượng và mẫu cụ thể. Các ý tưởng,
lập luận và khái niệm... là những ví dụ về mẫu trừu tượng, nhận dạng các mẫu như vậy
thuộc về lĩnh vực nhận dạng khái niệm. Các mẫu cụ thể bao gồm các đối tượng có
tính không gian, thời gian và hình ảnh... Các đối tượng vật lý, chữ ký, chữ viết, ký
hiệu, ảnh, đoạn sóng âm thanh, điện não đồ hoặc điện tâm đồ, hàm số... là những ví dụ
về mẫu cụ thể.
2.1.1.2 Nhận dạng mẫu là gì ?
Không có một định nghĩa thống nhất cho nhận dạng mẫu (Pattern recognition) nhưng
điều này không gây tranh cãi gì trong giới nghiên cứu. Sau đây là một số định nghĩa
theo ngữ cảnh nghiên cứu :
- Duda Et Al: Nhận dạng mẫu là việc quy những đối tượng vật lí hay sự kiện vào một
loại (nhóm) nào đó đã xác định từ trước.
Chương 2: Nhận dạng chữ viết tay
21
- Jürgen Schürmann: Nhận dạng mẫu là việc gán nhãn w cho một quan sát x.
- Selim Aksoy: Nhận dạng mẫu là việc nghiên cứu cách làm cho một máy có thể thực
hiện:
+ Quan sát môi trường
+ Học cách phân biệt được các mẫu cần quan tâm
+ Đưa ra các quyết định đúng đắn về loại (nhóm) của các mẫu
2.1.1.3 Lịch sử của lĩnh vực nhận dạng mẫu
Nhận dạng mẫu đã có lịch sử khá lâu đời, trong thập kỷ 60 của thế kỷ 20 hầu hết vấn
đề nhận dạng mẫu dừng lại ở việc nghiên cứu lí thuyết thống kê. Về sau với sự phát
triển mạnh mẽ của máy tính thì phần thực nghiệm cũng trở nên đơn giản hơn. Khi mà
xã hội chúng ta đang phát triển từ thời kỳ công nghiệp sang hậu công nghiệp, đối với
vấn đề tự động hóa thì việc thông tin được nhận và xử lý một cách tự động là rất cần
thiết. Khuynh hướng này làm cho vấn đề nhận dạng mẫu trở nên rất quan trọng trong
ứng dụng kỹ thuật và trong nghiên cứu ngày nay. Nhận dạng mẫu tích hợp hầu hết vào
các hệ thống máy móc thông minh, có khả năng tự đưa ra quyết định để giải quyết vấn
đề.
2.1.1.4 Ứng dụng của nhận dạng mẫu
Nhận dạng mẫu có rất nhiều ứng dụng trong đời sống cũng như trong khoa học kỹ
thuật :
-Trong nông nghiệp : Nhận dạng mẫu được sử dụng để phân tích mùa màng, dự báo
các đại dịch như châu chấu, sâu bệnh, cúm gia cầm, cúm lợn... Ngoài ra nhận dạng
mẫu cũng còn được dùng để phân loại đất từ các ảnh được chụp từ vệ tinh.
-Khám phá tri thức trên Web : Ngày nay việc bùng nổ lượng thông tin khổng lồ trên
Internet làm cho việc tìm kiếm và lọc thông tin trên mạng là hết sức quan trọng. Nhận
dạng mẫu được nhúng vào các máy tìm kiếm để trả lại kết quả tìm kiếm thông minh và
chính xác. Ngoài ra nó cũng được trong các hệ thống lọc thư rác, nhận dạng tự động
các trang web đen.
-Trong lĩnh vực y học : Phân tích và biểu diễn gene, phân loại sinh học dựa trên thông
tin di truyền.
-Trong lĩnh kinh tế : Phân tích đánh giá sự thay đổi kinh tế, chỉ số chứng khoán...
Chương 2: Nhận dạng chữ viết tay
22
2.1.1.5 Các bài toán nhận dạng mẫu
Trên thực tế thường gặp các bài toán nhận dạng mẫu sau :
-Phân lớp (classify) : Dựa trên một tập con đã biết nhãn, đưa ra một cách phân các đối
tượng thuộc tập nền thành các lớp.
-Phân cụm (cluster) : Chia tập đối tượng thành nhóm sao cho các đối tượng trong mỗi
nhóm tương đối giống nhau còn các đối tượng khác nhóm thì khác nhau.
-Phân tích hồi quy (regression) hay nhận dạng hàm : Xác định một biến (hàm) qua tập
các biến khác.
-Nhận thực (Identify) : Xác định đối tượng trong tập đã cho có là đối tượng đang quan
tâm hay không. Chẳng hạn như nhận thực vân tay, nhận thực mặt người...
-Mô tả : Mô tả các đối tượng dưới hình thức dễ phân tích. Ví dụ đối tượng. mô tả điện
tâm đồ dưới dạng biểu đồ đặc trưng hoặc xâu mã.
2.1.1.6 Các bước xử lý trong hệ thống nhận dạng mẫu
Mặc dù có rất nhiều loại bài toán nhận dạng mẫu, tuy nhiên để giải quyết một bài toán
thì một hệ thống nhận dạng mẫu phải thực hiện qua các bước cơ bản dưới đây :
Hình 14: Các bước xử lý trong hệ thống nhận dạng mẫu
1)Thu nhận tín hiệu
Nếu là hệ nhận dạng đối tượng vật lý, ở đầu vào của hệ thống thường là một loại thiết
bị chuyển đổi như máy ghi hình hay ghi âm… Thiết bị này thu nhận tín hiệu về đối
tượng để nhận dạng. Các tín hiệu này thông thường sẽ được số hóa, sau đó sẽ được
tiến hành tiền xử lý như: lọc nhiễu, tách ngưỡng…
2) Phân đoạn (segmentation)
Phân đoạn là một trong những bài toán rất khó trong nhận dạng mẫu. Chẳng hạn,
trong bài toán nhận dạng văn bản in ra dữ liệu text thì giai đoạn phân đoạn chính là
Đầu vào
Thu tín hiệu, tiền xử lý
Phân đoạn Trích chọn đặc trưng
Nhận dạng
Hậu xử lý
Chương 2: Nhận dạng chữ viết tay
23
việc xác định đâu là vùng dữ liệu text để nhận dạng, tiếp đó ta phải tách được những
vùng có thể là một từ, rồi lại tách tiếp ra từng ký tự... Như vậy có thể nói việc phân
đoạn trong bài toán nhận dạng mẫu là quá trình xác định được đâu là vùng dữ liệu cần
quan tâm.
3) Trích chọn đặc trưng
Ranh giới khái niệm giữa việc trích chọn đặc trưng và phân lớp ở mức độ nào đó có
phần không rõ ràng: một bộ trích chọn đặc trưng lý tưởng phải làm cho công việc còn
lại của bộ phân lớp trở nên dễ dàng Mục tiêu chung của bộ trích chọn đặc trưng là dựa
trên tín hiệu thu được mô tả các đối tượng bằng các giá trị của chúng mà chúng có giá
trị gần xấp xỉ nhau đối với các đối tượng thuộc cùng loại và khác xa nhau nếu khác
loại. Hơn nữa để tiện xử lý thì càng ít đặc trưng càng tốt. Điều này dẫn đến việc phải
tìm ra các đặc trưng khác nhau và chúng không phụ thuộc hoàn cảnh ta thu tín hiệu về
đối tượng. Đầu ra của công đoạn này được gọi là vector đặc trưng của đối tượng,
thông thường đây là một vector số thực.
4) Nhận dạng
Nhiệm vụ của thành phần này trong hệ thống là sử dụng các vector đặc trưng được
cung cấp từ bước trước (trích chọn đặc trưng) để gắn các đối tượng vào các lớp hoặc
phân tích hồi quy hay mô tả đối tượng. Các kỹ thuật thường được sử dụng cho công
đoạn nhận dạng đó là: thuật toán k-láng giềng gấn nhất, mạng neural, máy vector hỗ
trợ SVM... Nói chung, ở bước này gần như đã có công thức xử lý cố định thường
không bị phụ thuộc vào bài nhận dạng mẫu cụ thể nào.
5) Hậu xử lý
Một bộ nhận dạng hiếm khi chỉ để dùng đơn lẻ. Thay vào đó nó thường dùng để đưa ra
thao tác tương ứng, mỗi thao tác mất một chi phí tương ứng. Hậu xử lý sẽ dùng đầu ra
của bộ phân lớp để quyết định thao tác tương ứng. Theo quan niệm, cách đơn giản
nhất để đánh giá hoạt động của một bộ nhận dạng là xem tỷ lệ nhận dạng sai với các
mẫu mới. Do đó chúng ta cần phải nhận dạng với tỷ lệ lỗi thấp nhất. Tuy nhiên chúng
ta cần các thao tác tương ứng phải làm cho tổng chi phí là thấp nhất. Có thể phải kết
hợp các tri thức đã biết về chi phí, và nó sẽ có ảnh hưởng đến việc ra các quyết định
hành động. Chúng ta cũng cần ước lượng trước chi phí để xem có thỏa mãn hay
không.
Chương 2: Nhận dạng chữ viết tay
24
2.2 BÀI TOÁN NHẬN DẠNG CHỮ VIẾT TAY
2.2.1 Tình hình chung về nhận dạng chữ viết tay
Bài toán nhận dạng chữ viết tay được ứng dụng rất nhiều trong thực thế : được tích
hợp vào hệ thống nhận dạng form tự động, tích hợp trong các máy PDA có màn hình
cảm ứng, nhận dạng chữ ký... Do có nhiều ứng dụng quan trọng như vậy nên từ lâu bài
toán nhận dạng chữ viết tay đã thu hút rất nhiều người nghiên cứu, tìm cách giải quyết.
Ngày nay bài toán nhận dạng chữ viết tay đã được giải quyết gần như trọn vẹn trên thế
giới cũng như ở Việt Nam. Hệ nhận dạng sử dụng mạng Neural nhân chập giới thiệu ở
[8] đã đạt độ chính xác đến 99.60% (trên bộ dữ liệu MNIST). Đây là độ chính xác gần
như tuyệt đối và nhanh chóng được áp dụng vào rất nhiều ứng dụng. Các sản phẩm
ứng dụng khác có ý nghĩa thực tế lớn có thể kể đến như sản phẩm FineReader của
hãng AABYY có thể nhận dạng 20 thứ tiếng khác nhau, sản phẩm OmniPage của hãng
ScanSoft nhận dạng chữ in tiếng Anh,…. và ở Việt Nam, chúng ta có sản phẩm
VNDOCR của Viện Công nghệ thông tin nhận dạng chữ in tiếng Việt với độ chính xác
tới 99%.
2.2.2 Giới thiệu bài toán nhận dạng chữ viết tay
Nhận dạng chữ viết tay được thực hiện qua hai hình thức đó là nhận dạng online và
nhận dạng offline. Nhận dạng online có nghĩa là máy tính sẽ nhận dạng các chữ được
viết lên màn hình ngay khi nó được viết. Đối với những hệ nhận dạng này, máy tính sẽ
lưu lại các thông tin về nét chữ như thứ tự nét viết, hướng và tốc độ của nét viết trong
khi nó đang được viết. Còn nhận dạng offline tức là việc nhận dạng được thực hiện sau
khi chữ đã được viết hay in lên giấy rồi, lúc đó thông tin đầu vào là hình ảnh văn bản
hoặc ký tự cần nhận dạng.
Trong khuôn khổ nội dung khóa luận này tôi chỉ xét hình thức nhận dạng offline cho
từng ký tự một.
2.2.3 Hướng giải quyết cho bài toán nhận dạng ký tự viết tay
Như đã nói ở trên bài toán nhận dạng chữ viết tay thuộc lớp bài toán nhận dạng mẫu,
như vậy để giải quyết bài toán nhận dạng chữ viết tay thì phải tuân theo các bước của
bài toán nhận dạng mẫu đã nêu ở phần 2.1.1.6. Tuy nhiên do ở đây ta chỉ xét việc nhận
Chương 2: Nhận dạng chữ viết tay
25
dạng từng ký tự viết tay một nên bước tiền xử lý và bước phân đoạn xem như không
cần thiết. Có thể khái quát quá trình nhận dạng chữ viết tay thông qua hình vẽ dưới
đây :
Hình 15 : Các bước giải quyết bài toán nhận dạng chữ viết tay
Đầu vào là bức ảnh của một ký tự cần nhận dạng, sau khi qua bộ trích chọn đặc trưng
chữ viết tay ta thu được vector đặc trưng của ký tự đó, vector đặc trưng được chuyển
đến bộ nhận dạng để thực hiện lượng giá và đưa ra kết quả nhận dạng. Trong bài toán
nhận dạng chữ viết tay có rất nhiều phương pháp trích chọn đặc trưng chữ viết, dưới
đây tôi sẽ trình bày chi tiết 3 phương pháp trích chọn đặc trưng chữ viết đó là : phương
pháp sử dụng bộ phân tích thành phần chính, phương pháp sử dụng momen Legendre,
phương pháp sử dụng mạng Neural nhân chập. Trong bài toán nhận dạng chữ viết tay
bộ nhận dạng thường sử dụng các công cụ sau : phương pháp k-láng giềng gần nhất,
mạng Neural truyền thẳng MLP, máy vector hỗ trợ SVM, mạng Neural RBF... Trong
khuôn khổ của khóa luận này tôi chỉ xét bộ nhận dạng là mạng Neural RBF.
2.3 CÁC PHƯƠNG PHÁP TRÍCH CHỌN ĐẶC TRƯNG CHỮ VIẾT TAY
Trích chọn đặc trưng đóng vai trò hết sức quan trọng để giải quyết bài toán nhận dạng
chữ viết tay. Thực chất quá trình trích chọn đặc trưng của chữ viết tay tức là ta đi tìm
các đại lượng để biểu diễn cho các ký tự viết tay, mà các đại lượng này ít bị thay đổi
khi ký tự có sự biến đổi về hình dạng. Một phương pháp trích đặc trưng chữ viết tốt
cho ra được các đặc trưng ít bị biến đổi khi ký tự bị biến dạng nhiều. Dưới đây xin
dưới thiệu 3 phương pháp trích chọn đặc trưng hay được sử dụng cho bài toán nhận
dạng chữ viết tay đó là :
2.2.1 Phương pháp trích chọn đặc trưng kết hợp biến đổi DCT và thuật toán
phân tích thành phần chính PCA
Khái niệm giá trị riêng và vector riêng (xem chi tiết ở [22])được các nhà toán học tìm
ra vào cuối thể kỷ 19 đầu thế kỷ 20. Có hàng loạt tính chất quan trọng liên quan đến
giá trị riêng và vector riêng, các tính chất này được ứng dụng rất nhiều trong các lĩnh
Dữ liệu đầu
vào (dạng
ảnh)
Trích chọn
đặc trưng
chữ viết
Nhận dạng
Đưa ra kết
quả nhận
dạng
Chương 2: Nhận dạng chữ viết tay
26
vực kỹ thuật. Dưới đây là một trong các tính chất đó: cho tập dữ liệu X, A là ma trận
hiệp phương sai của tập dữ liệu X (A là ma trận vuông). Khi đó tập vector riêng của A
là tập các vector trực giao, và khi chiếu tập dữ liệu X lên tập các vector riêng này, thì
dữ liệu sẽ dao đông nhiều quanh các vector riêng tương ứng với giá trị riêng lớn, dữ
liệu ít dao động xung quanh các vector riêng tương ứng với các giá trị riêng nhỏ.
Hình 16: Ảnh hưởng của vector riêng, giá trị riêng lên tập dữ liệu
Thuật toán phân tích thành phần chính (PCA) là hệ quả trực tiếp của tính chất đã nêu
trên. Trong kỹ thuật thuật toán PCA là một thuật toán phổ biến được sử dụng để giảm
số chiều của dữ liệu nhưng vẫn giữ được nhiều thông tin khi phân biệt với các dữ liệu
khác. Thuật toán PCA được đề xuất đầu tiên bởi H. Hotelling (ban đầu được biết với
tên là biến đổi Hotelling-Hotelling’s transform). Dưới đây là nội dung thuật toán PCA,
sau đó xin giới thiệu phương pháp trích chọn đặc trưng bằng cách sử dụng biến đổi
cosin rời rạc (DCT) kết hợp với thuật toán PCA để thu gọn số chiều của dữ liệu.
2.2.1.1 Thuật toán PCA
Giả sử ta có tập dữ liệu 1{ }
D N
i iX x R trong đó các xi được sắp xếp thành các hàng
để được ma trận X có kích thước N D . Ta mong muốn làm giảm số chiều dữ liệu tập
X có D chiều thành tập dữ liệu Y có L chiều, L < D. Có thể tóm tắt thuật toán PCA như
sau(xem chi tiết thuật toán ở [10,19], các khái niệm cơ sở xem thêm ở [10]) :
+Bước 1: Tính giá trị trung bình trên từng chiều dữ liệu
Sau tính giá trị trung bình trên từng chiều dữ liệu 1...D của tập dữ liệu X ta được vector
giá trị trung bình u có kích thước 1D trong đó
1
1[ ] [ , ]
N
n
u d X d n
N
Chương 2: Nhận dạng chữ viết tay
27
+Bước 2: Thực hiện giảm giá trị của dữ liệu trên từng chiều với giá trị trung bình u[d]
tương ứng:
Ta lưu giá trị tính được vào ma trận B
B = X – dh trong đó h là ma trận có kích thước 1 x N; [1, ] 1; 1...h n n N
+Bước 3: Tính ma trân hiệp phương sai của ma trận B
1· ·D D T TN
C B B B B B BE E
+Bước 4: Tìm giá trị riêng và vector riêng của ma trận hiệp phương sai C
Đầu tiên ta tính tập giá trị riêng ; 1..d d D của ma trận C bằng cách giải phương trình
det( ) 0C I sau đó ta tìm tập vector riêng 1{ }
D
d dV v cách giải phương trình
1V CV D trong đó MxM
;
D i, j
0;
i i j
i j
+Bước 5 : Sắp xếp tập giá trị riêng d và tập vector riêng tương ứng theo chiều giảm
dần của giá trị riêng
+Bước 6 : Chọn lấy L vector đầu tiên từ tập vector riêng sau khi đã sắp xếp.
[ , ] [ , ]; 1, , ; 1, ,W p q V p q p D q L
+Bước 7 : Tính giá trị của Y
* TY X W
Hình 17 : Các bước thực hiện của thuật toán PCA
Nhìn chung việc tính giá trị riêng và vector riêng là một bài toán khó trong toán học.
Trong phần thực nghiệm của mình, tôi sử dụng thư viện MATLAB để thực hiện tìm
giá trị riêng và vector riêng của ma trận.
2.2.1.2 Phương pháp trích chọn đặc trưng kết phép biến đổi DCT và thuật toán
PCA
Ở đây ta xem dữ liệu đầu vào là ma trận điểm ảnh, hình vẽ dưới đây mô tả các bước
của thuật toán:
Hình 18: Các bước trích chọn đặc trưng bằng biến DCT kết hợp PCA
Dữ liệu đầu
vào (ma
trận điểm
ảnh NxM)
Biến
đổi
DCT
Lấy dữ
liệu theo
đường
zigzag
PCA
Output
(vector
đặc
trưng)
Chương 2: Nhận dạng chữ viết tay
28
Từ ảnh dữ liệu ban đầu kích thước MxN dùng phép biến đổi Cosin rời rạc (DCT xem
[20]) ta được ma trận MxN các hệ số thực. Sau đó ta lấy dữ liệu theo đường zigzag
như hình vẽ bên dưới ta được vector với MxN đặc trưng. Tiếp đó ta dùng thuật toán
PCA để thu gọn số chiều của vector đặc trưng, khi đó kết quả đầu ra sau bước này xem
như là vector đặc trưng của bước ảnh đầu vào.
Hình 19: Biến đổi DCT và cách lấy dữ liệu theo đường zigzag
Ta thấy rằng bức ảnh gốc qua phép biến đổi DCT thì ta không bị mất thông tin vì ta có
thể sử dụng phép biến đổi DCT nghịch đảo để thu được hình ảnh gốc. Ở ma trận hệ số
của phép biến đổi DCT, các điểm ở gần gốc (1,1) thể hiện mức sáng nền của bức ảnh
gốc, còn các điểm điểm càng xa điểm gốc thể hiện mức độ chi tiết của bước ảnh( trong
thuật toán nén ảnh JPEG sau khi biến đổi DCT người ta thường lược bỏ các hệ số xa
điểm gốc, mà mắt người vẫn không nhận thấy sự thay đổi), như vậy sau khi lấy dữ liệu
cho vector đặc trưng theo đường zigzag thì các điểm gần nhau trên đường zigzag(cũng
như trong vector đặc trưng) luôn có quan hệ về mặt giá trị cũng như ảnh hưởng đối với
ảnh gốc. Điều này giúp cho vector đặc trưng mạng nhiều thông tin cho việc nhận dạng.
Cuối cùng vector đặc trưng được xử lý qua thuật toán PCA để thu gọn số chiều dữ liệu
giúp cho việc nhận dạng được hiệu quả hơn.
2.2.2 Phương pháp trích đặc trưng sử dụng Momen Legendre
Trước khi đi sau vào chi tiết thuật toán xin giới thiệu các khái niệm cơ sở:
2.2.2.1 Momen và Momen Legendre
1) Khái niệm Momen (toán học)
Trong toán học khái niệm momen xuất phát từ khái niệm momen trong vật lý, giá trị
momen bậc n của hàm số thực f(x) tại c được định nghĩa như sau:
Chương 2: Nhận dạng chữ viết tay
29
( ) ( )nn x c f x dx
(1)
Trong trường hợp f là hàm hai biến số thì momen bậc (n+m) của hàm số f(x,y) tại
điểm (c1, c2) được định nghĩa như sau:
1 2( ) ( ) ( , )
n m
n m x c y c f x y dxdy
(2)
2) Khái niệm Momen trong xử lý ảnh:
Momen ảnh (image moments) là trọng số trung bình cụ thể nào đó của độ sáng các
điểm ảnh, nếu ảnh là ảnh liên tục thì định nghĩa momen ảnh giống công thức (2), nếu
ảnh đã rời rạc hóa thì momen bậc (m+n) tại điểm (c1,c2) của ảnh được định nghĩa như
sau:
1 2
1 1
( ) ( ) ( , )
M N
m n
m n
x y
x c y c I x y
(3)
Trong đó M N là kích thước của ảnh, I(x,y) là độ sáng của ảnh tại điểm (x,y). Giá trị
momen ảnh được có thể dùng để mô tả các đối tượng ảnh sau khi đã được phân đoạn.
Một số thuộc tính cơ bản của đối tượng ảnh có thể được phát hiện thông qua momen
ảnh: diện tích, tâm, hướng của vật thể...
Các momen bất biến (invarians moments) trong phép biến đổi ảnh được nghiên cứu
vào thập niên 60 của thế kỷ 20. Momen bất biến là những giá trị momen không thay
đổi trong các phép biến đổi ảnh như dời hình, xoay, đồng dạng... Trong giai đoạn
nghiên cứu này rất nhiều loại momen được giới thiệu: Momen Legendre, momen
Zernike... Kèm theo đó là rất nhiều thuật toán nhanh và hiệu quả để tính giá trị các
momen này.
3) Định nghĩa momen Legendre:
Momen Legendre bậc (m+n) của ảnh liên tục f(x,y) được định nghĩa như sau:
1 1
1 1
(2 1)(2 1)
( ) ( ) ( , )
4mn m n
m n P x P y f x y dx dy
Trong đó , 0,1,2,...,m n , Pm, Pn là đa thức Legendre. Họ đa thức Legendre là tập
các đa thức trực giao trên đoạn [-1,1]. Để tồn tại momen Legendre được xác định thì
hàm f(x,y) phải xác định trên đoạn [-1,1]. Đa thức Legendre bậc n được định nghĩa
như:
Chương 2: Nhận dạng chữ viết tay
30
0
( )
n
j
n nj
j
P x a x
trong đó
( )/2 1 ( )!( 1) ( ) 0 mod 2( ) ( )2 ( )!( )! !
2 2
0 ( ) 1 mod 2
n j
n
nj
n j n jn j n j ja
n j
M
M
-1
-0.5
0
0.5
1
1.5
2
-1 -0.5 0 0.5 1
n=0
n = 1
n = 2
n = 3
n = 4
n = 5
Hình 20: Họ đa thức Legendre
Ta có thể xây dựng lại ảnh f(x,y) từ momen Legendre bằng công thức sau:
0 0
( , ) ( ) ( )
k
kl k l
k l
f x y p x p y
Với ảnh đã được rời rạc hóa Pxy ta có công thức sau để tính momen Legendre:
(2 1)(2 1) ( ) ( )
4
mn m n xy
x y
m n P x P y P .
Người ta đã chứng minh được rằng giá trị momen Legendre là đại lượng bất biến trong
các phép dời hình, và đồng dạng (xem [7,15]). Vì thế momen Legendre thường được
sử dụng để nhận dạng các đối tượng hình học khi nó bị biến đổi bằng phép dời hình
hay phép đồng dạng. Tuy nhiên nhược điểm của momen Legendre đó là nó không phải
là momen bất biến trong phép xoay hình vì vậy tầm ứng dụng của nó vẫn còn hạn chế.
Dưới đây xin giới thiệu phương pháp trích chọn đặc trưng chữ viết bằng cách sử dụng
momen Legendre.
2.2.2.2 Phương pháp trích chọn đặc trưng chữ viết tay bằng Momen Legendre
Chương 2: Nhận dạng chữ viết tay
31
Tư tưởng chính của phương pháp như sau: Giả sử ta có ảnh đầu vào X, ta đặt
MAX_ORDER là một giá trị cho trước nào đấy, sau đó ta tính tất cả các giá trị Momen
Legendre bậc(m+n) sao cho m < n < MAX_ORDER. Các giá trị Momen này được lưu
và ma trận L: (2 1)([ , 2 1) ( ) ( )
4
] mn m n xy
x y
m nL m n P x P y X . Ta gọi ma trận L
là ma trận momen Legendre. Sau khi tính xong ma trận L ta viết các giá trị của ma trận
L thành một hàng và xem đó như là giá trị đặc trưng của ảnh đầu vào X. Do tính chất
của Momen Legendre đó là bất biến với các phép biến đổi ảnh: dời hình và xoay hình
nên nếu dữ liệu kiểm tra đồng dạng hay bị dời hình so với dữ liệu huấn luyện thì sẽ
cho kết quả nhận dạng rất tốt. Sau đây là từng bước cụ thể của phương pháp trích chọn
đặc trưng chữ viết tay bằng Momen Legendre:
Bước 1: Chuyển đổi tọa độ:
Chú ý rằng momen Legendre chỉ được xác định trên đoạn [-1,1] nên để áp dụng được với
một bức ảnh kích thước M N bất kỳ thì ta phải thực hiện bước đổi tọa độ như sau: ta
gọi i,j là tọa độ trên ảnh gốc 0 ,0i N j M , x,y là tọa độ sau khi đổi
1 1, 1 1x y , ,
2 2c c
N Mi j
và max ,c cD i i j j khi đó công thức
chuyển đổi tọa độ là ( , ) ,c ci i j jx y
D D
.
Bước 2: Tính toán giá trị của ma trân Momen Legendre:
Dưới đây là thủ tục viết bằng giả mã để tính giá trị của ma trận Momen Legendre
For k:=0 to MAX_ORDER do
For l:=0 to k do
( , ) : 0k l l
For i:= 0 to N do
For j:=0 to M do
: ci ix
D
: cj jy
D
( , ) : ( , ) ( )* ( )* ( , )k l lk l l k l l P x P y f x y
End
End
( , )*(2 2 1)*(2 1)( , ) :
( 1) *( 1)
k l l k l lk l l
N M
End
Chương 2: Nhận dạng chữ viết tay
32
Chú ý để tính nhanh được Pn(x) ta có thể sử dụng công thức truy hồi sau (xem [7,15]):
0 1 1 2( ) 1; ( ) ; ( ) 2 1 ( ) ( 1) ( ) /n n nP x P x x P x n xP x n P x n .
Bước 3: Chuyển ma trận Legendre thành vector đặc trưng
Thực chất ở bước này ta thực hiện viết giá trị các điểm trong ma trận Legendre thành một
hàng (hay vector) và ta xem đó là vector đặc trưng của ảnh đầu vào.
Hình 21: Các bước thực hiện của phương pháp trích chọn đặc trưng sử dung momen Legendre
2.2.3 Phương pháp sử dụng mạng Neural nhân chập (Convolution neural
network)
Phương pháp trích chọn đặc trưng sử dụng mạng neural nhân chập (chi tiết xem [8,
16]) được đề xuất đầu tiên bới LeCun và Bengio vào năm 1995. Đây là phương pháp
trích chọn đặc trưng cho độ chính xác nhận dạng cao nhất hiện nay (đạt độ chính xác
đến 99.6% với bộ dữ liệu MNIST). Trước khi đi sâu vào chi tiết thuật toán xin giới
thiệu khái niệm cơ sở đó là: thao tác nhân chập trong xử lý ảnh (convolution
operator).
2.2.3.1 Khái niệm cơ sở
1) Thao tác nhân chập
Nhân chập là một khái niệm quen thuộc trong xử lý số tín hiệu (xem [23]), trong lĩnh
vực xử lý ảnh thao tác nhân chập được dùng để biến đổi ảnh thành một dạng mong
muốn nào đấy: như làm nổi cạnh (detect edge), là mượt ảnh (smoothing), làm sắc
nét(sharpening)... Trong thao tác nhân chập người ta sử dụng mặt nạ nhân chập
(convolution mask)- là ma trận vuông 2 chiều có kích thước là số lẻ(thông thường là
3x3 và 5x5) và tác động nhân chập vào tất cả các điểm của ảnh gốc. Thao tác nhân
chập lên một điểm của ảnh gốc được thực hiện như sau:
Chương 2: Nhận dạng chữ viết tay
33
+Bước 1: Đầu tiên tâm của mặt nạ nhân
chập được đặt trùng vào điểm cần tính
nhân chập.
+Bước 2: Thực hiện nhân từng giá trị
của mặt nạ nhân chập với giá trị độ sáng
của điểm ảnh tương ứng
+Bước 3: Cộng tổng của từng giá trị đã
tính ở bước 2 kết quả lưu vào vị trí nhân
chập của ảnh gốc.
Hình 22: Thao tác nhân chập
(nguồn
2.2.3.2 Phương pháp trích đặc trưng sử dụng mạng Neural nhân chập
Tư tưởng chính của phương pháp này là biến một bức ảnh từ độ phân giải cao về ảnh
có độ phân giải thấp hơn nhưng lại mang nhiều thông tin hơn cho quá trình nhận dạng
hơn (bằng phép nhân chập và thu nhỏ ảnh). Phương pháp này đạt hiệu quả cao cho
việc trích đặc trưng chữ viết tay là bởi vì nhờ thao tác nhân chập nó làm nổi bật lên
được các đường nét, hình dạng, các giao điểm... của ký tự viết tay. Hơn nữa các đặc
trưng của nó ít bị thay đổi bởi các phép dịch ảnh và phép biến dạng bóp méo ảnh
(distortion).
1) Kiến trúc mạng
Ta giả thiết ảnh đầu vào có kích thước 29x29, dưới đây là kiến trúc mạng để lấy đặc
trưng:
+Bước 1: Đầu tiên ta sử dụng 5 mặt nạ nhân chập khác nhau kích thước 5x5 thực hiện
thao tác nhân chập lên ảnh gốc, sau khi nhân chập ta thực hiện phép thu nhỏ ảnh đi 2
lần. Vì quá trình nhân chập không tác động lên những điểm biên nên sau một phép
nhân chập và thu nhỏ thì kích thước mới của ảnh sẽ là (n-3)/2 (n là kích thước ảnh ban
đầu).
+Bước 2: Với mỗi ảnh ở lớp thứ 2 ta dùng 10 mặt nạ nhân chập khác nhau kích thước
5x5 thực hiện nhân chập và thu nhỏ ảnh đi 2 lần, ta được 50 ảnh ở lớp thứ 3.
Chương 2: Nhận dạng chữ viết tay
34
+Bước 3: với mỗi ảnh ở lớp thứ 3 ta lại dùng 2 mặt nạ nhân chập khác nhau kích thước
5x5 thực hiện nhân chập ta thu được 100 ảnh kích thước 1x1. Ta xem đây chính là 100
đặc trưng của ảnh gốc ban đầu.
Hình 23: Quá trình trích chọn đặc trưng sử dụng mạng Neural nhân chập
Hình 24: Minh họa quá trình lấy đặc trưng bằng mạng Neuron nhân chập
2) Huấn luyện mạng
Quá trình huấn luyện mạng Neural nhân chập là quá trình xác định các hệ số của các
mặt nạ nhân chập. Để làm được điều này người ta xem kiến trúc ở hình 23 như là một
mạng Neural tuyến tính truyền thẳng nhiều tầng sau đó thêm bộ phân lớp tuyến tính
vào sau, rồi người ta huấn luyện mạng bằng phương pháp lan truyền ngược (chi tiết
xem thêm [8,16]).
2.4 THỰC NGHIỆM
Input Lớp 2
Lớp 3
Đặc trưng
Input 29x29 5x13x13 50x5x5 100x1x1
Convolution+
Subsampling
Convolution+
Subsampling
Convolution
Chương 2: Nhận dạng chữ viết tay
35
2.4.1 Kết quả
Dưới đây xin giới thiệu giới thiệu kết quả thực nghiệm so sánh hiệu suất của các
phương pháp trích chọn đặc trưng chữ viết đã nêu ở trên. Ở tôi đây sử dụng bộ dữ liệu
MNIST để thực hiện huấn luyện và kiểm tra. Bộ dữ liệu gồm 60000 dữ liệu huấn
luyện, và 10000 dữ liệu kiểm tra, một dữ liệu là một bức ảnh kích thước 28x28 của
một ký tự chữ số Arap. Tôi sử dụng bộ phân lớp là mạng Neural RBF với các phương
pháp huấn luyện là: phương pháp huấn luyện 2-pha HDH, 1-pha+giả nghịch đảo, 2-
pha + giả nghịch đảo.
Cấu hình máy tiến hành thực nghiệm: HĐH Windows XP Professional, CPU Intel
Core 2 Duo E6300 1.86GHz, RAM 2G.
Dưới đây là bảng kết quả thực nghiệm:
Bảng 2: Kết quả so sánh hiệu suất của các phương pháp trích chọn đặc trưng
2.4.2 Nhận xét
Từ bảng số liệu trên ta thấy ta thấy ưu điểm vượt trội của phương pháp trích đặc trưng
sử dụng mạng Neural nhân chập(Convolution), ta thấy ở cả 3 phương pháp huấn luyện
mạng đều cho kết quả nhận dạng chính xác trên 99.1%. Phương pháp huấn luyện mạng
HDH có thời gian huấn luyện mạng nhanh hơn nhưng có độ chính xác nhận dạng kém
hơn phương pháp huấn luyện mạng 2 pha + giả nghịch đảo. Chú ý thời gian huấn
luyện ở đây không tính thời gian trích chọn giá trị đặc trưng.
Phương pháp trích
chọn đặc trưng
Phương pháp huấn
luyện mạng
Thời gian
huấn luyện
mạng(phút)
Số lần nhận
dạng sai trên
bộ dữ liệu
kiểm tra
Độ chính
xác(%)
DCT+PCA 2 pha HDH 15.59 834 91.66%
Legendre 2 pha HDH 8.94 818 91.82%
Convolution 2 pha HDH 10.73 82 99.18%
DCT+PCA 1 pha+giả nghịch đảo 15.56 1633 83.67%
Legendre 1 pha+giả nghịch đảo 12.45 1713 82.87%
Convolution 1 pha+giả nghịch đảo 11.34 96 99.14%
DCT+PCA 2 pha+giả nghịch đảo 25.00 354 96.46%
Legendre 2 pha+giả nghịch đảo 15.51 500 95%
Convolution 2 pha+giả nghịch đảo 17.70 72 99.28%
Chương 3: Các phương pháp cải thiện hiệu suất của mạng Neural RBF
36
CHƯƠNG 3
CÁC PHƯƠNG PHÁP CẢI THIỆN HIỆU SUẤT CỦA
MẠNG NEURAL RBF
Nội dung chương này gồm có:
3.1 Các phương pháp cải thiệu hiệu suất của mạng Neural RBF
3.2 Thực nghiệm
3.1 CÁC PHƯƠNG PHÁP CẢI THIỆU HIỆU SUẤT CỦA MẠNG NEURAL
RBF
Dưới đây là nội dung một số phương pháp nhằm cải thiện hiệu suất của mạng Neural
RBF trong vấn đề nhận dạng chữ viết tay. Cải thiện hiệu suất ở đây có nghĩa là làm
sao để tăng được chất lượng nhận dạng cũng như làm giảm được thời gian huấn luyện
mạng và chi phí cài đặt mạng.
3.1.1 Tăng tập dữ liệu huấn luyện
Ta thấy rằng trong bài toán phân lớp dữ liệu huấn luyện đóng vai trò rất quan trọng,
nó ảnh hưởng trực tiếp đến chất lượng phân lớp, tập dữ liệu huấn luyện càng lớn thì
chất lượng phân lớp càng cao. Tuy nhiên để tạo ra một tập dữ liệu tốt thì mất rất nhiều
chi phí do đa phần việc tạo tập dữ liệu huấn luyện là phải làm thủ công. Vì vậy nếu có
một cách nào đó làm tăng số lượng dữ liệu cho tập dữ liệu huấn luyện thì sẽ làm cho
kết quả nhận dạng sẽ tốt hơn và chi phí cũng giảm đáng kể. Việc tăng số lượng tập dữ
liệu phải đảm bảo được chất lượng và tính tự nhiên vốn có của nó, cũng như việc trích
chọn đặc trưng thì việc tăng số lượng tập dữ liệu huấn luyện không có cách tổng quát
đủ tốt, phải tùy vào bài toán cụ thể. Dưới đây tôi giới thiệu phương pháp tăng tập dữ
liệu huấn luyện cho bài toán nhận dạng chữ viết tay bằng các biến phép biến đổi hình
học.
3.1.1.1 Tăng tập dữ liệu bằng các phép biến đổi hình học
Chương 3: Các phương pháp cải thiện hiệu suất của mạng Neural RBF
37
a) Biến đổi Elastic
Phép biến đổi ảnh này thực ra người ta dùng một ma trận mặt nạ dạng vector với ý
nghĩa là điểm nào trên ảnh gốc trùng với điểm gốc của một vector nào đấy thì sẽ bị
dịch chuyển đến điểm ngọn của vector tương ứng.
Hình 21: Ma trận vector cho phép biến đổi
Elastic
Hình 22: Ví dụ về phép biến đổi
Elastic
Hình 22 là ví dụ về phép biến đổi elastic, ta thấy rằng từ ảnh gốc bên trái sau 2 phép
biến đổi elastic ta được thêm 2 ảnh khác cho dữ liệu đầu vào, bằng trực quan ta thấy
rằng dữ liệu này rất đảm bảo chất lượng. Ngoài phép biến đổi Elastic người ta còn
dùng kết hợp các phép biến đổi affine như: dịch ảnh, xoay ảnh, hay phóng to thu
nhỏ… để cho được dữ liệu mới. Tuy nhiên phép biến đổi Elastic vẫn thông dụng hơn
trong bài toán nhận dạng chữ viết tay do dữ liệu nó sinh ra đảm bảo chất lượng hơn và
việc cài đặt thuật toán cũng như thời gian chạy của nó là rất nhanh.
3.1.2 Phương pháp học tập hợp
Học tập hợp là các phương pháp học mà hàm mục tiêu được học bằng cách huấn luyện
một số bộ học độc lập sau đó kết hợp chúng lại với nhau. Có thể mô hình toán học
bằng công thức sau: 1 2( , ,..., )nh F h h h trong đó h có thể coi là phương pháp học tập
hợp, 1 2, ,..., nh h h là các bộ học độc lập, F là một cách kết hợp nào đấy.
Như vậy với phương pháp học tập hợp chúng ta phải giải quyết 2 vấn đề:
+Thứ nhất: làm sao để tạo ra được các bộ học độc lập, độc lập ở đây có nghĩa là các
bộ học phải có các phương pháp huấn luyện khác nhau, hay phải có các bộ dữ liệu
huấn luyện khác nhau.
+Thứ hai: làm sao để kết hợp hiệu quả các bộ học này.
Chương 3: Các phương pháp cải thiện hiệu suất của mạng Neural RBF
38
Vấn đề thứ hai thường được giải quyết bằng cách kết hợp tuyến tính các bộ học lại với
nhau tức là:
1
n
i i
i
h w h
trong đó các trọng số wi được nhận giá trị lớn nếu bộ hi được
đánh giá là tin cậy hơn các bộ học khác, ngược lại với các bộ học hi không đáng tin
cậy thì ta cho trọng số wi tương ứng có giá trị nhỏ.
Để giải quyết vấn đề thứ nhất có nhiều phương pháp để tiếp cận, xin giới thiệu 2
phương pháp thường được hay dùng đó là phương pháp: bagging và boosting.
+Bagging(Bootstrap aggregating)
Có thể tóm tắt phương pháp như sau: Giả sử ta có một bộ dữ liệu huấn luyện D gồm có
n dữ liệu, phương pháp bagging sinh M bộ dữ liệu huấn luyện iD D có số lượng
'n n , các bộ học hi được huấn luyện bằng bộ dữ liệu Di tương ứng. Sau đó các bộ
học được kết hợp bằng cách sau:
1
M
i i
i
h w h
với
1 ; 1..iw i MM
+Boosting
Tư tưởng chính của thuật toán như sau: Giả sử ta có bộ dữ liệu huấn luyện D, ta đánh
trọng số cho các dữ liệu trong tập dữ liệu huấn luyện, đầu tiên các trọng số được gán
bằng nhau. Tại mỗi bước thứ t của thuật toán, ta chọn bộ dữ liệu tD D sao cho các
dữ liệu trong bộ dữ liệu Dt là những dữ liệu được đánh trọng số cao nhất, sau đó ta
huấn luyện bộ học ht bằng bộ dữ liệu Dt. Sau khi huấn luyện xong ta dùng bộ học ht để
thẩm định lại tập dữ liệu D những dữ liệu nào bị phân lớp sai thì ta tăng trọng số của
nó lên 1, những dữ liệu phân lớp đúng ta giảm trọng số của nó đi 1. Lặp lại T lần như
thế ta được T bộ học độc lập, ta có thể gán trọng số các bộ học này theo số lượng mà
nó phân lớp đúng.
3.1.2.1 Phương pháp học tập hợp cải tiến
Phương pháp này lấy tư tưởng chính của phương pháp học tập hợp như đã nêu ở trên,
chỉ khác là kết quả của đầu ra cuối cùng không phải là tổ hợp tuyến tính của các bộ
học mà đầu ra của các bộ học lại được huấn luyện một lần nữa cho kết quả cao hơn
(nghĩa là ta tổ hợp phi tuyến tính các bộ học với nhau, thông qua mạng Neural RBF).
Dưới đây là kiến trúc tổng thể của phương pháp học tập hợp cải tiến để giải quyết cho
bài nhận dạng chữ số viết tay:
Chương 3: Các phương pháp cải thiện hiệu suất của mạng Neural RBF
39
Hình 23: Kiến trúc của phương pháp học tập hợp cải tiến
Ở đây tôi sử dụng các phương pháp trích chọn đặc trưng đơn giản có tốc độ tính toán
nhanh (PCA, LEGENDRE, SUBSAMPLING-thu nhỏ ảnh) để tạo ra các bộ học khác
nhau. Sau khi huấn luyện chúng qua mạng neural RBF tôi lại tổng hợp các đầu ra của
các mạng Neural này và huấn luyện chúng lại một lần nữa bằng mạng Neural RBF.
Phương pháp này tận dụng tối đa ưu điểm của mạng Neural RBF đó là thời gian huấn
luyện mạng rất nhanh, trong khi để có một mạng có chất lượng tốt phương pháp mạng
Neural nhân chập phải mất nhiều giờ thậm chí là nhiều ngày huấn luyện mạng để trích
chọn giá trị đặc trưng thì với phương pháp này chỉ mất hơn một 1h để huấn luyện
mạng và trích đặc trưng cho bộ dữ liệu MNIST.
3.1.3 Phương pháp tăng tốc độ nhận dạng
Ở 2 phương pháp nêu trên tôi chỉ mới đề cấp đến vấn đề làm tăng độ chính xác nhận
dạng cũng như làm làm giảm thời gian huấn luyện mà chưa đề cập đến vấn đề làm
giảm thời gian nhận dạng của mạng. Đây là vấn đề then chốt trong các ứng dụng, vì
thực ra quá trình huấn luyện thông thường được chạy ít hơn nhiều lần so với quá trình
thực hiện nhận dạng (quá trình đưa dữ liệu đầu vào để cho mạng tính toán). Thời gian
nhận dạng = thời gian trích chọn đặc trưng + thời gian tính toán trong mạng, như
vậy việc tăng hiệu suất nhận dạng thông qua việc tinh chỉnh quá trình trích chọn đặc
trưng sẽ làm cho thời gian trích chọn đặc trưng tăng lên đồng nghĩa với thời gian nhận
dạng cũng tăng. Nói tóm lại là việc làm tăng hiệu suất nhận dạng và tăng tốc độ huấn
luyện mạng thì sẽ dẫn đến việc làm tăng thời gian nhận dạng. Dưới đây tôi xin giới
thiệu một phương pháp khá hay để vừa nâng cao tốc độ nhận dạng nhưng lại không
giảm độ chính xác nhận đó là phương pháp Bộ phân nhận dạng ba lớp (chi tiết ở [13]).
IN
P
U
T
SUB
SAM
PLIN
G
DCT+
PCA
LEGE
NDRE
RBF
RBF
RBF
RBF
O
U
TP
U
T
Chương 3: Các phương pháp cải thiện hiệu suất của mạng Neural RBF
40
3.1.3.1 Phương pháp bộ nhận dạng ba lớp
Có thể tóm tắt phương pháp này như sau: người ta tạo ra ba bộ phân lớp có đặc điểm
như sau:
+Bộ phân lớp thứ nhất sử dụng phương pháp trích chọn đặc trưng đơn giản lấy ít đặc
trưng và sử dụng mạng Neural có kiến trúc rất đơn giản để thực hiện nhận dạng tất
nhiên là bộ phân lớp này sẽ có tốc độ nhận dạng rất nhanh nhưng lại có hiệu suất nhận
dạng kém.
+Bộ phân lớp thứ 2 ta sẽ lấy nhiều đặc trưng hơn bộ phân lớp trên đồng thời kiến trúc
của mạng Neural nhận dạng cũng phức tạp hơn bộ phân lớp thứ nhất như vậy bộ phân
lớp này sẽ có tốc độ nhận dạng chậm hơn nhưng bù lại lại có hiệu suất nhận dạng tốt
hơn bộ thứ nhất.
+Bộ phân lớp thứ 3 ta sẽ kết hợp giữa cách trích chọn đặc trưng tốt nhất và bộ phân
lớp có kiến trúc phức tạp để đảm bảo được hiệu suất nhận dạng cao tất nhiên là có thời
gian nhận dạng chậm.
Sau khi đã xây dựng được ba bộ phân lớp như trên quá trình nhận dạng được xử lý như
sau: dữ liệu đầu vào được đưa vào bộ phân lớp thứ nhất sau khi thực hiện nhận dạng
nếu kết quả nhận dạng không bị nghi ngờ là sai thì ta chọn đó là kết quả nhận dạng
cuối cùng, nếu không thì ta lại đưa dữ liệu đầu vào cho bộ phân lớp thứ 2 xử lý. Sau
khi xử lý ở bộ phân lớp thứ 2 nếu kết quả nhận là tốt thì ta xác nhận kết quả nhận dạng
này còn không ta lại chuyển dữ liệu đầu vào cho bộ phân lớp cuối cùng. Tất nhiên là
với phương pháp này ta phải có thuật toán tốt để xác định độ nhập nhằng của kết quả
nhận dạng.
Hình 24: Kiến trúc của bộ nhận dạng ba lớp
INPUT
Bộ
nhận
phân
lớp
thứ
nhất
OUTPUT
Nhập
nhằng?
Bộ
nhận
phân
lớp
thứ 2
Nhập
nhằng?
Bộ
nhận
phân
lớp
thứ 3
yes yes
no no
Chương 3: Các phương pháp cải thiện hiệu suất của mạng Neural RBF
41
Ta thấy với kiến trúc như trên thì phần lớn quá trình xử nhận dạng rơi vào bộ phân lớp
thứ nhất (vì dựa vào kết quả thực nghiệm cho dù là bộ phân lớp tồi như cũng rất dễ
dàng để đạt được độ chính xác nhận dạng > 70%). Xác xuất để việc nhận dạng xử lý
trên bộ nhận dạng thứ 2 sẽ thấp và càng thấp hơn đối với bộ nhận dạng thứ ba. Hiển
nhiên ta thấy rằng kiến trúc này sẽ có thời gian nhận dạng nhanh hơn nhiều so với cách
chỉ sử dụng bộ phân lớp thứ 3 và cũng có độ chính xác tốt hơn nhiều so với cách chỉ
sử dụng bộ phân lớp thứ nhất (xem chi tiết [13]).
3.2 THỰC NGHIỆM
Biều đồ dưới đây so sánh hiệu suất của phương pháp học tập hợp cải tiến so với các
phương pháp thông thường. Ở đây sử dụng bộ dữ liệu MNIST cho quá trình huấn
luyện và kiểm tra.
90
91
92
95 94.5 95
97.75
99.3
84
86
88
90
92
94
96
98
100
1 2 3 4 5 6 7 8
8 8 8 8 18 13
63
1020
0
200
400
600
800
1000
1200
1 2 3 4 5 6 7 8
Hình 25: Biểu đồ so sánh độ chính xác nhận dạng và thời gian huấn luyện của các
phương pháp huấn luyện khác nhau
Ta thấy rằng phương pháp mạng Neural nhân chập vẫn cho độ chính xác nhận dạng là
tốt nhất, song thời gian huấn luyện mạng của nó là quá lớn. Phương pháp học tập hợp
cải tiến cho kết quả nhận dạng là khá cao trong khi thời gian huấn luyện của nó thấp
hơn nhiều lần so với phương pháp mang Neural nhân chập.
1,2,3,4.
Subsambling
5. PCA
6.Legedre
7.Học tập
hợp cải tiến
8. Mạng
Neural nhân
chập
Chương 4: Giới thiệu chương trình nhận dạng chữ số viết tay và tổng kết
42
CHƯƠNG 4
GIỚI THIỆU CHƯƠNG TRÌNH NHẬN DẠNG CHỮ SỐ
VIẾT TAY VÀ TỔNG KẾT
Nội dung chương này gồm có:
4.1 Giới thiệu chương trình nhận dạng chữ viết tay
4.2 Tổng kết và phương hướng phát triển của đề tài
4.1 GIỚI THIỆU CHƯƠNG TRÌNH NHẬN DẠNG CHỮ SỐ VIẾT TAY
Dưới đây tôi xin giới thiệu chương trình ứng dụng nhận dạng chữ viết tay mà tôi đã
viết. Chương trình là phần thực nghiệm của tất cả các phần lý thuyết mà tôi đã nêu ra
xuyên suốt trong toàn bộ nội dụng của khóa luận mà tôi đã trình bày ở trên.
4.1.1 Chương trình nhận dạng chữ viết tay
4.1.1.1 Giới thiệu chương trình
1) Tính năng của chương trình
Chương trình có khả năng nhận dạng chữ số viết tay do người dùng nhập file ảnh của
ký tự nào đấy để thực hiện nhận dạng. Để nhận dạng chương trình cho phép người
dùng tùy chọn phương pháp trích, và tùy chọn phương pháp huấn luyện mạng RBF.
Sau khi thực hiện nhận dạng thì chương trình trả về cho người dùng biểu đồ thể hiện
xác suất bức ảnh người dùng đã nhập vào là số nào.
2) Môi trường và công cụ phát triển
Chương trình được viết hoàn toàn bằng ngôn ngữ C++, giao diện sử dụng IDE
Microsoft Visio Studio 2008 để thiết kế, ngoài ra chương trình còn sử dụng một số thư
viện của Matlab để tính toán ma trận.
3) Hướng dẫn sử dụng chương trình
Để chương trình chạy được tốt, ta phải cài đặt thư viện Matlab vào máy và thêm thư
mục bin của Matlab vào biến môi trường PATH của hệ điều hành. Người dùng có thể
Chương 4: Giới thiệu chương trình nhận dạng chữ số viết tay và tổng kết
43
nhập ảnh với các định dạng như *.jpg, *.bmp, *. gif, *.png vào chương trình sau đó
thực hiện nhận dạng chữ số, sau khi chương trình thực hiện xong nó sẽ đưa ra biểu đồ
đánh giá xác suất bức ảnh là số nào dưa trên kết quả nhận dạng của mạng Neural.
Ngoài ra người dùng có thể chọn chế độ để huấn luyện mạng Neural với các phương
pháp trích chọn đặc và phương pháp huấn luyện khác nhau. Sau đây là giao diện chính
của chương trình:
Hình 26: Giao diện chính của chương
trình
Hình27: Bảng thông báo kết quả nhận dạng
4.2 TỔNG KẾT VÀ PHƯƠNG HƯỚNG PHÁT TRIỂN CỦA ĐỀ TÀI
4.2.1 Tổng kết
Đến đây tôi đã hoàn thành khóa luận tốt nghiệp với đề tài “Mạng Neural RBF và Ứng
dụng nhận dạng chữ viết tay”. Với mục tiêu kết hợp giữa nghiên cứu lý thuyết mạng
Neural RBF đi đôi với việc tìm hiểu bài toán nhận dạng chữ viết tay để thực hiện tạo
chương trình ứng dụng nhận dạng chữ viết tay.
4.2.1.1 Những công việc đã làm được
Chương 4: Giới thiệu chương trình nhận dạng chữ số viết tay và tổng kết
44
+Tìm hiểu được kiến trúc mạng Neural RBF, hiểu được các phương pháp huấn luyện
mạng RBF, nhờ đó đã tiến hành cài đặt thành công được mạng Neural RBF với các
thuật toán huấn luyện khác nhau (xem chương 1).
+Tìm hiểu được bài toán nhận dạng chữ viết tay, hiểu được các bước để xử lý bài toán
nhận dạng chữ viết tay. Tìm hiểu và tiến hành cài đặt được 3 phương pháp trích chọn
đặc trưng chữ viết tay đó là: phương pháp kết hợp biến đổi DCT và thuật toán PCA,
phương pháp sử dụng momen Legendre, phương pháp sử dụng mạng Neural nhân
chập (xem chương 3).
+Tìm hiểu các phương pháp để tăng hiệu suất cho mạng Neural RBF áp dụng cho bài
toán nhận dạng chữ viết tay. Đề xuất phương pháp học tập hợp cải tiến cho hiệu suất
nhận dạng 98% với bộ dữ liệu MNIST và có thời gian huấn luyện mạng rất nhanh.
+Xây dựng được phần mềm nhận dạng chữ số viết tay.
4.2.2.2 Hướng phát triển của đề tài
Do thời gian nghiên cứu có hạn nên đề tài khóa luận chưa thể đi sát vào các vấn đề
được đưa ra. Nếu được phát triển thêm tôi sẽ nghiên cứu kỹ hơn về mạng neural RBF,
nghiên cứu các cách huấn luyện khác cũng như các kiến trúc mạng RBF cải tiến làm
cho việc huấn luyện nhanh hơn và hiệu suất nhận dạng tốt hơn. Bài toán nhận dạng
chữ viết tay mặc dù đã được nghiên cứu từ lâu nhưng đến ngày nay vẫn được tiếp tục
phát triển, đặc biệt là các bài toán nhận dạng văn bản tiếng việt, nhận dạng form... Do
chưa thể đầu tư thời gian nhiều cho việc giải quyết bài toán nhận dạng chữ viết tay,
nên chắc chắn tôi còn mắc thiếu sót rất nhiều ở phần này. Nếu phát triển tiếp thì ở
phần nhận dạng chữ viết tay tôi sẽ nghiên cứu kỹ hơn các phương pháp trích chọn đặc
trưng chữ viết cũng như các kỹ thuật làm tăng tốc độ nhận dạng của mạng (trong khóa
luận tôi chưa dành thời gian nhiều để giải quyết vấn đề tăng tốc độ nhận dạng của
mạng). Ở phần ứng dụng tôi cũng chỉ mới dừng lại mới dừng lại ở việc viết phần mềm
nhận dạng chữ số viết tay, ứng dụng này không thực sự có ý nghĩa thực tiễn. Nếu tiếp
tục nghiên cứu phát triển thêm thì tôi sẽ phát triển ứng dụng hướng đến việc nhận dạng
ký tự tiếng việt, cũng như phát triển các ứng dụng thời gian thực. Tóm lại hướng phát
triển của tôi cho đề tài khóa luận này là kết hợp giữa việc nghiên cứu sát hơn phần lý
thuyết của mạng Neural RBF và việc đưa ra cách giải quyết hợp lý nhất cho bài toán
nhận dạng chữ viết tay tiếng việt sử dụng mạng Neural RBF.
TÀI LIỆU THAM KHẢO
[1] Hoàng Xuân Huấn, Giáo trình các phương pháp số, NXB Đại học quốc gia
Hà Nội, 2004
[2] Hoang Xuan Huan, Dang Thi Thu Hien and Huu Tue Huynh, A Novel
Efficient Algorithm for Training Interpolation Radial Basis Function
Networks, Signal Processing 87 ,2708 – 2717, 2007.
[4] F. Schwenker, H.A. Kestler, Gu Ènther Palm, Three learning phases for
radial-basis-function networks, Neural Networks 14 (2001) 439±458
[5] C.G. Looney, Pattern Recognition Using Neural Network, Theory and
algorithm for engineers and scientist, Oxford University press, 1997.
[6] N.B. Karayiannis, Member, IEEE, and Glenn Weiqun Mi. Growing Radial
Basis Neural Networks: MergingSupervised and Unsupervised Learning with
Network Growth Techniques. IEEE transactions on neural networks, vol. 8,
no. 6, November 1997
[7] M. Vatkin, M. Selinger the system of handwritten characters recognition on
the basis of legendre moments and neural network, The International
Workshop on Discrete-Event System Design, DESDes’01, June 27÷29, 2001;
Przytok near Zielona Gora, Poland
[8] P.Y. Simard, Dave Steinkraus, John C. Platt, Best Practices for Convolutional
Neural Networks Applied to Visual Document Analysis, Microsoft Research,
One Microsoft Way, Redmond WA 98052
[9] S.Theodoridis, K.Koutroumbas Pattern recognition Second edition, 2ed.,
Elsevier, 2003
[10] J. Shlens, A Tutorial on Principal Component Analysis, April 22, 2009
[11] T.M. Mitchell, Machine learning, McGraw-Hill, 1997
[12] D.S. Broomhead and D. Lowe. Multivariable functional interpolation and
adaptive networks. Complex Systems, vol. 2, 321-355, 1988.
[13] D. Gorgevik, D. Cakmakov. An Efficient Three-Stage Classifier for
Handwritten Digit Recognition. Proceedings of the 17th International
Conference on Pattern Recognition (ICPR’04).
[14] R. H. Bartels, J. C. Beatty and B. A. Barsky, An introduction to Splines for use
in computer graphics & geometrics modeling, Morgan Kaufmann Publishers,
1987
[15] K.M. Hosny, New Set of Rotationally Legendre Moment Invariants,
International Journal of Electrical and Electronics Engineering 2:3 2007
[16] D. Bouchain, Character Recognition Using Convolutional Neural Networks,
2006
[17] R. Esposito, Ensemble Learning
[18] Wikipedia®, k-means clustering,
means_clustering
[19] Wikipedia®, Principal component analysis,
[20] Wikipedia®, Discrete cosine transform,
[21] Wikipedia®, Image moments,
[22] Wikipedia®, Eigenvalue, eigenvector and eigenspace,
[23] Wikipedia®,Convolution
Các file đính kèm theo tài liệu này:
- LUẬN VĂN-MẠNG NEURAL RBF VÀ ỨNG DỤNG NHẬN DẠNG CHỮ VIẾT TAY.pdf