Tài liệu Luận văn Áp dụng các kỹ thuật phân lớp dữ liệu, hồi quy để dự báo số liệu sản xuất kinh doanh cho VNPT: ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Hoàng Tuấn Ninh
ÁP DỤNG CÁC KỸ THUẬT PHÂN LỚP
DỮ LIỆU, HỒI QUY ĐỂ DỰ BÁO SỐ LIỆU
SẢN XUẤT KINH DOANH CHO VNPT
LUẬN VĂN THẠC SĨ
HÀ NỘI – 2009
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Hoàng Tuấn Ninh
ÁP DỤNG CÁC KỸ THUẬT PHÂN LỚP
DỮ LIỆU, HỒI QUY ĐỂ DỰ BÁO SỐ LIỆU
SẢN XUẤT KINH DOANH CHO VNPT
Ngành: Công nghệ thông tin
Chuyên ngành: Hệ thống thông tin
Mã số: 60 48 05
LUẬN VĂN THẠC SĨ
NGƯỜI HƯỚNG DẪN KHOA HỌC
TS.Đỗ Văn Thành
HÀ NỘI - 2009
- i -
LỜI CAM ĐOAN
Tôi xin cam đoan nội dung bản luận văn chưa từng được công bố hay
xuất bản dưới bất kỳ hình thức nào và cũng không được sao chép từ bất kỳ một
công trình nghiên cứu nào.
Toàn bộ ứng dụng thử nghiệm đều do tôi tự thiết kế và xây dựng.
Nếu sai tôi xin hoàn toàn chịu trách nhiệm.
Hà Nội, ngày tháng năm 2009
Người thực hiện đề tài
Hoàng Tuấn Ninh
- ii -
LỜI CẢM ƠN
Tôi xin chân thành cảm ơn thầy giáo TS. Đỗ Văn ...
103 trang |
Chia sẻ: haohao | Lượt xem: 1309 | Lượt tải: 1
Bạn đang xem trước 20 trang mẫu tài liệu Luận văn Áp dụng các kỹ thuật phân lớp dữ liệu, hồi quy để dự báo số liệu sản xuất kinh doanh cho VNPT, để tải tài liệu gốc về máy bạn click vào nút DOWNLOAD ở trên
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Hoàng Tuấn Ninh
ÁP DỤNG CÁC KỸ THUẬT PHÂN LỚP
DỮ LIỆU, HỒI QUY ĐỂ DỰ BÁO SỐ LIỆU
SẢN XUẤT KINH DOANH CHO VNPT
LUẬN VĂN THẠC SĨ
HÀ NỘI – 2009
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Hoàng Tuấn Ninh
ÁP DỤNG CÁC KỸ THUẬT PHÂN LỚP
DỮ LIỆU, HỒI QUY ĐỂ DỰ BÁO SỐ LIỆU
SẢN XUẤT KINH DOANH CHO VNPT
Ngành: Công nghệ thông tin
Chuyên ngành: Hệ thống thông tin
Mã số: 60 48 05
LUẬN VĂN THẠC SĨ
NGƯỜI HƯỚNG DẪN KHOA HỌC
TS.Đỗ Văn Thành
HÀ NỘI - 2009
- i -
LỜI CAM ĐOAN
Tôi xin cam đoan nội dung bản luận văn chưa từng được công bố hay
xuất bản dưới bất kỳ hình thức nào và cũng không được sao chép từ bất kỳ một
công trình nghiên cứu nào.
Toàn bộ ứng dụng thử nghiệm đều do tôi tự thiết kế và xây dựng.
Nếu sai tôi xin hoàn toàn chịu trách nhiệm.
Hà Nội, ngày tháng năm 2009
Người thực hiện đề tài
Hoàng Tuấn Ninh
- ii -
LỜI CẢM ƠN
Tôi xin chân thành cảm ơn thầy giáo TS. Đỗ Văn Thành,Trung tâm Thông
tin và Dự báo Kinh tế - Xã hội, Bộ Kế hoạch và Đầu tư đã tận tình hướng dẫn
và có nhiều chỉ dẫn quí báu cho tôi hoàn thành khoá luận này.
Tôi xin chân thành cảm ơn các thầy, cô trong Đại học Công nghệ cũng
như các thầy cô giảng dạy ở Đại học Quốc Gia Hà Nội đã truyền đạt cho tôi
những kiến thức bổ ích trong thời gian học tập tại trường.
Tôi cũng xin gửi lời cảm ơn tới các chuyên viên của Tập đoàn Bưu chính
Viễn thông Việt Nam đã cung cấp số liệu cho tôi để thực hiện luận văn này.
Cuối cùng, tôi xin bày tỏ lòng biết ơn đến gia đình và bạn bè, những
người đã giúp đỡ, động viên tôi rất nhiều trong suốt quá trình học tập và làm
luận văn.
Do thời gian và kiến thức có hạn, khoá luận không tránh khỏi những thiếu
sót nhất định. Tôi rất mong nhận được sự góp ý của thầy cô giáo và các bạn.
Tôi xin chân thành cảm ơn !
- iii -
TÓM TẮT NỘI DUNG LUẬN VĂN
Luận văn được trình bày làm 3 chương chính với các nội dung như sau:
Chương I: Khảo cứu các phương pháp dự báo số liệu
Chương này giới thiệu các kiến thức tổng quan về dự báo và giới thiệu
một số phương pháp dự báo định lượng chính như: Hồi quy tuyến tính, Hồi quy
phi tuyến, phương pháp chuỗi thời gian, phương pháp phân lớp dữ liệu…
Chương II: Dự báo định lượng bằng phương pháp mạng nơron nhân tạo
Chương này tập trung giới thiệu về việc dự báo định lượng bằng phương
pháp mạng nơron nhân tạo, thuật toán lan truyền ngược sai số và phương pháp
thiết kế mạng nơron nhân tạo.
Chương III: Dự báo kết quả hoạt động SXKD của VNPT bằng phương
pháp mạng nơron nhân tạo
Chương này sẽ trình bày bài toán dự báo kết quả thực hiện SXKD của
VNPT, đề xuất giải pháp dự báo định lượng để giải quyết bài toán, sau đó ứng
dụng phương pháp mạng nơron nhân tạo để dự báo kết quả. Cuối cùng là kết quả
thử nghiệm với số liệu SXKD của VNPT, đánh giá kết quả và một số đề xuất,
khuyến nghị.
- iv -
MỤC LỤC
MỤC LỤC .................................................................................................................iv
DANH SÁCH HÌNH VẼ...........................................................................................vi
DANH SÁCH BẢNG BIỂU.....................................................................................vii
BẢNG THUẬT NGỮ..............................................................................................viii
MỞ ĐẦU ...................................................................................................................ix
CHƯƠNG 1. KHẢO CỨU CÁC PHƯƠNG PHÁP DỰ BÁO VỀ HOẠT ĐỘNG
SẢN XUẤT KINH DOANH DOANH NGHIỆP ....................................................11
1. Tổng quan các phương pháp dự báo ..................................................................11
1.3. Dự báo định lượng bằng các phương pháp hồi quy.............................................16
1.3.1.Hồi quy tuyến tính và hồi quy bội...............................................................16
1.1.2. Hồi quy phi tuyến tính ...............................................................................17
1.4. Dự báo số liệu bằng các phương pháp chuỗi thời gian .......................................18
1.4.1. Khái niệm chuỗi thời gian .........................................................................18
1.4.2. Phân tích, dự báo chuỗi thời gian .............................................................19
1.4. Dự báo bằng phương pháp phân lớp dữ liệu .......................................................21
1.4.1. Phương pháp phân lớp dữ liệu..................................................................21
1.4.2. Độ chính xác phân lớp ..............................................................................21
CHƯƠNG 2. DỰ BÁO ĐỊNH LƯỢNG BẰNG PHƯƠNG PHÁP MẠNG NƠRON
NHÂN TẠO..............................................................................................................24
2.1. Mạng nơron nhân tạo .......................................................................................24
1). Khái quát về mạng nơron .....................................................................................24
2.2 . Mô hình của mạng nơron nhân tạo ................................................................25
2.4. Thuật toán lan truyền ngược sai số .....................................................................30
2.5. Thiết kế mạng nơron ...........................................................................................32
1) Bước 1: Lựa chọn biến ..............................................................................33
2). Bước 2: Thu thập dữ liệu ...............................................................................34
3). Bước 3: Tiền xử lý dữ liệu .............................................................................34
4). Bước 4: Xác định tập huấn luyện, tập kiểm tra và đánh giá ...........................37
5). Bước 5: Xác định mô hình mạng nơron .........................................................38
6). Bước 6: Xác định hàm đánh giá sai số...........................................................43
7). Bước 7: Huấn luyện mạng nơron...................................................................43
8). Bước 8: Thực thi............................................................................................48
CHƯƠNG 3. DỰ BÁO KẾT QUẢ HOẠT ĐỘNG SXKD CHO VNPT BẰNG
PHƯƠNG PHÁP MẠNG NƠRON NHÂN TẠO ...................................................50
- v -
3.1. Xác định bài toán dự báo kết quả hoạt động sản xuất kinh doanh của VNPT
..................................................................................................................................50
3.2. Xác định hệ thống chỉ tiêu cần được phân tích, dự báo về kết quả SXKD ....50
3.2.1. Phân tích quy trình nghiệp vụ báo cáo số liệu tại VNPT ...........................50
3.2.2. Xác định hệ thống chỉ tiêu cần được phân tích và dự báo..........................52
3.3. Giải pháp dự báo định lượng kết quả SXKD của VNPT ................................58
3.3.1. Mô hình tổng thể hệ thống thông tin phục vụ dự báo định lượng...............58
3.3.2. Giới thiệu tập số liệu và vấn đề tiền xử lý số liệu ......................................61
3.3.3. Phương pháp mạng nơrontrong dự báo số liệu SXKD tại VNPT ...............62
3.3.4. Phần mềm công cụ hỗ trợ dự báo..............................................................63
3.4. Ứng dụng mạng Nơron để dự báo số liệu SXKD cho VNPT ..........................72
3.4.1. Xác định các biến dự báo ..........................................................................72
3.4.2. Thu thập dữ liệu........................................................................................72
3.4.3. Tiền xử lý dữ liệu ......................................................................................72
3.4.4. Trích chọn dữ liệu – Xây dựng tập huấn luyện ..........................................74
3.4.5. Xác định mô hình mạng nơron ..................................................................76
3.4.6. Xác định hàm đánh giá sai số ...................................................................79
3.4.7. Huấn luyện mạng nơ ron...........................................................................79
3.4.8. Dự báo số liệu...........................................................................................81
3.5. Kết quả thử nghiệm ..........................................................................................82
a. Thử nghiệm với số liệu điện thoại cố định .................................................83
b. Thử nghiệm với dữ liệu mạng Internet .......................................................86
c. Thử nghiệm với dữ liệu mạng di động .......................................................87
3.6. Thiết kế Phần mềm dự báo số liệu SXKD cho VNPT .....................................88
3.6.1. Sơ đồ phân rã chức năng ..........................................................................88
3.6.2. Biểu đồ ngữ cảnh ......................................................................................88
3.6.3. Sơ đồ phân rã chức năng ..........................................................................89
3.6.4. Sơ đồ quan hệ ...........................................................................................90
3.6.5. Thiết kế dữ liệu logic.................................................................................91
3.6.6. Thiết kế chức năng xem số liệu..................................................................95
3.6.7. Thiết kế chức năng xây dựng mô hình .......................................................96
3.6.8. Thiết kế chức năng dự báo số liệu .............................................................96
3.6.9. Thiết kế chức năng Cập nhật tập huấn luyện.............................................97
KẾT LUẬN ..............................................................................................................98
TÀI LIỆU THAM KHẢO .....................................................................................100
- vi -
DANH SÁCH HÌNH VẼ
Hình 1. Các phương pháp dự báo hoạt động SXKD doanh nghiệp................. 16
Hình 2. Đánh giá độ chính xác của bộ phân lớp bằng phương pháp holdout .. 22
Hình 3. Mô hình phi tuyến của một nơron ..................................................... 26
Hình 4. Kết quả biến đổi afine của ngưỡng .................................................... 27
Hình 5. Hai mô hình phi tuyến của nơron ...................................................... 28
Hình 6. Chuyển đổi logarit của số liệu buôn bán lúa gạo theo tháng .............. 36
Hình 7. Phương pháp kiểm tra cửa sổ trượt.................................................... 38
Hình 8. Hai phương pháp chia tỉ lệ thông dụng trên tập dữ liệu S&P500 ....... 42
Hình 9. Đồ thị lỗi của quá trình huấn luyện và kiểm tra mạng nơron ............. 45
Hình 10. Giản đồ biểu diễn một mặt phẳng lỗi của mạng nơron ................... 47
Hình 11. Mô hình Hệ thống dự báo số liệu ................................................... 58
Hình 12. Mô hình Trích chọn dữ liệu............................................................ 59
Hình 13. Mô hình Làm sạch, chuẩn hóa dữ liệu............................................ 60
Hình 14. Xây dựng mô hình dữ liệu.............................................................. 60
Hình 15. Mô hình Dự báo giá trị mới............................................................ 61
Hình 16. Màn hình chương trình YALE ....................................................... 64
Hình 17. Mô hình xử lý một cây toán tử của Yale ........................................ 69
Hình 18. Màn hình chương trình WEKA...................................................... 70
Hình 19. Cấu trúc kho dữ liệu SXKD của VNPT.......................................... 73
Hình 20. Biểu đồ ngữ cảnh Hệ thống Dự báo số liệu .................................... 89
Hình 21. Sơ đồ quan hệ dữ liệu của Hệ thống Dự báo số liệu ....................... 90
Hình 22. Biểu đồ luồng dữ liệu cho chức năng xem số liệu .......................... 95
Hình 23. Biểu đồ luồng dữ liệu cho chức năng xây dựng mô hình................ 96
Hình 24. Biểu đồ luồng dữ liệu cho chức năng dự báo số liệu ...................... 96
Hình 25. Biểu đồ luồng dữ liệu cho chức năng Cập nhật tập huấn luyện ...... 97
- vii -
DANH SÁCH BẢNG BIỂU
Bảng 1. So sánh YALE và WEKA................................................................. 71
Bảng 2. Kết quả dự báo chỉ tiêu m420 tháng 8 từ số liệu tháng 7 ................... 83
Bảng 3. Kết quả dự báo chỉ tiêu m420 tháng 10 từ số liệu tháng 7 ................. 83
Bảng 4. Kết quả dự báo chỉ tiêu m420 tháng 9 từ số liệu tháng 7 ................... 83
Bảng 5. Kết quả dự báo chỉ tiêu m410 tháng 8 từ số liệu tháng 7 ................... 83
Bảng 6. Kết quả dự báo chỉ tiêu m410 tháng 9 từ tháng 7 ............................. 84
Bảng 7. Kết quả dự báo chỉ tiêu m410 tháng 10 từ tháng 7 ........................... 84
Bảng 8. Kết quả dự báo chỉ tiêu m425 tháng 8 từ tháng 7 ............................. 84
Bảng 9. Kết quả dự báo chỉ tiêu m425 tháng 9 từ tháng 7 ............................. 84
Bảng 10. Kết quả dự báo chỉ tiêu m425 tháng 10 từ tháng 7 ........................ 85
Bảng 11. Kết quả dự báo chỉ tiêu m425 tháng 11 từ tháng 7 ........................ 85
Bảng 12. Kết quả dự báo chỉ tiêu m425 tháng 12 từ tháng 7 ........................ 85
Bảng 13. Độ chính xác trung bình theo chu kỳ.............................................. 86
Bảng 14. Độ chính xác trung bình theo chỉ tiêu............................................. 86
- viii -
BẢNG THUẬT NGỮ
Từ viết tắt Tiếng Anh Tiếng Việt
ARIMA AutoRegressive Integrated Moving Average
Tích hợp trung bình trượt tự hồi
qui
CSDL Cơ sở dữ liệu
DM Data mart Kho dữ liệu chủ đề
DW Data warehouse Kho dữ liệu
KDD Knowlegde Discovery in Databases Khám phá tri thức trong CSDL
KPDL Khai phá dữ liệu
MLP Multilayer Perceptron Mạng nơron đa lớp
SARIMA Seasonal AutoRegressive Integrated Moving Average
Tích hợp trung bình trượt tự hồi
qui theo mùa vụ
VNPT Vietnam Posts and Telecomunications Coporation
Tập đoàn Bưu chính Viễn
thông Việt Nam
- ix -
MỞ ĐẦU
Trong nền kinh tế tri thức, ưu thế cạnh tranh luôn thuộc về những doanh
nghiệp nắm bắt đầy đủ, kịp thời và khai thác có hiệu quả thông tin. Các doanh
nghiệp thành công trên thế giới đều đã và đang không ngừng đầu tư cho công cụ
quản lý tri thức của mình ở nhiều cấp độ khác nhau, ở mức thấp là các công cụ
báo cáo, phân tích tình hình tài chính… dựa vào thông tin từ phần mềm kế toán
và ở mức độ cao là ứng dụng công nghệ Khai phá dữ liệu nhằm khai thác các
kho dữ liệu giúp nhà quản lý phân tích về giá thành, thị trường và khách hàng,…
Công nghệ Khai phá dữ liệu có thể được triển khai nhanh chóng dựa trên nền
tảng phần cứng và phần mềm sẵn có đáp ứng yêu cầu khai thác thông tin của
doanh nghiệp, nâng cao hiệu quả sử dụng thông tin từ nguồn tài nguyên sẵn có
và mang lại lợi ích to lớn cho doanh nghiệp.
Tại Việt Nam, hiện tại đã có nhiều tổ chức, doanh nghiệp trong nước nhận
thức được tầm quan trọng và lợi ích của công nghệ Khai phá dữ liệu. Một số tổ
chức, doanh nghiệp đã xây dựng các kho dữ liệu lưu trữ toàn bộ thông tin của tổ
chức, doanh nghiệp như: Kho dữ liệu của Kho bạc nhà nước, Kho dữ liệu Ngân
sách nhà nước của Bộ Tài chính, Kho dữ liệu của Ngân hàng Nhà nước… Tuy
nhiên, việc khai thác dữ liệu từ kho tài nguyên đồ sộ này vẫn chưa đạt hiệu quả
mong muốn do chưa phát triển được công cụ phù hợp, chưa trích chọn và phân
tích được những dữ liệu xác đáng. Để đạt được những thông tin mong muốn từ
những nguồn dữ liệu lớn đòi hỏi phải có những đổi mới về mặt kỹ thuật.
Là một trong những doanh nghiệp đi đầu trong việc đẩy mạnh khai thác
và sử dụng thông tin hỗ trợ hoạt động quản lý điều hành và sản xuất kinh doanh,
Tập đoàn Bưu chính Viễn thông Việt Nam (VNPT) đã có một số phần mềm ứng
dụng hỗ trợ quản lý điều hành sản xuất kinh doanh như: Hệ thống Báo cáo
nhanh, Hệ thống báo cáo tài chính, Hệ thống quản lý tài sản, Hệ thống quản lý
dự án Internet trường học… Sự ra đời của “Hệ thống phần mềm báo cáo số liệu
và thông tin phục vụ quản lý, điều hành sản xuất kinh doanh tại Cơ quan Tập
đoàn” (Hệ thống VRS) đã giúp đáp ứng được nhu cầu báo cáo thông tin một
cách thống nhất, hệ thống, chính xác và cập nhật, thay thế hiệu quả cho phương
thức báo cáo, tổng hợp số liệu bằng giấy tờ. Đồng thời Hệ thống VRS được đưa
vào sử dụng đã cung cấp một khối lượng thông tin lớn khó có thể xử lý bằng
những phương pháp thủ công hiện có, từ đó đặt ra nhu cầu về một hệ thống phần
mềm có thể hỗ trợ xử lý hiệu quả những thông tin này.
- x -
Đề tài “Áp dụng các kỹ thuật phân lớp dữ liệu, hồi quy để dự báo số liệu
SXKD cho VNPT” được phát triển nhằm mục đích hỗ trợ phân tích, tổng hợp và
xử lý kho dữ liệu, thông tin một cách tự động, chính xác và có thể được tích hợp
với các ứng dụng hỗ trợ quản lý sản xuất kinh doanh đang hoạt động khác. Kết
quả nghiên cứu của đề tài sẽ hỗ trợ tích cực cho công tác xử lý số liệu và dự báo
tình hình SXKD của Tập đoàn, đồng thời góp phần đẩy mạnh công tác ứng dụng
công nghệ thông tin vào các hoạt động quản lý điều hành sản xuất kinh doanh tại
Cơ quan Tập đoàn.
Hà Nội 10-2009
Người thực hiện đề tài
- 11 -
CHƯƠNG 1. KHẢO CỨU CÁC PHƯƠNG PHÁP DỰ BÁO VỀ
HOẠT ĐỘNG SẢN XUẤT KINH DOANH DOANH NGHIỆP
1. Tổng quan các phương pháp dự báo
Trong những năm gần đây, sự phát triển mạnh mẽ của CNTT và ngành công
nghiệp phần cứng đã làm cho khả năng thu thập và lưu trữ thông tin của các hệ
thống thông tin tăng lên một cách nhanh chóng. Bên cạnh đó việc tin học hoá
một cách mạnh mẽ các hoạt động sản xuất, kinh doanh cũng như nhiều lĩnh vực
hoạt động khác đã tạo ra một lượng dữ liệu lưu trữ khổng lồ. Hàng triệu CSDL
đã được sử dụng trong các hoạt động sản xuất, kinh doanh, quản lí..., trong đó có
nhiều CSDL cực lớn cỡ Gigabyte, thậm chí là Terabyte. Sự bùng nổ này đã dẫn
tới một yêu cầu cấp thiết là cần có những kĩ thuật và công cụ mới để tự động
chuyển đổi lượng dữ liệu khổng lồ kia thành các tri thức có ích. Từ đó, các kĩ
thuật Khai phá dữ liệu đã ra đời và trở thành một lĩnh vực thời sự của nền CNTT
thế giới hiện nay.
1.1. Tổng quan về dự báo
* Dự báo là gì?
Dự báo là một nhận định về tương lai. Những nhận định này có thể có nền
tảng vững chắc hoặc có thể thiếu những nền tảng cơ sở thuyết phục; chúng có
thể chính xác hoặc không chính xác trong từng trường hợp cá biệt hoặc tính
trung bình; chúng có thể chi tiết hoặc không chi tiết; chúng có thể dựa trên mô
hình hoặc mang tính thông tin. Các dự báo được đưa ra bằng những phương
pháp với hệ hàng trăm phương trình ước lượng kinh tế lượng được kiểm định
chặt chẽ cho tới những phương pháp gần như không có một cơ sở nào để quan
sát được. Do vậy, dự báo là một chủ đề rất rộng. Trong lịch sử, hầu hết các
phương pháp mà con người nghĩ ra về hoạt động “tiên đoán” tương lai có thể
mang lại điều gì đều đã được thử nghiệm.
* Có thể dự báo những gì?
Bởi vì dự báo chỉ đơn giản là một nhận định về tương lai nên chúng ta có thể
dự báo bất kỳ điều gì, có thể là dự báo lạm phát chỉ số giá tiêu dùng của tháng
tới, dự báo thời tiết ngày mai, mực nước biển tính trung bình dâng cao thêm bao
nhiêu sau 20 năm nữa hoặc dân số của trái đất vào ngày hôm đó hay như giá trị
của chỉ số VN index tại thời điểm đầu năm 2010. Chúng ta không khẳng định
rằng các kết quả dự báo nhất thiết là hữu ích.
* Mức độ tin cậy của chúng ta đối với các dự báo là như thế nào?
- 12 -
Mức độ tin cậy của dự báo phụ thuộc vào cơ sở xây dựng dự báo này tốt đến
mức độ nào? Những dự báo đơn thuần sẽ không mang lại độ tin cậy cao, những
dự báo dựa trên các cách tiếp cận đã được kiểm định đúng đắn có thể mang lại
nhiều hy vọng hơn. Thật không may là ngay cả khi nó được dựa trên những cách
tiếp cận này thì dường như vẫn chưa đủ. Tương lai quá bất định chính là khó
khăn của dự báo. Có hai điều trái ngược nhau mà ta có thể vận dụng từ câu nói
của Maxine Singer rằng: "Bởi vì những thứ mà chúng ta không biết rằng chúng
ta không biết nên tương lai rất khó đoán định. Nhưng một vài bước phát triển có
thể dự báo được, hoặc ít nhất là có thể tưởng tượng được dựa trên những gì
chúng ta đã biết".
* Tính chất của dự báo
- Dự báo mang tính xác suất: Mỗi đối tượng dự báo đều vận động theo một
quy luật hay một quỹ đạo nhất định nào đó, đồng thời trong quá trình phát triển
nó luôn luôn chịu sự tác động của môi trường hay yếu tố bên ngoài. Bản thân
môi trường hay các yếu tố tác động không phải đứng im mà luôn luôn trong
trạng thái vận động và phát triển không ngừng. Chính vì điều này nên dự báo
không thể hoàn toàn chính xác mà chỉ mang tính xác suất.
- Dự báo mang tính đa phương án: Mỗi dự báo được thực hiện dựa trên
những tập hợp các giả thiết nhất định - dự báo có điều kiện. Tập hợp các giả
thiết như vậy gọi là phông dự báo. Do vậy dự báo có thể được tiến hành trên các
phông dự báo khác nhau do những nguyên nhân chủ quan và khách quan khác
nhau dẫn tới có nhiều phương án dự báo khác nhau.
* Chức năng của dự báo
- Chức năng tham mưu: Trên cơ sở đánh gíá thực trạng, phân tích xu hướng
vận động và phát triển trong quá khứ, hiện tại và tương lai, dự báo sẽ cung cấp
thông tin cần thiết, khách quan làm căn cứ cho việc ra quyết định quản lý và xây
dựng chiến lược, kế hoạch phát triển sản xuất kinh doanh,... Người quản lý và
hoạch định chiến lược, kế hoạch có nhiệm vụ phải lựa chọn trong số các phương
án có thể có, tìm ra các phương án có tính khả thi cao nhất, có hiệu quả cao nhất.
Để thực hiện tốt chức năng này dự báo phải thực sự đảm bảo tính khách quan,
khoa học và tính độc lập tương đối với các cơ quan quản lý và hoạch định chính
sách.
- Chức năng khuyến nghị hay điều chỉnh: Với chức năng này dự báo tiên
đoán các hậu quả có thể nảy sinh trong quá trình thực hiện nhằm giúp doanh
- 13 -
nghiệp kịp thời điều chỉnh mục tiêu cũng như cơ chế tác động quản lý để đạt
hiệu quả kinh tế - xã hội cao nhất.
1.2. Phương pháp luận tổng quát về dự báo
Để thiết lập một dự báo, về cơ bản, chúng ta có các bước tiến hành sau đây:
a) Xác định vấn đề dự báo và mốc thời gian xa nhất của dự báo
b) Hiểu vấn đề cần được dự báo, xây dựng hệ thống mô tả vấn đề cần được
dự báo và nhận ra những biến số then chốt của hệ thống;
c) Thu thập các số liệu cần thiết phục vụ cho dự báo và Đề xuất các giả thiết
xuất phát của dự báo;
d) Tiến hành dự báo và kiểm nghiệm tính đúng đắn của dự báo
f) Ứng dụng kết quả dự báo
* Xác định vấn đề dự báo:
Công việc đầu tiên là phát biểu vấn đề cần được dự báo một cách rõ ràng và
chính xác. Điều này dường như là đương nhiên nhưng thật ra sự nhấn mạnh tầm
quan trọng của nó là rất cần thiết vì rất có thể xảy ra tình trạng vấn đề đặt ra lúc
đầu, đến một giai đoạn nào đó của quá trình dự báo, lại bắt đầu được nhận thức
là chưa đủ rõ ràng, các công việc tiếp theo do đó không thể đặt ra một cách cụ
thể để có thể được giải quyết, và chúng ta lại phải quay trở lại việc xác định vấn
đề.
Một vấn đề khác là cần xác định mốc thời gian xa nhất của dự báo. Có nhiều
nhân tố chi phối sự lựa chọn này, như thời hạn ra quyết định, khả năng quyết
định và các phương tiện hành động, v.v... Không có một phương pháp xác định
nào có thể giúp ta làm tốt việc này. Kinh nghiệm thực tiễn và sự nhạy cảm là
những yếu tố có thể đóng góp vào sự lựa chọn tối ưu. Các dự báo đã có về các
vấn đề khác nhau rõ ràng là một nguồn tham khảo quan trọng.
Xét một số dự báo lớn được đưa ra trong mấy năm gần đây, thí dụ như
"Theo dõi tương lai, nghiên cứu về các kịch bản của nền kinh tế thế giới, 1990-
2015" của Cục Kế hoạch Trung ương của Hà Lan, "Dự án 2025" do hãng Coates
& Jarratt, Inc. biên soạn, các báo cáo "Trạng thái tương lai" công bố hàng năm
từ 1997 của "Dự án Thiên niên kỷ" thuộc Hội đồng Đại học Liên Hợp quốc.
Trong các dự báo này, mốc thời gian xa nhất của dự báo được lựa chọn là
khoảng 25 năm. Một số dự báo khác, thí dụ như "Tương lai của nước Anh năm
2010" của hãng Applied Futures công bố năm 1989, "Nước Anh năm 2010" của
Policy Studies Institute công bố năm 1991, "Nền an ninh của châu Âu năm
- 14 -
2010" của P. Leclerc và B. Gentric năm 1991, mốc thời gian xa nhất dự báo
được lựa chọn là 20 năm. Song lại có những dự báo có mốc thời gian hơn, tới 40
năm, thí dụ như "Nhà ở năm 2030" do Trung tâm Khoa học và Kỹ thuật về Nhà
ở và Cục Môi trường và Quản lý Năng lượng của Pháp xây dựng trong thời gian
1991-93.
* Hiểu vấn đề cần được dự báo, xây dựng hệ thống và phát hiện các biến số
then chốt
Công việc tiếp theo là xác định trạng thái của hệ thống mô tả vấn đề cần
được dự báo, cụ thể là tìm ra tất cả các biến số có ảnh hưởng đến vấn đề được
nghiên cứu hoặc chịu ảnh hưởng của vấn đề được nghiên cứu, phân tích các
quan hệ giữa các biến số đó, và cuối cùng thu gọn phạm vi của hệ thống về một
số biến số có tính chất cơ bản - các biến số then chốt.
Có thể giao việc lập danh mục các biến số xác định trạng thái của hệ cho
một người. Song để tránh sự chủ quan quá đáng, công việc này nên được tiến
hành bởi một nhóm công tác có tính chất đa ngành và sử dụng các cách làm như
gửi bảng câu hỏi để lấy ý kiến, phỏng vấn chuyên gia, v.v...
Để phân tích các quan hệ giữa các biến số, phương pháp thường được sử
dụng là phân tích cấu trúc gồm ba bước cơ bản như sau:
ˉ Thống kê các biến số;
ˉ Lập ma trận phân tích cáu trúc và đồ thị độ phát động - mức phụ thuộc;
ˉ Phát hiện các biến số then chốt.
* Thu thập dữ liệu phục vụ dự báo và đề xuất các giả thiết/giả thuyết cho dự báo
Thu thập dữ liệu là một công việc rất nặng nề vì đối với mỗi biến số, ta cần
phải trả lời 3 câu hỏi sau đây:
Diễn biến của biến số trong quá khứ ?
Xu hướng phát triển của biến số đó trong tương lai ?
Những điểm uốn hay gián đoạn có thể có làm thay đổi xu hướng phát triển
của biến số ?
Để trả lời các câu hỏi này, ta cần xem xét 5 vấn đề sau đây:
Xác định những chỉ tiêu có thể sử dụng một cách thích hợp để mô tả diễn
biến của biến số được xét. Thí dụ như để mô tả mức sống của dân cư, có thể xét
khả năng sử dụng chỉ tiêu tổng sản phẩm trong nước (GDP) hay tổng sản phẩm
xã hội (GNP); để đánh giá năng lực đổi mới công nghệ của một quốc gia, có thể
- 15 -
sử dụng chỉ tiêu số sáng chế đăng ký; để đánh giá mức độ chuyển đổi cơ cấu lao
động có thể sử dụng chỉ tiêu số lượng lao động được đào tạo nghề theo các
ngành kinh tế, để đánh giá nguồn nhân lực chất lượng cao có thể sử dụng chỉ
tiêu số lượng và chất lượng đào tạo từ bậc cao đẳng, đại học trở lên, v.v...
Xét khả năng có được dữ liệu (định tính cũng như định lượng), độ tin cậy
của chúng và, nếu có thể, mức độ cân đối cần phải có.
Xác định các chuỗi thời gian (các giá trị của chỉ tiêu sắp xếp theo trình tự
thời gian) cần theo dõi. Điều này có ý nghĩa quan trọng vì chuỗi thời gian của
một biến số kinh tế - xã hội nào đó là phản ánh quy luật biến đổi của biến số đó
trong quá khứ và hiện tại, nếu chuỗi thời gian đủ dài ta mới có căn cứ để ngoại
suy hay dự báo giá trị của biến số đó trong tương lai.
Để hình thành các giả thiết/giả thuyết cho dự báo: cần giải thích các diễn
biến trong quá khứ; nói cách khác, tìm hiểu nguyên nhân của các hệ quả đã quan
sát được. Rõ ràng là sự giải thích nguyên nhân không đúng sẽ dẫn đến những dự
báo vô lý. Thí dụ như có rõ những nguyên nhân đã dẫn đến tốc độ tăng trưởng
cao của nền kinh tế Việt Nam trong mấy năm vừa qua, chúng ta mới có thể có
được những dự báo đáng tin về tốc độ này trong những năm sắp tới, chưa nói
những điều chỉnh cần thiết do sự thay đổi của những nhân tố bên ngoài.
Đề xuất các giả thiết về sự phát triển của các biến số trong tương lai; nói
riêng, về khả năng xuất hiện những điểm uốn hay gián đoạn so với xu hướng "tự
nhiên" và, nếu có thể, xác suất xuất hiện các điểm uốn hay gián đoạn đó.
* Tiến hành dự báo và kiểm nghiệm kết quả dự báo
Trong phần lớn các trường hợp rất cần phải kiểm nghiệm kết quả dự báo so
với thực tế. Nó là cơ sở để chấp nhận dự báo và ứng dụng vào thực tiễn.
* Ứng dụng dự báo
Mục đích cuối cùng của dự báo là nhằm phục vụ quá trình xây dựng chiến
lược, kế hoạch sản xuất kinh doanh và phục vụ quá trình ra quyết định, điều
hành, quản lý của người lãnh đạo doanh nghiệp..
Hiện tại có rất nhiều pháp dự báo về hoạt động sản xuất kinh doanh khác
nhau (xem hình 1). Phân tiếp theo của Chương này chỉ giới thiệu tóm tắt một số
phương pháp dự báo định lượng điển hình cho doanh nghiệp.
- 16 -
Hình 1. Các phương pháp dự báo hoạt động SXKD doanh nghiệp
1.3. Dự báo định lượng bằng các phương pháp hồi quy
1.3.1.Hồi quy tuyến tính và hồi quy bội
Hồi quy tuyến tính: Đây là dạng đơn giản nhất trong các phương pháp hồi quy.
Ở dạng này, dữ liệu được mô hình hoá theo đường thẳng. Theo mô hình này,
một biến ngẫu nhiên Y (biến trả lời - response variable) sẽ được tính bằng một
hàm tuyến tính của một biến ngẫu nhiên X khác (biến dự báo – predictor
variable) theo công thức[8]:
Y = + X
trong đó độ biến thiên của Y là không đổi, và gọi là các hệ số hồi quy. Các
hệ số này có thể được tính ra bằng phương pháp bình phương tối thiểu. Cho n
mẫu hay điểm dữ liệu dưới dạng (x1 , y1), (x2 , y2),…, (xn , yn), các hệ số hồi quy
có thể được ước lượng bằng phương pháp trên theo phương trình:
n
i i
n
i ii
xx
yyxx
1
2
1
)(
))((
xy
- Làm trơn hàm mũ
- Trung bình trượt tích hợp
tự hồi qui (ARIMA) và
ARIMA theo mùa vụ;
- Mô hình tự hồi quy véc tơ
VAR, ….
-
PHƯƠNG PHÁP
DỰ BÁO
PHƯƠNG PHÁP
ĐỊNH TÍNH
PHƯƠNG PHÁP
ĐỊNH LƯỢNG
Các mô hình
nhân quả
Các mô hình
chuỗi thời gian
- Lấy ý kiến của ban lãnh đạo
- Lấy ý kiến của bộ phận bán
hàng
-Phương pháp lấy ý kiến của
người tiêu dùng
-Phương pháp chuyên gia
-Hồi quy
-Phân lớp
-Phân tích tương
quan,
-….
- 17 -
ở đây x là giá trị trung bình của x1, x2,…, xn và y là giá trị trung bình của
y1,y2,…,yn.
Hồi quy bội: là mở rộng của hồi quy tuyến tính với nhiều hơn một biến dự báo.
Nó cho phép biến trả lời được mô hình hoá như là một hàm tuyến tính của một
véc tơ nhiều chiều. Một ví dụ cho hồi quy bội với 2 biến dự báo X1 và X2 là:
Y = + 1X1 + 2X2
Các hệ số , 1, 2 vẫn có thể tính được bằng phương pháp bình phương tối
thiểu.
1.3.2. Hồi quy phi tuyến tính
Với hồi quy tuyến tính, chúng ta đã có thể mô hình hoá những dữ liệu tuyến
tính. Nhưng với dữ liệu không tuyến tính thì như thế nào ? Dưới đây là một số
dạng hồi quy phi tuyến thường được sử dụng :
- Hồi quy theo hàm log: logY = a + b * X
Cho thấy xu thế tăng (hoặc giảm) theo tốc độ tăng %.
- Hồi quy theo hàm parabol: Y = a + b * X + c * X2
Cho thấy xu thế lúc đầu tăng (hoặc giảm) chậm, song về sau thì mạnh hơn
- 18 -
- Hồi quy theo hàm tăng trưởng (hàm logistic): Y=[a/(1+e(a-bX))]+b
Xu thế này có hình chữ S, tức là lúc đầu tăng chậm (đường cong không
dốc nhiều), sau đó tăng mạnh (đường cong dốc), sau đó lại tăng chậm lại (tiến
đến mức bão hoà)
- Hồi quy theo hàm vòng đời: Y=a/[1+e(a-bX)+f(d-cX)]
Xu thế hàm vòng đời tương tự với xu thế hàm tăng trưởng ở 3 giai đoạn
đầu (lúc đầu tăng chậm, sau tăng mạnh, sau tăng chậm lại), song khác với xu thế
hàm tăng trưởng ở giai đoạn tiếp theo là hàm tăng trưởng tiến đến mức bão hoà,
còn hàm vòng đời sau đó suy giảm.
1.4. Dự báo số liệu bằng các phương pháp chuỗi thời gian
1.4.1. Khái niệm chuỗi thời gian
Chuỗi dữ liệu phụ thuộc thời gian được chia làm hai loại [3]:
- Chuỗi dữ liệu phụ thuộc thời gian được quan sát, đo đạc trong khoảng thời
gian rời rạc: Các quan sát được thực hiện tại các thời điểm tách biệt, chúng
thường là các quan sát được đo tại các mốc thời gian cách đều nhau, ví dụ chuỗi
thời gian được đo theo tuần, quý, tháng, năm, ….
- 19 -
- Chuỗi dữ liệu liên tục theo thời gian: Các quan sát được đo trong khoảng thời
gian liên tục, ví dụ chuỗi dữ liệu đo nhiệt độ trong ngày (nhiệt kế).
Như vậy: Chuỗi thời gian là một tập giá trị các quan sát của biến ngẫu nhiên,
ký hiệu là }{ tz , 1,...,nt là số các quan sát, đo được trong các khoảng thời gian
t như nhau (hàng năm, quý, tháng, tuần, ngày …) và được xếp theo thứ tự thời
gian.
Ví dụ: Tổng giá trị sản xuất Tổng giá trị hàng tồn kho, nguyên liệu nhập về,
chi phí quản lý, …, của một doanh nghiệp theo từng tháng chính là các chuỗi
thời gian như vậy.
1.4.2. Phân tích, dự báo chuỗi thời gian
Quá trình phân tích, dự báo chuỗi thời gian }{ tz là để tìm ra các mô hình,
luật ẩn trong nó, việc này được thực hiện trên các quan sát mẫu, gồm có những
bước sau[1]:
Bước 1: Nhận dạng các thành phần ẩn tồn tại trong chuỗi thời gian
- Thành phần xu thế (Trend - T): Thể hiện chiều hướng biến động tăng hoặc
giảm của các hiện tượng nghiên cứu trong thời gian dài.
- Thành phần chu kỳ (Period - P): Thể hiện biến động của hiện tượng được lặp
lại với chu kỳ nhất định, thường kéo dài từ 2 đến 10 năm.
- Thành phần mùa vụ (Seasonal - S): Biểu hiện sự tăng hoặc giảm mức độ của
hiện tượng ở một số thời điểm (tháng, quý, năm) nào đó được lặp đi lặp lại qua
nhiều năm.
- Thành phần ngẫu nhiên (Irregular - I): Thể hiện những biến động không có
qui luật và hầu như không dự báo hoặc quan sát được trong của hiện tượng đang
nghiên cứu.
Những thành phần này kết hợp với nhau trong chuỗi thời gian bằng nhiều
cách thức khác nhau, chẳng hạn chuỗi thời gian tz được mô tả là tích các thành
phần, ISPTzt gọi là mô hình tích, hoặc ISPTzt gọi là mô
hình tổng, hoặc kết hợp cả hai ISPTzt . Do vậy, để phân tích và
nghiên cứu hành vi cũng như dự báo biến động của chuỗi thời gian thì cần thiết
phải ước lượng được các thành phần nói trên trong chuỗi thời gian và cách thức
kết hợp chúng với nhau trong chuỗi.
Bước 2: Làm trơn số liệu
- 20 -
Tuỳ theo mô hình dự báo áp dụng mà cần thiết tiến hành bước làm trơn số
liệu hay không. Trong trường hợp mô hình dự báo áp dụng cần quá trình làm
trơn số liệu ta tiến hành loại trừ được thành phần xu thế và mùa vụ trong chuỗi
thời gian. Chuỗi thu được sau cùng không còn chứa các thành phần đó (chuỗi
được làm trơn) sẽ khiến cho việc phân tích, dự báo dễ dàng hơn.
Bước 3: Chọn lựa, ước lượng và đánh giá mô hình
Chọn lựa mô hình trong lớp các mô hình, sao cho mô hình được lựa chọn là
“tốt nhất” trong số các mô hình ứng cử và nó cũng phải đơn giản và có thể hiểu
được dễ dàng. Sau đó thực hiện ước lượng các tham số, phần dư cho mô hình
vừa chọn lựa và chúng phải thỏa mãn các tiêu chí kiểm định, đánh giá. Mô hình
ước lượng được đánh giá là hợp lý khi đó sẽ sinh ra chuỗi “gần giống” với
chuỗi dữ liệu quan sát thực.
Bước 4: Dự báo
Dựa trên mô hình thực hiện dự báo giá trị tương lai cho chuỗi thời gian,
phân tích sự phù hợp của giá trị dự báo cả về mặt thực nghiệm và lý thuyết. Xác
định độ chệch giữa giá trị dự báo với giá trị quan sát thực và khoảng tin cậy của
dự báo tức là giới hạn mà giá trị quan sát thực sẽ nằm trong.
Bước 5: Ứng dụng mô hình dự báo vào trong thực tế
Trên cơ sở các dự báo về các giá trị tương lai của hiện tượng nghiên cứu đề
ra các quyết định kinh doanh hoặc chính sách. Đồng thời gộp thêm các giá trị
quan sát mới vào chuỗi dữ liệu quan sát nhằm mục đích hiệu chỉnh lại mô hình
để đưa ra dự báo tốt hơn.
Chất lượng của dự báo phụ thuộc vào nhiều yếu tố chẳng hạn sự phức tạp
của chuỗi thời gian khi thực hiện phân tích, tác động của nhiều yếu tố bất
thường không thể lường trước được khi tiến hành dự báo, ngoài ra độ chính xác
cũng còn phụ thuộc phần lớn vào khoảng cách xa gần của dự báo (dự báo gần
thì cho độ chính xác của dự báo tốt hơn so với dự báo xa).
Hiện tại có nhiều mô hình phân tích và dự báo chuỗi thời gian, trong đó
những mô hình điển hình là: Mô hình làm trơn hàm mũ chuỗi thời gian, bao
gồm [4]:
- Mô hình làm trơn hàm mũ bậc1, bậc 2 và bậc 3 (còn gọi là mô hình Holt –
Winter). Trong mô hình Holt-Winter còn có mô hình Holt-Winter mùa vụ nhân
và Holt-Winter mùa vụ cộng.
- 21 -
- Mô hình trung bình trượt tích hợp trung bình trượt tự hồi quy là mô hình tổ
hợp của 3 quá trình: sai phân (hay tích hợp), Trung bình trượt và Tự hồi quy.
Mô hình phát triển từ ARIMA để dự báo cho chuỗi thời gian có yếu tố mùa vụ
được gọi là mô hình SARIMA.
- Mô hình tự hồi quy véc tơ VAR, thực chất đó là tổ hợp của các mô hình
Trung bình trượt và Tự hồi quy cho nhiều chuỗi thời gian, nói cách khác mô
hình VAR là một hệ gồm nhiều phương trình của nhiều chuỗi thời gian có liên
quan với nhau về trể, ở đó mỗi phương trình có dạng của mô hình Trung bình
trượt kết hợp với mô hình Tự hồi quy.
1.4. Dự báo bằng phương pháp phân lớp dữ liệu
1.4.1. Phương pháp phân lớp dữ liệu
Quá trình phân lớp dữ liệu thường gồm 2 bước: xây dựng mô hình và sử
dụng mô hình để phân lớp dữ liệu [12].
Bước 1: một mô hình sẽ được xây dựng dựa trên việc phân tích các mẫu dữ liệu.
Mỗi mẫu tương ứng với một lớp, được quyết định bởi một thuộc tính gọi là
thuộc tính lớp. Các mẫu dữ liệu này còn được gọi là tập dữ liệu huấn luyện
(training data set). Các nhãn lớp của tập dữ liệu huấn luyện đều phải được xác
định trước khi xây dựng mô hình, vì vậy phương pháp này còn được gọi là học
có thầy (supervised learning) khác với phân cụm dữ liệu là học không có thầy
(unsupervised learning).
Bước 2: sử dụng mô hình để phân lớp dữ liệu. Trước hết chúng ta phải tính độ
chính xác của mô hình. Nếu độ chính xác là chấp nhận được, mô hình sẽ được
sử dụng để dự báo nhãn lớp cho các mẫu dữ liệu khác trong tương lai.
Các kỹ thuật phân lớp dữ liệu chủ yếu để dự báo số liệu gồm có: phân lớp
theo phương pháp Bayes, phân lớp theo cây quyết định, phân lớp theo phương
pháp máy vector hỗ trợ (SVM), phân lớp theo phương pháp mạng nơron, thuật
toán di truyền, thuật toán người lãng riềng gần nhất, …
1.4.2. Độ chính xác phân lớp
Ước lượng độ chính xác của mô hình phân lớp là một bước quan trọng cho
phép người dùng đánh giá được dữ liệu được phân lớp trong tương lai của họ sẽ
chính xác đến đâu. Ngoài ra độ chính xác này còn có thể dùng làm tiêu chí để so
sánh các bộ phân lớp khác nhau[12].
Để ước lượng độ chính xác của mô hình phân lớp, chúng ta có 1 số phương
pháp như holdout hay k-fold cross-validation, bootstrapping, leave-one-out…
- 22 -
- Phương pháp holdout: trong phương pháp này, tập dữ liệu ban đầu sẽ được
chia ngẫu nhiên ra làm 2 tập: tập huấn luyện và tập kiểm thử. Tập huấn luyện
được dùng để xây dựng mô hình còn tập kiểm thử được dùng để ước lượng độ
chính xác. Sơ đồ phương pháp này được thể hiện trong hình dưới.
Hình 2. Đánh giá độ chính xác của bộ phân lớp bằng phương pháp
holdout
- Phương pháp k-fold cross-validation: trong phương pháp này, tập dữ liệu
ban đầu sẽ được chia thành k tập con (fold), thường là với kích thước bằng nhau.
Bước huấn luyện và bước kiểm thử sẽ được thực hiện làm k lần. Tại mỗi lần lặp
thứ i, tập con Si sẽ được dùng làm tập kiểm thử còn các tập con còn lại sẽ được
dùng làm tập huấn luyện. Độ chính xác sẽ được tính bằng tổng số các trường
hợp phân loại đúng trong k lần chia cho tổng số mẫu trong tập dữ liệu ban đầu.
Để tăng độ chính xác của phương pháp phân lớp, người ta đưa ra một số kỹ
thuật như: Bagging và boosting. Tư tưởng chính của kỹ thuật bagging là thay vì
xây dựng một bộ phân lớp, chúng ta sẽ xây dựng k bộ phân lớp từ tập dữ liệu
ban đầu, với mỗi mẫu mới cần phân lớp, mỗi bộ phân lớp sẽ có 1 kết quả dự báo
và nhãn nào được dự báo nhiều nhất bởi các bộ phân lớp sẽ được gán cho mẫu
mới. Kỹ thuật boosting tương tự kỹ thuật bagging nhưng mỗi mẫu học sẽ được
gán thêm 1 trọng số để giúp các bộ phân loại xây dựng sau tránh các lỗi mà các
bộ phân loại trước gặp phải.
KẾT LUẬN CHƯƠNG 1
Trong chương 1, luận văn đã trình bày một cách tổng quan về dự báo và các
phương pháp dự báo. Các phương pháp dự báo bao gồm các phương pháp dự
báo định tính và các phương pháp dự báo định lượng. Trong phương pháp định
lượng gồm có phương pháp (mô hình) chuỗi thời gian và mô hình nhân quả.
Luận văn này đã giới thiệu một cách tóm tắt quy trình các bước phân tích, dự
Tập huấn
luyện
Tập kiểm
thử
Dữ liệu
Bộ phân
lớp
Đánh giá
độ chính xác
- 23 -
báo bằng mô hình chuỗi thời gian và 3 mô hình chuỗi thời gian điển hình nhất
đang được ứng dụng hiện nay là mô hình làm trơn hàm mũ chuỗi thời gian, mô
hình trung bình trượt tích hợp tự hồi quy và mô hình tự hồi quy véc tơ.
Trong mô hình nhân quả, luận văn đã giới thiệu nhanh các mô hình hồi quy
tuyến tính và phi tuyến, và phương pháp dự báo bằng phân lớp dữ liệu. Phương
pháp dự báo phân lớp dữ liệu sẽ là đối tượng nghiên cứu chính của luận văn này.
Trong chương tiếp theo, luận văn sẽ tập trung trình bày phương pháp phân
lớp dữ liệu sử dụng mạng nơron nhân tạo để dự báo định lượng.
- 24 -
CHƯƠNG 2. DỰ BÁO ĐỊNH LƯỢNG BẰNG PHƯƠNG PHÁP
MẠNG NƠRON NHÂN TẠO
2.1. Mạng nơron nhân tạo
1). Khái quát về mạng nơron
Về bản chất mạng nơron nhân tạo là mô hình mô phỏng đơn giản của nơron
sinh học[7]. Mạng nơron nhân tạo cũng thực hiện nhiệm vụ của mình thông qua
các thao tác: nhận đầu vào từ các nơron trước nó, xử lý đầu vào bằng cách nhân
mỗi đầu vào này với trọng số liên kết tương ứng và tích hợp các đầu vào thu
được rồi đưa qua một hàm truyền, sau đó gửi kết quả cuối cùng cho các nơron
tiếp theo hoặc đầu ra (output). Cứ như vậy các nơron này hoạt động phối hợp
với nhau tạo thành hoạt động chính của mạng nơron.
Trong mạng nơron, các nơron liên kết với nhau qua các trọng số và ngưỡng.
Trong quá trình huấn luyện thì giá trị các trọng số và ngưỡng được thay đổi cho
phù hợp với các mẫu ở đầu vào.
2). Ưu, nhược điểm của mạng Nơron nhân tạo
- Ưu điểm:
Có thể nói mạng Nơron có ưu điểm lớn nhất là khả năng học, khả năng tổng
quát hóa cũng như khả năng thích ứng với rất nhiều kiểu dữ liệu khác nhau trong
nhiều lĩnh vực khác nhau.
Học là quá trình huấn luyện mạng nơron có khả năng nhận biết chính xác các
mẫu. Đó là quá trình ghi nhớ tri thức về các mẫu được học thông qua việc điều
chỉnh các trọng số đầu vào và ngưỡng tương ứng.
Tổng quát hóa là quá trình phân loại mẫu dựa trên các mẫu mà mạng đã
được học. Mạng nơron có thể giải quyết các bài toán phức tạp ở nhiều lĩnh vực
khác nhau.
- Nhược điểm:
Tuy mạng nơron có những rất nhiều ưu điểm nhưng vẫn có nhược điểm là
thời gian huấn luyện lâu, còn hội tụ ở giá trị cực trị địa phương…
3). Các ứng dụng của mạng Nơron nhân tạo
Mạng nơron thích hợp với các ứng dụng so sánh và phân loại mẫu (pattern
matching and classification), dự báo (prediction) và điều khiển (control). Chính
vì thế mạng nơron có nhiều ứng dụng trong:
- 25 -
- Không gian vũ trụ: như máy bay không người lái, các chế độ bay tự động, hệ
thống phát hiện sai hỏng…
- Dự thoái tài chính kinh tế: Dự báo giá cả biến động, cấp số thời gian trong thị
trường tài chính, các ứng dụng về điều hành vốn, dự báo thị trường ngoại hối,
đánh giá rủi ro…
- Hoạt động ngân hàng
- Hệ thống phòng thủ: hệ thống điều khiển vũ khí dò tìm mục tiêu, nhận dạng
mục tiêu, điều khiển đường đạn, xử lý và nhận dạng tín hiệu ảnh, rada…
- Điện tử viễn thông: dự báo chuỗi mã, phân tích lỗi mạch tích hợp, nhận dạng
chữ viết, vân tay, tiếng nói…
2.2 . Mô hình của mạng nơron nhân tạo
Một nơron là đơn vị xử lí thông tin, đó là những nguyên tắc cơ bản của quá
trình hoạt động của mạng nơron. Hình 3 cho biết mô hình của một nơron.
Có 3 phần tử cơ bản của mô hình nơron như được mô tả dưới đây[7]:
1) Một tập hợp các khớp thần kinh hay mối liên kết được đặc trưng bởi trọng số
của nó. Một tín hiệu đầu vào xj của khớp thần kinh j liên kết với nơron k được
khuyếch đại bởi trọng số chuyển tiếp wkj. Trọng số wkj là tích cực nếu khớp liên
hợp được kích thích, nó là không tích cực nếu khớp liên hợp bị kìm hãm.
2) Một bộ cộng để cộng những tín hiệu đầu vào được khuyếch đại bởi các khớp
thần kinh tương ứng của nơron.
3) Một hàm kích hoạt để định ra giới hạn biên độ đầu ra của một nơron. Hàm
kích hoạt còn được coi như một hàm nén, bên trong nó nén những giới hạn biên
độ chấp nhận được của tín hiệu đầu ra đến một số giá trị hữu hạn nào đó. Giá trị
giới hạn đầu ra bình thường của nơron là khoảng đóng [0,1] hoặc [-1,1]. Mô
hình của nơron mô tả trong hình 3 bao gồm một ngưỡng ứng dụng ngoài i do
đó có tác dụng làm hạn chế hàm kích hoạt đầu vào. Mặt khác mạng lưới đầu vào
của hàm kích hoạt có thể được tăng lên bởi việc dùng sự chênh lệch giới hạn
hơn là dùng ngưỡng. Sự chênh lệch là sự phủ nhận ngưỡng. Trong giới hạn toán
học chúng ta có thể mô tả một nơron k được viết bởi hệ phương trình:
p
j
jkjk xwv
1
(1.1)
và
yk = (vk - k) (1.2)
- 26 -
Trong đó:
x1, x2,...,xp là các tín hiệu đầu vào;
wk1,wk2,...,wkp là các trọng số chuyển tiếp của nơron k;
uk là bộ phối hợp đầu ra tuyến tính;
k là ngưỡng;
(.) là hàm kích hoạt;
yk là tín hiệu ra của nơron.
Hình 3. Mô hình phi tuyến của một nơron
Sử dụng ngưỡng k có hiệu quả ứng dụng biến đổi afin tới đầu ra uk của bộ
phối hợp tuyến tính trong hình 3 được biểu diễn bởi :
uk=vk - k (1.3)
Đặc biệt sự phụ thuộc vào ngưỡng k dù là tích cực hay thụ động, mối quan
hệ giữa hiệu quả mức hoạt động mội tại hoặc khả năng kích hoạt vk của nơron k
và bộ phối hợp tuyến tính đầu ra uk được sửa đổi như hình 4.
Lưu ý là do kết quả của biến đổi aphin, đồ thị của vk không còn đi qua gốc
toạ độ.
x1
hàm kích hoạt
đầu
vào x2 vk đầu ra
tổng yk
. liên kết
.
k (ngưỡng)
xk
trọng số
chuyển tiếp
Wk
1
wkp
Wk
2 (.)
- 27 -
Hình 4. Kết quả biến đổi afine của ngưỡng
Ngưỡng k là tham số ngoài của nơron nhân tạo k. Chúng ta có thể tính toán
nó như trong công thức 1.2
Tương đương chúng ta có thể kết hợp của công thức 1.1 và 1.2 thành công
thức
p
j
jkjk xwv
0
(1.4)
và
yk = (vk) (1.5)
Trong công thức 1.4 ta đã thêm vào một khớp thần kinh mới, đầu vào là
x0=-1 (1.6)
và trọng số của nó là
wk0= k (1.7)
Bởi vậy chúng ta có thể công thức hoá lại mô hình của nơron như hình 5a.
Trong hình này sự ảnh hưởng của ngưỡng được thể hiện bởi hai việc :
- Thêm một tín hiệu đầu vào mới cố định tại -1.
- Thêm trọng số chuyển tiếp mới cân bằng với ngưỡng k.
Tổng mức ngưỡng k <0
kích hoạt k=0
bên trong
vk k>0
0
đầu ra kết hợp
phi tuyến, uk
- 28 -
Cách khác chúng ta có thể mô hình nơron như trong hình 5b với sự kết hợp cố
định đầu vào x0=1và trọng số wk0=bk (bk độ chênh lệch). Mặc dù mô hình 1.4 và
1.6 là khác nhau nhưng tương đương về mặt toán học.
Hình 5. Hai mô hình phi tuyến của nơron
1) Các loại hàm kích hoạt
Hàm kích hoạt được biểu thị là (.), nó định nghĩa đầu ra của nơron trong giới
hạn mức hoạt động của đầu vào. Nói chung người ta xác định 3 loại hàm kích
hoạt cơ bản.
a. Hàm ngưỡng: Hàm kích hoạt loại này được mô tả trong hình 5a, ta có công
thức
(1.8)
do đó, đầu ra của nơron k dùng một hàm ngưỡng như vậy, được biểu thị
(1.9)
1 nếu v>0
(v)=
0 nếu v <0
1 nếu vk >=0
yk =
0 nếu vk <0
Giá trị vào wk0=k
cố định
xo=-1
x1
hàm kích hoạt
đầu
vào x2
vk đầu ra
tổng yk
. liên kết
.
x3
trọng số
chuyển tiếp (gồm cả ngưỡng)
(a)
Wk
0
Wk
1
wkp
Wk
2 (.)
- 29 -
vk là mức hoạt động nội tại của nơron
p
j
kjkjk xwv
1
(1.10)
Một nơron như vậy được gọi là mô hình McCulloch-Pitts do McCulloc và
Pitts là những người tiên phong trong sự phát hiện này. Trong mô hình này đầu
ra của nơron nhận giá trị 1 nếu các mức nội tại là tích cực, và nhận giá trị 0 nếu
khác đi. Sự phát biểu này mô tả tất cả hoặc không của mô hình McCulloc-Pitts.
b). Hàm phân đoạn tuyến tính, được mô tả trong hình 5b, được tính theo công
thức:
2
1,0
2
1
2
1,
2
1,1
)(
vneu
vneuv
vneu
v (1.11)
với nhân tố khuyếch đại bên trong tuyến tính được giả thiết là thống nhất. Dạng
này của hàm kích hoạt được coi gần giống như một máy khuyếch đại phi tuyến.
Hai thuộc tính sau là dạng đặc biệt của McCulloc - Pitts:
- Một bộ phối hợp tuyến tính được sinh ra nếu miền tuyến tính của thao tác
được duy trì mà không gặp phải sự bão hoà.
- Hàm phân đoạn tuyến tính quy về hàm ngưỡng nếu nhân tố khuyếch đại của
vùng tuyến tính được làm lớn quá.
Giá trị vào wk0=bk
cố định
xo=+1
x1
hàm kích hoạt
đầu
vào x2
vk đầu ra
tổng yk
. liên kết
.
x3
trọng số
chuyển tiếp
(gồm cả độ lệch)
(b)
Wk0
Wk1
wkp
Wk2 (.)
- 30 -
- Hàm sigma: Hàm sigma cũng được sử dụng trong xây dựng những mạng
nơron nhân tạo. Nó được định nghĩa như một hàm tăng dần, được xác định
bởi công thức sau:
(1.12)
ở đây a là tham số bậc của hàm sigma. Khi thay đổi tham số a chúng ta thu được
hàm sigma của những giá trị bậc khác nhau.
Trong những trường hợp hạn chế nào đó, khi tham số bậc tiến tới vô cùng
thì hàm sigma trở thành hàm ngưỡng đơn giản.
Trong khi hàm ngưỡng lấy giá trị 0 hoặc 1 thì một hàm sigma lấy giá trị liên
tục từ 0 tới 1, chú ý rằng hàm sigma có thể khác nhau trong khi hàm ngưỡng
không thể.
Những hàm kích hoạt đã định nghĩa trong các công thức (1.8), (1,11), (1.12)
có giới hạm từ 0 tới 1. Để có hàm kích hoạt có phạm vi hoạt động từ -1 tới 1,
hàm kích hoạt giả định mẫu phản đối xứng với gốc được định nghĩa lại từ hàm
ngưỡng (1.8) như sau:
.0,1
,0,0
,0,1
)(
vneu
vneu
vneu
v (1.13)
Hàm này thường được gọi là hàm signum.
Ngoài ra, thay cho hàm sigma chúng ta có thể dùng hàm tiếp xúc hyperbolic,
được xác định bởi công thức:
)exp(1
)exp(1
2
tanh)(
v
vvv
(1.14)
để cho một hàm kích hoạt kiểu sigma.
2.4. Thuật toán lan truyền ngược sai số
Thuật toán lan truyền ngược sai số là thuật toán rất nổi tiếng và được sử dụng
phổ biến trên thế giới để xây dựng mạng nơron nhân tạo.
Việc huấn luyện mạng nơron với thuật toán lan truyền ngược sai số gồm hai
pha ngược chiều nhau: quá trình truyền thẳng (lan truyền xuôi) và quá trình lan
truyền ngược [12].
)exp(1
1)(
av
v
- 31 -
Chuẩn bị tập mẫu đầu vào dưới dạng {xi, di} trong đó xi là đầu vào cho
mạng và di là giá trị đầu ra mong muốn tương ứng với xi (còn gọi là giá trị mục
tiêu).
- Lựa chọn hàm đánh giá sai số của mạng (sai số giữa đầu ra thực tế và giá trị
mục tiêu). Chúng ta có thể dùng hàm sai số trung bình bình phương, hàm tuyến
tính…
- Lan truyền xuôi tín hiệu đầu vào qua mạng: cung cấp véctơ đầu vào cho lớp
thứ nhất của mạng, sau đó tín hiệu sẽ được lan truyền lần lượt trên từng lớp
mạng. Cuối cùng ta sẽ thu được vector đầu ra thực sự của mạng.
- Tính sai số của mạng rồi lan truyền ngược sai số lần lượt từ lớp đầu ra cho
tới lớp đầu vào để hiệu chỉnh tham số mạng tại các neuron ở các lớp (trọng số
liên kết, ngưỡng) theo các luật hiệu chỉnh trọng số tương ứng với hàm đánh giá
sai số.
- Lặp lại hai quá trình trên sao cho đầu ra thực sự của mạng càng gần với giá
trị mục tiêu càng tốt (sai số của mạng càng nhỏ càng tốt).
Phương pháp điều chỉnh trọng số như sau:
Đặt = d – y trong đó y là đầu ra thực và d là đầu ra mong muốn
y = (net) với là hàm truyền.
ta cần phải tính iw là độ sai lệch trọng số tương ứng với đầu vào i.
iw = -k
iw
E
với k là một hằng số
p
p
pep
E
1
1 gọi là độ sai lệch bình phương trung bình.
trong đó
2
ppe = 2)( pp yd
y = (net) với là hàm truyền.
n
oi
piip xwnet )(
Ta sẽ điều chỉnh các trọng số bằng một lượng tỷ lệ với giá trị sai lệch giữa
đầu ra mong muốn và đầu ra thực sự.
Đặt = 2k là một hằng số và hằng số này do người dùng đặt ra gọi là hằng
số tốc độ học.
Quá trình học dừng lại khi thỏa mãn một trong các điều kiện sau:
÷ Mọi iw của quá trình truyền ngược là đủ bé hơn ngưỡng cho phép.
- 32 -
÷ Lỗi ở đầu ra nhỏ có thể chấp nhận được.
÷ Sau một số bước lặp đủ lớn…
Tóm lại quá trình truyền ngược gồm các bước sau:
a. Bước 1: Chọn Emax, >0 , các trọng số được gắn ngẫu nhiên bé.
b. Bước 2: Truyền thẳng ( Forward Propagation) truyền thẳng các tín hiệu để
thu được giá trị đầu ra.
c. Bước 3: Đo độ sai lệch: Tính giá trị sai lệch bình phương giữa tín hiệu thu
được và kết quả mong muốn.
d. Bước 4: Truyền ngược để điều chỉnh trọng số.
e. Bước 5: Kiểm tra tổng bình phương độ sai lệch (Total Error Checking).
÷ Nếu chấp nhận được E < EMax kết thúc quá trình điều chỉnh, ghi đầu ra.
÷ Nếu không bắt đầu giai đoạn lặp mới.
2). Sự hội tụ:
Thuật toán lan truyền ngược hội tụ đến một giải pháp mà nó tối thiểu hóa
được sai số trung bình bình phương. Tuy nhiên đối với mạng MLP thì hàm sai
số trung bình bình phương thường phức tạp và có nhiều cực trị cục bộ, vì thế các
phép lặp huấn luyện mạng có thể chỉ đạt đến cực trị cục bộ của hàm sai số trung
bình bình phương mà không đạt đến được cực trị tổng thể. Vấn đề huấn luyện sẽ
hội tụ như thế nào sẽ phụ thuộc vào các điều kiện ban đầu của quá trình huấn
luyện đặc biệt là việc chọn hệ số học. Với mỗi bài toán khác nhau thì ta có
phương án chọn hệ số học khác nhau. Không có hệ số học thích hợp cho mọi bài
toán mà ta chọn hệ số học theo kinh nghiệm, thông thường hệ số học được chọn
trong khoảng (10-3 – 10).
2.5. Thiết kế mạng nơron
Năm 1996, Icebeling Kaastra và Milton Boyd [10] đưa ra một phương pháp
thiết kế mạng nơron để dự báo định lượng, chia thành 8 bước thực hiện. Phương
pháp luận của nó được thiết kế dựa trên các bước đã được đưa ra bởi Deboeck,
Masters, Blum, Nelson và Illingworth. Các bước đó như sau:
Bước 1: Lựa chọn biến
Bước 2: Thu thập dữ liệu
Bước 3: Tiền xử lý dữ liệu
Bước 4: Xác định tập huấn luyện, tập kiểm thử
- 33 -
Bước 5: Xác định mô hình mạng nơron
÷ Số lượng lớp ẩn
÷ Số lượng nơron ẩn
÷ Số lượng nơron đầu ra
÷ Hàm kích hoạt
Bước 6: Xác định tiêu chí đánh giá
Bước 7: Huấn luyện mạng nơron
÷ Số vòng lặp huấn luyện
÷ Tốc độ học và hệ số xung lượng
Bước 8: Thực thi
Các bước này không phải là quá trình thực hiện một lần mà có thể quay trở lại
các bước trước khi cần thiết, đặc biệt là đối với bước huấn luyện và bước lựa
chọn biến.
1) Bước 1: Lựa chọn biến
Việc thiết kế thành công một mạng nơron phụ thuộc nhiều vào việc hiểu rõ
bài toán thế nào. Biết rõ những biến đầu vào nào là quan trọng trong miền cần
dự báo. Điều này nói thì dễ nhưng làm thì khó bởi vì lý do quan trọng để người
ta tin tưởng vào mạng nơron là ở sức mạnh của nó trong việc phát hiện ra những
mối quan hệ không tuyến tính phức tạp trong số lượng lớn các biến số khác
nhau. Dù vậy, lý thuyết kinh tế có thể trợ giúp chúng ta trong việc lựa chọn các
biến số có vẻ như sẽ là các bộ dự báo quan trọng. Nếu thiết kế theo quan điểm
này, chúng ta sẽ quan tâm tới dữ liệu thô mà từ đó rất nhiều chỉ báo sẽ được phát
triển. Những chỉ báo này sẽ tạo nên các đầu vào thực tế cho mạng nơron.
Các nhà nghiên cứu tài chính thường quan tâm tới vấn đề liệu việc dự báo thị
trường có thể sử dụng cả dữ liệu đầu vào kinh tế cơ sở và kinh tế kỹ thuật từ một
hoặc nhiều thị trường hay không. Các đầu vào kỹ thuật được đĩnh nghĩa là các
giá trị trễ của các biến phụ thuộc hoặc các chỉ báo được tính toán ra từ các giá trị
trễ. Các đầu vào cơ sở là các biến số kinh tế có ảnh hưởng trực tiếp tới các biến
phụ thuộc. Mô hình mạng nơron đơn giản nhất sử dụng các giá trị trễ của các
biến độc lập hoặc sai phân bậc nhất của chúng để làm đầu vào. Mô hình đó đã
thực hiện tốt hơn mô hình truyền thống Box-Jenkins trong việc dự báo giá, tất
nhiên là không phải trong tất cả các trường hợp. Một cách tiếp cận thông dụng
- 34 -
hơn là tính ra các chỉ báo kỹ thuật dựa trên các giá trị quá khứ của thị trường cần
dự báo.
Tần suất của dữ liệu phụ thuộc vào mục đích của nhà nghiên cứu. Một hệ
thống giao dịch chứng khóan điển hình sẽ có xu hướng sử dụng dữ liệu theo
ngày để thiết kế mạng nơron như là một phần của hệ thống giao dịch tổng thể.
Tuy nhiên một nhà đầu tư theo chiến lược lâu dài hơn có thể sử dụng dữ liệu
theo tuần hoặc theo tháng làm đầu vào cho mạng nơron. Trong khi đó, để dự báo
GDP, vấn đề thất nghiệp hoặc các chỉ báo kinh tế nước ngoài, các nhà kinh tế
thường sử dụng dữ liệu theo tháng hoặc theo quý.
2). Bước 2: Thu thập dữ liệu
Các nhà nghiên cứu cần quan tâm tới khả năng thu thập được các dữ liệu của
các biến đã chọn trong bước trước. Dữ liệu kỹ thuật thường dễ dàng thu thập
được từ nhiều nhà cung cấp với giá thành phải chăng, trong khi đó, thông tin cơ
sở thường khó thu thập hơn. Thời gian thu thập dữ liệu không thể được tính vào
thời gian tiền xử lý, huấn luyện hoặc đánh giá mạng nơron. Nhà cung cấp cũng
nên chú trọng tới chất lượng dữ liệu; dữ liệu nên được kiểm tra lỗi bằng cách
kiểm tra sự thay đổi theo thời gian, khoảng giá trị, sự thống nhất, logic, và các
giá trị thiếu.
Các giá trị thiếu, vấn đề thường xuyên xuất hiện, có thể được giải quyết
bằng một số cách. Tất cả các giá trị thiếu có thể được loại bỏ hoặc có thể thay tất
cả các giá trị thiếu bằng giá trị xuất hiện nhiều nhất hoặc giá trị trung bình cộng
của các giá trị lân cận.
Khi sử dụng dữ liệu cơ sở làm đầu vào cho mạng nơron, cần để ý tới bốn
vấn đề sau:
- Phương pháp tính cần nhất quán trong toàn bộ quá trình
- Không nên sửa lại các giá trị dữ liệu sau khi đã khởi tạo nó vào hệ thống bởi
các giá trị sửa lại sẽ không có giá trị gì cho việc dự báo thực tế.
- Dữ liệu để làm đầu vào cho mạng nơron nên được làm trễ một cách hợp lý
bởi vì thông tin cơ sở không thể có nhanh như thông tin thị trường chứng khóan
được.
- Các nhà nghiên cứu nên đảm bảo rằng các nguồn dữ liệu vẫn sẽ cung cấp
được các thông tin cơ sở trong tương lai.
3). Bước 3: Tiền xử lý dữ liệu
Tiền xử lý dữ liệu có thể hiểu là việc phân tích và chuyển đổi các biến đầu
vào và đầu ra để giảm thiểu nhiễu, làm nổi bật các mối quan hệ quan trọng, phát
hiện xu hướng và làm phẳng các phân phối biến để hỗ trợ mạng nơron trong
- 35 -
việc học các mẫu tốt hơn. Dữ liệu đầu vào và đầu ra sau khi được thu thập
thường không được đưa ngay vào mạng nơron dưới dạng thô. Ít nhất, dữ liệu thô
cần được chia lại vào khoảng cận trên và cận dưới của hàm chuyển đổi (thường
là trong khoảng [0,1] hoặc [-1,1]).
Hai trong số các phương pháp chuyển đổi dữ liệu thông thường nhất cả trong
phương pháp dự báo thông thường và trong dự báo bằng mạng nơron là sai phân
bậc nhất và lấy logarit tự nhiên của biến. Sai phân bậc nhất, hoặc sử dụng sự
thay đổi của biến, có thể được sử dụng để loại bỏ các xu hướng tuyến tính của
dữ liệu. Phương pháp chuyển đổi logarit thường có ích cho các tập dữ liệu có cả
giá trị rất lớn và rất nhỏ. Sơ đồ (histogram) trong hình 2 thể hiện hiệu quả nén
của chuyển đổi logarit cho số liệu buôn bán lúa gạo theo tháng. Chuyển đổi
logarit cũng có thể giúp chuyển đổi các mối quan hệ theo cấp số nhân về cấp số
cộng, làm đơn giản và tăng hiệu quả cho việc huấn luyện mạng nơron.
Trước khi chuyển đổi
Sau khi chuyển đổi qua hàm logarit
- 36 -
Hình 6. Chuyển đổi logarit của số liệu buôn bán lúa gạo theo tháng
Một cách chuyển đổi thông dụng khác là sử dụng các tỷ số của biến đầu vào.
Các tỷ số thể hiện rõ các mối quan hệ quan trọng trong khi đó vẫn bảo tồn được
mức độ tự do vì sẽ cần ít nơron hơn để mã hóa các biến độc lập.
Lấy mẫu hoặc lọc dữ liệu được hiểu là loại bỏ các đối tượng dữ liệu khỏi tập
huấn luyện và tập kiểm tra để tạo ra các phân bố dữ liệu vững chắc hơn. Cách
lọc dữ liệu nên thống nhất với mục tiêu của nhà nghiên cứu. Ví dụ, biểu đồ về sự
thay đổi giá của các mặt hàng hóa có thể chứa rất nhiều những thay đổi nhỏ. Đối
với những người buôn chứng khóan thì chúng không có tác dụng gì cả, tuy
nhiên, chúng lại ảnh hưởng lớn tới việc huấn luyện mạng nơron bởi các thay đổi
nhỏ này vẫn được tính vào các lần huấn luyện và mạng nơron tính sai số bình
phương (hoặc các hàm sai số khác) dựa trên toàn bộ các lần huấn luyện. Nếu
loại bỏ những sự thay đổi nhỏ đó, khả năng thực thi của mạng sẽ được cải tiến
bởi mạng sẽ tập trung hơn vào những thay đổi lớn của dữ liệu. Mặt khác, những
người kinh doanh nhỏ lại có xu hướng quan tâm tới những thay đổi nhỏ này. Vì
vậy, người nghiên cứu phải hiểu rất rõ và chính xác mạng nơron được dùng để
học cái gì. Một lợi ích nữa của lọc dữ liệu là làm giảm số lượng các sự kiện huấn
luyện, giảm tải cho quá trình huấn luyện mạng nơron.
Trong thực tế, việc tiền xử lý dữ liệu thường bao gồm nhiều dữ liệu thử và
lỗi hơn. Một phương pháp để chọn các biến phù hợp là thử nghiệm các kết hợp
khác nhau của biến. Ví dụ, với một tập 20 biến gồm nhiều chỉ báo kỹ thuật khác
nhau, có thể chọn tập 10 biến một thể thử nghiệm trước và thay đổi 2, 3 biến 1
- 37 -
lần. Mặc dù cách này khá tốn công, tuy nhiên phương pháp này sẽ giúp tìm ra
các tập biến mà có vẻ như sẽ là các bộ dự báo tuyệt vời khi kết hợp với nhau. Lý
thuyết hỗn độn và thống kê cũng không hỗ trợ được trong trường hợp này. Dù
vậy, danh sách 20 biến này có thể thay đổi theo thời gian khi nhà nghiên cứu thu
được nhiều kinh nghiệm hơn trong việc tiền xử lý dữ liệu cho ứng dụng của
mình. Cách tiếp cận này đặc biệt hữu dụng trong trường hợp tập huấn luyện nhỏ
và gần với số lượng biến.
4). Bước 4: Xác định tập huấn luyện, tập kiểm tra và đánh giá
Thông thường, người ta chia tập dữ liệu chuỗi thời gian ra làm 3 tập riêng
biệt gọi là tập huấn luyện, tập kiểm tra và tập đánh giá. Tập huấn luyện là tập
lớn nhất và được sử dụng để huấn luyện mạng nơron, tìm ra các mẫu. Tập kiểm
tra, thường có kích thước từ 10% đến 30% tập huấn luyện, được dùng để đánh
giá khả năng tổng quát hóa của mạng nơron. Nhà nghiên cứu nên chọn mạng có
kết quả thực thi tốt nhất trên tập kiểm tra. Tập đánh giá được sử dụng sau cùng
để kiểm tra hiệu năng của mạng nơron sau khi đã được huấn luyện. Kích thước
của tập đánh giá phải tính toán để cân bằng giữa số lượng mẫu đủ để đánh giá và
số lượng mẫu còn lại cho cả tập huấn luyện và kiểm tra. Thông thường, tập đánh
giá nên dùng những mẫu mới nhất và phải đảm bảo không dùng tập đánh giá
trong quá trình huấn luyện và kiểm tra, kể cả khi điều chỉnh lại các tham số của
mạng.
Tập kiểm tra có thể được chọn tùy ý trong tập huấn luyện hoặc có thể gồm
những phần tử liền kề sau tập huấn luyện. Việc chọn ngẫu nhiên có ưu điểm là
tránh được những nguy hiểm khi sử dụng tập kiểm tra có tính chất dữ liệu giống
nhau. Tuy nhiên việc chọn tập kiểm tra gồm những phần tử liền kề sau tập huấn
luyện cũng có ưu điểm bởi vì với cách chọn này, dữ liệu kiểm tra thường sẽ là
những mẫu dữ liệu mới (gần nhất, trừ những dữ liệu trong tập đánh giá), và
những dữ liệu này thường là quan trọng hơn những dữ liệu cũ.
Nếu sử dụng phương pháp chọn ngẫu nhiên thì tập kiểm tra không được thay
đổi trong quá trình huấn luyện, vì nó sẽ làm giảm khả năng tổng quát hóa của
mạng nơron, đặc biệt trong những trường hợp tập kiểm tra khá lớn so với tập
huấn luyện (ví dụ như 30%). Những phương pháp lựa chọn khác, ví dụ như chọn
các mẫu thứ n trong thứ tự làm tập kiểm tra, không được khuyên dùng, bởi có
thể tạo các vòng lặp trong mẫu dữ liệu.
Một cách tiếp cận nghiêm ngặt hơn trong việc đánh giá mạng nơron là
phương pháp kiểm tra walk-forward hay còn gọi là phương pháp kiểm tra cửa sổ
- 38 -
trượt. Phương pháp này sẽ tạo ra 1 dãy các tập huấn luyện-kiểm tra-đánh giá,
chèn lên nhau. Mỗi tập sẽ lần lượt tịnh tiến theo chuỗi thời gian như trong hình
3. Phương pháp này sẽ kiểm tra sức mạnh của mô hình thông qua việc huấn
luyện lại mạng nơron với tập dữ liệu ngoài mẫu (out-of-sample). Trong phương
pháp này, kích thước của tập đánh giá sẽ hướng dẫn việc huấn luyện lại mạng
nơron. Việc huấn luyện lại sẽ khá tốn thời gian, tuy nhiên nó sẽ cho phép mạng
thích nghi nhanh hơn với những điều kiện thay đổi của thị trường.
Hình 7. Phương pháp kiểm tra cửa sổ trượt
Người ta khuyến nghị rằng tập huấn luyện và tập kiểm tra nên được giữ
nguyên tỉ lệ trong quá trình huấn luyện mạng, vì mục tiêu của tập kiểm tra là để
xác định khả năng tổng quát hóa của mạng. Tuy nhiên, tập đánh giá không nhất
thiết phải cùng tỉ lệ với tập huấn luyện và tập kiểm tra vì đây là bước kiểm tra
sau cùng và độc lập.
5). Bước 5: Xác định mô hình mạng nơron
Có rất nhiều cách xây dựng mạng nơron. Cấu trúc và kiến trúc mạng nơron
là 2 cụm từ thường được dùng để mô tả về cách tổ chức một mạng nơron. Sự kết
hợp của cấu trúc nơron và kiến trúc sẽ định nghĩa ra mô hình mạng nơron. Cấu
trúc nơron mô tả tính chất của một nơron độc lập như hàm chuyển đổi hay cách
các đầu vào kết hợp với nhau. Kiến trúc mạng nơron thường bao gồm các yếu tố
như số lớp, số nơron trong mỗi lớp và cách thức liên kết của chúng.
Số lượng nơron đầu vào là tham số dễ lựa chọn nhất nếu số lượng các biến
độc lập đã được xác định, bởi mỗi biến độc lập sẽ được biểu diễn bởi một nơron
- 39 -
đầu vào. Phần này sẽ đề cập tới cách lựa chọn số lớp ẩn, số nơron ẩn, số nơron
đầu ra và hàm chuyển đổi.
a. Số lượng lớp ẩn
Số lượng lớp ẩn đại diện cho khả năng tổng quát hóa của mạng. Theo lý
thuyết, mạng nơron với một lớp ẩn và một số lượng đủ lớn các nơron ẩn sẽ có
khả năng xấp xỉ được bất kỳ hàm liên tục nào. Trong thực tế, mạng nơron với
một lớp ẩn và đôi khi là hai lớp ẩn được sử dụng rộng rãi và cho kết quả tốt.
Tăng số lượng lớp ẩn lên cũng đồng nghĩa với tăng thời gian tính toán và tăng
nguy cơ bị quá phú hợp (overfitting). Phù hợp quá xảy ra khi mô hình dự báo có
quá ít mẫu liên quan tới các tham số của nó và do đó nó sẽ ghi nhớ các điểm độc
lập chứ không phải là học mô hình chung. Cụ thể đối với mạng nơron, số lượng
trọng số, cái được gắn cố định với số lượng các lớp và nơron ẩn, và kích thước
của tập huấn luyện (số lượng mẫu) sẽ quyết định khả năng xảy ra overfitting.
Càng có nhiều trọng số liên quan tới kích thước của tập huấn luyện thì càng dễ
xảy ra khả năng mạng ghi nhớ các đặc tính của các mẫu độc lập. Điều đó đồng
nghĩa với việc khả năng tổng quát hóa sẽ mất đi và khả năng dự báo thực tế của
mô hình sẽ kém.
Chính vì thế, người ta khuyến nghị rằng tất cả các mạng nơron nên bắt đầu
với một hoặc cùng lắm là hai lớp ẩn. Nếu một mạng nơron 4 lớp (2 lớp ẩn) vẫn
không thỏa mãn được các điều kiện kiểm tra sau khi đã thử thay đổi các trọng số
hợp lý cho các nơron ẩn thì người nghiên cứu nên sửa lại các biến đầu vào nhiều
lần trước khi thêm lớp ẩn thứ 3. Cả lý thuyết và các kinh nghiệm thực tiễn đều
cho thấy là các mạng nơron với nhiều hơn 4 lớp đều không thể cải thiện được
kết quả dự báo.
b. Số lượng nơron ẩn
Mặc dù đây là yếu tố rất quan trọng nhưng không có công thức “thần kỳ”
nào để đưa ra được số lượng tối ưu các nơron ẩn. Chính vì thế, chúng ta bắt
buộc phải quay trở lại vấn đề thực nghiệm. Tuy nhiên, các nghiên cứu trước đây
đã đưa ra một số luật cơ bản. Chúng ta có thể tính xấp xỉ số lượng nơron ẩn theo
luật Kim tự tháp được đưa ra bởi Masters. Luật này như sau: trong một mạng
nơron 3 lớp với n nơron đầu vào và m nơron đầu ra thì lớp ẩn nên có mn.
nơron. Số lượng nơron ẩn thực tế có thể dao động từ một nửa tới 2 lần số lượng
đề xuất bởi luật Kim tự tháp tùy theo độ phức tạp của bài toán. Baily và
Thompson [8] thì khuyến nghị là số lượng nơron ẩn trong một mạng nơron 3 lớp
nên là 75% số lượng nơron đầu vào. Katz [11] chỉ ra rằng số lượng tối ưu các
nơron ẩn sẽ nằm trong khoảng từ ½ tới 3 lần số lượng nơron đầu vào. Ersoy [12]
- 40 -
đề nghị một phương pháp là cứ tiếp tục tăng gấp đôi số nơron ẩn cho tới khi nào
việc thử nghiệm mạng với tập kiểm tra cho kết quả xấu đi. Klimasauskas [13]
khuyến nghị là số lượng sự kiện huấn luyện nên nhiều ít nhất gấp 5 lần số lượng
trọng số.
Cần chú ý là các luật tính toán số lượng nơron ẩn dựa trên số lượng nơron
đầu vào đều ngầm định là tập huấn luyện phải lớn ít nhất gấp 2 lần số lượng
trọng số và nên lớn hơn từ 4 lần trở lên. Nếu không thỏa mãn được điều kiện này
thì các luật trên sẽ nhanh chóng dẫn mô hình tới tình trạng overfitting bởi số
lượng nơron ẩn phụ thuộc trực tiếp vào số lượng nơron đầu vào (nơron đầu vào
quyết định số lượng trọng số). Giải pháp cho tình trạng này là hoặc tăng kích
thước của tập huấn luyện, hoặc nếu không thì giới hạn lại số lượng nơron đầu
vào sao cho số lượng trọng số chỉ bằng một nửa số sự kiện huấn luyện. Trong
trường hợp này việc lựa chọn các biến đầu vào cũng trở thành một bài toán khó.
Có 3 phương pháp để lựa chọn số lượng tốt nhất các nơron ẩn là: phương
pháp cố định, phương pháp tăng thêm và phương pháp giảm bớt. Trong cách
tiếp cận cố định, một nhóm mạng nơron với số lượng nơron ẩn khác nhau được
huấn luyện và lần lượt đánh giá trên một tập kiểm tra với các trọng số được khởi
tạo ngẫu nhiên. Số lượng các nơron tăng thêm có thể là 1, 2 hoặc nhiều tùy theo
quá trình tính toán. Kết quả đánh giá lỗi trên tập kiểm tra của các mạng nơron sẽ
được ghi lại dưới dạng một hàm của số lượng nơron ẩn và tạo thành một đồ thị
lỗi. Mạng nào ít lỗi nhất sẽ được chọn vì nó sẽ có khả năng tổng quát hóa cao
nhất. Cách này rất tốn thời gian, tuy nhiên thường cho kết quả rất tốt.
Cách tiếp cận tăng thêm hoặc giảm đi thường thay đổi số lượng nơron ẩn
ngay trong quá trình huấn luyện chứ không tạo ra nhiều mạng nơron với số
lượng nơron ẩn khác nhau như trong phương pháp cố định. Rất nhiều gói phần
mềm thương mại về mạng nơron không hỗ trợ việc thêm hoặc bớt các nơron ẩn
trong quá trình huấn luyện. Tư tưởng của cách tiếp cận tăng thêm là cứ tăng
thêm số lượng nơron ẩn cho tới khi khả năng thực thi của mạng bắt đầu kém đi.
Tư tưởng của cách tiếp cận giảm đi cũng tương tự, tuy nhiên số lượng nơron ẩn
được giảm dần đi trong quá trình huấn luyện.
Bất kể là sử dụng phương pháp nào để tìm số lượng nơron ẩn thì có một
quy luật chung là luôn luôn chọn mạng thực thi tốt nhất trên tập kiểm tra với số
lượng nơron ẩn ít nhất. Trong quá trình thử nghiệm để tìm số nơron ẩn, các tham
số khác phải được giữ nguyên. Thay đổi bất kỳ tham số nào khác sẽ tạo ra một
mạng nơron mới với đồ thị lỗi mới và sẽ làm tăng thêm sự phức tạp cho việc tìm
số lượng tối ưu các nơron ẩn.
- 41 -
c. Số lượng nơron đầu ra
Quyết định số lượng nơron đầu ra nói chung là một vấn đề khá dễ dàng bởi
có nhiều lý do thuyết phục để luôn luôn sử dụng mạng với duy nhất một nơron
đầu ra. Mạng nơron với nhiều đầu ra, đặc biệt nếu những đầu ra này khá cách
biệt, sẽ cho kết quả kém hơn so với một mạng nơron chỉ có một đầu ra. Một
mạng nơron được huấn luyện bằng cách chọn các trọng số sao cho tối thiểu hóa
sai số trung bình toàn phần của nơron đầu ra. Ví dụ, một mạng nơron để dự báo
giá đồ đạc trong 1 tháng tới và 6 tháng tới sẽ tập trung vào việc giảm sai số lớn
nhất của nó, ở đây là sai số khi dự báo cho 6 tháng. Vì vậy nó sẽ không cải tiến
được nhiều cho việc dự báo 1 tháng. Giải pháp đưa ra ở đây là xây dựng các
mạng nơron chuyên biệt cho mỗi mục tiêu dự báo. Chuyên biệt hóa các mạng
nơron cũng sẽ làm giảm lỗi bởi các mạng nơron sẽ trở nên nhỏ hơn và sẽ có ít
tham số phải thay đổi hơn để tối ưu hóa mô hình cuối cùng.
d. Hàm kích hoạt
Hàm kích hoạt là các công thức toán học quyết định đầu ra của quá trình xử
lý nơron. Nó cũng có tên khác là hàm chuyển đổi, hàm ngưỡng… Đa phần các
mạng nơron hiện nay sử dụng hàm sigmoid, ngoài ra còn có thể sử dụng các
hàm khác như hàm tang hypebol, hàm ngưỡng, hàm arctang, hàm tuyến tính…
Mục tiêu của hàm kích hoạt là ngăn không cho mạng nơron tạo ra các giá trị đầu
ra quá lớn mà có thể làm “tê liệt” mạng và làm cản trở quá trình huấn luyện.
Các hàm kích hoạt tuyến tính thường không hữu dụng cho các bài toán phi
tuyến. Các bài toán về thị trường, tài chính thường là các bài toán phi tuyến và
các hàm kích hoạt phi tuyến sẽ cho kết quả tốt hơn, ví dụ như hàm sigmoid rất
thích hợp với dữ liệu chuỗi thời gian.
Klimasauskas cho rằng nếu dùng mạng nơron để học các đặc tính trung bình
của tập dữ liệu thì nên sử dụng hàm sigmoid, còn nếu dùng mạng nơron để học
về độ lệch so với giá trị trung bình thì hàm tang hypecbolic là thích hợp nhất.
Hàm dốc và hàm ngưỡng thường được dùng cho các biến nhị phân bởi vì hàm
sigmoid chỉ tiệm cận tới các giá trị 0 hoặc 1. Trong mạng truyền thẳng chuẩn,
lớp nơron đầu vào thường sử dụng hàm kích hoạt tuyến tính còn các lớp còn lại
sử dụng hàm sigmoid.
Dữ liệu thô thường được đưa về khoảng [0,1] hoặc [-1,1], như vậy nó sẽ
thống nhất với các hàm kích hoạt. Hai phương pháp chia lại tỉ lệ dữ liệu được sử
dụng phổ biến nhất với mạng nơron là: chia tỉ lệ tuyến tính và chia tỉ lệ theo độ
- 42 -
lệch chuẩn/trung bình. Trong phương pháp chia tỉ lệ tuyến tính, các mẫu dữ liệu
được đưa về khoảng giữa giá trị lớn nhất và nhỏ nhất theo công thức:
)(
)()(
minmax
min
minmaxmin DD
DDTFTFTFSV
trong đó SV là giá trị sau khi chia tỉ lệ, TFmin và TFmax là giá trị lớn nhất và nhỏ
nhất của hàm kích hoạt, D là giá trị của mẫu, và Dmin, Dmax là giá trị lớn nhất và
nhỏ nhất của tập mẫu.
Phương pháp chia tỉ lệ tuyến tính rất nhạy cảm với các điểm ngoại lai bởi nó
không chuyển đổi sự đồng dạng của phân bố mà chỉ đưa chúng vào khoảng giá
trị thích hợp của hàm kích hoạt. Trong hình 4, tập dữ liệu S & P 500 được chia tỉ
lệ tuyến tính và kết quả là 98.6% mẫu dữ liệu đã bị đưa về khoảng nhỏ hơn 10%
khoảng của hàm kích hoạt. Phân bố dữ liệu như vậy không thích hợp để huấn
luyện mạng nơron.
Hình 8. Hai phương pháp chia tỉ lệ thông dụng trên tập dữ liệu S&P500
- 43 -
Trong phương pháp chia tỉ lệ độ lệch chuẩn và trung bình, tất cả các giá trị sẽ
được đưa về khoảng [0,1] theo công thức:
A
Avv
'
Trong đó A và A lần lượt là giá trị trung bình và độ lệch chuẩn. Phương
pháp này sẽ giữ được sự đồng dạng của phân bố. Hầu hết các phần mềm mạng
nơron đều tự động chia tỉ lệ các biến về khoảng giá trị thích hợp. Dù vậy, vẫn
nên xem qua biểu đồ histogram của biến đầu ra và biến đầu vào sau khi chia tỉ
lệ.
6). Bước 6: Xác định hàm đánh giá sai số
Hàm đánh giá thông dụng nhất trong mạng nơron là hàm tổng lỗi bình
phương tối thiểu. Một số hàm đánh giá khác phải kể đến là: độ lệch tuyệt đối tối
thiểu, lũy thừa bốn tối thiểu, bình phương tối thiểu đồng dạng và sai phân phần
trăm. Những hàm đánh giá này có thể không phải là tiêu chí đánh giá cuối cùng
bởi vì các phương pháp đánh giá dự báo thông thường như phần trăm lỗi tuyệt
đối trung bình (mean absolute percentage error – MAPE) thường là không đạt
cực tiểu trong mạng nơron.
Ví dụ một hệ thống bán đồ đạc, những dự báo của mạng nơron sẽ được
chuyển thành tín hiệu mua/bán dựa vào các tiêu chí xác định trước, ví dụ các giá
trị dự báo lớn hơn 0.8 hoặc 0.9 sẽ được coi là tín hiệu mua còn các giá trị dự báo
nhỏ hơn 0.1 hoặc 0.2 sẽ được coi là các tín hiệu bán. Các tín hiệu mua/bán sau
đó sẽ được đưa vào một chương trình tính rủi ro và mạng nào có kết quả rủi ro
thấp nhất (chứ không phải là kết quả lỗi nhỏ nhất trên tập kiểm tra) sẽ được
chọn.
Lọc các giá trị của chuối thời gian để loại bỏ các thay đổi nhỏ có thể giúp
tránh được tình trạng mạng nơron có điểm chuyển cao mà độ chính xác dự báo
vẫn không chấp nhận được.
7). Bước 7: Huấn luyện mạng nơron
Huấn luyện một mạng nơron để học được các mẫu là việc cho mạng nơron
chạy qua các dữ liệu có câu trả lời đúng. Mục tiêu của việc huấn luyện là tìm ra
tập các trọng số giữa các nơron mà có thể cho ra cực tiểu toàn cục của hàm đánh
giá. Thông thường, trừ phi mô hình rơi vào tình trạng overfit, nếu không tập
trọng số này sẽ cho kết quả tổng quát hóa tốt. Mạng truyền thẳng sử dụng thuật
- 44 -
toán huấn luyện giảm gradient, điều chỉnh các trọng số đi xuống theo chiều dốc
nhất của mặt phẳng lỗi. Dù vậy, điều này không hoàn toàn đảm bảo là tìm được
cực tiểu toàn cục bởi mặt phẳng lỗi có rất nhiều cực tiểu địa phương có thể dẫn
thuật toán tới chỗ “tắc”. Sử dụng khái niệm xung lượng và 5 -10 tập trọng số
khởi tạo ngẫu nhiên sẽ làm tăng cơ hội tìm được cực tiểu toàn cục. Phần này sẽ
đề cập tới việc khi nào có thể dừng việc huấn luyện mạng nơron và các chọn tốc
độ học và hệ số xung lượng.
a. Số vòng lặp huấn luyện
Có hai quan điểm khi xem xét vấn đề khi nào có thể dừng huấn luyện mạng
nơron. Quan điểm thứ nhất lo ngại về vấn đề có thể vướng vào các cực tiểu địa
phương do vậy khó tìm được cực tiểu toàn cục. Người nghiên cứu chỉ nên dừng
việc huấn luyện khi không còn cải tiến được hàm đánh giá, dựa trên một số
lượng hợp lý các trọng số ngẫu nhiên. Quan điểm này được gọi là “hội tụ”. Quan
điểm thứ hai chủ trương tạo ra một loạt các điểm dừng trong khi huấn luyện và
kiểm tra tại các điểm dừng đó. Việc huấn luyện sẽ được dừng lại sau một số
vòng lặp đã định trước và khả năng tổng quát hóa của mạng nơron trên tập kiểm
tra sẽ được đánh giá sau đó lại quay trở lại việc huấn luyện. Mạng nào có kết
quả lỗi trên tập kiểm tra thấp nhất từ dưới lên sẽ được chọn vì nó được cho là có
khả năng tổng quát hoá tốt nhất.
Vấn đề của phương pháp huấn luyện-kiểm tra là các điểm dừng huấn luyện-
kiểm tra có thể tạo ra các kết quả lỗi nhỏ trước khi lỗi tăng lên. Hay nói cách
khác, người nghiên cứu không có cách nào biết được liệu việc huấn luyện như
thế có thể cải thiện khả năng tổng quát hóa không, bởi các trọng số đều được
chọn ngẫu nhiên.
Cả hai quan điểm trên đều đồng ý là tổng quát hóa trên tập đánh giá là mục
tiêu cuối cùng và đều sử dụng tập kiểm tra để đánh giá số lượng lớn các mạng
nơron. Điểm khác biệt giữa hai cách tiếp cận chủ yếu nằm ở hai khái niệm huấn
luyện quá nhiều (overtraining) và phù hợp quá (overfitting). Những người theo
cách tiếp cận “hội tụ” cho rằng không tồn tại khái niệm huấn luyện quá nhiều
mà chỉ có overfitting. Overfitting chỉ là dấu hiệu chứng tỏ mạng có quá nhiều
trọng số. Giải pháp là giảm số lượng nơron ẩn (hoặc số lượng lớp ấn nếu có
nhiều hơn 1 lớp ẩn) và/hoặc tăng kích thước của tập huấn luyện lên. Những
người theo cách tiếp cận huấn luyện-kiểm tra thì cố gắng bảo vệ quan điểm
chống lại overfitting bằng cách dừng việc huấn luyện khi mạng đã có khả năng
tổng quát hóa đạt yêu cầu.
- 45 -
Ưu điểm của cách tiếp cận “hội tụ” là làm cho người ta tin rằng mạng luôn
đạt được cực tiểu toàn cục. Một ưu điểm nữa là người nghiên cứu phải quan tâm
tới một tham số (cực tiểu toàn cục) thay vì 2 tham số là điểm dừng huấn luyện
để kiểm tra và mạng huấn luyện-kiểm tra nào là tối ưu như trong phương pháp
huấn luyện-kiểm tra. Với phương pháp huấn luyện kiểm tra, ưu điểm của nó có
thể là mạng với độ chính xác vừa phải xây dựng bằng phương pháp này có thể
sẽ đạt độ tổng quát hóa tốt hơn những mạng xây dựng theo cách tiếp cận “hội
tụ” mà bị phù hợp quá (overfit). Nhưng nói chung người ta không chú trọng lắm
tới ưu điểm này. Một ưu điểm nữa có thể kể đến của cách tiếp cận huấn luyện-
kiểm tra là thời gian huấn luyện nhanh hơn cách tiếp cận “hội tụ”.
Hình 9. Đồ thị lỗi của quá trình huấn luyện và kiểm tra mạng nơron
Mục tiêu của cách tiếp cận “hội tụ” là đạt được cực tiểu toàn cục. Việc này
đòi hỏi phải thực hiện một số lần thích hợp các vòng lặp huấn luyện với số
lượng hợp lý các trọng số được khởi tạo ngẫu nhiên. Dù vậy vẫn không có gì
đảm bảo rằng mạng truyền thẳng sẽ đạt được cực tiểu toàn cục bởi nó có thể bị
vướng vào các cực tiểu địa phương.Trong thực tế thì các tài nguyên tính toán là
có giới hạn và người nghiên cứu phải tính tới vấn đề cân bằng các yếu tố khác
nhau để đạt được sự kết hợp tốt nhất. Người nghiên cứu phải sắp đặt, lựa chọn
số lượng các biến đầu vào cần kết hợp để huấn luyện, số lượng nơron ẩn mà
mạng kiểm tra, số lượng các trọng số khởi tạo ngẫu nhiên, và số lượng tối đa lần
chạy.
- 46 -
Ví dụ: một bộ 50 biến đầu vào được kiểm tra qua 3 nơron ẩn với 5 bộ trọng
số khởi tạo ngẫu nhiên và số lần chạy tối đa là 4,000 sẽ cho kết quả trong
3,000,000 vòng lặp. Thời gian thực hiện này cũng tương đương với việc 10 biến
đầu vào được kiểm tra qua 6 nơron ẩn với 10 bộ trọng số khởi tạo ngẫu nhiên và
5000 vòng lặp.
Một phương pháp khác để chọn giá trị hợp lý cho số lần chạy tối đa là vẽ đồ
thị tương ứng của tổng lỗi bình phương hoặc các độ đo lỗi thích hợp khác với
mỗi lần lặp hoặc tại điểm nào đó mà sự cải tiến là không đáng kể nữa (thông
thường thì tối đa là 10,000 vòng). Mỗi lần lặp có thể dễ dàng được biểu diễn nếu
phần mềm mạng nơron có tạo file thống kê. Sau khi vẽ được đồ thị tương quan
với số lượng trọng số khởi tạo ngẫu nhiên, người nghiên cứu có thể chọn số lần
chạy tối đa dựa trên điểm nào mà đồ thị ngừng không tăng mạnh nữa và đi theo
chiều ngang.
Có nhiều nghiên cứu cho thấy số lượng các vòng lặp có thể tạo ra sự hội tụ
nằm trong khoảng từ 85 đến 5,000 vòng. Tuy nhiên, người ta cũng ghi nhận
được những ngưỡng rất lớn về số vòng lặp như 50,000 hay 191,400 vòng và thời
gian huấn luyện có thể lên tới 60 giờ. Quá trình huấn luyện bị ảnh hưởng bởi rất
nhiều yếu tố như cách chọn tốc độ học, hệ số xung lượng, và cách chọn cũng
khác nhau trong các nghiên cứu vì vậy rất khó để đưa ra một giá trị tổng quát
cho số lần chạy tối đa. Tương tự, độ chính xác số học của phần mềm mạng
nơron cũng ảnh hưởng tới quá trình huấn luyện bởi sai số sinh ra có thể rất nhỏ
và làm cho chương trình mạng nơron đi chệch hướng bởi các thao tác làm tròn
số mà chuyện này rất dễ xảy ra đối với các thuật toán lặp nhiều vòng. Người ta
khuyến nghị rằng nên giải quyết vấn đề theo hướng chọn số vòng lặp cần thiết
để đạt được mức độ mà sự cải tiến là không đáng kể và kiểm tra số lượng các
trọng số ngẫu nhiên nhiều nhất mà tính toán cho phép.
b. Tốc độ học và hệ số xung lượng
Mạng truyền thẳng được huấn luyện theo thuật toán giảm gradient, đi theo
đường viền của mặt phẳng lỗi bằng cách luôn đi xuống theo chiều dốc nhất. Mục
tiêu của việc huấn luyện là cực tiểu hóa bình phương lỗi toàn cục, được định
nghĩa như sau:
M
h
hi
N
i
hi
M
h
h OtEE
2)(
2
1
2
1
E: tổng lỗi của tất cả các mẫu;
Eh: lỗi của mẫu h;
- 47 -
h đại diện cho các mẫu trong tập đầu vào;
i đại diện cho nơron đầu ra thứ i;
Biến thi là đầu ra mong muốn của nơron đầu ra thứ i khi thực thi với mẫu h;
Ohi là đầu ra thực tế của nơron đầu ra thứ i đối với mẫu h;
Hình 10. Giản đồ biểu diễn một mặt phẳng lỗi của mạng nơron
Luật huấn luyện để điều chỉnh trọng số giữa nơron i và j được định nghĩa như
sau:
)1()( hihihihihi OOOt (3)
N
k
jkhkhihihi wOO )1( (4)
)()1( hihiij Onw (5)
Trong đó n là số biểu diễn, δhi là tín hiệu lỗi của nơron i đối với mẫu h và ε
là tốc độ học.
Hệ số học là một hằng số quyết định độ lớn của sự thay đổi trọng số. Sự thay
đổi trọng số của một nơron tỷ lệ với ảnh hưởng của trọng số của nơron đó đối
với lỗi. Tín hiệu lỗi của một nơron đầu ra và một nơron ẩn lần lượt được tính
theo các phương trình (3) và (4).
Có thể xem việc huấn luyện một mạng truyền thẳng tương tự như việc một
người ném một quả bóng từ điểm A tới điểm C trong hình 9, dù trong thực tế
mặt phẳng lỗi là đa chiều và không thể biểu diễn dưới dạng đồ họa như vậy. Lực
để ném quả bóng cũng tương tự như tốc độ học. Ném quá mạnh có thể khiến quả
bóng bay quá khỏi mục tiêu, thậm chí quay trở lại điểm A hoặc nó có thể đu đưa
giữa 2 điểm A và B. Trong quá trình huấn luyện, tốc độ học quá cao có thể nhận
thấy khi hàm đánh giá thay đổi nhanh mà không cho thấy sự cải tiến nào. Nếu
- 48 -
lực ném quả bóng quá nhẹ, nó sẽ khó đi xa được khỏi điểm A, trong huấn luyện
mạng cũng vậy, hàm đánh giá sẽ được cải tiến rất ít, thậm chí không được cải
tiến. Tốc độ học quá nhỏ do vậy sẽ đòi hỏi nhiều thời gian huấn luyện hơn.
Trong cả hai trường hợp, người nghiên cứu phải điều chỉnh hệ số học trong khi
huấn luyện hoặc “tẩy não” mạng bằng cách chọn ngẫu nhiên tất cả các trọng số
và thay đổi tốc độ học để tạo ra một lần chạy mới trên tập huấn luyện.
Một phương pháp tăng hệ số học, đồng nghĩa với việc tăng tốc độ huấn
luyện mà không dẫn tới tình trạng vượt quá mục tiêu là thêm vào luật huấn
luyện của giải thuật truyển thẳng một hệ số xung lượng. Hệ số xung lượng sẽ
quyết định mức độ ảnh hưởng của lần thay đổi trọng số trước đó đối với lần thay
đổi trọng số hiện tại. Luật huấn luyện mới cho mạng truyền thẳng được định
nghĩa như sau:
)()()1( nwOnw ijhihiij
trong đó α là hệ số xung lượng.
Hệ số xung lượng sẽ lọc bỏ những sự thay đổi về tần suất cao. Mỗi hướng
tìm kiếm mới sẽ là tổng trọng số của gradient hiện thời và gradient trước đó. Giá
trị trung bình của gradient trong 2 giai đoạn như vậy sẽ lọc bớt những thay đổi
bất thường ở tốc độ nhanh của tốc độ học. Hệ số xung lượng quá lớn sẽ ngăn cản
thuật toán đi theo các đường gấp khúc của mặt phẳng trọng số. McClelland và
Rumelhart chỉ ra rằng hệ số xung lượng rất hữu ích trong mặt phẳng lỗi có chứa
các khe sâu, tường cao và đáy hơi dốc. Nếu không có hệ số xung lượng, để đi
xuống các khe sâu, cần sử dụng một tốc độ học rất nhỏ và sẽ mất rất nhiều thời
gian. Sử dụng hệ số xung lượng sẽ cho phép dùng tốc độ học cao hơn để đi qua
các khe đó.
Hầu hết các phần mềm mạng nơron đều cung cấp các giá trị mặc định tốt
cho tốc độ học và hệ số xung lượng. Các thực nghiệm cho thấy nên bắt đầu huấn
luyện với tốc độ học vào khoảng 0.7 và giảm dần trong quá trình huấn luyện.
Nhiều chương trình mạng nơron sẽ tự động giảm tốc độ học và tăng hệ số xung
lượng khi đạt tới sự hội tụ.
8). Bước 8: Thực thi
Bước thực thi là bước cuối cùng, nhưng trong thực tế cần chú ý cẩn thận
ngay từ bước thu thập dữ liệu. Mức độ sẵn sàng của dữ liệu, tiêu chí đánh giá, và
thời gian huấn luyện đều bị ảnh hưởng lớn bởi môi trường trong đó mạng nơron
sẽ được triển khai. Hầu hết các nhà cung cấp phần mềm mạng nơron đều cung
cấp khả năng để thực thi mạng nơron trong phần mềm của họ hoặc như một
- 49 -
chương trình độc lập. Nếu không, một mạng đã huấn luyện có thể được tạo dễ
dàng trong một chương trình bảng tính nếu biết kiến trúc, hàm kích hoạt và các
trọng số. Cũng cần chú ý là việc chuyển đổi dữ liệu, chuẩn hóa và các tham số
khác cần thống nhất từ khi kiểm thử tới khi sử dụng thực tế.
Ưu điểm của mạng nơron là có thể thích nghi với những thay đổi của điều
kiện thị trường nhờ vào việc huấn luyện lại. Sau khi triển khai, nếu không tiếp
tục huấn luyện lại, khả năng thực thi của mạng sẽ bị giảm sút theo thời gian. Tuy
vậy, ngay cả khi thường xuyên huấn luyện lại mạng thì cũng không có gì đảm
bảo rằng khả năng thực thi của mạng sẽ tốt mãi vì mức độ quan trọng của các
biến độc lập có thể thay đổi.
Người ta khuyến nghị rằng chu kỳ huấn luyện lại các mạng nơron sau khi
triển khai nên đúng theo chu kỳ đã sử dụng để kiểm tra trên mô hình cuối cùng.
Một mô hình tốt sẽ luôn mạnh mẽ đối với việc phải thường xuyên huấn luyện lại
và thường sẽ được cải tiến nếu thường xuyên huấn luyện lại hơn.
KẾT LUẬN CHƯƠNG 2
Trong Chương 2, luận văn tập trung giới thiệu về mạng nơron nhân tạo hiện
đang được ứng dụng rộng rãi trong nhiều lĩnh vực: không gian vũ trụ, dự báo tài
chính kinh tế, dự báo biến động giá cả, hoạt động ngân hàng, hệ thống quân sự,
điện tử viễn thông… Chương này cũng giới thiệu về thuật toán lan truyền sai số
ngược, một thuật toán rất nổi tiếng và hiệu quả trong ứng dụng mạng nơron.
Để ứng dụng mạng nơron vào các hoạt động dự báo định lượng, chương 2
đã giới thiệu phương pháp thiết kế, xây dựng mạng nơron để dự báo định lượng
trong lĩnh vực kinh tế, tài chính được đề xuất bởi của Icebeling Kaastra và
Milton Boyd. Đó là một quy trình gồm 8 bước: Lựa chọn biến, Thu thập dữ liệu,
Tiền xử lý dữ liệu, Xác định tập huấn luyện, tập kiểm thử, Xác định mô hình
mạng nơron, Xác định tiêu chí đánh giá, Huấn luyện mạng nơron, Thực thi.
Trong Chương 3, thông qua bộ công cụ phần mềm khai phá dữ liệu YALE,
luận văn sẽ thiết kế các mạng nơron nhân tạo và ứng dụng chúng để giải quyết
bài toán “Dự báo kết quả hoạt động SXKD cho VNPT”.
- 50 -
CHƯƠNG 3. DỰ BÁO KẾT QUẢ HOẠT ĐỘNG SXKD CHO
VNPT BẰNG PHƯƠNG PHÁP MẠNG NƠRON NHÂN TẠO
3.1. Xác định bài toán dự báo kết quả hoạt động sản xuất kinh doanh của
VNPT
Tập đoàn Bưu chính Viễn thông Việt Nam (VNPT) là một doanh nghiệp
gồm nhiều đơn vị thành viên hoạt động trong lĩnh vực bưu chính, viễn thông,
CNTT. Hàng tháng, các đơn vị thành viên phải báo cáo số liệu theo các chỉ tiêu
SXKD về Tập đoàn. Bộ số liệu SXKD được tổng hợp từ tháng 01/1999 đến
12/2007 bao gồm 1.569.861 bản ghi của:
- 613 chỉ tiêu SXKD;
- 79 đơn vị thành viên.
Các chỉ tiêu SXKD này có quan hệ, ảnh hưởng, tác động với nhau và được
phân theo từng nhóm chỉ tiêu như: nhóm chỉ tiêu về điện thoại cố định, nhóm
chỉ tiêu về điện thoại di động, nhóm chỉ tiêu về mạng Internet…
Hiện nay, hàng tháng, các chuyên viên của Tập đoàn phải ước lượng kết quả
SXKD của tháng này hoặc tháng sau bằng phương pháp ngoại suy từ kết quả
SXKD của những tháng trước đó, độ chính xác trung bình thường đạt là 10%.
Tuy nhiên, phương pháp này rất thủ công, tốn công sức và độ chính xác không
cao.
Bài toán đặt ra: cần dự báo trước từ 1 tháng tới 6 tháng một số chỉ tiêu SXKD
quan trọng cho từng đơn vị và cho toàn Tập đoàn, với độ chính xác dự báo tốt
hơn hoặc bằng phương pháp dự báo hiện đang được sử dụng.
3.2. Xác định hệ thống chỉ tiêu cần được phân tích, dự báo về kết quả
SXKD
3.2.1. Phân tích quy trình nghiệp vụ báo cáo số liệu tại VNPT
Việc dự báo số liệu SXKD của VNPT được thực hiện bởi các chuyên viên
theo trình tự các bước như sau:
- Bước 1: Hàng tháng, số liệu SXKD của các đơn vị được gửi về Tập đoàn dưới
dạng các báo cáo giấy hoặc dưới dạng file excel theo quy định của Tập đoàn.
- Bước 2: Các báo cáo đó sẽ được xử lý bởi các chuyên viên để tạo thành các
bảng tổng hợp số liệu của toàn Tập đoàn cho tất cả các chỉ tiêu SXKD.
- Bước 3: Sau khi thu thập và tổng hợp đầy đủ số liệu, các chuyên viên sẽ tiến
hành dự báo số liệu sản xuất kinh doanh bằng phương pháp ngoại suy dựa trên
- 51 -
kinh nghiệm của các chuyên viên lâu năm trong ngành cùng với sự trợ giúp của
các hàm Microsoft Excel (hàm forecast,…) cũng như tham khảo các phần mềm
dự báo trên mạng.
Một số chỉ tiêu thường được các chuyên viên dự báo là:
- Tổng doanh thu phát sinh, bao gồm:
÷ Doanh thu kinh doanh dịch vụ BC-VT phân theo Bưu chính; Phát hành bưu
chính; Viến thông.
÷ Doanh thu hoà mạng, dịch chuyển thuê bao
÷ Thu khác bao gồm: Doanh thu kinh doanh khác, Doanh thu hoạt động tài
chính và Thu nhập khác.
- Thuê bao viễn thông thực tăng
÷ Máy điện thoại ( phát triển - huỷ bỏ ) phân theo: Máy cố định; Máy di động
trả sau VinaPhone; Máy CityPhone, CDMA, GSM nội vùng…
÷ Thuê bao Internet gián tiếp: Thuê bao 1260; Thuê bao 1268 và 1269.
÷ Thuê bao MegaVNN
Các chỉ tiêu được dự báo đạt độ chính xác lên tới 96-98% (đối với dự báo
tháng) và 95-96% (dự báo năm), trong đó các chỉ tiêu càng tổng quát thì kết quả
dự báo càng chính xác và các chỉ tiêu càng chi tiết thì kết quả dự báo sẽ thấp
hơn.
Đối với các sản phẩm, dịch vụ mới thì kết quả dự báo theo phương pháp
hiện đang được ứng dụng cho kết quả rất hạn chế.
Mặt khác hiện tại công tác dự báo và lập kế hoạch của VNPT vẫn gặp một
số khó khăn chủ yếu là:
- Không có phần mềm chuyên dụng cho công tác dự báo ở VNPT: việc dự báo
chủ yếu dựa trên kinh nghiệm với sự trợ giúp của Microsoft Excel, khả năng dự
báo cho các những chỉ tiêu và dịch vụ mới gặp nhiều khó khăn.
- Kỹ năng sử dụng phần mềm trợ giúp dự báo (như Microsoft Excel, Access)
của các chuyên viên không đồng đều: do kinh nghiệm sử dụng phần mềm của
mỗi chuyên viên khác nhau nên việc sử dụng các phần mềm hỗ trợ cũng khác
nhau, dẫn đến sự thiếu thống nhất trong công tác tổng hợp số liệu và dự báo các
chỉ tiêu.
- 52 -
3.2.2. Xác định hệ thống chỉ tiêu cần được phân tích và dự báo
Số liệu sản xuất kinh doanh hiện nay của VNPT được lưu trữ tập trung với
hàng ngàn biểu mẫu báo cáo và hàng trăm chỉ tiêu, bao gồm các số liệu chính
xác định kỳ và đột xuất về tình hình sản xuất kinh doanh của các đơn vị thành
viên thuộc Tập đoàn.
Hiện cơ quan Tập đoàn lưu số liệu báo cáo về 4 mảng sản phẩm dịch vụ
chính của Tập đoàn là:
- Các sản phẩm, dịch vụ mạng hội tụ: bao gồm các sản phẩm,dịch vụ liên quan
đến mạng đường trục của Tập đoàn. Số liệu báo cáo về tình hình sản xuất kinh
doanh các sản phẩm, dịch vụ này được báo cáo thông qua các bưu điện tỉnh, các
công ty viễn thông vùng và đơn vị quản lý kinh doanh mạng đường trục của Tập
đoàn là công ty VTN.
- Các sản phẩm, dịch vụ mạng cố định: bao gồm các sản phẩm, dịch vụ điện
thoại cố định và các sản phẩm, dịch vụ kèm theo. Số liệu báo cáo về tình hình
sản xuất kinh doanh các sản phẩm, dịch vụ này do các bưu điện tỉnh và các công
ty viễn thông vùng thu thập, tổng hợp và báo cáo định kỳ hoặc đột xuất lên Văn
phòng Tập đoàn.
- Các sản phẩm, dịch vụ mạng di động: bao gồm các sản phẩm, dịch vụ điện
thoại di động trên 2 mạng VinaPhone, MobiPhone và các sản phẩm, dịch vụ
kèm theo. Số liệu báo cáo về tình hình sản xuất kinh doanh các sản phẩm, dịch
vụ này được báo cáo thông qua các các bưu điện tỉnh, công ty vùng và thông qua
các đơn vị chủ quản của 2 mạng di động này là GPC (mạng VinaPhone) và
VMS (mạng MobiPhone).
- Các sản phẩm, dịch vụ mạng Internet: bao gồm các sản phẩm, dịch vụ Internet
và các dịch vụ kèm theo. Số liệu báo cáo về tình hình sản xuất kinh doanh các
sản phẩm, dịch vụ này được báo cáo thông qua các các bưu điện tỉnh, công ty
vùng và thông qua đơn vị quản lý kinh doanh các dịch vụ Internet của Tập đoàn
là công ty VDC.
Cụ thể là:
- Các sản phẩm, dịch vụ mạng hội tụ, gồm:
÷ Dịch vụ thuê kênh viễn thông nội hạt;
÷ Dịch vụ thuê kênh viễn thông nội tỉnh;
÷ Dịch vụ thuê kênh viễn thông liên tỉnh;
÷ Dịch vụ thuê kênh viễn thông trong nước;
- 53 -
÷ Dịch vụ thuê kênh viễn thông quốc tế;
÷ Dịch vụ thuê kênh riêng;
÷ Dịch vụ cài đặt và thuê cổng kết nối trực tiếp Internet quốc tế (IIG) của các
IXP;
÷ Dịch vụ kết nối giữa các mạng điện thoại IP liên tỉnh với các mạng viễn
thông công cộng (PSTN).
- Các sản phẩm, dịch vụ mạng cố định:
÷ Dịch vụ điện thoại cố định: bao gồm các chỉ tiêu chính như:
Số điện thoại nội hạt;
Số điện thoại đường dài nội tỉnh;
Số điện thoại đường dài liên tỉnh;
Số điện thoại ISDN nội hạt;
Số điện thoại VoIP trong nước;
Số điện thoại VoIP 171 trong nước;
Số điện thoại VoIP 171 ngoài nước;
Số điện thoại đường dài ngoài nước.
÷ Số điện thoại Access Collect:
÷ Số Collect Call;
÷ Số Home Country Direct;
÷ Số điện thoại thẻ (Cardphone);
÷ Số thẻ điện thoại vô tuyến nội thị;
÷ Số thẻ điện thoại VoIP trả trước (1717);
÷ Số điện thoại truy nhập Internet;
÷ Số cuộc gọi dịch vụ 108/1080;
÷ Số dịch vụ kết nốiVoIP 179 trong nước;
÷ Số dịch vụ kết nốiVoIP 179 ngoài nước;
÷ Số dịch vụ kết nốiVoIP 175 trong nước;
÷ Số dịch vụ kết nốiVoIP 175 ngoài nước;
÷ Số lần hòa mạng thuê bao điện thoại cố định.
- 54 -
- Các sản phẩm, dịch vụ mạng di động:
÷ Dịch vụ điện thoại di động Vinaphone, Mobiphone, Cityphone bao gồm các
chỉ tiêu:
Số điện thoại di động nội thị;
Số điện thoại di động nội vùng;
Số điện thoại di động cận vùng;
Số điện thoại di động cách vùng;
Số điện thoại di động quốc tế;
Số điện thoại di động trả trước.
÷ Số bản tin gửi SMS theo nhóm;
÷ Lượng thời gian cung cấp dịch vụ thông tin – giải trí (phút);
÷ Lượng thời gian thực hiện dịch vụ nhắn tin (phút);
÷ Số lần hòa mạng thuê bao điện thoại di động;
÷ Số lần hòa mạng thuê bao điện thoại di động nội tỉnh.
- Các sản phẩm, dịch vụ mạng Internet:
÷ Số trang thư điện tử (VN mail);
÷ Thời gian cung cấp dịch vụ VNN1260 (phút);
÷ Thời gian cung cấp dịch vụ VNN1268 (phút);
÷ Thời gian cung cấp dịch vụ VNN1269 (phút);
÷ Thời gian cung cấp dịch vụ VNN1267(phút);
÷ Thời gian điện thoại Internet/VNN-PC to Phone đi Quốc tế (phút);
÷ Thời gian điện thoại Internet/VNN-PC to PC TN và QT (phút);
÷ Sô thẻ Internet trả trước (VNN 1260.P…);
÷ Thời gian cung cấp dịch vụ WAP (VNN 999…)(phút);
÷ Thời gian cung cấp dịch vụ kết nối WAP (VNN 999…) (phút);
÷ Số lần thực hiện dịch vụ VNN-Infogate trong nước;
÷ Số lần thực hiện dịch vụ VNN-Infogate ngoài nước;
÷ Số thuê bao ISDN 2;
÷ Số thuê bao ISDN 30;
- 55 -
÷ Số thuê bao Internet;
÷ Số thuê bao Internet trực tiếp;
÷ Số thuê bao Internet 1260;
÷ Số thuê bao Internet 1260-P;
÷ Số thuê bao Internet 1268;
÷ Số thuê bao Internet 1268;
÷ Số thuê bao Internet TĐC ADSL-VNN;
÷ Số thuê bao Internet 1267;
÷ Số thuê bao Internet xDSL-WAN;
÷ Số thuê bao Internet nghiệp vụ (trực tiếp + gián tiếp);
÷ Sô hộp thư thông thin (Voicelink);
÷ Số lần hòa mạng thuê bao Internet trực tiếp;
÷ Số lần hòa mạng thuê bao Internet 1260;
÷ Số lần hòa mạng thuê bao Internet 1267;
÷ Số lần hòa mạng thuê bao Internet ADSL-VNN;
÷ Số lần hòa mạng thuê bao Internet xDSL-WAN;
- Các sản phẩm, dịch vụ khác
÷ Số cuộc điện báo phổ thông;
÷ Số cuộc điện báo khẩn
÷ Số cuộc điện báo khí tượng thuỷ văn "OBS"
÷ Số cuộc điện báo an toàn nhân mạng "SVH"
÷ Số cuộc điện báo quốc vụ
÷ Số cuộc điện báo báo chí "PRESSE"
÷ Số cuộc điện báo chuyển tiền "DCT"
÷ Số cuộc điện báo tàu biển
÷ Số cuộc điện báo gửi và phát tại một bưu cục
÷ Số cuộc điện báo nhiều địa chỉ "TMx"
÷ Số cuộc điện báo yêu cầu báo phát " PC "
- 56 -
÷ Số cuộc điện báo ký gửi hoặc phát qua máy điện thoại (TFx) hoặc máy điện
thoại thuê bao (TLXx):
÷ Số cuộc điện báo phát qua máy Fax thuê bao (FAXx)
÷ Số cuộc điện báo có yêu cầu thuê phát nhanh (XPx)
÷ Số cuộc điện báo lưu ký "GP"
÷ Số lần xem nguyên bản điện báo
÷ Số lần cấp bản sao điện báo
÷ Số lần huỷ bỏ điện báo
÷ Số lượng đăng ký địa chỉ điện báo
÷ Số cuộc Telex đường dài tại nhà thuê bao
÷ Số cuộc Telex đường dài tại Bưu cục hoặc đại lý
÷ Số lần cung cấp dịch vụ thu, phát truyền hình bằng thiết bị Flyway
÷ Số lần cung cấp dịch vụ truyền số liệu packet quốc tế
÷ Số lần cung cấp dịch vụ Inmarsat
÷ Số lần cung cấp dịch vụ truyền số liệu chuyển mạch gói quốc tế sử dụng
mạng VIETPAC (X25)
÷ Số lần cung cấp dịch vụ Truyền số liệu chuyển mạch gói (X25)
÷ Số lần cung cấp dịch vụ Chuyển tiếp khung (Frame Relay)
÷ Số lần cung cấp dịch vụ Kết nối mạng máy tính MegaWAN
÷ Số lần cung cấp dịch vụ Frame Relay
Mỗi loại sản phẩm, dịch vụ trên có nhiều chỉ tiêu có liên quan do các đơn vị
khác nhau báo cáo trong nhiều biểu mẫu. Ví dụ:
- Nhóm mạng hội tụ, dịch vụ Thuê kênh riêng có các chỉ tiêu:
÷ Phân loại thuê bao
÷ Tổng số lượng thuê kênh
÷ Doanh thu cước
- Nhóm mạng cố định, dịch vụ VoIP có các chỉ tiêu:
÷ Tên đơn vị
÷ Lưu lượng giờ bình thường
- 57 -
÷ Lưu lượng giờ giảm cước
- Nhóm mạng di động, dịch vụ Cardphone có các chỉ tiêu:
÷ Tên bưu điện tỉnh
÷ Số cuộc gọi nội hạt
÷ Số cuộc gọi liên tỉnh
÷ Số cuộc gọi di động
÷ Số cuộc gọi quốc tế
÷ Số cuộc gọi miễn phí
÷ Số cuộc gọi khác
÷ Tổng số các cuộc gọi.
- Nhóm mạng di động, sản phẩm và dịch vụ di động của VMS có các chỉ
tiêu:
÷ Sản lượng
÷ Sản lượng đi
Nghiệp vụ
Thuê bao trả sau
Thuê bao trả trước
÷ Sản lượng đến
- Nhóm mạng di động, sản phẩm thẻ VinaCard có các chỉ tiêu:
÷ Tên bưu điện tỉnh
÷ Số thẻ đã in
÷ Số thẻ đã bán
- Nhóm mạng Internet, dịch vụ 1260, 1260P, 1269 và MegaVNN có các chỉ
tiêu:
÷ Tên chỉ tiêu;
÷ Đơn vị tính;
÷ Kế h
Các file đính kèm theo tài liệu này:
- LUẬN VĂN-ÁP DỤNG CÁC KỸ THUẬT PHÂN LỚP DỮ LIỆU, HỒI QUY ĐỂ DỰ BÁO SỐ LIỆU SẢN XUẤT KINH DOANH CHO VNPT.pdf