Luận văn Áp dụng các kỹ thuật phân lớp dữ liệu, hồi quy để dự báo số liệu sản xuất kinh doanh cho VNPT

Tài liệu Luận văn Áp dụng các kỹ thuật phân lớp dữ liệu, hồi quy để dự báo số liệu sản xuất kinh doanh cho VNPT: ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Hoàng Tuấn Ninh ÁP DỤNG CÁC KỸ THUẬT PHÂN LỚP DỮ LIỆU, HỒI QUY ĐỂ DỰ BÁO SỐ LIỆU SẢN XUẤT KINH DOANH CHO VNPT LUẬN VĂN THẠC SĨ HÀ NỘI – 2009 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Hoàng Tuấn Ninh ÁP DỤNG CÁC KỸ THUẬT PHÂN LỚP DỮ LIỆU, HỒI QUY ĐỂ DỰ BÁO SỐ LIỆU SẢN XUẤT KINH DOANH CHO VNPT Ngành: Công nghệ thông tin Chuyên ngành: Hệ thống thông tin Mã số: 60 48 05 LUẬN VĂN THẠC SĨ NGƯỜI HƯỚNG DẪN KHOA HỌC TS.Đỗ Văn Thành HÀ NỘI - 2009 - i - LỜI CAM ĐOAN Tôi xin cam đoan nội dung bản luận văn chưa từng được công bố hay xuất bản dưới bất kỳ hình thức nào và cũng không được sao chép từ bất kỳ một công trình nghiên cứu nào. Toàn bộ ứng dụng thử nghiệm đều do tôi tự thiết kế và xây dựng. Nếu sai tôi xin hoàn toàn chịu trách nhiệm. Hà Nội, ngày tháng năm 2009 Người thực hiện đề tài Hoàng Tuấn Ninh - ii - LỜI CẢM ƠN Tôi xin chân thành cảm ơn thầy giáo TS. Đỗ Văn ...

103 trang | Chia sẻ: haohao | Lượt xem: 1381 | Lượt tải: 1

Bạn đang xem trước 20 trang mẫu tài liệu Luận văn Áp dụng các kỹ thuật phân lớp dữ liệu, hồi quy để dự báo số liệu sản xuất kinh doanh cho VNPT, để tải tài liệu gốc về máy bạn click vào nút DOWNLOAD ở trên

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Hoàng Tuấn Ninh ÁP DỤNG CÁC KỸ THUẬT PHÂN LỚP DỮ LIỆU, HỒI QUY ĐỂ DỰ BÁO SỐ LIỆU SẢN XUẤT KINH DOANH CHO VNPT LUẬN VĂN THẠC SĨ HÀ NỘI – 2009 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Hoàng Tuấn Ninh ÁP DỤNG CÁC KỸ THUẬT PHÂN LỚP DỮ LIỆU, HỒI QUY ĐỂ DỰ BÁO SỐ LIỆU SẢN XUẤT KINH DOANH CHO VNPT Ngành: Công nghệ thông tin Chuyên ngành: Hệ thống thông tin Mã số: 60 48 05 LUẬN VĂN THẠC SĨ NGƯỜI HƯỚNG DẪN KHOA HỌC TS.Đỗ Văn Thành HÀ NỘI - 2009 - i - LỜI CAM ĐOAN Tôi xin cam đoan nội dung bản luận văn chưa từng được công bố hay xuất bản dưới bất kỳ hình thức nào và cũng không được sao chép từ bất kỳ một công trình nghiên cứu nào. Toàn bộ ứng dụng thử nghiệm đều do tôi tự thiết kế và xây dựng. Nếu sai tôi xin hoàn toàn chịu trách nhiệm. Hà Nội, ngày tháng năm 2009 Người thực hiện đề tài Hoàng Tuấn Ninh - ii - LỜI CẢM ƠN Tôi xin chân thành cảm ơn thầy giáo TS. Đỗ Văn Thành,Trung tâm Thông tin và Dự báo Kinh tế - Xã hội, Bộ Kế hoạch và Đầu tư đã tận tình hướng dẫn và có nhiều chỉ dẫn quí báu cho tôi hoàn thành khoá luận này. Tôi xin chân thành cảm ơn các thầy, cô trong Đại học Công nghệ cũng như các thầy cô giảng dạy ở Đại học Quốc Gia Hà Nội đã truyền đạt cho tôi những kiến thức bổ ích trong thời gian học tập tại trường. Tôi cũng xin gửi lời cảm ơn tới các chuyên viên của Tập đoàn Bưu chính Viễn thông Việt Nam đã cung cấp số liệu cho tôi để thực hiện luận văn này. Cuối cùng, tôi xin bày tỏ lòng biết ơn đến gia đình và bạn bè, những người đã giúp đỡ, động viên tôi rất nhiều trong suốt quá trình học tập và làm luận văn. Do thời gian và kiến thức có hạn, khoá luận không tránh khỏi những thiếu sót nhất định. Tôi rất mong nhận được sự góp ý của thầy cô giáo và các bạn. Tôi xin chân thành cảm ơn ! - iii - TÓM TẮT NỘI DUNG LUẬN VĂN Luận văn được trình bày làm 3 chương chính với các nội dung như sau: Chương I: Khảo cứu các phương pháp dự báo số liệu Chương này giới thiệu các kiến thức tổng quan về dự báo và giới thiệu một số phương pháp dự báo định lượng chính như: Hồi quy tuyến tính, Hồi quy phi tuyến, phương pháp chuỗi thời gian, phương pháp phân lớp dữ liệu… Chương II: Dự báo định lượng bằng phương pháp mạng nơron nhân tạo Chương này tập trung giới thiệu về việc dự báo định lượng bằng phương pháp mạng nơron nhân tạo, thuật toán lan truyền ngược sai số và phương pháp thiết kế mạng nơron nhân tạo. Chương III: Dự báo kết quả hoạt động SXKD của VNPT bằng phương pháp mạng nơron nhân tạo Chương này sẽ trình bày bài toán dự báo kết quả thực hiện SXKD của VNPT, đề xuất giải pháp dự báo định lượng để giải quyết bài toán, sau đó ứng dụng phương pháp mạng nơron nhân tạo để dự báo kết quả. Cuối cùng là kết quả thử nghiệm với số liệu SXKD của VNPT, đánh giá kết quả và một số đề xuất, khuyến nghị. - iv - MỤC LỤC MỤC LỤC .................................................................................................................iv DANH SÁCH HÌNH VẼ...........................................................................................vi DANH SÁCH BẢNG BIỂU.....................................................................................vii BẢNG THUẬT NGỮ..............................................................................................viii MỞ ĐẦU ...................................................................................................................ix CHƯƠNG 1. KHẢO CỨU CÁC PHƯƠNG PHÁP DỰ BÁO VỀ HOẠT ĐỘNG SẢN XUẤT KINH DOANH DOANH NGHIỆP ....................................................11 1. Tổng quan các phương pháp dự báo ..................................................................11 1.3. Dự báo định lượng bằng các phương pháp hồi quy.............................................16 1.3.1.Hồi quy tuyến tính và hồi quy bội...............................................................16 1.1.2. Hồi quy phi tuyến tính ...............................................................................17 1.4. Dự báo số liệu bằng các phương pháp chuỗi thời gian .......................................18 1.4.1. Khái niệm chuỗi thời gian .........................................................................18 1.4.2. Phân tích, dự báo chuỗi thời gian .............................................................19 1.4. Dự báo bằng phương pháp phân lớp dữ liệu .......................................................21 1.4.1. Phương pháp phân lớp dữ liệu..................................................................21 1.4.2. Độ chính xác phân lớp ..............................................................................21 CHƯƠNG 2. DỰ BÁO ĐỊNH LƯỢNG BẰNG PHƯƠNG PHÁP MẠNG NƠRON NHÂN TẠO..............................................................................................................24 2.1. Mạng nơron nhân tạo .......................................................................................24 1). Khái quát về mạng nơron .....................................................................................24 2.2 . Mô hình của mạng nơron nhân tạo ................................................................25 2.4. Thuật toán lan truyền ngược sai số .....................................................................30 2.5. Thiết kế mạng nơron ...........................................................................................32 1) Bước 1: Lựa chọn biến ..............................................................................33 2). Bước 2: Thu thập dữ liệu ...............................................................................34 3). Bước 3: Tiền xử lý dữ liệu .............................................................................34 4). Bước 4: Xác định tập huấn luyện, tập kiểm tra và đánh giá ...........................37 5). Bước 5: Xác định mô hình mạng nơron .........................................................38 6). Bước 6: Xác định hàm đánh giá sai số...........................................................43 7). Bước 7: Huấn luyện mạng nơron...................................................................43 8). Bước 8: Thực thi............................................................................................48 CHƯƠNG 3. DỰ BÁO KẾT QUẢ HOẠT ĐỘNG SXKD CHO VNPT BẰNG PHƯƠNG PHÁP MẠNG NƠRON NHÂN TẠO ...................................................50 - v - 3.1. Xác định bài toán dự báo kết quả hoạt động sản xuất kinh doanh của VNPT ..................................................................................................................................50 3.2. Xác định hệ thống chỉ tiêu cần được phân tích, dự báo về kết quả SXKD ....50 3.2.1. Phân tích quy trình nghiệp vụ báo cáo số liệu tại VNPT ...........................50 3.2.2. Xác định hệ thống chỉ tiêu cần được phân tích và dự báo..........................52 3.3. Giải pháp dự báo định lượng kết quả SXKD của VNPT ................................58 3.3.1. Mô hình tổng thể hệ thống thông tin phục vụ dự báo định lượng...............58 3.3.2. Giới thiệu tập số liệu và vấn đề tiền xử lý số liệu ......................................61 3.3.3. Phương pháp mạng nơrontrong dự báo số liệu SXKD tại VNPT ...............62 3.3.4. Phần mềm công cụ hỗ trợ dự báo..............................................................63 3.4. Ứng dụng mạng Nơron để dự báo số liệu SXKD cho VNPT ..........................72 3.4.1. Xác định các biến dự báo ..........................................................................72 3.4.2. Thu thập dữ liệu........................................................................................72 3.4.3. Tiền xử lý dữ liệu ......................................................................................72 3.4.4. Trích chọn dữ liệu – Xây dựng tập huấn luyện ..........................................74 3.4.5. Xác định mô hình mạng nơron ..................................................................76 3.4.6. Xác định hàm đánh giá sai số ...................................................................79 3.4.7. Huấn luyện mạng nơ ron...........................................................................79 3.4.8. Dự báo số liệu...........................................................................................81 3.5. Kết quả thử nghiệm ..........................................................................................82 a. Thử nghiệm với số liệu điện thoại cố định .................................................83 b. Thử nghiệm với dữ liệu mạng Internet .......................................................86 c. Thử nghiệm với dữ liệu mạng di động .......................................................87 3.6. Thiết kế Phần mềm dự báo số liệu SXKD cho VNPT .....................................88 3.6.1. Sơ đồ phân rã chức năng ..........................................................................88 3.6.2. Biểu đồ ngữ cảnh ......................................................................................88 3.6.3. Sơ đồ phân rã chức năng ..........................................................................89 3.6.4. Sơ đồ quan hệ ...........................................................................................90 3.6.5. Thiết kế dữ liệu logic.................................................................................91 3.6.6. Thiết kế chức năng xem số liệu..................................................................95 3.6.7. Thiết kế chức năng xây dựng mô hình .......................................................96 3.6.8. Thiết kế chức năng dự báo số liệu .............................................................96 3.6.9. Thiết kế chức năng Cập nhật tập huấn luyện.............................................97 KẾT LUẬN ..............................................................................................................98 TÀI LIỆU THAM KHẢO .....................................................................................100 - vi - DANH SÁCH HÌNH VẼ Hình 1. Các phương pháp dự báo hoạt động SXKD doanh nghiệp................. 16 Hình 2. Đánh giá độ chính xác của bộ phân lớp bằng phương pháp holdout .. 22 Hình 3. Mô hình phi tuyến của một nơron ..................................................... 26 Hình 4. Kết quả biến đổi afine của ngưỡng .................................................... 27 Hình 5. Hai mô hình phi tuyến của nơron ...................................................... 28 Hình 6. Chuyển đổi logarit của số liệu buôn bán lúa gạo theo tháng .............. 36 Hình 7. Phương pháp kiểm tra cửa sổ trượt.................................................... 38 Hình 8. Hai phương pháp chia tỉ lệ thông dụng trên tập dữ liệu S&P500 ....... 42 Hình 9. Đồ thị lỗi của quá trình huấn luyện và kiểm tra mạng nơron ............. 45 Hình 10. Giản đồ biểu diễn một mặt phẳng lỗi của mạng nơron ................... 47 Hình 11. Mô hình Hệ thống dự báo số liệu ................................................... 58 Hình 12. Mô hình Trích chọn dữ liệu............................................................ 59 Hình 13. Mô hình Làm sạch, chuẩn hóa dữ liệu............................................ 60 Hình 14. Xây dựng mô hình dữ liệu.............................................................. 60 Hình 15. Mô hình Dự báo giá trị mới............................................................ 61 Hình 16. Màn hình chương trình YALE ....................................................... 64 Hình 17. Mô hình xử lý một cây toán tử của Yale ........................................ 69 Hình 18. Màn hình chương trình WEKA...................................................... 70 Hình 19. Cấu trúc kho dữ liệu SXKD của VNPT.......................................... 73 Hình 20. Biểu đồ ngữ cảnh Hệ thống Dự báo số liệu .................................... 89 Hình 21. Sơ đồ quan hệ dữ liệu của Hệ thống Dự báo số liệu ....................... 90 Hình 22. Biểu đồ luồng dữ liệu cho chức năng xem số liệu .......................... 95 Hình 23. Biểu đồ luồng dữ liệu cho chức năng xây dựng mô hình................ 96 Hình 24. Biểu đồ luồng dữ liệu cho chức năng dự báo số liệu ...................... 96 Hình 25. Biểu đồ luồng dữ liệu cho chức năng Cập nhật tập huấn luyện ...... 97 - vii - DANH SÁCH BẢNG BIỂU Bảng 1. So sánh YALE và WEKA................................................................. 71 Bảng 2. Kết quả dự báo chỉ tiêu m420 tháng 8 từ số liệu tháng 7 ................... 83 Bảng 3. Kết quả dự báo chỉ tiêu m420 tháng 10 từ số liệu tháng 7 ................. 83 Bảng 4. Kết quả dự báo chỉ tiêu m420 tháng 9 từ số liệu tháng 7 ................... 83 Bảng 5. Kết quả dự báo chỉ tiêu m410 tháng 8 từ số liệu tháng 7 ................... 83 Bảng 6. Kết quả dự báo chỉ tiêu m410 tháng 9 từ tháng 7 ............................. 84 Bảng 7. Kết quả dự báo chỉ tiêu m410 tháng 10 từ tháng 7 ........................... 84 Bảng 8. Kết quả dự báo chỉ tiêu m425 tháng 8 từ tháng 7 ............................. 84 Bảng 9. Kết quả dự báo chỉ tiêu m425 tháng 9 từ tháng 7 ............................. 84 Bảng 10. Kết quả dự báo chỉ tiêu m425 tháng 10 từ tháng 7 ........................ 85 Bảng 11. Kết quả dự báo chỉ tiêu m425 tháng 11 từ tháng 7 ........................ 85 Bảng 12. Kết quả dự báo chỉ tiêu m425 tháng 12 từ tháng 7 ........................ 85 Bảng 13. Độ chính xác trung bình theo chu kỳ.............................................. 86 Bảng 14. Độ chính xác trung bình theo chỉ tiêu............................................. 86 - viii - BẢNG THUẬT NGỮ Từ viết tắt Tiếng Anh Tiếng Việt ARIMA AutoRegressive Integrated Moving Average Tích hợp trung bình trượt tự hồi qui CSDL Cơ sở dữ liệu DM Data mart Kho dữ liệu chủ đề DW Data warehouse Kho dữ liệu KDD Knowlegde Discovery in Databases Khám phá tri thức trong CSDL KPDL Khai phá dữ liệu MLP Multilayer Perceptron Mạng nơron đa lớp SARIMA Seasonal AutoRegressive Integrated Moving Average Tích hợp trung bình trượt tự hồi qui theo mùa vụ VNPT Vietnam Posts and Telecomunications Coporation Tập đoàn Bưu chính Viễn thông Việt Nam - ix - MỞ ĐẦU Trong nền kinh tế tri thức, ưu thế cạnh tranh luôn thuộc về những doanh nghiệp nắm bắt đầy đủ, kịp thời và khai thác có hiệu quả thông tin. Các doanh nghiệp thành công trên thế giới đều đã và đang không ngừng đầu tư cho công cụ quản lý tri thức của mình ở nhiều cấp độ khác nhau, ở mức thấp là các công cụ báo cáo, phân tích tình hình tài chính… dựa vào thông tin từ phần mềm kế toán và ở mức độ cao là ứng dụng công nghệ Khai phá dữ liệu nhằm khai thác các kho dữ liệu giúp nhà quản lý phân tích về giá thành, thị trường và khách hàng,… Công nghệ Khai phá dữ liệu có thể được triển khai nhanh chóng dựa trên nền tảng phần cứng và phần mềm sẵn có đáp ứng yêu cầu khai thác thông tin của doanh nghiệp, nâng cao hiệu quả sử dụng thông tin từ nguồn tài nguyên sẵn có và mang lại lợi ích to lớn cho doanh nghiệp. Tại Việt Nam, hiện tại đã có nhiều tổ chức, doanh nghiệp trong nước nhận thức được tầm quan trọng và lợi ích của công nghệ Khai phá dữ liệu. Một số tổ chức, doanh nghiệp đã xây dựng các kho dữ liệu lưu trữ toàn bộ thông tin của tổ chức, doanh nghiệp như: Kho dữ liệu của Kho bạc nhà nước, Kho dữ liệu Ngân sách nhà nước của Bộ Tài chính, Kho dữ liệu của Ngân hàng Nhà nước… Tuy nhiên, việc khai thác dữ liệu từ kho tài nguyên đồ sộ này vẫn chưa đạt hiệu quả mong muốn do chưa phát triển được công cụ phù hợp, chưa trích chọn và phân tích được những dữ liệu xác đáng. Để đạt được những thông tin mong muốn từ những nguồn dữ liệu lớn đòi hỏi phải có những đổi mới về mặt kỹ thuật. Là một trong những doanh nghiệp đi đầu trong việc đẩy mạnh khai thác và sử dụng thông tin hỗ trợ hoạt động quản lý điều hành và sản xuất kinh doanh, Tập đoàn Bưu chính Viễn thông Việt Nam (VNPT) đã có một số phần mềm ứng dụng hỗ trợ quản lý điều hành sản xuất kinh doanh như: Hệ thống Báo cáo nhanh, Hệ thống báo cáo tài chính, Hệ thống quản lý tài sản, Hệ thống quản lý dự án Internet trường học… Sự ra đời của “Hệ thống phần mềm báo cáo số liệu và thông tin phục vụ quản lý, điều hành sản xuất kinh doanh tại Cơ quan Tập đoàn” (Hệ thống VRS) đã giúp đáp ứng được nhu cầu báo cáo thông tin một cách thống nhất, hệ thống, chính xác và cập nhật, thay thế hiệu quả cho phương thức báo cáo, tổng hợp số liệu bằng giấy tờ. Đồng thời Hệ thống VRS được đưa vào sử dụng đã cung cấp một khối lượng thông tin lớn khó có thể xử lý bằng những phương pháp thủ công hiện có, từ đó đặt ra nhu cầu về một hệ thống phần mềm có thể hỗ trợ xử lý hiệu quả những thông tin này. - x - Đề tài “Áp dụng các kỹ thuật phân lớp dữ liệu, hồi quy để dự báo số liệu SXKD cho VNPT” được phát triển nhằm mục đích hỗ trợ phân tích, tổng hợp và xử lý kho dữ liệu, thông tin một cách tự động, chính xác và có thể được tích hợp với các ứng dụng hỗ trợ quản lý sản xuất kinh doanh đang hoạt động khác. Kết quả nghiên cứu của đề tài sẽ hỗ trợ tích cực cho công tác xử lý số liệu và dự báo tình hình SXKD của Tập đoàn, đồng thời góp phần đẩy mạnh công tác ứng dụng công nghệ thông tin vào các hoạt động quản lý điều hành sản xuất kinh doanh tại Cơ quan Tập đoàn. Hà Nội 10-2009 Người thực hiện đề tài - 11 - CHƯƠNG 1. KHẢO CỨU CÁC PHƯƠNG PHÁP DỰ BÁO VỀ HOẠT ĐỘNG SẢN XUẤT KINH DOANH DOANH NGHIỆP 1. Tổng quan các phương pháp dự báo Trong những năm gần đây, sự phát triển mạnh mẽ của CNTT và ngành công nghiệp phần cứng đã làm cho khả năng thu thập và lưu trữ thông tin của các hệ thống thông tin tăng lên một cách nhanh chóng. Bên cạnh đó việc tin học hoá một cách mạnh mẽ các hoạt động sản xuất, kinh doanh cũng như nhiều lĩnh vực hoạt động khác đã tạo ra một lượng dữ liệu lưu trữ khổng lồ. Hàng triệu CSDL đã được sử dụng trong các hoạt động sản xuất, kinh doanh, quản lí..., trong đó có nhiều CSDL cực lớn cỡ Gigabyte, thậm chí là Terabyte. Sự bùng nổ này đã dẫn tới một yêu cầu cấp thiết là cần có những kĩ thuật và công cụ mới để tự động chuyển đổi lượng dữ liệu khổng lồ kia thành các tri thức có ích. Từ đó, các kĩ thuật Khai phá dữ liệu đã ra đời và trở thành một lĩnh vực thời sự của nền CNTT thế giới hiện nay. 1.1. Tổng quan về dự báo * Dự báo là gì? Dự báo là một nhận định về tương lai. Những nhận định này có thể có nền tảng vững chắc hoặc có thể thiếu những nền tảng cơ sở thuyết phục; chúng có thể chính xác hoặc không chính xác trong từng trường hợp cá biệt hoặc tính trung bình; chúng có thể chi tiết hoặc không chi tiết; chúng có thể dựa trên mô hình hoặc mang tính thông tin. Các dự báo được đưa ra bằng những phương pháp với hệ hàng trăm phương trình ước lượng kinh tế lượng được kiểm định chặt chẽ cho tới những phương pháp gần như không có một cơ sở nào để quan sát được. Do vậy, dự báo là một chủ đề rất rộng. Trong lịch sử, hầu hết các phương pháp mà con người nghĩ ra về hoạt động “tiên đoán” tương lai có thể mang lại điều gì đều đã được thử nghiệm. * Có thể dự báo những gì? Bởi vì dự báo chỉ đơn giản là một nhận định về tương lai nên chúng ta có thể dự báo bất kỳ điều gì, có thể là dự báo lạm phát chỉ số giá tiêu dùng của tháng tới, dự báo thời tiết ngày mai, mực nước biển tính trung bình dâng cao thêm bao nhiêu sau 20 năm nữa hoặc dân số của trái đất vào ngày hôm đó hay như giá trị của chỉ số VN index tại thời điểm đầu năm 2010. Chúng ta không khẳng định rằng các kết quả dự báo nhất thiết là hữu ích. * Mức độ tin cậy của chúng ta đối với các dự báo là như thế nào? - 12 - Mức độ tin cậy của dự báo phụ thuộc vào cơ sở xây dựng dự báo này tốt đến mức độ nào? Những dự báo đơn thuần sẽ không mang lại độ tin cậy cao, những dự báo dựa trên các cách tiếp cận đã được kiểm định đúng đắn có thể mang lại nhiều hy vọng hơn. Thật không may là ngay cả khi nó được dựa trên những cách tiếp cận này thì dường như vẫn chưa đủ. Tương lai quá bất định chính là khó khăn của dự báo. Có hai điều trái ngược nhau mà ta có thể vận dụng từ câu nói của Maxine Singer rằng: "Bởi vì những thứ mà chúng ta không biết rằng chúng ta không biết nên tương lai rất khó đoán định. Nhưng một vài bước phát triển có thể dự báo được, hoặc ít nhất là có thể tưởng tượng được dựa trên những gì chúng ta đã biết". * Tính chất của dự báo - Dự báo mang tính xác suất: Mỗi đối tượng dự báo đều vận động theo một quy luật hay một quỹ đạo nhất định nào đó, đồng thời trong quá trình phát triển nó luôn luôn chịu sự tác động của môi trường hay yếu tố bên ngoài. Bản thân môi trường hay các yếu tố tác động không phải đứng im mà luôn luôn trong trạng thái vận động và phát triển không ngừng. Chính vì điều này nên dự báo không thể hoàn toàn chính xác mà chỉ mang tính xác suất. - Dự báo mang tính đa phương án: Mỗi dự báo được thực hiện dựa trên những tập hợp các giả thiết nhất định - dự báo có điều kiện. Tập hợp các giả thiết như vậy gọi là phông dự báo. Do vậy dự báo có thể được tiến hành trên các phông dự báo khác nhau do những nguyên nhân chủ quan và khách quan khác nhau dẫn tới có nhiều phương án dự báo khác nhau. * Chức năng của dự báo - Chức năng tham mưu: Trên cơ sở đánh gíá thực trạng, phân tích xu hướng vận động và phát triển trong quá khứ, hiện tại và tương lai, dự báo sẽ cung cấp thông tin cần thiết, khách quan làm căn cứ cho việc ra quyết định quản lý và xây dựng chiến lược, kế hoạch phát triển sản xuất kinh doanh,... Người quản lý và hoạch định chiến lược, kế hoạch có nhiệm vụ phải lựa chọn trong số các phương án có thể có, tìm ra các phương án có tính khả thi cao nhất, có hiệu quả cao nhất. Để thực hiện tốt chức năng này dự báo phải thực sự đảm bảo tính khách quan, khoa học và tính độc lập tương đối với các cơ quan quản lý và hoạch định chính sách. - Chức năng khuyến nghị hay điều chỉnh: Với chức năng này dự báo tiên đoán các hậu quả có thể nảy sinh trong quá trình thực hiện nhằm giúp doanh - 13 - nghiệp kịp thời điều chỉnh mục tiêu cũng như cơ chế tác động quản lý để đạt hiệu quả kinh tế - xã hội cao nhất. 1.2. Phương pháp luận tổng quát về dự báo Để thiết lập một dự báo, về cơ bản, chúng ta có các bước tiến hành sau đây: a) Xác định vấn đề dự báo và mốc thời gian xa nhất của dự báo b) Hiểu vấn đề cần được dự báo, xây dựng hệ thống mô tả vấn đề cần được dự báo và nhận ra những biến số then chốt của hệ thống; c) Thu thập các số liệu cần thiết phục vụ cho dự báo và Đề xuất các giả thiết xuất phát của dự báo; d) Tiến hành dự báo và kiểm nghiệm tính đúng đắn của dự báo f) Ứng dụng kết quả dự báo * Xác định vấn đề dự báo: Công việc đầu tiên là phát biểu vấn đề cần được dự báo một cách rõ ràng và chính xác. Điều này dường như là đương nhiên nhưng thật ra sự nhấn mạnh tầm quan trọng của nó là rất cần thiết vì rất có thể xảy ra tình trạng vấn đề đặt ra lúc đầu, đến một giai đoạn nào đó của quá trình dự báo, lại bắt đầu được nhận thức là chưa đủ rõ ràng, các công việc tiếp theo do đó không thể đặt ra một cách cụ thể để có thể được giải quyết, và chúng ta lại phải quay trở lại việc xác định vấn đề. Một vấn đề khác là cần xác định mốc thời gian xa nhất của dự báo. Có nhiều nhân tố chi phối sự lựa chọn này, như thời hạn ra quyết định, khả năng quyết định và các phương tiện hành động, v.v... Không có một phương pháp xác định nào có thể giúp ta làm tốt việc này. Kinh nghiệm thực tiễn và sự nhạy cảm là những yếu tố có thể đóng góp vào sự lựa chọn tối ưu. Các dự báo đã có về các vấn đề khác nhau rõ ràng là một nguồn tham khảo quan trọng. Xét một số dự báo lớn được đưa ra trong mấy năm gần đây, thí dụ như "Theo dõi tương lai, nghiên cứu về các kịch bản của nền kinh tế thế giới, 1990- 2015" của Cục Kế hoạch Trung ương của Hà Lan, "Dự án 2025" do hãng Coates & Jarratt, Inc. biên soạn, các báo cáo "Trạng thái tương lai" công bố hàng năm từ 1997 của "Dự án Thiên niên kỷ" thuộc Hội đồng Đại học Liên Hợp quốc. Trong các dự báo này, mốc thời gian xa nhất của dự báo được lựa chọn là khoảng 25 năm. Một số dự báo khác, thí dụ như "Tương lai của nước Anh năm 2010" của hãng Applied Futures công bố năm 1989, "Nước Anh năm 2010" của Policy Studies Institute công bố năm 1991, "Nền an ninh của châu Âu năm - 14 - 2010" của P. Leclerc và B. Gentric năm 1991, mốc thời gian xa nhất dự báo được lựa chọn là 20 năm. Song lại có những dự báo có mốc thời gian hơn, tới 40 năm, thí dụ như "Nhà ở năm 2030" do Trung tâm Khoa học và Kỹ thuật về Nhà ở và Cục Môi trường và Quản lý Năng lượng của Pháp xây dựng trong thời gian 1991-93. * Hiểu vấn đề cần được dự báo, xây dựng hệ thống và phát hiện các biến số then chốt Công việc tiếp theo là xác định trạng thái của hệ thống mô tả vấn đề cần được dự báo, cụ thể là tìm ra tất cả các biến số có ảnh hưởng đến vấn đề được nghiên cứu hoặc chịu ảnh hưởng của vấn đề được nghiên cứu, phân tích các quan hệ giữa các biến số đó, và cuối cùng thu gọn phạm vi của hệ thống về một số biến số có tính chất cơ bản - các biến số then chốt. Có thể giao việc lập danh mục các biến số xác định trạng thái của hệ cho một người. Song để tránh sự chủ quan quá đáng, công việc này nên được tiến hành bởi một nhóm công tác có tính chất đa ngành và sử dụng các cách làm như gửi bảng câu hỏi để lấy ý kiến, phỏng vấn chuyên gia, v.v... Để phân tích các quan hệ giữa các biến số, phương pháp thường được sử dụng là phân tích cấu trúc gồm ba bước cơ bản như sau: ˉ Thống kê các biến số; ˉ Lập ma trận phân tích cáu trúc và đồ thị độ phát động - mức phụ thuộc; ˉ Phát hiện các biến số then chốt. * Thu thập dữ liệu phục vụ dự báo và đề xuất các giả thiết/giả thuyết cho dự báo Thu thập dữ liệu là một công việc rất nặng nề vì đối với mỗi biến số, ta cần phải trả lời 3 câu hỏi sau đây: Diễn biến của biến số trong quá khứ ? Xu hướng phát triển của biến số đó trong tương lai ? Những điểm uốn hay gián đoạn có thể có làm thay đổi xu hướng phát triển của biến số ? Để trả lời các câu hỏi này, ta cần xem xét 5 vấn đề sau đây: Xác định những chỉ tiêu có thể sử dụng một cách thích hợp để mô tả diễn biến của biến số được xét. Thí dụ như để mô tả mức sống của dân cư, có thể xét khả năng sử dụng chỉ tiêu tổng sản phẩm trong nước (GDP) hay tổng sản phẩm xã hội (GNP); để đánh giá năng lực đổi mới công nghệ của một quốc gia, có thể - 15 - sử dụng chỉ tiêu số sáng chế đăng ký; để đánh giá mức độ chuyển đổi cơ cấu lao động có thể sử dụng chỉ tiêu số lượng lao động được đào tạo nghề theo các ngành kinh tế, để đánh giá nguồn nhân lực chất lượng cao có thể sử dụng chỉ tiêu số lượng và chất lượng đào tạo từ bậc cao đẳng, đại học trở lên, v.v... Xét khả năng có được dữ liệu (định tính cũng như định lượng), độ tin cậy của chúng và, nếu có thể, mức độ cân đối cần phải có. Xác định các chuỗi thời gian (các giá trị của chỉ tiêu sắp xếp theo trình tự thời gian) cần theo dõi. Điều này có ý nghĩa quan trọng vì chuỗi thời gian của một biến số kinh tế - xã hội nào đó là phản ánh quy luật biến đổi của biến số đó trong quá khứ và hiện tại, nếu chuỗi thời gian đủ dài ta mới có căn cứ để ngoại suy hay dự báo giá trị của biến số đó trong tương lai. Để hình thành các giả thiết/giả thuyết cho dự báo: cần giải thích các diễn biến trong quá khứ; nói cách khác, tìm hiểu nguyên nhân của các hệ quả đã quan sát được. Rõ ràng là sự giải thích nguyên nhân không đúng sẽ dẫn đến những dự báo vô lý. Thí dụ như có rõ những nguyên nhân đã dẫn đến tốc độ tăng trưởng cao của nền kinh tế Việt Nam trong mấy năm vừa qua, chúng ta mới có thể có được những dự báo đáng tin về tốc độ này trong những năm sắp tới, chưa nói những điều chỉnh cần thiết do sự thay đổi của những nhân tố bên ngoài. Đề xuất các giả thiết về sự phát triển của các biến số trong tương lai; nói riêng, về khả năng xuất hiện những điểm uốn hay gián đoạn so với xu hướng "tự nhiên" và, nếu có thể, xác suất xuất hiện các điểm uốn hay gián đoạn đó. * Tiến hành dự báo và kiểm nghiệm kết quả dự báo Trong phần lớn các trường hợp rất cần phải kiểm nghiệm kết quả dự báo so với thực tế. Nó là cơ sở để chấp nhận dự báo và ứng dụng vào thực tiễn. * Ứng dụng dự báo Mục đích cuối cùng của dự báo là nhằm phục vụ quá trình xây dựng chiến lược, kế hoạch sản xuất kinh doanh và phục vụ quá trình ra quyết định, điều hành, quản lý của người lãnh đạo doanh nghiệp.. Hiện tại có rất nhiều pháp dự báo về hoạt động sản xuất kinh doanh khác nhau (xem hình 1). Phân tiếp theo của Chương này chỉ giới thiệu tóm tắt một số phương pháp dự báo định lượng điển hình cho doanh nghiệp. - 16 - Hình 1. Các phương pháp dự báo hoạt động SXKD doanh nghiệp 1.3. Dự báo định lượng bằng các phương pháp hồi quy 1.3.1.Hồi quy tuyến tính và hồi quy bội Hồi quy tuyến tính: Đây là dạng đơn giản nhất trong các phương pháp hồi quy. Ở dạng này, dữ liệu được mô hình hoá theo đường thẳng. Theo mô hình này, một biến ngẫu nhiên Y (biến trả lời - response variable) sẽ được tính bằng một hàm tuyến tính của một biến ngẫu nhiên X khác (biến dự báo – predictor variable) theo công thức[8]: Y =  + X trong đó độ biến thiên của Y là không đổi,  và  gọi là các hệ số hồi quy. Các hệ số này có thể được tính ra bằng phương pháp bình phương tối thiểu. Cho n mẫu hay điểm dữ liệu dưới dạng (x1 , y1), (x2 , y2),…, (xn , yn), các hệ số hồi quy có thể được ước lượng bằng phương pháp trên theo phương trình:        n i i n i ii xx yyxx 1 2 1 )( ))((  xy   - Làm trơn hàm mũ - Trung bình trượt tích hợp tự hồi qui (ARIMA) và ARIMA theo mùa vụ; - Mô hình tự hồi quy véc tơ VAR, …. - PHƯƠNG PHÁP DỰ BÁO PHƯƠNG PHÁP ĐỊNH TÍNH PHƯƠNG PHÁP ĐỊNH LƯỢNG Các mô hình nhân quả Các mô hình chuỗi thời gian - Lấy ý kiến của ban lãnh đạo - Lấy ý kiến của bộ phận bán hàng -Phương pháp lấy ý kiến của người tiêu dùng -Phương pháp chuyên gia -Hồi quy -Phân lớp -Phân tích tương quan, -…. - 17 - ở đây x là giá trị trung bình của x1, x2,…, xn và y là giá trị trung bình của y1,y2,…,yn. Hồi quy bội: là mở rộng của hồi quy tuyến tính với nhiều hơn một biến dự báo. Nó cho phép biến trả lời được mô hình hoá như là một hàm tuyến tính của một véc tơ nhiều chiều. Một ví dụ cho hồi quy bội với 2 biến dự báo X1 và X2 là: Y =  + 1X1 + 2X2 Các hệ số , 1, 2 vẫn có thể tính được bằng phương pháp bình phương tối thiểu. 1.3.2. Hồi quy phi tuyến tính Với hồi quy tuyến tính, chúng ta đã có thể mô hình hoá những dữ liệu tuyến tính. Nhưng với dữ liệu không tuyến tính thì như thế nào ? Dưới đây là một số dạng hồi quy phi tuyến thường được sử dụng : - Hồi quy theo hàm log: logY = a + b * X Cho thấy xu thế tăng (hoặc giảm) theo tốc độ tăng %. - Hồi quy theo hàm parabol: Y = a + b * X + c * X2 Cho thấy xu thế lúc đầu tăng (hoặc giảm) chậm, song về sau thì mạnh hơn - 18 - - Hồi quy theo hàm tăng trưởng (hàm logistic): Y=[a/(1+e(a-bX))]+b Xu thế này có hình chữ S, tức là lúc đầu tăng chậm (đường cong không dốc nhiều), sau đó tăng mạnh (đường cong dốc), sau đó lại tăng chậm lại (tiến đến mức bão hoà) - Hồi quy theo hàm vòng đời: Y=a/[1+e(a-bX)+f(d-cX)] Xu thế hàm vòng đời tương tự với xu thế hàm tăng trưởng ở 3 giai đoạn đầu (lúc đầu tăng chậm, sau tăng mạnh, sau tăng chậm lại), song khác với xu thế hàm tăng trưởng ở giai đoạn tiếp theo là hàm tăng trưởng tiến đến mức bão hoà, còn hàm vòng đời sau đó suy giảm. 1.4. Dự báo số liệu bằng các phương pháp chuỗi thời gian 1.4.1. Khái niệm chuỗi thời gian Chuỗi dữ liệu phụ thuộc thời gian được chia làm hai loại [3]: - Chuỗi dữ liệu phụ thuộc thời gian được quan sát, đo đạc trong khoảng thời gian rời rạc: Các quan sát được thực hiện tại các thời điểm tách biệt, chúng thường là các quan sát được đo tại các mốc thời gian cách đều nhau, ví dụ chuỗi thời gian được đo theo tuần, quý, tháng, năm, …. - 19 - - Chuỗi dữ liệu liên tục theo thời gian: Các quan sát được đo trong khoảng thời gian liên tục, ví dụ chuỗi dữ liệu đo nhiệt độ trong ngày (nhiệt kế). Như vậy: Chuỗi thời gian là một tập giá trị các quan sát của biến ngẫu nhiên, ký hiệu là }{ tz , 1,...,nt  là số các quan sát, đo được trong các khoảng thời gian t như nhau (hàng năm, quý, tháng, tuần, ngày …) và được xếp theo thứ tự thời gian. Ví dụ: Tổng giá trị sản xuất Tổng giá trị hàng tồn kho, nguyên liệu nhập về, chi phí quản lý, …, của một doanh nghiệp theo từng tháng chính là các chuỗi thời gian như vậy. 1.4.2. Phân tích, dự báo chuỗi thời gian Quá trình phân tích, dự báo chuỗi thời gian }{ tz là để tìm ra các mô hình, luật ẩn trong nó, việc này được thực hiện trên các quan sát mẫu, gồm có những bước sau[1]: Bước 1: Nhận dạng các thành phần ẩn tồn tại trong chuỗi thời gian - Thành phần xu thế (Trend - T): Thể hiện chiều hướng biến động tăng hoặc giảm của các hiện tượng nghiên cứu trong thời gian dài. - Thành phần chu kỳ (Period - P): Thể hiện biến động của hiện tượng được lặp lại với chu kỳ nhất định, thường kéo dài từ 2 đến 10 năm. - Thành phần mùa vụ (Seasonal - S): Biểu hiện sự tăng hoặc giảm mức độ của hiện tượng ở một số thời điểm (tháng, quý, năm) nào đó được lặp đi lặp lại qua nhiều năm. - Thành phần ngẫu nhiên (Irregular - I): Thể hiện những biến động không có qui luật và hầu như không dự báo hoặc quan sát được trong của hiện tượng đang nghiên cứu. Những thành phần này kết hợp với nhau trong chuỗi thời gian bằng nhiều cách thức khác nhau, chẳng hạn chuỗi thời gian tz được mô tả là tích các thành phần, ISPTzt  gọi là mô hình tích, hoặc ISPTzt  gọi là mô hình tổng, hoặc kết hợp cả hai ISPTzt  . Do vậy, để phân tích và nghiên cứu hành vi cũng như dự báo biến động của chuỗi thời gian thì cần thiết phải ước lượng được các thành phần nói trên trong chuỗi thời gian và cách thức kết hợp chúng với nhau trong chuỗi. Bước 2: Làm trơn số liệu - 20 - Tuỳ theo mô hình dự báo áp dụng mà cần thiết tiến hành bước làm trơn số liệu hay không. Trong trường hợp mô hình dự báo áp dụng cần quá trình làm trơn số liệu ta tiến hành loại trừ được thành phần xu thế và mùa vụ trong chuỗi thời gian. Chuỗi thu được sau cùng không còn chứa các thành phần đó (chuỗi được làm trơn) sẽ khiến cho việc phân tích, dự báo dễ dàng hơn. Bước 3: Chọn lựa, ước lượng và đánh giá mô hình Chọn lựa mô hình trong lớp các mô hình, sao cho mô hình được lựa chọn là “tốt nhất” trong số các mô hình ứng cử và nó cũng phải đơn giản và có thể hiểu được dễ dàng. Sau đó thực hiện ước lượng các tham số, phần dư cho mô hình vừa chọn lựa và chúng phải thỏa mãn các tiêu chí kiểm định, đánh giá. Mô hình ước lượng được đánh giá là hợp lý khi đó sẽ sinh ra chuỗi “gần giống” với chuỗi dữ liệu quan sát thực. Bước 4: Dự báo Dựa trên mô hình thực hiện dự báo giá trị tương lai cho chuỗi thời gian, phân tích sự phù hợp của giá trị dự báo cả về mặt thực nghiệm và lý thuyết. Xác định độ chệch giữa giá trị dự báo với giá trị quan sát thực và khoảng tin cậy của dự báo tức là giới hạn mà giá trị quan sát thực sẽ nằm trong. Bước 5: Ứng dụng mô hình dự báo vào trong thực tế Trên cơ sở các dự báo về các giá trị tương lai của hiện tượng nghiên cứu đề ra các quyết định kinh doanh hoặc chính sách. Đồng thời gộp thêm các giá trị quan sát mới vào chuỗi dữ liệu quan sát nhằm mục đích hiệu chỉnh lại mô hình để đưa ra dự báo tốt hơn. Chất lượng của dự báo phụ thuộc vào nhiều yếu tố chẳng hạn sự phức tạp của chuỗi thời gian khi thực hiện phân tích, tác động của nhiều yếu tố bất thường không thể lường trước được khi tiến hành dự báo, ngoài ra độ chính xác cũng còn phụ thuộc phần lớn vào khoảng cách xa gần của dự báo (dự báo gần thì cho độ chính xác của dự báo tốt hơn so với dự báo xa). Hiện tại có nhiều mô hình phân tích và dự báo chuỗi thời gian, trong đó những mô hình điển hình là: Mô hình làm trơn hàm mũ chuỗi thời gian, bao gồm [4]: - Mô hình làm trơn hàm mũ bậc1, bậc 2 và bậc 3 (còn gọi là mô hình Holt – Winter). Trong mô hình Holt-Winter còn có mô hình Holt-Winter mùa vụ nhân và Holt-Winter mùa vụ cộng. - 21 - - Mô hình trung bình trượt tích hợp trung bình trượt tự hồi quy là mô hình tổ hợp của 3 quá trình: sai phân (hay tích hợp), Trung bình trượt và Tự hồi quy. Mô hình phát triển từ ARIMA để dự báo cho chuỗi thời gian có yếu tố mùa vụ được gọi là mô hình SARIMA. - Mô hình tự hồi quy véc tơ VAR, thực chất đó là tổ hợp của các mô hình Trung bình trượt và Tự hồi quy cho nhiều chuỗi thời gian, nói cách khác mô hình VAR là một hệ gồm nhiều phương trình của nhiều chuỗi thời gian có liên quan với nhau về trể, ở đó mỗi phương trình có dạng của mô hình Trung bình trượt kết hợp với mô hình Tự hồi quy. 1.4. Dự báo bằng phương pháp phân lớp dữ liệu 1.4.1. Phương pháp phân lớp dữ liệu Quá trình phân lớp dữ liệu thường gồm 2 bước: xây dựng mô hình và sử dụng mô hình để phân lớp dữ liệu [12]. Bước 1: một mô hình sẽ được xây dựng dựa trên việc phân tích các mẫu dữ liệu. Mỗi mẫu tương ứng với một lớp, được quyết định bởi một thuộc tính gọi là thuộc tính lớp. Các mẫu dữ liệu này còn được gọi là tập dữ liệu huấn luyện (training data set). Các nhãn lớp của tập dữ liệu huấn luyện đều phải được xác định trước khi xây dựng mô hình, vì vậy phương pháp này còn được gọi là học có thầy (supervised learning) khác với phân cụm dữ liệu là học không có thầy (unsupervised learning). Bước 2: sử dụng mô hình để phân lớp dữ liệu. Trước hết chúng ta phải tính độ chính xác của mô hình. Nếu độ chính xác là chấp nhận được, mô hình sẽ được sử dụng để dự báo nhãn lớp cho các mẫu dữ liệu khác trong tương lai. Các kỹ thuật phân lớp dữ liệu chủ yếu để dự báo số liệu gồm có: phân lớp theo phương pháp Bayes, phân lớp theo cây quyết định, phân lớp theo phương pháp máy vector hỗ trợ (SVM), phân lớp theo phương pháp mạng nơron, thuật toán di truyền, thuật toán người lãng riềng gần nhất, … 1.4.2. Độ chính xác phân lớp Ước lượng độ chính xác của mô hình phân lớp là một bước quan trọng cho phép người dùng đánh giá được dữ liệu được phân lớp trong tương lai của họ sẽ chính xác đến đâu. Ngoài ra độ chính xác này còn có thể dùng làm tiêu chí để so sánh các bộ phân lớp khác nhau[12]. Để ước lượng độ chính xác của mô hình phân lớp, chúng ta có 1 số phương pháp như holdout hay k-fold cross-validation, bootstrapping, leave-one-out… - 22 - - Phương pháp holdout: trong phương pháp này, tập dữ liệu ban đầu sẽ được chia ngẫu nhiên ra làm 2 tập: tập huấn luyện và tập kiểm thử. Tập huấn luyện được dùng để xây dựng mô hình còn tập kiểm thử được dùng để ước lượng độ chính xác. Sơ đồ phương pháp này được thể hiện trong hình dưới. Hình 2. Đánh giá độ chính xác của bộ phân lớp bằng phương pháp holdout - Phương pháp k-fold cross-validation: trong phương pháp này, tập dữ liệu ban đầu sẽ được chia thành k tập con (fold), thường là với kích thước bằng nhau. Bước huấn luyện và bước kiểm thử sẽ được thực hiện làm k lần. Tại mỗi lần lặp thứ i, tập con Si sẽ được dùng làm tập kiểm thử còn các tập con còn lại sẽ được dùng làm tập huấn luyện. Độ chính xác sẽ được tính bằng tổng số các trường hợp phân loại đúng trong k lần chia cho tổng số mẫu trong tập dữ liệu ban đầu. Để tăng độ chính xác của phương pháp phân lớp, người ta đưa ra một số kỹ thuật như: Bagging và boosting. Tư tưởng chính của kỹ thuật bagging là thay vì xây dựng một bộ phân lớp, chúng ta sẽ xây dựng k bộ phân lớp từ tập dữ liệu ban đầu, với mỗi mẫu mới cần phân lớp, mỗi bộ phân lớp sẽ có 1 kết quả dự báo và nhãn nào được dự báo nhiều nhất bởi các bộ phân lớp sẽ được gán cho mẫu mới. Kỹ thuật boosting tương tự kỹ thuật bagging nhưng mỗi mẫu học sẽ được gán thêm 1 trọng số để giúp các bộ phân loại xây dựng sau tránh các lỗi mà các bộ phân loại trước gặp phải. KẾT LUẬN CHƯƠNG 1 Trong chương 1, luận văn đã trình bày một cách tổng quan về dự báo và các phương pháp dự báo. Các phương pháp dự báo bao gồm các phương pháp dự báo định tính và các phương pháp dự báo định lượng. Trong phương pháp định lượng gồm có phương pháp (mô hình) chuỗi thời gian và mô hình nhân quả. Luận văn này đã giới thiệu một cách tóm tắt quy trình các bước phân tích, dự Tập huấn luyện Tập kiểm thử Dữ liệu Bộ phân lớp Đánh giá độ chính xác - 23 - báo bằng mô hình chuỗi thời gian và 3 mô hình chuỗi thời gian điển hình nhất đang được ứng dụng hiện nay là mô hình làm trơn hàm mũ chuỗi thời gian, mô hình trung bình trượt tích hợp tự hồi quy và mô hình tự hồi quy véc tơ. Trong mô hình nhân quả, luận văn đã giới thiệu nhanh các mô hình hồi quy tuyến tính và phi tuyến, và phương pháp dự báo bằng phân lớp dữ liệu. Phương pháp dự báo phân lớp dữ liệu sẽ là đối tượng nghiên cứu chính của luận văn này. Trong chương tiếp theo, luận văn sẽ tập trung trình bày phương pháp phân lớp dữ liệu sử dụng mạng nơron nhân tạo để dự báo định lượng. - 24 - CHƯƠNG 2. DỰ BÁO ĐỊNH LƯỢNG BẰNG PHƯƠNG PHÁP MẠNG NƠRON NHÂN TẠO 2.1. Mạng nơron nhân tạo 1). Khái quát về mạng nơron Về bản chất mạng nơron nhân tạo là mô hình mô phỏng đơn giản của nơron sinh học[7]. Mạng nơron nhân tạo cũng thực hiện nhiệm vụ của mình thông qua các thao tác: nhận đầu vào từ các nơron trước nó, xử lý đầu vào bằng cách nhân mỗi đầu vào này với trọng số liên kết tương ứng và tích hợp các đầu vào thu được rồi đưa qua một hàm truyền, sau đó gửi kết quả cuối cùng cho các nơron tiếp theo hoặc đầu ra (output). Cứ như vậy các nơron này hoạt động phối hợp với nhau tạo thành hoạt động chính của mạng nơron. Trong mạng nơron, các nơron liên kết với nhau qua các trọng số và ngưỡng. Trong quá trình huấn luyện thì giá trị các trọng số và ngưỡng được thay đổi cho phù hợp với các mẫu ở đầu vào. 2). Ưu, nhược điểm của mạng Nơron nhân tạo - Ưu điểm: Có thể nói mạng Nơron có ưu điểm lớn nhất là khả năng học, khả năng tổng quát hóa cũng như khả năng thích ứng với rất nhiều kiểu dữ liệu khác nhau trong nhiều lĩnh vực khác nhau. Học là quá trình huấn luyện mạng nơron có khả năng nhận biết chính xác các mẫu. Đó là quá trình ghi nhớ tri thức về các mẫu được học thông qua việc điều chỉnh các trọng số đầu vào và ngưỡng tương ứng. Tổng quát hóa là quá trình phân loại mẫu dựa trên các mẫu mà mạng đã được học. Mạng nơron có thể giải quyết các bài toán phức tạp ở nhiều lĩnh vực khác nhau. - Nhược điểm: Tuy mạng nơron có những rất nhiều ưu điểm nhưng vẫn có nhược điểm là thời gian huấn luyện lâu, còn hội tụ ở giá trị cực trị địa phương… 3). Các ứng dụng của mạng Nơron nhân tạo Mạng nơron thích hợp với các ứng dụng so sánh và phân loại mẫu (pattern matching and classification), dự báo (prediction) và điều khiển (control). Chính vì thế mạng nơron có nhiều ứng dụng trong: - 25 - - Không gian vũ trụ: như máy bay không người lái, các chế độ bay tự động, hệ thống phát hiện sai hỏng… - Dự thoái tài chính kinh tế: Dự báo giá cả biến động, cấp số thời gian trong thị trường tài chính, các ứng dụng về điều hành vốn, dự báo thị trường ngoại hối, đánh giá rủi ro… - Hoạt động ngân hàng - Hệ thống phòng thủ: hệ thống điều khiển vũ khí dò tìm mục tiêu, nhận dạng mục tiêu, điều khiển đường đạn, xử lý và nhận dạng tín hiệu ảnh, rada… - Điện tử viễn thông: dự báo chuỗi mã, phân tích lỗi mạch tích hợp, nhận dạng chữ viết, vân tay, tiếng nói… 2.2 . Mô hình của mạng nơron nhân tạo Một nơron là đơn vị xử lí thông tin, đó là những nguyên tắc cơ bản của quá trình hoạt động của mạng nơron. Hình 3 cho biết mô hình của một nơron. Có 3 phần tử cơ bản của mô hình nơron như được mô tả dưới đây[7]: 1) Một tập hợp các khớp thần kinh hay mối liên kết được đặc trưng bởi trọng số của nó. Một tín hiệu đầu vào xj của khớp thần kinh j liên kết với nơron k được khuyếch đại bởi trọng số chuyển tiếp wkj. Trọng số wkj là tích cực nếu khớp liên hợp được kích thích, nó là không tích cực nếu khớp liên hợp bị kìm hãm. 2) Một bộ cộng để cộng những tín hiệu đầu vào được khuyếch đại bởi các khớp thần kinh tương ứng của nơron. 3) Một hàm kích hoạt để định ra giới hạn biên độ đầu ra của một nơron. Hàm kích hoạt còn được coi như một hàm nén, bên trong nó nén những giới hạn biên độ chấp nhận được của tín hiệu đầu ra đến một số giá trị hữu hạn nào đó. Giá trị giới hạn đầu ra bình thường của nơron là khoảng đóng [0,1] hoặc [-1,1]. Mô hình của nơron mô tả trong hình 3 bao gồm một ngưỡng ứng dụng ngoài i do đó có tác dụng làm hạn chế hàm kích hoạt đầu vào. Mặt khác mạng lưới đầu vào của hàm kích hoạt có thể được tăng lên bởi việc dùng sự chênh lệch giới hạn hơn là dùng ngưỡng. Sự chênh lệch là sự phủ nhận ngưỡng. Trong giới hạn toán học chúng ta có thể mô tả một nơron k được viết bởi hệ phương trình:    p j jkjk xwv 1 (1.1) và yk =  (vk - k) (1.2) - 26 - Trong đó: x1, x2,...,xp là các tín hiệu đầu vào; wk1,wk2,...,wkp là các trọng số chuyển tiếp của nơron k; uk là bộ phối hợp đầu ra tuyến tính; k là ngưỡng; (.) là hàm kích hoạt; yk là tín hiệu ra của nơron. Hình 3. Mô hình phi tuyến của một nơron Sử dụng ngưỡng k có hiệu quả ứng dụng biến đổi afin tới đầu ra uk của bộ phối hợp tuyến tính trong hình 3 được biểu diễn bởi : uk=vk - k (1.3) Đặc biệt sự phụ thuộc vào ngưỡng k dù là tích cực hay thụ động, mối quan hệ giữa hiệu quả mức hoạt động mội tại hoặc khả năng kích hoạt vk của nơron k và bộ phối hợp tuyến tính đầu ra uk được sửa đổi như hình 4. Lưu ý là do kết quả của biến đổi aphin, đồ thị của vk không còn đi qua gốc toạ độ. x1 hàm kích hoạt đầu vào x2 vk đầu ra tổng yk . liên kết . k (ngưỡng) xk trọng số chuyển tiếp Wk 1 wkp Wk 2  (.) - 27 - Hình 4. Kết quả biến đổi afine của ngưỡng Ngưỡng k là tham số ngoài của nơron nhân tạo k. Chúng ta có thể tính toán nó như trong công thức 1.2 Tương đương chúng ta có thể kết hợp của công thức 1.1 và 1.2 thành công thức    p j jkjk xwv 0 (1.4) và yk =  (vk) (1.5) Trong công thức 1.4 ta đã thêm vào một khớp thần kinh mới, đầu vào là x0=-1 (1.6) và trọng số của nó là wk0= k (1.7) Bởi vậy chúng ta có thể công thức hoá lại mô hình của nơron như hình 5a. Trong hình này sự ảnh hưởng của ngưỡng được thể hiện bởi hai việc : - Thêm một tín hiệu đầu vào mới cố định tại -1. - Thêm trọng số chuyển tiếp mới cân bằng với ngưỡng k. Tổng mức ngưỡng k <0 kích hoạt k=0 bên trong vk k>0 0 đầu ra kết hợp phi tuyến, uk - 28 - Cách khác chúng ta có thể mô hình nơron như trong hình 5b với sự kết hợp cố định đầu vào x0=1và trọng số wk0=bk (bk độ chênh lệch). Mặc dù mô hình 1.4 và 1.6 là khác nhau nhưng tương đương về mặt toán học. Hình 5. Hai mô hình phi tuyến của nơron 1) Các loại hàm kích hoạt Hàm kích hoạt được biểu thị là (.), nó định nghĩa đầu ra của nơron trong giới hạn mức hoạt động của đầu vào. Nói chung người ta xác định 3 loại hàm kích hoạt cơ bản. a. Hàm ngưỡng: Hàm kích hoạt loại này được mô tả trong hình 5a, ta có công thức (1.8) do đó, đầu ra của nơron k dùng một hàm ngưỡng như vậy, được biểu thị (1.9) 1 nếu v>0 (v)= 0 nếu v <0 1 nếu vk >=0 yk = 0 nếu vk <0 Giá trị vào wk0=k cố định xo=-1 x1 hàm kích hoạt đầu vào x2 vk đầu ra tổng yk . liên kết . x3 trọng số chuyển tiếp (gồm cả ngưỡng) (a) Wk 0 Wk 1 wkp Wk 2  (.) - 29 - vk là mức hoạt động nội tại của nơron    p j kjkjk xwv 1  (1.10) Một nơron như vậy được gọi là mô hình McCulloch-Pitts do McCulloc và Pitts là những người tiên phong trong sự phát hiện này. Trong mô hình này đầu ra của nơron nhận giá trị 1 nếu các mức nội tại là tích cực, và nhận giá trị 0 nếu khác đi. Sự phát biểu này mô tả tất cả hoặc không của mô hình McCulloc-Pitts. b). Hàm phân đoạn tuyến tính, được mô tả trong hình 5b, được tính theo công thức:            2 1,0 2 1 2 1, 2 1,1 )( vneu vneuv vneu v (1.11) với nhân tố khuyếch đại bên trong tuyến tính được giả thiết là thống nhất. Dạng này của hàm kích hoạt được coi gần giống như một máy khuyếch đại phi tuyến. Hai thuộc tính sau là dạng đặc biệt của McCulloc - Pitts: - Một bộ phối hợp tuyến tính được sinh ra nếu miền tuyến tính của thao tác được duy trì mà không gặp phải sự bão hoà. - Hàm phân đoạn tuyến tính quy về hàm ngưỡng nếu nhân tố khuyếch đại của vùng tuyến tính được làm lớn quá. Giá trị vào wk0=bk cố định xo=+1 x1 hàm kích hoạt đầu vào x2 vk đầu ra tổng yk . liên kết . x3 trọng số chuyển tiếp (gồm cả độ lệch) (b) Wk0 Wk1 wkp Wk2  (.) - 30 - - Hàm sigma: Hàm sigma cũng được sử dụng trong xây dựng những mạng nơron nhân tạo. Nó được định nghĩa như một hàm tăng dần, được xác định bởi công thức sau: (1.12) ở đây a là tham số bậc của hàm sigma. Khi thay đổi tham số a chúng ta thu được hàm sigma của những giá trị bậc khác nhau. Trong những trường hợp hạn chế nào đó, khi tham số bậc tiến tới vô cùng thì hàm sigma trở thành hàm ngưỡng đơn giản. Trong khi hàm ngưỡng lấy giá trị 0 hoặc 1 thì một hàm sigma lấy giá trị liên tục từ 0 tới 1, chú ý rằng hàm sigma có thể khác nhau trong khi hàm ngưỡng không thể. Những hàm kích hoạt đã định nghĩa trong các công thức (1.8), (1,11), (1.12) có giới hạm từ 0 tới 1. Để có hàm kích hoạt có phạm vi hoạt động từ -1 tới 1, hàm kích hoạt giả định mẫu phản đối xứng với gốc được định nghĩa lại từ hàm ngưỡng (1.8) như sau:          .0,1 ,0,0 ,0,1 )( vneu vneu vneu v (1.13) Hàm này thường được gọi là hàm signum. Ngoài ra, thay cho hàm sigma chúng ta có thể dùng hàm tiếp xúc hyperbolic, được xác định bởi công thức: )exp(1 )exp(1 2 tanh)( v vvv         (1.14) để cho một hàm kích hoạt kiểu sigma. 2.4. Thuật toán lan truyền ngược sai số Thuật toán lan truyền ngược sai số là thuật toán rất nổi tiếng và được sử dụng phổ biến trên thế giới để xây dựng mạng nơron nhân tạo. Việc huấn luyện mạng nơron với thuật toán lan truyền ngược sai số gồm hai pha ngược chiều nhau: quá trình truyền thẳng (lan truyền xuôi) và quá trình lan truyền ngược [12]. )exp(1 1)( av v   - 31 - Chuẩn bị tập mẫu đầu vào dưới dạng {xi, di} trong đó xi là đầu vào cho mạng và di là giá trị đầu ra mong muốn tương ứng với xi (còn gọi là giá trị mục tiêu). - Lựa chọn hàm đánh giá sai số của mạng (sai số giữa đầu ra thực tế và giá trị mục tiêu). Chúng ta có thể dùng hàm sai số trung bình bình phương, hàm tuyến tính… - Lan truyền xuôi tín hiệu đầu vào qua mạng: cung cấp véctơ đầu vào cho lớp thứ nhất của mạng, sau đó tín hiệu sẽ được lan truyền lần lượt trên từng lớp mạng. Cuối cùng ta sẽ thu được vector đầu ra thực sự của mạng. - Tính sai số của mạng rồi lan truyền ngược sai số lần lượt từ lớp đầu ra cho tới lớp đầu vào để hiệu chỉnh tham số mạng tại các neuron ở các lớp (trọng số liên kết, ngưỡng) theo các luật hiệu chỉnh trọng số tương ứng với hàm đánh giá sai số. - Lặp lại hai quá trình trên sao cho đầu ra thực sự của mạng càng gần với giá trị mục tiêu càng tốt (sai số của mạng càng nhỏ càng tốt). Phương pháp điều chỉnh trọng số như sau: Đặt  = d – y trong đó y là đầu ra thực và d là đầu ra mong muốn y = (net) với  là hàm truyền. ta cần phải tính iw là độ sai lệch trọng số tương ứng với đầu vào i. iw = -k iw E   với k là một hằng số    p p pep E 1 1 gọi là độ sai lệch bình phương trung bình. trong đó 2 ppe  = 2)( pp yd  y = (net) với  là hàm truyền.    n oi piip xwnet )( Ta sẽ điều chỉnh các trọng số bằng một lượng tỷ lệ với giá trị sai lệch giữa đầu ra mong muốn và đầu ra thực sự. Đặt  = 2k là một hằng số và hằng số này do người dùng đặt ra gọi là hằng số tốc độ học. Quá trình học dừng lại khi thỏa mãn một trong các điều kiện sau: ÷ Mọi iw của quá trình truyền ngược là đủ bé hơn ngưỡng cho phép. - 32 - ÷ Lỗi ở đầu ra nhỏ có thể chấp nhận được. ÷ Sau một số bước lặp đủ lớn… Tóm lại quá trình truyền ngược gồm các bước sau: a. Bước 1: Chọn Emax,  >0 , các trọng số được gắn ngẫu nhiên bé. b. Bước 2: Truyền thẳng ( Forward Propagation) truyền thẳng các tín hiệu để thu được giá trị đầu ra. c. Bước 3: Đo độ sai lệch: Tính giá trị sai lệch bình phương giữa tín hiệu thu được và kết quả mong muốn. d. Bước 4: Truyền ngược để điều chỉnh trọng số. e. Bước 5: Kiểm tra tổng bình phương độ sai lệch (Total Error Checking). ÷ Nếu chấp nhận được E < EMax kết thúc quá trình điều chỉnh, ghi đầu ra. ÷ Nếu không bắt đầu giai đoạn lặp mới. 2). Sự hội tụ: Thuật toán lan truyền ngược hội tụ đến một giải pháp mà nó tối thiểu hóa được sai số trung bình bình phương. Tuy nhiên đối với mạng MLP thì hàm sai số trung bình bình phương thường phức tạp và có nhiều cực trị cục bộ, vì thế các phép lặp huấn luyện mạng có thể chỉ đạt đến cực trị cục bộ của hàm sai số trung bình bình phương mà không đạt đến được cực trị tổng thể. Vấn đề huấn luyện sẽ hội tụ như thế nào sẽ phụ thuộc vào các điều kiện ban đầu của quá trình huấn luyện đặc biệt là việc chọn hệ số học. Với mỗi bài toán khác nhau thì ta có phương án chọn hệ số học khác nhau. Không có hệ số học thích hợp cho mọi bài toán mà ta chọn hệ số học theo kinh nghiệm, thông thường hệ số học được chọn trong khoảng (10-3 – 10). 2.5. Thiết kế mạng nơron Năm 1996, Icebeling Kaastra và Milton Boyd [10] đưa ra một phương pháp thiết kế mạng nơron để dự báo định lượng, chia thành 8 bước thực hiện. Phương pháp luận của nó được thiết kế dựa trên các bước đã được đưa ra bởi Deboeck, Masters, Blum, Nelson và Illingworth. Các bước đó như sau: Bước 1: Lựa chọn biến Bước 2: Thu thập dữ liệu Bước 3: Tiền xử lý dữ liệu Bước 4: Xác định tập huấn luyện, tập kiểm thử - 33 - Bước 5: Xác định mô hình mạng nơron ÷ Số lượng lớp ẩn ÷ Số lượng nơron ẩn ÷ Số lượng nơron đầu ra ÷ Hàm kích hoạt Bước 6: Xác định tiêu chí đánh giá Bước 7: Huấn luyện mạng nơron ÷ Số vòng lặp huấn luyện ÷ Tốc độ học và hệ số xung lượng Bước 8: Thực thi Các bước này không phải là quá trình thực hiện một lần mà có thể quay trở lại các bước trước khi cần thiết, đặc biệt là đối với bước huấn luyện và bước lựa chọn biến. 1) Bước 1: Lựa chọn biến Việc thiết kế thành công một mạng nơron phụ thuộc nhiều vào việc hiểu rõ bài toán thế nào. Biết rõ những biến đầu vào nào là quan trọng trong miền cần dự báo. Điều này nói thì dễ nhưng làm thì khó bởi vì lý do quan trọng để người ta tin tưởng vào mạng nơron là ở sức mạnh của nó trong việc phát hiện ra những mối quan hệ không tuyến tính phức tạp trong số lượng lớn các biến số khác nhau. Dù vậy, lý thuyết kinh tế có thể trợ giúp chúng ta trong việc lựa chọn các biến số có vẻ như sẽ là các bộ dự báo quan trọng. Nếu thiết kế theo quan điểm này, chúng ta sẽ quan tâm tới dữ liệu thô mà từ đó rất nhiều chỉ báo sẽ được phát triển. Những chỉ báo này sẽ tạo nên các đầu vào thực tế cho mạng nơron. Các nhà nghiên cứu tài chính thường quan tâm tới vấn đề liệu việc dự báo thị trường có thể sử dụng cả dữ liệu đầu vào kinh tế cơ sở và kinh tế kỹ thuật từ một hoặc nhiều thị trường hay không. Các đầu vào kỹ thuật được đĩnh nghĩa là các giá trị trễ của các biến phụ thuộc hoặc các chỉ báo được tính toán ra từ các giá trị trễ. Các đầu vào cơ sở là các biến số kinh tế có ảnh hưởng trực tiếp tới các biến phụ thuộc. Mô hình mạng nơron đơn giản nhất sử dụng các giá trị trễ của các biến độc lập hoặc sai phân bậc nhất của chúng để làm đầu vào. Mô hình đó đã thực hiện tốt hơn mô hình truyền thống Box-Jenkins trong việc dự báo giá, tất nhiên là không phải trong tất cả các trường hợp. Một cách tiếp cận thông dụng - 34 - hơn là tính ra các chỉ báo kỹ thuật dựa trên các giá trị quá khứ của thị trường cần dự báo. Tần suất của dữ liệu phụ thuộc vào mục đích của nhà nghiên cứu. Một hệ thống giao dịch chứng khóan điển hình sẽ có xu hướng sử dụng dữ liệu theo ngày để thiết kế mạng nơron như là một phần của hệ thống giao dịch tổng thể. Tuy nhiên một nhà đầu tư theo chiến lược lâu dài hơn có thể sử dụng dữ liệu theo tuần hoặc theo tháng làm đầu vào cho mạng nơron. Trong khi đó, để dự báo GDP, vấn đề thất nghiệp hoặc các chỉ báo kinh tế nước ngoài, các nhà kinh tế thường sử dụng dữ liệu theo tháng hoặc theo quý. 2). Bước 2: Thu thập dữ liệu Các nhà nghiên cứu cần quan tâm tới khả năng thu thập được các dữ liệu của các biến đã chọn trong bước trước. Dữ liệu kỹ thuật thường dễ dàng thu thập được từ nhiều nhà cung cấp với giá thành phải chăng, trong khi đó, thông tin cơ sở thường khó thu thập hơn. Thời gian thu thập dữ liệu không thể được tính vào thời gian tiền xử lý, huấn luyện hoặc đánh giá mạng nơron. Nhà cung cấp cũng nên chú trọng tới chất lượng dữ liệu; dữ liệu nên được kiểm tra lỗi bằng cách kiểm tra sự thay đổi theo thời gian, khoảng giá trị, sự thống nhất, logic, và các giá trị thiếu. Các giá trị thiếu, vấn đề thường xuyên xuất hiện, có thể được giải quyết bằng một số cách. Tất cả các giá trị thiếu có thể được loại bỏ hoặc có thể thay tất cả các giá trị thiếu bằng giá trị xuất hiện nhiều nhất hoặc giá trị trung bình cộng của các giá trị lân cận. Khi sử dụng dữ liệu cơ sở làm đầu vào cho mạng nơron, cần để ý tới bốn vấn đề sau: - Phương pháp tính cần nhất quán trong toàn bộ quá trình - Không nên sửa lại các giá trị dữ liệu sau khi đã khởi tạo nó vào hệ thống bởi các giá trị sửa lại sẽ không có giá trị gì cho việc dự báo thực tế. - Dữ liệu để làm đầu vào cho mạng nơron nên được làm trễ một cách hợp lý bởi vì thông tin cơ sở không thể có nhanh như thông tin thị trường chứng khóan được. - Các nhà nghiên cứu nên đảm bảo rằng các nguồn dữ liệu vẫn sẽ cung cấp được các thông tin cơ sở trong tương lai. 3). Bước 3: Tiền xử lý dữ liệu Tiền xử lý dữ liệu có thể hiểu là việc phân tích và chuyển đổi các biến đầu vào và đầu ra để giảm thiểu nhiễu, làm nổi bật các mối quan hệ quan trọng, phát hiện xu hướng và làm phẳng các phân phối biến để hỗ trợ mạng nơron trong - 35 - việc học các mẫu tốt hơn. Dữ liệu đầu vào và đầu ra sau khi được thu thập thường không được đưa ngay vào mạng nơron dưới dạng thô. Ít nhất, dữ liệu thô cần được chia lại vào khoảng cận trên và cận dưới của hàm chuyển đổi (thường là trong khoảng [0,1] hoặc [-1,1]). Hai trong số các phương pháp chuyển đổi dữ liệu thông thường nhất cả trong phương pháp dự báo thông thường và trong dự báo bằng mạng nơron là sai phân bậc nhất và lấy logarit tự nhiên của biến. Sai phân bậc nhất, hoặc sử dụng sự thay đổi của biến, có thể được sử dụng để loại bỏ các xu hướng tuyến tính của dữ liệu. Phương pháp chuyển đổi logarit thường có ích cho các tập dữ liệu có cả giá trị rất lớn và rất nhỏ. Sơ đồ (histogram) trong hình 2 thể hiện hiệu quả nén của chuyển đổi logarit cho số liệu buôn bán lúa gạo theo tháng. Chuyển đổi logarit cũng có thể giúp chuyển đổi các mối quan hệ theo cấp số nhân về cấp số cộng, làm đơn giản và tăng hiệu quả cho việc huấn luyện mạng nơron. Trước khi chuyển đổi Sau khi chuyển đổi qua hàm logarit - 36 - Hình 6. Chuyển đổi logarit của số liệu buôn bán lúa gạo theo tháng Một cách chuyển đổi thông dụng khác là sử dụng các tỷ số của biến đầu vào. Các tỷ số thể hiện rõ các mối quan hệ quan trọng trong khi đó vẫn bảo tồn được mức độ tự do vì sẽ cần ít nơron hơn để mã hóa các biến độc lập. Lấy mẫu hoặc lọc dữ liệu được hiểu là loại bỏ các đối tượng dữ liệu khỏi tập huấn luyện và tập kiểm tra để tạo ra các phân bố dữ liệu vững chắc hơn. Cách lọc dữ liệu nên thống nhất với mục tiêu của nhà nghiên cứu. Ví dụ, biểu đồ về sự thay đổi giá của các mặt hàng hóa có thể chứa rất nhiều những thay đổi nhỏ. Đối với những người buôn chứng khóan thì chúng không có tác dụng gì cả, tuy nhiên, chúng lại ảnh hưởng lớn tới việc huấn luyện mạng nơron bởi các thay đổi nhỏ này vẫn được tính vào các lần huấn luyện và mạng nơron tính sai số bình phương (hoặc các hàm sai số khác) dựa trên toàn bộ các lần huấn luyện. Nếu loại bỏ những sự thay đổi nhỏ đó, khả năng thực thi của mạng sẽ được cải tiến bởi mạng sẽ tập trung hơn vào những thay đổi lớn của dữ liệu. Mặt khác, những người kinh doanh nhỏ lại có xu hướng quan tâm tới những thay đổi nhỏ này. Vì vậy, người nghiên cứu phải hiểu rất rõ và chính xác mạng nơron được dùng để học cái gì. Một lợi ích nữa của lọc dữ liệu là làm giảm số lượng các sự kiện huấn luyện, giảm tải cho quá trình huấn luyện mạng nơron. Trong thực tế, việc tiền xử lý dữ liệu thường bao gồm nhiều dữ liệu thử và lỗi hơn. Một phương pháp để chọn các biến phù hợp là thử nghiệm các kết hợp khác nhau của biến. Ví dụ, với một tập 20 biến gồm nhiều chỉ báo kỹ thuật khác nhau, có thể chọn tập 10 biến một thể thử nghiệm trước và thay đổi 2, 3 biến 1 - 37 - lần. Mặc dù cách này khá tốn công, tuy nhiên phương pháp này sẽ giúp tìm ra các tập biến mà có vẻ như sẽ là các bộ dự báo tuyệt vời khi kết hợp với nhau. Lý thuyết hỗn độn và thống kê cũng không hỗ trợ được trong trường hợp này. Dù vậy, danh sách 20 biến này có thể thay đổi theo thời gian khi nhà nghiên cứu thu được nhiều kinh nghiệm hơn trong việc tiền xử lý dữ liệu cho ứng dụng của mình. Cách tiếp cận này đặc biệt hữu dụng trong trường hợp tập huấn luyện nhỏ và gần với số lượng biến. 4). Bước 4: Xác định tập huấn luyện, tập kiểm tra và đánh giá Thông thường, người ta chia tập dữ liệu chuỗi thời gian ra làm 3 tập riêng biệt gọi là tập huấn luyện, tập kiểm tra và tập đánh giá. Tập huấn luyện là tập lớn nhất và được sử dụng để huấn luyện mạng nơron, tìm ra các mẫu. Tập kiểm tra, thường có kích thước từ 10% đến 30% tập huấn luyện, được dùng để đánh giá khả năng tổng quát hóa của mạng nơron. Nhà nghiên cứu nên chọn mạng có kết quả thực thi tốt nhất trên tập kiểm tra. Tập đánh giá được sử dụng sau cùng để kiểm tra hiệu năng của mạng nơron sau khi đã được huấn luyện. Kích thước của tập đánh giá phải tính toán để cân bằng giữa số lượng mẫu đủ để đánh giá và số lượng mẫu còn lại cho cả tập huấn luyện và kiểm tra. Thông thường, tập đánh giá nên dùng những mẫu mới nhất và phải đảm bảo không dùng tập đánh giá trong quá trình huấn luyện và kiểm tra, kể cả khi điều chỉnh lại các tham số của mạng. Tập kiểm tra có thể được chọn tùy ý trong tập huấn luyện hoặc có thể gồm những phần tử liền kề sau tập huấn luyện. Việc chọn ngẫu nhiên có ưu điểm là tránh được những nguy hiểm khi sử dụng tập kiểm tra có tính chất dữ liệu giống nhau. Tuy nhiên việc chọn tập kiểm tra gồm những phần tử liền kề sau tập huấn luyện cũng có ưu điểm bởi vì với cách chọn này, dữ liệu kiểm tra thường sẽ là những mẫu dữ liệu mới (gần nhất, trừ những dữ liệu trong tập đánh giá), và những dữ liệu này thường là quan trọng hơn những dữ liệu cũ. Nếu sử dụng phương pháp chọn ngẫu nhiên thì tập kiểm tra không được thay đổi trong quá trình huấn luyện, vì nó sẽ làm giảm khả năng tổng quát hóa của mạng nơron, đặc biệt trong những trường hợp tập kiểm tra khá lớn so với tập huấn luyện (ví dụ như 30%). Những phương pháp lựa chọn khác, ví dụ như chọn các mẫu thứ n trong thứ tự làm tập kiểm tra, không được khuyên dùng, bởi có thể tạo các vòng lặp trong mẫu dữ liệu. Một cách tiếp cận nghiêm ngặt hơn trong việc đánh giá mạng nơron là phương pháp kiểm tra walk-forward hay còn gọi là phương pháp kiểm tra cửa sổ - 38 - trượt. Phương pháp này sẽ tạo ra 1 dãy các tập huấn luyện-kiểm tra-đánh giá, chèn lên nhau. Mỗi tập sẽ lần lượt tịnh tiến theo chuỗi thời gian như trong hình 3. Phương pháp này sẽ kiểm tra sức mạnh của mô hình thông qua việc huấn luyện lại mạng nơron với tập dữ liệu ngoài mẫu (out-of-sample). Trong phương pháp này, kích thước của tập đánh giá sẽ hướng dẫn việc huấn luyện lại mạng nơron. Việc huấn luyện lại sẽ khá tốn thời gian, tuy nhiên nó sẽ cho phép mạng thích nghi nhanh hơn với những điều kiện thay đổi của thị trường. Hình 7. Phương pháp kiểm tra cửa sổ trượt Người ta khuyến nghị rằng tập huấn luyện và tập kiểm tra nên được giữ nguyên tỉ lệ trong quá trình huấn luyện mạng, vì mục tiêu của tập kiểm tra là để xác định khả năng tổng quát hóa của mạng. Tuy nhiên, tập đánh giá không nhất thiết phải cùng tỉ lệ với tập huấn luyện và tập kiểm tra vì đây là bước kiểm tra sau cùng và độc lập. 5). Bước 5: Xác định mô hình mạng nơron Có rất nhiều cách xây dựng mạng nơron. Cấu trúc và kiến trúc mạng nơron là 2 cụm từ thường được dùng để mô tả về cách tổ chức một mạng nơron. Sự kết hợp của cấu trúc nơron và kiến trúc sẽ định nghĩa ra mô hình mạng nơron. Cấu trúc nơron mô tả tính chất của một nơron độc lập như hàm chuyển đổi hay cách các đầu vào kết hợp với nhau. Kiến trúc mạng nơron thường bao gồm các yếu tố như số lớp, số nơron trong mỗi lớp và cách thức liên kết của chúng. Số lượng nơron đầu vào là tham số dễ lựa chọn nhất nếu số lượng các biến độc lập đã được xác định, bởi mỗi biến độc lập sẽ được biểu diễn bởi một nơron - 39 - đầu vào. Phần này sẽ đề cập tới cách lựa chọn số lớp ẩn, số nơron ẩn, số nơron đầu ra và hàm chuyển đổi. a. Số lượng lớp ẩn Số lượng lớp ẩn đại diện cho khả năng tổng quát hóa của mạng. Theo lý thuyết, mạng nơron với một lớp ẩn và một số lượng đủ lớn các nơron ẩn sẽ có khả năng xấp xỉ được bất kỳ hàm liên tục nào. Trong thực tế, mạng nơron với một lớp ẩn và đôi khi là hai lớp ẩn được sử dụng rộng rãi và cho kết quả tốt. Tăng số lượng lớp ẩn lên cũng đồng nghĩa với tăng thời gian tính toán và tăng nguy cơ bị quá phú hợp (overfitting). Phù hợp quá xảy ra khi mô hình dự báo có quá ít mẫu liên quan tới các tham số của nó và do đó nó sẽ ghi nhớ các điểm độc lập chứ không phải là học mô hình chung. Cụ thể đối với mạng nơron, số lượng trọng số, cái được gắn cố định với số lượng các lớp và nơron ẩn, và kích thước của tập huấn luyện (số lượng mẫu) sẽ quyết định khả năng xảy ra overfitting. Càng có nhiều trọng số liên quan tới kích thước của tập huấn luyện thì càng dễ xảy ra khả năng mạng ghi nhớ các đặc tính của các mẫu độc lập. Điều đó đồng nghĩa với việc khả năng tổng quát hóa sẽ mất đi và khả năng dự báo thực tế của mô hình sẽ kém. Chính vì thế, người ta khuyến nghị rằng tất cả các mạng nơron nên bắt đầu với một hoặc cùng lắm là hai lớp ẩn. Nếu một mạng nơron 4 lớp (2 lớp ẩn) vẫn không thỏa mãn được các điều kiện kiểm tra sau khi đã thử thay đổi các trọng số hợp lý cho các nơron ẩn thì người nghiên cứu nên sửa lại các biến đầu vào nhiều lần trước khi thêm lớp ẩn thứ 3. Cả lý thuyết và các kinh nghiệm thực tiễn đều cho thấy là các mạng nơron với nhiều hơn 4 lớp đều không thể cải thiện được kết quả dự báo. b. Số lượng nơron ẩn Mặc dù đây là yếu tố rất quan trọng nhưng không có công thức “thần kỳ” nào để đưa ra được số lượng tối ưu các nơron ẩn. Chính vì thế, chúng ta bắt buộc phải quay trở lại vấn đề thực nghiệm. Tuy nhiên, các nghiên cứu trước đây đã đưa ra một số luật cơ bản. Chúng ta có thể tính xấp xỉ số lượng nơron ẩn theo luật Kim tự tháp được đưa ra bởi Masters. Luật này như sau: trong một mạng nơron 3 lớp với n nơron đầu vào và m nơron đầu ra thì lớp ẩn nên có mn. nơron. Số lượng nơron ẩn thực tế có thể dao động từ một nửa tới 2 lần số lượng đề xuất bởi luật Kim tự tháp tùy theo độ phức tạp của bài toán. Baily và Thompson [8] thì khuyến nghị là số lượng nơron ẩn trong một mạng nơron 3 lớp nên là 75% số lượng nơron đầu vào. Katz [11] chỉ ra rằng số lượng tối ưu các nơron ẩn sẽ nằm trong khoảng từ ½ tới 3 lần số lượng nơron đầu vào. Ersoy [12] - 40 - đề nghị một phương pháp là cứ tiếp tục tăng gấp đôi số nơron ẩn cho tới khi nào việc thử nghiệm mạng với tập kiểm tra cho kết quả xấu đi. Klimasauskas [13] khuyến nghị là số lượng sự kiện huấn luyện nên nhiều ít nhất gấp 5 lần số lượng trọng số. Cần chú ý là các luật tính toán số lượng nơron ẩn dựa trên số lượng nơron đầu vào đều ngầm định là tập huấn luyện phải lớn ít nhất gấp 2 lần số lượng trọng số và nên lớn hơn từ 4 lần trở lên. Nếu không thỏa mãn được điều kiện này thì các luật trên sẽ nhanh chóng dẫn mô hình tới tình trạng overfitting bởi số lượng nơron ẩn phụ thuộc trực tiếp vào số lượng nơron đầu vào (nơron đầu vào quyết định số lượng trọng số). Giải pháp cho tình trạng này là hoặc tăng kích thước của tập huấn luyện, hoặc nếu không thì giới hạn lại số lượng nơron đầu vào sao cho số lượng trọng số chỉ bằng một nửa số sự kiện huấn luyện. Trong trường hợp này việc lựa chọn các biến đầu vào cũng trở thành một bài toán khó. Có 3 phương pháp để lựa chọn số lượng tốt nhất các nơron ẩn là: phương pháp cố định, phương pháp tăng thêm và phương pháp giảm bớt. Trong cách tiếp cận cố định, một nhóm mạng nơron với số lượng nơron ẩn khác nhau được huấn luyện và lần lượt đánh giá trên một tập kiểm tra với các trọng số được khởi tạo ngẫu nhiên. Số lượng các nơron tăng thêm có thể là 1, 2 hoặc nhiều tùy theo quá trình tính toán. Kết quả đánh giá lỗi trên tập kiểm tra của các mạng nơron sẽ được ghi lại dưới dạng một hàm của số lượng nơron ẩn và tạo thành một đồ thị lỗi. Mạng nào ít lỗi nhất sẽ được chọn vì nó sẽ có khả năng tổng quát hóa cao nhất. Cách này rất tốn thời gian, tuy nhiên thường cho kết quả rất tốt. Cách tiếp cận tăng thêm hoặc giảm đi thường thay đổi số lượng nơron ẩn ngay trong quá trình huấn luyện chứ không tạo ra nhiều mạng nơron với số lượng nơron ẩn khác nhau như trong phương pháp cố định. Rất nhiều gói phần mềm thương mại về mạng nơron không hỗ trợ việc thêm hoặc bớt các nơron ẩn trong quá trình huấn luyện. Tư tưởng của cách tiếp cận tăng thêm là cứ tăng thêm số lượng nơron ẩn cho tới khi khả năng thực thi của mạng bắt đầu kém đi. Tư tưởng của cách tiếp cận giảm đi cũng tương tự, tuy nhiên số lượng nơron ẩn được giảm dần đi trong quá trình huấn luyện. Bất kể là sử dụng phương pháp nào để tìm số lượng nơron ẩn thì có một quy luật chung là luôn luôn chọn mạng thực thi tốt nhất trên tập kiểm tra với số lượng nơron ẩn ít nhất. Trong quá trình thử nghiệm để tìm số nơron ẩn, các tham số khác phải được giữ nguyên. Thay đổi bất kỳ tham số nào khác sẽ tạo ra một mạng nơron mới với đồ thị lỗi mới và sẽ làm tăng thêm sự phức tạp cho việc tìm số lượng tối ưu các nơron ẩn. - 41 - c. Số lượng nơron đầu ra Quyết định số lượng nơron đầu ra nói chung là một vấn đề khá dễ dàng bởi có nhiều lý do thuyết phục để luôn luôn sử dụng mạng với duy nhất một nơron đầu ra. Mạng nơron với nhiều đầu ra, đặc biệt nếu những đầu ra này khá cách biệt, sẽ cho kết quả kém hơn so với một mạng nơron chỉ có một đầu ra. Một mạng nơron được huấn luyện bằng cách chọn các trọng số sao cho tối thiểu hóa sai số trung bình toàn phần của nơron đầu ra. Ví dụ, một mạng nơron để dự báo giá đồ đạc trong 1 tháng tới và 6 tháng tới sẽ tập trung vào việc giảm sai số lớn nhất của nó, ở đây là sai số khi dự báo cho 6 tháng. Vì vậy nó sẽ không cải tiến được nhiều cho việc dự báo 1 tháng. Giải pháp đưa ra ở đây là xây dựng các mạng nơron chuyên biệt cho mỗi mục tiêu dự báo. Chuyên biệt hóa các mạng nơron cũng sẽ làm giảm lỗi bởi các mạng nơron sẽ trở nên nhỏ hơn và sẽ có ít tham số phải thay đổi hơn để tối ưu hóa mô hình cuối cùng. d. Hàm kích hoạt Hàm kích hoạt là các công thức toán học quyết định đầu ra của quá trình xử lý nơron. Nó cũng có tên khác là hàm chuyển đổi, hàm ngưỡng… Đa phần các mạng nơron hiện nay sử dụng hàm sigmoid, ngoài ra còn có thể sử dụng các hàm khác như hàm tang hypebol, hàm ngưỡng, hàm arctang, hàm tuyến tính… Mục tiêu của hàm kích hoạt là ngăn không cho mạng nơron tạo ra các giá trị đầu ra quá lớn mà có thể làm “tê liệt” mạng và làm cản trở quá trình huấn luyện. Các hàm kích hoạt tuyến tính thường không hữu dụng cho các bài toán phi tuyến. Các bài toán về thị trường, tài chính thường là các bài toán phi tuyến và các hàm kích hoạt phi tuyến sẽ cho kết quả tốt hơn, ví dụ như hàm sigmoid rất thích hợp với dữ liệu chuỗi thời gian. Klimasauskas cho rằng nếu dùng mạng nơron để học các đặc tính trung bình của tập dữ liệu thì nên sử dụng hàm sigmoid, còn nếu dùng mạng nơron để học về độ lệch so với giá trị trung bình thì hàm tang hypecbolic là thích hợp nhất. Hàm dốc và hàm ngưỡng thường được dùng cho các biến nhị phân bởi vì hàm sigmoid chỉ tiệm cận tới các giá trị 0 hoặc 1. Trong mạng truyền thẳng chuẩn, lớp nơron đầu vào thường sử dụng hàm kích hoạt tuyến tính còn các lớp còn lại sử dụng hàm sigmoid. Dữ liệu thô thường được đưa về khoảng [0,1] hoặc [-1,1], như vậy nó sẽ thống nhất với các hàm kích hoạt. Hai phương pháp chia lại tỉ lệ dữ liệu được sử dụng phổ biến nhất với mạng nơron là: chia tỉ lệ tuyến tính và chia tỉ lệ theo độ - 42 - lệch chuẩn/trung bình. Trong phương pháp chia tỉ lệ tuyến tính, các mẫu dữ liệu được đưa về khoảng giữa giá trị lớn nhất và nhỏ nhất theo công thức: )( )()( minmax min minmaxmin DD DDTFTFTFSV    trong đó SV là giá trị sau khi chia tỉ lệ, TFmin và TFmax là giá trị lớn nhất và nhỏ nhất của hàm kích hoạt, D là giá trị của mẫu, và Dmin, Dmax là giá trị lớn nhất và nhỏ nhất của tập mẫu. Phương pháp chia tỉ lệ tuyến tính rất nhạy cảm với các điểm ngoại lai bởi nó không chuyển đổi sự đồng dạng của phân bố mà chỉ đưa chúng vào khoảng giá trị thích hợp của hàm kích hoạt. Trong hình 4, tập dữ liệu S & P 500 được chia tỉ lệ tuyến tính và kết quả là 98.6% mẫu dữ liệu đã bị đưa về khoảng nhỏ hơn 10% khoảng của hàm kích hoạt. Phân bố dữ liệu như vậy không thích hợp để huấn luyện mạng nơron. Hình 8. Hai phương pháp chia tỉ lệ thông dụng trên tập dữ liệu S&P500 - 43 - Trong phương pháp chia tỉ lệ độ lệch chuẩn và trung bình, tất cả các giá trị sẽ được đưa về khoảng [0,1] theo công thức: A Avv   ' Trong đó A và A lần lượt là giá trị trung bình và độ lệch chuẩn. Phương pháp này sẽ giữ được sự đồng dạng của phân bố. Hầu hết các phần mềm mạng nơron đều tự động chia tỉ lệ các biến về khoảng giá trị thích hợp. Dù vậy, vẫn nên xem qua biểu đồ histogram của biến đầu ra và biến đầu vào sau khi chia tỉ lệ. 6). Bước 6: Xác định hàm đánh giá sai số Hàm đánh giá thông dụng nhất trong mạng nơron là hàm tổng lỗi bình phương tối thiểu. Một số hàm đánh giá khác phải kể đến là: độ lệch tuyệt đối tối thiểu, lũy thừa bốn tối thiểu, bình phương tối thiểu đồng dạng và sai phân phần trăm. Những hàm đánh giá này có thể không phải là tiêu chí đánh giá cuối cùng bởi vì các phương pháp đánh giá dự báo thông thường như phần trăm lỗi tuyệt đối trung bình (mean absolute percentage error – MAPE) thường là không đạt cực tiểu trong mạng nơron. Ví dụ một hệ thống bán đồ đạc, những dự báo của mạng nơron sẽ được chuyển thành tín hiệu mua/bán dựa vào các tiêu chí xác định trước, ví dụ các giá trị dự báo lớn hơn 0.8 hoặc 0.9 sẽ được coi là tín hiệu mua còn các giá trị dự báo nhỏ hơn 0.1 hoặc 0.2 sẽ được coi là các tín hiệu bán. Các tín hiệu mua/bán sau đó sẽ được đưa vào một chương trình tính rủi ro và mạng nào có kết quả rủi ro thấp nhất (chứ không phải là kết quả lỗi nhỏ nhất trên tập kiểm tra) sẽ được chọn. Lọc các giá trị của chuối thời gian để loại bỏ các thay đổi nhỏ có thể giúp tránh được tình trạng mạng nơron có điểm chuyển cao mà độ chính xác dự báo vẫn không chấp nhận được. 7). Bước 7: Huấn luyện mạng nơron Huấn luyện một mạng nơron để học được các mẫu là việc cho mạng nơron chạy qua các dữ liệu có câu trả lời đúng. Mục tiêu của việc huấn luyện là tìm ra tập các trọng số giữa các nơron mà có thể cho ra cực tiểu toàn cục của hàm đánh giá. Thông thường, trừ phi mô hình rơi vào tình trạng overfit, nếu không tập trọng số này sẽ cho kết quả tổng quát hóa tốt. Mạng truyền thẳng sử dụng thuật - 44 - toán huấn luyện giảm gradient, điều chỉnh các trọng số đi xuống theo chiều dốc nhất của mặt phẳng lỗi. Dù vậy, điều này không hoàn toàn đảm bảo là tìm được cực tiểu toàn cục bởi mặt phẳng lỗi có rất nhiều cực tiểu địa phương có thể dẫn thuật toán tới chỗ “tắc”. Sử dụng khái niệm xung lượng và 5 -10 tập trọng số khởi tạo ngẫu nhiên sẽ làm tăng cơ hội tìm được cực tiểu toàn cục. Phần này sẽ đề cập tới việc khi nào có thể dừng việc huấn luyện mạng nơron và các chọn tốc độ học và hệ số xung lượng. a. Số vòng lặp huấn luyện Có hai quan điểm khi xem xét vấn đề khi nào có thể dừng huấn luyện mạng nơron. Quan điểm thứ nhất lo ngại về vấn đề có thể vướng vào các cực tiểu địa phương do vậy khó tìm được cực tiểu toàn cục. Người nghiên cứu chỉ nên dừng việc huấn luyện khi không còn cải tiến được hàm đánh giá, dựa trên một số lượng hợp lý các trọng số ngẫu nhiên. Quan điểm này được gọi là “hội tụ”. Quan điểm thứ hai chủ trương tạo ra một loạt các điểm dừng trong khi huấn luyện và kiểm tra tại các điểm dừng đó. Việc huấn luyện sẽ được dừng lại sau một số vòng lặp đã định trước và khả năng tổng quát hóa của mạng nơron trên tập kiểm tra sẽ được đánh giá sau đó lại quay trở lại việc huấn luyện. Mạng nào có kết quả lỗi trên tập kiểm tra thấp nhất từ dưới lên sẽ được chọn vì nó được cho là có khả năng tổng quát hoá tốt nhất. Vấn đề của phương pháp huấn luyện-kiểm tra là các điểm dừng huấn luyện- kiểm tra có thể tạo ra các kết quả lỗi nhỏ trước khi lỗi tăng lên. Hay nói cách khác, người nghiên cứu không có cách nào biết được liệu việc huấn luyện như thế có thể cải thiện khả năng tổng quát hóa không, bởi các trọng số đều được chọn ngẫu nhiên. Cả hai quan điểm trên đều đồng ý là tổng quát hóa trên tập đánh giá là mục tiêu cuối cùng và đều sử dụng tập kiểm tra để đánh giá số lượng lớn các mạng nơron. Điểm khác biệt giữa hai cách tiếp cận chủ yếu nằm ở hai khái niệm huấn luyện quá nhiều (overtraining) và phù hợp quá (overfitting). Những người theo cách tiếp cận “hội tụ” cho rằng không tồn tại khái niệm huấn luyện quá nhiều mà chỉ có overfitting. Overfitting chỉ là dấu hiệu chứng tỏ mạng có quá nhiều trọng số. Giải pháp là giảm số lượng nơron ẩn (hoặc số lượng lớp ấn nếu có nhiều hơn 1 lớp ẩn) và/hoặc tăng kích thước của tập huấn luyện lên. Những người theo cách tiếp cận huấn luyện-kiểm tra thì cố gắng bảo vệ quan điểm chống lại overfitting bằng cách dừng việc huấn luyện khi mạng đã có khả năng tổng quát hóa đạt yêu cầu. - 45 - Ưu điểm của cách tiếp cận “hội tụ” là làm cho người ta tin rằng mạng luôn đạt được cực tiểu toàn cục. Một ưu điểm nữa là người nghiên cứu phải quan tâm tới một tham số (cực tiểu toàn cục) thay vì 2 tham số là điểm dừng huấn luyện để kiểm tra và mạng huấn luyện-kiểm tra nào là tối ưu như trong phương pháp huấn luyện-kiểm tra. Với phương pháp huấn luyện kiểm tra, ưu điểm của nó có thể là mạng với độ chính xác vừa phải xây dựng bằng phương pháp này có thể sẽ đạt độ tổng quát hóa tốt hơn những mạng xây dựng theo cách tiếp cận “hội tụ” mà bị phù hợp quá (overfit). Nhưng nói chung người ta không chú trọng lắm tới ưu điểm này. Một ưu điểm nữa có thể kể đến của cách tiếp cận huấn luyện- kiểm tra là thời gian huấn luyện nhanh hơn cách tiếp cận “hội tụ”. Hình 9. Đồ thị lỗi của quá trình huấn luyện và kiểm tra mạng nơron Mục tiêu của cách tiếp cận “hội tụ” là đạt được cực tiểu toàn cục. Việc này đòi hỏi phải thực hiện một số lần thích hợp các vòng lặp huấn luyện với số lượng hợp lý các trọng số được khởi tạo ngẫu nhiên. Dù vậy vẫn không có gì đảm bảo rằng mạng truyền thẳng sẽ đạt được cực tiểu toàn cục bởi nó có thể bị vướng vào các cực tiểu địa phương.Trong thực tế thì các tài nguyên tính toán là có giới hạn và người nghiên cứu phải tính tới vấn đề cân bằng các yếu tố khác nhau để đạt được sự kết hợp tốt nhất. Người nghiên cứu phải sắp đặt, lựa chọn số lượng các biến đầu vào cần kết hợp để huấn luyện, số lượng nơron ẩn mà mạng kiểm tra, số lượng các trọng số khởi tạo ngẫu nhiên, và số lượng tối đa lần chạy. - 46 - Ví dụ: một bộ 50 biến đầu vào được kiểm tra qua 3 nơron ẩn với 5 bộ trọng số khởi tạo ngẫu nhiên và số lần chạy tối đa là 4,000 sẽ cho kết quả trong 3,000,000 vòng lặp. Thời gian thực hiện này cũng tương đương với việc 10 biến đầu vào được kiểm tra qua 6 nơron ẩn với 10 bộ trọng số khởi tạo ngẫu nhiên và 5000 vòng lặp. Một phương pháp khác để chọn giá trị hợp lý cho số lần chạy tối đa là vẽ đồ thị tương ứng của tổng lỗi bình phương hoặc các độ đo lỗi thích hợp khác với mỗi lần lặp hoặc tại điểm nào đó mà sự cải tiến là không đáng kể nữa (thông thường thì tối đa là 10,000 vòng). Mỗi lần lặp có thể dễ dàng được biểu diễn nếu phần mềm mạng nơron có tạo file thống kê. Sau khi vẽ được đồ thị tương quan với số lượng trọng số khởi tạo ngẫu nhiên, người nghiên cứu có thể chọn số lần chạy tối đa dựa trên điểm nào mà đồ thị ngừng không tăng mạnh nữa và đi theo chiều ngang. Có nhiều nghiên cứu cho thấy số lượng các vòng lặp có thể tạo ra sự hội tụ nằm trong khoảng từ 85 đến 5,000 vòng. Tuy nhiên, người ta cũng ghi nhận được những ngưỡng rất lớn về số vòng lặp như 50,000 hay 191,400 vòng và thời gian huấn luyện có thể lên tới 60 giờ. Quá trình huấn luyện bị ảnh hưởng bởi rất nhiều yếu tố như cách chọn tốc độ học, hệ số xung lượng, và cách chọn cũng khác nhau trong các nghiên cứu vì vậy rất khó để đưa ra một giá trị tổng quát cho số lần chạy tối đa. Tương tự, độ chính xác số học của phần mềm mạng nơron cũng ảnh hưởng tới quá trình huấn luyện bởi sai số sinh ra có thể rất nhỏ và làm cho chương trình mạng nơron đi chệch hướng bởi các thao tác làm tròn số mà chuyện này rất dễ xảy ra đối với các thuật toán lặp nhiều vòng. Người ta khuyến nghị rằng nên giải quyết vấn đề theo hướng chọn số vòng lặp cần thiết để đạt được mức độ mà sự cải tiến là không đáng kể và kiểm tra số lượng các trọng số ngẫu nhiên nhiều nhất mà tính toán cho phép. b. Tốc độ học và hệ số xung lượng Mạng truyền thẳng được huấn luyện theo thuật toán giảm gradient, đi theo đường viền của mặt phẳng lỗi bằng cách luôn đi xuống theo chiều dốc nhất. Mục tiêu của việc huấn luyện là cực tiểu hóa bình phương lỗi toàn cục, được định nghĩa như sau:   M h hi N i hi M h h OtEE 2)( 2 1 2 1 E: tổng lỗi của tất cả các mẫu; Eh: lỗi của mẫu h; - 47 - h đại diện cho các mẫu trong tập đầu vào; i đại diện cho nơron đầu ra thứ i; Biến thi là đầu ra mong muốn của nơron đầu ra thứ i khi thực thi với mẫu h; Ohi là đầu ra thực tế của nơron đầu ra thứ i đối với mẫu h; Hình 10. Giản đồ biểu diễn một mặt phẳng lỗi của mạng nơron Luật huấn luyện để điều chỉnh trọng số giữa nơron i và j được định nghĩa như sau: )1()( hihihihihi OOOt  (3)  N k jkhkhihihi wOO  )1( (4) )()1( hihiij Onw  (5) Trong đó n là số biểu diễn, δhi là tín hiệu lỗi của nơron i đối với mẫu h và ε là tốc độ học. Hệ số học là một hằng số quyết định độ lớn của sự thay đổi trọng số. Sự thay đổi trọng số của một nơron tỷ lệ với ảnh hưởng của trọng số của nơron đó đối với lỗi. Tín hiệu lỗi của một nơron đầu ra và một nơron ẩn lần lượt được tính theo các phương trình (3) và (4). Có thể xem việc huấn luyện một mạng truyền thẳng tương tự như việc một người ném một quả bóng từ điểm A tới điểm C trong hình 9, dù trong thực tế mặt phẳng lỗi là đa chiều và không thể biểu diễn dưới dạng đồ họa như vậy. Lực để ném quả bóng cũng tương tự như tốc độ học. Ném quá mạnh có thể khiến quả bóng bay quá khỏi mục tiêu, thậm chí quay trở lại điểm A hoặc nó có thể đu đưa giữa 2 điểm A và B. Trong quá trình huấn luyện, tốc độ học quá cao có thể nhận thấy khi hàm đánh giá thay đổi nhanh mà không cho thấy sự cải tiến nào. Nếu - 48 - lực ném quả bóng quá nhẹ, nó sẽ khó đi xa được khỏi điểm A, trong huấn luyện mạng cũng vậy, hàm đánh giá sẽ được cải tiến rất ít, thậm chí không được cải tiến. Tốc độ học quá nhỏ do vậy sẽ đòi hỏi nhiều thời gian huấn luyện hơn. Trong cả hai trường hợp, người nghiên cứu phải điều chỉnh hệ số học trong khi huấn luyện hoặc “tẩy não” mạng bằng cách chọn ngẫu nhiên tất cả các trọng số và thay đổi tốc độ học để tạo ra một lần chạy mới trên tập huấn luyện. Một phương pháp tăng hệ số học, đồng nghĩa với việc tăng tốc độ huấn luyện mà không dẫn tới tình trạng vượt quá mục tiêu là thêm vào luật huấn luyện của giải thuật truyển thẳng một hệ số xung lượng. Hệ số xung lượng sẽ quyết định mức độ ảnh hưởng của lần thay đổi trọng số trước đó đối với lần thay đổi trọng số hiện tại. Luật huấn luyện mới cho mạng truyền thẳng được định nghĩa như sau: )()()1( nwOnw ijhihiij   trong đó α là hệ số xung lượng. Hệ số xung lượng sẽ lọc bỏ những sự thay đổi về tần suất cao. Mỗi hướng tìm kiếm mới sẽ là tổng trọng số của gradient hiện thời và gradient trước đó. Giá trị trung bình của gradient trong 2 giai đoạn như vậy sẽ lọc bớt những thay đổi bất thường ở tốc độ nhanh của tốc độ học. Hệ số xung lượng quá lớn sẽ ngăn cản thuật toán đi theo các đường gấp khúc của mặt phẳng trọng số. McClelland và Rumelhart chỉ ra rằng hệ số xung lượng rất hữu ích trong mặt phẳng lỗi có chứa các khe sâu, tường cao và đáy hơi dốc. Nếu không có hệ số xung lượng, để đi xuống các khe sâu, cần sử dụng một tốc độ học rất nhỏ và sẽ mất rất nhiều thời gian. Sử dụng hệ số xung lượng sẽ cho phép dùng tốc độ học cao hơn để đi qua các khe đó. Hầu hết các phần mềm mạng nơron đều cung cấp các giá trị mặc định tốt cho tốc độ học và hệ số xung lượng. Các thực nghiệm cho thấy nên bắt đầu huấn luyện với tốc độ học vào khoảng 0.7 và giảm dần trong quá trình huấn luyện. Nhiều chương trình mạng nơron sẽ tự động giảm tốc độ học và tăng hệ số xung lượng khi đạt tới sự hội tụ. 8). Bước 8: Thực thi Bước thực thi là bước cuối cùng, nhưng trong thực tế cần chú ý cẩn thận ngay từ bước thu thập dữ liệu. Mức độ sẵn sàng của dữ liệu, tiêu chí đánh giá, và thời gian huấn luyện đều bị ảnh hưởng lớn bởi môi trường trong đó mạng nơron sẽ được triển khai. Hầu hết các nhà cung cấp phần mềm mạng nơron đều cung cấp khả năng để thực thi mạng nơron trong phần mềm của họ hoặc như một - 49 - chương trình độc lập. Nếu không, một mạng đã huấn luyện có thể được tạo dễ dàng trong một chương trình bảng tính nếu biết kiến trúc, hàm kích hoạt và các trọng số. Cũng cần chú ý là việc chuyển đổi dữ liệu, chuẩn hóa và các tham số khác cần thống nhất từ khi kiểm thử tới khi sử dụng thực tế. Ưu điểm của mạng nơron là có thể thích nghi với những thay đổi của điều kiện thị trường nhờ vào việc huấn luyện lại. Sau khi triển khai, nếu không tiếp tục huấn luyện lại, khả năng thực thi của mạng sẽ bị giảm sút theo thời gian. Tuy vậy, ngay cả khi thường xuyên huấn luyện lại mạng thì cũng không có gì đảm bảo rằng khả năng thực thi của mạng sẽ tốt mãi vì mức độ quan trọng của các biến độc lập có thể thay đổi. Người ta khuyến nghị rằng chu kỳ huấn luyện lại các mạng nơron sau khi triển khai nên đúng theo chu kỳ đã sử dụng để kiểm tra trên mô hình cuối cùng. Một mô hình tốt sẽ luôn mạnh mẽ đối với việc phải thường xuyên huấn luyện lại và thường sẽ được cải tiến nếu thường xuyên huấn luyện lại hơn. KẾT LUẬN CHƯƠNG 2 Trong Chương 2, luận văn tập trung giới thiệu về mạng nơron nhân tạo hiện đang được ứng dụng rộng rãi trong nhiều lĩnh vực: không gian vũ trụ, dự báo tài chính kinh tế, dự báo biến động giá cả, hoạt động ngân hàng, hệ thống quân sự, điện tử viễn thông… Chương này cũng giới thiệu về thuật toán lan truyền sai số ngược, một thuật toán rất nổi tiếng và hiệu quả trong ứng dụng mạng nơron. Để ứng dụng mạng nơron vào các hoạt động dự báo định lượng, chương 2 đã giới thiệu phương pháp thiết kế, xây dựng mạng nơron để dự báo định lượng trong lĩnh vực kinh tế, tài chính được đề xuất bởi của Icebeling Kaastra và Milton Boyd. Đó là một quy trình gồm 8 bước: Lựa chọn biến, Thu thập dữ liệu, Tiền xử lý dữ liệu, Xác định tập huấn luyện, tập kiểm thử, Xác định mô hình mạng nơron, Xác định tiêu chí đánh giá, Huấn luyện mạng nơron, Thực thi. Trong Chương 3, thông qua bộ công cụ phần mềm khai phá dữ liệu YALE, luận văn sẽ thiết kế các mạng nơron nhân tạo và ứng dụng chúng để giải quyết bài toán “Dự báo kết quả hoạt động SXKD cho VNPT”. - 50 - CHƯƠNG 3. DỰ BÁO KẾT QUẢ HOẠT ĐỘNG SXKD CHO VNPT BẰNG PHƯƠNG PHÁP MẠNG NƠRON NHÂN TẠO 3.1. Xác định bài toán dự báo kết quả hoạt động sản xuất kinh doanh của VNPT Tập đoàn Bưu chính Viễn thông Việt Nam (VNPT) là một doanh nghiệp gồm nhiều đơn vị thành viên hoạt động trong lĩnh vực bưu chính, viễn thông, CNTT. Hàng tháng, các đơn vị thành viên phải báo cáo số liệu theo các chỉ tiêu SXKD về Tập đoàn. Bộ số liệu SXKD được tổng hợp từ tháng 01/1999 đến 12/2007 bao gồm 1.569.861 bản ghi của: - 613 chỉ tiêu SXKD; - 79 đơn vị thành viên. Các chỉ tiêu SXKD này có quan hệ, ảnh hưởng, tác động với nhau và được phân theo từng nhóm chỉ tiêu như: nhóm chỉ tiêu về điện thoại cố định, nhóm chỉ tiêu về điện thoại di động, nhóm chỉ tiêu về mạng Internet… Hiện nay, hàng tháng, các chuyên viên của Tập đoàn phải ước lượng kết quả SXKD của tháng này hoặc tháng sau bằng phương pháp ngoại suy từ kết quả SXKD của những tháng trước đó, độ chính xác trung bình thường đạt là 10%. Tuy nhiên, phương pháp này rất thủ công, tốn công sức và độ chính xác không cao. Bài toán đặt ra: cần dự báo trước từ 1 tháng tới 6 tháng một số chỉ tiêu SXKD quan trọng cho từng đơn vị và cho toàn Tập đoàn, với độ chính xác dự báo tốt hơn hoặc bằng phương pháp dự báo hiện đang được sử dụng. 3.2. Xác định hệ thống chỉ tiêu cần được phân tích, dự báo về kết quả SXKD 3.2.1. Phân tích quy trình nghiệp vụ báo cáo số liệu tại VNPT Việc dự báo số liệu SXKD của VNPT được thực hiện bởi các chuyên viên theo trình tự các bước như sau: - Bước 1: Hàng tháng, số liệu SXKD của các đơn vị được gửi về Tập đoàn dưới dạng các báo cáo giấy hoặc dưới dạng file excel theo quy định của Tập đoàn. - Bước 2: Các báo cáo đó sẽ được xử lý bởi các chuyên viên để tạo thành các bảng tổng hợp số liệu của toàn Tập đoàn cho tất cả các chỉ tiêu SXKD. - Bước 3: Sau khi thu thập và tổng hợp đầy đủ số liệu, các chuyên viên sẽ tiến hành dự báo số liệu sản xuất kinh doanh bằng phương pháp ngoại suy dựa trên - 51 - kinh nghiệm của các chuyên viên lâu năm trong ngành cùng với sự trợ giúp của các hàm Microsoft Excel (hàm forecast,…) cũng như tham khảo các phần mềm dự báo trên mạng. Một số chỉ tiêu thường được các chuyên viên dự báo là: - Tổng doanh thu phát sinh, bao gồm: ÷ Doanh thu kinh doanh dịch vụ BC-VT phân theo Bưu chính; Phát hành bưu chính; Viến thông. ÷ Doanh thu hoà mạng, dịch chuyển thuê bao ÷ Thu khác bao gồm: Doanh thu kinh doanh khác, Doanh thu hoạt động tài chính và Thu nhập khác. - Thuê bao viễn thông thực tăng ÷ Máy điện thoại ( phát triển - huỷ bỏ ) phân theo: Máy cố định; Máy di động trả sau VinaPhone; Máy CityPhone, CDMA, GSM nội vùng… ÷ Thuê bao Internet gián tiếp: Thuê bao 1260; Thuê bao 1268 và 1269. ÷ Thuê bao MegaVNN Các chỉ tiêu được dự báo đạt độ chính xác lên tới 96-98% (đối với dự báo tháng) và 95-96% (dự báo năm), trong đó các chỉ tiêu càng tổng quát thì kết quả dự báo càng chính xác và các chỉ tiêu càng chi tiết thì kết quả dự báo sẽ thấp hơn. Đối với các sản phẩm, dịch vụ mới thì kết quả dự báo theo phương pháp hiện đang được ứng dụng cho kết quả rất hạn chế. Mặt khác hiện tại công tác dự báo và lập kế hoạch của VNPT vẫn gặp một số khó khăn chủ yếu là: - Không có phần mềm chuyên dụng cho công tác dự báo ở VNPT: việc dự báo chủ yếu dựa trên kinh nghiệm với sự trợ giúp của Microsoft Excel, khả năng dự báo cho các những chỉ tiêu và dịch vụ mới gặp nhiều khó khăn. - Kỹ năng sử dụng phần mềm trợ giúp dự báo (như Microsoft Excel, Access) của các chuyên viên không đồng đều: do kinh nghiệm sử dụng phần mềm của mỗi chuyên viên khác nhau nên việc sử dụng các phần mềm hỗ trợ cũng khác nhau, dẫn đến sự thiếu thống nhất trong công tác tổng hợp số liệu và dự báo các chỉ tiêu. - 52 - 3.2.2. Xác định hệ thống chỉ tiêu cần được phân tích và dự báo Số liệu sản xuất kinh doanh hiện nay của VNPT được lưu trữ tập trung với hàng ngàn biểu mẫu báo cáo và hàng trăm chỉ tiêu, bao gồm các số liệu chính xác định kỳ và đột xuất về tình hình sản xuất kinh doanh của các đơn vị thành viên thuộc Tập đoàn. Hiện cơ quan Tập đoàn lưu số liệu báo cáo về 4 mảng sản phẩm dịch vụ chính của Tập đoàn là: - Các sản phẩm, dịch vụ mạng hội tụ: bao gồm các sản phẩm,dịch vụ liên quan đến mạng đường trục của Tập đoàn. Số liệu báo cáo về tình hình sản xuất kinh doanh các sản phẩm, dịch vụ này được báo cáo thông qua các bưu điện tỉnh, các công ty viễn thông vùng và đơn vị quản lý kinh doanh mạng đường trục của Tập đoàn là công ty VTN. - Các sản phẩm, dịch vụ mạng cố định: bao gồm các sản phẩm, dịch vụ điện thoại cố định và các sản phẩm, dịch vụ kèm theo. Số liệu báo cáo về tình hình sản xuất kinh doanh các sản phẩm, dịch vụ này do các bưu điện tỉnh và các công ty viễn thông vùng thu thập, tổng hợp và báo cáo định kỳ hoặc đột xuất lên Văn phòng Tập đoàn. - Các sản phẩm, dịch vụ mạng di động: bao gồm các sản phẩm, dịch vụ điện thoại di động trên 2 mạng VinaPhone, MobiPhone và các sản phẩm, dịch vụ kèm theo. Số liệu báo cáo về tình hình sản xuất kinh doanh các sản phẩm, dịch vụ này được báo cáo thông qua các các bưu điện tỉnh, công ty vùng và thông qua các đơn vị chủ quản của 2 mạng di động này là GPC (mạng VinaPhone) và VMS (mạng MobiPhone). - Các sản phẩm, dịch vụ mạng Internet: bao gồm các sản phẩm, dịch vụ Internet và các dịch vụ kèm theo. Số liệu báo cáo về tình hình sản xuất kinh doanh các sản phẩm, dịch vụ này được báo cáo thông qua các các bưu điện tỉnh, công ty vùng và thông qua đơn vị quản lý kinh doanh các dịch vụ Internet của Tập đoàn là công ty VDC. Cụ thể là: - Các sản phẩm, dịch vụ mạng hội tụ, gồm: ÷ Dịch vụ thuê kênh viễn thông nội hạt; ÷ Dịch vụ thuê kênh viễn thông nội tỉnh; ÷ Dịch vụ thuê kênh viễn thông liên tỉnh; ÷ Dịch vụ thuê kênh viễn thông trong nước; - 53 - ÷ Dịch vụ thuê kênh viễn thông quốc tế; ÷ Dịch vụ thuê kênh riêng; ÷ Dịch vụ cài đặt và thuê cổng kết nối trực tiếp Internet quốc tế (IIG) của các IXP; ÷ Dịch vụ kết nối giữa các mạng điện thoại IP liên tỉnh với các mạng viễn thông công cộng (PSTN). - Các sản phẩm, dịch vụ mạng cố định: ÷ Dịch vụ điện thoại cố định: bao gồm các chỉ tiêu chính như:  Số điện thoại nội hạt;  Số điện thoại đường dài nội tỉnh;  Số điện thoại đường dài liên tỉnh;  Số điện thoại ISDN nội hạt;  Số điện thoại VoIP trong nước;  Số điện thoại VoIP 171 trong nước;  Số điện thoại VoIP 171 ngoài nước;  Số điện thoại đường dài ngoài nước. ÷ Số điện thoại Access Collect: ÷ Số Collect Call; ÷ Số Home Country Direct; ÷ Số điện thoại thẻ (Cardphone); ÷ Số thẻ điện thoại vô tuyến nội thị; ÷ Số thẻ điện thoại VoIP trả trước (1717); ÷ Số điện thoại truy nhập Internet; ÷ Số cuộc gọi dịch vụ 108/1080; ÷ Số dịch vụ kết nốiVoIP 179 trong nước; ÷ Số dịch vụ kết nốiVoIP 179 ngoài nước; ÷ Số dịch vụ kết nốiVoIP 175 trong nước; ÷ Số dịch vụ kết nốiVoIP 175 ngoài nước; ÷ Số lần hòa mạng thuê bao điện thoại cố định. - 54 - - Các sản phẩm, dịch vụ mạng di động: ÷ Dịch vụ điện thoại di động Vinaphone, Mobiphone, Cityphone bao gồm các chỉ tiêu:  Số điện thoại di động nội thị;  Số điện thoại di động nội vùng;  Số điện thoại di động cận vùng;  Số điện thoại di động cách vùng;  Số điện thoại di động quốc tế;  Số điện thoại di động trả trước. ÷ Số bản tin gửi SMS theo nhóm; ÷ Lượng thời gian cung cấp dịch vụ thông tin – giải trí (phút); ÷ Lượng thời gian thực hiện dịch vụ nhắn tin (phút); ÷ Số lần hòa mạng thuê bao điện thoại di động; ÷ Số lần hòa mạng thuê bao điện thoại di động nội tỉnh. - Các sản phẩm, dịch vụ mạng Internet: ÷ Số trang thư điện tử (VN mail); ÷ Thời gian cung cấp dịch vụ VNN1260 (phút); ÷ Thời gian cung cấp dịch vụ VNN1268 (phút); ÷ Thời gian cung cấp dịch vụ VNN1269 (phút); ÷ Thời gian cung cấp dịch vụ VNN1267(phút); ÷ Thời gian điện thoại Internet/VNN-PC to Phone đi Quốc tế (phút); ÷ Thời gian điện thoại Internet/VNN-PC to PC TN và QT (phút); ÷ Sô thẻ Internet trả trước (VNN 1260.P…); ÷ Thời gian cung cấp dịch vụ WAP (VNN 999…)(phút); ÷ Thời gian cung cấp dịch vụ kết nối WAP (VNN 999…) (phút); ÷ Số lần thực hiện dịch vụ VNN-Infogate trong nước; ÷ Số lần thực hiện dịch vụ VNN-Infogate ngoài nước; ÷ Số thuê bao ISDN 2; ÷ Số thuê bao ISDN 30; - 55 - ÷ Số thuê bao Internet; ÷ Số thuê bao Internet trực tiếp; ÷ Số thuê bao Internet 1260; ÷ Số thuê bao Internet 1260-P; ÷ Số thuê bao Internet 1268; ÷ Số thuê bao Internet 1268; ÷ Số thuê bao Internet TĐC ADSL-VNN; ÷ Số thuê bao Internet 1267; ÷ Số thuê bao Internet xDSL-WAN; ÷ Số thuê bao Internet nghiệp vụ (trực tiếp + gián tiếp); ÷ Sô hộp thư thông thin (Voicelink); ÷ Số lần hòa mạng thuê bao Internet trực tiếp; ÷ Số lần hòa mạng thuê bao Internet 1260; ÷ Số lần hòa mạng thuê bao Internet 1267; ÷ Số lần hòa mạng thuê bao Internet ADSL-VNN; ÷ Số lần hòa mạng thuê bao Internet xDSL-WAN; - Các sản phẩm, dịch vụ khác ÷ Số cuộc điện báo phổ thông; ÷ Số cuộc điện báo khẩn ÷ Số cuộc điện báo khí tượng thuỷ văn "OBS" ÷ Số cuộc điện báo an toàn nhân mạng "SVH" ÷ Số cuộc điện báo quốc vụ ÷ Số cuộc điện báo báo chí "PRESSE" ÷ Số cuộc điện báo chuyển tiền "DCT" ÷ Số cuộc điện báo tàu biển ÷ Số cuộc điện báo gửi và phát tại một bưu cục ÷ Số cuộc điện báo nhiều địa chỉ "TMx" ÷ Số cuộc điện báo yêu cầu báo phát " PC " - 56 - ÷ Số cuộc điện báo ký gửi hoặc phát qua máy điện thoại (TFx) hoặc máy điện thoại thuê bao (TLXx): ÷ Số cuộc điện báo phát qua máy Fax thuê bao (FAXx) ÷ Số cuộc điện báo có yêu cầu thuê phát nhanh (XPx) ÷ Số cuộc điện báo lưu ký "GP" ÷ Số lần xem nguyên bản điện báo ÷ Số lần cấp bản sao điện báo ÷ Số lần huỷ bỏ điện báo ÷ Số lượng đăng ký địa chỉ điện báo ÷ Số cuộc Telex đường dài tại nhà thuê bao ÷ Số cuộc Telex đường dài tại Bưu cục hoặc đại lý ÷ Số lần cung cấp dịch vụ thu, phát truyền hình bằng thiết bị Flyway ÷ Số lần cung cấp dịch vụ truyền số liệu packet quốc tế ÷ Số lần cung cấp dịch vụ Inmarsat ÷ Số lần cung cấp dịch vụ truyền số liệu chuyển mạch gói quốc tế sử dụng mạng VIETPAC (X25) ÷ Số lần cung cấp dịch vụ Truyền số liệu chuyển mạch gói (X25) ÷ Số lần cung cấp dịch vụ Chuyển tiếp khung (Frame Relay) ÷ Số lần cung cấp dịch vụ Kết nối mạng máy tính MegaWAN ÷ Số lần cung cấp dịch vụ Frame Relay Mỗi loại sản phẩm, dịch vụ trên có nhiều chỉ tiêu có liên quan do các đơn vị khác nhau báo cáo trong nhiều biểu mẫu. Ví dụ: - Nhóm mạng hội tụ, dịch vụ Thuê kênh riêng có các chỉ tiêu: ÷ Phân loại thuê bao ÷ Tổng số lượng thuê kênh ÷ Doanh thu cước - Nhóm mạng cố định, dịch vụ VoIP có các chỉ tiêu: ÷ Tên đơn vị ÷ Lưu lượng giờ bình thường - 57 - ÷ Lưu lượng giờ giảm cước - Nhóm mạng di động, dịch vụ Cardphone có các chỉ tiêu: ÷ Tên bưu điện tỉnh ÷ Số cuộc gọi nội hạt ÷ Số cuộc gọi liên tỉnh ÷ Số cuộc gọi di động ÷ Số cuộc gọi quốc tế ÷ Số cuộc gọi miễn phí ÷ Số cuộc gọi khác ÷ Tổng số các cuộc gọi. - Nhóm mạng di động, sản phẩm và dịch vụ di động của VMS có các chỉ tiêu: ÷ Sản lượng ÷ Sản lượng đi  Nghiệp vụ  Thuê bao trả sau  Thuê bao trả trước ÷ Sản lượng đến - Nhóm mạng di động, sản phẩm thẻ VinaCard có các chỉ tiêu: ÷ Tên bưu điện tỉnh ÷ Số thẻ đã in ÷ Số thẻ đã bán - Nhóm mạng Internet, dịch vụ 1260, 1260P, 1269 và MegaVNN có các chỉ tiêu: ÷ Tên chỉ tiêu; ÷ Đơn vị tính; ÷ Kế h

Các file đính kèm theo tài liệu này:

LUẬN VĂN-ÁP DỤNG CÁC KỸ THUẬT PHÂN LỚP DỮ LIỆU, HỒI QUY ĐỂ DỰ BÁO SỐ LIỆU SẢN XUẤT KINH DOANH CHO VNPT.pdf