Tài liệu Khóa luận Nguyên cứu và xây dựng hệ thống quản lý và dự đoán xu thế giá chứng khoán dựa trên nền tảng mã nguồn mở: 1ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Vũ Đức Việt
NGUYÊN CỨU VÀ XÂY DỰNG HỆ THỐNG QUẢN LÝ
VÀ DỰ ĐOÁN XU THẾ GIÁ CHỨNG KHOÁN DỰA
TRÊN NỀN TẢNG MÃ NGUỒN MỞ
KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY
Ngành: Công nghệ thông tin
Cán bộ hướng dẫn: TS. Nguyễn Hà Nam
HÀ NỘI – 2010
2TÓM TẮT
Bài toán dự báo tài chính ngày càng được nhiều người quan tâm trong bối cảnh phát
triển kinh tế xã hội ở Việt Nam hiện nay. Đầu tư vào thị trường chứng khoán đòi hỏi
nhiều kinh nghiệm và hiểu biết của các nhà đầu tư. Các kĩ thuật khai phá dữ liệu được áp
dụng nhằm dự báo sự lên xuống của thị trường là một gợi ý giúp các nhà đầu tư có thể ra
các quyết định giao dịch. Khóa luận này giới thiệu một kỹ thuật khai phá dữ liệu hiệu quả
được sử dụng rộng rãi trong nhiều lĩnh vực đó là mô hình mạng nơ ron và cách áp dụng
vào dữ liệu thời gian thực. Cấu trúc và hoạt động cũng như cách thiết kế mạng cho dữ liệu
thời gian thực áp dụng trong bài toán dự báo tài chính được trình bày ...
57 trang |
Chia sẻ: haohao | Lượt xem: 1338 | Lượt tải: 1
Bạn đang xem trước 20 trang mẫu tài liệu Khóa luận Nguyên cứu và xây dựng hệ thống quản lý và dự đoán xu thế giá chứng khoán dựa trên nền tảng mã nguồn mở, để tải tài liệu gốc về máy bạn click vào nút DOWNLOAD ở trên
1ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CƠNG NGHỆ
Vũ Đức Việt
NGUYÊN CỨU VÀ XÂY DỰNG HỆ THỐNG QUẢN LÝ
VÀ DỰ ĐỐN XU THẾ GIÁ CHỨNG KHỐN DỰA
TRÊN NỀN TẢNG MÃ NGUỒN MỞ
KHỐ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY
Ngành: Cơng nghệ thơng tin
Cán bộ hướng dẫn: TS. Nguyễn Hà Nam
HÀ NỘI – 2010
2TĨM TẮT
Bài tốn dự báo tài chính ngày càng được nhiều người quan tâm trong bối cảnh phát
triển kinh tế xã hội ở Việt Nam hiện nay. Đầu tư vào thị trường chứng khốn địi hỏi
nhiều kinh nghiệm và hiểu biết của các nhà đầu tư. Các kĩ thuật khai phá dữ liệu được áp
dụng nhằm dự báo sự lên xuống của thị trường là một gợi ý giúp các nhà đầu tư cĩ thể ra
các quyết định giao dịch. Khĩa luận này giới thiệu một kỹ thuật khai phá dữ liệu hiệu quả
được sử dụng rộng rãi trong nhiều lĩnh vực đĩ là mơ hình mạng nơ ron và cách áp dụng
vào dữ liệu thời gian thực. Cấu trúc và hoạt động cũng như cách thiết kế mạng cho dữ liệu
thời gian thực áp dụng trong bài tốn dự báo tài chính được trình bày chi tiết nhằm làm rõ
cách áp dụng mơ hình vào bài tốn thực tế.
3MỤC LỤC
TĨM TẮT.....................................................................................................................
MỤC LỤC ....................................................................................................................
DANH MỤC HÌNH VẼ ...............................................................................................
DANH MỤC BẢNG BIỂU ..........................................................................................
Chương 1. GIỚI THIỆU............................................................................................. 1
Chương 2. GIỚI THIỆU VỀ KHAI PHÁ DỮ LIỆU VÀ PHÁT HIỆN TRI THỨC. 2
2.1. Khai phá dữ liệu và phát hiện tri thức ..............................................................2
2.2 Tại sao phải tiến hành khai phá dữ liệu? ...........................................................4
2.3. Kiến trúc điển hình của một hệ khai phá dữ liệu..............................................5
2.4. Các bài tốn khai phá dữ liệu điển hình ...........................................................6
2.5. Các ứng dụng điển hình của khai phá dữ liệu ..................................................8
2.6. Kết luận.............................................................................................................8
Chương 3. CƠ SỞ LÝ THUYẾT CỦA MẠNG NORON CHO VẤN ĐỀ DỰ BÁO9
3.1. Khái niệm về mạng noron.................................................................................9
3.2. Mơ hình của một noron nhân tạo và hàm truyền..............................................9
3.2.1. Mơ hình của một noron............................................................................. 9
3.2.2. Hàm truyền ............................................................................................. 12
3.3. Mơ hình của mạng noron ................................................................................14
3.3.1. Mạng tiến ................................................................................................ 14
3.3.2. Mạng hồi quy.......................................................................................... 16
3.4. Phương pháp học và thuật tốn lan truyền ngược cho mạng.........................17
3.4.1. Cơ sở lý thuyết học của mạng................................................................. 17
43.4.2. Thuật tốn lan truyền ngược (back – propagation)................................. 18
Chương 4. MẠNG NORON CHO QUÁ TRÌNH DỰ ĐỐN ................................. 23
4.1. Mơ hình mạng noron cho việc dự báo ............................................................23
4.2. Các bước thiết kế mơ hình ..............................................................................24
4.2.1. Chọn lựa các biến ................................................................................. 25
4.2.2. Thu thập dữ liệu ................................................................................... 25
4.2.3. Tiền xử lý dữ liệu ................................................................................. 25
4.2.4. Phân hoạch tập dữ liệu ......................................................................... 26
4.2.5. Xác định cấu trúc mạng........................................................................ 27
4.2.6. Xác định tiêu chuẩn đánh giá ............................................................... 30
4.2.7. Huấn luyện mạng nơ ron ...................................................................... 32
4.2.8. Triển khai ............................................................................................. 33
4.3 Tổng kết ...........................................................................................................34
Chương 5. XÂY DỰNG CHƯƠNG TRÌNH VÀ..................................................... 35
ĐÁNH GIÁ ............................................................................................................... 35
5.1. Vài nét về các phần mềm nguồn mở được sử dụng........................................35
5.1.1. Weka ....................................................................................................... 35
5.1.2. Jstock ...................................................................................................... 37
5.2. Mơ hình kết hợp giữa hai gĩi phần mềm mã nguồn mở.................................38
5.2.1. Chuyển dữ liệu thời gian thực ................................................................ 39
5.2.2. Xác định mơ hình phù hợp ..................................................................... 40
5.2.3. Chuyển kết quả cho stock hiển thị .......................................................... 43
5.3. Đánh giá với một số mơ hình khác .................................................................43
5.3.1. Mơ hình cây quyết định .......................................................................... 44
5.3.2. Mơ hình phân lớp xác suất ngây thơ nạve bayes.................................. 46
5Chương 6. KẾT LUẬN............................................................................................. 49
TÀI LIỆU THAM KHẢO ........................................................................................ 50
6DANH MỤC HÌNH VẼ
Hình 2.1 – Quá trình khai phá tri thức [1] ...................................................................3
Hình 2.2 – Kiến trúc điển hình của một hệ thống khai phá dữ liệu [2] .......................5
Hình 2.3 – Bảng thống kê xu thế phát triển khai phá dữ liệu [1] ................................8
Hình 3.1 - Mơ hình của một noron[2]........................................................................10
Hình 3.2 – Mơ hình của một noron được vẽ lại [2] ...................................................11
Hình 3.3 – Hàm ngưỡng ............................................................................................12
Hình 3.4 – Hàm vùng tuyến tính ...............................................................................13
Hình 3.5 – Hàm tuyến tính.........................................................................................13
Hình 3.6 – Hàm sigma với các độ dốc khác nhau .....................................................14
Hình 3.7 – Mơ hình mạng tiến đơn mức....................................................................15
Hình 3.8 – Mơ hình mạng tiến đa mức ......................................................................16
Hình 3.9 – Mơ hình mạng tiến cĩ sự phản hồi ..........................................................17
Hình 4.1 – Mơ hình dự đốn sử dụng mạng noron....................................................23
Hình 4.2 – Tỷ lệ kích thước giữa các tập huấn luyện [9] ..........................................27
Hình 4.3 – Độ hội tụ: 3 tầng, 20 nơ ron ẩn, 50 bước.................................................29
Hình 4.4 – Độ hội tụ: 3 tầng, 20 nơ ron ẩn, 100 bước...............................................29
Hình 4.5 – Độ hội tụ: 3 tầng, 20 nơ ron ẩn, 300 bước...............................................29
Hình 4.6 – Độ hội tụ: 3 tầng, 50 nơ ron ẩn, 5 bước...................................................30
Hình 4.7 – Độ hội tụ: 3 tầng, 50 nơ ron ẩn, 50 bước.................................................30
Hình 5.1 – Giao diện chính của weka........................................................................36
Hình 5.2 – Giao diện chính của Jstock ......................................................................37
Hình 5.3 – Mơ hình hệ thống khĩa luận xây dựng ....................................................38
Hình 5.4 – Kết quả huấn luyện mạng noron bằng dịng lệnh weka...........................42
Hình 5.5 – Mơ hình cây quyết định ...........................................................................45
7DANH MỤC BẢNG BIỂU
Bảng 4.1 – Tổ chức dữ liệu của mơ hình...................................................................26
Bảng 5.1 – Huấn luyện mạng noron ..........................................................................44
Bảng 5.2 – Huấn luyện cây quyết định......................................................................46
Bảng 5.3 – Huấn luyện nạve bayes...........................................................................48
Bảng 5.4 – So sánh các mơ hình................................................................................48
1Chương 1. GIỚI THIỆU
Trong những năm gần đây, người ta thường nhắc đến khai phá dữ liệu (datamining)
– khái niệm được dùng để tham chiếu đến quá trình phát hiện tri thức và khai phá dữ liệu
(KDD – Knowledge Discovery and Data mining) – như là một phương pháp xác định ra
tri thức từ một lượng dữ liệu khổng lồ. Sự phát triển của cơng nghệ thơng tin và việc ứng
dụng cơng nghệ thơng tin trong nhiều lĩnh vực của đời sống, kinh tế xã hội trong nhiều
năm qua cũng đồng nghĩa với lượng dữ liệu đã được các cơ quan thu thập và lưu trữ ngày
một tích luỹ nhiều lên. Hơn nữa thơng tin thu thập được từ nhiều chiều khác nhau và gây
nhiễu cho nhau đã thực sự trở thành một vấn đề nan giải cho con người để xử lý lượng
thơng tin lớn đang tăng lên từng ngày một. Với những lý do như vậy, các phương pháp
quản trị và khai thác cơ sở dữ liệu truyền thống ngày càng khơng đáp ứng được thực tế đã
làm phát triển một khuynh hướng kỹ thuật mới đĩ là Kỹ thuật phát hiện tri thức và khai
phá dữ liệu (KDD - Knowledge Discovery and Data Mining).
Cĩ nhiều kỹ thuật để khai phá dữ liệu trong đĩ kỹ thuật dựa vào mạng Noron khá là
phổ biến [2]. Một trong những ứng dụng kinh điển của mạng Noron là lớp các bài tốn dự
đốn vì mạng Noron ngồi khả năng dự đốn với độ chính xác cao nĩ cịn cĩ ưu điểm là
mềm dẻo và thích nghi cao với mơi trường, rất thích hợp cho bài tốn dự đốn với dữ liệu
thay đổi nhanh theo thời gian. Chính vì vậy, khĩa luận sẽ sử dụng mạng Noron để dự
đốn xu thế của giá chứng khốn.
Các hệ thống chứng khốn thường là những hệ thống rất phức tạp vì vậy rất khĩ cĩ
thể dự đốn được dữ liệu của nĩ. Nĩ phụ thuộc vào rất nhiều yếu tố trong đĩ cĩ những
yếu tố khơng thể định lượng được như: tâm lý, sự mù quáng của nhà đầu tư…. Mặc dù
vậy thị trường chứng khốn khơng phải là một quá trình ngẫu nhiên và nĩ cĩ quy luật của
nĩ và cĩ thể dự đốn được. Tìm ra được xu hướng của thị trường chứng khốn sẽ là chìa
khĩa giúp cho quá trình hỗ trợ quyết định của nhà đầu tư.
Trước sự hấp dẫn của các ứng dụng của mạng noron, sự phát triển đi lên của thị
trường chứng khốn, cùng sự động viên khuyến khích của thầy hướng dẫn, tơi đã quyết
định thực hiện những nghiên cứu về mạng noron để dự báo xu thế thị trường chứng khốn
nhằm đưa ra những gợi ý cho nhà đầu tư. Do thời gian làm khĩa luận cĩ hạn nên tơi mới
chỉ xây dựng được các thành phần cơ bản nhất của phần mềm. Các tính năng nâng cao tơi
sẽ cố hồn thiện sau này.
2Chương 2. GIỚI THIỆU VỀ KHAI PHÁ DỮ LIỆU
VÀ PHÁT HIỆN TRI THỨC
2.1. Khai phá dữ liệu và phát hiện tri thức
Phát hiện tri thức trong cơ sở dữ liệu (Knowledge Discovery in Databases – KDD)
(đơi khi cịn được gọi là khai phá dữ liệu) là một quá trình khơng đơn giản nhằm nhận
dạng ra những mẫu cĩ giá trị, mới, hữu ích tiềm năng và hiểu được trong dữ liệu. Đây là
lĩnh vực nghiên cứu và triển khai được phát triển rất nhanh chĩng và cĩ phạm vi rất rộng
lớn, lại được rất nhiều nhĩm nghiên cứu tại nhiều trường đại học, viện nghiên cứu, cơng
ty ở nhiều quốc gia trên thế giới quan tâm, cho nên cĩ rất nhiều cách tiếp cận khác nhau
đối với lĩnh vực phát hiện tri thức trong CSDL. Chính vì lý do đĩ các nhà khoa học trên
thế giới đã dùng nhiều thuật ngữ khác nhau, mà các thuật ngữ này được coi là mang cùng
nghĩa với KDD như chiết lọc tri thức (knowledge extraction), phát hiện thơng tin
(information discovery), thu hoạch thơng tin (information harvesting), khai quật dữ liệu
(data archaeology), xử lý mẫu dữ liệu (data pattern processing)... Hơn nữa, trong nhiều
trường hợp, hai khái niệm "Phát hiện tri thức trong cơ sở dữ liệu" và "khai phá dữ liệu"
cịn được dùng thay thế nhau. Hai khái niệm khai phá dữ liệu và phát hiện tri thức trong
các CSDL thường cặp đơi với nhau [1].
Quá trình KDD thường bao gồm nhiều bước là:
- Làm sạch dữ liệu (Data Cleaning): Khử nhiễu và các dữ liệu mâu thuẫn.
- Tích hợp dữ liệu (Data Integration): Kết hợp nhiều nguồn dữ liệu khác
nhau.
- Lựa chọn dữ liệu (Data Selection): Chắt lọc lấy những dữ liệu liên quan
đến nhiệm vụ phân tích sau này.
- Biến đổi dữ liệu (Data Transformation): Biến đổi dữ liệu thu được về dạng
thích hợp cho quá trình khai phá.
- Khai phá dữ liệu (Data Mining): Sử dụng những phương pháp thơng minh
để khai thác dữ liệu nhằm thu được các mẫu mong muốn.
- Đánh giá kết quả (Pattern Evaluation): Sử dụng các độ đo để đánh giá kết
quả thu được.
3- Biểu diễn tri thức (Knowledge Presentation): Sử dụng các cơng cụ biểu
diễn trực quan để biểu diễn những tri thức khai phá được cho người dùng.
Hình 2.1 – Quá trình khai phá tri thức [1]
Quá trình trên được thừa nhận là khơng tầm thường theo nghĩa là quá trình đĩ khơng
chỉ nhiều bước mà cịn được thực hiện lặp, và quan trọng hơn quá trình đĩ bao hàm một
mức độ tìm kiếm tự động. Trong mơ hình chúng ta đã coi KDD là một quá trình bao gồm
nhiều bước thực hiện, trong đĩ, khai phá dữ liệu là một bước thực hiện chính yếu. Cách
hiểu như vậy đã quy định cĩ sự phân biệt giữa hai khái niệm khai phá dữ liệu và KDD.
Từ đây cĩ thể đi đến một khái niệm về khai phá dữ liệu:
Khai phá dữ liệu là một bước trong quá trình phát hiện tri thức trong cơ sở dữ liệu,
thi hành một thuật tốn khai phá dữ liệu để tìm ra các mẫu từ dữ liệu theo khuơn dạng
thích hợp.
4Cĩ thể nhận xét rằng, khái niệm khai phá dữ liệu là khá rộng lớn, nhưng khơng
phải tất cả mọi cơng việc liên quan đến dữ liệu đều được coi là khai phá dữ liệu, chẳng
hạn như những việc xử lý truy vấn đơn giản như tra cứu một số điện thoại, hay thống kê
ra những học sinh giỏi của một lớp, thì khơng thể coi đĩ là khai phá dữ liệu. Nhưng
những cơng việc như gom nhĩm các tài liệu trả về từ máy tìm kiếm theo từng ngữ cảnh
thì lại được xem là khai phá dữ liệu [1] . Chính vì sự phong phú và đa dạng này mà dẫn
đến thực trạng là tồn tại một số quan niệm khác nhau về chuyên ngành nghiên cứu gần
gũi nhất với lĩnh vực khai phá dữ liệu.
2.2 Tại sao phải tiến hành khai phá dữ liệu?
Trong những năm gần đây, khai phá dữ liệu trở thành một lĩnh vực nghiên cứu rộng
rãi trong ngành cơng nghiệp thơng tin, nguyên nhân chủ yếu là do khối lượng khổng lồ
của dữ liệu mà con người tạo ra, đi kèm với nĩ là sự cần thiết của việc rút trích tri thức từ
những dữ liệu đĩ. Thơng tin và tri thức cĩ thể được áp dụng vào nhiều lĩnh vực từ phân
tích thị trường tài chính, phát hiện giả mạo, cho đến điều khiển sản xuất và nghiên cứu
khoa học.
Nhìn vào hai lĩnh vực sinh ra nhiều dữ liệu nhất đĩ là thương mại và khoa học.
Trong lĩnh vực thương mại, hàng ngày hàng giờ con người đang tạo ra, thu thập và lưu trữ
lại rất nhiều dữ liệu, như dữ liệu web, dữ liệu về thương mại điện tử, dữ liệu về việc thanh
tốn tại các cửa hàng và các dữ liệu thanh tốn trong các tài khoản… Tính cạnh tranh
trong kinh doanh là rất cao, cho nên việc phân tích dữ liệu để cung cấp dịch vụ tốt hơn, cĩ
nhiều tiện ích cho khách hàng, và đĩn bắt chính xác nhu cầu của khách hàng rất quan
trọng. Trong lĩnh vực khoa học, dường như lượng dữ liệu sinh ra và thu thập lại cịn lớn
hơn nhiều, lên tới hàng GB/giờ, chẳng hạn như dữ liệu từ vệ tinh, từ các ảnh chụp vũ trụ
và từ các mơ phỏng thử nghiệm khoa học. Khai phá dữ liệu giúp các nhà khoa học trong
việc phân lớp dữ liệu và hỗ trợ trong việc đưa ra các quyết định.
Cùng với sự phát triển của khoa học, của ngành cơ sở dữ liệu khơng thể khơng kể
đến là sự phát triển của ngành cơng nghiệp máy tính, người ta đã tạo ra những phương
tiện lưu trữ lớn hơn, những máy tính rẻ hơn, tốc độ cao hơn, trợ giúp cho quá trình thu
thập dữ liệu cũng như khai phá chúng.
5Trong quá trình tác nghiệp, người ta thường phải đưa ra các quyết định, tuy nhiên,
với lượng dữ liệu khổng lồ như thế, người ta khơng thể sử dụng hết, hoặc nếu muốn sử
dụng thì phải mất thời gian quá nhiều, như vậy cĩ nguy cơ đánh mất cơ hội. Do đĩ, việc
sử dụng máy tính để khai phá dữ liệu nhằm giúp đỡ con người trong cơng việc càng được
thúc đẩy mạnh mẽ, làm sao với các dữ liệu đã thu thập được cĩ thể đưa ra hành động
mang lại lợi ích tối đa.
2.3. Kiến trúc điển hình của một hệ khai phá dữ liệu
Dưới đây là kiến trúc của một hệ thống khai phá dữ liệu:
Hình 2.2 – Kiến trúc điển hình của một hệ thống khai phá dữ liệu [2]
Trong kiến trúc hệ thống này, các nguồn dữ liệu cho các hệ thống khai phá dữ liệu
bao gồm hoặc Cơ sở dữ liệu, hoặc Kho dữ liệu, hoặc World Wide Web, hoặc kho chứa dữ
liệu kiểu bất kỳ khác, hoặc tổ hợp các kiểu đã liệt kê nĩi trên. Cơ sở tri thức, bao chứa các
6tri thức miền ứng dụng hiện cĩ, được sử dụng trong thành phần hệ thống khai phá dữ liệu
để làm tăng tính hiệu quả của thành phần này. Một số tham số của thuật tốn khai phá dữ
liệu tương ứng sẽ được tinh chỉnh theo tri thức miền sẵn cĩ từ cơ sở tri thức trong hệ
thống. Cơ sở tri thức cịn được sử dụng trong việc đánh giá các mẫu đã khai phá được
xem chúng cĩ thực sự hấp dẫn hay khơng, trong đĩ cĩ việc đối chứng mẫu mới với các tri
thức đã cĩ trong cơ sở tri thức. Nếu mẫu khai phá được là thực sự hấp dẫn thì chúng được
bổ sung vào cơ sở tri thức để phục vụ cho hoạt động tiếp theo của hệ thống. Như vậy,
nguồn tri thức bổ sung vào cơ sở tri thức ở đây khơng chỉ từ lập luận lơgic theo các hệ
tốn lơgic để cĩ tri thức mới, khơng chỉ do con người hiểu biết thêm về thế giới khách
quan để bổ sung vào mà cịn là tri thức được phát hiện một cách tự động từ nguồn dữ liệu
[1].
2.4. Các bài tốn khai phá dữ liệu điển hình
Mơ tả khái niệm/lớp (concept/class description):
Dữ liệu cĩ thể được kết hợp với khái niệm hoặc lớp. Ví dụ ta cĩ chia dữ liệu về sản
phẩm điện tử thành các lớp sản phẩm như máy tính, máy in, máy chiếu… Mỗi lớp/khái
niệm được miêu tả riêng một cách tổng quan và chính xác. Việc miêu tả này cĩ được
thơng qua: sự mơ tả tính chất của dữ liệu (data characterization) hoặc phân biệt dữ liệu
(data discrimination) hoặc kết hợp cả hai.
Mơ tả tính chất dữ liệu (data characterization): là sự tổng hợp những đặc tính chung
nhất của lớp dữ liệu. ví dụ: đối với những người khách hàng tiêu nhiều tiền ta cĩ thể tổng
hợp những đặc điểm của người đĩ như sau: tuổi đời trung niên, cĩ việc làm ổn định, cĩ
khả năng thanh tốn cao.
Phân biệt dữ liệu (data discrimination): là sự so sánh những đặc tính chung một lớp
đối tượng dữ liệu với những đặc tính chung của một lớp đối tượng dữ liệu khác từ một tập
những lớp tương phản. ví dụ: so sánh hai đối tượng khách hàng, một đối tượng thường
xuyên mua điện thoại cịn một đối tượng ít khi mua điện thoại. điều này đem đên một sự
so sánh giữa hai đối tượng, đối tượng thứ nhất thường là những người trẻ tuổi cịn đối
tượng thứ 2 thường là những người trung tuổi.
Phân tích kết hợp (association analysis):
7Từ một hoặc một vài sự kiện của đối tượng xảy ra kết hợp với nhau cĩ thể kéo theo
những sự kiện khác xảy ra.
Ví dụ: một người mua máy tính thì rất cĩ thể họ sẽ mua phần mềm, ta cĩ thể viết
dưới dạng luật như sau:
Buys(X, “computer”) =>> buys(X, “software”) [support = 1%, confident = 50%]
X: đại diện cho người
Support = 1%: cĩ 1% khách hàng đã mua đồng thời máy tính và phần mềm
Confident = 50%: khả năng mỗi khách hàng mua đồng thời là 50%
Trên đây là luật kết hợp một chiều. ta cĩ thể cĩ luật kết hợp nhiều chiều như sau:
Age(X, “20….29”) ^ income(X, “20…29K”) =>> buys(X, “PC”) [support = 2%,
confident = 60%]
Phân loại và dự đốn (classification and prediction)
Sự phân loại là quá trình tìm một mơ hình (model) mà mơ tả và phân biệt những lớp
đối tượng với nhau. Mục đích của việc sử dụng mơ hình là để dự đốn (predict) những
lớp đối tượng chưa biết. Mơ hình được suy dẫn ra dựa trên sự phân tích một tập dữ liệu
huấn luyện (training data) (đối tượng dữ liệu mà ta đã biết). Hình thức biểu diễn: cây
quyết định (decision tree), luật phân loại (classification rule), mạng nơron (neural
network).
Phân cụm (cluster analysis):
Khác với phân loại và dự đốn, phân cụm phân tích những đối tượng dữ liệu mà
khơng cần xem xét những lớp đã biết. phân cụm dựa trên phương pháp: cực đại hĩa sự
tương đồng của lớp bên trong và cực tiểu hĩa sự tương đồng của lớp bên ngồi. Tức là
những cụm đối tượng được thành lập để những đối tượng trong một cụm thì rất giống
nhau nhưng khác rất nhiều so với những đối tượng trong cụm khác.
Phân tích tiến hĩa:
Phân tích tiến hĩa dữ liệu miêu tả và mơ hình xu hướng về những sự thay đổi của
đối tượng qua thời gian. Điều này giúp dự đốn được tương lai.
82.5. Các ứng dụng điển hình của khai phá dữ liệu
Dưới đây là bảng thống kê những xu thế phát triển của các lĩnh vực ứng dụng khai
phá dữ liệu điển hình trong các năm 2003, 2004, 2006 và xu hướng phát triển của chúng.
Hình 2.3 – Bảng thống kê xu thế phát triển khai phá dữ liệu [1]
2.6. Kết luận
Trong chương này tơi đã trình bày những nét cơ bản về khai phá dữ liệu và những
ứng dụng của nĩ. Cĩ thể nĩi lĩnh vực khai phá dữ liệu là khá mới mẻ và cĩ xu hướng tăng
trưởng cao trong những năm tới. Trong chương tới, tơi sẽ giới thiệu một kỹ thuật được sử
dụng khá phổ biến trong khai phá dữ liệu đĩ là kỹ thuật sử dụng mạng noron.
9Chương 3. CƠ SỞ LÝ THUYẾT CỦA MẠNG
NORON CHO VẤN ĐỀ DỰ BÁO
3.1. Khái niệm về mạng noron.
Lý thuyết về mạng noron [3] [2] được xuất phát từ ý tưởng mơ phỏng cấu trúc bộ
não con người. Thực tế cĩ thể coi bộ não con người là một máy tính hay một hệ thống xử
lý thơng tin song song, phi tuyến và cực kỳ phức tạp. Nĩ cĩ khả năng tự tổ chức các bộ
phận cấu thành nĩ như là các tế bào thần kinh (noron) hay các khớp nối thần kinh
(synapse). Việc mơ phỏng này dựa trên những nghiên cứu về thần kinh sinh học. Bộ não
con người cĩ khả năng nhận dạng mẫu và điều khiển vận động rất tốt, do đĩ điểm mạnh
của mạng noron cũng chính là những khả năng này.
Định nghĩa mạng noron [6]: mạng nơ ron nhân tạo, artificial neural network,
(thường được gọi ngắn gọn là mạng nơ ron, neural network) là mạng các phần tử (gọi là
nơ ron) kết nối với nhau thơng qua các liên kết (gọi là trọng số liên kết) để thực hiện một
cơng việc nào đĩ. Khả năng xử lý của mạng nơ ron được hình thành thơng qua quá trình
hiệu chỉnh trọng số liên kết giữa các nơ ron, nĩi cách khác là học từ tập hợp các mẫu huấn
luyện.
Như vậy một mạng noron được cấu thành từ các noron riêng biệt. Cách thức kết hợp
các noron này với nhau sẽ tạo ra một mạng cĩ tính chất riêng. Do đĩ để hiểu về mạng
noron trước tiên chúng ta sẽ tìm hiểu về cấu trúc của một noron.
3.2. Mơ hình của một noron nhân tạo và hàm truyền
3.2.1. Mơ hình của một noron
Một noron nhân tạo là một đơn vị tính tốn hay đơn vị xử lý thơng tin cơ sở cho hoạt
động của một mạng. Chúng cĩ khả năng nhận đầu vào, xử lý đầu vào đĩ, đưa dữ liệu đã
được xử lý ra output và liên lạc với các nơron khác để gửi output này đi. Sơ đồ dưới đây
chỉ ra mơ hình của một noron nhân tạo [2]:
10
Hình 3.1 - Mơ hình của một noron[2].
Trong mơ hình trên bao gồm các thành phần sau:
x1, x2, ……, xm: các tín hiệu đầu vào. Thường được biểu diễn dưới dạng vecto m
chiều X=(x1, x2, ….. , xm). Các tín hiệu này cĩ thể là đầu ra của các nơ ron trước nĩ hoặc
đầu vào ban đầu của mạng.
Các trọng số của liên kết Wkj (j = 1,m). Tín hiệu đầu vào xj liên kết với noron k sẽ
được nhân với Wkj. Trong đĩ k là chỉ số của noron trong mạng, j là chỉ số đầu vào của
noron đang xét.
Bộ tổ hợp tuyến tính ∑ để tính tổng các tín hiệu đầu vào, đã được nhân với các trọng
số tương ứng.
Giá trị ngưỡng bk của noron thứ k, để làm tăng hoặc giảm giá trị của bộ cộng ∑.
Tăng nếu dương, giảm nếu âm. Ngưỡng cĩ thể thay đổi trong quá trình học.
uk là tổng các giá trị kích hoạt lên nơ ron thứ k, giá trị này chính là đầu ra của hàm
tổng và là tham số đầu vào cho hàm kích hoạt. Ta cĩ cơng thức cho uk như sau:
ݑ = ܹ. ݔ
ୀଵ
11
Hàm kích hoạt (activation function) hay cịn gọi là hàm truyền để giới hạn biên độ
đầu ra của noron. Hàm kích hoạt như là một hàm nén giới hạn phạm vi biên độ cho phép
của đầu ra trong một khoảng giá trị hữu hạn nào đĩ, thường là trong đoạn [0, 1] hoặc [-1,
1] . Hàm truyền là cĩ tính chất quyết định đến mạng noron. Vì vậy cần phải chọn lựa cho
ứng dụng một hàm phù hợp.
Tín hiệu đầu ra yk của noron k chính là kết quả của quá trình xử lý tại noron này.
Hay nĩ chính là giá trị của hàm kích hoạt. Mỗi noron chỉ cĩ duy nhất một đầu ra. Cơng
thức chung của yk là:
ݕ = ݂(ݑ + ܾ)
Vì hệ số ngưỡng bk là tham số ngồi nên chúng ta cĩ thể coi nĩ như một đầu vào x0
cố định cĩ giá trị x0 = 1, và cĩ trọng số của liên kết là Wk0 = bk. Một cách tương ứng,
chúng ta tổng hợp lại các cơng thức như sau:
ݑ = ܹ. ݔ
ୀ
(j = 0,m tức là ta đã thêm một liên kết mới)
ݕ = ݂(ݑ)
Mơ hình được vẽ lại như sau:
Hình 3.2 – Mơ hình của một noron được vẽ lại [2]
12
3.2.2. Hàm truyền
Như ở trên đã giới thiệu và sơ qua về hàm truyền, dưới đây tơi sẽ đưa ra một vài
hàm truyền cơ bản:
a. Hàm ngưỡng
Cơng thức
ݕ = ݂(ݑ) = ቊ1 ݊ếݑ ݑ ≥ 00 ݊ếݑ ݑ < 0
Đồ thị:
Hình 3.3 – Hàm ngưỡng
b. Hàm vùng tuyến tính
Cơng thức
ݕ = ݂(ݑ) =
⎩⎪
⎨
⎪⎧1 ݊ếݑ ݑ ≥
12
ݑ ݊ếݑ 12 > ݑ > − 12
0 ݊ếݑ ݑ ≤ − 12
Đồ thị
13
Hình 3.4 – Hàm vùng tuyến tính
c. Hàm tuyến tính
Cơng thức
ݕ = ݂(ݑ) = ݑ (ݒớ݅ − 1 ≤ ݑ ≤ 1)
Đồ thị
Hình 3.5 – Hàm tuyến tính
14
d. Hàm sigma
Cơng thức
ݕ = ݂(ݑ) = ଵଵାషೌೠೖ
Trong cơng thức trên thì a chính là tham số độ dốc của hàm sigma, bằng việc biến
đổi a chúng ta sẽ thu được các hàm sigma với các độ dốc khác nhau.
Đồ thị hàm sigma với một vài tham số độ dốc
Hình 3.6 – Hàm sigma với các độ dốc khác nhau
Các hàm truyền ở trên đều bị giới hạn trong đoạn [-1, 1] hoặc [0, 1]. Chúng ta cũng
cĩ thể mở rộng giới hạn nếu muốn để phù hợp với ứng dụng.
3.3. Mơ hình của mạng noron
Mơ hình của mạng noron chính là cách kết nối các noron lại với nhau. Cĩ hai mơ
hình chính là mạng tiến (feed forward network) và mạng hồi quy (recurrent network).
3.3.1. Mạng tiến
Mạng tiến là mạng mà ở trong đĩ luồng dữ liệu từ đầu vào tới đầu ra của các noron
được truyền thẳng, khơng cĩ sự phản hồi nào. Quá trình xử lý dữ liệu trong mạng cĩ thể
mở rộng ra nhiều lớp do đĩ ta cĩ thể chia thành mạng tiến đơn mức và mạng tiến đa mức
a. Mạng tiến đơn mức
15
Mạng tiến đơn mức chỉ gồm các đầu vào (input) được truyền trực tiếp cho một lớp
noron xử lý và đưa ra kết quả luơn.
Mơ hình:
Hình 3.7 – Mơ hình mạng tiến đơn mức
b. Mạng tiến đa mức
Trong mạng tiến đa mức thì ở giữa các inputs và lớp noron output cĩ thêm một hoặc
nhiều lớp noron xử lý trung gian nữa – những lớp noron xử lý trung gian này được gọi là
lớp ẩn (hidden units). Việc thêm này giúp cho mạng tăng khả năng xử lý, thống kê và ghi
nhớ. Tuy nhiên nếu cĩ quá nhiều lớp ẩn mạng sẽ trở nên phức tạp trong tính tốn và dễ
gây ra hiện tượng overfitting ( hiện tượng học quá).
Mơ hình:
16
Hình 3.8 – Mơ hình mạng tiến đa mức
3.3.2. Mạng hồi quy
Khác với mạng tiến, mạng hồi quy cĩ sự kết nối phản hồi lại từ đầu ra quay ngược
trở lại làm tham số đầu vào. Việc này làm cho các thuộc tính của mạng là động tức là cĩ
khả năng thay đổi trong quá trình hoạt động. Như vậy mạng sẽ cĩ khả năng thích nghi cao
hơn.
17
Mơ hình:
Hình 3.9 – Mơ hình mạng tiến cĩ sự phản hồi
3.4. Phương pháp học và thuật tốn lan truyền ngược cho mạng
3.4.1. Cơ sở lý thuyết học của mạng
a. Khái niệm học
Việc học cho mạng noron rất quan trọng vì nĩ sẽ quyết định cách ứng xử của mạng
với mơi trường. Vậy học là gì?
Học là một quá trình mà nhờ đĩ ngưỡng và các liên kết giữa những noron được thiết
lập dưới tác động của mơi trường [2].
Điểm mấu chốt của quá trình học chính là thuật tốn học. Khơng cĩ một thuật tốn
học chung mà tồn tại rất đa dạng các thuật tốn khác nhau áp dụng linh hoạt cho từng ứng
dụng cụ thể. Ở trong khĩa luận này, tơi sẽ sử dụng thuật tốn lan truyền ngược cho ứng
dụng của mình.
18
b. Mơ hình học
Trong phần (a), ta thấy việc học cần cĩ sự tác động của mơi trường. Mơ hình học
chính cách thức quan hệ của mạng với mơi trường. Cĩ hai mơ hình phổ biến là học cĩ
giám sát (supervised learning) và học khơng cĩ giám sát (unsupervised learning).
Học cĩ giám sát [3] : là phương pháp mà mạng được cung cấp những cặp mẫu đầu
vào và đầu ra tương ứng. Nhiệm vụ của quá trình học là từ đầu vào được đã cho sẽ xử lý
tạo ra một đầu ra tương ứng sao cho gần nhất với đầu ra mong muốn. thuật tốn lan
truyền ngược sẽ giới thiệu sau đây thuộc loại học cĩ giám sát
Học khơng giám sát [3]: điểm khác biệt với học cĩ giám sát ở chỗ là đầu ra đúng
tương ứng cho mỗi đầu vào là khơng biết trước. Trong học khơng cĩ giám sát, một tập dữ
liệu đầu vào được thu thập. Học khơng cĩ giám sát thường đối xử với các đối tượng đầu
vào như là một tập các biến ngẫu nhiên. Sau đĩ, một mơ hình mật độ kết hợp sẽ được xây
dựng cho tập dữ liệu đĩ.
3.4.2. Thuật tốn lan truyền ngược (back – propagation)
Giả sử chúng ta muốn huấn luyện mạng với một tập dữ liệu huấn luyện mẫu bao
gồm giá trị đầu vào là xp và giá trị đầu ra mong muốn là dp. Với mỗi đầu vào được cung
cấp sẵn, đầu ra của mạng sai khác so với đầu ra mong muốn dp một lượng là (dp – yp),
trong đĩ yp là đầu ra thực sự của mạng với đầu vào xp. Ta định nghĩa một hàm lỗi tại
noron k dựa trên sự sai khác này là:
ܧ = 12 ( ݀ − ݕ)ଶ (2.1)
Hàm lỗi tổng cộng Ep được xác định bằng tổng lỗi cho mẫu dữ liệu p đối với các
noron đầu ra:
ܧ = 12ܧ
ே
ୀଵ
= 12(݀ − ݕ)ଶ (2.2)
ே
ୀଵ
Trong đĩ No là tổng số các noron đầu ra
Chúng ta xét noron k với đầu vào là các đầu ra của các noron trong lớp trước đĩ.
Như phần phân tích cấu trúc của một noron ở trên ta cĩ các biểu thức tại noron k này:
19
ݕ = ݂൫ݏ൯ (2.3)
ݏ = ݓ. ݕ (2.4)
ݕ là tín hiệu đầu ra của noron k với mẫu p.
ݕ là tín hiệu đầu vào cho noron k cũng chính là đầu ra của các noron ở lớp trước
Mục đích quá trình học đối với thuật tốn làn truyền ngược là điều chỉnh các tham
số tự do sao cho hàm lỗi tổng cộng Ep đạt cực tiểu. Phương pháp tìm cực tiểu thơng dụng
nhất là tính đạo hàm của hàm số và dịch chuyển vector tham số lại gần điểm đạo hàm triệt
tiêu theo chiều ngược với vector gradient của hàm số. Ý tưởng của phương pháp này là
thay đổi các trọng số wkj một lượng là ∆ݓ được định nghĩa bởi cơng thức.
∆ݓ = −ߛ ߲ܧ߲ݓ (2.5)
γ là hằng số tỷ lệ và chính là tốc độ học của mạng
Chúng ta cĩ thể viết
߲ܧ߲ݓ =
߲ܧ
߲ݏ .
߲ݏ߲ݓ (2.6)
Từ (2.4) thì:
߲ݏ߲ݓ = ݕ (2.7)
Đặt ߜ = − డாడ௦ೖ kết hợp với (2.6) và (2.7), cơng thức (2.5) được viết lại thành
∆ݓ = ߛߜݕ (2.8)
Việc cịn lại là phải tính ߜ. Để tính được nĩ chúng ta thực hiện một chút biến đổi
ߜ = − ߲ܧ߲ݏ = −
߲ܧ
߲ݕ .
߲ݕ߲ݏ (2.9)
߲ݕ߲ݏ = ݂ ′൫ݏ
൯ (2.10)
20
Trong cơng thức (2.10) giá trị ݂ ′൫ݏ൯ chính là đạo hàm của hàm truyền tại noron k
Để tính được డாడ௬ೖ ta xét 2 trường hợp.
Trường hợp thứ nhất: noron k đang xét là noron đầu ra của mạng (k = o). Trong
trường hợp này chúng ta cĩ:
߲ܧ
߲ݕ =
߲ܧ
߲ݕ = −(݀
− ݕ) (2.11)
Do đĩ:
ߜ = ߜ = (݀ − ݕ). ݂ ′(ݏ) (2.12)
Trường hợp thứ hai: noron k đang xét thuộc lớp ẩn (k = h). Trong trường hợp này
chúng ta khơng thể biết được sự sai khác giữa đầu ra mong muốn của noron với đầu ra
thực tế như trường hợp thứ nhất. Tuy nhiên chúng ta cĩ thể tính tốn thơng qua các noron
thuộc lớp đầu ra như sau:
Coi ܧ = ܧ(ݏଵ, ݏଶ, …… . , ݏ, … ) khi đĩ:
߲ܧ
߲ݕ =
߲ܧ
߲ݏ .
߲ݏ߲ݕ =
ே
ୀଵ
߲ܧ߲ݏ .
߲
߲ݕݓݕ
ே
ୀଵ
=
ே
ୀଵ
߲ܧ߲ݏ . ݓ
ே
ୀଵ
= −ߜݓ
ே
ୀଵ
(2.13)
Đo đĩ
ߜ = ݂ ′(ݏ)ߜݓ
ே
ୀଵ
Phương trình (2.12) và (2.14) đưa ra một thủ tục đệ quy cho việc tính tốn δ đối với
tất cả các noron trong mạng. Sau khi tính được δ chúng ta sẽ dễ dàng tính được sự biến
thiên trọng số liên kết theo cơng thức (2.8).
Trên cơ sở đĩ thuật tốn lan truyền ngược sai số để huấn luyện mạng MLP được mơ
tả chi tiết hơn như sau:
21
INPUT: tập mẫu học được cung cấp dưới dạng (x = (x1,x2,..,xp),y = (y1,y2,..,yq))
với số lượng mẫu là N
OUTPUT: các ma trận trọng số w1,w2,..,wM và các vector ngưỡng tại các nơ ron
ở các lớp b1,b2,..,bM
PROCESS:
Bước 1: Khởi tạo các tham số mạng (trọng số và ngưỡng), hệ số học , sai số tối
đa cho phép Emax và số lần huấn luyện tối đa I.
Khởi tạo k = 1 (mẫu học thứ k), i = 1 (lần huấn luyện thứ i)
Bước 2: Đưa mẫu huấn luyện thứ k vào mạng
Bước 3: Lan truyền xuơi tín hiệu đầu vào lần lượt qua các lớp nơ ron (từ lớp ẩn
thứ nhất, qua lớp ẩn thứ hai, .., đến lớp đầu ra) để tính đầu ra tương ứng tại mỗi lớp
theo cơng thức (2.0)
Bước 4: Tính sai số E và tín hiệu sai số ở lớp đầu ra của mạng theo cơng thức
(2.12) và (2.13).
Bước 5: Lan truyền ngược tín hiệu sai số (từ lớp đầu ra, qua lớp ẩn cuối cùng,..,
đến lớp ẩn đầu tiên) để cập nhật trọng số và ngưỡng tại các lớp nơ ron cũng như tính
tín hiệu sai số cho lớp trước nĩ theo các cơng thức (2.10)(2.11) và (2.7)
Bước 6: Nếu k<N (chưa hết số mẫu học) thì k:=k+1 và quay lại bước 2, ngược lại
chuyển tới bước 7
Bước 7: Tính sai số trung bình sau lần huấn luyện thứ i với tập mẫu gồm N mẫu
E = (
N
k
kE
1
) /N
Nếu EI thì trả về các ma trận trọng số và các vector ngưỡng và kết
thúc quá trình huấn luyện. Ngược lại gán i:=i+1 rồi lặp lại các bước từ 2 tới 7
22
Như vậy tơi đã trình bày về mạng noron cũng như thuật tốn lan truyền ngược. Đĩ là
những cơ sở lý thuyết để tơi tiến hành đi vào xây dựng mơ hình chương trình của tơi sau
này.
23
Chương 4. MẠNG NORON CHO QUÁ TRÌNH DỰ
ĐỐN
4.1. Mơ hình mạng noron cho việc dự báo
Dựa trên kiến trúc của một hệ thống khai phá dữ liệu đã được tơi trình bày ở chương
2, cùng với nhữn lý thuyết về mạng noron ở chương 3. Chúng ta cĩ thể sử dụng mơ hình
sau cho việc dự đốn:
Hình 4.1 – Mơ hình dự đốn sử dụng mạng noron
Mơ hình trên bao gồm:
Tập huấn luyện: là tập hợp dữ liệu đầu vào phục vụ cho quá trình học của mạng
Tập huấn
luyện Học cho mạng
Tập đánh
giá
Mạng đã được học
n, ݓሬሬ⃗
Mạng tối ưu
Tập dự
đốn
Kết quả
No
Hàm đánh
giá
Yes
24
Tập đánh giá: là tập dùng để kiểm chứng việc học của mạng.
Hàm đánh giá: thực hiện cơng việc kiểm định xem mạng đã đáp ứng được yêu cầu
của hệ thống chưa.
Tập dự đốn: là tập dữ liệu cĩ cấu trúc giống như tập huấn luyện nhưng giá trị cần
dự đốn bị khuyết và nhiệm vụ của mạng noron đã được tối ưu là bổ sung giá trị bị khuyết
này của tập dự đốn.
Quá trình hoạt động của mơ hình
Giai đoạn học: Ban đầu mạng noron với thuật tốn lan truyền ngược (đã giới thiệu ở
trên) sẽ sử dụng tập huấn luyện làm vector đầu vào để xác lập các tham số cho mạng như
số lớp ẩn, các trọng số liên kết… Kết quả thu được sẽ là một mạng đã được học, tuy nhiên
để đảm bảo nĩ đáp ứng được độ chính xác cao cần phải cho chạy thử với tập dữ liệu khác
dùng để đánh giá. Ta sẽ thu tỷ lệ lỗi của mạng đối với tập đánh giá này và thực hiện so
sánh với tỷ lệ lỗi giới hạn, nếu đáp ứng được thì chấp nhận mạng vừa được học đĩ, nếu
khơng thì thay đổi tham số và quay lại bước học
Giai đoạn dự đốn: Sau khi kết thúc giai đoạn học, ta sẽ thu được một mơ hình mạng
nơ ron với các tham số tốt nhất. Khi đĩ, ta chỉ cần dùng bộ dữ liệu dùng để dự đốn áp
vào mơ hình thì mơ hình sẽ trả lại kết quả dự báo.
4.2. Các bước thiết kế mơ hình
Khơng cĩ một phương pháp chung nào để xác định cấu trúc phù hợp của mạng nơ
ron cho từng bài tốn. Việc thiết kế mạng nơ ron cĩ thành cơng hay khơng phụ thuộc vào
sự hiểu biết rõ ràng về vấn đề, cĩ thể dựa vào thực nghiệm hoặc kinh nghiệm trong lĩnh
vực đĩ.
Việc chọn lọc dữ liệu đầu vào và hiệu chỉnh trọng số là rất quan trọng trong mạng
nơ ron. Nelson và Illingworth [9] đưa ra 8 bước trong việc thiết kế một mạng nơ ron như
sau:
1. Chọn lựa các biến.
2. Thu thập dữ liệu
3. Tiền xử lý dữ liệu
25
4. Phân chia tập dữ liệu thành các tập: huấn luyện, kiểm tra, kiểm định.
5. Xác định cấu trúc mạng
- Số tầng ẩn
- Số các nơ ron ẩn
- Số các nơ ron đầu ra,
- Hàm chuyển
6. Xác định tiêu chuẩn đánh giá (hàm lỗi)
7. Huấn luyện mạng nơ ron
- Tiêu chuẩn dừng
- Tốc độ “học” và tốc độ hội tụ
8. Triển khai
4.2.1. Chọn lựa các biến
Trong bất kỳ một bài tốn nào cũng vậy chúng ta luơn phải xác định đầu vào (các
biến) cho chúng. Trong bài tốn dự báo chứng khốn này của tơi cũng thế, tơi cũng phải
lựa chọn cho mình những biến đầu vào. Như tơi đã nĩi ở phần giới thiệu, cĩ quá nhiều
yếu tố ảnh hưởng đến tương lai của một mã chứng khốn, và chúng thường khá phức tạp,
khơng cĩ một quy luật củ thể nào. Khĩa luận này tơi sẽ chỉ sử dụng giá chứng khốn tại
các thời điểm trong quá khứ để dự đốn giá cho thời điểm mong muốn.
Như vậy dữ liệu của mơ hình gồm một chuỗi các quan sát:
ܴ(1), ܴ(2),… , ܴ(ݐ − 1), ܴ(ݐ), ܴ(ݐ + 1),… , ܴ(݊)
4.2.2. Thu thập dữ liệu
Dữ liệu về giá chứng khốn trong bài tốn được tơi thu thập bằng cách sử dụng một
phần mềm mã nguồn mở là jstock. Phần mềm này cĩ khả năng thu thập được rất nhiều
chứng khĩa của 24 nước trên thế giới. Chi tiết hơn về jstock tơi sẽ mơ tả trong phần sau
của khĩa luận
4.2.3. Tiền xử lý dữ liệu
Dữ liệu thu thập được cần phải được xử lý cho phù hợp với đầu vào của mạng trước
khi chúng được sử dụng. Theo như kiến thức mơ tả về mạng noron ở chương 3, dư liệu sẽ
gồm đầu vào và đầu ra thực sự. Trong bài tốn này của tơi, đầu vào ở đây là k giá trị
26
chứng khốn trước đĩ (k được cho trước). Đầu ra là giá trị dự đốn cho thời điểm tương
lai.
Rh(t+1) Rh(t) Rh(t-1) … Rh(t-k+1)
Với bài tốn này, ta tổ chức dữ liệu theo chiều tiến của thời gian với cột đầu tiên là
giá chứng khốn của thời điểm thứ k trước đĩ và các cột cịn lại là giá trị chứng khốn tại
các thời điểm tăng đần theo thời gian.
Rh(1) Rh(2) … Rh(k) Rh(k+1)
Rh(2) Rh(3) … Rh(k+1) Rh(k+2)
Rh(3) Rh(4) … Rh(k+2) Rh(k+3)
… … … … …
Rh(t-k+1) Rh(t-k+2) … Rh(t) Rh(t+1)
… … … … …
Rh(n-k) Rh(n-k+1) … Rh(n-1) Rh(n)
Bảng 4.1 – Tổ chức dữ liệu của mơ hình
Như vậy với cách thức tổ chức này thì đầu ra chính là giá trị của cột cuối cùng.
4.2.4. Phân hoạch tập dữ liệu
Bất kể một mơ hình nào cũng cần phải được đánh giá và kiểm tra trước khi đưa vào
áp dụng thực tế. Chúng ta sẽ làm việc này bằng cách chia tập dữ liệu đã được chuẩn hĩa
thành ba tập dữ liệu con gồm: tập huấn luyện (training set), tập đánh giá (validation set),
và tập kiểm tra (testing set). Tập dữ liệu là tập con lớn nhất ( thường chiếm tới 70%) dùng
để huấn luyện và thiết lập các tham số của mạng. Tập đánh giá ( thường chiếm 20%) được
sử dụng với mục đích kiểm định xem mơ hình học đã thực sự tốt hay chưa. Nếu chưa tốt
thì tiến hành học lại. Tập kiểm tra (thường chiếm 10%) dùng để kiểm tra độ chính xác của
mơ hình trước khi chúng được đưa vào áp dụng thực tế. Một mơ hình mạng noron tốt là
mơ hình mà cho tỉ lệ lỗi với tập test ở mức chấp nhận được. Hình vẽ dưới đây thể hiện tỉ
lệ kích thước giữa các tập huấn luyện, kiểm tra và kiểm chứng [9].
27
Hình 4.2 – Tỷ lệ kích thước giữa các tập huấn luyện [9]
Hiện tượng overfitting [3], [9] thường xảy ra khi tập huấn luyện khơng đủ độ tổng
quát. Nĩi theo cách khác, cĩ tương đối ít các mẫu quan sát về các mối tương quan giữa
các tham số của mơ hình vì thế mà mơ hình cĩ khả năng ghi nhớ các mẫu riêng lẻ hơn là
tổng quát hĩa các mẫu. Với mạng nơ ron, số trọng số liên kết và kích thước tập huấn
luyện cĩ ảnh hướng quyết định đến nguy cơ overfitting. Số trọng số liên kết càng lớn hơn
kích thước của tập huấn luyện, thì mạng càng cĩ khả năng ghi nhớ tốt các mẫu riêng lẻ.
Kết quả là khả năng tổng quát hĩa trên tập kiểm chứng bị mất dẫn tới khả năng dự báo
của mơ hình giảm đi rõ rệt.
Để ngăn chặn nguy cơ overfitting (hiện tượng khả năng học của mạng là rất tốt
nhưng khả năng tổng quát hĩa của mạng là kém, tức là mạng dự đốn tốt với những dữ
liệu đã được huấn luyện nhưng lại tỏ ra kém hiệu quả khi dữ liệu mới vào mơ hình) thì
kích cỡ của tập huấn luyện ít nhất phải bằng 5 lần số trọng số liên kết [5].
4.2.5. Xác định cấu trúc mạng
Số lượng tầng ẩn
Những tầng ẩn cung cấp cho mạng năng lực để tổng quát hĩa.
Trên lí thuyết, chỉ cần 1 lớp cũng đủ tương đương với bất kì hàm liên tục nào.
Cả lý thuyết và kinh nghiệm làm việc đều chỉ ra rằng việc thiết kế mạng nơ ron quá
4 tầng (tầng đầu vào, tầng đầu ra và 2 tầng ẩn) sẽ khơng giúp cải thiện kết quả phân lớp.
28
Hơn thế, việc tăng số lượng tầng ẩn làm tăng khả năng overfitting và tăng thời gian tính
tốn [9].
Số lượng nơ ron tầng vào và tầng ẩn
Khơng cĩ cơng thức chung nào giúp chỉ ra số nơ ron tầng ẩn thích hợp cho mọi bài
tốn. Sự lựa chọn số nơ ron ẩn thích hợp phụ thuộc rất nhiều vào kinh nghiệm. Tuy nhiên
cũng cĩ một số gợi ý mà các nhà nghiên cứu đưa ra giúp chúng ta cĩ những bước chọn
thuận lợi.
Một mơ hình mạng nơ ron ba lớp với n nơ ron ở tầng vào và m nơ ron ở tầng ra thì
số nơ ron ở tầng ẩn cĩ thể bằng: √݊ × ݉ . Baily và Thompson thì đề nghị rằng số nơ ron
của tầng ẩn bằng khoảng 75% số nơ ron của tầng vào. Theo Katz [7] thì cho rằng số nơ
ron ẩn tối ưu gấp 1.5 đến 3 lần số nơ ron tầng vào.
Các gợi ý trên cho thấy việc lựa chọn số nơ ron của tầng ẩn phụ thuộc hồn tồn vào
số nơ ron của tầng vào, điều này khiến mơ hình mạng dễ rơi vào trạng thái overfitting.
Giải pháp được đưa ra là tăng kích thước tập huấn luyện, nếu điều này khơng thể thực
hiện thì cĩ thể nâng giới hạn số nơ ron tầng vào. Như thế số lượng trọng số liên kết ít nhất
bằng một nửa số lần huấn luyện.
Tuy nhiên, lựa chọn được số lượng nơ ron ẩn tốt nhất vẫn là ở thực nghiệm.
Số nơ ron tầng ra
Trong các bài tốn dự báo tài chính, số nơ ron tầng ra luơn luơn là 1. Việc sử dụng
nhiều giá trị đầu ra sẽ tạo ra kết quả thấp hơn so với một mạng nơ ron với một đầu ra [6].
Lý do là một mạng nơ ron được huấn luyện bằng cách chọn trọng số với bất kì số lượng
nơ ron đầu ra nào đều đã được tối ưu. Cĩ thêm nhiều đầu ra làm tăng khơng gian lưu trữ
cũng như khả năng tính tốn.
Hàm truyền
Hầu hết các mơ hình mạng nơ ron đều sử dụng hàm truyền sigmoid, hàm này vẫn tỏ
ra khá hiệu quả và đơn giản, phù hợp với mơ hình dự đốn của chúng ta.
Sau đây là một số kết quả về độ hội tụ của mạng nơ ron với một số bộ giá trị tham
số cho trước. Trong mỗi hình này, đường mầu xanh serie 1 là các giá trị thực tế của đối
29
tượng cần huấn luyện trong mạng nơ ron, đường mầu hồng serie 2 là các giá trị dự đốn
khi sử dụng mơ hình mạng [9].
Hình 4.3 – Độ hội tụ: 3 tầng, 20 nơ ron ẩn, 50 bước
Hình 4.4 – Độ hội tụ: 3 tầng, 20 nơ ron ẩn, 100 bước
Hình 4.5 – Độ hội tụ: 3 tầng, 20 nơ ron ẩn, 300 bước
30
Hình 4.6 – Độ hội tụ: 3 tầng, 50 nơ ron ẩn, 5 bước
Hình 4.7 – Độ hội tụ: 3 tầng, 50 nơ ron ẩn, 50 bước
Hình 4.3, 4.4, 4.5 chỉ ra sự hội tụ khi sử dụng mơ hình mạng nơ ron 3 tầng với 20 nơ
ron ẩn và số bước thực hiện lần lượt là 50, 100, 300. Ta nhận thấy mạng cho kết quả hội
tụ cao khi số bước thực hiện lớn đối với các mơ hình cĩ cùng số tầng ẩn và số nơ ron ẩn.
Khi tăng số nơ ron ẩn, mạng hội tụ nhanh hơn, số bước thực hiện ít hơn. Điều này thấy rõ
trong hình 4.6 và 4.7. Với 50 nơ ron ẩn, mạng chỉ cần 50 bước thực hiện để đạt được độ
hội tụ tương đương với mơ hình mạng sử dụng 20 nơ ron ẩn và 300 bước thực hiện.
4.2.6. Xác định tiêu chuẩn đánh giá
Việc xác định tiêu chuẩn đánh giá chính là xác định hàm lỗi để căn cứ vào đĩ đánh
giá mơ hình mạng cĩ thực sự tốt hay khơng. Cĩ rất nhiều hàm lỗi cĩ thể sử dụng được
nhưng trong khĩa luận này tơi sử dụng sai số trung bình bình phương (root mean squared
error) để đánh giá. Cơng thức của sai số trung bình bình phương được đánh giá bởi
phương trình:
31
ܧ = ඩ1݊( ܲ − ܶ)ଶ
ୀଵ
Trong đĩ:
Pj là giá trị được dự đốn cho mẫu thứ j
Tj là giá trị thực của mẫu thứ j
n là số mẫu
Sau khi xác định được hàm lỗi chúng ta cĩ thể sử dụng 2 chiến lược [4] sau để kiểm
chứng. Mục đích của chúng ta là thu được mơ hình cĩ sai sơ trung bình bình phương E là
nhỏ nhất.
Chiến lược cửa sổ tăng trưởng (growing window)
Hoặc cĩ thể sử dụng cửa sổ trượt (Sliding window) :
1. Cho chuỗi Rh(1),Rh(2), . . . ,Rh(n) và thời gian t
(t < n)
2. Xây dựng mơ hình dự đốn với tập dữ liệu huấn
luyện Rh(1),Rh(2), . . . ,Rh(t−1)
3. LẶP
a. Dự đốn giá trị của Rh(t)
b. Ghi lại tỉ lệ lỗi dự đốn
c. Thêm Rh(t) vào tập huấn luyện
d. Xây dựng mơ hình mới với tập huấn luyện mới
e. Đặt t = t + 1
4. ĐẾN KHI t = n
32
4.2.7. Huấn luyện mạng nơ ron
Huấn luyện mạng nơ ron cĩ nghĩa là học các mẫu từ dữ liệu. Mục tiêu của huấn
luyện là tìm ra được tập trọng số liên kết giữa các nơ ron sao cho hàm lỗi (hàm giá) là nhỏ
nhất. Nếu một mơ hình khơng rơi vào trạng thái overfiting thì tập trọng số liên kết cĩ thể
cung cấp khả năng tổng quát hĩa tốt. Thuật tốn lan truyền ngược sai số như đã giới thiệu
ở chương 2 là thuật tốn phổ biến và hiệu quả nhất để huấn luyện mạng. Tuy nhiên, thuật
tốn này cũng khơng đảm bảo cĩ được một cực tiểu tồn cục, thuật tốn cĩ thể bị mặc kẹt
vào một cực tiểu địa phương nào đĩ.
Cĩ hai vấn đề mà ta quan tâm khi huấn luyện mạng noron đĩ là tiêu chuẩn dừng và
tốc độ học.
Tiêu chuẩn dừng
Thuật tốn lan truyền ngược khơng thể xác định được là đã hội tụ hay chưa, và như
vậy khơng cĩ một tiêu chuẩn tuyệt đối nào cho việc dừng của thuật tốn. Tuy nhiên vẫn
cĩ một số tiêu chuẩn cĩ thể coi là chấp nhận được. Dưới đây tơi xin giới thiệu hai tiêu
chuẩn dừng [2]:
Tiêu chuẩn thứ nhất dựa vào sự ổn định của hàm giá ܧ (được xác định trong cơng
thức (2.2)) quanh một giá trị nào đĩ. Chúng ta cĩ tiêu chuẩn hội tụ như sau:
Mạng noron được xem là hội tụ khi tỷ lệ lỗi tuyệt đối của lỗi bình phương trung bình
trong một lần huấn luyện là đủ nhỏ.
1. Cho chuỗi Rh(1),Rh(2), . . . ,Rh(n), thời gian t
và kích thước cửa sổ w
2. Xây dựng mơ hình với tập dữ liệu huấn luyện
Rh(t−w−1), . . . ,Rh(t−1)
3. LẶP
a. Dự đốn giá trị cho Rh(t)
b. Ghi lại tỉ lệ lỗi dự đốn
c. Thêm Rh(t) vào tập huấn luyện và xĩa Rh(t−w−1)
ra khỏi tập huấn luyện
d. Xây dựng mơ hình mới với tập huấn luyện mới
e. Đặt t = t + 1
4. ĐẾN KHI t = n
33
Tỷ lệ lỗi bình phương trung bình được coi là đủ nhỏ nếu nĩ nằm trong giới hạn từ
0.1 đến 1 phần trăm trong một lần huấn luyện. Nhưng tiêu chuẩn này cĩ hạn chế là cĩ thể
dẫn đến sự kết thúc vội vàng của quá trình học.
Tiêu chuẩn thứ hai để xác định điểm dừng cho việc huấn luyện mạng là khi độ lớn
Euclide của vector gradient డாడௐ đạt tới một ngưỡng gradient đủ nhỏ. Tuy nhiên tiêu chuẩn
này thời gian học dài và phải tính tốn vector gradient.
Ngồi hai tiêu chuẩn đã nêu, cịn cĩ phương pháp vừa học vừa kiểm tra tính năng
nhận dạng trên một tập dữ liệu mẫu kiểm tra khác với tập hợp tích lũy. Trong trường hợp
này, thuật tốn được xem là hội tụ khi nĩ tích lũy đủ lâu và khả năng nhận dạng trên tập
kiểm tra đạt tới một giá trị cho phép nào đĩ.
Tốc độ học
Về mặt lý tưởng, tất cả các neron trong mạng nên học với cùng một tốc độ. Mức
cuối cùng của mạng thường cĩ gradient cục bộ lớn hơn các mức ở phía trước. Như vậy
tốc độ học nên được gán một giá trị nhỏ hơn. Các noron nhiều đầu vào nên cĩ một tham
số tốc độ học nhỏ hơn để giữ một thời gian học tương tự nhau cho tất cả các noron trong
mạng.
Tốc độ học nhận giá trị trong khoảng [0, 1]. Trong suốt quá trình huấn luyện, tốc độ
học quá cao làm cho các trọng số liên kết thay đổi lớn dẫn đến mạng khơng ổn định.
Ngược lại tốc độ học quá thấp thì sự thay đổi trọng số liên kết chậm, quỹ đạo khơng gian
trọng số càng trơn. Tuy nhiên điều này lại làm cho việc học bị chậm lại
Hầu hết các chương trình mơ hình mạng đều để mặc định giá trị tốc độ học. Tốc độ
học khởi tạo cĩ miền ưu tiên khá rộng từ 0.1 đến 0.9. Việc lựa chọn một tốc độ học phù
hợp cũng sẽ làm tăng khả năng của mạng noron lên khá nhiều.
4.2.8. Triển khai
Triển khai được coi như là bước cuối cùng của việc thiết kế mơ hình mạng nơ ron,
nhưng thực tế yêu cầu việc triển khai phải được chú ý trước khi tập hợp dữ liệu. Dữ liệu,
tiêu chuẩn đánh giá, thời gian huấn luyện đều phải được định hướng trong mơi trường mà
mạng nơ ron sẽ được triển khai. Hầu hết các nhà cung cấp phần mềm mạng nơ ron đều
cung cấp một mơ hình mạng đã được huấn luyện trong chương trình hoặc trong file cấu
34
hình. Nếu khơng cĩ sẵn phần mềm, mạng nơ ron cũng cĩ thể được tạo ra dễ dàng khi hiểu
kiến trúc của nĩ, hàm truyền và trọng số liên kết.
Một ưu điểm của mạng nơ ron là khả năng thích ứng với sự thay đổi của mơi trường
qua sự huấn luyện tuần hồn. Khi mạng được triển khai, hiệu năng của mạng sẽ giảm dần
nếu khơng được huấn luyện lại nhưng khơng cĩ nghĩa hiệu năng sẽ được duy trì như các
biến độc lập. Do đĩ phải thường xuyên huấn luyện lại mạng trong suốt quá trình thử
nghiệm trên mơ hình cuối cùng.
4.3 Tổng kết
Như vậy chương này tơi đã giới thiệu hồn chỉnh tám bước thiết kế một mạng noron
gồm: chọn lựa các biến, thu thập dữ liệu, tiền xử lý dữ liệu, phân hoạch dữ liệu, xác định
cấu trúc mạng, xác định tiêu chuẩn đánh giá, huấn luyện mạng, thực thi trong thực tế. Một
mơ hình mạng noron cho bài tốn dự báo cũng đã được trình bày. Từ những kiến thức đĩ
chúng ta hồn tồn cĩ thể bắt tay xây dựng được một mạng noron thành một ứng dụng dự
báo giá chứng khốn cụ thể. Trong chương tới đây, tơi sẽ giới thiệu về quá trình xây dựng
của tơi.
35
Chương 5. XÂY DỰNG CHƯƠNG TRÌNH VÀ
ĐÁNH GIÁ
Trong chương này tơi sẽ đề cập đến quá trình xây dựng phần mềm dựa trên hai phần
mềm mã nguồn mở là weka [10] và jstock [11] đồng thời đánh giá mơ hình mà phần mềm
sử dụng với một vài mơ hình dự đốn khác. Phần mềm sẽ được xây dựng trên ngơn ngữ
java [2] với mơi trường phát triển là neatbean [13]
5.1. Vài nét về các phần mềm nguồn mở được sử dụng
Rất nhiều phần mềm nguồn mở cĩ chất lượng, tính ứng dụng cao đã và đang được
cộng động sử dụng ngày một nhiều, cĩ thể kể đến như: hệ điều hành linux, trình duyệt
firefox …. Chính vì điều này đã thơi thúc tơi xây dựng phần mềm của mình dựa trên nền
tảng của các phần mềm mã nguồn mở.
5.1.1. Weka
Thực tế là khơng cĩ một lược đồ học máy nào thích hợp cho tất cả những vấn đề
khai phá dữ liệu. Việc xây dựng một hệ thống dựa trên kỹ thuật học máy tổng quát là một
điều khơng tưởng. Xuất phát từ thực tế đĩ, thư viện weka đã được ra đời nhằm hỗ trợ xây
dựng các phần mềm cĩ khả năng phân tích và hỗ trợ ra quyết định [8].
Weka là thư viện chứa một bộ tập hợp kỹ thuật, thuật tốn và cơng cụ xử lý dữ liệu
và thuật tốn học máy rất đa dạng. Nĩ được thiết kế để chúng ta cĩ thể áp dụng nhanh
chĩng những thuật tốn trên những tập dữ liệu mới theo các cách khác nhau một cách linh
hoạt. Thư viện này hỗ trợ cho tồn bộ quá trình khai phá dữ liệu ở trong thực tế bao gồm
chuẩn bị dữ liệu đầu vào, đánh giá thống kê lược đồ học, và trực quan hĩa dữ liệu đầu vào
và kết quả của quá trình học. Cùng với rất nhiều thuật tốn học khác nhau là các cơng cụ
tiền xử lý dữ liệu cũng được xây dựng trong weka. Weka cho phép người dùng so sánh
các thuật tốn với nhau và xác định cái nào là phù hợp nhất với vấn đề đang thực hiện [8].
Weka được phát triển ở đại học Waikato, New Zealand. Tên weka được viết tắt từ
cụm từ Waikato Environment for Knowledge Analysis. Nĩ được viết bằng ngơn ngữ Java
36
và chạy được trên hầu hết các mơi trường, đã được thử nghiệm trên Linux, Windows,
Macintosh.
Weka bao gồm những phương pháp cho tất cả những vấn đề khai phá dữ liệu chuẩn:
hồi quy (regression), phân lớp (classification), phân cụm (clustering), khai phá luật kết
hợp (association rule mining) và chọn lựa thuộc tính (attribute selection). Tất cả thuật
tốn sẽ lấy đầu vào ở trong dạng của một bảng quan hệ đơn lưu trong file cĩ đuơi mở
rộng là arff
Giao diện chính của weka cĩ cho phép người dùng cĩ thể chọn lựa 4 kiểu giao diện
khác nhau để thao tác.
Hình 5.1 – Giao diện chính của weka
Explorer : giao diện đồ họa, cho phép truy xuất vào tất cả tiện ích của nĩ bằng
cách sử dụng trình lựa chọn và thay đổi các tham số
Knowledge Flow: cho phép thiết kế, cấu hình cho xử lý dịng dữ liệu.
Experimenter : cho phép tự động xử lý dễ dàng phân loại, lọc với các tham số
khác nhau
Simlpe CLI : cho phép truy xuất thơng qua các câu lệnh
Cĩ thể tải phần mềm và tài liệu hướng dẫn tại trang web
Trong hầu hết những ứng dụng khai phá dữ liệu,
thành phần học máy chỉ là phần nhỏ của hệ thống phần mềm lớn. Vì vậy, để viết ứng
dụng khai phá dữ liệu chúng ta phải truy cập vào chương trình trong weka bằng những
37
đoạn mã lệnh trong chương trình của chúng ta. Trên cơ sở đĩ, khĩa luận này tơi sẽ dùng
weka như là một package trong chương trình, qua đĩ sẽ sử dụng những hàm của nĩ để
phục vụ quá trình khai phá.
5.1.2. Jstock
Jstock là một phần mềm mã nguồn mở với mục đích giúp nhà đầu tư quản lý việc
đầu tư chứng khốn của mình. Với các chức năng chính như:
Hiển thị dữ liệu chứng khốn thời gian thực
Cho phép người dùng quản lý việc mua bán chứng khốn
Hỗ trợ phương thức lọc đầu mục chứng khĩa theo tiêu chuẩn nào đĩ do người dùng
xây dựng lên.
Cho phép người dùng trao đổi với những người khác thơng qua module chat.
Hình 5.2 – Giao diện chính của Jstock
38
Jstock hỗ trợ lấy dữ liệu chứng khốn thời gian thực từ 23 quốc gia bao gồm:
Australia, Austria, Belgium, Canada, Denmark, France, Germany, Hong Kong, India,
Indonesia, Italy, Korea, Malaysia, Netherlands, Norway, Portugal, Singapore, Spain,
Sweden, Switzerland, Taiwan, United Kingdom and United State.
Cĩ thể download bản cài đặt jstock tại
Mã nguồn cĩ thể download từ
Trong khĩa luận, jstock sẽ được tơi sử dụng như một cơng cụ để lấy dữ liệu về làm
đầu vào cho các thuật tốn weka, sau đĩ kết quả sẽ đượ đưa ngược lại cho jstock để hiển
thị dữ liệu.
5.2. Mơ hình kết hợp giữa hai gĩi phần mềm mã nguồn mở
Từ mơ hình dự báo chứng khốn với mạng noron kết hợp với hai phần mềm mã
nguồn mở tơi đã giới thiệu ở trên. Tơi sẽ lắp ghép chúng lại thành một mơ hình hồn
chỉnh như sau:
Hình 5.3 – Mơ hình hệ thống khĩa luận xây dựng
Trong mơ hình trên ta phải thực hiện các cơng đoạn sau:
Chuyển dữ liệu chứng khốn thời gian thực mà jstock lấy được làm đầu vào cho
thuật tốn ANN của trong gĩi weka.
Xác định mơ hình mạng noron phù hợp cho dự đốn
Chuyển kết quả ra cho jstock hiển thị
Jstock
Weka
Mạng noron
Dữ liệu thời gian thực
Kết quả dự đốn
39
Sau đây tơi sẽ giới thiệu chi tiết hơn về các cơng đoạn trên.
5.2.1. Chuyển dữ liệu thời gian thực
Định nghĩa: Dữ liệu thời gian thực hay chuỗi tuần tự theo thời gian (time series) là
một chuỗi các giá trị của một đại lượng nào đĩ được ghi nhận là tuần tự theo thời gian.
Ví dụ: Số lượng hàng hĩa được bán ra trong 12 tháng năm 2008 của một cơng ty.
Các giá trị của chuỗi tuần tự theo thời gian của đại lượng X được kí hiệu là X1, X2,
…, Xt, …, Xn. với Xt là giá trị của X tại thời điểm t.
Dữ liệu chúng ta sử dụng là dữ liệu thời gian thực (time series) . Đặc điểm chính để
phân biệt giữa dữ liệu cĩ phải là thời gian thực hay khơng đĩ chính là sự tồn tại của cột
thời gian được đính kèm trong đối tượng quan sát. Nĩi cách khác, dữ liệu thời gian thực là
một chuỗi các giá trị quan sát của biến Y:
ܻ = {ݕଵ, ݕଶ, ݕଷ, … , ݕ௧ିଵ, ݕ௧, ݕ௧ାଵ, … , ݕ} vớ݅ ݕ௧ là giá trị của biến Y tại thời điểm t
Mục đích chính của việc phân tích chuỗi thời gian thực là thu được một mơ hình dựa
trên các giá trị trong quá khứ của biến quan sát ݕଵ, ݕଶ, ݕଷ, … , ݕ௧ିଵ, ݕ௧ cho phép ta cĩ thể
dự đốn được giá trị của biến Y trong tương lai, tức là cĩ thể dự đốn được các giá trị
ݕ௧ାଵ, … , ݕ.
Dữ liệu chứng khốn mà Jstock thu thập được là dữ liệu theo chuỗi thời gian và cĩ
nhiều thuộc tính cùng được ghi tại một thời điểm nào đĩ. Trong đĩ các thuộc tính chính
bao gồm: Open, Last, High, Low, Volume
Open: Giá cổ phiếu tại thời điểm mở cửa trong ngày
High: Giá cổ phiếu cao nhất tính đến thời điểm hiện tại
Low: Giá cổ phiếu thấp nhất tính đến thời điểm hiện tại
Last: Giá cổ phiếu được niêm yết tại thời điểm hiện tại
Volume: Khối lượng giao dịch cổ phiếu (bán, mua) trong ngày.
Mục đích của bước này là chuyển dữ liệu chứng khốn cĩ dạng như trên thành dữ
liệu dưới dạng bảng mà đã trình bày ở chương 4 để gĩi phần mềm weka cĩ thể hiểu được
40
5.2.2. Xác định mơ hình phù hợp
Đây là cơng việc cần phải thực hiện để cĩ được một mơ hình phù hợp nhất cho ứng
dụng. Những thiết lập tham số cho mạng sẽ dẫn đến các mơ hình mạng noron khác nhau
thích ứng cho từng bộ dự liệu khác nhau. Mong muốn của chúng ta là tìm được một bộ
tham số tốt nhất cho bài tốn của mình. Muốn vậy cần phải làm được hai việc: thay đổi
tham số và đánh giá mơ hình với bộ tham số đĩ.
Thay đổi tham số
Mạng noron cĩ khá nhiều tham số cĩ thể tác động vào, tuy nhiên trong khĩa luận tơi
sẽ chỉ thay đổi hai tham số cơ bản nhất của mạng noron là tốc độ học (learning rate) và số
noron tầng ẩn (hidden layers). Đĩ là vấn đề tổng quan, cịn cụ thể thì phải cĩ một chiến
lược thay đổi các tham số để thực thi. Chiến lược mà tơi sử dụng là một thuật tốn dựa
trên kinh nghiệm, tư tưởng của thuật tốn như sau. Ban đầu ta khởi tạo một tốc độ học cao
(khoảng 0,9) và một khoảng cho số noron tầng ẩn (ví dụ từ 2 đến 10). Thực hiện thử học
với lần lượt với tốc độ học 0,9 và số noron tầng ẩn từ 2 đến 10. Lỹ dĩ nhiên trong bước
lặp này thì các mơ hình thu được là khá tồi do tốc độ học là quá cao. Để tối ưu mơ hình
hơn, ở những bước lặp sau chúng ta sẽ giảm tốc độ học đi để tìm phương án tốt hơn (tốt
hơn theo hàm đánh giá). Kết thúc quá trình lặp này, các tham số tốt nhất sẽ được lưu lại
để tạo ra mơ hình tối ưu. Sau đây là đoạn mã giả thực hiện cơng việc này:
While(learningrate > 0){
For(i = hiddenUnits; i > 0; i--){
//Thực hiện học mơ hình với tốc độ học learningrate
//và số noron tầng ẩn hiddenUnits ở đây
If(tỷ lệ lỗi thấp hơn tỷ lệ lỗi hiện tại){
Gán tỷ lệ lỗi thấp nhất hiện tại là tỷ lệ lỗi ứng
với vịng lặp này
Lưu lại tốc độ học
Lưu lại số noron tầng ẩn
}
}
Learningrate = learningrate – decrease;
41
//decrease là lượng giảm cho tốc độ học
}
Đánh giá mơ hình
Sau khi thay đổi các tham số một bộ tham số mới được tạo ra, để biết được nĩ cĩ tốt
hay khơng chúng ta cần làm cơng đoạn là đánh giá nĩ. Tức là sẽ so sánh mơ hình mới ứng
với bộ tham số này với các mơ hình trước đĩ xem mơ hình nào tốt hơn dựa vào một tiêu
chuẩn đánh giá nào đĩ (nĩ chính là bước so sánh tại điều kiện của câu lệnh if trong đoạn
mã ở trên). Như phần xác định tiêu chuẩn đánh giá – bước thứ sáu trong tám bước thiết kế
và thực thị một mạng noron – ở trên thì sai số trung bình bình phương sẽ được tơi sử dụng
để đánh giá.
Trong đoạn mã trên, chúng ta cần phải cĩ một động tác là học mơ hình với tham số
tốc độ học (learningrate) và số lượng thành phần ẩn (hiddenUnits) tại mỗi bước lặp. Việc
thực hiện học này cũng rất cĩ ảnh hưởng tới giá trị của hàm đánh giá. Nĩ được thể hiện
một phần ở các tập dữ liệu phục vụ để học mơ hình là tập huấn luyện, tập kiểm chứng
(như đã nêu ở phần trước). Để tiến hành quá trình học này ta chia dữ liệu thành hai phần:
một phần để thiết lập các tham số cho mơ hình (tập huấn luyện – training set), phần cịn
lại dùng để đánh giá tỷ lệ lỗi của mơ hình nhằm chọn ra bộ tham số tốt nhất (tập kiểm
chứng – validation set). Trong weka, để thực hiện quá trình này, ta sẽ dùng dịng lệnh sau
(dịng lệnh bên dưới tơi đã sử dụng một tham số tốc độ học và số noron tầng ẩn để mang
tính chất minh họa, các tham số khác tơi để mặc định):
java weka.classifiers.functions.MultilayerPerceptron -L 0.2 -H 2 -t
D:\prediction\Training.arff -T D:\prediction\test.arff
Trong đĩ:
-L là tham số tốc độ học
-H là tham số các noron ẩn
-t là đường dẫn cho tập huấn luyện
-T là đường dẫn cho tập đánh giá
Kết quả của câu lệnh trên như sau:
42
Hình 5.4 – Kết quả huấn luyện mạng noron bằng dịng lệnh weka
Hình trên cho thấy kết quả tỷ lệ lỗi trung bình bình phương (RMSE) là 0.8267 trên
tập kiểm định
Sau khi cĩ được bộ tham số tốt nhất, chúng ta sẽ xây dựng được mơ hình tốt nhất.
Sử dụng mơ hình này cho tồn bộ tập huấn luyện (training set), kể cả phần dữ liệu kiểm
chứng (validation set). Dịng lệnh trong weka như sau:
43
java weka.classifiers.functions.MultilayerPerceptron -L learningrate -H
hiddenUnits -t trainingSetPath -T validationSetPath –d modelFilePath
Trong đĩ:
Learningrate là tốc độ học tốt nhất đã được chọn
hiddenUnits là số các noron tầng ẩn tốt nhất đã được chọn
trainingSetPath là đường dẫn cho tập huấn luyện
validationSetPath đường dẫn cho tập đánh giá
modelFilePath đường dẫn cho mơ hình. Và sau nay ta sẽ sử dụng mơ
hình này để dự đốn
5.2.3. Chuyển kết quả cho stock hiển thị
Sau khi cĩ được mơ hình mạng noron với các tham số tốt nhất cho quá trình dự
đốn. Chúng ta sẽ tiến hành dự đốn với mỗi giá trị mới khi jstock thu về được và kết quả
dự đốn giá chứng khốn tiếp theo sẽ được hiện thị trên jstock.
5.3. Đánh giá với một số mơ hình khác
Trong phần này tơi xin giới thiệu sơ qua về hai mơ hình dự báo khác, và sẽ làm thực
nghiệm so sánh giữa hai mơ hình này với mơ hình mạng noron mà tơi đã xây dựng ở trên.
Mục đích là thấy được tính hiệu quả của mạng noron so với các mơ hình khác như thế
nào. Trong phần đánh giá này tơi sử dụng mười bộ dữ liệu, trong đĩ mỗi bộ gồm một tập
huấn luyện và một tập kiểm chứng cho cả ba mơ hình. Cách thức chung là tơi lần lượt
thực hiện mười lần học và đánh giá mơ hình lần lượt với mười bộ dữ liệu nĩi trên. Hàm
đánh giá được dùng sẽ là tỷ lệ lỗi trung bình bình phương (RMSE) mà đã được tơi giới
thiệu ở chương trước. Kết quả cuối cùng của hàm đánh giá là kết quả trung bình của mười
lần huấn luyện đĩ và được sử dụng để so sánh giữa các mơ hình với nhau.
Trước tiên tơi tiến hành thực hiện giải thuật để tìm được bộ tham số tốt nhất cho
mạng noron và sử dụng bộ tham số này cho các bộ dữ liệu ở trên ta thu được kết quả của
mạng noron như sau:
44
Các lần huấn luyện Giá trị hàm đánh giá (RMSE)
Lần 1 0.5035
Lần 2 0.5008
Lần 3 0.4978
Lần 4 0.3694
Lần 5 0.3031
Lần 6 0.4693
Lần 7 0.4197
Lần 8 0.3831
Lần 9 0.4313
Lần 10 0.4978
Trung bình 0.43758
Bảng 5.1 – Huấn luyện mạng noron
Kết quả này sẽ được đùng để so sánh với các mơ hình dưới đây:
5.3.1. Mơ hình cây quyết định
a. Định nghĩa
Cây quyết định (decision tree) là một trong những hình thức mơ tả dữ liệu trực quan
nhất, dễ hiểu nhất đối với người dùng. Trong lĩnh vực học máy, cây quyết định là một
kiểu mơ hình dự báo (prediction model), nghĩa là ánh xạ từ các quan sát về một sự
vật/hiện tượng tới các kết luận về giá trị mục tiêu của sự vật/hiện tượng.
b. Cấu trúc
Một cây quyết định là một sơ đồ cĩ cấu trúc dạng cây bao gồm các nút và các
nhánh.
Nút dưới cùng được gọi là nút lá, trong mơ hình phân lớp dữ liệu chính là các giá trị
của các nhãn lớp (gọi tắt là nhãn). Các nút khác nút lá được gọi là các nút con, đây cịn là
các thuộc tính của tập dữ liệu, hiển nhiên các thuộc tính này phải khác thuộc tính phân
lớp.
45
Mỗi một nhánh của cây xuất phát từ một nút p nào đĩ ứng với một phép so sánh dựa
trên miền giá trị của nút đĩ. Nút đầu tiên được gọi là nút gốc của cây
Hình 5.5 – Mơ hình cây quyết định
Cây quyết định cĩ thể được mơ tả như là sự kết hợp của các kỹ thuật tốn học và
tính tốn nhằm hỗ trợ việc mơ tả, phân loại và tổng quát hĩa một tập dữ liệu cho trước
Dữ liệu được cho dưới dạng các bản ghi cĩ dạng:
(x, y) = (x1, x2, x3….xk, y)
Biến phụ thuộc y là biến mà chúng ta cần tìm hiểu, phân loại hay tổng quát hĩa x1,
x2, x3…. là các biến sẽ giúp ta thực hiện cơng việc đĩ
c. Thực nghiệm với mơ hình cây quyết định
Trong weka mơ hình cây quyết định được thực hiện bởi dịng lệnh:
weka.classifiers.trees.J48
Dựa trên một vài thực nghiệm về cây quyết định trên các tập huấn luyện và kiểm
chứng khác nhau rồi tổng hợp những kết quả thu được tơi nhận thấy rằng với tham số C =
0.25 và M = 3 thì sẽ thu được mơ hình cây quyết định với độ chính xác khá tốt. Thực hiện
tính tốn với cây quyết trên mười bộ dữ liệu ta cĩ bảng thống kê kết quả như sau:
46
Các lần huấn luyện Giá trị hàm đánh giá (RMSE)
Lần 1 0.4946
Lần 2 0.5107
Lần 3 0.4938
Lần 4 0.5016
Lần 5 0.3239
Lần 6 0.4766
Lần 7 0.4716
Lần 8 0.4821
Lần 9 0.5774
Lần 10 0.4993
Giá trị trung bình 0.48316
Bảng 5.2 – Huấn luyện cây quyết định
5.3.2. Mơ hình phân lớp xác suất ngây thơ nạve bayes
Bộ phân lớp bayes là bộ phân lớp đơn giản mà dựa trên lý thuyết bayes.
a. Thuật tốn nạve bayes và cơng thức phân lớp
Định lý bayes: P(A/B) = (/)∗()()
Giả sử:
D là tập dữ liệu huấn luyện
C i,D là tập các mẫu thuộc D của lớp Ci
Ci là một lớp trong tập dữ liệu
X = là điều kiện độc lập
Ta cĩ cơng thức:
P(Ci/X) =
(|)∗()()
Vì các xi là độc lập nên ta cĩ:
47
P(X|Ci) = ∏ ܲ(ݔ|ܥ) = ܲ(ݔଵ|ܥ). ܲ(ݔଶ|ܥ)… . . ܲ(ݔ|ܥ) ୀଵ
P(Ci) =
|,ವ||| , P(xk|Ci) =
,ವ{௫ೖ}|,ವ|
Trong đĩ Ci,D{xk}: số mẫu Ci thỏa mãn điều kiện xk
Trong trường hợp P(xk|Ci) = 0 ta cĩ thể áp dụng cơng thức làm trơn laplace:
P(Ci) =
ห,ವหା ଵ||ା , P(xk|Ci) =
,ವ{௫ೖ}ା ଵห,ವหା
M : là số mẫu (lớp), r là số giá trị rời rạc của thuộc tính
Luật phân lớp: X sẽ được cho vào lớp mà cĩ giá trị cơng thức sau là lớn nhất:
ܲ(ܥ) ∗ෑܲ(ݔ|ܥ)
ୀଵ
b. Thực nghiệm với mơ hình nạve bayes
Thực nghiệm với mơ hình nạve bayes trong weka bằng dịng lệnh:
weka.classifiers.bayes.NaiveBayes
với mười bộ dữ liệu nĩi ở trên ta thu được bảng kết quả sau:
48
Các lần huấn luyện Giá trị hàm đánh giá (RMSE)
Lần 1 0.7467
Lần 2 0.6868
Lần 3 0.6633
Lần 4 0.744
Lần 5 0.3333
Lần 6 0.4823
Lần 7 0.7568
Lần 8 0.6733
Lần 9 0.7796
Lần 10 0.6344
Giá trị trung bình 0.58309
Bảng 5.3 – Huấn luyện nạve bayes
Căn cứ vào những kết quả thu được ở trên ta lập bảng sơ sánh giữa các mơ hình như
sau:
Đại lượng
đánh giá
Mơ hình mạng
nơ ron
Mơ hình cây
quyết định
Mơ hình
nạve bayes
RMSE 0.43758 0.48316 0.58039
Bảng 5.4 – So sánh các mơ hình
Từ bảng so sánh trên cho thấy cả hai mơ hình ở trên đều cho kết quả với độ chính
xác khơng cao bằng mơ hình mạng noron mà tơi đã xây dựng ở trên.
49
Chương 6. KẾT LUẬN
Trong khĩa luận này, bước đầu tơi đã tìm hiểu được lĩnh vực khai phá dữ liệu cùng
các vấn đề liên quan đến khai phá dữ liệu nĩi chung, và cơ sở lý thuyết của mạng noron
cũng như là thuật tốn lan truyền ngược (back-propagation) thực hiện việc học cho mạng
noron để áp dụng vào bài tốn dự báo giá chứng khốn nĩi riêng. Từ những cơ sở lý
thuyết đĩ tơi đã tiến hành:
- Xây dựng cho mình một mơ hình mạng noron dựa theo tám bước: chọn lựa
các biến, thu thập dữ liệu, tiền xử lý dữ liệu, phân hoạch dữ liệu, xác định cấu
trúc mạng, xác định tiêu chuẩn đánh giá, huấn luyện mạng, thực thi trong
thực tế
- Xây dựng thuật tốn lựa chọn được bộ tham số tốt nhất cho mạng noron
nhằm tạo ra một mơ hình với độ chính xác cao.
- Áp dụng mơ hình thu được để xây dựng phần mềm dự báo giá chứng khốn
dựa trên sự kết hợp từ hai phần mềm mã nguồn mở là Jstock và Weka.
- Cuối cùng tơi so sánh mơ hình mạng noron mà tơi đã xây dựng với hai mơ
hình khác là mơ hình cây quyết định và mơ hình nạve bayes. Kết quả thu
được từ sự so sánh này cho thấy mơ hình mạng noron là tốt hơn, nên bước
đầu phản ánh quá trình xây dựng mơ hình của tơi là cĩ hiệu quả.
Tuy nhiên do thời gian thực hiện khĩa luận khơng đủ dài nên bên cạnh những điều
đã làm được ở trên thì vẫn cịn tồn tại một số điểm chưa đạt và cần bổ sung:
- Thuật tốn tối ưu tham số mà tơi sử dụng trong luận văn chưa thực sự tốt,
mặc dù nĩ chạy khá chính xác nhưng lại chạy rất chậm nên chỉ áp dụng được
trong khơng gian các tham số khá nhỏ. Để khắc phục điều này cĩ thể sử dụng
thuật tốn sử dụng gradient (gradient descent), thuật tốn di truyền (General
Algorithm ) …
- Việc thu thập dữ liệu từ Jstock là online nhưng việc xây dựng và tiến hành
học mơ hình là offline. Để làm tăng độ chính xác của việc dự đốn lên nữa cĩ
thể chuyển việc học sang học trực tuyến (online learning).
- Giao diện xây dựng của mềm phần cịn tương đối đơn giản, mới chỉ chọn một
vài mẫu chứng khốn làm thử nghiệm. Sau này cần xây dựng giao diện cĩ sự
tương tác với người dùng.
50
TÀI LIỆU THAM KHẢO
Tài liệu tham khảo tiếng việt
[1] Hà Quang Thụy. Giáo trình khai phá dữ liệu web. Nhà xuất bản giáo dục, 2009, tr.
1 - 38
[2] Ứng dụng mạng noron cho vấn đề nhận dạng tiếng nĩi.
tiet-tai-lieu/ung-dung-mang-neuron-cho-van-de-nhan-dang-tieng-noi-149-
trang/2227.html, tr. 1 - 49
Tài liệu tham khảo tiếng anh
[3] Ben Krose, Patrick van der smagt. An introduction to neural networks. University
of Amsterdam, 1996, tr 1 – 47.
[4] Luis Torgo (2003). Data Mining with R: learning by case studies. LIACC-FES,
University of Porto – Portugar.1 – 3, 79 – 110
[5] Iebeling Kaastra, Milton Boyd (1995). Designing a neural network for forecasting
financial and economic time series. University of Manitoba – Canada.
[6] Freeman J.A. and Skapura D.M. (1991). Neural Networks - Algorithms,
Applications and Programming Techniques. Addison Wesley, tr.89-124.
[7] J.O. Katz. Developing neural network forecaster for trading. Technical Analysis of
Stocks and Commodities. April 1992. Tr 58-70
[8] Ian H. Witten and Eibe Frank. Data mining – practical machine learning tools and
techniques. Morgan Kaufmann, 2005
[9]
forecasting-financial-time-series/
[10]
[11]
[12]
[13]
Các file đính kèm theo tài liệu này:
- LUẬN VĂN- NGUYÊN CỨU VÀ XÂY DỰNG HỆ THỐNG QUẢN LÝ VÀ DỰ ĐOÁN XU THẾ GIÁ CHỨNG KHOÁN DỰA TRÊN NỀN TẢNG MÃ NGUỒN MỞ.pdf