Tài liệu Luận văn Nghiên cứu, khai thác kho dữ liệu điểm tại trường đại học sư phạm kỹ thuật Hưng Yên dựa trên bộ công cụ bi của hệ quản trị csdl sql server 2008: ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
TRỊNH THỊ NHỊ
NGHIÊN CỨU, KHAI THÁC KHO DỮ LIỆU ĐIỂM
TẠI TRƯỜNG ĐẠI HỌC SPKT HƯNG YÊN
DỰA TRÊN BỘ CÔNG CỤ BI
CỦA HỆ QUẢN TRỊ CSDL SQL SERVER 2008
LUẬN VĂN THẠC SĨ
Hà Nội - 2011
-2-
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
TRỊNH THỊ NHỊ
NGHIÊN CỨU, KHAI THÁC KHO DỮ LIỆU ĐIỂM
TẠI TRƯỜNG ĐẠI HỌC SPKT HƯNG YÊN
DỰA TRÊN BỘ CÔNG CỤ BI
CỦA HỆ QUẢN TRỊ CSDL SQL SERVER 2008
Ngành: CÔNG NGHỆ THÔNG TIN
Chuyên ngành: HỆ THỐNG THÔNG TIN
Mã số: 60 48 05
LUẬN VĂN THẠC SĨ
Người hướng dẫn khoa học
TS. NGUYỄN HÀ NAM
Hà Nội - 2011
-3-
LỜI CAM ĐOAN
Tôi xin cam đoan rằng, đây là công trình nghiên cứu của tôi, trong đó có sự giúp
đỡ rất lớn và đầy nhiệt tình của thầy hướng dẫn, các thầy/cô ở Khoa CNTT – Trường
Đại học Công nghệ và các đồng nghiệp nơi tôi đang làm việc. Các nội dung nghiên
cứu và kết quả trong đề tài này là hoàn toàn trung thực.
Trong luận văn, tôi có tham khảo đến một số t...
65 trang |
Chia sẻ: haohao | Lượt xem: 1165 | Lượt tải: 1
Bạn đang xem trước 20 trang mẫu tài liệu Luận văn Nghiên cứu, khai thác kho dữ liệu điểm tại trường đại học sư phạm kỹ thuật Hưng Yên dựa trên bộ công cụ bi của hệ quản trị csdl sql server 2008, để tải tài liệu gốc về máy bạn click vào nút DOWNLOAD ở trên
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CƠNG NGHỆ
TRỊNH THỊ NHỊ
NGHIÊN CỨU, KHAI THÁC KHO DỮ LIỆU ĐIỂM
TẠI TRƯỜNG ĐẠI HỌC SPKT HƯNG YÊN
DỰA TRÊN BỘ CƠNG CỤ BI
CỦA HỆ QUẢN TRỊ CSDL SQL SERVER 2008
LUẬN VĂN THẠC SĨ
Hà Nội - 2011
-2-
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CƠNG NGHỆ
TRỊNH THỊ NHỊ
NGHIÊN CỨU, KHAI THÁC KHO DỮ LIỆU ĐIỂM
TẠI TRƯỜNG ĐẠI HỌC SPKT HƯNG YÊN
DỰA TRÊN BỘ CƠNG CỤ BI
CỦA HỆ QUẢN TRỊ CSDL SQL SERVER 2008
Ngành: CƠNG NGHỆ THƠNG TIN
Chuyên ngành: HỆ THỐNG THƠNG TIN
Mã số: 60 48 05
LUẬN VĂN THẠC SĨ
Người hướng dẫn khoa học
TS. NGUYỄN HÀ NAM
Hà Nội - 2011
-3-
LỜI CAM ĐOAN
Tơi xin cam đoan rằng, đây là cơng trình nghiên cứu của tơi, trong đĩ cĩ sự giúp
đỡ rất lớn và đầy nhiệt tình của thầy hướng dẫn, các thầy/cơ ở Khoa CNTT – Trường
Đại học Cơng nghệ và các đồng nghiệp nơi tơi đang làm việc. Các nội dung nghiên
cứu và kết quả trong đề tài này là hồn tồn trung thực.
Trong luận văn, tơi cĩ tham khảo đến một số tài liệu của một số tác giả đã được
liệt kê tại phần tài liệu tham khảo ở cuối luận văn.
Hà Nội, ngày 12 tháng 05 năm 2011
Tác giả
Trịnh Thị Nhị
-4-
MỤC LỤC
BẢNG CÁC CHỮ VIẾT TẮT .....................................................................................6
DANH MỤC HÌNH VẼ VÀ BẢNG BIỂU ..................................................................7
Chương 1 - GIỚI THIỆU ...........................................................................................11
1.1. Nhu cầu xây dựng kho dữ liệu về điểm..............................................................11
1.1.1. Nhu cầu xây dựng kho dữ liệu về điểm của Đại học SPKT Hưng Yên: ..11
1.1.2. Phạm vi dự kiến của luận văn:................................................................12
1.2. Một số hướng nghiên cứu về kho dữ liệu trên thế giới và ở tại Việt Nam ............12
1.2.1. Một số hướng nghiên cứu về kho dữ liệu trên Thế giới .............................12
1.2.2. Một số hướng nghiên cứu về kho dữ liệu ở Việt Nam ...............................12
1.3. Hướng tiếp cận của luận văn và dự kiến kết quả đạt được .................................13
1.3.1. Hướng tiếp cận của luận văn .....................................................................13
1.3.2. Dự kiến kết quả đạt được ..........................................................................13
1.4. Cấu trúc của luận văn ........................................................................................13
1.5. Kết luận chương 1 .............................................................................................13
Chương 2 - KHO DỮ LIỆU VÀ CÁC VẤN ĐỀ LIÊN QUAN..................................14
2.1. Cơ sở lý thuyết..................................................................................................14
2.1.1. Một số khái niệm về kho dữ liệu ...............................................................14
2.1.2. Mơ hình dữ liệu sử dụng trong kho ...........................................................19
2.1.4. Các bước xây dựng kho dữ liệu.................................................................21
2.2. Khai phá dữ liệu..................................................................................................27
2.2.1. Khái niệm về khai phá dữ liệu...................................................................27
2.2.2. Khuynh hướng phát triển của lĩnh vực khai phá dữ liệu ............................28
2.3. Giới thiệu bộ cơng cụ BI trong hệ quản trị cơ sở dữ liệu SQL 2008 ....................29
2.3.1. Business Intelligence (BI) .........................................................................29
2.3.2. Dịch vụ phân tích ......................................................................................29
2.3.3. Dịch vụ báo cáo ........................................................................................39
2.4. Kết luận chương 2...............................................................................................40
Chương 3 - XÂY DỰNG KHO DỮ LIỆU ĐIỂM CỦA SINH VIÊN.........................41
3.1 Hiện trạng dữ liệu và nhu cầu xây dựng kho dữ liệu.............................................41
3.2. Xây dựng kho dữ liệu điểm của sinh viên............................................................42
3.2.1. Thơng tin về dữ liệu điểm .........................................................................42
3.2.2 Kiến trúc của kho dữ liệu ...........................................................................46
3.2.3. Các chiều dữ liệu ......................................................................................47
3.2.4. Các bước cài đặt vật lý kho dữ liệu ...........................................................48
3.3. Xây dựng báo cáo từ kho dữ liệu phục vụ quản lý ...............................................49
3.3.1. Yêu cầu báo cáo........................................................................................49
3.3.2. Lợi ích của báo cáo trong BI .....................................................................49
-5-
3.3.3. Xây dựng báo cáo và đưa ra kết quả..........................................................50
3.3.4. Tính ưu việt của báo cáo xây dựng từ kho dữ liệu .....................................55
3.4. Kết luận chương 3...............................................................................................56
Chương 4 - KHAI THÁC DỮ LIỆU TỪ KHO DỮ LIỆU..........................................57
4.1. Ứng dụng kỹ thuật KPDL để dự báo, dự đốn.....................................................57
4.1.1. Yêu cầu dự báo, dự đốn xu thế ................................................................57
4.1.2. Ưu điểm của một số thuật tốn khai phá trong BI......................................58
4.2. Xây dựng mơ hình dự báo dựa trên Data Mining Tool ........................................58
4.2.1. Khảo sát dự đốn kết quả học tập của sinh viên ........................................58
4.2.2. Phân tích kết quả đạt được ........................................................................63
4.3. Kết luận chương 4...............................................................................................63
KẾT LUẬN – HƯỚNG PHÁT TRIỂN......................................................................64
Các mục tiêu đã thực hiện trong luận văn...................................................................64
Hướng phát triển ........................................................................................................64
TÀI LIỆU THAM KHẢO..........................................................................................65
-6-
BẢNG CÁC CHỮ VIẾT TẮT
Viết tắt Tên đầy đủ
BI Business Intelligence
CSDL Cơ sở dữ liệu
CNTT Cơng nghệ thơng tin
HSSV Học sinh - sinh viên
HOLAP Hybrid Online Analytical Processing
KPDL Khai phá dữ liệu
MOLAP Multidimensional Online Analytical Processing
OLAP Online Analytical Processing
ROLAP Relational - Online Analytical Processing
SQL Structured Query Language
SPKT Sư phạm Kỹ thuật
T - SQL Transact - Structured Query Language
-7-
DANH MỤC HÌNH VẼ VÀ BẢNG BIỂU
Hình 2.1 - Dịng dữ liệu trong kho dữ liệu.................................................................15
Hình 2.2 – Sơ đồ hình sao..........................................................................................17
Hình 2.3 – Sơ đồ bơng tuyết ......................................................................................19
Hình 2.4 - Kiến trúc 3 tầng hệ thống kho dữ liệu........................................................20
Hình 2.5 – Ví dụ về mơ hình dữ liệu 3 chiều..............................................................24
Hình 2.6 – Mơ tả chi tiết các bước của quá trình khám phá tri thức............................28
Hình 2.7 - Cấu trúc của dịch vụ phân tích ..................................................................30
Hình 2.8 – Các thành phần của BI................................................................................1
Hình 2.9 - Ví dụ dữ liệu đầu vào phân tích thuật tốn Cây quyết định........................33
Hình 2.10 – Entrophy cho thuộc tính “Quê quán” ......................................................33
Hình 2.11 – Entrophy cho thuộc tính “Điểm vào”......................................................34
Hình 2.12 – Entrophy cho thuộc tính “Kinh tế”..........................................................34
Hình 2.13 – Entrophy cho thuộc tính “Giới tính” .......................................................34
Hình 2.14 - Chọn nút phân nhánh của cây....................................................................1
Hình 2.15 – Bảng dữ liệu đầu vào con .......................................................................35
Hình 2.16 – Entrophy cho thuộc tính “Điểm vào”......................................................35
Hình 2.17 – Entrophy cho thuộc tính “Kinh tế”..........................................................35
Hình 2.18 – Entrophy cho thuộc tính “giới tính” ........................................................35
Hình 2.19 - Cây quyết định kết quả..............................................................................1
Hình 2.20 – Tính xác suất cho các thuộc tính .............................................................37
Hình 3.1 - Bảng tổng hợp kết quả học tập của một lớp ...............................................43
Hình 3.2 - Lược đồ thực thể - mối quan hệ của CSDL điểm sinh viên........................43
Hình 3.3 - Lược đồ CSDL điểm sinh viên dưới dạng quan hệ ....................................44
Hình 3.4 - Bảng các dữ liệu liên quan đến kho dữ liệu về điểm..................................45
Hình 3.5 - Chuẩn hĩa, tối ưu dữ liệu làm nguồn cho kho dữ liệu điểm .......................46
Hình 3.6 – Nguồn của kho dữ liệu về điểm ................................................................47
Hình 3.7 – Các chiều của khối DiemSV-20-4 ............................................................48
Hình 3.8 – Kho dữ liệu về điểm của sinh viên............................................................49
Hình 3.9 - Cửa sổ tạo Report Server Project...............................................................50
Hình 3.10- Cửa sổ thiết lập kết nối.............................................................................51
Hình 3.11- Cửa sổ tạo Report Server Project..............................................................51
Hình 3.12 – Hiển thị kết quả của báo cáo thơng thường dạng bảng ............................52
Hình 3.13- Báo cáo lực học của sinh viên thuộc mỗi khĩa học dạng cột ....................52
Hình 3.14 – Báo cáo thống kê số lượng về giới tính dạng thanh.................................53
Hình 3.15 – Báo cáo điểm vào trung bình của sinh viên dạng hình dáng. ...................54
Hình 3.16 – Theo dõi điểm tốn của sinh viên khĩa k03 dạng Line............................54
Hình 3.17 – Theo dõi điểm tổng kết của sinh viên khĩa k03 dạng Line......................54
Hình 3.18 – Học lực của sinh viên theo kỳ học ..........................................................55
-8-
Hình 4.1 – Cấu trúc mơ hình dùng cho các thuật tốn: Decision Tree, Nạve Bayes,
Neural Network ..................................................................................................58
Hình 4.2 – Mơ hình khai phá cho 3 thuật tốn............................................................59
Hình 4.3 – Cây phân nhánh khi dùng thuật tốn Decision Tree ..................................59
Hình 4.4 – Cây khơng phân nhánh khi dùng thuật tốn cây quyết định ......................59
Hình 4.5 – Mạng phụ thuộc khi dùng thuật tốn Decision Tree..................................59
Hình 4.6 – Mạng phụ thuộc khi dùng thuật tốn Nạve Bayes ....................................60
Hình 4.7 – Đặc điểm của các thuộc tính khi dùng thuật tốn Nạve Bayes .................60
Hình 4.8 – Đặc trưng của thuộc tính học lực là khá khi dùng thuật tốn Nạve Bayes 60
Hình 4.9 – Biểu đồ dự báo về học lực trung bình của sinh viên khi dùng 3 thuật tốn 61
Hình 4.10 – Ma trận phân lớp khi dùng ba thuật tốn.................................................61
Hình 4.11 – Xây dựng mơ hình dự đốn cho thuật tốn Nạve Bayes .........................62
Hình 4.12 – Kết quả dự đốn khi dùng thuật tốn Nạve Bayes..................................62
-9-
LỜI CẢM ƠN
Trước tiên tơi xin được bày tỏ sự trân trọng và lịng biết ơn sâu sắc đối với TS.
Nguyễn Hà Nam - Phĩ phịng đào tạo - giảng viên Bộ mơn Hệ thống thơng tin - Khoa
Cơng nghệ thơng tin - Trường Đại học Cơng nghệ - ĐHQGHN. Trong thời gian học và
làm luận văn tốt nghiệp, Thầy đã dành nhiều thời gian qúi báu và tận tình chỉ bảo,
hướng dẫn tơi trong việc nghiên cứu, thực hiện luận văn. Trong thời gian làm việc với
Thầy, tơi khơng những học hỏi được nhiều kiến thức bổ ích mà cịn học được tinh thần
làm việc, thái độ nghiên cứu khoa học nghiêm túc của Thầy.
Tơi xin được cảm ơn PGS.TS Hà Quang Thụy và các Thầy/Cơ ở Khoa Cơng
nghệ thơng tin – Trường Đại học Cơng nghệ đã giảng dạy chúng tơi trong quá trình
học tập và gĩp ý cho tơi hồn thiện trong quá trình làm luận văn. Tơi cũng xin được
cảm ơn PGS.TS Nguyễn Quang Hoan đang cơng tác tại khoa Cơng nghệ thơng tin –
Trường đại học SPKT Hưng yên đã tận tình gĩp ý cho luận văn của tơi. Các thầy đã
giúp tơi tiếp thu được những kiến thức bổ ích trong lĩnh vực mà mình nghiên cứu để
cĩ thể vận dụng các kiến thức đĩ vào trong trường - nơi tơi đang làm việc.
Xin cảm ơn các bạn bè, đồng nghiệp và đặc biệt là các thành viên trong gia đình
đã tạo mọi điều kiện tốt nhất, động viên tơi trong suốt quá trình học tập và nghiên cứu
để hồn thành tốt bản luận văn tốt nghiệp này.
Mặc dù đã cố gắng hồn thiện luận văn với tất cả sự nỗ lực của bản thân, nhưng
chắc chắn khơng thể tránh khỏi những thiếu sĩt. Kính mong quý Thầy/Cơ tận tình chỉ
bảo.
Tác giả
-10-
LỜI MỞ ĐẦU
Trong nhiều năm gần đây, CNTT đã được ứng dụng rất rộng rãi trong nhiều
lĩnh vực khác nhau như kinh doanh, giáo dục, nơng nghiệp, y học…Trong lĩnh vực
giáo dục, phần lớn các trường đã xây dựng được CSDL sinh viên để lưu trữ hồ sơ lý
lịch, quá trình học tập, rèn luyện của HSSV. Trên CSDL đĩ đã cĩ nhiều nghiên cứu,
đánh giá về kết quả thi tuyển sinh, kết quả học tập, rèn luyện của HSSV nhưng mới chỉ
dừng lại ở mức độ đơn giản, việc sinh ra các báo báo vẫn hồn tồn thực hiện một các
thủ cơng, thống kê kết quả học tập của HSSV mới chỉ thực hiện ở phần mềm excel tốn
rất nhiều cơng sức nhưng chưa cĩ nhiều nghiên cứu về sự ảnh hưởng giữa kết quả
tuyển sinh, kết quả của từng mơn học, giới tính… với kết quả học tập của
HSSV.Thơng qua đĩ dự báo, dự đốn kết quả học tập của HSSV. Nhằm gĩp phần trợ
giúp các nhà quản lý cĩ những quyết định nhanh, phù hợp để phát huy cái mới tích
cực, hạn chế, ngăn chặn những sai sĩt trong cơng tác quản lý đào tạo. Do đĩ, việc
nghiên cứu vấn đề nêu trên cĩ vai trị rất quan trọng.
Trường Đại học SPKT Hưng Yên nằm trong hệ thống các trường đại học thuộc
GD&ĐT, đào tạo nhiều ngành nghề với nhiều hình thức đào tạo và nhiều hệ đào tạo
khác nhau. Trường được phát triển trên cơ sở từ trường Cao đẳng SPKT Hưng Yên với
bề dày hơn 35 năm. Kết quả học tập của HSSV là cơ sở để phịng Đào tạo phối hợp
với các phịng, ban, khoa tổ chức năng đánh giá chất lượng người dạy và người học,
báo cáo trình bộ giáo dục, từ đĩ trợ giúp cho Ban Giám hiệu nhà trường về định hướng
đào tạo, kế hoạch chuyên mơn, chỉ tiêu tuyển sinh các khĩa tiếp theo…Hai năm gần
đây, bộ giáo dục đã triển khai cho nhiều trường đại học sử dụng đồng bộ nhiều phần
mềm cho cơng tác đào tạo như Edusoft: lập thời khĩa biểu, quản lý hồ sơ sinh viên,
quản lý điểm,…bước đầu đã thống nhất được các biểu mẫu, bảng điểm. Bên cạnh,
trường cũng đã cĩ nhiều phần mềm tiện ích khác: Quản lý vật tư, quản lý thực tập của
sinh viên…Tuy nhiên những phần mềm này vẫn chưa giải quyết được câu trả lời về sự
ảnh hưởng giữa kết quả tuyển sinh, kết quả của từng mơn học, giới tính… với kết quả
học tập của HSSV. Đây là một nhiệm vụ quan trọng trong cơng tác quản lý đào tạo,
thu hút nhân tài. Hơn nữa, lượng HSSV thi vào trường ngày một đơng, trường cĩ 3 cơ
sở với tổng diện tích sàn trên 30 ha, đây là thuận lợi và cũng là vấn đề lo lắng của
trường trong việc lưu trữ dữ liệu, sinh ra các báo cáo nhiều chiều và đưa ra chiến lược
đào tạo hàng năm. Do đĩ, địi hỏi phải cĩ nghiên cứu về vấn đề này để cải thiện tình
hình quản lý đào tạo của trường cũng như giúp cho trường ngày một phát triển và thích
ứng với trào lưu tin học hĩa, và ngang tầm với các trường cĩ bề dày lịch sử trong nước
và quốc tế.
Xuất phát từ vấn đề trên, chúng tơi thực hiện đề tài luận văn “Nghiên cứu, khai
thác kho dữ liệu điểm tại trường Đại học SPKT Hưng Yên dựa trên bộ cơng cụ BI của
Hệ quản trị CSDL SQL Server 2008”. Với mong muốn gĩp phần trợ giúp, ra quyết
định cho cơng tác quản lý đào tạo của trường Đại học SPKT Hưng Yên nĩi riêng và
các trường chuyên nghiệp nĩi chung.
-11-
Chương 1 - GIỚI THIỆU
1.1. Nhu cầu xây dựng kho dữ liệu về điểm.
1.1.1. Nhu cầu xây dựng kho dữ liệu về điểm của Đại học SPKT Hưng Yên:
Theo báo cáo kế hoạch năm 2011 và 5 năm 2011- 2015, Về tốc độ tăng trưởng
quy mơ học sinh, sinh viên 5 năm 2006 – 2010, dựa trên kế hoạch tuyển sinh bộ
GD&ĐT giao hàng năm, nhà trường đã thực hiện tuyển sinh các trình độ, loại hình đào
tạo đảm bảo chi tiêu chất lượng, tỷ lệ bình quân các năm tăng ~16,5 %, quy mơ học
sinh sinh viên tăng nhanh vào những năm cuối của kế hoạch 5 năm 2006-2010. Trong
5 năm qua Nhà trường đã xin phép để mở mới được 06 ngành đào tạo ở trình độ đại
học: Cơng nghệ Cơ điện tử, Cơng nghệ kỹ thuật hĩa học, Cơng nghệ kỹ thuật mơi
trường, Kế tốn, Tiếng Anh và Cơng nghệ cơ điện. Xây dựng và thực hiện đào tạo
nhiều chuyên ngành mới đưa tổng số chuyên ngành đào tạo của trường lên là 29, Tính
đến tháng 6/2010 tổng số CBVC của trường là hơn 600. Trường cịn mở thêm nhiều
ngành mới ở trình độ đại học: Cơng nghệ vật liệu, Tài chính – Ngân hàng, Tiếng
Trung Quốc, Hàn Quốc. Quy mơ đào tạo: tăng nhanh cả về số lượng lẫn chất lượng,
năm 2010 số lượng sinh viên trên tồn trường là hơn 16000 sinh viên, dự kiến năm
2011, số lượng sinh viên sẽ tăng lên gần 18000 sinh viên với tất cả các hệ đào tạo và
ngành nghề khác nhau trong tồn trường.
- Đầu tư trang thiết bị: Trong giai đoạn 2011-2015 tập trung các nguồn vốn: Ngân sách
Nhà nước, vốn hợp pháp của Trường và các nguồn vốn khác đầu tư từ 25 tỷ35 tỷ mua
sắm trang thiết bị phục vụ đào tạo cho các khoa: Cơng nghệ thơng tin, Cơng nghệ Hố
học và Mơi trường, Kinh tế, May và Thiết kế thời trang, Cơ khí, cơ khí động lực, Cơ
điện tử, Điện - Điện tử, Sư phạm kỹ thuật và đặc biệt ngành Cơng nghệ vật liệu.
Tính trung bình, số lượng máy tính sử dụng tốt trong tồn trường là hơn 600
máy tính. Tuy nhiên, số máy tính này vẫn khai thác chưa triệt để, chủ yếu vẫn là phục
vụ cho cơng tác dạy học, soạn thảo văn bản đơn giản, chưa lưu trữ các phần mềm quản
lý, các tiện ích. Hiện tại, việc lưu trữ dữ liệu về sinh viên mới chỉ ở mức đơn giản trên
excel, các mẫu biểu giữa các khoa chưa được thống nhất dẫn đến việc tổng hợp và báo
cáo chưa được thuận lợi và chính xác. Để khắc phục nhược điểm này, nhà trường đã
cĩ chiến lược chuẩn bị cho việc tổ chức và lưu trữ dữ liệu được tốt, bằng các quy định
về các mẫu biểu, thống nhất các quy trình, bước đầu, đã triển khai các phần mềm xếp
thời khĩa biểu, quản lý sinh viên, quản lý điểm sinh viên. Nên việc quản lý, lưu trữ các
thơng tin cĩ nhiều bất cập, nguy cơ thất lạc và mất mát cao dẫn đến việc xử lý các
thơng tin liên quan gặp nhiều khĩ khăn.
Như vậy, với sự phát triển nhanh chĩng về số lượng sinh viên qua các năm, một
vấn đề quan tâm là việc lưu trữ dữ liệu về chương trình đào tạo, thời khĩa biểu, thơng
tin sinh viên và các thơng tin về điểm của sinh viên để việc tìm kiếm nhanh và cĩ hiệu
quả. Và quan trọng hơn là việc tìm ra những dữ liệu tiềm ẩn qua các năm, định ra
-12-
hướng mở rộng và phân bổ số lượng sinh viên hợp lý ở các ngành nghề khác nhau,
phục vụ cho việc tổng hợp, báo cáo, dự đốn. Do đĩ, nhu cầu chuẩn bị xây dựng một
kho dữ liệu là cần thiết và cấp bách. [5]
1.1.2. Phạm vi dự kiến của luận văn:
Trong khuơn khổ giới hạn của luận văn, chúng tơi xin trình bày:
Tìm hiểu cơ sở lý thuyết kho dữ liệu, một số thuật tốn KPDL.
Xây dựng kho dữ liệu điểm trường Đại học SPKT Hưng Yên.
Thiết kế báo cáo đa chiều.
Sử dụng một số thuật tốn KPDL để giải quyết bài tốn dự đốn.
1.2. Một số hướng nghiên cứu về kho dữ liệu trên thế giới và ở tại Việt Nam
1.2.1. Một số hướng nghiên cứu về kho dữ liệu trên Thế giới
Về các hướng nghiên cứu kho dữ liệu trên Thế giới thì về cơ bản vẫn là để phục
vụ cho mục tiêu xây dựng báo cáo của cơng ty. Tuy nhiên, mức độ khĩ dễ cĩ thể khác
nhau, do đĩ độ phức tạp của kho dữ liệu cũng khác nhau. Một số nơi cĩ thế cĩ các ứng
dụng cao cấp hơn chẳng hạn KPDL hoặc tích hợp hệ thống. Ngày nay, thế giới đang
quan tâm đến: kho dữ liệu thời gian thực, OLAP mining, mobile OLAP, thơng qua
những bài tốn khai phá dữ liệu: phân lớp, gom cụm, dự báo để để tìm kiếm các mẫu
mới, những thơng tin tiềm ẩn mang tính dự đốn trong các khối dữ liệu lớn. Những
cơng cụ khai phá dữ liệu cĩ thể phát hiện những xu hướng trong tương lai, các tri thức
mà khai phá dữ liệu mang lại cho các doanh nghiệp cĩ thể ra các quyết định kịp thời
và trả lời những câu hỏi trong lĩnh vực kinh doanh mà trước đây tốn nhiều thời gian để
xử lý [18].
1.2.2. Một số hướng nghiên cứu về kho dữ liệu ở Việt Nam
Ở Việt nam đa phần cũng là xây dựng các báo cáo. [11]
Khai phá dữ liệu trong kho dữ liệu ở mơi trường kinh doanh đầy tính cạnh tranh
ngày nay và được ứng dụng rộng rãi trong các lĩnh vực thương mại, tài chính, điều trị
y học, giáo dục, viễn thơng,…[6]
Hệ hỗ trợ quyết định - Đây cĩ thể nĩi là mục tiêu quan trọng nhất của doanh
nghiệp khi xây dựng kho dữ liệu. Một doanh nghiệp trước khi xây dựng kho dữ liệu,
nên tự đặt câu hỏi liệu kho dữ liệu đĩ cĩ giúp ích gì trong việc ra quyết định kinh
doanh của doanh nghiệp khơng. [11]
Kho dữ liệu nên được xây dựng từ trên yêu cầu nghiệp vụ. Một số các nhà lãnh
đạo doanh nghiệp ngày nay ra quyết định dựa trên dữ liệu. Điều này cĩ được là do sử
dụng báo cáo và OLAP. Báo cáo được sử dụng để đưa ra số liệu kinh doanh đã tổng
hợp trong kho dữ liệu tới những người kinh doanh [6]. Thường thì các yêu cầu này liên
quan đến việc sử dụng các số liệu tổng hợp, chẳng hạn count, sum, max, min,
average... Thường thì người ta sử dụng các số liệu kiểu này để phân tích xu hướng.
[11]
-13-
Sacombank là ngân hàng TMCP Việt Nam đầu tiên vừa chính thức cơng bố
triển khai thành cơng dự án kho dữ liệu– giải pháp kho dữ liệu tập trung hỗ trợ cơng
tác dự báo, phân tích và ra quyết định kinh doanh trong thời gian nhanh nhất được xây
dựng dựa trên nền tảng cơng nghệ Oracle - lần đầu tiên triển khai thành cơng tại Việt
Nam. Điều này là minh chứng cho tầm quan trọng của việc xây dựng một kho dữ liệu
trong hiện tại và tương lai với những lợi ích.[12]
Nhiều đề tài nghiên cứu khoa học, luận văn,…đã và đang được tiến hành về
kho dữ liệu.
1.3. Hướng tiếp cận của luận văn và dự kiến kết quả đạt được
1.3.1. Hướng tiếp cận của luận văn
Luận văn trình bày về vấn đề xây dựng kho dữ liệu về điểm và khai khác dữ
liệu từ kho dữ liệu đã xây dựng.
1.3.2. Dự kiến kết quả đạt được
Hiểu được các kiến thức về kho dữ liệu, KPDL, một số thuật tốn KPDL trong
bộ cơng cụ BI của hệ quản trị SQL Server 2008.
Xây dựng kho dữ liệu về điểm sinh viên phục vụ một mục tiêu cụ thể.
Thiết kế các báo cáo theo yêu cầu.
Sử dụng một số thuật tốn khai phá để dự đốn, ra quyết định nghiệp vụ cho
trường sở tại.
1.4. Cấu trúc của luận văn
Nội dung chính của luân văn gồm 4 chương, cụ thể như sau:
Chương 1 - Giới thiệu
Chương này trình bày về nhu cầu xây dựng kho dữ liệu về điểm của sinh viên,
một số hướng nghiên cứu của kho dữ liệu, mơ tả ngắn gọn hướng nghiên cứu của luận
văn.
Chương 2 - Kho dữ liệu và các vấn đề liên quan
Chương này trình bày cơ sở lý thuyết về kho dữ liệu, khai phá dữ liệu, giới
thiệu bộ cơng cụ sử dụng để làm thực nghiệm.
Chương 3 - Xây dựng kho dữ liệu về điểm của sinh viên
Chương này trình bày về việc xây dựng kho dữ liệu về điểm của trường Đại học
SPKT Hưng yên, thiết kế báo cáo đa chiều phục vụ cho việc ra quyết định.
Chương 4 - Khai thác dữ liệu từ kho dữ liệu
Chương này trình bày ứng dụng của một số thuật tốn khai phá dữ liệu trong
kho dữ liệu điểm của bộ cơng cụ BI.
1.5. Kết luận chương 1
Chương này trình bày:
Nhu cầu xây dựng kho dữ liệu điểm của Trường Đại học SPKT Hưng Yên.
Một số hướng nghiên cứu kho dữ liệu ở Việt Nam và trên thế giới.
Hướng tiếp cận của luận văn và dự kiến kết quả đạt được.
Cấu trúc luận văn.
-14-
Chương 2 - KHO DỮ LIỆU VÀ CÁC VẤN ĐỀ LIÊN QUAN
2.1. Cơ sở lý thuyết
2.1.1. Một số khái niệm về kho dữ liệu
Khái niệm kho dữ liệu
Theo William Inmon [1], kho dữ liệu là một bộ dữ liệu cĩ các đặc tính: hướng chủ đề,
cĩ tính tích hợp, ổn định, dữ liệu gắn với thời gian thường được sử dụng trong các hệ
thống hỗ trợ quyết định.
Kho dữ liệu thường bao gồm:
Một hoặc nhiều cơng cụ để chiết xuất dữ liệu từ các dạng cấu trúc dữ liệu khác
nhau.
Cơ sở dữ liệu tích hợp hướng chủ đề, ổn định được tổng hợp thơng qua việc lập
các bảng dữ liệu.
Một kho dữ liệu cĩ thể được coi là một hệ thống thơng tin với những thuộc tính sau:
Là một cơ sở dữ liệu được thiết kế dành cho nhiệm vụ phân tích, sử dụng các
dữ liệu từ các ứng dụng khác nhau.
Hỗ trợ cho một số người dùng cĩ liên quan, cĩ sử dụng tới các thơng tin liên
quan.
Nội dung được cập nhật thường xuyên, chủ yếu theo hình thức bổ sung thơng
tin.
Chứa các dữ liệu trong lịch sử và hiện tại nhằm cung cấp các xu hướng thơng
tin.
Chứa các bảng dữ liệu cĩ kích thước lớn.
Một câu hỏi thường trả về một tập kết quả liên quan đến tồn bộ bảng và các
liên kết nhiều bảng.
Các đặc tính của kho dữ liệu
Hướng chủ đề: Kho dữ liệu cĩ thể chứa lượng dữ liệu lên tới hàng trăm
Gigabyte, được tổ chức theo những chủ đề chính. Kho dữ liệu khơng chú trọng
vào giao tác và việc xử lý giao tác. Thay vào đĩ, kho dữ liệu tập trung vào việc
mơ hình hĩa, phân tích dữ liệu nhằm hỗ trợ cho nhà quản lý ra quyết định. Do
đĩ, các kho dữ liệu thường cung cấp một khung nhìn tương đối đơn giản bằng
cách loại bớt những dữ liệu khơng cần thiết trong quá trình ra quyết định.
Tính tích hợp: Kho dữ liệu thường được xây dựng bằng cách tổng hợp dữ liệu
từ nhiều nguồn khác nhau, ví dụ các cơ sở dữ liệu, những bản ghi giao tác trực
tuyến hoặc thậm chí là từ những file dữ liệu độc lập. Những dữ liệu này tiếp tục
được làm sạch, chuẩn hĩa để đảm bảo sự nhất quán, sau đĩ đưa vào kho dữ
liệu.
-15-
Ổn định: Dữ liệu trong kho dữ liệu thường được lưu trữ lâu dài, ít bị sửa đổi,
chủ yếu dùng cho việc truy xuất thơng tin nên cĩ độ ổn định cao. Hai thao tác
chủ yếu tác động tới kho dữ liệu là: nhập dữ liệu vào và truy xuất.
Dữ liệu gắn với thời gian: Do cĩ tính ổn định, kho dữ liệu thường lưu trữ dữ
liệu của hệ thống trong khoảng thời gian dài, cung cấp đủ số liệu cho các mơ
hình nghiệp vụ, dự báo, khảo sát những chỉ tiêu cần quan tâm.
Dịng dữ liệu trong kho dữ liệu [3]
Do kho dữ liệu chứa lượng dữ liệu lớn, đồng thời hạn chế thao tác sửa đổi nên rất
thích hợp cho việc phân tích dài hạn và báo cáo. Các thao tác với dữ liệu của kho dữ
liệu chủ yếu dựa trên cơ sở là Mơ hình dữ liệu đa chiều, thường áp dụng cho các khối
dữ liệu. Khối dữ liệu là trung tâm của vấn đề cần phân tích, bao gồm một hay nhiều
tập sự kiện và các sự kiện được tạo ra từ nhiều chiều dữ liệu khác nhau.
Hình 2.1 - Dịng dữ liệu trong kho dữ liệu.
Đầu tiên dữ liệu được lấy trong các hệ cơ sở dữ liệu tác nghiệp, cĩ thể ở nhiều
dạng khác nhau, dữ liệu được làm sạch, chuẩn hĩa rồi đưa vào kho dữ liệu, cuối cùng
dữ liệu được lấy từ kho dữ liệu phục vụ cho các phân tích khác nhau.
Ứng dụng của kho dữ liệu [1]
Kho dữ liệu được đưa vào ba mảng ứng dụng chính.
Theo như cách khai thác truyền thống đối với cơ sở dữ liệu, kho dữ liệu được sử
dụng để khai thác thơng tin bằng các cơng cụ thực hiện truy vấn và báo cáo. Nhờ việc
dữ liệu thơ đã được chuyển sang thành các dữ liệu ổn định, cĩ chất lượng nên kho dữ
liệu đã giúp nâng cao kỹ thuật biểu diễn thơng tin truyền thống. Với cách thứ hai, các
kho dữ liệu được sử dụng để hỗ trợ cho phân tích trực tuyến (OLAP). Trong khi ngơn
ngữ SQL và các cơng cụ xây dựng báo cáo truyền thống chỉ cĩ thể mơ tả những gì cĩ
-16-
trong cơ sở dữ liệu thì phân tích trực tuyến cĩ khả năng phân tích dữ liệu, xác định
xem giả thuyết đúng hay sai. Tuy nhiên, phân tích trực tuyến lại khơng cĩ khả năng
đưa ra được các giả thuyết. Ngồi ra, sử dụng OLAP cịn giúp phân tích tổng hợp dữ
liệu, đưa ra kết quả bằng các báo cáo hoặc bảng biểu trực quan.
Cách thứ ba để khai thác kho dữ liệu là dựa trên các kỹ thuật khai phá dữ liệu. Đây
là một phương pháp mới, đáp ứng được cả những yêu cầu trong nghiên cứu khoa học
cũng như yêu cầu trong thực tiễn. Các kết quả thu được mang nhiều tính dự báo, dự
đốn, dùng trong việc xây dựng kế hoạch, chiến lược.
Các lĩnh vực hiện tại áp dụng kho dữ liệu:
Thương mại điện tử.
Kế hoạch hố nguồn lực doanh nghiệp.
Quản lý quan hệ khách hàng.
Chăm sĩc sức khỏe.
Viễn thơng.
2.1.2. Mơ hình dữ liệu sử dụng trong kho
Mơ hình kho dữ liệu được phát sinh từ một mơ hình dữ liệu tổng thể. Một mơ
hình dữ liệu này là một bức tranh tổng thể mà các mơ hình khác cĩ thể hoạt động trên
đĩ. Nĩ được tổ chức thành các vùng theo chủ điểm, dịch vụ phân tích là phần chính
của sự chia nhỏ các cơng việc cần được quan tâm đáp ứng nhu cầu người sử dụng. Nếu
một tổ chức khơng cĩ sẵn mơ hình dữ liệu tổng thể thích hợp, mơ hình dữ liệu tổng thể
cũ được phép dùng tiếp và bổ sung các dịch vụ phân tích mới.
Một số cơng ty bắt đầu với một mơ hình được chuẩn hĩa đầy đủ cho kho dữ
liệu của họ sau đĩ ứng dụng kĩ thuật mơ hình kho dữ liệu.
Một vấn đề nổi cộm trong việc thiết lập mơ hình dữ liệu là khơng cĩ câu trả lời
đúng cho mọi tình huống. Mơ hình dữ liệu kho dữ liệu cĩ tính chủ đề, phụ thuộc vào
cơng việc nghiệp vụ và các vấn đề nảy sinh.
Mơ hình dữ liệu của kho dữ liệu cĩ thể thiết lập theo:
Sơ đồ hình sao.
Sơ đồ tuyết rơi.
Sơ đồ kết hợp.
Lược đồ dữ liệu hình sao:
Sơ đồ hình sao được đưa ra lần đầu tiên bởi Dr. Ralph Kimball [1] như là một lựa
chọn thiết kế cơ sở dữ liệu cho kho dữ liệu. Nĩ được gọi là sơ đồ hình sao bởi vì các
sự kiện nằm ở trung tâm của mơ hình và được bao quanh bởi các phạm vi liên quan,
rất giống với các điểm của một ngơi sao. Sơ đồ hình sao cho phép một hệ thống đối
tượng cĩ thể kết nối với nhiều đối tượng khác. Mơ hình này thể hiện cách nhìn của
người sử dụng về nhiều vấn đề trong tác nghiệp.
Trong sơ đồ hình sao, dữ liệu được xác định và phân loại theo 2 kiểu:
-17-
Các sự kiện được tổ chức thành bảng sự kiện
Phạm vi, hay các chiều của dữ liệu, được tổ chức thành các bảng chiều.
- Bảng sự kiện chứa các thơng tin cơ sở ở mức giao tác ở trong nghiệp vụ mà các ứng
dụng cần thiết. Ví dụ, khi phân tích dữ liệu về học lực của sinh viên thì cần những dữ
liệu về điểm các kỳ của sinh viên như về Điểm mơn, v.v.. Những dữ liệu này đều
được lưu ở bảng sự kiện của kho dữ liệu. Tuy nhiên, trước khi các dữ liệu này được
đưa vào kho dữ liệu thì cần phải chọn một trường dữ liệu nào đĩ thường sử dụng trong
các chiều phân tích để tham chiếu và sau đĩ đưa vào bảng các chiều. Các sự kiện là
các đại lượng số của cơng việc. Các bảng sự kiện thường rất lớn, chứa hàng triệu dịng
mà phần lớn là số.
- Bảng chiều, ngược lại, thường là tương đối nhỏ so với các bảng sự kiện, chứa các
thơng tin mơ tả. Đĩ là các bộ lọc hoặc các ràng buộc của những sự kiện ở bảng sự
kiện. Bảng chiều chứa các dữ liệu cần thiết cho việc thực hiện các giao tác nghiệp vụ
theo một chiều, hay phạm vi nào đĩ. Ví dụ, trong ứng dụng phân tích kết quả học tập
của sinh viên, bảng chiều bao gồm: thời gian, sinh viên, mơn học, v.v.
Hình 2.2 mơ tả về một ví dụ sơ đồ hình sao. Trong sơ đồ hình sao này cĩ ba quan hệ
một-nhiều liên kết giữa các dịng trong bảng chiều với các dịng trong bảng sự kiện.
Hình 2.2 – Sơ đồ hình sao
Ưu điểm của sơ đồ hình sao
- Hỗ trợ rất đa dạng các câu truy vấn và xử lý khá hiệu quả những câu truy vấn đĩ. Ví
dụ, khi phân tích dữ liệu ở hình 2.2, chiều thời gian cĩ thể thực hiện khá hiệu quả mà
khơng cần sắp xếp lại dữ liệu trong bảng các sự kiện.
- Phù hợp với cách mà người sử dụng nhận và sử dụng dữ liệu và qua đĩ làm cho dữ
liệu được hiểu trực quan hơn.
- Nguyên lý cơ bản của sơ đồ hình sao là một dạng dư thừa dữ liệu nhằm cải thiện sự
thực hiện các truy vấn. Với sơ đồ hình sao, người thiết kế cĩ thể dễ dàng mơ phỏng
những chức năng của cơ sở dữ liệu đa chiều. Sự phi chuẩn hĩa cĩ thể coi là sự tiền kết
nối các bảng để cho các ứng dụng khơng phải thực hiện cơng việc kết nối, làm giảm
thời gian thực hiện.
-18-
- Dễ dàng nhận thấy, sơ đồ hình sao được thiết kế là để khắc phục những hạn chế của
mơ hình quan hệ hai chiều. Với cơ sở dữ liệu được thiết kế theo sơ đồ hình sao, những
truy vấn với những câu hỏi phức tạp liên quan tới nhiều bảng và số liệu trở nên đơn
giản hơn và số lượng cơng việc cần thực hiện để đưa được ra câu trả lời là ít nhất so
với một mơ hình quan hệ chuẩn. Sơ đồ hình sao cải thiện đáng kể thời gian truy vấn và
cho phép thực hiện một số tính năng đa phạm vi. Sơ đồ này rất trực quan, dễ sử dụng,
thể hiện khung nhìn đa chiều của dữ liệu dùng ngữ nghĩa của cơ sở dữ liệu quan hệ.
Khĩa của bảng sự kiện được tạo bởi những khĩa của các bảng chứa thơng tin theo
từng phạm vi. Tất cả các khĩa đều được xác định với cùng một chuẩn đặt tên.
- Những bảng chiều cĩ chứa khĩa của các bảng chiều, cĩ thể là với tên khác đi để đảm
bảo tính duy nhất của mỗi hàng. Các bảng chiều thường cĩ định danh duy nhất và chứa
đựng những thơng tin về chiều của bảng đĩ. Số lượng các bảng chiều của mỗi bảng sự
kiện là từ 3 đến 5.
- Vì bảng sự kiện được tổng hợp từ trước và được kết hợp theo nhiều chiều nên xu
hướng cĩ rất nhiều hàng và tăng trưởng một cách nhanh chĩng trong khi đĩ các bảng
chiều khơng cĩ nhiều hàng và sự tăng trưởng là tĩnh. Bảng sự kiện cĩ thể bao gồm
hàng triệu hàng. Bảng chiều chứa đựng các thuộc tính cĩ thể được sử dụng như các
tiêu chí tìm kiếm và thường cĩ kích thước nhỏ hơn nhiều, rất quen thuộc với người sử
dụng từ trước. Khố của nĩ khơng là khố ghép như bảng sự kiện. Nếu một bảng chiều
bắt đầu cĩ sự tương đồng với các bảng sự kiện thì cĩ thể nĩ cần được chia ra thành các
bảng sự kiện. Nếu một bảng chiều được chia ra thành chiều chính và chiều phụ thì cấu
trúc thu được của kết quả được coi là một sơ đồ tuyết rơi hoặc một cấu trúc hình sao
mở rộng.
- Một sơ đồ hình sao đơn giản chỉ gồm một bảng sự kiện và một vài bảng chiều. Một
sơ đồ hình sao phức tạp bao gồm hàng trăm bảng sự kiện và bảng chiều.
Lưu ý: Bảng sự kiện và các bảng chiều đều khơng bắt buộc ở dạng chuẩn như đối
với phương pháp thiết kế truyền thống tức là cĩ dư thừa dữ liệu. Với loại sơ đồ này
cho phép lưu trữ dư thừa dữ liệu đổi lại khả năng truy nhập nhanh hơn phù hợp với
những câu hỏi phân tích nhiều chiều, phức tạp. Về bản chất, bảng sự kiện thuộc dạng
chuẩn I, với mức độ dư thừa dữ liệu rất lớn.
Lược đồ dữ liệu bơng tuyết:
Lược đồ này là mở rộng của lược đồ hình sao. Khi một bảng chiều trở lên phức tạp
hàm chức các quan hệ dữ liệu thì cĩ thể tách thành nhiều bảng. Các bảng được tách cĩ
quan hệ với bảng chiều tạo lên hình dạng tuyết rơi. Cơng việc này cũng chính là chuẩn
hĩa dữ liệu cho bảng chiều.
-19-
Hình 2.3 – Sơ đồ bơng tuyết
Tùy theo thực tế mà ta lựa chọn lược đồ hình sao hay hình tuyết rơi. Việc lựa chọn
được cân nhắc giữa hai yếu tố: thời gian đáp ứng truy vấn và mức độ kiểm sốt tính
chặt chẽ dữ liệu. Lược đồ dạng tuyết rơi cĩ thể thích hợp khi dữ liệu bảng chiều trở lên
quá lớn và nhiều thuộc tính. Tuy sự khác nhau thể hiện rất rõ về mặt lý thuyết nhưng
khi thực hiện chúng trong thực tế cĩ thể dẫn tới các kết quả khác hẳn nhau.
Sơ đồ kết hợp:
Là kết hợp giữa sơ đồ hình sao dựa trên bảng sự kiện và những bảng chiều
khơng chuẩn hĩa theo các chuẩn 1, 2, 3 và sơ đồ hình tuyết rơi trong đĩ tất cả các bảng
chiều đều đã được chuẩn hĩa. Trong sơ đồ loại này chỉ những bảng chiều lớn là được
chuẩn hĩa cịn những bảng khác chứa một khối lượng lớn các cột dữ liệu chưa được
chuẩn hĩa.
2.1.3. Kiến trúc kho dữ liệu [3], [7]
Các chức năng của kho dữ liệu
Như trên đã phân tích, kiến trúc ba tầng là thích hợp đối kho dữ liệu, nĩ phản ánh được
mối liên hệ giữa các dữ liệu và phù hợp với các yêu cầu của người sử dụng.
Liên quan đến các thành phần của kiến trúc trên là các chức năng:
Xây dựng dữ liệu cho kho dữ liệu nghiệp vụ: Thu thập dữ liệu từ các hệ thống
tác nghiệp.
Xây dựng dữ liệu kho thơng tin tác nghiệp: Thu thập dữ liệu từ các kho dữ liệu
nghiệp vụ.
Xây dựng dữ liệu cho danh mục kho dữ liệu: là sự lưu trữ vật lý tất cả các siêu
dữ liệu sử dụng và điều khiển trong kho dữ liệu, được phân chia và phân tán giữa các
kho dữ liệu tác nghiệp và nhiều kho thơng tin tác nghiệp.Thu thập dữ liệu từ các siêu
dữ liệu khi xây dựng kho dữ liệu.
-20-
Các chức năng quản trị hệ thống kho dữ liệu: lưu trữ, xử lý, truy cập, truyền
tin,…
Ba chức năng đầu làm nhiệm vụ tập hợp dữ liệu cho kho dữ liệu theo kiến trúc ba
tầng. Chức năng thứ tư cung cấp các dịch vụ và sự tiện dụng cho người sử dụng nhằm
khai thác, xử lý, khai thác dữ liệu nhằm đáp ứng mọi yêu cầu về thơng tin hàng ngày
của con người.
Người sử dụng cĩ thể sử dụng dữ liệu và siêu dữ liệu theo nhiều cách khác
nhau. Dữ liệu cĩ thể được thăm dị và phân tích để cĩ được những kết quả theo yêu
cầu, cịn siêu dữ liệu chỉ thăm dị mà khơng phân tích được, nĩ chỉ giúp chúng ta hiểu
về dữ liệu mà thơi.
Kiến trúc nhà kho dữ liệu
Hình 2.4 - Kiến trúc 3 tầng hệ thống kho dữ liệu.
Hệ thống kho dữ liệu thường bao gồm 3 tầng như trong hình 2.4:
Tầng đáy: Là nơi lấy dữ liệu từ nhiều nguồn khác nhau sau đĩ làm sạch, chuẩn hĩa,
lưu trữ tập trung.
Tầng giữa: thực hiện các thao tác với kho dữ liệu thơng qua dịch vụ OLAP (OLAP
server). Cĩ thể cài đặt bằng Relational OLAP, Multidimensional OLAP hay kết hợp cả
hai mơ hình trên thành mơ hình Hybrid OLAP.
Tầng trên: thực hiện việc truy vấn, khai phá thơng tin.
-21-
2.1.4. Các bước xây dựng kho dữ liệu [7]
Các bước xây dựng kho dữ liệu:
Lập kế hoạch tổng thể.
Xác định yêu cầu.
Thiết kế.
Xây dựng
Triển khai
Mở rộng và duy trì
Trong đĩ, pha thiết kế và pha xây dựng 3 thành phần của kho dữ liệu cĩ thể song song.
Bước 1: Lập kế hoạch
Khi đã thống nhất xây dựng dự án phát triển kho dữ liệu phục vụ cho các hoạt động
của một cơ quan, tổ chức hay của các ban ngành, thì vấn đề trước tiên cần phải xây
dựng kế hoạch thực hiện bao gồm các bước như sau:
a. Xác định chiến lược cài đặt
Đây là bước đầu tiên, rất quan trọng, quyết định về cơ cấu tổ chức của kho dữ liệu. Cĩ
ba cách tiếp cận chính:
Thực hiện trên xuống (Top-down)
Thực hiện dưới lên (Bottom up)
Tổ hợp của hai cách tiếp cận trên.
Cả ba cách tiếp cận này liên quan đến cơng việc và cơng nghệ.
Tuỳ vào điều kiện, tình huống trong nghiệp vụ của đơn vị mà lựa chọn chiến lược cài
đặt hệ thống.
b. Lựa chọn phương pháp và mơ hình phát triển kho dữ liệu
Để phát triển hệ thống kho dữ liệu cĩ hai phương pháp cơ bản:
Phương pháp hướng chức năng: tập trung vào chức năng là chính, dữ liệu là
phụ.
Phương pháp hướng đối tượng: xem hệ thống là tập các đối tượng và do vậy tập
trung chính vào dữ liệu.
Mỗi phương pháp cũng cĩ mặt mạnh, mặt yếu của nĩ. Tuỳ vào sự hỗ trợ của cơng
nghệ, của năng lực của đội ngũ cán bộ tham gia dự án mà lựa chọn phương pháp cho
thích hợp.
c. Xác định mục tiêu của kho dữ liệu
Việc xác định kho dữ liệu là rất phức tạp vì kho dữ liệu chính là một hệ thống các
CSDL lớn, phức tạp với khối lượng dữ liệu khổng lồ và thường là khơng thuần nhất,
bao quát nhiều lĩnh vực khác nhau.
Ngồi ra cịn thường xuyên xuất hiện những cơng nghệ mới, nhiều điều kiện mới xuất
hiện thường xuyên; nhiều khái niệm về thơng tin, dữ liệu của các nhà quản lý, phân
tích và người sử dụng khác nhau khiến cho việc xác định mục tiêu càng trở nên khĩ
khăn.
d. Xác định phạm vi của hệ thống
-22-
Trong hầu hết các tổ chức, lý do cần phát triển kho dữ liệu là nhằm đáp ứng nhu cầu
quản lý, khai thác thơng tin để thực hiện cơng việc hay trợ giúp quyết định trong quản
lý, điều hành cơng việc của một nhĩm người, một bộ phận hay cả tổ chức đĩ.
e. Lựa chọn kiến trúc
Cĩ thể xây dựng kho dữ liệu theo những kiến trúc sau:
Chỉ xây dựng dữ liệu chủ đề. Kiến trúc này phù hợp cho các phịng, ban trong
tổ chức cĩ nhu cầu riêng và một kho dữ liệu đơn giản khơng thể đáp ứng được
mọi yêu cầu của họ.
Chỉ xây dựng kho dữ liệu. Trong kiến trúc này, các phép xử lý đối với các
nguồn dữ liệu như: làm sạch, tích hợp, tổng hợp, v.v. sẽ được sử dụng chung
cho mọi ứng dụng. Kho dữ liệu logic phù hợp với mọi người sử dụng, hỗ trợ
cho việc ra quyết định.
Xây dựng kho dữ liệu và cả dữ liệu chủ đề. Mỗi bộ phận cĩ tiểu kho, được đặt
trong một cơ cấu thống nhất được gọi là tổng kho, hay kho dữ liệu liên hợp.
Kiến trúc Client/Server gồm hai lớp chính: lớp chủ và lớp khách. Máy chủ thực
hiện các chương trình trong kho, quầy dữ liệu và lưu trữ dữ liệu vào kho. Máy
khách thực hiện các chương trình khai thác, lập báo cáo, lưu trữ dữ liệu cục bộ,
v.v.
f. Xây dựng chương trình và dự kiến ngân sách
Khớp nối chương trình hành động với chương trình dự án. Chương trình hành
động bao gồm các kế hoạch tổng hợp về các ứng dụng kho dữ liệu và vai trị
của nĩ trong tổ chức, xã hội. Chương trình dự án là các kế hoạch thực hiện cụ
thể kho dữ liệu, nĩ phải phù hợp với thứ tự ưu tiên cơng việc mà chương trình
hành động nêu trên đề ra.
Dự trù ngân sách tương xứng với chương trình phát triển hệ thống, bao gồm tất
cả các kinh phí hoạt động: phân tích, thiết kế, cài đặt, duy trì, v.v.
Bước 2: Phân tích các yêu cầu của hệ thống
Danh sách các yêu cầu đĩng vai trị rất quan trọng khơng chỉ trong việc đặc tả,
xây dựng mơ hình hệ thống mà nĩ cả trong quá trình xây dựng và duy trì hệ thống.
Theo các con số thống kê về hiệu quả của các phần mềm, rất nhiều sản phẩm xây dựng
xong khơng sử dụng được, hoặc rất kém hiệu quả sử dụng là do chưa xác định đúng và
chính xác các yêu của hệ thống.
a. Yêu cầu về kiến trúc
Như trên đã nêu, kiến trúc hệ thống là rất quan trọng, nĩ quyết định nhiều tính
chất và các khả năng của kho dữ liệu. Kiến trúc là cơ sở để thiết lập các thành phần
của một kho dữ liệu nhằm đáp ứng các nhu cầu hiện tại và tương lai của một tổ chức.
Chất lượng kết cấu của hệ thống được xây dựng phụ thuộc nhiều vào những yếu tố
sau:
Phạm vi chức năng và các đặc tính mà hệ thống sẽ cĩ
-23-
Sử dụng các chuẩn cơng nghệ, tuân theo các qui định chuẩn về qui trình, nghiệp
vụ và giao diện mở
Khả năng mở rộng, khả năng tương thích của hệ thống.
b. Xác định yêu cầu của người phát triển hệ thống
Các kiến trúc sư quan tâm đến mơ hình trừu tượng, cịn những người xây dựng
hệ thống lại quan tâm đến những vấn đề cụ thể của kho dữ liệu. Họ cĩ những yêu cầu
về dữ liệu, các chương trình ứng dụng, cơng nghệ, cơng cụ sử dụng để phát triển ứng
dụng và những vấn đề cơ sở như máy tính, phần mềm hệ thống, mạng truyền tin, v.v.
c. Những yêu cầu của người sử dụng đầu cuối
Khi kho dữ liệu được xây dựng và những dữ liệu đầu tiên được đưa vào kho,
sau đĩ được những người sử dụng đầu cuối, các nhà phân tích dữ liệu để cĩ được sự
trợ giúp quyết định trong các cơng việc của họ. Mục đích của người sử dụng là xử lý
thơng tin và họ mong muốn là được sử dụng kho dữ liệu để làm được tất cả những gì
cĩ thể.
Bước 3: Thiết kế và xây dựng kho dữ liệu
a. Mơ hình dữ liệu đa chiều
Các nhà quản lý thường cĩ khuynh hướng suy nghĩ theo “nhiều chiều”. Ví dụ
như về kết quả học tập của sinh viên:
“Với những mơn học nào thì sinh viên sẽ cĩ kết quả học tập tốt hơn qua các
năm”.
Ta cĩ thể hình dung việc đánh giá kết quả học tập như một khối dữ liệu với các
chiều của khối là mơn học, sinh viên và năm học. Giao điểm bên trong khối là giao
điểm của các cạnh. Với mơ tả của một sự kiện đánh giá như trên thì độ đo kết quả học
tập được kết hợp bởi các giá trị mơn học, sinh viên và năm học (thời gian).
-24-
Ví dụ xét trong cùng thời gian học, những sinh viên khối A thì học những mơn học
ban tự nhiên thường cĩ kết quả tốt hơn những sinh viên khối C. Nếu nhìn từ chiều thời
gian làm mốc, sau đĩ tổng hợp thêm dữ liệu từ các chiều sinh viên và mơn học sẽ cĩ
thể đưa ra kết quả đánh giá về học lực của sinh viên.
Một khối dữ liệu khơng bắt buộc phải cĩ 3 chiều mà cĩ thể cĩ N chiều, phụ
thuộc vào yêu cầu của cơng việc. Các chiều của khối, mà ở đĩ các mặt hoặc các thực
thể tương ứng với những khía cạnh mà cơng việc ghi nhận. Mỗi chiều kết hợp với một
bảng chiều để mơ tả cho chiều đĩ. Ví dụ bảng chiều sinh viên thì mơ tả về sinh viên đĩ
gồm tên sinh viên, tổ, lớp, khoa, ngày sinh, quê quán… Với những chiều đặc biệt như
chiều thời gian, hệ thống kho dữ liệu cĩ thể phát sinh tương ứng với bảng chiều dựa
trên loại dữ liệu. Chiều thời gian trong thực tế cĩ ý nghĩa đặc biệt đối với việc hỗ trợ
cho các khuynh hướng phân tích.
Hình 2.5 – Ví dụ về mơ hình dữ liệu 3 chiều
Một khối dữ liệu trong kho dữ liệu thường được xây dựng để đo hiệu quả của
một cơng việc nào đĩ. Do vậy một mơ hình dữ liệu đa chiều thường được tổ chức xung
quanh một chủ đề được thể hiện bởi một bảng sự kiện của nhiều độ đo số học (là các
đối tượng phân tích). Ví dụ một sự kiện kết quả học tập cĩ thể chứa điểm trung bình
học tập, xếp loại học lực, khen thưởng… Mỗi độ đo phụ thuộc vào một tập các chiều
cung cấp ngữ cảnh cho độ đo đĩ. Vì thế khi các chiều kết hợp với nhau thì xác định
một độ đo duy nhất, đĩ là một giá trị trong khơng gian đa chiều. Ví dụ như kết hợp của
loại học lực, sinh viên và thời gian sẽ cho ra kết quả học tập của sinh viên đĩ là gì
trong khoảng thời gian đĩ.
Các chiều cĩ thể được phân cấp theo loại. Ví dụ chiều thời gian của dữ liệu kết
quả học tập của sinh viên được mơ tả bởi các thuộc tính như niên khĩa, năm học, kì
học hoặc cĩ nhiều cách phân loại khác phụ thuộc vào bản chất của dữ liệu và yêu cầu
sử dụng. Nếu mỗi chiều chứa nhiều mức trừu tượng, dữ liệu cĩ thể được xem từ nhiều
khung nhìn linh động khác nhau. Một số thao tác điển hình của khối dữ liệu như tăng
mức độ trừu tượng, giảm mức độ trừu tượng hoặc tăng mức chi tiết, chọn và chiếu, và
định hướng lại khung nhìn đa chiều của dữ liệu, cho phép tương tác truy vấn và phân
-25-
tích dữ liệu rất tiện lợi. Những thao tác đĩ được biết như xử lý phân tích trực tuyến
OLAP [19].
b. Thiết kế và xây dựng kho dữ liệu
Xây dựng kho dữ liệu là quá trình tích hợp dữ liệu từ các nguồn khác nhau vào
một kho. Các nhà phân tích nghiệp vụ cĩ thể truy vấn kho dữ liệu và sinh các báo cáo,
biểu đồ để trợ giúp quá trình ra quyết định của họ. Một kho dữ liệu cĩ thể chứa CSDL
lớn tồn xí nghiệp mà người sử dụng và người quản trị cĩ thể truy cập hoặc cĩ thể kết
hợp một số hệ thống nhỏ thường gọi là kho dữ liệu chủ đề. Điển hình, mỗi KPDL gắn
với một miền chủ đề bên trong một kho dữ liệu lớn.
Các nguồn dữ liệu
Các nguồn dữ liệu bao gồm các hệ thống dữ liệu ở bên trong, hoặc bên ngồi của
một cơ quan, tổ chức hay một xí nghiệp.
Các hệ thống dữ liệu về một tổ chức được coi như các hệ thống nguồn, dữ liệu bên
trong, thường là những hệ thống thơng tin cĩ sẵn. Đĩ là những hệ thống tác nghiệp, hỗ
trợ các hoạt động nghiệp vụ như sản xuất, hay kinh doanh, lĩnh vực giáo dục đào tạo.
Phân tích các nguồn dữ liệu
Các hệ thống thơng tin cĩ sẵn được phát triển xung quanh các vùng nghiệp vụ của
cơ quan cần xây dựng dự án. Các ứng dụng được phát triển với dữ liệu mà các dữ liệu
này phù hợp với các nhu cầu khác nhau, với cùng một hệ thống dữ liệu nhưng với tên
khác nhau, hoặc với các hệ thống đo lường khác nhau, định nghĩa dữ liệu thậm chí
chúng cĩ những yêu cầu về dữ liệu tương tự như nhau. Kết quả cuối cùng là các nguồn
dữ liệu cần được đánh giá.
Thu thập và tạo lập dữ liệu
Một phần quan trọng của việc cài đặt kho dữ liệu là sử dụng những dữ liệu đã
được tinh chế từ những hệ thống tác nghiệp và đưa chúng vào một khuơn dạng thích
hợp cho các ứng dụng thơng tin.
Cĩ nhiều cơng cụ cĩ sẵn thường chỉ cĩ ích cho việc tinh chế những dữ liệu đơn
giản. Do đĩ việc phát triển những thủ tục tinh chế cho một số lĩnh vực ứng dụng là cần
thiết cho việc tinh chế dữ liệu. Các cơng đoạn thực hiện bao gồm:
Bĩc tách dữ liệu
Lọc, làm sạch dữ liệu
Thẩm định dữ liệu
Gộp, kết tập dữ liệu
Tải dữ liệu vào kho
Lưu trữ và phát tán, phân phối dữ liệu
Bĩc tách dữ liệu:
Bĩc tách dữ liệu là một phép xử lí để lấy các dữ liệu đã được xác định trước ra
khỏi các hệ thống tác nghiệp và các nguồn dữ liệu bên ngồi. Cĩ thể trong các hệ
thống dữ liệu gốc lại cĩ một vài vấn đề như: Khơng cĩ đủ thơng tin chi tiết về hệ thống
-26-
hoặc người sử dụng đầu cuối yêu cầu thơng tin ở mức thấp hơn mức thơng tin của hệ
thống hoạt động cĩ thể lưu trữ.
Lọc, làm sạch dữ liệu:
Sau khi dữ liệu được trích chọn, nĩ được tinh chế thơng qua các cơng việc lọc,
làm sạch để thu dữ liệu dữ liệu khơng bị thay đổi và đúng với các dữ liệu nghiệp vụ.
Quá trình trình lọc, làm sạch dữ liệu kiểm tra và sửa chữa các lỗi cĩ thể cĩ của dữ liệu
để đảm bảo tính đúng đắn của dữ liệu. Cơng việc này bao gồm các thao tác dọn dẹp,
thay đổi và tính tốn lại dữ liệu.
Thẩm định và chuyển đổi dữ liệu:
Tiếp theo, dữ liệu phải được kiểm tra, thẩm định để đảm chất lượng nhằm đáp
ứng các yêu cầu phân tích phục vụ trợ giúp quyết định. Các cơng cụ hỗ trợ để thực
hiện những cơng việc nêu trên dựa vào một tập các thơng số đã được xác định trước.
Mục đích của việc chuyển đổi và tích hợp là chuyển dữ liệu thành thơng tin và
làm cho chúng dễ hiểu và dễ sử dụng hơn đối với người sử dụng đầu cuối.
Mơ hình dữ liệu đích cĩ thể khác so với mơ hình của dữ liệu nguồn. Sự khác
nhau này xảy ra khi các yêu cầu của người sử dụng khác so với dạng thức của dữ liệu.
Quá tình này bao gồm các cơng việc chuyển đổi, thao tác, sắp xếp và chọn lọc dữ liệu.
Tích hợp, ghép và gộp dữ liệu:
Khi cĩ nhiều nguồn dữ liệu thì chúng cần thiết phải được tích hợp lại để hợp
nhất và tổ chức lại dữ liệu cho phù hợp với kiến trúc và nhu cầu sử dụng. Quá trình
tích hợp cĩ thể là sự phối hợp các thao tác sau đây: sắp xếp và hợp nhất, chia cắt, xác
định và giải quyết các vi phạm đến tính nguyên vẹn của dữ liệu, sinh ra các khố tổng
hợp.
Nạp, tải dữ liệu vào kho:
Việc tải dữ liệu vào kho dữ liệu cĩ thể thực hiện:
- Làm tươi lại dữ liệu.
- Bổ sung: Tạo thêm các dữ liệu vào bảng dữ liệu, tạo hàng mới duy nhất mới
bằng cách thêm giá trị thời gian vào khố.
- Cập nhật trong vùng: Giữ nguyên cấu trúc khố ở trong hàng trừ các hàng đã bị
hết thời hạn hoặc chỉ cập nhật cột khơng phải là khố.
- Đọc trước và tải dữ liệu: Quá trình đọc trước là việc tổ chức và quản lý các file
chuẩn bị sẵn cho các tiện ích của các hệ quản trị cơ sở dữ liệu đích.
- Sửa chữa và đánh giá: Trong quá trình làm sạch, chuyển đổi và tích hợp dữ liệu
cĩ thể xảy ra lỗi, do vậy trong mơi trường chứa dữ liệu nguồn phải cĩ chức
năng làm nhiệm vụ sửa lỗi này.
Thời gian cho cơng việc tải dữ liệu về kho (cĩ thể là hàng ngày, hàng tuần, hàng tháng,
hàng quí, ...).
Lưu trữ và phân phát dữ liệu
Dữ liệu được phân bố từ một nền tảng nguồn tới một nền tảng đích khác. Sự
phân bố này cĩ thể xảy ra trước, sau hoặc trong khi xảy ra các quá trình làm sạch, biến
-27-
đổi và tích hợp dữ liệu. Quá trình này cĩ thể bao gồm các thao tác như vận chuyển,
chuyển đổi và phân phát dữ liệu.
Việc phân phát phụ thuộc vào kiến trúc của kho dữ liệu. Việc phân phát chỉ cần thiết
đối với các kho dữ liệu mà dữ liệu nguồn ở trên một nền tảng và kho dữ liệu, kho dữ
liệu tác nghiệp hoặc OLAP chủ lại ở trên một nền tảng khác.
Thiết kế kho dữ liệu nghiệp vụ
Phần trên chúng ta đã thảo luận về những kỹ thuật cần thiết để thu thập và tạo lập
dữ liệu cho kho dữ liệu nĩi chung. Bước này căn cứ vào việc chọn lược đồ dữ liệu
(hình sao, bơng tuyết hay hỗn hợp), bảng sự kiện, các chiều để định hướng thiết kế kho
dữ liệu nghiệp vụ.
Bước 4: Duy trì và triển khai kho dữ liệu
Triển khai liên quan tới thực tế nằm ngồi kho dữ liệu, ngồi siêu dữ liệu, liên
quan tới việc thực hiện, quản lí các nhu cầu về cơng cụ truy vấn của người sử dụng
đầu cuối, lưu trữ các dữ liệu cũ. Giai đoạn triển khai đưa những thành phần phụ và cố
định vào kho dữ liệu.
Giai đoạn triển khai đưa vào các phần trang trí và những bộ phận bất động vào
kho dữ liệu. Tại giai đoạn này, cơng cụ truy nhập và phân tích đã phải được lựa chọn
để cung cấp tập kết quả. Việc triển khai kho dữ liệu ảnh hưởng tới 3 vùng chính:
Cơng ty.
Tồn bộ thơng tin trợ giúp.
Những người sử dụng đầu cuối.
2.2. Khai phá dữ liệu
2.2.1. Khái niệm về khai phá dữ liệu [1]
Cơng nghệ khai phá dữ liệu được coi là dạng tiến hĩa mới của cơng nghệ cơ sở
dữ liệu bắt đầu từ cuối những năm 1980 và khơng ngừng được phát triển về bề rộng và
chiều sâu.
Khai phá dữ liệu là một quá trình trích xuất thơng tin cĩ mối quan hệ hoặc cĩ
mối tương quan nhất định từ một kho dữ liệu lớn nhằm mục đích dự đốn các xu thế,
các hành vi trong tương lai, hoặc tìm kiếm những tập thơng tin hữu ích mà bình
thường khơng thể nhận diện được.
Trên thực tế, khai phá dữ liệu chỉ là một bước thiết yếu trong quá trình khám phá
tri thức trong cơ sở dữ liệu. Quá trình này bao gồm các bước sau:
Bước 1: Làm sạch dữ liệu: Loại bỏ nhiễu hoặc các dữ liệu khơng thích hợp;
Bước 2: Tích hợp dữ liệu: Tích hợp dữ liệu từ các nguồn khác nhau như: Cơ
sở dữ liệu, kho dữ liệu, file văn bản...;
Bước 3: Chọn dữ liệu: Ở bước này, những dữ liệu liên quan trực tiếp đến
nhiệm vụ sẽ được thu thập từ các nguồn dữ liệu ban đầu;
-28-
Bước 4: Chuyển đổi dữ liệu: Trong bước này, dữ liệu sẽ được chuyển đổi về
dạng phù hợp cho việc khai phá bằng cách thực hiện các thao tác nhĩm hoặc tập
hợp;
Bước 5: Khai phá dữ liệu: Là giai đoạn thiết yếu, trong đĩ các phương pháp
thơng minh sẽ được áp dụng để trích xuất ra các mẫu dữ liệu;
Bước 6: Đánh giá mẫu: Đánh giá sự hữu ích của các mẫu biểu diễn tri thức dựa
vào một số phép đo;
Bước 7: Mơ tả tri thức: Sử dụng các kĩ thuật trình diễn và trực quan hố dữ
liệu để biểu diễn tri thức khai phá được cho người sử dụng.
Khai phá dữ liệu là một bước xử lý của quá trình khám phá tri thức: [1],[2]
Hình 2.6 – Mơ tả chi tiết các bước của quá trình khám phá tri thức
2.2.2. Khuynh hướng phát triển của lĩnh vực khai phá dữ liệu
Trang web do Piatetsky – Shapiro chủ trì là trong
những trang web điển hình về lĩnh vực khai phá dữ liệu và phát hiện tri thức trong
CSDL. Nhiều thơng tin cập nhật nhất về lĩnh vực được thơng báo tại trang web này,
đặc biệt là các kết quả thăm dị, cung cấp một số thơng tin hữu ích liên quan tới
khuynh hướng phát triển của lĩnh vực khai phá dữ liệu. Một số nội dung cụ thể về
khuynh hướng nghiên cứu của khai phá dữ liệu được đề cập dưới dạng bài tốn thách
thức trong các hội nghị khoa học về khai phá dữ liệu. [2]
Xu hướng phát triển khai phá dữ liệu đã và đang là các nội dung nghiên cứu cĩ tính
thời sự, rất đa dạng và phong phú.
Vì sao cần khai phá dữ liệu
Vấn đề bùng nổ dữ liệu
Sự phát triển của các cơng cụ lấy dữ liệu tự động và sự phát triển của cơng
nghệ cơ sở dữ liệu.
Sự phát triển của các ứng dụng.
-29-
Sự đa dạng của các loại dữ liệu: Số lượng bản ghi lớn (thiên văn học, viễn
thơng, đào tạo…), số lượng thuộc tính lớn,…
Vấn đề là làm thế nào để lấy được thơng tin cần thiết/tri thức từ cơ sở dữ liệu lớn?
Hướng giải quyết: Khai phá dữ liệu.
Hiện nay, ứng dụng của KPDL rất đa dạng và rộng lớn, từ kinh doanh, chống
gian lận, giảm giá thành sản xuất, tăng doanh thu, phân tích hành vi sử dụng người
dùng internet để mục tiêu đúng nhu cầu, đúng đối tượng hay ứng dụng hỗ trợ ra quyết
định, nhiều lĩnh vực khác nhau v.v..Trong đĩ, lĩnh vực giáo dục - đào tạo khơng phải
ngoại lệ.
Trong phạm vi luận văn, chúng tơi đã sử dụng kho dữ liệu về điểm của sinh viên
để thực hiện một số bài tốn về KPDL. Chẳng hạn, một số câu hỏi như: “Xu hướng
điểm vào của sinh viên tăng hay giảm?”, “Sinh viên học giỏi mơn tốn cao cấp cĩ kết
quả học tập cao khơng?”, “Dự đốn tỉ lệ giới tính nữ và nam của năm học tới?”,…
2.3. Giới thiệu bộ cơng cụ BI trong hệ quản trị cơ sở dữ liệu SQL 2008
2.3.1. Business Intelligence (BI)
Các cơ sở dữ liệu lưu trữ dữ liệu thật sự hiệu quả như là một cơng cụ nghiệp vụ
khi được sử dụng để hỗ trợ các quyết định kinh doanh. Những quyết định này cĩ thể
mang tính chiến lược (cĩ nên tăng điểm tuyển sinh đầu vào trong năm học tới khơng?),
cĩ tính chiến thuật (chiến lược thay đổi khung chương trình nào thì tốt nhất?),... Tuy
nhiên, tất cả các quyết định này địi hỏi đúng dữ liệu, vào đúng thời điểm, bằng đúng
định dạng.
BI là một tập hợp các hoạt động để hiểu biết một cách sâu sắc về doanh nghiệp
bằng việc thực hiện các loại phân tích khác nhau trên dữ liệu của cơng ty cũng như
trên dữ liệu để đề ra chiến lược, sách lược và điều hành các quyết định kinh doanh,
thực hiện các hành động cần thiết để cải thiện tình hình kinh doanh. Một vài ví dụ phổ
biến nhất của việc triển khai BI là phân tích khả năng sinh lợi, nghiên cứu sở thích của
sinh viên, năng lực của sinh viên, nghiên cứu sản phẩm lợi nhận, đánh giá con số bán
hàng trên các sản phẩm khác nhau và các khu vực,…[10]
Trong hệ quản trị cơ sở dữ liệu SQL Server 2008 cĩ một bộ cơng cụ vốn hỗ trợ và
phát triển các ứng dụng BI. Hệ quản trị SQL Server xây dựng dịch vụ báo cáo và dịch
vụ tích hợp là những thành phần của BI, nhưng nền tảng là dịch vụ phân tích.
2.3.2. Dịch vụ phân tích
-30-
Hình 2.8 – Các thành phần của BI
Cấu trúc của dịch vụ phân tích
Hình 2.7 - Cấu trúc của dịch vụ phân tích
Một thành phần chính là mơ hình chiều thống nhất (Unified Dimensional Model –
UDM), tượng trưng cho những nơi lưu trữ dữ liệu quan hệ và đa chiều. Mơ hình chiều
thống nhất cung cấp một cầu nối từ một máy khách chẳng hạn như trong Excel hoặc
dịch vụ báo cáo của BI đến một tập hợp nguồn dữ liệu khơng thuần nhất đa dạng. Thay
vì truy cập các nguồn dữ liệu bằng những ngơn ngữ gốc của chúng, mơ hình chiều
thống nhất cho phép các ứng dụng máy khách gọi ra các lệnh trên mơ hình chiều thống
nhất.
Tất cả sự giao tiếp giữa máy khách với dịch vụ phân tích của máy chủ thơng qua
giao thức XML/A (ADOMD, ADODB.NET, OLE DB). XML/A là một tập con của
ngơn ngữ kịch bản của dịch vụ phân tích. Trong đĩ, XML/A gởi các lệnh hành động
như Create (tạo lập), Alter (sửa đổi) và Process (xử lý) để tạo khối, thay đổi một khối,
xử lý một khối,…
Dịch vụ phân tích của BI – Khai phá dữ liệu
Dịch vụ phân tích của BI chứa các tính năng và cơng cụ cần thiết để tạo lập các giải
pháp khai phá dữ liệu phức tạp.
Bộ thiết kế khai phá dữ liệu dùng để tạo, quản lý và khám phá các mơ hình khai
phá dữ liệu, sau đĩ tạo các dự báo bằng cách sử dụng các mơ hình này.
Khai phá dữ liệu giúp chúng ta tạo lập các quyết định thơng minh về các vấn đề
khĩ khăn của doanh nghiệp. Sử dụng các cơng cụ khai phá dữ liệu trong dịch vụ phân
tích giúp nhận ra các mẫu trong dữ liệu, do đĩ xác định được tại sao lại xảy ra
vấn đề đĩ, cho phép tạo ra các luật và kiến nghị, để cĩ thể dự báo điều gì sẽ xảy ra
trong tương lai. Khơng cần phải tạo kho dữ liệu để khai phá dữ liệu; cĩ thể dùng dữ
liệu bảng từ nhà cung cấp bên ngồi, bảng tính, và thậm chí là file văn bản.
Dịch vụ phân tích cung cấp một loạt các cơng cụ mà bạn cĩ thể sử dụng để xây dựng
các giải pháp khai phá dữ liệu trên dữ liệu quan hệ và dữ liệu khối.
Khi mơ hình khai phá dữ liệu được hồn tất, cĩ thể triển khai (deploy) trên máy
chủ khác để người dùng cĩ thể thực hiện các phân tích và dự báo bằng cách sử dụng
-31-
các mơ hình đĩ. Cĩ thể truy cập các mơ hình khai phá dữ liệu thơng qua ứng dụng
khách (như Web services),…
Dịch vụ phân tích cung cấp một tập hợp các thuật tốn khai phá dữ liệu chuẩn.
Ví dụ, để dự báo các thuộc tính rời rạc (dự báo rằng sinh viên học giỏi mơn tốn để
nhắm tới dự đốn học lực của sinh viên đĩ?), cĩ thể sử dụng một số thuật tốn sau:
Thuật tốn Decision Tree
Thuật tốn Naive Bayes
Thuật tốn Neural Network
…
a. Giới thiệu một số thuật tốn:
Hãng Microsoft khi phát triển dịch vụ phân tích trong hệ quản trị SQL
Server 2008, họ đã hồn thiện các thuật tốn thường sử dụng trong khai phá dữ
liệu một cách hồn chỉnh nhất so với dịch vụ phân tích trong SQL Server 2000,
2005; bao gồm: Microsoft Decision Tree, Microsoft Clustering, Microsoft Nạve
Bayes, Microsoft Time Series, Microsoft Association, Microsoft Sequence
Clustering, Microsoft Neural Network, Microsoft Linear Regression, Microsoft
Logistic Regression.
Trong phạm vi luận văn, chúng tơi xin trình bày chi tiết hơn 2 thuật tốn sau:
a.1 Thuật tốn Decision Tree:
Thuật tốn Microsoft Decision Tree hỗ trợ cả việc phân loại và hồi quy, và
tạo rất tốt các mơ hình dự đốn. Sử dụng thuật tốn này cĩ thể dự đốn cả các
thuộc tính rời rạc và liên tục.
Trong việc xây dựng mơ hình, thuật tốn này sẽ khảo sát sự ảnh hưởng của
mỗi thuộc tính trong tập dữ liệu và kết quả của thuộc tính dự đốn. Và tiếp đến nĩ sử
dụng các thuộc tính đầu vào để tạo thành một nhĩm phân hố gọi là các nút. Khi
một nút mới được thêm vào mơ hình, một cấu trúc cây sẽ được thiết lập. Nút đỉnh
của cây sẽ miêu tả sự phân tích của các thuộc tính dự đốn thơng qua các mẫu. Mỗi
nút thêm vào sẽ được tạo ra dựa trên sự sắp xếp các trường của thuộc tính dự
đốn, để so sánh với dữ liệu đầu vào. Nếu một thuộc tính đầu vào đựơc coi là
nguyên nhân của thuộc tính dự đốn, một nút mới sẽ thêm vào mơ hình. Mơ hình
tiếp tục phát triển cho đến lúc khơng cịn thuộc tính nào, tạo thành một sự phân tách
để cung cấp một dự báo hồn chỉnh thơng qua các nút đã tồn tại. Mơ hình địi hỏi
tìm kiếm một sự kết hợp giữa các thuộc tính và trường của nĩ, nhằm thiết lập một
sự phân phối khơng cân xứng giữa các trường trong thuộc tính dự đốn. Vì thế cho
phép dự đốn kết quả của thuộc tính dự đốn một cách tốt nhất. [10], [17]
a.1.1.Tạo Cây
Cây quyết định được tạo thành bằng cách lần lượt chia một tập dữ liệu thành
các tập dữ liệu con, mỗi tập con được tạo thành chủ yếu từ các phần tử của cùng một
lớp. Các nút khơng phải là nút lá là các điểm phân nhánh của cây. Việc phân nhánh
-32-
tại các nút cĩ thể dựa trên việc kiểm tra một hay nhiều thuộc tính để xác định việc
phân chia dữ liệu. Chúng ta chỉ xét việc phân nhánh nhị phân vì cho cây chính xác
hơn.
a.1.2. Entropy và Information Gain
Đây là các cơng thức để tính tốn cho việc chọn thuộc tính để phân nhánh
cây quyết định. Việc chọn thuộc tính nào tại một nút để phân nhánh cĩ thể dựa trên
các chỉ số như Index hay Entropy.
Giả sử thuộc tính dự đốn cĩ m giá trị phân biệt (tức là cĩ m lớp Ci, i=1, …, m), S
cĩ s mẩu tin, si là số các mẩu tin trong S thuộc lớp Ci. Index được tính như sau:
1.1
Entropy được tính như sau:
1.2
Giả sử thuộc tính A cĩ n giá trị phân biệt {a1, a2,…, an}. Gọi Sj là tập con
của S cĩ giá trị của thuộc tính A là aj, sij là số các mẩu tin thuộc lớp Ci trong tập
Sj. Nếu phân nhánh theo thuộc tính A thì.
1.3
Lúc đĩ ta cĩ được chỉ số Gain, và ứng với thuộc tính A là:
Gain(A)=I(s1,s2,…,sm) - G(A)
Dựa vào chỉ số Gain ta chọn thuộc tính để phân nhánh cho cây quyết
định. G(A) càng nhỏ thì các tập con càng đồng nhất hơn. Bởi vậy chúng ta chọn
thuộc tính cho Gain(A) lớn nhất để phân nhánh.
Sau khi đã chọn được thuộc tính tốt nhất, chúng ta tạo thêm một nút phân
nhánh cho cây, gán nhãn cho nút là thuộc tính được chọn và tiến hành phân chia tập
S. [9]
a.1.3. Ví dụ:
TT Quê quán Điểm vào Kinh tế Giới
tính
Học
lực
1 Hà nội Trung bình Khơng tốt Nữ TB
2 Hà nội Cao Bình thường Na Khá
-33-
m
3 Hưng Yên Thấp Bình thường Na
m
Khá
4 Hà nội Thấp Bình thường Nữ TB
5 Hải phịng Trung bình Tốt Nữ TB
6 Hưng Yên Cao Tốt Nữ Khá
7 Hưng Yên Trung bình Tốt Nữ Khá
8 Hà nội Thấp Khơng tốt Na
m
Khá
Hình 2.9 - Ví dụ dữ liệu đầu vào phân tích thuật tốn Cây quyết định
Bước 1:
Các thuộc tính và miền giá trị tương ứng baogồm:
Thuộc tính Quê quán cĩ miền giá trị {Hà nội, Hưng Yên, Hải phịng}
Thuộc tính Điểm vào cĩ miền giá trị {Cao, Trung bình, Thấp}
Thuộc tính Kinh tế cĩ miền giá trị {Tốt, Bình thường, Khơng tốt}
Thuộc tính Giới tính cĩ miền giá trị {Nam, Nữ}
Thuộc tính Lớp cĩ miền giá trị {P, N} (P ứng với Khá và N là ngược lại - TB)
Khối lượng thơng tin cần thiết để quyết định một mẫu tùy ý cĩ thuộc về lớp P hay
N hay khơng là:
I(p,n) = -(p/(p+n))*log2(p/(p+n))-(n/(p+n))*log2(n/(p+n))
I(5,3) = -(5/8)* log2(5/8)-(3/8)* log2(3/8) = 0,954
Tính Entropy cho thuộc tính Quê quán
Quê quán pi ni I(pi,ni)
Hà nội 2 2 1
Hưng yên 3 0 0
Hải phịng 0 1 0
Hình 2.10 – Entrophy cho thuộc tính “Quê quán”
Ta cĩ:
E(Quê quán) = (4/8)*I(2,2) + (3/8)*I(3,0) + (1/8)*I(0,1) = 0,5
Do đĩ:
Gain(Quê quán) = I(5,3) – E(Quê quán) = 0,954 – 0,5 = 0,454
Tương tự:
Tính Entropy cho thuộc tính Điểm vào
Điểm vào pi ni I(pi,ni)
Cao 2 0 0
Trung bình 1 2 0,918
-34-
Hình 2.14 - Chọn nút phân nhánh của cây
Thấp 2 1 0,918
Hình 2.11 – Entrophy cho thuộc tính “Điểm vào”
E(Điểm vào) = (2/8)*I(2,0) + (3/8)*I(1,2) + (3/8)*I(2,1) = 0,689
Gain(Điểm vào) = 0,954 – 0,689 = 0,265
Tính Entropy cho thuộc tính Kinh tế
Kinh tế pi ni I(pi,ni)
Tốt 2 1 0,918
Bình thường 2 1 0,918
Khơng tốt 1 1 1
Hình 2.12 – Entrophy cho thuộc tính “Kinh tế”
E(Kinh tế) = (3/8)*I(2,1) + (3/8)*I(2,1) + (2/8)*I(1,1) = 0,939
Gain(Kinh tế) = 0,954 – 0,939 = 0,015
Tính Entropy cho thuộc tính giới tính
Giới tính pi ni I(pi,ni)
Nam 3 0 0
Nữ 2 3 0,970
Hình 2.13 – Entrophy cho thuộc tính “Giới tính”
E(giới tính) = (3/8)*I(3,0) + (5/8)*I(2,3) = 0,607
Gain(giới tính) = 0,954 – 0,607 = 0,347
Chọn thuộc tính cĩ độ lợi thơng tin lớn nhất là thuộc tính “Quê quán”, ta cĩ cây cĩ
dạng:
Bước 2:
Trong cây này ta thấy ứng với quê ở Hà nội cịn 2 phần tử cĩ trị P và 2 phần tử cĩ
trị N. Tiếp tục áp dụng thuật tốn cho nút con này cho đến khi đạt đến nút lá hoặc
nút cĩ entropy=0. Ta cĩ tập dữ liệu (con) ứng với quê Hà nội như sau:
Điểm vào Kinh tế Giới tính Học lực
Trung bình Khơng tốt Nữ TB
Cao Bình thường Nam Khá
Thấp Bình thường Nữ TB
Quê quán
Hà nội Hưng yên Hải phịng
-35-
Thấp Khơng tốt Nam Khá
Hình 2.15 – Bảng dữ liệu đầu vào con
Các thuộc tính và miền giá trị tương ứng baogồm:
Thuộc tính Điểm vào cĩ miền giá trị {Cao, Trung bình, Thấp}
Thuộc tính Kinh tế cĩ miền giá trị {Bình thường, Khơng tốt}
Thuộc tính giới tính cĩ miền giá trị {Nam, Nữ}
Thuộc tính Lớp cĩ miền giá trị {P, N} (P ứng với Khá và N là ngược lại - TB)
Khối lượng thơng tin cần thiết để quyết định một mẫu tùy ý cĩ thuộc về lớp P hay
N hay khơng là:
I(p,n) = -(p/(p+n))*log2(p/(p+n))-(n/(p+n))*log2(n/(p+n))
I(2,2) = 1
Tính Entropy cho thuộc tính Điểm vào
Điểm vào pi ni I(pi,ni)
Cao 1 0 0
Trung bình 0 1 0
Thấp 1 1 1
Hình 2.16 – Entrophy cho thuộc tính “Điểm vào”
E(Điểm vào) = (1/4)*I(1,0) + (1/4)*I(0,1) + (2/4)*I(1,1) = 0,5
Gain(Điểm vào) = 1 – 0,5 = 0,5
Tính Entropy cho thuộc tính Kinh tế
Kinh tế pi ni I(pi,ni)
Bình thường 1 1 1
Khơng tốt 1 1 1
Hình 2.17 – Entrophy cho thuộc tính “Kinh tế”
E(Kinh tế) = (2/4)*I(1,1) + (2/4)*I(1,1) = 1
Gain(Kinh tế) = 0,954 – 1 = -0,046
Tính Entropy cho thuộc tính Giới tính
Giới tính pi ni I(pi,ni)
Nam 2 0 0
Nữ 0 2 0
Hình 2.18 – Entrophy cho thuộc tính “giới tính”
Quê quán
Hà nội Hưng yên Hải phịng
Nam Nữ
-36-
Hình 2.19 - Cây quyết định kết quả
E(Giới tính) = (2/4)*I(2,0) + (2/8)*I(0,2) = 0
Gain(Giới tính) = 0,954 – 0 = 0,954
Như vậy thuộc tính “Giới tính” cĩ độ lợi thơng tin lớn nhất được dùng để phân lớp,
ta cĩ cây quyết định tạo ra như hình 2.19.
Như vậy các luật được tạo ra như sau:
IF (Quê quán = ‘Hưng Yên’) OR (Quê quán = ‘Hà nội’ AND giới tính = ‘Nam’)
THEN ‘Khá’
ELSE ‘TB’
a.2. Thuật tốn Nạve Bayes:
Thuật tốn này xây dựng mơ hình khai thác nhanh hơn các thuật tốn
khác, phuc vụ việc phân loại và dự đốn. Nĩ tính tốn khả năng cĩ thể xảy ra
trong mỗi trường hợp lệ của thuộc tính đầu vào, gán cho mỗi trường một thuộc
tính cĩ thể dự đốn. Mỗi trường này cĩ thể sau đĩ được sử dụng để dự đốn kết quả
của thuộc tính dự đốn dựa vào những thuộc tính đầu vào đã biết. Các khả năng sử
dụng để sinh ra các mơ hình được tính tốn và lưu trữ trong suốt quá trình xử lý của
khối lập phương. Thuật tốn này chỉ hỗ trợ các thuộc tính hoặc là rời rạc hoặc liên
tục, và nĩ xem xét tất cả các thuộc tính đầu vào độc lập. Thuật tốn này cho ta một
mơ hình khai thác đơn giản (cĩ thể được coi là điểm xuất phát của khai phá dữ
liệu), bởi vì hầu như tất cả các tính tốn sử dụng trong khi thiết lập mơ hình, được
sinh ra trong xử lí của khối, kết quả được trả về nhanh chĩng. Điều này tạo cho mơ
hình một lựa chọn tốt để khai phá dữ liệu khám phá các thuộc tính đầu vào được
phân bố trong các trường khác nhau của thuộc tính dự đốn như thế nào?
Bài tốn:
Gọi X là đối tượng chưa biết lớp. H là giả thuyết sao cho X thuộc về lớp C. Ta
cần tính xác suất hậu nghiệm (posterior probability) P(H|X) sao cho H đúng khi cho
trước quan sát X (H conditioned on X).
Mỗi mẫu dữ liệu được biểu diễn bằng X= (x1, x2,…, xn) với các thuộc tính A1,
A2,…, An.
Các lớp C1, C2, …, Cm. Cho trước mẫu chưa biết X. Phân lớp Nạve Bayesian
gán X vào Ci nếu P(Ci|X) > P(Cj|X) với 1 ≤ j≤ m, j ≠ i.
Do
1.4
P(X)
Ci)P(Ci)|P(XX)|P(Ci
-37-
nên P(Ci|X) > P(Cj|X) P(X|Ci).P(Ci) > P(X|Cj).P(Cj)
Giả thiết các thuộc tính là độc lập tức là
1.5
Để phân lớp mẫu chưa biết X, ta tính P(X|Ci) P(Ci) cho từng Ci. Sau đĩ mẫu X
được gán vào Ci nếu P(Ci|X) > P(Cj|X) for 1 ≤ j ≤ m, j ≠ i . Nĩi cách khác,
Nạve Bayesian gán X vào lớp Ci sao cho P(X|Ci) P(Ci) là cực đại.
Ví dụ:
Dựa vào bảng dữ liệu cho trong hình 2.9, ta cĩ thể tính các xác suất sau:
- Xác suất lớp dương (Khá): P(p) = 5/8
- Xác suất lớp âm (TB): P(n) = 3/8
Quê quán
P(Hà nội | p) = 2/5 P(Hà nội | n) = 2/3
P(Hưng yên | p) = 3/5 P(Hưng yên | n) = 0
P(Hải phịng | p) = 0 P(Hải phịng | n) = 1/3
Điểm vào
P(Cao | p) = 2/5 P(Cao | n) = 0
P(Trung bình | p) = 1/5 P(Trung bình | n) = 2/3
P(Thấp | p) = 2/5 P(Thấp | n) = 1/3
Kinh tế
P(Tốt | p) = 2/5 P(Tốt | n) = 1/3
P(Bình thường | p) = 2/5 P(Bình thường | n) = 1/3
P(Khơng tốt | p) = 1/5 P(Khơng tốt | n) = 1/3
Giới tính
P(Nam | p) = 3/5 P(Nam | n) = 0
P(nữ | p) = 2/5 P(Nữ | n) = 3/3
Hình 2.20 – Tính xác suất cho các thuộc tính
Xét một mẫu X cĩ Quê quán (khơng quan tâm các thuộc tính khác)
P(Hưng Yên | n) = 0 => P(X|n)*P(n) = 0
P(xi | p) > 0 => P(X | p) > 0
Suy ra mẫu X thuộc lớp P (Khá)
- Xét một mẫu X cĩ quê Hà nội và cĩ giới tính Nam (khơng quan tâm các thuộc
tính cịn lại)
P(Nam | n) = 0 => P(X|n)*P(n) = 0
P(xi | p) > 0 => P(X | p) > 0
Suy ra mẫu X thuộc lớp P (Khá)
Hai phân lớp trên phù hợp với luật được suy ra từ giải thuật ID3. Tuy nhiên, xét
mẫu X = , ta cĩ:
)C|
n
1k k
P(x)C|kx,...,1P(x)C|P(X jjj
-38-
P(Hải phịng | p) = 0 => P(X|p)*P(p) = 0
P(Cao | n) = 0 => P(X|n)*P(n) = 0
=> Khơng thể xác định X thuộc lớp nào!
Các bước của khai phá dữ liệu:
Khai phá dữ liệu là quá trình khám phá các thơng tin hữu dụng từ bộ dữ liệu lớn.
Khai phá dữ liệu sử dụng phân tích tốn học để lấy mẫu và các xu hướng tồn tại trong
dữ liệu. Xây dựng một mơ hình khai phá dữ liệu là một phần của một quá trình lớn
hơn bao gồm đủ mọi thứ từ đặt câu hỏi về dữ liệu và tạo ra một mơ hình để trả lời
những câu hỏi, đến triển khai các mơ hình thành một mơi trường làm việc. Quá trình
này cĩ thể được xác định bằng cách sử dụng sau 6 bước cơ bản:
Xác định vấn đề
Chuẩn bị dữ liệu
Khám phá dữ liệu
Xây dựng mơ hình
Khám phá và kiểm tra mơ hình
Triển khai và cập nhật mơ hình
Mặc dù quá trình minh họa trong biểu đồ là vịng trịn, mỗi bước khơng nhất thiết
dẫn trực tiếp đến bước tiếp theo. Mỗi bước trong tiến trình cĩ thể cần phải được lặp lại
nhiều lần để tạo ra một mơ hình tốt.
Xác định vấn đề:
Bước đầu tiên trong quá trình khai phá dữ liệu, như nêu bật trong sơ đồ sau đây, là
để xác định rõ các vấn đề kinh doanh, dịch vụ, và cân nhắc các cách để cung cấp một
câu trả lời cho vấn đề.
Chuẩn bị dữ liệu:
Bước thứ hai trong quá trình khai phá dữ liệu, là để củng cố và làm sạch dữ liệu đã
được xác định ở bước xác định các vấn đề.
Cĩ thể tiến hành khai phá dữ liệu sử dụng bất kỳ nguồn dữ liệu đã được định nghĩa
như là một nguồn dữ liệu dịch vụ phân tích. Cĩ thể bao gồm các tập tin văn bản, bảng
tính Excel, hoặc dữ liệu từ các nhà cung cấp khác bên ngồi.
Thăm dị dữ liệu:
Bước thứ ba trong quá trình khai phá dữ liệu, là để khám phá những dữ liệu đã
chuẩn bị sẵn sàng.
Phải hiểu được dữ liệu để đưa ra quyết định thích hợp khi tạo các mơ hình khai phá
dữ liệu. Kỹ thuật khám phá bao gồm các tính tốn giá trị tối thiểu và tối đa, tính trung
bình và độ lệch chuẩn, và nhìn vào sự phân bố của dữ liệu.
Xây dựng mơ hình:
Bước thứ tư trong quá trình khai phá dữ liệu, là xây dựng mơ hình khai phá hoặc
các mơ hình khai phá.
-39-
Xác định dữ liệu mà bạn muốn sử dụng bằng cách tạo ra một cấu trúc khai phá.
Cấu trúc khai phá xác định nguồn dữ liệu, nhưng khơng chứa bất kỳ dữ liệu cho đến
khi bạn xử lý nĩ. Khi xử lý cấu trúc khai phá, dịch vụ phân tích tạo ra tập hợp và thơng
tin thống kê khác cĩ thể được sử dụng để phân tích. Thơng tin này cĩ thể được sử dụng
bởi bất kỳ mơ hình khai phá nào dựa trên cấu trúc.
Kiểm chứng mơ hình:
Bước thứ năm trong quá trình khai phá dữ liệu, là để khám phá các mơ hình khai
phá đã xây dựng và kiểm tra hiệu quả của chúng.
Khi xây dựng một mơ hình, chúng ta thường tạo ra các mơ hình với nhiều cấu hình
khác nhau và kiểm thử tất cả các mơ hình để cĩ kết quả tốt nhất cho vấn đề và dữ liệu
đã xác định.
Dịch vụ phân tích cung cấp các cơng cụ giúp chúng ta tách biệt dữ liệu của thành
tập dữ liệu huấn luyện và tập dữ liệu thử nghiệm để cĩ thể đánh giá chính xác hiệu
suất của tất cả các mơ hình trên cùng dữ liệu. Sử dụng tập dữ liệu học để xây dựng mơ
hình, và dữ liệu thử nghiệm để kiểm tra tính chính xác của mơ hình bằng cách tạo ra
các truy vấn dự báo. Trong dịch vụ phân tích của BI, phân vùng này cĩ thể được thực
hiện tự động khi xây dựng mơ hình khai phá.
Triển khai và cập nhật mơ hình:
Bước cuối cùng trong quá trình khai phá dữ liệu, là để triển khai các mơ hình cĩ
hiệu suất tốt nhất đến mơi trường sản xuất.
Sau khi các mơ hình khai phá dữ liệu tại trong mơi trường sản xuất, cĩ thể thực
hiện nhiều tác vụ, tùy thuộc vào nhu cầu, như: truy vấn để lấy dữ liệu thống kê, tạo
báo cáo,…
Dữ liệu đa chiều:
Dữ liệu đa chiều cho phép chúng ta thiết kế, tạo, quản lý cấu trúc nhiều chiều chứa
dữ liệu chi tiết và kết hợp từ nhiều nguồn dữ liệu trong một mơ hình logic thống nhất
hỗ trợ các tính tốn nội tại.
Dịch vụ phân tích dữ liệu đa chiều cung cấp phân tích nhanh, trực giác, từ trên
xuống, trên số lượng lớn dữ liệu xây dựng trên mơ hình dữ liệu thống nhất, và chuyển
giao đến người dùng bằng nhiều ngơn ngữ.
Dịch vụ phân tích dữ liệu đa chiều làm việc với các kho dữ liệu, các siêu dữ liệu,...
hỗ trợ phân tích dữ liệu lịch sử và thời gian thực.
2.3.3. Dịch vụ báo cáo [16]
Với hệ quản trị cơ sở dữ liệu SQL Server 2008, xây dựng dịch vụ báo cáo tiếp tục
là một lĩnh vực tập trung chính và một lĩnh vực đầu tư cho hãng Microsoft. Đĩ là một
trong những thành phần chính của Microsoft Bussiness Intelligence (BI).
Cơng nghệ xây dựng dịch vụ báo cáo cho phép thiết kế những báo cáo phong phú
từ nhiều nguồn dữ liệu, hiển thị dữ liệu từ nhiều nguồn dữ liệu đĩ một cách phong phú
bằng cách sử dụng các bảng (table), ma trận (matrix), danh sách (list), gauge, và biểu
đồ (chart); và cho phép xuất các báo cáo sang các định dạng Word, Excel, PDF, XML,
-40-
HTML mà khơng cần viết mã. Xây dựng dịch vụ báo cáo cung cấp một mơ hình mở
rộng cho phép mở rộng thiết kế, xuất các định dạng, nguồn dữ liệu và các cơ cấu phân
phối cho các báo cáo. Sự tích hợp của nĩ với Microsoft Office SharePoint Server tiếp
tục phát triển và cải thiện. Sau cùng xây dựng dịch vụ báo cáo cung cấp một giao diện
lập trình ứng dụng mà cĩ thể gọi bằng cách sử dụng dịch vụ Web do đĩ cĩ thể tự động
hĩa hầu như bất kỳ phần nào của báo cáo thơng qua các kịch bản hoặc chương trình.
2.4. Kết luận chương 2
Chương này trình bày các vấn đề sau:
Cơ sở lý thuyết về kho dữ liệu: Một số khái niệm về kho dữ liệu, mơ hình dữ
liệu sử dụng trong kho, kiến trúc kho dữ liệu, các bước xây dựng kho dữ liệu.
Khai phá dữ liệu: Khái niệm về khai phá dữ liệu, khuynh hướng phát triển của
lĩnh vực khai phá dữ liệu.
Giới thiệu bộ cơng cụ BI trong hệ quản trị cơ sở dữ liệu SQL Server 2008: Dịch
vụ phân tích, dịch vụ báo cáo.
-41-
Chương 3 - XÂY DỰNG KHO DỮ LIỆU ĐIỂM CỦA SINH VIÊN
3.1 Hiện trạng dữ liệu và nhu cầu xây dựng kho dữ liệu
Trong thế giới hiện đại, mọi hoạt động của con người đều cần đến thơng tin:
Thơng tin về giá cả và thị trường, khách hàng và đối tác,...Trong hoạt động
sản xuất kinh doanh, thương mại, tài chính.
Thơng tin về chính sách và pháp luật, thuế và tiền tệ, dân số và lao động, đất
đai và mơi trường trong quản lý kinh tế, quản lý nhà nước.
Thơng tin về văn hố, khoa học, giáo dục, đặc biệt trong lĩnh vực hoạt động
Thơng tin - Thư viện.
Thơng tin liên quan đến các vấn đề của đơn vị, các cơng ty, các doanh nghiệp,
các bộ ngành.
Để cĩ được các thơng tin cần thiết và cập nhật về nội dung, phải xây dựng các
kho dữ liệu. Đĩ là quy trình phức tạp và tốn nhiều chi phí, bao gồm nhiều cơng
đoạn khác nhau từ thu thập, xử lý, phân tích, tổ chức lưu trữ thơng tin theo một số
tiêu chuẩn nào đĩ. Giải pháp CNTT thường được ứng dụng là sử dụng các hệ quản
trị cơ sở dữ liệu và các phần mềm giao tiếp để quản lý và truy tìm các thơng tin cần
thiết một cách nhanh chĩng.
Trong thời đại cách mạng cơng nghệ thơng tin, các kho thơng tin cần được
liên kết với nhau để giúp chia sẻ tài nguyên, cung cấp dịch vụ. Tuy nhiên khơng
phải hệ quản trị CSDL nào cũng cĩ thể đáp ứng tốt nhu cầu tích hợp, chia sẻ thơng
tin từ các nguồn phân tán, đơi khi khơng thật chuẩn mực! Lựa chọn giải pháp khả
thi để trao đổi, liên thơng các cơ sở dữ liệu là điều rất khĩ thực hiện.
Trên thực tế đã cĩ hai xu hướng giải quyết vấn đề như sau:
Thống nhất sử dụng chung một phần mềm hay một cơ sở dữ liệu.
Xây dựng Trung tâm tích hợp dữ liệu để thống nhất dữ liệu từ nhiều nguồn.
Giải pháp dùng chung phần mềm và cơ sở dữ liệu tuy cĩ làm giảm được chi phí
phải chuyển đổi và nhập lại dữ liệu, nhưng rất khĩ thực hiện ở quy mơ rộng, tại
nhiều địa điểm khác nhau, bởi vì nĩ địi hỏi mơi trường và trình độ ggười sử dụng
phải tương đối thống nhất. Mặt khác khĩ cĩ thể đầu tư và triển khai trên diện rộng
một phần mềm dùng chung cĩ chất lượng cao.
Xây dựng các trung tâm tích hợp thơng tin dữ liệu cũng địi hỏi thời gian và
chi phí khá lớn, và trên thực tế cũng khĩ lịng giải quyết được các vấn đề nêu trên.
Thực tế áp dụng CNTT của ngành GD- ĐT trong tuyển sinh đại học năm 2002 cho
thấy giải pháp tích hợp dữ liệu từ các trường và các địa phương để cĩ được kết quả
xét tuyển chung đã khơng thành cơng.
Trường Đại học SPKT Hưng Yên đã bước đầu triển khai sử dụng các phần
mềm chung của Bộ Giáo dục, như bộ phần mềm Edusoft,…Và bước đầu đã thu được
nhiều kết quả: thống nhất được các mẫu biểu, tìm kiếm thơng tin nhanh chĩng,…Tuy
-42-
nhiên, cơ sở dữ liệu bị hạn chế về kích thước, hạn chế hỗ trợ được tính năng sinh báo
cáo, ra quyết định, dự đốn xu hướng một cách nhanh nhất.
Đáp ứng đơng đảo của các cá nhân, xuất phát từ thực tế trên, chúng tơi đề xuất
xây dựng một kho dữ liệu về điểm của sinh viên một khoa làm thử nghiệp và để khắc
phục nhược điểm trên.
Các kho dữ liệu thống kê, khi được xây dựng và áp dụng thành cơng sẽ giúp cải
tiến chất lượng số liệu và hài hồ các quá trình thu thập số liệu thống kê, cung cấp
cơng cụ phục vụ quản lý và bảo vệ lưu trữ số liệu, cung cấp cơng cụ tiếp cận, xử lý,
sản xuất và phổ biến các đầu ra thống kê cĩ chất lượng.
Như ta đã đề cập, xu thế chủ đạo của kho dữ liệu: Trào lưu trong các cơng ty
(viễn thơng-ngân hành - lương hưu trí dịch vụ tài chính, chăm sĩc sức khỏe, bảo
hiểm, sản xuất, dược phẩm, giao thơng…) và Xu thế theo nhu cầu. Trong phạm vi luận
văn thì thuộc xu thế theo yêu cầu.
3.2. Xây dựng kho dữ liệu điểm của sinh viên
Xuất phát từ yêu cầu của luận văn, chúng tơi lấy dữ liệu kết quả của sinh viên
hệ cao đẳng thuộc khoa CNTT của trường các năm 1998, 1999, 2000, 2001, 2002,
2003, 2005, 2004, 2006, 2007 tại trường Đại học SPKT Hưng Yên để làm dữ liệu
demo trong kho dữ liệu và khai thác dữ liệu trong kho để giải quyết một số câu hỏi
mang tính chiến lược: Tìm ra mối quan hệ giữa các mơn học, điểm đầu vào của sinh
viên đến kết quả học tập, Xu hướng về học lực của sinh viên trong năm tới...
Mơi trường thực hiện:
Window 7.
Hệ quản trị CSDL SQL Server 2008.
3.2.1. Thơng tin về dữ liệu điểm
Kết quả học tập của sinh viên
Kết quả học tập của sinh viên là điểm tổng kết các mơn học. Trường Đại học
SPKT Hưng Yên cĩ nhiều ngành học, tất cả các ngành học đều phải học các mơn cơ
bản và các mơn thuộc kiến thức chung bắt buộc; các mơn cơ bản: Tốn cao cấp 1,
Tốn cao cấp 2, Vật lý, Hĩa học,… khối kiến thức chung bắt buộc: Triết học, Kinh tế
chính trị, …; tuỳ theo từng ngành học mà cĩ các mơn học thuộc các khối kiến thức cơ
sở ngành, chuyên ngành: do mỗi chuyên ngành quy định, chẳng hạn chuyên ngành
CNTT cĩ các mơn cơ sở ngành: Cơ sở dữ liệu quan hệ, Hệ quản trị CSDL,… Các mơn
chuyên ngành,... Mỗi năm, các mơn chuyên ngành lựa chọn cĩ sự thay đổi để giúp sinh
viên phù hợp với thị trường lao động, cĩ nghĩa là chương trình đào tạo của mỗi chuyên
ngành sẽ được cập nhật hàng năm đối với các chuyên ngành cĩ nhiều cơng nghệ mới
ra đời. Chẳng hạn, trước kia mơn Cơ sở kỹ thuật lập trình dùng ngơn ngữ Pasal, qua
các năm chuyển thành dùng ngơn ngữ C++, và hiện tại là C#.
Trường đã sử dụng phần mềm Microsoft Office Excel để tổng hợp và quản lý
điểm, kết quả của sinh viên của mỗi lớp sẽ được tổng hợp trong tồn khĩa như sau:
-43-
Hình 3.1 - Bảng tổng hợp kết quả học tập của một lớp
Bảng điểm của mỗi sinh viên như sau:
Từ điển dữ liệu
Thơng qua việc khảo sát, nghiên cứu, tìm hiểu về dữ liệu liên quan, từ những số liệu
và bảng biểu đã thu được với các cấu khơng đồng nhất, để khắc phục sự thất lạc của
dữ liệu và khai thác dữ liệu cĩ hiệu quả, chúng tơi đề xuất việc tổ chức lại các dữ liệu
nguồn dưới dạng cơ sở dữ liệu quan hệ.
Do dữ liệu chúng tơi đang xét liên quan đến điểm của sinh viên của một hệ đào tạo
(cao đẳng chính qui) của một khoa, sau này sẽ mở rộng ra tất cả các hệ của tất cả các
khoa trong trường nên trong cơ sơ sở dữ liệu dưới dạng thực thể kết hợp, sẽ cĩ các
kiểu thực thể sau:
Khoahoc: Lưu trữ thơng tin về các khĩa học, bao gồm các thuộc tính:
makhoahoc, namvao, namra
Lop: Lưu trữ thơng tin về các lớp thuộc mỗi khĩa học, bao gồm các thuộc tính:
malop, tenlop, HtgiaovienCN
Sinhvien: Lưu trữ thơng tin về các sinh viên, gồm các thuộc tính: Masv, hoten,
ngaysinh, gioitinh, quequan
Monhoc: Lưu trữ thơng tin của các mơn học, gồm các thuộc tính: Mamon,
tenmon, dvht.
Lược đồ cơ sở dữ liệu quan hệ thực thể tổng quát như sau:
Hình 3.2 - Lược đồ thực thể - mối quan hệ của CSDL điểm sinh viên
Lược đồ này, được chuyển sang mơ hình quan hệ như sau:
Khoahoc MonHoc
Lop SinhVien
cĩ
(1,n)
(1,1)
Gồm
Học
(1,n)
(1,n)
(1,1) (1,n)
DiemL1
DiemL2 Học kỳ
-44-
Hình 3.3 - Lược đồ CSDL điểm sinh viên dưới dạng quan hệ
Tuy nhiên, nếu thiết kế cơ sở dữ liệu như trên chỉ đáp bảo yêu cầu tác nghiệp
của hệ thống, khơng thể hiện được việc lưu trữ dữ liệu ở quá khứ, khơng tận dụng
được các kết quả đã cĩ sẵn, như điểm các kỳ của sinh viên, điểm tổng kết tồn
khĩa,…Hơn nữa, dữ liệu về điểm ngày càng tăng dẫn đến việc lưu trữ theo dạng này
hạn chế về kích thước, quan trọng hơn, với cơ sở dữ liệu dưới dạng quan hệ này chỉ trả
lời được các truy vấn dưới dạng đơn dạng, khơng xử lý được các truy vấn dưới dạng
nhiều chiều. Để khắc phục những nhiểm điểm này, giải pháp duy nhất là tổ chức dữ
liệu về điểm này dưới dạng kho dữ liệu.
Việc xây dựng một kho dữ liệu khơng phải đơn giản và nĩ gồm nhiều bước như
đã trình bày trong phần cơ sở lý thuyết nên trong phạm vi luận văn này, chúng tơi chỉ
đưa ra cách xây dựng một kho dữ liệu trong cơng cụ hộ trợ của hệ quản trị cơ sở dữ
liệu SQL Server.
Với lược đồ quan hệ được chỉ ra trong hình 3.4, chúng tơi đưa ra các dữ liệu liên
quan để xây dựng kho dữ liệu về điểm của sinh viên như sau:
Tên bảng STT Thuộc tính Ý nghĩa
1 Tenlop Tên lớp của sinh viên
2 Masv Mã sinh viên
3 Hoten Họ tên của sinh viên
4 Ngaysinh Ngày sinh của sinh viên
5 Gioitinh Giới tính của sinh viên
6 Quequan Quê quán của sinh viên
7 Diemky1 Điểm kỳ 1
8 Diemky2 Điểm kỳ 2
9 Diemky3 Điểm kỳ 3
10 Diemky4 Điểm kỳ 4
11 Diemky5 Điểm kỳ 5
Dim_Sinhvien:
Lưa trữ thơng tin
về sinh viên
12 Diemky6 Điểm kỳ 6
1 Mamon Mã mơn học Dim_Monhoc:
Lưa trữ thơng tin
về các mơn học
2 Tenmon Tên mơn học
-45-
1 Masv Mã sinh viên
2 Mamon Mã mơn học
3 Datekey Mã chiều thời gian
4 Sodvht Số đơn vị học trình
5 DiemmonL1 Điểm L1 của mơn học
6 DiemmonL2 Điểm L2 của mơn học
Fact_Diemmon:
Lưa trữ thơng tin
về điểm mơn học
của mỗi sinh viên
thuộc một kỳ học
nào đĩ.
7 Diemmon Điểm cao nhất của lần thi 1 và lần thi 2
1 Datekey Mã chiều thời gian
2 Makhoahoc Mã khĩa hoc
3 namhoc Năm học
Dim_Time:
Lưu trữ thơng tin
về thời gian
4 Hocki Học kì
1 Makhoahoc Mã khĩa hoc
2 Namvao Năm sinh viên vào trường
Dim_Khoahoc:
Lưu trữ về khĩa
học của sinh viên 3 Namra Năm sinh viên ra trường
1 MaSV Mã sinh viên
2 Datekey Mã chiều thời gian
3 Makhoahoc Mã khĩa hoc
4 DTBtheoky Điểm trung bình theo kỳ
KQHTtheoky:
Lưu trữ điểm theo
kỳ của sinh viên
Hocluctheoky Học lực theo kỳ
1 MaSV Mã sinh viên
2 Makhoahoc Mã khĩa hoc
3 Diemvao Điểm đầu vào của sinh viên
4 DTBkhoahoc Điểm trung bình tồn khĩa
KQHT_toankhoa:
Lưu trữ điểm tồn
khĩa của sinh viên
5 HLkhoahoc Học lực tồn khĩa
Hình 3.4 - Bảng các dữ liệu liên quan đến kho dữ liệu về điểm
Khi đĩ CSDL nguồn của kho được thiết kế dựa trên mơ hình quan hệ trong hệ quản trị
CSDL SQL Server 2008 như sau:
-46-
Hình 3.5 - Chuẩn hĩa, tối ưu dữ liệu làm nguồn cho kho dữ liệu điểm
Đưa dữ liệu vào CSDL tác nghiệp
Chúng tơi đưa kết quả học tập của sinh viên từ phần mềm Microsoft Office Excel
sang, export dữ liệu sang hệ quản trị cơ sở dữ liệu SQL Server 2008, bằng các dùng
một số câu truy vấn của ngơn ngữ T- SQL để đưa dữ liệu vào cơ sở tác nghiệp làm
nguồn cho kho dữ liệu.
3.2.2 Kiến trúc của kho dữ liệu
Việc thiết kế và tổ chức một kho dữ liệu là rất quan trọng vì nĩ ảnh hưởng đến
việc tổ chức và khai thác báo cáo sau này. Do vậy quá trình này địi hỏi những người
thiết kế phải rất hiểu về các kiến trúc, các thành phần và các lược đồ của kho dữ liệu
cũng như các ưu nhược điểm của mỗi loại. Việc chọn kiến trúc, lược đồ để xây dựng
Kho dữ liệu phải dựa trên những yêu cầu và đặc thù của bài tốn nghiệp vụ và tận
dụng những cở sở sẵn cĩ. Từ yêu cầu của việc khai thác các báo cáo như mơ tả ở trên,
chúng tơi chọn xây dựng một kho dữ liệu, khơng cĩ các kho dữ liệu chủ đề. Sở dĩ cĩ
quyết định này vì trong hệ thống chỉ cĩ duy nhất một chủ đề. Để phù hợp với thực tế,
chúng tơi xây dựng một kho dữ liệuvới một bảng sự kiện và các bảng chiều.
Kiến trúc kho dữ liệu đầy đủ gồm các lớp sau:
Data Source: các tệp và CSDL DiemSV.
-47-
Hình 3.6 – Nguồn của kho dữ liệu về điểm
Vùng dữ liệu tạm (Staging area): lưu dữ liệu tạm thời chưa kiểm tra tính hợp
lệ trước khi đưa vào kho dữ liệu, phục vụ cho quá trình làm sạch dữ liệu.
Kho dữ liệu: chứa tồn bộ dữ liệu DiemSV bao gồm các bảng chiều, bảng sự
kiện, các bảng tham chiếu.
Các cơng cụ trích lọc, chuyển đổi và nạp dữ liệu: Sử dụng dịch vụ tích hợp
cuả hệ quản trị cơ sở dữ liêu SQL Server hoặc ngơn ngữ T- SQL. Trong
phạm vi luận văn, chúng tơi sử dụng ngơn ngữ T- SQL để làm nhiệm vụ
này.
Hệ quản trị cơ sở dữ liệu SQL Server 2008
Ở đây, chúng ta sử dụng lược đồ hình sao mà khơng sử dụng lược đồ bơng tuyết
giúp cho việc xử lý các truy vấn được nhanh hơn, vì thế cần sử dụng các chiều phân
cấp. Bảng sự kiện sẽ được nối với nhiều chiều và các độ đo đều là số và dùng chung
chiều thời gian cho tất cả các sự kiện. Việc nghiên cứu thiết kế bảng sự kiện được căn
cứ vào các yêu cầu thống kê điểm của sinh viên.
3.2.3. Các chiều dữ liệu
Các bảng chiều: các bảng đại diện cho các chiều, chính là các điều kiện dùng khi
Query. Kho dữ liệu cĩ các bảng chiều như: Dim_Monhoc, Dim_SinhVien.
Các sự kiện: các bảng chứa dữ liệu độ đo theo các chiều kể trên, cĩ tên:
Fact_Diemmon
Chiều thời gian: Dim_time
Các thành phần của khối:
-48-
Hình 3.7 – Các chiều của khối DiemSV-20-4
3.2.4. Các bước cài đặt vật lý kho dữ liệu [15]
- Tạo các bảng: tạo các bảng sự kiện, bảng chiều và thiết lập các khĩa chính,
khĩa ngồi và các ràng buộc giữa các bảng.
- Tạo phân vùng cho các bảng cần thiết.
- Tạo các đối tượng chiều.
- Tạo các chỉ mục (nếu cần).
a. Tạo bảng
− Thiết kế cấu trúc vật lý
− Sinh ra các kịch bản
− Chỉnh sửa tên các ràng buộc như khố chính, ngồi
− Tạo các bảng từ các kịch bản
b. Tạo phân vùng
- Việc tạo phân vùng chỉ áp dụng trên các bảng cĩ số liệu lớn (như bảng sự kiện),
cĩ 3 phân vùng cho Fact_diemmon, KQHTtheoky, KQHTToankhoa.
- Chiều: dữ liệu ít nên khơng phân vùng
c. Tạo các đối tượng chiều
Các chiều mà phi chuẩn (kết hợp nhiều bảng danh mục với nhau) thì ta phải tạo
phân cấp.
d. Tạo các chỉ mục
− Sự kiện :
Khố chính: Cluster Index
Mỗi trường trong khố chính tạo 01 Bitmap Index
− Bảng đặc biệt :
-49-
Khố chính: Cluster Index
Mỗi trường trong khố chính tạo 1 Bitmap Index ngoại trừ các trường
mà là giá trị phát sinh khơng cĩ tra cứu (lookup).
Sau khi thực hiện các bước trên, ta cĩ kho dữ liệu như mơ tả trong hình 3.8.
Hình 3.8 – Kho dữ liệu về điểm của sinh viên
3.3. Xây dựng báo cáo từ kho dữ liệu phục vụ quản lý
3.3.1. Yêu cầu báo cáo
Hệ thống được xây dựng cần:
Hỗ trợ tổ chức và khai thác dữ liệu hướng đối tượng, từ đĩ cung cấp khả
năng khai thác dữ liệu theo nhiều mức khác nhau: tổng thể hoặc chi tiết;
biến động theo thời gian; so sánh giữa các đối tượng báo cáo và theo nhiều
chiều khác nhau như theo chiều thời gian, theo các đơn vị báo cáo, …
Cung cấp giao diện đơn giản, hỗ trợ khai thác hiệu quả báo cáo đã cĩ trong
CSDL với yêu cầu kiến thức CNTT của người sử dụng ở mức thơng thường.
a. Báo cáo chi tiết
Thường liệt kê số liệu theo một hoặc nhiều mã số thống kê như: thơng tin
của các sinh viên phải thi lại các mơn ở một kỳ nào đĩ của mỗi lớp...
Cách thức lấy báo cáo đơn giản, ít câu lệnh truy vấn, khơng phải tính tốn
cho từng ơ.
Thường cĩ tổng theo các nhĩm và tổng tất cả cuối báo cáo.
b. Báo cáo tổng hợp
Cách thức lấy dữ liệu phức tạp, phải tính tốn dữ liệu cho từng ơ trong báo
cáo.
Thứ tự sắp xếp theo hàng và cột khơng theo thứ tự sắp xếp của các bảng mã
số thống kê.
Dữ liệu cho các ơ cĩ thể là kết quả tính tốn từ các ơ khác.
3.3.2. Lợi ích của báo cáo trong BI
-50-
Các tổ chức, đơn vị sử dụng báo cáo từ nhiều nguồn nên báo cáo là cốt lõi và
được khai thác đầu tiên trong kinh doanh, quản lý. Dịch vụ báo cáo của BI trong hệ
quản trị cơ sở dữ liệu SQL Server cho phép các đơn vị truy cập, định dạng và phân
phối thơng tin dễ dàng đến nhân viên và các đối tác.
Linh hoạt trong triển khai từ những báo cáo đơn đến các báo cáo dạng web
tích hợp trong kinh doanh, quản lý của đơn vị.
Hiển thị kết qủa: Table (bảng), matrix, list, chart,…
Xuất dữ liệu linh hoạt ra PDF, HTML, Microsoft Excel, Rich Text Format,
hay văn bản thuần túy.
Tự động hỗ trợ thiết kế báo cáo dễ dàng và nhanh chĩng.
Tích hợp với SharePoint 2007. [17]
3.3.3. Xây dựng báo cáo và đưa ra kết quả
a. Thiết kế báo cáo [16]
Để thực hiện tạo ra một báo cáo, ta làm như sau:
Bước 1: Chọn cơng cụ BI:
Bước 2: Đặt tên báo cáo:
Hình 3.9 - Cửa sổ tạo Report Server Project
Bước 3: Thiết lập kết nối:
-51-
Hình 3.10- Cửa sổ thiết lập kết nối
Bước 4: Thiết lập nguồn:
Hình 3.11- Cửa sổ tạo Report Server Project
Bước 5: Chọn dữ liệu để hiện thị
Sau khi chọn kiểu báo cáo, hình sau là bước hồn thiện và đặt tên cho cáo, căn chỉnh
các điều khiển Textbox để hiển thị dữ liệu, chuyển sang tab Preview, kết quả của báo
cáo như sau:
-52-
Hình 3.12 – Hiển thị kết quả của báo cáo thơng thường dạng bảng
Thiết kế báo cáo như trên chỉ là một báo cáo thơng thường, chưa cĩ tính trực
quan, chưa thể hiện được nhiều ưu thế của báo cáo đa chiều. Báo cáo mới chỉ gộp
nhĩm phân trang dữ liệu thành từng khối và việc hiển thị chỉ là thống kê ra số liệu.
Báo cáo đa chiều thể hiện tính trực quan, sinh động và linh hoạt hơn, hỗ trợ tốt
nhất cĩ thể cho người quản lý cĩ thể nhanh chĩng nắm bắt, cĩ cái nhìn tổng.
Dịch vụ báo cáo của BI cho phép tạo ra các báo cáo từ nhiều nguồn khác nhau,
chẳng hạn lấy dữ liệu từ cơ sở dữ liệu quan hệ hoặc kho dữ liệu. Tuy nhiêu, nguồn cho
báo cáo tốt hơn vẫn là kho dữ liệu. Kho dữ liệu kế thừa các dữ liệu cĩ sẵn giúp tiết
kiệm thời gian và chi phí cho việc tạo báo cáo. Dưới đây là một dạng báo cáo lấy
nguồn từ kho dữ liệu thể hiện kết quả học tập của sinh viên và những phân tích để thấy
được tính ưu việt của việc dùng nguồn cho báo cáo là kho dữ liệu so với những nguồn
khác.
b. Các ví dụ về thiết kế báo cáo
Ví dụ 1: Báo cáo thống kê học lực của sinh viên qua các khĩa học
Hình 3.13- Báo cáo lực học của sinh viên thuộc mỗi khĩa học dạng cột
Nhìn vào biểu đồ về học lực của sinh viên qua các khĩa học ở hình 3.13. Ta
nhận thấy: Ở những khĩa đầu số lượng sinh viên cĩ học lực khá tương đối cao. Sau đĩ,
-53-
ở các khĩa tiếp theo, số lượng sinh viên cĩ học lực khá cĩ xu hướng giảm. Điều đĩ, cĩ
thể cho ta một nhận định là lực học của sinh viên đi xuống.
Dữ liệu đầu vào của kỹ thuật thiết kế báo báo này được đặt vào một nguồn ổn
định, dữ liệu đã được làm sạch vào chuẩn hĩa - đĩ là kho dữ liệu. Bản chất dữ liệu
trong kho nằm ở bảng sự kiện, dữ liệu trực tiếp lấy ra xử lý, giúp loại bỏ nhiều lỗi sinh
ra do phải thu thập và biểu diễn thơng tin từ nhiều nguồn khác nhau đồng thời giảm
bớt sự chậm trễ do phải lấy dữ liệu từ những phân đoạn khác nhau, tránh cho người
dùng phải viết những truy vấn SQL quá phức tạp. Chẳng hạn, khi thiết kế báo báo ở
hình 3.14, nếu dùng nguồn là CSDL thơng thường, truy vấn phải thực hiện các cơng
đoạn: Gom nhĩm và tính tốn cho nhĩm, chuyển đổi dữ liệu dịng thành cột,...Và việc
viết truy vấn dạng này địi hỏi sự hiểu biết sâu về ngơn ngữ SQL. Báo cáo lấy nguồn
từ CSDL thơng thường, truy vấn thực hiện mỗi khi chạy và phải tính tốn lại các kết
quả trung gian do đĩ tốc độ thực hiện báo cáo cĩ nguồn là kho dữ liệu sẽ nhanh hơn so
với CSDL thơng thường.
Để tạo lập một báo cáo phức tạp phục vụ cho mục đích ra quyết định của doanh
nghiệp, trong tab Design thêm vào các báo cáo cần thiết như chart, gause, image,… và
thiết lập các tham số, các trường dữ liệu cho các mục.
Ví dụ 2: Theo dõi tỉ lệ giới tính của sinh viên theo khĩa học
Hình 3.14 – Báo cáo thống kê số lượng về giới tính dạng thanh
Hình 3.14, cho chúng ta biết thơng tin chi tiết về tỉ lệ nam, nữ qua các khĩa
học, ta cĩ thể nhận xét: Số lượng sinh viên chuyên ngành cơng nghệ thơng tin của
trường cĩ xu hướng nữ nhiều hơn nam.
Ví dụ 3: Báo cáo về điểm vào trung bình, điểm tổng kết trung bình của sinh viên
thuộc mỗi khĩa học:
-54-
Hình 3.15 – Báo cáo điểm vào trung bình của sinh viên dạng hình dáng.
Hình 3.15, tuy một số khĩa đầu khơng cĩ dữ liệu về điểm tuyển sinh của sinh
viên, nhưng ta vẫn nhận thấy rằng: điểm đầu vào của sinh viên ngày càng thấp, điểm
tổng kết của sinh viên cũng tỉ lệ thuận với vào điểm vào của sinh viên đĩ.
Ví dụ 4: Theo dõi sự phụ thuộc giữa điểm tổng kết của sinh viên với điểm mơn
tốn của sinh viên đĩ:
Hình 3.16 – Theo dõi điểm tốn của sinh viên khĩa k03 dạng Line
Hình 3.17 – Theo dõi điểm tổng kết của sinh viên khĩa k03 dạng Line
Với ví dụ 4, hình 3.16 và 3.17, cho ta dự đốn rằng, đại đa số những sinh viên
cĩ điểm tốn cao (học giỏi tốn) thì điểm tổng kết cũng sẽ cao. Tuy nhiêu, điểm tổng
kết của sinh viên cịn phụ thuộc vào nhiều yếu tố khác.
Ví dụ 5: Báo cáo về lực học của sinh viên theo học kì:
-55-
Hình 3.18 – Học lực của sinh viên theo kỳ học
Với ví dụ 5, hình 3.18, đây là kết quả tồn khĩa học của mỗi sinh viên, nhìn
vào hình vẽ người xem cĩ thể nhận kết quả của sinh viên qua các kì học, đại đa số
càng những kì cuối kết quả cao hơn những kì đầu. Nguyên nhân gây ra vấn đề này cĩ
thể do tâm lý, mơi trường thay đổi, ngành học…Điều đĩ, giúp những tân sinh viên
khĩa mới xác định tâm lý ngay từ đầu bước vào giảng đường đại học.
Thơng qua các báo cáo đã thiết kế ở các ví dụ trên, những người lãnh đạo cĩ thể
lợi dụng các kết quả này để điều chỉnh chương trình học đào tạo phù hợp, điều chỉnh
các mơn học cho phù hợp với từng kỳ học, của mỗi hệ đào tạo khác nhau, quyết định
dự kiến điểm đầu vào để thu hút nhân tài và nâng cao chất lượng đào tạo.
3.3.4. Tính ưu việt của báo cáo xây dựng từ kho dữ liệu [16]
Hệ quản trị cơ sở dữ liệu SQL Server 2008 xây dựng dịch vụ báo cáo là sự nâng
cấp của bản 2000, 2005. Nhĩm tác giả của cuốn sách “Wrox - Professional Microsoft
SQL Server 2008 Report Services (2008)” đã khẳng định được tính ưu việt vượt trội
hơn hẳn so với một số cơng cụ tạo báo cáo truyền thống như Crystal Reports…
Báo cáo thiết kế đã được sử dụng các cơng cụ Crystal Reports, ví dụ, sẽ thường
là một chút đe dọa bởi các cơng cụ báo cáo thiết kế dịch vụ này, họ cĩ thể khơng quen
thuộc và với các tính năng nghèo nàn hơn.
Dịch vụ báo cáo là giải pháp báo cáo mở cho phép tạo, xuất bản và phân phối các
báo cáo doanh nghiệp chi tiết một cách dễ dàng cả bên trong và bên ngồi tổ chức. Các
báo cáo cĩ thể xuất ra nhiều dạng file và truy cập bằng cách gửi địa chỉ tới một trạm
internet hoặc mạng cục bộ một cách thích hợp thành lập để máy chủ, do đĩ, nĩ khá
linh hoạt.
Dịch vụ báo cáo đáp ứng các nhu cầu của dân cơng nghệ thơng tin nĩi chung và
các chuyên gia nĩi riêng. Người thiết kế báo cáo khơng quá tốn nhiều thời gian để
hồn thành một báo cáo; tùy biến các dạng hiển thị biểu đồ theo ý muốn.
-56-
Hơn
Các file đính kèm theo tài liệu này:
- LUẬN VĂN-NGHIÊN CỨU, KHAI THÁC KHO DỮ LIỆU ĐIỂM TẠI TRƯỜNG ĐẠI HỌC SPKT HƯNG YÊN DỰA TRÊN BỘ CÔNG CỤ BI CỦA HỆ QUẢN TRỊ CSDL SQL SERVER 2008.pdf