Tài liệu Phân tích đánh giá các hướng nghiên cứu đã có của các tác giả trong và ngoài nước liên quan đến Đề tài; nêu những vấn đề còn tồn tại; chỉ ra những vấn đề mà Đề tài cần tập trung, nghiên cứu giải quyết: MỞ ĐẦU: Trình bày lí do chọn đề tài, mục đích, đối tượng và phạm vi nghiên cứu.
TỔNG QUAN: Phân tích đánh giá các hướng nghiên cứu đã có của các tác giả trong và ngoài nước liên quan đến đề tài; nêu những vấn đề còn tồn tại; chỉ ra những vấn đề mà đề tài cần tập trung, nghiên cứu giải quyết.
NGHIÊN CỨU THỰC NGHIỆM HOẶC LÍ THUYẾT: Trình bày cơ sở lí thuyết, lí luận, giả thiết khoa học và phương pháp nghiên cứu đã được sử dụng trong khoá luận .
TRÌNH BÀY, ĐÁNH GIÁ BÀN LUẬN VỀ CÁC KẾT QUẢ: Mô tả ngắn gọn công việc nghiên cứu khoa học đã tiến hành, các kết quả nghiên cứu khoa học hoặc kết quả thực nghiệm. Đối với các đề tài ứng dụng có kết quả là sản phẩm phần mềm phải có hồ sơ thiết kế, cài đặt, ... theo một trong các mô hình đã học (UML, ...)
KẾT LUẬN: Trình bày những kết quả đạt được, những đóng góp mới và những đề xuất mới. Phần kết luận cần ngắn gọn, không có lời bàn và bình luận thêm.
HƯỚNG PHÁT TRIỂN: Kiến nghị về những hướng nghiên cứu tiếp theo.
DANH MỤC TÀI LIỆU THAM KHẢO: ...
79 trang |
Chia sẻ: Khủng Long | Lượt xem: 1762 | Lượt tải: 1
Bạn đang xem trước 20 trang mẫu tài liệu Phân tích đánh giá các hướng nghiên cứu đã có của các tác giả trong và ngoài nước liên quan đến Đề tài; nêu những vấn đề còn tồn tại; chỉ ra những vấn đề mà Đề tài cần tập trung, nghiên cứu giải quyết, để tải tài liệu gốc về máy bạn click vào nút DOWNLOAD ở trên
MỞ ĐẦU: Trình bày lí do chọn đề tài, mục đích, đối tượng và phạm vi nghiên cứu.
TỔNG QUAN: Phân tích đánh giá các hướng nghiên cứu đã có của các tác giả trong và ngoài nước liên quan đến đề tài; nêu những vấn đề còn tồn tại; chỉ ra những vấn đề mà đề tài cần tập trung, nghiên cứu giải quyết.
NGHIÊN CỨU THỰC NGHIỆM HOẶC LÍ THUYẾT: Trình bày cơ sở lí thuyết, lí luận, giả thiết khoa học và phương pháp nghiên cứu đã được sử dụng trong khoá luận .
TRÌNH BÀY, ĐÁNH GIÁ BÀN LUẬN VỀ CÁC KẾT QUẢ: Mô tả ngắn gọn công việc nghiên cứu khoa học đã tiến hành, các kết quả nghiên cứu khoa học hoặc kết quả thực nghiệm. Đối với các đề tài ứng dụng có kết quả là sản phẩm phần mềm phải có hồ sơ thiết kế, cài đặt, ... theo một trong các mô hình đã học (UML, ...)
KẾT LUẬN: Trình bày những kết quả đạt được, những đóng góp mới và những đề xuất mới. Phần kết luận cần ngắn gọn, không có lời bàn và bình luận thêm.
HƯỚNG PHÁT TRIỂN: Kiến nghị về những hướng nghiên cứu tiếp theo.
DANH MỤC TÀI LIỆU THAM KHẢO: Chỉ bao gồm các tài liệu được trích dẫn, sử dụng và đề cập tới để bàn luận trong khoá luận .
PHỤ LỤC.
Kho dữ liệu
Tổng quan về kho dữ liệu
Khái niệm
Khái niệm kho dữ liệu (data warehouse) lần đầu tiên được đưa ra bởi hai kiến trúc sư người Ireland của công ty IBM là Barry Devlin và Paul Murphy năm 1988. Từ đó đến nay, khái niệm kho dữ liệu hầu như không có nhiều thay đổi.
Theo Barry Devlin và Paul Murphy, kho dữ liệu được hiểu là: “Một nhà kho luận lí chứa tất cả những thông tin cần thiết phục vụ cho các báo cáo nghiệp vụ” (Pentaho Solutions – Trang 111).
Các nhu cầu thực tế của kho dữ liệu
Kho dữ liệu là một cơ sở dữ liệu được thiết kế đặc biệt cho các nhu cầu liên quan đến việc hỗ trợ ra quyết định. Từ góc nhìn của người dùng, kho dữ liệu mang lại những lợi ích sau:
Dữ liệu lưu trữ tập trung tại một nơi
Thông tin luôn được cập nhật: Thông tin từ nhiều nguồn được cập nhật định kì vào kho.
Truy xuất nhanh: Kho dữ liệu được thiết kế đặc biệt cho việc truy xuất nhanh với khối lượng thông tin lớn.
Không giới hạn kích thước
Lưu mọi thông tin lịch sử: Toàn bộ lịch sử dữ liệu được lưu vết, phục vụ việc phân tích số liệu theo thời gian.
Dễ hiểu: Kho dữ liệu được mô hình hoá dựa trên những thuật ngữ nghiệp vụ, gần gũi và dễ hiểu.
Rõ ràng và đồng nhất: Dữ liệu được hợp nhất và thống nhất dựa trên các khái niệm nghiệp vụ.
Dữ liệu chuẩn hoá: Tất cả dữ liệu được chuẩn hoá theo một chuẩn chung.
Các đặc trưng của kho dữ liệu
Kho dữ liệu có các đặc trưng sau đây (theo Bill Inmon):
Hướng chủ thể (subject oriented): Tất cả các thực thể và sự kiện liên quan đến một chủ thể được kết nối với nhau.
Biến thiên theo thời gian: Tất cả các thay đổi trên dữ liệu được theo dõi để thể hiện sự biến đổi theo thời gian.
Tính ổn định (non-volatile): Khi dữ liệu được lưu vào kho, nó sẽ không bao giờ bị ghi đè hoặc xoá. Với nhiều kiến trúc cao cấp, tính chất này không được duy trì trên từng phần nhưng về tổng thể cần được bảo đảm.
Tính tích hợp: Kho dữ liệu chứa dữ liệu được tích hợp từ nhiều hệ thống nguồn sau khi đã được làm sạch và chuẩn hoá.
Kho dữ liệu được xây dựng nhằm mục đích:
Bảo đảm hiệu suất hoạt động của hệ thống sản xuất không bị gián đoạn bởi các truy vấn dạng đặc biệt dạng phân tích. Các truy vấn loại này vốn có thời gian truy vấn lâu trên lượng dữ liệu lớn.
Bảo đảm các thông tin không bị thay đổi trong khi người dùng cuối truy vấn.
Kiến trúc kho dữ liệu
Các kiến trúc chính
Kiến trúc chung của một kho dữ liệu thường gồm nhiều vùng chứa dữ liệu (data store) nhỏ. Những vùng chứa dữ liệu này được phân loại dựa trên cấu trúc bao gồm (Building a DW – With examples in SQL Server – Trang 29-39):
Vùng xử lí (staging area): Là vùng chứa dữ liệu chuẩn bị cho việc biến đổi dữ liệu thu được từ nguồn trước khi chuyển qua các vùng chứa dữ liệu khác trong kho dữ liệu. Trong các hình vẽ, vùng này được viết tắt là “staging” hay “STG”.
Vùng chứa dữ liệu dạng chuẩn hoá (normalized data store): Là vùng chứa dữ liệu trung gian sau khi đã được biến đổi và tích hợp từ nhiều nguồn khác nhau. Trong vùng này, dữ liệu được lưu trữ ở dạng chuẩn cao, thường là dạng chuẩn 3. Dữ liệu trong vùng này đã sẵn sàng được nạp vào vùng kho dữ liệu đầu cuối mà không cần nhiều biến đổi phức tạp. Trong các hình vẽ, vùng này được viết tắt là NDS.
Vùng chứa dữ liệu hoạt động (operational data store): Là vùng chứa dữ liệu dạng lai (hybrid) giữa vùng dữ liệu chuẩn hoá và cơ sở dữ liệu hoạt động (operational database). Mục đích của nó ngoài việc hỗ trợ cho việc nạp dữ liệu vào kho dữ liệu đầu cuối, còn được dùng như là cơ sở dữ liệu hoạt động tập trung (centralized).
Kho dữ liệu đầu cuối, còn gọi là vùng dữ liệu đa chiều (dimesional data store): Là vùng kho dữ liệu đầu cuối, phía người dùng. Trong vùng này, dữ liệu được lưu trữ dưới dạng mô hình hoá đa chiều (dimensional modeling) nhằm hỗ trợ các ứng dụng hay truy vấn dạng phân tích đầu cuối. Trong các hình vẽ, vùng này được viết tắt là DDS, DW hay DWH.
Kho dữ liệu có rất nhiều loại kiến trúc. Từ đơn giản nhất, chỉ gồm một kho dữ liệu đầu cuối, đến rất phức tạp, bao gồm nhiều kho dữ liệu trung gian, được sử dụng trong những hệ thống lớn. Tuy nhiên, hầu hết các kiến trúc đều dựa trên 3 kiến trúc chung phổ biến sau:
Kiến trúc DDS đơn (single DDS) chỉ bao gồm kho dữ liệu đầu cuối và một vùng xử lí.
Kiến trúc NDS+DDS là kiến trúc bao gồm vùng xử lí, vùng dữ liệu chuẩn hoá, và kho dữ liệu đầu cuối.
Kiến trúc ODS+DDS tương tự như kiến trúc NDS+DDS nhưng sử dụng vùng dữ liệu hoạt động thay cho vùng dữ liệu chuẩn hoá.
Mỗi kiến trúc đều có những ưu điểm và nhược điểm riêng. Sau đây, chúng ta sẽ phân tích sơ qua từng kiến trúc.
Kiến trúc DDS đơn
Hình 1.2.1.1-1: Kiến trúc kho dữ liệu dạng DDS đơn
Kiến trúc DDS đơn là một trong những dạng kiến trúc đơn giản nhất của kho dữ liệu. Kiến trúc này có thành phần chính là một kho dữ liệu trung tâm.
Dữ liệu từ nhiều hệ thống nguồn được nạp vào vùng xử lí thông qua một gói ETL (Extract-Transform-Load: Rút trích-Biến đổi-Nạp – Xem chương 3). Gói ETL này sẽ rút trích dữ liệu từ nhiều nguồn khác nhau, thực hiện một số phép biến đổi dữ liệu đơn giản. Dữ liệu sau đó được chứa trong vùng xử lí.
Dữ liệu trong vùng xử lí sau khi được xử lí sơ bộ sẽ được biến đổi thông qua một gói ETL khác để đưa vào kho dữ liệu đầu cuối. Quá trình biến đổi này bao gồm nhiều công đoạn từ việc làm sạch, chuẩn hoá dữ liệu đến việc quản lí chất lượng và lịch sử thay đổi của dữ liệu.
Kho dữ liệu đầu cuối chứa những dữ liệu đã được biến đổi, chuẩn hoá, và lưu trữ dưới dạng mô hình đa chiều, sẵn sàng phục vụ cho các ứng dụng đầu cuối.
Ưu điểm:
Kiến trúc đơn giản.
Ít công đoạn xử lí.
Thuận lợi khi xây dựng những kho dữ liệu nhỏ.
Nhược điểm:
Không hỗ trợ việc tạo ra nhiều kho dữ liệu phục vụ cho nhiều mục đích khác nhau dựa trên dữ liệu sẵn có. Nếu có nhu cầu chỉ cần sử dụng một phần của kho dữ liệu (data-mart) thì phải xây dựng một gói ETL khác phục vụ quá trình này.
Không tái sử dụng được gói ETL đã làm. Mỗi một quy trình rút trích-biến đổi-nạp cho từng thành phần trong kho dữ liệu đầu cuối được thực hiện độc lập. Việc này gây khó khăn cho việc xây dựng những kho dữ liệu lớn.
Kiến trúc NDS+DDS
Hình 1.2.1.2-1: Kiến trúc kho dữ liệu dạng NDS+DDS
Đây là một kiến trúc khá phổ biến. Kiến trúc này tương tự như kiến trúc DDS đơn, nhưng có thêm một vùng chứa dữ liệu trung gian là vùng chứa dữ liệu chuẩn hoá NDS.
Dữ liệu sau khi được làm sạch, thay vì đưa thẳng vào kho dữ liệu đầu cuối, nó được lưu trong vùng chứa dữ liệu trung gian. Vùng chứa dữ liệu trung gian đóng vai trò như là một cơ sở dữ liệu tập trung, đã được chuẩn hoá, bao gồm cả dữ liệu lịch sử. Việc nạp vào kho dữ liệu đầu cuối sẽ không cần qua công đoạn làm sạch và quản lí chất lượng dữ liệu nữa.
Ưu điểm:
Lưu trữ dữ liệu tập trung đã được làm sạch.
Chứa dữ liệu lịch sử.
Sẵn sàng cho việc nạp vào nhiều kho dữ liệu đầu cuối.
Tái sử dụng được các gói ETL.
Nhược điểm:
Kiến trúc phức tạp
Tốn thêm không gian lưu trữ.
Thời gian thực hiện một chu kì nạp dữ liệu lâu hơn so với kiến trúc DDS đơn.
Vùng chứa dữ liệu trung gian không được tận dụng vào mục đích khác.
Kiến trúc ODS+DDS
Hình 1.2.1.3-1: Kiến trúc kho dữ liệu dạng ODS+DDS
Kiến trúc này có nhiều điểm tương đồng với kiến trúc NDS+DDS. Như trong hình vẽ, thay vì sử dụng một vùng dữ liệu chuẩn hoá làm vùng dữ liệu trung gian, người ta sử dụng một vùng dữ liệu hoạt động thay cho nó.
Vùng dữ liệu hoạt động này cũng là một cơ sở dữ liệu dạng chuẩn hoá cao. Tuy nhiên, nó không lưu dữ liệu lịch sử. Vùng dữ liệu hoạt động có cấu trúc nghiêng về dạng cơ sở dữ liệu phục vụ giao tác (OLTP) nhiều hơn. Nó đóng vai trò như là một cơ sở dữ liệu tập trung mà ở đó, ứng dụng đầu cuối cho phép khai thác trên nó.
Có thể thấy những ưu điểm và nhược điểm của nó so với kiến trúc NDS+DDS như sau:
Ưu điểm:
Lưu trữ dữ liệu tập trung đã được làm sạch.
Tận dụng làm cơ sở dữ liệu tập trung phục vụ giao tác cho ứng dụng đầu cuối.
Nhược điểm:
Không chứa dữ liệu lịch sử.
Các gói ETL để đưa dữ liệu từ vùng dữ liệu hoạt động vào kho dữ liệu đầu cuối phức tạp hơn.
Vùng dữ liệu hoạt động có thể bị gián đoạn khi nạp kho dữ liệu.
Không tái sử dụng được các gói ETL.
Trong nội dung của cuốn khoá luận này, nội dung sẽ tập trung vào kiến trúc NDS+DDS.
Vùng xử lí
Hình 1.2.2-1: Vùng xử lí
Thông thường, trong tất cả các kiến trúc kho dữ liệu, luôn có một vùng chứa dữ liệu gọi là vùng xử lí. Dữ liệu được chuyển từ nhiều nguồn vào vùng xử lí mà không thông qua (hoặc rất ít) công đoạn xử lí nào.
Hẳn nhiên, có thể nạp trực tiếp dữ liệu từ nguồn vào kho dữ liệu đầu cuối. Tuy vậy, việc sử dụng một vùng xử lí có các lợi ích sau:
Giảm thiểu tối đa thời gian rút trích dữ liệu từ nguồn. Việc này nhằm tránh gián đoạn đến hoạt động của các cơ sở dữ liệu nguồn. Thông thường, người ta sẽ sao chép y nguyên dữ liệu nguồn vào vùng này.
Khi sử dụng các vùng xử lí độc lập cho từng nguồn, cho phép thao tác trên một tập hợp nhỏ các dữ liệu mà ta cần sử dụng, thay vì truy vấn toàn bộ dữ liệu nguồn.
Vùng xử lí nếu được cài đặt chỉ mục hợp lí, sẽ hỗ trợ việc nạp dữ liệu vào kho dữ liệu nhanh hơn.
Vùng xử lí cho phép phục hồi sau sự cố. Dữ liệu khi đã được nạp vào vùng xử lí, có thể được xem là an toàn. Trong quá trình nạp dữ liệu vào kho dữ liệu, nếu bị gián đoạn do sự cố, quá trình nạp dữ liệu dễ dàng được phục hồi bằng cách nạp tiếp dữ liệu đang nạp từ vùng này. Bởi vì trong mỗi lần nạp, dữ liệu ở vùng xử lí không bị thay đổi, nên hoàn toàn không ảnh hưởng đến quá trình nạp. Nếu nạp trực tiếp từ nguồn, nơi dữ liệu thay đổi thường xuyên, quá trình nạp phải được làm lại từ đầu, bao gồm cả việc loại bỏ các dữ liệu đang nạp dở dang.
Vùng xử lí có thể lưu trữ dữ liệu dài hạn, như là một cơ sở dữ liệu trung gian. Nhưng thông thường, người ta sẽ xoá đi sau mỗi lần nạp dữ liệu. Đặc biết đối với các kiến trúc cấp cao như NDS+DDS hay ODS+DDS, việc lưu trữ dữ liệu trong vùng xử lí sau mỗi công đoạn nạp là hoàn toàn không cần thiết.
Cấu trúc của dữ liệu vùng xử lí như sau:
Đối với dữ liệu nguồn là cơ sở dữ liệu: Dữ liệu trong vùng xử lí là tất cả các bảng chứ dữ liệu cần thiết cho việc nạp dữ liệu, nhưng chỉ chứa các cột dữ liệu cần thiết mà thôi. Các bảng được loại bỏ các ràng buộc khoá chính, khoá ngoại và chỉ mục. Việc này nhằm tăng tốc cho sao chép dữ liệu nguồn. Để tránh việc dữ liệu không nhất quán, các gói ETL cần được thiết kế cẩn thận để giải quyết việc này.
Đối với dữ liệu nguồn là dạng tập tin: Đơn giản chỉ cần sao chép nó đến máy chủ.
Cơ sở dữ liệu chuẩn hoá
Hình 1.2.3-1: Cơ sở dữ liệu chuẩn hoá.
Đối với kiến trúc NDS+DDS, vùng chứa dữ liệu dạng chuẩn hoá, còn được gọi là cơ sở dữ liệu chuẩn hoá đóng vai trò là một cơ sở dữ liệu tập trung. Cơ sở dữ liệu này có các đặc điểm sau:
Là nơi tập trung dữ liệu từ nhiều nguồn. Tất cả dữ liệu này đều đã được làm sạch.
Cơ sở dữ liệu được tổ chức ở dạng chuẩn hoá cao, nhằm bảo đảm chất lượng dữ liệu, các ràng buộc toàn vẹn trên dữ liệu cũng như tính nhất quá của dữ liệu.
Các thông tin về lịch sử của dữ liệu được lưu lại toàn bộ ở đây. Nếu dữ liệu nguồn không chứa thông tin lịch sử, gói ETL dùng biến đổi dữ liệu vào cơ sở dữ liệu chuẩn hoá sẽ đảm nhận việc bổ sung các dữ liệu lịch sử. Thường là ngày tháng khi lấy dữ liệu. Nếu dữ liệu nguồn chứa thông tin lịch sử, gói ETL dùng biến đổi dữ liệu sẽ chuyển đổi các thông tin lịch sử tương ứng từ nguồn vào cơ sở dữ liệu chuẩn hoá. Các thông tin này cho phép nắm bắt lịch sử dữ liệu tại một nơi tập trung duy nhất.
Cấu trúc của cơ sở dữ liệu chuẩn hoá rất gần với cấu trúc của kho dữ liệu đầu cuối, tuy nhiên được tổ chứ ở dạng chuẩn cao. Việc này giúp tăng tốc cho các tính toán số liệu trong khi nạp các dữ kiện vào kho dữ liệu.
Dữ liệu sau mỗi lần nạp thành công vào cơ sở dữ liệu chuẩn hoá, sẽ được xoá trong vùng xử lí. Khi quá trình nạp dữ liệu bị gián đoạn, quá trình nạp dữ liệu được thực hiện tiếp tục trên những dữ liệu chưa được nạp thành công, tức là vẫn còn dữ liệu trên vùng xử lí.
Kho dữ liệu đầu cuối
Hình 1.2.4-1: Kho dữ liệu đầu cuối
Trong một hệ thống kho dữ liệu, kho dữ liệu đầu cuối là thành phần quan trọng nhất, ở đó, dữ liệu được tổ chức theo một cấu trúc đặc biệt: mô hình đa chiều (dimensional). Đây là cấu trúc dạng tối ưu phục vụ truy vấn đầu cuối cho các ứng dụng phân tích như OLAP, khai thác dữ liệu,
Đây là kiểu cấu trúc dựa trên mô hình khối đa chiều (multi-dimension cube). Mỗi khối đa chiều là bao gồm một bảng dữ kiện (fact) và các bảng chiều (dimension). Dữ kiện là các độ đo, các số liệu được tính toán từ các chiều. Cấu trúc dữ liệu này có đặc trưng là phi chuẩn hoá (denormalized). Đây là một đặc trưng quan trọng của kho dữ liệu mô hình hoá đa chiều.
Cấu trúc và phương pháp mô hình hoá đa chiều được đề cập trong Chương 2 - Mô hình hoá sử dụng lược đồ hình sao.
Nói một cách tóm tắt, kho dữ liệu đầu cuối nhằm mục đích sau:
Tăng tốc tối đa thời gian truy vấn trên các dữ liệu dạng phân tích. Dữ liệu truy vấn trên kho dữ liệu cho tốc độ rất cao. Ở những hệ thống lớn, với nhiều nguồn dữ liệu, một câu truy vấn chạy trực tiếp trên dữ liệu nguồn có thể mất hàng giờ đồng hồ, nhưng khi chạy trên hệ thống kho dữ liệu chỉ mất vài phút. Việc rút ngắn thời gian như vậy là rất đáng kể. Ngoài ra, nó còn giúp hạn chế việc gián đoạn hoạt động của các hệ thống nguồn.
Hỗ trợ phân tích các thay đổi mang tính lịch sử trên dữ liệu. Kho dữ liệu được tổ chức để theo dõi toàn bộ các thay đổi của dữ liệu. Vì vậy, các phân tích dữ liệu theo dòng thời gian là đặc biệt nhanh chóng và hiệu quả.
Đối với những truy vấn có được phát biểu dưới dạng tương tự nhau, câu truy vấn SQL/MDX trên kho dữ liệu có rất ít khác biệt. Các truy vấn phát biểu dạng này cũng dễ hiểu và gần gũi người dùng cuối. Chẳng hạn: câu truy vấn “Tương quan tỉ lệ sinh viên đậu/rớt trong năm nay so với các năm trước?” và “Tương quan giữa thời gian sử dụng hệ thống học tập trực tuyến và điểm số của sinh viên?” là những câu truy vấn có cấu trúc tương tự nhau.
Hỗ trợ xây dựng khối OLAP nhanh, hiệu quả. OLAP là một trong những ứng dụng đầu cuối phổ biến trong việc sử dụng hệ thống kho dữ liệu. Khối OLAP mặc dù có thể xây dựng trên cơ sở dữ liệu thông thường, nhưng nếu được xây dựng trên kho dữ liệu, sẽ giảm thiểu thời gian xây dựng khối và tăng tốc các truy vấn OLAP.
Các thách thức đối với kho dữ liệu
Việc xây dựng kho dữ liệu là một công việc phức tạp và đòi hỏi nhiều vấn đề cần được nghiên cứu kĩ càng trước khi cài đặt. Đối với kho dữ liệu, nhưng thách thức sau đây luôn được đặt lên hàng đầu:
Chất lượng dữ liệu
Thách thức lớn nhất là việc quản lí chất lượng dữ liệu. Bởi vì bản thân các hệ thống nguồn thường không bao giờ không bị lỗi trên dữ liệu, việc xây dựng kho dữ liệu bảo đảm cung cấp đầy đủ thông tin và nhiều ý nghĩa là liên hệ sống còn đến tính hiệu quả của kho dữ liệu. Quản lí chất lượng dữ liệu bao gồm:
Dữ liệu trùng lắp: Xảy ra khi cùng một dữ liệu được ghi nhiều lần vào kho, nhưng không thể theo dõi được do thiếu các ràng buộc khoá.
Dữ liệu không đầy đủ: Dữ liệu thiếu trong quá trình nhập liệu, chẳng hạn sinh viên thiếu thông tin về địa chỉ tạm trú/thường trú. Việc này làm giảm hiệu quả của các phân tích đầu cuối.
Dữ liệu sai: Là trường hợp dữ liệu bị lỗi chẳng hạn như lỗi đánh máy, lỗi chính tả, chữ hoa, chữ thường
Xung đột dữ liệu: Đây là trường hợp cùng một dữ liệu nhưng được lưu trữ trên nhiều bảng hoặc thậm chí nhiều nguồn khác nhau, nhưng không nhất quán.
Siêu dữ liệu không rõ nghĩa: Thường là do cùng một đối tượng dữ liệu nhưng khác kiểu dữ liệu hoặc sai lệch về ngữ nghĩa của dữ liệu trên các nguồn khác nhau. Chẳng hạn cùng tên cột, cùng bảng, nhưng trên 2 nguồn khác nhau có ngữ nghĩa hoàn toàn khác nhau.
Thiếu dữ liệu: Là trường hợp dữ liệu lẽ ra phải có để bảo đảm toàn vẹn (tham chiếu), nhưng không tìm thấy các dữ liệu này ở nơi khác.
Dữ liệu NULL: Đây là dạng dữ liệu rất chung chung và tối nghĩa. Nó cần được dịch ra để phù hợp với ngữ cảnh.
Khối lượng dữ liệu và hiệu suất hoạt động
Nếu như lượng dữ liệu trung bình cho mỗi cơ sở dữ liệu khoảng vài đến vài chục Gigabyte, dữ liệu trong kho dữ liệu có thể lên đến vài chục Terabyte, thậm chí còn được tính bằng đơn vị Petabytes (1Petabytes = 1024Terabytes). Điều này là hoàn toàn dễ hiểu vì 2 lí do sau:
Dữ liệu được mô hình hoá đa chiều, tổ chức dưới dạng phi chuẩn (denormalized) khiến cho khối lượng dữ liệu trùng lắp tăng đáng kể.
Dữ liệu lịch sử được lưu lại ở mức chi tiết nhất có thể, theo thời gian, sẽ tăng lên rất nhanh.
Đối với lượng dữ liệu lớn như vậy, các đề nghị sau cần được xem xét để tăng hiệu suất hoạt động cho kho:
Xây dựng hệ thống vật lý độc lập nguồn: Việc này làm giảm tải xử lí cho hệ thống nguồn. Tuy rằng việc tổ chức trên cùng một hệ thống vật lí với hệ thống nguồn cho phép tăng thời gian nạp, ngược lại, lại làm giảm hiệu suất hoạt động của chính hệ thống nguồn. Hơn nữa, các hệ thống nguồn nằm rải rác thì không thể tổ chức một hệ thống kho dữ liệu phân tán trên đó được.
Cài đặt chỉ mục: Hoạt động chính của kho dữ liệu là việc đọc dữ liệu hơn là ghi dữ liệu lên đó. Các câu truy vấn chủ yếu tốn thời gian ở việc tìm kiếm dữ liệu. Cài đặt chỉ mục hợp lí là phương pháp hiệu quả để tăng tốc truy vấn. Các truy vấn thường dùng cần được phân tích cho việc cài đặt chỉ mục.
Chỉ mục dạng bitmap: Đây là dạng chỉ mục rất hiệu quả đối với những bảng có số lượng các giá trị rời rạc (cardinality) thấp. Xem xét việc cài đặt chỉ mục dạng này cũng làm tăng đáng kể hiệu suất truy vấn.
Dữ liệu tổng hợp (Aggregation): Có thể xem xét việc tiền xử lí các dữ kiện, chẳng hạn như xây dựng các bảng trung gian, chứa các dữ liệu được tổng hợp (sum, count, average) ở độ mịn cao.
Nắm bắt các thay đổi trên dữ liệu
Việc nạp dữ liệu từ nguồn vào vùng xử lí thoạt nhìn có vẻ đơn giản. Nhưng không hẳn như vậy. Người ta không thể mỗi lần nạp dữ liệu đều sao chép toàn bộ dữ liệu từ nguồn vào vùng xử lí. Đây là việc làm rất tốn kém và không hiệu quả. Thay vào đó, người ta cố gắng nắm bắt được các thay đổi trên dữ liệu, bao gồm các dữ liệu mới và các dữ liệu cũ vừa bị thay đổi.
Có 4 kĩ thuật nắm bắt thay đổi dữ liệu nguồn, được chia làm 2 loại chính:
Kĩ thuật xâm nhập (intrusive): Là các kĩ thuật ở đó cần thực hiện truy vấn trên dữ liệu nguồn mà gây ảnh hưởng đến hiệu suất hoạt động của nó. Bao gồm:
Nắm bắt thay đổi dựa trên dữ liệu nguồn: Là kĩ thuật nắm bắt thay đổi dựa trên chính các thuộc tính trong dữ liệu nguồn.
Dựa trên nhãn thời gian: dựa vào các nhãn thời gian có sẵn trên dữ liệu nguồn như nhãn thêm, nhãn sửa
Dựa trên định danh tự động tăng: chỉ nắm bắt được thay đổi của dữ liệu mới.
Nắm bắt thay đổi dựa trên trigger: Bằng cách cài đặt thêm trigger vào cơ sở dữ liệu nguồn. Các dữ liệu lịch sử này được lưu riêng, cho phép hệ thống kho dữ liệu truy vấn để rút trích dữ liệu mới hoặc đã thay đổi.
Nắm bắt thay đổi dựa trên ảnh chụp dữ liệu (snapshot): Đây là kĩ thuật mà ở đó, vùng xử lí lưu lại toàn bộ dữ liệu của lần nạp trước như là một ảnh chụp dữ liệu. Dữ liệu ở lần nạp sau được so sánh với dữ liệu trước để so sánh thay đổi trước khi quyết định sẽ lấy dữ liệu nào. Kĩ thuật này được sử dụng đối với dữ liệu nguồn thiếu thông tin lịch sử, và tránh việc phải thay đổi hệ thống nguồn (bằng trigger).
Kĩ thuật phi xâm nhập (non-intrusive): Là các kĩ thuật không gây ảnh hưởng đến hiệu suất hoạt độn của dữ liệu nguồn.
Nắm bắt thay đổi dựa trên log: Trên mỗi hệ thống nguồn, có thể sử dụng có sẵn (đối với cơ sở dữ liệu) hay cài đặt một chương trình ghi log, quản lí toàn bộ lịch sử thay đổi của nguồn.
Yêu cầu người dùng thay đổi
Cũng giống như mọi dự án phần mềm khác, việc xây dựng hệ thống có thể bảo đảm được cho việc thay đổi yêu cầu người dùng trong tương lai là thách thức rất lớn.
Các xu hướng xây dựng kho dữ liệu
Kho dữ liệu ảo
Kho dữ liệu thời gian thực
Kho dữ liệu phân tích
Mô hình hoá sử dụng lược đồ hình sao
Như đã đề cập ở chương 1, việc tối ưu hoá tốc truy vấn cho kho dữ liệu là điều kiện tiên quyết cho hiệu quả triển khai một dự án kho dữ liệu. Vì vậy cấu trúc cơ sở dữ liệu của kho dữ liệu cần được tổ chức theo một mô hình đặc trưng riêng. Đó là phương pháp mô hình hoá đa chiều.
So sánh phương pháp mô hình hoá của Bill Inmon và Ralph Kimball
Việc tổ chức dữ liệu trong cơ sở dữ liệu của kho dữ liệu được tiếp cận theo 2 hướng sau:
Phương pháp mô hình hoá dạng chuẩn hoá của Bill Inmon (lược đồ bông tuyết): Cơ sở dữ liệu được tổ chức dưới dạng chuẩn hoá, tuân theo luật chuẩn hoá như đối với cơ sở dữ liệu quan hệ thông thường (dạng chuẩn 3).
Ưu điểm:
Dữ liệu được nạp từ nguồn vào đích dễ dàng.
Dạng chuẩn cao giúp bảo đảm các ràng buộc toàn vẹn của dữ liệu, tránh trùng lắp.
Nhược điểm:
Việc kết các bảng để cho ra kết quả truy vấn mong muốn phức tạp
Đòi hỏi người dùng phải hiểu được cấu trúc tổ bên dưới của kho dữ liệu.
Tốc độ truy vấn chậm do việc kết các bảng có kích thước lớn.
Phương pháp mô hình hoá đa chiều của Ralph Kimball (lược đồ hình sao): Cơ sở dữ liệu được lưu trữ dưới dạng phi chuẩn hoá. Bao gồm bảng dữ kiện (fact) chứa thông tin các giao tác và các bảng chiều (dimension) đóng vai trò như là bảng tham chiếu lấy thông tin. Các bảng này đều được lưu dưới dạng chuẩn thấp (dạng chuẩn 1 hoặc 2)
Ưu điểm:
Truy vấn người dùng cuối dễ dàng được thực hiện mà không đòi hỏi người dùng phải hiểu rõ về cấu trúc của kho dữ liệu.
Thiết kế hướng nghiệp vụ, là ánh xạ trực tiếp từ quy trình nghiệp vụ của doanh nghiệp.
Tốc độ truy vấn cao.
Nhược điểm:
Dữ liệu nguồn cần phải được phi chuẩn hoá (denormalized) và bảo đảm ràng buộc toàn vẹn trong quá trình nạp dữ liệu vào kho.
Trùng lắp dữ liệu nhiều, khiến cho kích thước kho lớn (Trong điều kiện công nghệ hiện nay, đây không hẳn là một trở ngại lớn!)
Xu hướng hiện tại, đa số các dự án trên kho dữ liệu được cài đặt dưới dạng mô hình hoá đa chiều bằng lược đồ hình sao do hiệu suất hoạt động vượt trội của nó. Các nhược điểm của mô hình dạng này không phải là trở ngại lớn.
Trong nội dung của luận văn này, chúng ta chỉ bàn đến các thiết kế dựa trên lược đồ hình sao.
Lược đồ hình sao
Như đã nói ở trên, phương pháp mô hình hoá đa chiều với lược đồ hình sao thể hiện những ưu điểm vượt trội của mình. Bởi vì kho dữ liệu được thiết kế cho mục đích đọc nhiều hơn là ghi trên nó, đặc biệt, nó không phải là cơ sở dữ liệu phục vụ giao tác (OLTP), việc tránh dư thừa dữ liệu là không cần thiết.
Hình 2.2-1: Lược đồ hình sao.
Lược đồ hình sao được gọi theo mô hình của nó. Như mô tả trong hình vẽ, lược đồ hình sao bao gồm một bảng trung tâm gọi là bảng dữ kiện. Bảng này tham chiếu đến các bảng xung quanh, gọi là bảng chiều.
Bảng chiều và bảng dữ kiện
Để hiểu một cách đơn giản cho khái niệm bảng chiều và bảng dữ kiện, ta hãy xem xét ví dụ sau:
Hệ thống của trường ghi lại việc “Một sinh viên SV vào trang web Moodle của khoa để xem thông tin của một môn học MH vào lúc 12h trưa ngày 06/06/2006, thời gian truy cập 60 giây.”
Ta xem mỗi lần sinh viên vào trang web môn học được xem như một giao tác. Như vậy, hệ thống đã ghi nhận có một giao tác, liên quan đến các đối tượng sau:
Sinh viên SV
Môn học MH,
12h trưa
Ngày 06/06/2006
Ở đây, ta có một ngữ cảnh liên quan đến 4 đối tượng trên, và một con số đo thời gian 60 giây.
Các đối tượng tham gia vào giao tác, hay là ngữ cảnh của giao tác đó, được gọi là chiều.
Con số thể hiện một độ đo của một giao tác gọi là dữ kiện của giao tác đó. Ở đây, con số 60giây là dữ kiện của giao tác truy cập trang web trên. Ta có thể vẽ một lược đồ hình sao như sau:
Hình 2.2.1-1: Ví dụ lược đồ hình sao
Các đặc trưng của lược đồ hình sao
Xem xét cấu trúc một lược đồ hình sao như sau:
Hình 2.2.2-1: Cấu trúc lược đồ hình sao
Tất cả các dòng trong bảng dữ kiện được lưu với độ mịn thấp nhất có thể. Độ mịn là mức độ chi tiết của dữ liệu. Một dữ kiện được tính theo ngày có độ mịn thấp hơn dữ kiện được tính theo giờ
Độ mịn của dữ kiện được xác định bằng độ mịn của các chiều liên quan.
Tất cả các độ đo trong bảng dữ kiện có thể được cuộn lên (roll-up) hoặc gom nhóm theo chiều. Chẳng hạn có thể tính doanh thu theo tháng, năm, gom nhóm theo sản phẩm,
Truy vấn trên lược đồ hình sao
(Cần bổ sung các so sánh truy vấn giữa lược đồ hình sao và lược đồ chuẩn hoá)
Kiến trúc buýt
Để đưa ra thiết kế chính xác cho kho dữ liệu, người ta sử dụng ma trận kiến buýt (bus matrix) (Ralph Kimball - The Data Warehouse Toolkit). Đây là một bảng mô tả mối liên hệ giữa các nghiệp vụ với các đối tượng liên quan.
Hình 2.4-1: Ma trận kiến trúc buýt
Bảng trên đây mô tả mối liên hệ giữa các nghiệp vụ:
Các dòng: Thể hiện các nghiệp vụ
Các cột: Thể hiện các đối tượng
Các ô: Mô tả một đối tượng có liên quan đến nghiệp vụ đó hay không.
Bằng việc phân tích yêu cầu người dùng và đưa ra được ma trận kiến trúc buýt, có thể dễ dàng xây dựng lược đồ hình sao cho kho dữ liệu trong dó:
Các dòng: Là các bảng dữ kiện.
Các cột: Là các bảng chiều.
Chú ý rằng các bảng dữ kiện khác nhau có thể cùng tham chiếu đến một chiều. Các chiều này được gọi là các chiều chuẩn (conformed dimension)
Các nguyên tắc thiết kế
Có một số nguyên tắc chung khi thiết kế kho dữ liệu như sau:
Sử dụng khoá đại diện:
Thông thường, mỗi bảng đều có một khoá chính dùng định danh cho từng dòng của nó. Khoá này có thể tạo bởi 1 hay nhiều cột. Trong dữ liệu nguồn, khoá này là không thống nhất, và có thể mang nhiều kiểu khác nhau, cũng có thể được tạo tự động bởi cơ sở dữ liệu nguồn. Chẳng hạn môn học TTH-294 là một khoá chính. Trong kho dữ liệu, khoá này gọi là khoá tự nhiên. Vì những lí do trên đây, khoá tự nhiên của dữ liệu nguồn không thể được sử dụng trong một hệ thống chung của kho dữ liệu. Thay vào đó, người ta sử dụng khoá đại diện, với các đặc điểm sau:
Chỉ bao gồm 1 cột: Đơn giản cho phép kết
Là số nguyên không âm: Tăng tốc cho việc đánh số chỉ mục và kết bảng
Tạo bởi gói ETL trong lúc nạp dữ liệu: Thống nhất giữa nhiều nguồn dữ liệu.
Quy tắc đặt tên và kiểu
Để dễ hiểu cho người dùng cuối trong khi truy vấn, người ta sử dụng các quy tắc sau:
Đặt tên bảng có chứa tiền tố (fct_ cho bảng dữ kiện, dim_ cho bảng chiều, lkp_ cho bảng tìm kiếm)
Tất cả các khoá của chiều được đặt tên theo tên bảng với hậu tố _key
Tất cả khoá của các chiều sử dụng số nguyên không âm nhỏ nhất có thể.
Tên của các cột phải có ý nghĩa, tránh viết tắt.
Sử dụng những tên chuẩn cho các cột theo dõi (xem mục 2.5.4)
Độ mịn và mức tổng hợp
Đối với việc lưu dữ liệu ở nhiều độ mịn, quy tắc duy nhất: Lưu với độ mịn thấp nhất có thể.
Đối với việc tổng hợp dữ liệu: Tất cả các dữ kiện có nhu cầu truy xuất trong khi truy vấn cần được tính toán sẵn ở mức thấp nhất. Tránh việc phải tính toán lại trong quá trình truy vấn đầu cuối. Chẳng hạn: Truy vấn đầu cuối có mục tiêu phải tính được thời gian truy cập của từng lượt truy cập, trong khi dữ liệu nguồn chỉ lưu thời gian bắt đầu và kết thúc của một truy cập. Như vậy, cần phải tính sẵn thời gian truy cập để lưu vào bảng dữ kiện thay vì lưu thời gian bắt đầu và kết thúc riêng!
Ngày giờ
Thời gian là một đối tượng đặc biệt trong kho dữ liệu. Chi tiết việc nạp chiều thời gian (bao gồm ngày và giờ) được mô tả trong Chương 3 – Tích hợp dữ liệu. Một số chú ý sau:
Độ mịn được đặt ở mức thấp nhất có thể theo yêu cầu của người dùng.
Lưu riêng ngày và giờ trong ngày thành 2 chiều khác nhau.
Sử dụng giờ chuẩn quốc tế.
Sử dụng khoá thông minh cho ngày giờ, với định dạng: YYYYMMDD hay HHMMSS. Ở đây ta không sử dụng khoá đại diện vì việc sử dụng khoá chính cho chiều thời gian cho phép phân vùng (partitioning) dữ liệu theo thời gian. Hơn nữa, chiều thời gian là chiều được nạp độc lập với các chiều khác.
Khoá vô danh
Mỗi bảng chiều có một dòng với khoá đại diện là 0, các trường khác đặt giá trị mặc định. Dòng này mô tả trạng thái nạp một dữ kiện vào bảng dữ kiện nhưng không tìm thấy đối tượng tương ứng với dữ kiện đó trong chiều mà nó tham chiếu tới.
Việc này giúp tránh dữ liệu NULL ở khoá ngoại bảng dữ kiện, đồng thời mang ý nghĩa rõ ràng cho người dùng cuối rằng: “không tìm thấy đối tượng liên quan đến ngữ cảnh đang có!”
Tích hợp dữ liệu
Khái niệm
Hệ thống tích hợp dữ liệu, hay còn gọi là hệ thống ETL (Extract-Load-Transform) là một hệ thống được thiết kế để làm các nhiệm vụ sau:
Kết xuất dữ liệu từ các hệ thống nguồn.
Kiểm tra chất lượng dữ liệu và các tiêu chuẩn toàn vẹn.
Biến đổi dữ liệu để dữ liệu từ nhiều hệ thống có thể được sử dụng cùng nhau.
Nạp dữ liệu vào một dạng trung gian cho phép các nhà phát triển cho thể xây dựng ứng dụng và người dùng cuối có thể ra quyết định dựa trên dữ liệu và ứng dụng đó.
Các bước tiến hành của quá trình tích hợp dữ liệu
Kết xuất dữ liệu:
Một công ty hoặc tổ chức thông thường cần nhiều hệ thống tin học để điều khiển hoạt động của mình. Ví dụ: hệ thống quản lý bán hàng, quản lý kho, quản lý nhân viên, quản lý sản phẩm... Những hệ thống này có thể không tương thích về mặt logic hoặc vật lý, điều này gây ra những khó khăn cho việc tích hợp dữ liệu. Những khó khăn đó có thể do các hệ thống khác nhau về:
Hệ quản trị CSDL.
Hệ điều hành.
Phần cứng.
Các giao thức truyền thông tin giữa nguồn dữ liệu và bên ngoài.
Như vậy, với những nguồn dữ liệu khác nhau, để tích hợp dữ liệu vào kho dữ liệu, ta phải xây dựng các quy tắc ánh xạ dữ liệu từ dữ liệu nguồn đến kho dữ liệu. Với kiến trúc và tính chất của nguồn dữ liệu khác nhau, đòi hỏi phải xây dựng một bảng ánh xạ vật lý từ dữ liệu được lưu trữ ở nguồn đến kho dữ liệu.
Trước khi xây dựng một bảng ánh xạ vật lý, ta cần một bảng ánh xạ dữ liệu logic từ các trường của nguồn dữ liệu đến các trường của bảng trong kho dữ liệu.
Cấu trúc của một bảng ánh xạ dữ liệu logic phải bao gồm các thông tin sau:
+ Tên bảng đích: tên vật lý của bảng trong kho dữ liệu.
+ Tên cột đích: tên cột trong bảng trong kho dữ liệu.
+ Loại bảng: xác định đó là bảng fact, bảng chiều hay bảng chiều con.
+ SCD: xác định loại chiều thay đổi chậm (Slowly Changing Dimension), dùng để lưu lịch sử dữ liệu.
+ CSDL nguồn: tên CSDL phía nguồn.
+ Tên bảng nguồn: tên bảng phía nguồn.
+ Tên cột nguồn: tên cột trong bảng phía nguồn.
+ Biến đổi: cách xử lý logic đối với dữ liệu nguồn để đưa về cùng định dạng với dữ liệu đích. Phép biến đổi này thường được viết bằng mã giả SQL.
Ví dụ về bảng ánh xạ dữ liệu logic:
Hình 1
Để có được một bảng ánh xạ dữ liệu logic như vậy, sau khi hoàn tất công đoạn phân tích yêu cầu và thiết kế kho dữ liệu, ta phải tìm hiểu và nhận dạng các hệ thống nguồn đáp ứng các yêu cầu dữ liệu của kho dữ liệu, phân tích cấu trúc của hệ thống nguồn đó thông qua lược đồ CSDL, xác định các khóa, loại dữ liệu, mối quan hệ giữa các bảng,... và phân tích chính bản thân dữ liệu để tìm hiểu các lỗi tiềm tàng của dữ liệu và cách khắc phục. Ví dụ:
+ Ý nghĩa và cách khắc phục đối với các trường dữ liệu null
+ Các trường ngày tháng không đúng định dạng chuẩn.
Sau khi hoàn tất bảng ánh xạ dữ liệu logic, ta sẽ xây dựng bảng ánh xạ dữ liệu vật lý dựa trên kiến trúc, cách lưu trữ và cấu trúc của dữ liệu nguồn và dữ liệu đích.
Trong phạm vi của khóa luận, nhóm chỉ tiến hành tìm hiểu trên các nguồn dữ liệu khác nhau về cấu trúc và cách lưu trữ. Cụ thể là tích hợp dữ liệu trên nhiều CSDL và tập tin khác nhau.
Trong quá trình tích hợp dữ liệu, việc lấy tất cả dữ liệu từ nguồn rất mất thời gian và không cần thiết, do đó ta chỉ lấy những dữ liệu mới từ nguồn mà kho dữ liệu chưa cập nhật hoặc những dữ liệu được thay đổi ở nguồn sau khi cập nhật vào kho dữ liệu. Quá trình lấy dữ liệu như vậy được gọi là lắng nghe và kết xuất dữ liệu thay đổi. Có nhiều phương pháp để nhận biết sự thay đổi ở dữ liệu nguồn để cập nhật vào kho dữ liệu. Sau đây là các phương pháp thường được sử dụng:
+ Sử dụng cột kiểm tra (audit columns): được thêm vào cuối của mỗi bảng để lưu dữ liệu về ngày giờ cập nhật hoặc điều chỉnh một dòng dữ liệu. Dữ liệu của cột kiểm tra này thường được cập nhật bởi trigger hoặc ứng dụng người dùng cuối. Rủi ro của phương pháp này là kho dữ liệu có thể cập nhật thiếu dữ liệu nếu cột kiểm tra bị cập nhật sai.
+ Sử dụng log scraping và sniffing: sử dụng các bảng log của các giao tác làm thay đổi dữ liệu để kiểm tra sự thay đổi.
+ Sử dụng các kết xuất thời gian: cũng giống như phương pháp sử dụng cột kiểm tra, phuoưng pháp này sử dụng trường ngày tạo (hoặc cập nhật) để lấy dữ liệu mới thêm vào theo chu kỳ. Ví dụ: lấy dữ liệu theo chu kỳ là 1 ngày thì lúc lấy dữ liệu sẽ chọn hết tất cả những dòng dữ liệu có ngày tạo (hoặc ngày cập nhật) là ngày trước ngày cập nhật một ngày. Rủi ro của phương pháp này là nếu quá trình kết xuất dữ liệu bị lỗi vào một ngày nào đó thì dữ liệu ngày đó sẽ không bào giờ được lấy lại nữa, do vậy cần có các cơ chế lấy lại dữ liệu trong những trường hợp lỗi.
+ Kỹ thuật loại trừ: lưu một bản sao của phiên bản trước vào vùng lưu trữ (staging area), khi kết xuất dữ liệu từ nguồn, ta chỉ tìm các dòng dữ liệu chưa có trong vùng lưu trữ (dựa vào khóa) hoặc đã bị thay đổi so với dữ liệu trong vùng lưu trữ.
Biến đổi dữ liệu:
Biến đổi dữ liệu thực chất là việc kiểm tra dữ liệu và đề ra các tiêu chuẩn cho biết dữ liệu có thể được sử dụng trong kho dữ liệu hay không và đưa ra các giải pháp biến đổi phù hợp.
Dữ liệu được đưa vào data warehouse phải là dữ liệu chính xác. Tính chính xác được hiểu là dữ liệu phải có những tính chất sau:
+ Đúng đắn: dữ liệu phải mô tả trung thực đối tượng mà nó phản ánh. Ví dụ: dữ liệu mô tả những căn nhà ở Tp.Hồ Chí Minh thì bắt buộc trong địa chỉ phải chứa tên thành phố là Hồ Chí Minh.
+ Không mơ hồ: xác định rõ ý nghĩa của đối tượng được mô tả. Ví dụ: dữ liệu về dân số ở quận Thủ Đức, Tp Hồ Chí Minh. Nếu trong địa chỉ chỉ xác định là quận Thủ Đức, thì nó có thể là một địa danh khác ở đâu đó, điều này gây ra mơ hồ, không rõ nghĩa.
+ Nhất quán: các giá trị và mô tả dữ liệu phải sử dụng một quy ước thống nhất để biểu diễn. Ví dụ Tp Hồ Chí Minh, nếu quy ước viết tắt là Tp.HCM, thì trong tất cả các thể hiện của CSDL Tp Hồ Chí Minh đều phải được biểu diễn là Tp.HCM
+ Đầy đủ: thể hiện ở hai điểm: các trường dữ liệu không phải là null và các giá trị suy biến phản ánh đầy đủ và chính xác.
Như vậy, vệc cần phải làm ở giai đoạn biến đổi dữ liệu là phải phát hiện dữ liệu không chính xác để có bước xử lý thích hợp. Và để đánh giá chất lượng dữ liệu, người ta dựa vào các độ đo chất lượng dữ liệu.
Yếu tố đầu tiên cần được xây dựng trong quá trình làm sạch dữ liệu là một bảng fact gọi là bảng sự kiện lỗi (error event table) và các chiều của nó. Mỗi một lỗi hay vấn đề phát sinh trong quá trình làm sạch dữ liệu được lưu thành một dòng trong bảng fact.
Lược đồ của bảng sự kiện lỗi:
Hình 2
+ Chiều ngày tháng (date dimension) là chiều chuẩn đại diện cho trường ngày tháng.
+ Chiều screen chứa thông tin về bước kiểm tra chất lượng dữ liệu (thông thường việc kiểm tra tính đúng đắn của dữ liệu được chia ra làm nhiều bước, mỗi bước được gọi là một screen). Mục đích của bảng này để mô tả screen đó làm gì và được áp dụng khi nào, ngoài ra còn có các định nghĩa về các lỗi thường gặp, cách ứng phó khi gặp lỗi (cho qua, từ chối dữ liệu hay dừng toàn bộ hệ thống để phân tích lỗi)và độ nghiêm trọng của lỗi (severity score),...
+ Chiều khối (batch) chứa thông tin về khối dữ liệu và dòng (row) dữ liệu sinh ra lỗi trong khối đó.
Người ta thường phân loại việc kiểm tra chất lượng dữ liệu thành 4 nhóm:
+ Kiểm tra theo cột thuộc tính: bao gồm các bước kiểm tra giá trị null trong những cột yêu cầu giá trị, kiểm tra giá trị số nằm ngoài khoảng quy ước, độ dài của trường quá dài hoặc quá ngắn (không mong đợi), kiểm tra giá trị cột ngoài tập giá trị định sẵn hoặc không theo khuôn mẫu, kiểm tra lỗi chính tả.
+ Kiểm tra theo cấu trúc dữ liệu: kiểm tra các bảng dữ liệu có các khóa chính và khóa tham chiếu đảm bảo ràng buộc tham chiếu.
+ Kiểm tra dữ liệu có đúng với các quy tắc nghiệp vụ hay giá trị của dữ liệu suy biến có đúng hay không.
Sơ đồ mô tả việc kiểm tra dữ liệu qua các screen:
Hình 3
Để nâng cao tốc độ kiểm tra tính đúng đắn của dữ liệu, người ta tìm cách lập lịch để các screen có thể chạy song song.
Nạp dữ liệu
Ở giai đoạn này, hệ thống ETL sẽ chuyển dữ liệu đã được kết xuất và xử lý đến data warehouse. Dữ liệu đã được xử lý không chỉ là cơ sở dữ liệu mà còn là các dạng dữ liệu khác như flat file, tài liệu XML, bảng tính,... Yêu cầu của giai đoạn này thay đổi đối với mỗi hệ thống. Hệ thống có thể lựa chọn ghi đè dữ liệu theo từng tuần hoặc theo giờ. Các hệ thống phức tạp hơn có thể lưu các lịch sử dữ liệu thay đổi trong data warehouse.
Cấu trúc chiều: Tất cả các chiều cần được tổ chức vật lí sao cho có ít thành phần nhất có thể. Người ta thường gắn thêm một thuộc tính không có ý nghĩa thực tế để làm khoá đại diện (surrogate) bên cạnh khoá tự nhiên (natural key) của nó.
Cấu trúc của một chiều thông thường như sau:
Bình thường, với mỗi khoá tự nhiên sẽ ứng với một khoá đại diện (1-1), nhưng khi cần theo dõi dữ liệu mang tính lịch sử, mỗi khoá tự nhiên có thể ứng với nhiều khoá đại diện (xem SCD Type 2 sẽ được đề cập bên dưới)
Các thuộc tính trong mỗi chiều thường không chứa số. Vì các thuộc tính mang giá trị số hầu như chắc chắn là các fact. Trong khoảng 2% các trường hợp, có thể rất khó đưa ra quyết định một trường chứa giá trị số thực ra có phải là fact hay không (ví dụ giá sản phẩm). Trong trường hợp này, cần xác định:
Yêu cầu người dùng
Thuộc tính này có phải dạng SCD Type 2 hay không (nếu là SCD Type 2, đây là fact)
Nạp các chiều phẳng và các chiều bông tuyết:
Nếu như bước làm sạch dữ liệu, dữ liệu vẫn được giữ ở dạng chuẩn cao (dạng bông tuyết) để bảo đảm tính nhất quán, thì ở bước nạp dữ liệu, dữ liệu sẽ được giảm dạng chuẩn (dạng phẳng) để giúp tăng tối đa tốc độ truy vấn và kết xuất dữ liệu. Vì thế, người ta thường cố gắng tránh tổ chức các chiều dạng bông tuyết.
Dữ liệu có phân cấp theo nhiều cách khác nhau đối với cùng một chiều (chẳng hạn chiều sản phẩm phân cấp theo vùng địa lí hay theo vùng tiếp thị). Để làm phẳng, mọi thuộc tính liên quan đến các cách phân cấp này đều được lưu trong cùng một chiều.
Chiều thời gian (bao gồm cả ngày-tháng):
Đây là một chiều rất quan trọng vì được dùng hầu như trong mọi bảng fact. Bởi vì tính chất quan trọng của nó, chiều thời gian thường được tổ chức đặc biệt và không có nguồn nhập. Chiều này thường được dùng chung (dạng tham chiếu) cho nhiều chiều khác.
Cấu trúc của chiều thời gian thường tổ chức như sau:
Có một số chú ý sau đối với chiều thời gian:
Chiều thời gian thường được phân vùng vật lý do tính chất lịch sử của nó. Việc này làm tăng tốc độ cập nhật của dữ liệu.
Chiều ngày-tháng thường là một bảng vật lí cơ bản.
Nếu cần chiều tháng, sẽ sử dụng khoảng chặn ngày đầu tháng-cuối tháng để tổ chức.
Nếu cần tính chi tiết ở mức giờ, phút, giây, để bảo đảm không bị tràn, người ta thường sử dụng thêm một thuộc tính nhãn thời gian.
Các chiều lớn: thường là các chiều được tạo thành từ nhiều nguồn, nhiều hệ thống khác nhau, do nhu cầu cần phải dữ lại quá nhiều thông tin. Để giảm kích thước các chiều lớn, người ta cần làm các bước sau:
Loại bỏ trùng lắp
Chuẩn hoá dữ liệu
Hợp nhất
Quá trình này được mô tả trong hình sau:
Vấn đề lựa chọn phân tách/hợp nhất chiều:
Nếu hai chiều có tương quan với nhau, người ta thường cố gắng tổ chức thành hai chiều độc lập và sử dụng bảng fact để mô tả mối tương quan đó, thay vì hợp nhất thành một chiều.
Nếu việc roll-up một chiều cho ra chiều còn lại (chẳng hạn product và brand), thì nhất thiết không được tách thành hai chiều.
Các trường hợp còn lại, cần cân nhắc yêu cầu của người dùng.
Chiều nhập vai (role-playing dimension): Là chiều được gắn nhiều lần vào cùng một bảng fact nhưng với các vai trò khác nhau. Ví dụ điển hình là chiều thời gian. Đối với chiều nhập vai, người ta thường tổ chức một chiều. Các chiều tham chiếu từ bảng fact là các view được tạo ra từ chiều chung đó.
Nạp các chiều suy biến:
Chiều suy biến là chiều dẫn xuất từ bảng fact mà không chứa thuộc tính nào (còn gọi là chiều rỗng). Chiều suy biến thường chỉ chứa một khoá tự nhiên để lưu vết các giao tác.
Nạp các chiều thay đổi chậm (Slowly Changing Dimension – SCD): Là chiều có thuộc tính thay đổi giá trị rất chậm theo thời gian vì một lí do nào đó. Có 3 loại:
SCD loại 1 (ghi đè): đây là loại chiều không cần lưu lại lịch sử thay đổi. Chỉ việc ghi đè lên bản ghi cũ.
SCD loại 2 (dữ liệu lịch sử hết hiệu lực): đây là loại chiều cần lưu lại lịch sử. Thay vì ghi đè lên chiều cũ, người ta tạo ra một dòng mới với cùng khoá tự nhiên nhưng khác khoá đại diện. Lúc đó, chỉ cần thay đổi tham chiếu từ bảng fact.
SCD loại 3 (dữ liệu lịch sử còn hiệu lực): đây là trường hợp các giá trị lịch sử vẫn còn hiệu lực sử dụng đồng thời với các giá trị mới. Thay vì tạo thêm một dòng mới trong bảng chiều, người ta tạo thêm các cột mới để lưu vết.
Thông thường, người ta tránh sử dụng loại 2 vì nó làm thay đổi cấu trúc của hệ thống. Hơn nữa, việc xác định tính hiệu lực của dữ liệu thường được quy định trong nghiệp vụ và được lưu như là một thuộc tính bình thường của chiều đó.
Nạp chiều đến sau và sửa lỗi dữ liệu:
Dữ liệu đến sau là những dữ liệu thay đổi sau khi đã xây dựng DW. Dữ liệu này phân ra làm 2 loại:
Dữ liệu cần sửa đổi: do phát hiện sai sót (về thời gian) trong quá trình xây dựng DW.
Dữ liệu cập nhật theo thời gian thực: do tính chất thời gian thực, dữ liệu đang được truy vấn là dữ liệu cũ, và dữ liệu được cập nhật là dữ liệu mới nhưng chưa được nạp vào hệ thống. (xem phần 4)
Các chiều đến sau cần được nạp vào DW bằng một hệ thống ETL độc lập và cần được kiểm tra kĩ trên hệ thống thử nghiệm vì việc này ảnh hưởng sâu sắc đến hệ thống.
Dữ liệu cần sửa đổi do phát hiện lỗi sai (về thời gian) được sửa theo 3 bước sau:
Thêm một bản ghi mới với các thông tin cập nhật cho thuộc tính tương ứng, ứng với mốc thời gian cần thay đổi.
Xác định từ mốc thời gian đó, tất cả các thay đổi xảy ra về sau nó và ghi đè bằng các giá trị mới của thuộc tính
Cập nhật lại khoá ngoại cho bảng fact tất cả các bản ghi tham chiếu đến các bản ghi đã thay đổi trong chiều đó.
Nạp chiều đa giá trị và bảng cầu nối:
Các chiều đa giá trị là các chiều có quan hệ n-n đến bảng fact. Trong trường hợp này, cần phải tạo bảng cầu nối và bảng phân nhóm (để tránh quan hệ n-n đến bảng fact).
Ví dụ:
Nạp các chiều phân cấp không đều (Ragged Hierarchies):
Các chiều phân cấp không đều là các chiều được phân cấp cha-con theo độ sâu không xác định. Ví dụ: nhân viên-quản lí.
Để giải quyết dạng cây phân cấp này, có 2 giải pháp:
Đệ quy:
Đây là cách tổ chức trực quan, quen thuộc đối với CSDL quan hệ thông thường.
Ưu điểm:
Toàn bộ cây phân cấp được tổ chức chỉ trong một chiều.
Việc quản lí (di chuyển, thay đổi) trong cây phân cấp được thực hiện dễ dàng
Nhược điểm:
Câu SQL truy vấn phức tạp và hiệu suất kém
Chỉ có thể thể hiện được cây phân cấp mà mỗi con chỉ có 1 cha
Nếu một chiều tồn tại nhiều cách phân cấp, không thể chuyển đổi được giữa các cách phân cấp này
Nếu chiều này là SCD loại 2, việc quản lí là rất khó khăn.
Bảng cầu nối phân cấp:
Ưu điểm:
Dễ dàng truy vấn với SQL
Dễ dàng tổng quát hoá cho những cây phức tạp
Cho phép chuyển đổi giữa các dạng phân cấp.
Dễ dàng thích ứng với SCD loại 2
Nhược điểm
Cần biểu diễn mọi quan hệ cha-con (đa cấp) trong cây. Do đó số bản ghi trong bảng cầu nối rất lớn.
Không trực quan như kiểu đệ quy
Khi áp dụng SCD loại 2 đối với chiều, cần cập nhật bảng cầu nối.
Nạp chiều văn bản đối với dạng fact văn bản:
Đôi lúc có những yêu cầu mà ở đó fact là dạng text. Chẳng hạn khi quy định điểm số dạng A, B, C, D.
Đối với trường hợp này, để theo dõi các thay đổi để đưa ra giá trị fact liên quan, người ta chọn hướng tiếp cận tương tự với SCD loại 3.
Các vấn đề gặp phải khi xây dựng hệ thống tích hợp dữ liệu và giải pháp
Vấn đề cập nhật dữ liệu trong thời gian thực
Ngày nay, các quyết định trong kinh doanh cần được đưa ra nhanh, phù hợp với sự thay đổi liên tục của thị trường, do đó các hệ thống hỗ trợ ra quyết định cũng cần phải đáp ứng được sự thay đổi liên tục của dữ liệu, đó là lý do của việc xuất hiện nhu cầu cập nhập dữ liệu trong thời gian thực của data warehouse.
Tuy nhiên, việc xây dựng hệ thống ETL để cập nhật dữ liệu theo thời gian thực có một số khó khăn nhất định.
Khó khăn đầu tiên là từ việc chuyển đổi cách cập nhật dữ liệu như trước đây - cập nhật dữ liệu theo lô (batch). Với cách cập nhật dữ liệu này, người ta lập lịch để xử lý các dữ liệu mới theo thời gian cố định (theo ngày, theo tháng,...) và người ta thường chọn thời gian thấp điểm của hệ thống để tiến hành việc cập nhật (có thể là lúc nửa đêm, khi hệ thống có ít người sử dụng). Tuy nhiên, với việc cập nhật dữ liệu theo thời gian thực, dữ liệu được cập nhật liên túc bất kể tình trạng của hệ thống, điều này gây ra sự quá tải đối với hệ thống vào một số thời điểm nhất định. Người ta đã đề xuất một số giải pháp cho vấn đề này như sau:
+ Cách 1: đây là cách đơn giản nhất, thay vì cập nhật dữ liệu theo thời gian thực, ta điều chỉnh tần suất cập nhật dữ liệu. Ví dụ trước đây là 1 lần một tuần, bây giờ đổi thành 1 lần một ngày, hoặc 3 lần một ngày.
+ Cách 2: cập nhật từng phần nhỏ. Bất kể khi nào phát sinh sự kiện chỉnh sửa hoặc thêm các trường vào dữ liệu giao tác, ta đều tiến hành song song việc cập nhật dữ liệu tương ứng vào các bảng của data warehouse. Tuy nhiên, điều này gây ra nhiều vấn đề về giao tác (transaction) khi dữ liệu quá lớn. Với mỗi giao tác sẽ phải tiến hành hai thao tác cập nhật dữ liệu thay vì chỉ một như trước đây, và khi dữ liệu quá lớn, sẽ phải mất thêm thời gian chờ.
+ Cách 3: cập nhật từng phần nhỏ và xoay vòng. Cách giải quyết này có thể giải quyết vấn đề dữ liệu lớn trong data warehouse. Thay vì thêm hoặc sửa dữ liệu trực tiếp trong data warehouse, ta tạo các bảng fact có cùng cấu trúc như trong data warehouse nhưng chỉ lưu dữ liệu trong ngày hoặc giờ hiện tại (không lưu dữ liệu lịch sử), Sau một chu kỳ sẽ tiến hành cập nhật dữ liệu này vào các bảng fact trong data warehouse.
+ Cách 4: lưu dữ liệu được cập nhật trong thời gian thực vào vùng đệm (cache), sau một chu kỳ định sẵn sẽ tiến hành cập nhật vào data warehouse. Mỗi khi có một truy vấn trên data warehouse, hệ thống sẽ truy vấn đồng thời trên các bảng fact và trong cả vùng đệm.
Vấn đề về mô hình hóa dữ liệu: đối với các dữ liệu tổng hợp. Ví dụ dữ liệu tổng hợp theo chiều thời gian, thì những dữ liệu này có thể bị bất đồng bộ hóa với dữ liệu được cập nhật trong thời gian thực. Thật ra đây cũng không hẳn là vấn đề, bởi vì về bản chất dữ liệu bình thường và dữ liệu theo thời gian thực là giống nhau, vấn đề là ở chỗ một số ứng dụng người dùng cuối sử dụng kỹ thuật catch và cho rằng dữ liệu sẽ được cập nhật sau một khoảng thời gian nào đó đối với kỹ thuật cũ, cho nên chỉ cần lưu ý vấn đề này là được.
Vấn đề về không nhất quán dữ liệu khi thực hiện truy vấn.
Ví dụ:
Hình 4
Đây là một truy vấn gồm nhiều câu lệnh SQL, mục địch là để tính toán số tiền bán ra của mỗi loại hàng hóa và phần trăm của số tiền đó trên tổng số doanh thu.
Câu truy vấn này thực hiện như sau: tạo 2 bảng tạm TEMP1, và TEMP2, đưa dữ liệu về số lượng tiền của mỗi loại hàng hóa vào bàng TEMP1, đưa tổng số tiền bán được vào bảng TEMP2, sau đó sẽ đưa ra bảng tổng kết như khung hình bên phải.
Vấn đề ở đây là nếu sau khi thực hiện việc đưa dữ liệu vào bảng TEMP1 và chưa kịp dưa dữ liệu vào bảng TEMP2 thì xảy ra hiện tượng không đồng nhất dữ liệu, điều này có nghĩa là tổng số phần trăm bên khung nhìn bên phải sẽ không bằng 100%.
Các giải pháp cho vấn đề này được đề xuất như sau:
+ Cách 1:sử dụng cách tiếp cận “gần thời gian thực” (near real-time): thực hiện việc cập nhật dữ liệu trong một chu kỳ nhất định, và không cho phép việc thực hiện truy vấn trong thời gian cập nhật dữ liệu.
+ Cách 2: tách dữ liệu được tổng hợp trong thời gian thực và dữ liệu lịch sử và lưu trong vùng nhớ cache, như vậy sẽ tránh được trường hợp dữ liệu không nhất quán. Khi thực hiện truy vấn, ta sẽ thực hiện truy vấn đồng thời trên cả 2 dữ liệu.
Cảnh báo thời gian thực: các hệ thống cảnh báo được sử dụng trong data warehouse chủ yếu để gửi các báo cáo đến người dùng sau khi load dữ liệu trong mỗi chu kỳ. Tuy nhiên đối với các hệ thống data warehouse hoạt động trong thời gian thực, hệ thống cảnh báo được sử dụng để thông báo khi mà điều kiện đặt ra được đáp ứng. Các giải pháp đặt ra cho vấn đề thông báo theo thời gian thực:
+ Lập lịch theo vòng n phút (n-Minute Cycle Schedule): chú ý rằng cần phải xác định ngưỡng thấp nhất của vòng lặp, vì ở một giới hạn nào đó, có thể xảy ra một số vấn đề về khả năng chịu tải của hệ thống hoặc lần cảnh báo sau bắt đầu trước khi lần cảnh báo trước kết thúc, điều này gây ra trùng cảnh báo.
+ Thông báo bằng cách theo dõi và chặn (trigger) theo thời gian thực: đặt các chặn (trigger) để kiểm tra mỗi khi có sự thay đổi dữ liệu để cảnh báo. Về phương pháp này, cần chú ý về giới hạn của phần cứng và bộ nhớ để đáp ứng các xử lý liên tục.
Phần mềm tích hợp dữ liệu mã nguồn mở Kettle
Giới thiệu tổng quan:
Giới thiệu:
Kettle là phần mềm mã nguồn mở dùng để xây dựng các hệ thống tích hợp dữ liệu. Kettle bao gồm nhân tích hợp dữ liệu và giao diện đồ họa cho phép người dùng định nghĩa các biến đổi (transformation) và các công việc (job – bao gồm các bước biến đổi được tiến hành tuần tự hoặc song song).
Kettle bao gồm các công cụ và tiện ích sau:
Spoon: IDE đồ họa cho việc tạo các biến đổi (transformation) và các công việc (job) cho Kettle.
Kitchen: công cụ command-line để chạy các công việc (job) của Kettle.
Pan: công cụ command-line để chạy các biến đổi (transformation) của Kettle.
Carte: đóng vai trò làm máy chủ khi chạy các biến đổi và các công việc của Kettle trên một máy khác.
Một số khái niệm trong Kettle:
Bước (step): là một hoạt động cụ thể trên một hoặc nhiều luồng dữ liệu. Ví dụ: Access Input dùng để lấy dữ liệu từ tập tin access, Sort rows dùng để sắp xếp các dòng trong luồng dữ liệu vào, value mapper dùng để ánh xạ dữ liệu, Trong mỗi bước ta có thể định nghĩa các thuộc tính để xử lý dữ liệu đi vào bước đó, các thuộc tính này được gọi là siêu dữ liệu (metadata)
Các bước có thể được nối với nhau qua các cầu nối gọi là các hop. Các hop này được xem như là những “đường ống” để chuyển dữ liệu từ bước (step) này qua bước khác.
Biến đổi (transform): bao gồm các bước, siêu dữ liệu tương ứng với từng bước và các hop.
Công việc (job): bao gồm một hoặc nhiều biến đổi. Ví dụ: khi nạp dữ liệu có lược đồ hình sao, việc đầu tiên ta cần xây dựng một biến đổi để kết xuất dữ liệu từ hệ thống nguồn, xây dựng các biến đổi để nạp từng bảng chiều và bảng fact. Công việc (job) được dùng để đặt các biến đổi đó lại với nhau theo một thứ tự thích hợp để có thể thực hiện việc nạp dữ liệu.
Một số bước thường dùng và các chú ý trong Kettle:
Table input:
Chức năng: lấy dữ liệu từ một cơ sở dữ liệu sử dụng một kết nối đã được cấu hình và câu lệnh SQL.
Cấu hình:
Cấu hình
Mô tả
Step name
Tên bước, tên của mỗi bước là duy nhất trong mỗi biến đổi
Connection
Các cấu hình kết nối CSDL để đọc dữ liệu
SQL
Câu lệnh SQL dùng để đọc dữ liệu từ kết nối đã được cấu hình ở trên
Enable lazy convertion
Khi được kích hoạt, quá trình lấy dữ liệu sẽ tránh những thao tác ép kiểu không cần thiết để tăng tốc độ.
Replace variables in script?
Khi được kích hoạt, quá trình lấy dữ liệu sẽ đặt các tham số từ bước trước đó vào câu lệnh SQL tại những dấu “?” lần lượt theo thứ tự của tham số.
Insert data from step
Khi được kích hoạt, câu lệnh SQL sẽ được phép sử dụng dữ liệu từ bước xác định trước để lấy dữ liệu từ kết nối đã được cấu hình sẵn.
Execute for each row?
Khi được kích hoạt, quá trình lấy dữ liệu được tiến hành cho mỗi dòng dữ liệu được nạp vào từ bước trước đó
Limit size
Giới hạn số dòng dữ liệu được đọc từ CSDL, 0 có nghĩa là đọc tất cả các dòng.
Modified java script:
Chức năng: bước này cho phép ta sử dụng cú pháp và các hàm javascript để biến đổi dữ liệu.
Cấu hình:
Compatibility mode?
Khi được kích hoạt, javascript sẽ sử dụng engine phiên bản 2.5; nếu không thì sẽ sử dụng phiên bảng 3.0
Chú ý: ở bước này, tên các trường dữ liệu của bước trước được xem như các hằng số, các biến được định nghĩa mới có thể được thêm vào dữ liệu đầu ra của bước. Hàm javascript được chạy mỗi khi có một dòng (record) đi vào bước này.
Filter rows:
Chức năng: lọc dữ liệu dựa trên điều kiện
Cấu hình:
Cấu hình
Mô tả
Send ‘true’ data to step
Dữ liệu đúng với điều kiện được chuyển đến bước này.
Send ‘false’ data to step
Dữ liệu không đúng với điều kiện được chuyển đến bước này.
Chú ý: các bước mà dữ liệu “đúng” và “sai” được chuyển đến phải được nối với bước hiện tại thông qua các hop.
Dimension lookup/ update:
Chức năng: dùng để cập nhật dữ liệu cho các bảng có chiều thay đổi chậm loại 1 hoặc loại 2.
Cấu hình:
Cấu hình
Mô tả
Technical key field
Khóa chính (primary key) của bảng chiều.
Version field
Đánh dấu phiên bảng của dòng dữ liệu trong chiều thay đổi chậm
Date range start field
Ngày bắt đầu có hiệu lực của dòng dữ liệu
Table daterange end
Ngày cuối cùng có hiệu lực của dòng dữ liệu
Keys
Khóa tự nhiên được sử dụng trong dữ liệu nguồn
Field
Chứa thông tin của chiều
Chú ý:
+ Khi thực thi, trước hết bước này sẽ tìm dữ liệu trong bảng chiều tương ứng với các khóa được xác định trong mục cấu hình “Key fields”. Nếu không tìm thấy dữ liệu yêu cầu, dữ liệu mới sẽ được thêm (insert) vào bảng chiều. Ngược lại, dữ liệu tìm thấy sẽ được so sánh với các dữ liệu đưa vào và tiến hành cập nhật (update) hay thêm (insert) tùy thuộc vào loại chiều thay đổi chậm được xác định trên mỗi trường dữ liệu.
+ Việc cấu hình chiều thay đổi chậm được tiến hành ở mục “Lookup/ Update fields”, với các trường có chiều thay đổi chậm loại một, ở mục “Type of dimension update” sẽ được thiết lập giá trị là “Update”. Giá trị “Insert” được thiết lập cho các trường có chiều thay đổi chậm loại 2. Các giá trị còn lại như “Last version”, “Date of last insert”, để xác định các thông tin kèm theo chiều thay đối chậm.
Combination lookup/ update:
Chức năng: sử dụng để tìm hoặc sinh khóa chính với các trường tìm kiếm tương ứng. Trước tiên, bước này sẽ tìm kiếm dữ liệu trong bảng được xác định thông qua các trường “Connection” và “Target table” với các thông tin khóa tìm kiếm ứng với thông tin được đưa vào. Nếu tìm thấy sẽ trả về khóa chính tương ứng, nếu không sẽ phát sinh khóa chính mới và thêm (insert) một dòng dữ liệu vào bảng, nội dung những dòng dữ liệu này chỉ bao gồm thông tin khóa và các trường dữ liệu được sử dụng để tìm kiếm ở trên, các trường còn lại có giá trị null hoặc giá trị mặc định của trường đó.
Cấu hình:
Cấu hình
Mô tả
Dimension field
Trường tìm kiếm trong bảng chiều
Field in stream
Trường dữ liệu tương ứng với trường tìm kiếm trong bảng chiều
Chú ý:
+ Việc kết hợp nhiều trường để tìm kiếm có thể làm tốc độ xử lý chậm lại. Trong trường hợp này, ta có thể đánh dấu tùy chọn “Use hashcode” để thêm giá trị băm tương ứng vào bảng, như vậy quá trình tìm kiếm trên nhiều chiều thực chất chỉ còn tìm kiếm trên giá trị băm.
+ Do ở bước này chỉ thêm mới giá trị khóa chính và các giá trị tìm kiếm, nên thường được đi kèm với bước “Update” đằng sau để cập nhật các trường không phải trường tìm kiếm.
Update:
Chức năng: tìm kiếm các dòng trong bảng sử dụng một hoặc nhiều khóa tìm kiếm kết hợp. Nếu dòng dữ liệu được tìm thấy, dữ liệu sẽ được so sánh với các giá trị tương ứng ở trường cập nhật, nếu dữ liệu khác nhau sẽ tiến hành cập nhật.
Cấu hình:
Cập nhật
Mô tả
The key(s) to look up the value(s)
Các khóa được sử dụng để tìm kiếm
Update fields
Các trường dữ liệu sẽ được so sánh với dữ liệu đưa vào và tiến hành cập nhật nếu có giá trị khác nhau.
Xây dựng kho dữ liệu phục vụ các hệ thống học tập trực tuyến
Mô tả yêu cầu ứng dụng
Yêu cầu của ứng dụng thử nghiệm là xây dựng một hệ thống tích hợp dữ liệu từ nhiều nguồn vào kho dữ liệu phục vụ cho nhu cầu phân tích dữ liệu của các hệ thống học tập trực tuyến. Hệ thống cho phép mở rộng để đưa dữ liệu từ các nguồn chưa được hỗ trợ vào kho dữ liệu.
Các yêu cầu phân tích dữ liệu đối với các hệ thống học tập trực tuyến:
Có 2 nhu cầu khi phân tích hệ thống giảng dạy trực tuyến:
Xem xét hiệu quả của hệ thống đối với người học:
+ Phân tích mối quan hệ của thời gian sinh viên tham gia hệ thống đối với kết quả học tập trong từng môn học (kết quả được đánh giá theo từng học kỳ).
+ Phân tích mối quan hệ của tần suất sinh viên tham gia hệ thống đối với kết quả học tập trong từng môn học .
+ Phân tích mối quan hệ của thời gian giáo viên tham gia hệ thống đối với kết quả học tập của sinh viên trong môn học đó.
+ Phân tích mối quan hệ của tần suất giáo viên tham gia hệ thống đối với kết quả học tập của sinh viên trong môn học đó.
+ Phân tích (thời gian, tần suất, tỉ lệ) các hoạt động mà sinh viên tham gia trong hệ thống và sự liên quan đến kết quả học tập.
Xem xét hiệu năng sử dụng của hệ thống để phân phối lại các bài học vào các thời điểm thích hợp.
+ Phân tích thời lượng truy cập vào hệ thống theo thời gian.
+ Phân tích tỷ lệ truy cập vào các chức năng của hệ thống theo thời gian.
Ma trận kiến trúc buýt:
Ma trận mô tả các nghiệp vụ và ngữ cảnh liên quan:
Ngữ cảnh
Thời gian
Người dùng
Học phần
Chức năng
Nghiệp vụ
Khảo sát thời gian sử dụng hệ thống
x
x
x
x
Khảo sát tần suất truy cập hệ thống
x
x
x
x
Khảo sát kết quả học tập
x
x
Kiến trúc của ứng dụng
Ứng dụng thử nghiệm xây dựng dựa trên kiến trúc NDS+DDS, với mô hình như sau:
Với yêu cầu cho phép mở rộng để đưa dữ liệu từ các nguồn khác nhau vào kho dữ liệu, hệ thống tích hợp dữ liệu được thiết kế để việc mở rộng là thuận tiện nhất. Ở đây CSDL chuẩn hóa, kho dữ liệu và quá trình tích hợp dữ liệu từ CSDL chuẩn hóa vào kho dữ liệu là chung cho tất cả các loại nguồn dữ liệu. Với một loại nguồn dữ liệu sẽ có cấu trúc vùng xử lý khác nhau, quá trình tích hợp dữ liệu từ dữ liệu nguồn vào vùng xử lý và từ vùng xử lý vào CSDL chuẩn hóa khác nhau.
Thiết kế kho dữ liệu
Vùng xử lí
Moodle
Hệ thống Moodle có khoảng 200 bảng dữ liệu. Tuy nhiên để lấy dữ liệu cho data warehouse được thiết kế ở trên ta chỉ sử dụng các bảng và các trường sau:
Hình 5.3.1.1-1. Vùng xử lí cho dữ liệu nạp từ Moodle
Ở đây có một số chú ý đối với dữ liệu trong vùng xử lí của Moodle:
Trường full_path_name của bảng stg_course_categories là khoá tự nhiên sinh ra trong quá trình rút trích dữ liệu. Lí do là dữ liệu nguồn không có khoá tự nhiên khác với định danh hệ thống. Việc tạo ra khoá tự nhiên nhằm tránh xung đột về dữ liệu.
Vùng xử lí chỉ bao gồm khoá tự nhiên và các thuộc tính cần thiết, không bao gồm khoá chính, khoá ngoại hay chỉ mục, nhằm tăng tốc quá trình sao chép dữ liệu từ nguồn.
Những bảng có trường last_update là những bảng không chứa thông tin lịch sử thay đổi của nguồn. last_update là trường do hệ thống ETL tạo ra trong quá trình rút trích nhằm ghi nhận các thay đổi này. Các bảng khác sử dụng trường timemodified trong dữ liệu nguồn để ghi nhận thay đổi từ nguồn.
Kết quả học tập
Dữ liệu về kết quả học tập, học kỳ, năm học không có trong moodle. Cho nên nếu muốn phân tích các vấn đề liên quan tới các dữ liệu này, người dùng cần phải nhập dữ liệu bằng file excel có cấu trúc như sau (do ứng dụng bao đóng quy định):
Dữ liệu kết quả học tập: file excel với cột 1 chứa mã khóa học (có header là CourseID), cột 2 là mã sinh viên (có header là StudentID), cột 3 là điểm (có header là Value)
Hình 5.3.1.2-1. Cấu trúc tập tin chứa kết quả học tập
Dữ liệu học kỳ, năm học
File excel với cột 1 chứa số thứ tự học kỳ trong năm học (có header là TermNumber), cột 2 chứa tên học kỳ (có header là TermName), cột 3 chứa năm bắt đầu năm học (có header là AcademicYear), cột 4 chứa tên năm học (có header là AcademicYearName), cột 5 và cột 6 chứa ngày bắt đầu và ngày kết thúc học kỳ (có header lần lượt là BeginDate và EndDate). Ngày tháng có định dạng năm/tháng/ngày (YYYY/mm/DD)
Hình 5.3.1.3-1. Cấu trúc tập tin chứa thông tin các học kì, năm học
Cơ sở dữ liệu chuẩn hoá
Lược đồ
Cơ sở dữ liệu chuẩn hoá được tổ chức dưới dạng chuẩn 3, như hình dưới đây:
Các diễn giải liên quan đến thiết kế
Các thuộc tính category_full_path và parent_category_full_path là các khoá tự tạo trong quá trình trích xuất dữ liệu từ nguồn đưa vào vùng xử lí như đã trình bày bên trên. (Xem mục 5.3.1.1. Moodle)
Các thuộc tính last_update của các bảng là thời gian cập nhật dòng dữ liệu lần cuối cùng từ nguồn. Đối với các bảng mà dữ liệu nguồn có lưu lịch sử thay đổi, last_update là giá trị thời gian của cột tương ứng trong bảng đó. Đối với các bảng mà dữ liệu nguồn không lưu lịch sử thay đổi, sử dụng thời điểm rút trích dữ liệu cho thuộc tính last_update.
Đặc tả cơ sở dữ liệu
Nds_modules: lưu trữ thông tin về các mô đun trong hệ thống
Tên thuộc tính
Kiểu giá trị
Ý nghĩa
module_name
varchar
Tên mô đun website hệ thống nguồn (khóa chính)
module_description
text
Mô tả mô đun
last_update
datetime
Thời điểm cập nhật cuối cùng
Nds_categories: lưu trữ thông tin về nhóm các khóa học
Tên thuộc tính
Kiểu giá trị
Ý nghĩa
category_full_path
varchar
Khoá tự nhiên của nhóm khoá học, tạo ra bằng cách ghép nối tên các nhóm khoá học từ nó lên đến nút gốc trên cây phân cấp, ngăn cách bằng dấu ‘;’
parent_category_full_path
varchar
Khoá tự nhiên của nhóm môn học cha.
category_name
varchar
Tên nhóm khóa học
category_description
text
Mô tả nhóm khóa học
depth
tinyint
Độ sâu của nhóm khoá học trên cây phân cấp.
last_update
datetime
Thời điểm cập nhật cuối cùng
Nds_courses: lưu trữ thông tin về khóa học
Tên thuộc tính
Kiểu giá trị
Ý nghĩa
course_code
varchar
Mã khóa học
category_full_name
varchar
Nhóm khoá học. Khoá ngoại tham chiếu đến bảng nds_categories
term_number
tinyint
Thứ tự học kỳ
year_number
int
Năm học
course_name
varchar
Tên khóa học
course_description
text
Mô tả khóa học
course_start_date
datetime
Ngày bắt đầu khóa học
course_created_date
datetime
Ngày khởi tạo khóa học trong hệ thống
last_update
datetime
Thời điểm cập nhật cuối cùng
Nds_terms: lưu trữ thông tin về học kỳ
Tên thuộc tính
Kiểu giá trị
Ý nghĩa
term_number
int
Thứ tự học kỳ trong năm học
year_number
tinyint
Năm học, tham chiếu đến bảng nds_academic_years
term_name
varchar
Tên học kỳ
begin_date
date
Ngày bắt đầu học kỳ
end_date
date
Ngày kết thúc học kỳ
last_update
datetime
Thời điểm cập nhật cuối cùng
Nds_academic_years:
Tên thuộc tính
Kiểu giá trị
Ý nghĩa
year_number
int
Năm học
academic_year_name
varchar
Tên năm học
last_update
datetime
Thời điểm cập nhật cuối cùng
Nds_role: lưu trữ thông tin vai trò người dùng trong hệ thống
Tên thuộc tính
Kiểu giá trị
Ý nghĩa
role_name
varchar
Tên vai trò
role_description
text
Mô tả vai trò
last_update
datetime
Thời điểm cập nhật cuối cùng
Nds_users: lưu trữ thông tin người dùng
Tên thuộc tính
Kiểu giá trị
Ý nghĩa
user_name
varchar
Tên đăng nhập của người dùng
description
text
Mô tả người dùng
first_name
varchar
Họ người dùng
last_name
varchar
Tên thật người dùng
email
varchar
Email người dùng
phone_1
varchar
Số điện thoại người dùng
phone_2
varchar
Số điện thoại người dùng
institution
varchar
Tên cơ quan
department
varchar
Tên phòng ban
address
varchar
Địa chỉ người dùng
city
varchar
Thành phố người dùng đang ở
last_update
timestamp
Thời điểm sửa đổi cuối cùng
Nds_actions:lưu trữ thông tin các thao tác trong hệ thống
Tên thuộc tính
Kiểu giá trị
Ý nghĩa
action_name
varchar
Tên thao tác
action_description
text
Mô tả thao tác
last_update
datetime
Thời điếm cập nhật cuối cùng
Nds_logs: lưu trữ thông tin log của hệ thống
Tên thuộc tính
Kiểu giá trị
Ý nghĩa
course_code
varchar
Mã khóa học, tham chiếu đến bảng nds_courses
user_name
varchar
Mã người dùng, tham chiếu đến bảng nds_users
module_name
varchar
Tên mô đun, tham chiếu đến bảng nds_modules
action_name
varchar
Tên hoạt động, tham chiếu đến bảng nds_actions
access_time
datetime
Thời điểm truy cập vào hệ thống
last_update
datetime
Thời điểm cập nhật cuối cùng
Nds_results: lưu trữ thông tin kết quả học tập
Tên thuộc tính
Kiểu giá trị
Ý nghĩa
course_code
varchar
Mã khóa học, tham chiếu đến bảng nds_courses
user_name
varchar
Tên người dùng, tham chiếu đến bảng nds_users
grade
float
Điếm số của người dùng với khóa học tương ứng
last_update
datetime
Thời điểm cập nhật cuối cùng
Nds_role_assignments: lưu thông tin về vai trò của người dùng ở một khóa học trong hệ thống.
Tên thuộc tính
Kiểu giá trị
Ý nghĩa
user_name
varchar
Tên người dùng, tham chiếu đến bảng nds_users
course_code
varchar
Mã khóa học, tham chiếu đến bảng nds_courses
role_name
varchar
Tên vai trò, tham chiếu đến bảng nds_roles
last_update
datetime
Thời điểm cập nhật cuối cùng
Kho dữ liệu đầu cuối
Lược đồ cơ sở dữ liệu
Các diễn giải liên quan đến thiết kế
Bảng category_bridge được tạo ra nhằm khử truy vấn đệ quy trên nhóm khoá học. Đây là cây phân cấp không giới hạn độ sâu.
Chẳng hạn:
Có cây phân cấp đệ quy không giới hạn độ sâu như sau:
Hình 5.3.3.1-1. Cây phân cấp không giới hạn độ sâu.
Bảng cầu nối được tạo ra có nội dung như sau:
Hình 5.3.3.1-2. Bảng cầu nối được tạo ra
Ở đây, mỗi dòng trong bảng cầu nối mô tả một quan hệ cha con. Mỗi dòng cho biết các thông tin sau:
manager_key: khoá đại diện của cha
employee_key: khoá đại diện của con
nest_level: độ sâu từ cha đến con.
is_top/is_bottom: cho biết con có phải là nút gốc/nút lá của cây hay không.
Bảng dim_role_group và role_group_bridge được tạo ra để giải quyết tình trạng dữ kiện đa trị (multivalued fact). Ở đây, mỗi một người dùng ghé thăm một trang môn học nào đó, người dùng đó có thể đóng một hoặc nhiều vai trò (role) trong. Chẳng hạn một người có thể vừa là sinh viên, vừa là trưởng nhóm.
Thuộc tính role_count cho biết số lượng vai trò trong nhóm đó. Thuộc tính weighting_factor là trọng số, xác định mức độ tham gia của một vai trò trong một nhóm vai trò nào đó. Thuộc tính này nhằm tránh tình trạng thống kê kép. Được tính theo công thức sau:
weighting_factor = 1 / role_count
Đặc tả cơ sở dữ liệu
Các bảng chiều:
dim_date: chiều ngày tháng, sử dụng đơn vị học kỳ, năm học
Tên thuộc tính
Kiểu giá trị
Ý nghĩa
date_key
Int
Khoá chính (Khoá đại diện)
date_alternate_key
date
Ngày tháng đầy đủ
day_number_of_week
tinyint
Thứ tự ngày trong tuần
day_name_of_week
varchar
Tên ngày trong tuần
day_number_of_month
tinyint
Thứ tự ngày trong tháng
day_number_of_term
smallint
Thứ tự ngày trong học kỳ
week_number_of_term
tinyint
Thứ tự tuần trong học kỳ
month_number_of_year
tinyint
Thứ tự tháng trong năm
month_name_of_year
varchar
Tên tháng
year_number
tinyint
Năm
term_name
varchar
Tên học kì
term_number
smallint
Thứ tự học kỳ trong năm
academic_year_name
varchar
Tên năm học (vd: 2007-2008)
academic_year
smallint
Năm bắt đầu của năm học
is_weekend
tinyint
Có phải là ngày cuối tuần hay không?
is_holiday
tinyint
Có phải là ngày nghỉ hay không?
last_update
timestamp
Thời điểm sửa đổi cuối cùng
dim_time: chiều thời gian
Tên thuộc tính
Kiểu giá trị
Ý nghĩa
time_key
int
Khoá chính (Khoá đại diện)
time_alternate_key
time
Thời gian đầy đủ
hour
tinyint
Giờ
minute
tinyint
Phút
second
tinyint
Giây
dim_user: Chiều người dùng
Tên thuộc tính
Kiểu giá trị
Ý nghĩa
user_key
int
Khoá chính (Khoá đại diện)
user_business_key
varchar
Khóa tự nhiên của người dùng trong CSDL chuẩn hóa
user_name
varchar
Tên đăng nhập của người dùng
user_description
text
Mô tả người dùng
first_name
varchar
Họ người dùng
last_name
varchar
Tên thật người dùng
email
varchar
Email người dùng
phone_1
varchar
Số điện thoại người dùng
phone_2
varchar
Số điện thoại người dùng
institution
varchar
Tên cơ quan
department
varchar
Tên phòng ban
address
varchar
Địa chỉ người dùng
city
varchar
Thành phố người dùng đang ở
last_update
timestamp
Thời điểm sửa đổi cuối cùng
dim_role: chiều vai trò người dùng
Tên thuộc tính
Kiểu giá trị
Ý nghĩa
role_key
int
Khoá chính (Khoá đại diện)
role_business_key
varchar
Khóa tự nhiên của vai trò trong CSDL chuẩn hóa
role_name
varchar
Tên vai trò
role_description
text
Mô tả vai trò
valid_from
date
Ngày bắt đầu có hiệu lực của vai trò (ở trường hiện tại), dùng để quản lý chiều thay đổi chậm loại 2
valid_to
date
Ngày kết thúc có hiệu lực của vai trò (ở trường hiện tại), dùng để quản lý chiều thay đổi chậm loại 2
version
tinyint
Phiên bản, dùng để quản lý chiều thay đổi chậm loại 2
is_current
varchar
Vai trò ở trường hiện tại có đang được sử dụng hay không, dùng để quản lý chiều thay đổi chậm loại 2
last_update
datetime
Thời điểm sửa đổi cuối cùng
dim_course: chiều học phần
Tên thuộc tính
Kiểu giá trị
Ý nghĩa
course_key
int
Khoá chính (Khoá đại diện)
course_business_key
varchar
Khóa tự nhiên của khóa học trong CSDL chuẩn hóa
course_code
varchar
Mã khóa học
course_name
varchar
Tên khóa học
course_description
text
Mô tả khóa học
course_start_date
datetime
Ngày bắt đầu khóa học
course_created_date
datetime
Ngày khởi tạo khóa học trong hệ thống
term_number
tinyint
Thứ tự học kỳ trong năm học
term_name
varchar
Tên học kỳ
academic_year
smallint
Năm bắt đầu năm học
academic_year_name
varchar
Tên năm học
category_key
int
Mã nhóm khóa học
last_update
datetime
Thời điểm cập nhật cuối cùng
dim_role_group: chiều nhóm vai trò
Tên thuộc tính
Kiểu giá trị
Ý nghĩa
role_group_key
int
Khóa chính (khóa đại diện)
natural_key
varchar
Khóa tự nhiên của nhóm vai trò trong CSDL chuẩn hóa
role_count
int
Số lượng vai trò trong nhóm
role_group_bridge: bảng cầu nối giữa chiều vai trò và chiều nhóm vai trò
Tên thuộc tính
Kiểu giá trị
Ý nghĩa
role_group_key
int
Mã nhóm vai trò
role_key
int
Mã vai trò
weighting_factor
float
Trọng số, có giá trị là 1/role_count (bảng dim_role_group)
dim_junk_activity: chiều chức năng của hệ thống
Tên thuộc tính
Kiểu giá trị
Ý nghĩa
activity_key
int
Khóa chính (khóa đại diện)
module_name
varchar
Tên mô đun của chức năng
action_name
varchar
Tên hoạt động
last_update
datetime
Thời điểm cập nhật cuối cùng
lkp_category: bảng tìm kiếm nhóm khóa học
Tên thuộc tính
Kiểu giá trị
Ý nghĩa
category_key
int
Khóa chính (khóa đại diện)
category_business_key
varchar
Khóa tự nhiên của nhóm khóa học trong CSDL chuẩn hóa
category_name
varchar
Tên nhóm khóa học
category_description
text
Mô tả nhóm khóa học
last_update
datetime
Thời điểm cập nhật cuối cùng
category_bridge: bảng cầu nối nhóm khóa học.
Tên thuộc tính
Kiểu giá trị
Ý nghĩa
parent_category_key
int
Mã khóa học cha (mỗi khóa học cha chứa nhiều khóa học con)
child_category_key
int
Mã khóa học con
nest_level
tinyint
Số tầng phân cấp
is_top
tinyint
Có là quan hệ cha-con ở trên cùng hay không
is_bottom
tinyint
Có là quan hệ cha-con ở dưới cùng hay không
Chú thích: Bảng cầu nối này nhằm mục đích khử truy vấn đệ quy cho cây phân cấp với độ sâu không giới hạn.
Các bảng dữ kiện:
fct_traffic: dữ kiện thống kê về truy cập trên hệ thống
Tên thuộc tính
Kiểu giá trị
Ý nghĩa
date_key
int
Khoá ngoại tham chiếu bảng dim_date
time_key
int
Khoá ngoại tham chiếu bảng dim_time
user_key
int
Khoá ngoại tham chiếu bảng dim_user
activity_key
int
Khoá ngoại tham chiếu bảng dim_activity
course_key
int
Khóa ngoại tham chiếu bảng dim_course
role_group_key
int
Khóa ngoại tham chiếu bảng dim_role_group
duration
int
Thời gian truy cập tính theo giây
view_count
int
Số lượt truy cập
last_update
datetime
Thời điểm sửa đổi cuối cùng
fct_grade: Dữ kiện thống kê về kết quả học tập của sinh viên trong từng môn học.
Tên thuộc tính
Kiểu giá trị
Ý nghĩa
user_key
int
Khoá ngoại tham chiếu bảng dim_user
course_key
int
Khoá ngoại tham chiếu bảng dim_course
grade
tinyint
Điểm của sinh viên trong khóa học tương ứng.
last_update
datetime
Thời điểm cập nhật cuối cùng
Phân cấp các chiều:
Chiều ngày
Năm học àHọc kì àTuần àNgày
Chiều giờ
Thời điểm trong ngày àGiờ àPhút
Chiều học phần
Nhóm học phần à Nhóm học phần con à Học phần
Chiều chức năng
Mô đun à Chức năng
Hoạt động à Chức năng
Thiết kế hệ thống tích hợp dữ liệu
Rút trích dữ liệu – ETL cho vùng xử lí
Hình 5.4.1-1. Giai đoạn rút trích dữ liệu cho vùng xử lí.
Ở giai đoạn này, dữ liệu chủ yếu được sao chép nguyên trạng từ nguồn vào vùng xử lí. Quá trình này trải qua các gia đoạn chính dựa trên thuật toán sau:
Kiểm tra các bảng trong vùng xử lí có trống hay không.
Nếu không có dữ liệu:
Thực hiện rút trích dữ liệu từ nguồn.
Nếu dữ liệu nguồn có thông tin lịch sử: Truy vấn lấy dữ liệu có ngày giờ thay đổi sau ngày giờ last_update trong vùng dữ liệu chuẩn hoá.
Ngượclại, thực hiện truy vấn toàn bộ từ dữ liệu nguồn và dữ liệu trong vùng cơ sở dữ liệu chuẩn hoá để so sánh. Chỉ lấy ra những dòng dữ liệu mới hoặc có thay đổi để đưa vào vùng xử lí. Trường last_update được tạo ra trong giai đoạn này, lưu ngày tháng hiện hành đối với các bảng không chứa thông tin lịch sử.
Ngược lại, ngưng không rút trích.
Hình 5.4.1-2. Quá trình rút trích dữ liệu
Biến đổi dữ liệu – ETL cho cơ sở dữ liệu chuẩn hoá
Hình 5.4.2.1-Giai đoạn biến đổi dữ liệu đưa vào vùng CSDL chuẩn hoá
Quy trình biến đổi dữ liệu để đưa dữ liệu từ vùng xử lí vào cơ sở dữ liệu chuẩn hoá được thực hiện qua các bước chính sau:
Nạp các bảng không chứa khoá ngoại (các bảng không bị ràng buộc khoá ngoại đến bảng khác):
Đưa dữ liệu trong vùng xử lí vào cơ sở dữ liệu chuẩn hoá.
Nếu hoàn tất, xoá dữ liệu trong vùng xử lí.
Nạp các bảng chứa khoá ngoại.
Tìm kiếm khoá ngoại trên những chiều tham chiếu đến.
Đưa dữ liệu trong vùng xử lí vào cơ sở dữ liệu chuẩn hoá.
Nếu hoàn tất, xoá dữ liệu trong vùng xử lí.
Hình 5.4.2-2. Các bước chính đưa dữ liệu vào CSDL chuẩn hoá.
Hình 5.4.2-3. Các bước chính đưa dữ liệu vào từng bảng trong CSDL chuẩn hoá.
Nạp dữ liệu – ETL cho kho dữ liệu
Hình 5.4.3-1. Giai đoạn nạp dữ liệu vào kho dữ liệu đầu cuối
Quy trình biến đổi và nạp dữ liệu vào kho dữ liệu dựa trên thuật toán sau:
Nạp các bảng chiều:
Kiểm tra nếu bảng dim_date và dim_time được nạp hay chưa:
Nếu chưa nạp thì thực hiện nạp 2 bảng này.
Ngược lại, nếu đã nạp thì qua bước tiếp theo.
Thực hiện cập nhật dữ liệu cho chiều ngày tháng nếu có.
Thực hiện nạp dữ liệu cho các bảng chiều.
Thực hiện nạp dữ liệu cho các bảng cầu nối.
Thực hiện nạp các bảng dữ kiện:
Hình 5.4.3-2. Các bước chính nạp dữ liệu vào kho dữ liệu
Hình 5.4.3-3. Nạp các bảng chiều.
Hình 5.4.3-4. Nạp các bảng dữ kiện.
Xây dựng ứng dụng đóng gói
Triển khai ứng dụng
Các phần mềm đi kèm:
Trước khi sử dụng ứng dụng, cần cài đặt các gói phần mềm sau:
Java Runtime Environment – JRE 6u15 trở lên.
.NET Framework Runtime 4.0 trở lên.
Cài đặt
Sử dụng
Các file đính kèm theo tài liệu này:
- tailieu.docx