Tài liệu Ứng dụng kỹ thuật xây dựng hệ thống kho dữ liệu trong việc khai phá dữ liệu khách hàng của các ngân hàng thương mại: ỨNG DỤNG KỸ THUẬT XÂY DỰNG HỆ THỐNG KHO DỮ LIỆU TRONG VIỆC
KHAI PHÁ DỮ LIỆU KHÁCH HÀNG CỦA CÁC NGÂN HÀNG THƯƠNG MẠI
Nguyễn Tuấn Minh
Trung tâm Thực hành, Học viện Ngân hàng
Thông tin là nguồn tài nguyên quý giá của một tổ chức. Các phần mềm máy tính
là những công cụ hiệu quả để xử lý thông tin và hệ quản trị cơ sở dữ liệu (CSDL) là
công cụ phổ biến cho phép lưu trữ và rút trích thông tin một cách hiệu quả. Với sự
phát triển của mô hình kho dữ liệu, ngày nay ở Việt Nam, các tổ chức, doanh nghiệp
luôn chú trọng khả năng lưu trữ, xử lý và khai thác thông tin giúp nhà quản trị, lãnh
đạo phân tích trên các lớp dữ liệu dự báo được các khuynh hướng phát triển, đưa ra
các quyết sách đúng đắn, kịp thời và hiệu quả cho cơ quan, tổ chức của mình. Đáp
ứng các yêu cầu trên, nhiều công cụ được xây dựng nhằm thỏa mãn các nhu cầu khai
thác dữ liệu mức cao đã được các hãng nổi tiếng tập trung nghiên cứu, trong đó,
nguồn dữ liệu đối với các tập đoàn công nghệ, tài chính, ngân h...
6 trang |
Chia sẻ: honghanh66 | Lượt xem: 978 | Lượt tải: 0
Bạn đang xem nội dung tài liệu Ứng dụng kỹ thuật xây dựng hệ thống kho dữ liệu trong việc khai phá dữ liệu khách hàng của các ngân hàng thương mại, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
ỨNG DỤNG KỸ THUẬT XÂY DỰNG HỆ THỐNG KHO DỮ LIỆU TRONG VIỆC
KHAI PHÁ DỮ LIỆU KHÁCH HÀNG CỦA CÁC NGÂN HÀNG THƯƠNG MẠI
Nguyễn Tuấn Minh
Trung tâm Thực hành, Học viện Ngân hàng
Thông tin là nguồn tài nguyên quý giá của một tổ chức. Các phần mềm máy tính
là những công cụ hiệu quả để xử lý thông tin và hệ quản trị cơ sở dữ liệu (CSDL) là
công cụ phổ biến cho phép lưu trữ và rút trích thông tin một cách hiệu quả. Với sự
phát triển của mô hình kho dữ liệu, ngày nay ở Việt Nam, các tổ chức, doanh nghiệp
luôn chú trọng khả năng lưu trữ, xử lý và khai thác thông tin giúp nhà quản trị, lãnh
đạo phân tích trên các lớp dữ liệu dự báo được các khuynh hướng phát triển, đưa ra
các quyết sách đúng đắn, kịp thời và hiệu quả cho cơ quan, tổ chức của mình. Đáp
ứng các yêu cầu trên, nhiều công cụ được xây dựng nhằm thỏa mãn các nhu cầu khai
thác dữ liệu mức cao đã được các hãng nổi tiếng tập trung nghiên cứu, trong đó,
nguồn dữ liệu đối với các tập đoàn công nghệ, tài chính, ngân hàng là vô cùng lớn.
CắtXây dựng một kho dữ liệu cho phép rút trích tài nguyên, tính toán theo yêu
cầu để cung cấp các báo cáo dựa vào CSDL hoạt động phục vụ sản xuất, kinh doanh
trở nên thông minh hơn, tăng thêm chất lượng và tính linh hoạt của việc phân tích kinh
doanh có chất lượng cao và ổn định.
1. Kho dữ liệu là gì?
Kho dữ liệu là tập hợp các CSDL tích hợp, hướng chủ đề, được thiết kế để hỗ trợ
cho chức năng trợ giúp quyết định. Công nghệ kho dữ liệu là tập các phương pháp, kỹ
thuật và các công cụ có thể kết hợp, hỗ trợ nhau để cung cấp thông tin cho người sử
dụng trên cơ sở tích hợp từ nhiều nguồn dữ liệu, nhiều môi trường khác nhau thiết kế
chủ yếu cho truy vấn và phân tích hơn là xử lý các giao tác.
Kho dữ liệu thường rất lớn tới hàng trăm Gigabyte (GB) hay thậm chí hàng
Terabyte (TB). Kho dữ liệu được xây dựng để tiện lợi cho việc truy cập theo nhiều
nguồn, nhiều kiểu dữ liệu khác nhau sao cho có thể kết hợp được cả những ứng dụng
của các công nghệ hiện đại và kế thừa được từ những hệ thống đã có sẵn từ trước.
Ngoài việc chứa đựng một CSDL quan hệ, kho dữ liệu còn bao gồm sử dụng các pha
trong trích xuất, chuyển đổi, tải dữ liệu (Extract,Tranform, Loading - ETL), công nghệ
xử lý phân tích trực tuyến (OnLine Analytical Processing – OLAP), các công cụ phân
tích, và các ứng dụng cho việc thu thập và cung cấp dữ liệu tới người sử dụng.
2. Đặc trưng của kho dữ liệu
(1) Hướng chủ thể
Kho dữ liệu được tổ chức xung quanh các chủ đề chính như khách hàng, sản
phẩm, bán hàng, tập trung vào việc mô hình hóa và phân tích dữ liệu cho những người
đưa ra quyết định, mà không tập trung vào các hoạt động hay các xử lý giao tác hàng
ngày.
Kho dữ liệu cung cấp một khung nhìn đơn giản và súc tích xung quanh các sự
kiện của các chủ thể. Ví dụ, để tìm hiểu thêm về dữ liệu bán hàng của công ty, ta có
thể xây dựng một kho dữ liệu tập trung trên doanh thu. Sử dụng kho dữ liệu có thể trả
lời các câu hỏi như "Ai là khách hàng tốt nhất của chúng ta cho mặt hàng này năm
ngoái?".
Các chủ thể điển hình.
Các tài khoản khách hàng.
Việc bán hàng.
Tiền tiết kiệm của khách hàng.
Các yêu sách bảo hiểm.
Đặt chỗ hành khách.
Hình 1: Mô tả dữ liệu tổ chức theo hướng chủ thể
Các hệ thống OLTP có thể chứa hàng trăm GB số liệu, tuy nhiên những số liệu
này có thể hoàn toàn vô ích trong việc phân tích trực tuyến như: Địa chỉ, ID khách
hàng... Các dữ liệu kiểu này thường không được đưa vào kho dữ liệu để hạn chế dữ
liệu cần xem xét xuống mức tối thiểu nhưng cũng bảo đảm các thông tin theo từng chủ
đề. Một chủ đề là một miền dữ liệu được tách ra từ một tập hợp lớn các chủ đề mà
người sử dụng quan tâm trong công việc kinh doanh.
(2) Tích hợp
Được xây dựng bằng việc tích hợp dữ liệu từ các nguồn dữ liệu hỗn tạp. Các kỹ
thuật làm sạch và tích hợp dữ liệu được áp dụng để đảm bảo sự đồng nhất trong các
quy ước tên, cấu trúc mã hóa, các đơn vị đo thuộc tính... giữa các nguồn khác nhau.
Hình 2: Mô tả dữ liệu được tích hợp từ nhiều nguồn
Kho dữ liệu phải đưa các dữ liệu từ các nguồn khác nhau về định dạng phù hợp.
Chúng ta phải giải quyết những vấn đề như xung đột tên và mâu thuẩn giữa các đơn vị
đo.
(4) Biến thời gian
Yêu cầu quan trọng cho kho dữ liệu là phạm vi về thời gian dài hơn so với các hệ
thống tác nghiệp.
CSDL tác nghiệp: dữ liệu có giá trị hiện thời.
Dữ liệu của kho dữ liệu: cung cấp thông tin lịch sử từ 5-10 năm trước.
Yếu tố thời gian được lưu trữ trong hệ thống.
Hình 3: Mô tả dữ liệu theo thời gian
Các hệ OLTP thường bao quát một khoảng thời gian không lớn và chúng được
lưu trữ theo chu kỳ. Ngược lại trong kho dữ liệu, dữ liệu của hàng chục năm được lưu
trữ nhằm phát hiện sự liên hệ của các yếu tố có thể ảnh hưởng đến những chỉ tiêu cần
quan tâm trong một thời gian dài.
(4) Tính bền vững
Khi thông tin đã đưa vào kho dữ liệu, dữ liệu không nên thay đổi. Điều này là
hợp lý vì mục đích của một kho dữ liệu là để cho phép phân tích những gì đã xảy ra.
Dữ liệu đưa vào kho dữ liệu chỉ để đọc, việc sửa dữ liệu hầu như không được tiến hành
vì điều này có thể dẫn đến phá vỡ dữ liệu gốc- giảm độ tin cậy của thông tin gốc.
Thông thường không yêu cầu giảm thời gian đưa dữ liệu vào kho dữ liệu xuống mức
tối thiểu, nhưng cần tối ưu hoá kho dữ liệu sao cho các truy vấn phục vụ cho việc phân
tích đạt tốc độ tốt nhất. Các sơ đồ quan hệ sẽ tạo ra các Index hợp lý cũng như tạo ra
sẵn các dữ liệu kết hợp.
Hình 4: Mô tả thông tin dữ liệu luôn bền vững, an toàn
Dữ liệu được lưu trữ lâu dài trong kho dữ liệu. Mặc dù có thêm dữ liệu mới nhập
vào nhưng dữ liệu cũ trong kho vẫn không bị xoá, điều đó cho phép cung cấp thông tin
về một khoảng thời gian dài, cung cấp đủ số liệu cần thiết cho các mô hình nghiệp vụ
phân tích, dự báo.
3. Giải pháp xây dựng kho dữ liệu
Cho đến nay, ngành công nghiệp về xây dựng và triển khai các kho dữ liệu đã có
gần 20 năm phát triển và đã rất trưởng thành trên thị trường công nghệ thế giới. Qua
thời gian nghiên cứu và tìm hiểu kho dữ liệu, chúng tôi nhận thấy kho dữ liệu của bất
kể một tổ chức, doanh nghiệp nào cũng không thể nằm ngoài quy luật phát triển cũng
như định hướng kiến trúc chung của các kho dữ liệu khác trên thế giới. Do vậy, mô
hình kiến trúc tổng thể Kho dữ liệu cho bài toán Tài chính, Ngân hàng đặc biệt trong
việc xây dựng kho dữ liệu khách hàng cũng sẽ tuân thủ mô hình kiến trúc tổng thể sau:
Hình 5: Kiến trúc tổng thể kho dữ liệu
Ngày nay, với mỗi một tổ chức đều có bộ máy hoạt động độc lập, việc hoạch
định chiến lược, xây dựng mua sắm trang thiết bị, trang bị cơ sở hạ tầng luôn phải đảm
bảo đáp ứng đầy đủ cho cả một tổ chức vận hành do vậy nhu cầu thông tin phục vụ
công tác quản lý, điều hành, ra quyết định tại mỗi tổ chức đặc biệt với hoạt động trong
lĩnh vực ngành ngân hàng thì luôn có những đặc thù khác biệt, luôn mong muốn một
mô hình hoạt động hoàn hảo, ổn định và đáp ứng đầy đủ cả vấn đề công nghệ thông tin
và nghiệp vụ tác nghiệp.
Với các hoạt động tác nghiệp trong lĩnh vực tài chính, ngân hàng thì nguồn khách
hàng luôn là thông tin quan trọng- cơ sở mang lại lợi nhuận cho ngân hàng. Vì thế,
khách hàng được xem như là nguồn nuôi dưỡng cho các ngân hàng thương mại hoạt
động, chủ yếu qua các nghiệp vụ tín dụng.
Hoạt động kinh doanh của mỗi doanh nghiệp là khác nhau do vậy định nghĩa đối
tượng khách hàng cũng không giống nhau, đồng thời trong quá trình hoạt động kinh
doanh, số lượng khách hàng cũng không ngừng thay đổi. Căn cứ vào các tiêu chí và
các điều kiện khác để tiến hành phân loại khách hàng là khách hàng cá nhân hay khách
hàng doanh nghiệp.
Hình 6: Mối quan hệ giữa CNTT và Nghiệp vụ
Sự đa dạng của nhu cầu thông tin, cùng với những yêu cầu báo cáo tình hình hoạt
động sản xuất kinh doanh, báo cáo tài chính lỗ/lãi, tài sản, tín dụng, nhân sự cũng có
tới hàng trăm, hàng nghìn bảng biểu trong các quy trình nghiệp vụ tài chính, ngân
hàng. Tất cả đều được sử dụng phục vụ theo các đối tượng người sử dụng.
Lãnh đạo: Cần các thông tin tổng thể về hoạt động của ngân hàng, hỗ trợ quyết
định, hoạch định chính sách.
Các phòng ban chức năng: Tổng hợp, phân tích thông tin theo các yêu cầu
nghiệp vụ cụ thể.
Chi nhánh: Tình hình hoạt động của chi nhánh.
Khách hàng: Các thông tin hỗ trợ, tra cứu
Giải pháp xây dựng kho dữ liệu thông tin khách hàng chỉ là một phần nhỏ trong
mô hình hoạt động tác nghiệp ngành tài chính ngân hàng. Nhưng giải pháp kho dữ liệu
tổng hợp này cũng đem lại phần nào những tính năng thuận tiện, hiệu quả hơn trong
các ứng dụng thực tiễn, một hệ thống báo cáo, các bộ chỉ tiêu quản lý hiệu năng (Key
Perfomance Indicators – KPIs). Các dự báo và phân tích giả lập cho phép tổ
chức/doanh nghiệp khai thác dữ liệu từ nhiều nguồn khác nhau về khách hàng, thị
trường, nhà cung cấp, đối tác, nhân sự... và phân tích, sử dụng các dữ liệu đó thành các
nguồn thông tin có ý nghĩa nhằm hỗ trợ các nhà lãnh đạo có được đầy đủ thông tin về
tình hình hoạt động để đưa ra quyết định, định hướng, chiến lược hợp lý, kịp thời.
Tài liệu tham khảo:
[1]. Huỳnh Tuấn Anh, Bài giảng Datawarehouse and data mining, Trường
Đại Học Nha Trang, 2008.
[2]. Nguyễn Thanh Bình, Kho dữ liệu và hệ hỗ trợ quyết định, Trung tâm
CNTT, Trường Đại học Huế, 2009.
[3]. Oracle Warehouse Builder 10g Release 2 Data Modeling, 2006.
[4]. Climbing to the OLAP Summit with Oracle Warehouse Builder 10gR2,
An Oracle White Paper, 2006.
[5]. Oracle Warehouse Builder 10g Helping you save time and money anytime you
move data An Oracle White Paper, 2004.
Các file đính kèm theo tài liệu này:
- nguyentuanminhthang6_3252.pdf