Ứng dụng kỹ thuật xây dựng hệ thống kho dữ liệu trong việc khai phá dữ liệu khách hàng của các ngân hàng thương mại

Tài liệu Ứng dụng kỹ thuật xây dựng hệ thống kho dữ liệu trong việc khai phá dữ liệu khách hàng của các ngân hàng thương mại: ỨNG DỤNG KỸ THUẬT XÂY DỰNG HỆ THỐNG KHO DỮ LIỆU TRONG VIỆC KHAI PHÁ DỮ LIỆU KHÁCH HÀNG CỦA CÁC NGÂN HÀNG THƯƠNG MẠI Nguyễn Tuấn Minh Trung tâm Thực hành, Học viện Ngân hàng Thông tin là nguồn tài nguyên quý giá của một tổ chức. Các phần mềm máy tính là những công cụ hiệu quả để xử lý thông tin và hệ quản trị cơ sở dữ liệu (CSDL) là công cụ phổ biến cho phép lưu trữ và rút trích thông tin một cách hiệu quả. Với sự phát triển của mô hình kho dữ liệu, ngày nay ở Việt Nam, các tổ chức, doanh nghiệp luôn chú trọng khả năng lưu trữ, xử lý và khai thác thông tin giúp nhà quản trị, lãnh đạo phân tích trên các lớp dữ liệu dự báo được các khuynh hướng phát triển, đưa ra các quyết sách đúng đắn, kịp thời và hiệu quả cho cơ quan, tổ chức của mình. Đáp ứng các yêu cầu trên, nhiều công cụ được xây dựng nhằm thỏa mãn các nhu cầu khai thác dữ liệu mức cao đã được các hãng nổi tiếng tập trung nghiên cứu, trong đó, nguồn dữ liệu đối với các tập đoàn công nghệ, tài chính, ngân h...

pdf6 trang | Chia sẻ: honghanh66 | Lượt xem: 978 | Lượt tải: 0download
Bạn đang xem nội dung tài liệu Ứng dụng kỹ thuật xây dựng hệ thống kho dữ liệu trong việc khai phá dữ liệu khách hàng của các ngân hàng thương mại, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
ỨNG DỤNG KỸ THUẬT XÂY DỰNG HỆ THỐNG KHO DỮ LIỆU TRONG VIỆC KHAI PHÁ DỮ LIỆU KHÁCH HÀNG CỦA CÁC NGÂN HÀNG THƯƠNG MẠI Nguyễn Tuấn Minh Trung tâm Thực hành, Học viện Ngân hàng Thông tin là nguồn tài nguyên quý giá của một tổ chức. Các phần mềm máy tính là những công cụ hiệu quả để xử lý thông tin và hệ quản trị cơ sở dữ liệu (CSDL) là công cụ phổ biến cho phép lưu trữ và rút trích thông tin một cách hiệu quả. Với sự phát triển của mô hình kho dữ liệu, ngày nay ở Việt Nam, các tổ chức, doanh nghiệp luôn chú trọng khả năng lưu trữ, xử lý và khai thác thông tin giúp nhà quản trị, lãnh đạo phân tích trên các lớp dữ liệu dự báo được các khuynh hướng phát triển, đưa ra các quyết sách đúng đắn, kịp thời và hiệu quả cho cơ quan, tổ chức của mình. Đáp ứng các yêu cầu trên, nhiều công cụ được xây dựng nhằm thỏa mãn các nhu cầu khai thác dữ liệu mức cao đã được các hãng nổi tiếng tập trung nghiên cứu, trong đó, nguồn dữ liệu đối với các tập đoàn công nghệ, tài chính, ngân hàng là vô cùng lớn. CắtXây dựng một kho dữ liệu cho phép rút trích tài nguyên, tính toán theo yêu cầu để cung cấp các báo cáo dựa vào CSDL hoạt động phục vụ sản xuất, kinh doanh trở nên thông minh hơn, tăng thêm chất lượng và tính linh hoạt của việc phân tích kinh doanh có chất lượng cao và ổn định. 1. Kho dữ liệu là gì? Kho dữ liệu là tập hợp các CSDL tích hợp, hướng chủ đề, được thiết kế để hỗ trợ cho chức năng trợ giúp quyết định. Công nghệ kho dữ liệu là tập các phương pháp, kỹ thuật và các công cụ có thể kết hợp, hỗ trợ nhau để cung cấp thông tin cho người sử dụng trên cơ sở tích hợp từ nhiều nguồn dữ liệu, nhiều môi trường khác nhau thiết kế chủ yếu cho truy vấn và phân tích hơn là xử lý các giao tác. Kho dữ liệu thường rất lớn tới hàng trăm Gigabyte (GB) hay thậm chí hàng Terabyte (TB). Kho dữ liệu được xây dựng để tiện lợi cho việc truy cập theo nhiều nguồn, nhiều kiểu dữ liệu khác nhau sao cho có thể kết hợp được cả những ứng dụng của các công nghệ hiện đại và kế thừa được từ những hệ thống đã có sẵn từ trước. Ngoài việc chứa đựng một CSDL quan hệ, kho dữ liệu còn bao gồm sử dụng các pha trong trích xuất, chuyển đổi, tải dữ liệu (Extract,Tranform, Loading - ETL), công nghệ xử lý phân tích trực tuyến (OnLine Analytical Processing – OLAP), các công cụ phân tích, và các ứng dụng cho việc thu thập và cung cấp dữ liệu tới người sử dụng. 2. Đặc trưng của kho dữ liệu (1) Hướng chủ thể Kho dữ liệu được tổ chức xung quanh các chủ đề chính như khách hàng, sản phẩm, bán hàng, tập trung vào việc mô hình hóa và phân tích dữ liệu cho những người đưa ra quyết định, mà không tập trung vào các hoạt động hay các xử lý giao tác hàng ngày. Kho dữ liệu cung cấp một khung nhìn đơn giản và súc tích xung quanh các sự kiện của các chủ thể. Ví dụ, để tìm hiểu thêm về dữ liệu bán hàng của công ty, ta có thể xây dựng một kho dữ liệu tập trung trên doanh thu. Sử dụng kho dữ liệu có thể trả lời các câu hỏi như "Ai là khách hàng tốt nhất của chúng ta cho mặt hàng này năm ngoái?". Các chủ thể điển hình.  Các tài khoản khách hàng.  Việc bán hàng.  Tiền tiết kiệm của khách hàng.  Các yêu sách bảo hiểm.  Đặt chỗ hành khách. Hình 1: Mô tả dữ liệu tổ chức theo hướng chủ thể Các hệ thống OLTP có thể chứa hàng trăm GB số liệu, tuy nhiên những số liệu này có thể hoàn toàn vô ích trong việc phân tích trực tuyến như: Địa chỉ, ID khách hàng... Các dữ liệu kiểu này thường không được đưa vào kho dữ liệu để hạn chế dữ liệu cần xem xét xuống mức tối thiểu nhưng cũng bảo đảm các thông tin theo từng chủ đề. Một chủ đề là một miền dữ liệu được tách ra từ một tập hợp lớn các chủ đề mà người sử dụng quan tâm trong công việc kinh doanh. (2) Tích hợp Được xây dựng bằng việc tích hợp dữ liệu từ các nguồn dữ liệu hỗn tạp. Các kỹ thuật làm sạch và tích hợp dữ liệu được áp dụng để đảm bảo sự đồng nhất trong các quy ước tên, cấu trúc mã hóa, các đơn vị đo thuộc tính... giữa các nguồn khác nhau. Hình 2: Mô tả dữ liệu được tích hợp từ nhiều nguồn Kho dữ liệu phải đưa các dữ liệu từ các nguồn khác nhau về định dạng phù hợp. Chúng ta phải giải quyết những vấn đề như xung đột tên và mâu thuẩn giữa các đơn vị đo. (4) Biến thời gian Yêu cầu quan trọng cho kho dữ liệu là phạm vi về thời gian dài hơn so với các hệ thống tác nghiệp.  CSDL tác nghiệp: dữ liệu có giá trị hiện thời.  Dữ liệu của kho dữ liệu: cung cấp thông tin lịch sử từ 5-10 năm trước.  Yếu tố thời gian được lưu trữ trong hệ thống. Hình 3: Mô tả dữ liệu theo thời gian Các hệ OLTP thường bao quát một khoảng thời gian không lớn và chúng được lưu trữ theo chu kỳ. Ngược lại trong kho dữ liệu, dữ liệu của hàng chục năm được lưu trữ nhằm phát hiện sự liên hệ của các yếu tố có thể ảnh hưởng đến những chỉ tiêu cần quan tâm trong một thời gian dài. (4) Tính bền vững Khi thông tin đã đưa vào kho dữ liệu, dữ liệu không nên thay đổi. Điều này là hợp lý vì mục đích của một kho dữ liệu là để cho phép phân tích những gì đã xảy ra. Dữ liệu đưa vào kho dữ liệu chỉ để đọc, việc sửa dữ liệu hầu như không được tiến hành vì điều này có thể dẫn đến phá vỡ dữ liệu gốc- giảm độ tin cậy của thông tin gốc. Thông thường không yêu cầu giảm thời gian đưa dữ liệu vào kho dữ liệu xuống mức tối thiểu, nhưng cần tối ưu hoá kho dữ liệu sao cho các truy vấn phục vụ cho việc phân tích đạt tốc độ tốt nhất. Các sơ đồ quan hệ sẽ tạo ra các Index hợp lý cũng như tạo ra sẵn các dữ liệu kết hợp. Hình 4: Mô tả thông tin dữ liệu luôn bền vững, an toàn Dữ liệu được lưu trữ lâu dài trong kho dữ liệu. Mặc dù có thêm dữ liệu mới nhập vào nhưng dữ liệu cũ trong kho vẫn không bị xoá, điều đó cho phép cung cấp thông tin về một khoảng thời gian dài, cung cấp đủ số liệu cần thiết cho các mô hình nghiệp vụ phân tích, dự báo. 3. Giải pháp xây dựng kho dữ liệu Cho đến nay, ngành công nghiệp về xây dựng và triển khai các kho dữ liệu đã có gần 20 năm phát triển và đã rất trưởng thành trên thị trường công nghệ thế giới. Qua thời gian nghiên cứu và tìm hiểu kho dữ liệu, chúng tôi nhận thấy kho dữ liệu của bất kể một tổ chức, doanh nghiệp nào cũng không thể nằm ngoài quy luật phát triển cũng như định hướng kiến trúc chung của các kho dữ liệu khác trên thế giới. Do vậy, mô hình kiến trúc tổng thể Kho dữ liệu cho bài toán Tài chính, Ngân hàng đặc biệt trong việc xây dựng kho dữ liệu khách hàng cũng sẽ tuân thủ mô hình kiến trúc tổng thể sau: Hình 5: Kiến trúc tổng thể kho dữ liệu Ngày nay, với mỗi một tổ chức đều có bộ máy hoạt động độc lập, việc hoạch định chiến lược, xây dựng mua sắm trang thiết bị, trang bị cơ sở hạ tầng luôn phải đảm bảo đáp ứng đầy đủ cho cả một tổ chức vận hành do vậy nhu cầu thông tin phục vụ công tác quản lý, điều hành, ra quyết định tại mỗi tổ chức đặc biệt với hoạt động trong lĩnh vực ngành ngân hàng thì luôn có những đặc thù khác biệt, luôn mong muốn một mô hình hoạt động hoàn hảo, ổn định và đáp ứng đầy đủ cả vấn đề công nghệ thông tin và nghiệp vụ tác nghiệp. Với các hoạt động tác nghiệp trong lĩnh vực tài chính, ngân hàng thì nguồn khách hàng luôn là thông tin quan trọng- cơ sở mang lại lợi nhuận cho ngân hàng. Vì thế, khách hàng được xem như là nguồn nuôi dưỡng cho các ngân hàng thương mại hoạt động, chủ yếu qua các nghiệp vụ tín dụng. Hoạt động kinh doanh của mỗi doanh nghiệp là khác nhau do vậy định nghĩa đối tượng khách hàng cũng không giống nhau, đồng thời trong quá trình hoạt động kinh doanh, số lượng khách hàng cũng không ngừng thay đổi. Căn cứ vào các tiêu chí và các điều kiện khác để tiến hành phân loại khách hàng là khách hàng cá nhân hay khách hàng doanh nghiệp. Hình 6: Mối quan hệ giữa CNTT và Nghiệp vụ Sự đa dạng của nhu cầu thông tin, cùng với những yêu cầu báo cáo tình hình hoạt động sản xuất kinh doanh, báo cáo tài chính lỗ/lãi, tài sản, tín dụng, nhân sự cũng có tới hàng trăm, hàng nghìn bảng biểu trong các quy trình nghiệp vụ tài chính, ngân hàng. Tất cả đều được sử dụng phục vụ theo các đối tượng người sử dụng.  Lãnh đạo: Cần các thông tin tổng thể về hoạt động của ngân hàng, hỗ trợ quyết định, hoạch định chính sách.  Các phòng ban chức năng: Tổng hợp, phân tích thông tin theo các yêu cầu nghiệp vụ cụ thể.  Chi nhánh: Tình hình hoạt động của chi nhánh.  Khách hàng: Các thông tin hỗ trợ, tra cứu Giải pháp xây dựng kho dữ liệu thông tin khách hàng chỉ là một phần nhỏ trong mô hình hoạt động tác nghiệp ngành tài chính ngân hàng. Nhưng giải pháp kho dữ liệu tổng hợp này cũng đem lại phần nào những tính năng thuận tiện, hiệu quả hơn trong các ứng dụng thực tiễn, một hệ thống báo cáo, các bộ chỉ tiêu quản lý hiệu năng (Key Perfomance Indicators – KPIs). Các dự báo và phân tích giả lập cho phép tổ chức/doanh nghiệp khai thác dữ liệu từ nhiều nguồn khác nhau về khách hàng, thị trường, nhà cung cấp, đối tác, nhân sự... và phân tích, sử dụng các dữ liệu đó thành các nguồn thông tin có ý nghĩa nhằm hỗ trợ các nhà lãnh đạo có được đầy đủ thông tin về tình hình hoạt động để đưa ra quyết định, định hướng, chiến lược hợp lý, kịp thời. Tài liệu tham khảo: [1]. Huỳnh Tuấn Anh, Bài giảng Datawarehouse and data mining, Trường Đại Học Nha Trang, 2008. [2]. Nguyễn Thanh Bình, Kho dữ liệu và hệ hỗ trợ quyết định, Trung tâm CNTT, Trường Đại học Huế, 2009. [3]. Oracle Warehouse Builder 10g Release 2 Data Modeling, 2006. [4]. Climbing to the OLAP Summit with Oracle Warehouse Builder 10gR2, An Oracle White Paper, 2006. [5]. Oracle Warehouse Builder 10g Helping you save time and money anytime you move data An Oracle White Paper, 2004.

Các file đính kèm theo tài liệu này:

  • pdfnguyentuanminhthang6_3252.pdf
Tài liệu liên quan