Rút gọn thuộc tính trực tiếp trên bảng quyết định theo tiếp cận tập thô mờ - Cao Chính Nghĩa

Tài liệu Rút gọn thuộc tính trực tiếp trên bảng quyết định theo tiếp cận tập thô mờ - Cao Chính Nghĩa: Công nghệ thông tin & Khoa học máy tính C.C.Nghĩa, V.Đ.Thi, N.L.Giang, “Rút gọn thuộc tính trực tiếp tiếp cận tập thô mờ.” 110 RÚT GỌN THUỘC TÍNH TRỰC TIẾP TRÊN BẢNG QUYẾT ĐỊNH THEO TIẾP CẬN TẬP THÔ MỜ Cao Chính Nghĩa1*, Vũ Đức Thi2, Nguyễn Long Giang 3 Tóm tắt: Các phương pháp rút gọn thuộc tính theo tiếp cận lý thuyết tập thô thực hiện trên các bảng quyết định có miền giá trị thuộc tính rời rạc. Để thực hiện rút gọn thuộc tính trực tiếp trên các bảng quyết định có miền giá trị thuộc tính số, hướng tiếp cận tập thô mờ được xem là hiệu quả và được các nhà nghiên cứu quan tâm hiện nay. Trong bài báo này, chúng tôi đề xuất phương pháp rút gọn thuộc tính trực tiếp trên bảng quyết định có miền giá trị thuộc tính số theo tiếp cận tập thô mờ. Phương pháp đề xuất sử dụng độ phụ thuộc mờ của thuộc tính nên hiệu quả hơn các phương pháp sử dụng độ đo entropy Shannon. Từ khóa: Tập thô, Tập thô mờ, Bảng quyết định, Quan hệ tương tự mờ, Rút gọn thuộc tính, Tập rút gọn. ...

pdf9 trang | Chia sẻ: quangot475 | Lượt xem: 825 | Lượt tải: 0download
Bạn đang xem nội dung tài liệu Rút gọn thuộc tính trực tiếp trên bảng quyết định theo tiếp cận tập thô mờ - Cao Chính Nghĩa, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
Công nghệ thông tin & Khoa học máy tính C.C.Nghĩa, V.Đ.Thi, N.L.Giang, “Rút gọn thuộc tính trực tiếp tiếp cận tập thô mờ.” 110 RÚT GỌN THUỘC TÍNH TRỰC TIẾP TRÊN BẢNG QUYẾT ĐỊNH THEO TIẾP CẬN TẬP THÔ MỜ Cao Chính Nghĩa1*, Vũ Đức Thi2, Nguyễn Long Giang 3 Tóm tắt: Các phương pháp rút gọn thuộc tính theo tiếp cận lý thuyết tập thô thực hiện trên các bảng quyết định có miền giá trị thuộc tính rời rạc. Để thực hiện rút gọn thuộc tính trực tiếp trên các bảng quyết định có miền giá trị thuộc tính số, hướng tiếp cận tập thô mờ được xem là hiệu quả và được các nhà nghiên cứu quan tâm hiện nay. Trong bài báo này, chúng tôi đề xuất phương pháp rút gọn thuộc tính trực tiếp trên bảng quyết định có miền giá trị thuộc tính số theo tiếp cận tập thô mờ. Phương pháp đề xuất sử dụng độ phụ thuộc mờ của thuộc tính nên hiệu quả hơn các phương pháp sử dụng độ đo entropy Shannon. Từ khóa: Tập thô, Tập thô mờ, Bảng quyết định, Quan hệ tương tự mờ, Rút gọn thuộc tính, Tập rút gọn. 1. MỞ ĐẦU Rút gọn thuộc tính là bài toán quan trọng trong bước tiền xử lý số liệu với mục tiêu là loại bỏ các thuộc tính dư thừa nhằm nâng cao tính hiệu quả của các thuật toán khai phá dữ liệu. Đối với các thuộc tính có miền giá trị số, liên tục cần được rời rạc hóa trước khi áp dụng các phương pháp rút gọn theo tiếp cận lý thuyết tập thô. Tuy nhiên, các phương pháp rời rạc hóa không bảo toàn được sự khác nhau ban đầu giữa các giá trị thuộc tính. Để giải quyết bài toán rút gọn thuộc tính trực tiếp trên các bảng quyết định có miền giá trị thuộc tính số không qua bước rời rạc hóa dữ liệu, trong mấy năm gần đây các nhà nghiên cứu quan tâm đến hướng tiếp cận mới sử dụng lý thuyết tập thô mờ. Lý thuyết tập thô mờ (Fuzzy Rough Set) [2,3] là sự kết hợp của lý thuyết tập thô và lý thuyết tập mờ nhằm xấp xỉ các tập mờ (fuzzy set) dựa trên quan hệ tương tự mờ (fuzzy similarity relation). Trong lý thuyết tập thô, hai đối tượng là tương đương trên tập thuộc tính R (độ tương tự là 1) nếu giá trị thuộc tính của chúng bằng nhau trên tất cả các thuộc tính thuộc R. Ngược lại, chúng là không tương đương (độ tương tự là 0). Trong lý thuyết tập thô mờ, quan hệ tương tự mờ thay thế quan hệ tương đương nhằm xác định độ tương tự của hai đối tượng. Độ tương tự là một giá trị nằm trong khoảng [0, 1] cho thấy tính gần nhau, hay tính tương tự, của hai đối tượng. Trong các công trình [1, 9], các tác giả xây dựng ma trận quan hệ mờ dựa trên một quan hệ tương tự mờ được định nghĩa trên miền giá trị thuộc tính. Từ đó, các tác giả xây dựng thuật toán tìm tất cả các tập rút gọn bằng cách mở rộng phương pháp rút gọn thuộc tính dựa trên ma trận phân biệt trong lý thuyết tập thô truyền thống. Trong công trình [5, 7], dựa trên ma trận quan hệ mờ được xây dựng, các tác giả tính toán lượng thông tin tăng thêm (information gain) của entropy Shanon mờ [5] và tính entropy Shannon có điều kiện mờ [7], trên cơ sở đó xây dựng thuật toán heuristic tìm một tập rút tối thiểu nhất dựa trên độ quan trọng của thuộc tính. Nhóm tác giả trong [5, 7] cũng minh chứng bằng thực nghiệm rằng, phương pháp của họ có độ chính xác phân lớp tốt hơn phương pháp rút gọn theo tiếp cận lý thuyết tập thô truyền thống trên một số bộ dữ liệu thử nghiệm. Trong bài báo này, chúng tôi đề xuất thuật toán heuristic tìm một tập rút gọn của bảng quyết định có miền giá trị thuộc tính số sử dụng độ phụ thuộc mờ của thuộc tính trong tập thô mờ. Thuật toán đề xuất tìm một tập rút gọn tối thiểu nhất nhất theo độ quan trọng của thuộc tính, do đó hiệu quả hơn các công bố trong [1, 9]. Kết quả thử nghiệm trên một số bộ dữ liệu cho thấy, thời gian thực hiện của phương pháp đề xuất hiệu quả hơn phương pháp sử dụng độ đo entropy Shannon trong [5]. Cấu trúc bài báo như sau. Phần 2 trình bày một số khái niệm cơ bản trong lý thuyết tập thô và lý thuyết tập thô mờ. Phần 3 trình bày Nghiên cứu khoa học công nghệ Tạp chí Nghiên cứu KH&CN quân sự, Số 43, 06 - 2016 111 phương pháp rút gọn thuộc tính sử dụng độ phụ thuộc mờ của thuộc tính theo tiếp cận tập thô mờ. Phần 4 trình bày ví dụ minh họa của thuật toán. Phần 5 trình bày kết quả thử nghiệm. Cuối cùng là kết luận và hướng phát triển tiếp theo. 2. CÁC KHÁI NIỆM CƠ BẢN 2.1. Các khái niệm cơ bản trong lý thuyết tập thô Hệ thông tin là một cặp  ,IS U A trong đó U là tập khác rỗng, hữu hạn các đối tượng; A là tập khác rỗng, hữu hạn các thuộc tính. Mỗi thuộc tính a A xác định một ánh xạ: : aa U V với Va là tập giá trị của thuộc tính a A . Bảng quyết định là hệ thông tin  ,DS U C D  với C D  , D được gọi là tập thuộc tính quyết định, C được gọi là tập thuộc tính điều kiện. Cho bảng quyết định  ,DS U C D  , mỗi tập thuộc tính P C xác định một quan hệ tương đương:         , ,IND P u v U U a P a u a v      Ký hiệu phân hoạch của U sinh bởi quan hệ  IND P là /U P và lớp tương đương chứa đối tượng u là   P u , khi đó       ,Pu v U u v IND P   . Với X U , các tập   CCX u U u X   và   CCX u U u X    tương ứng gọi là C-xấp xỉ dưới, C- xấp xỉ trên của X. Ta gọi tập   / ( )C X U D POS D CX    là C-miền dương của D. Dễ thấy ( )CPOS D là tập các đối tượng trong U được phân lớp đúng vào các lớp của /U D sử dụng tập thuộc tính C. Độ phụ thuộc của tập thuộc tính C vào tập thuộc tính D trong lý thuyết tập thô truyền thống, ký hiệu là  C D , được định nghĩa:    C C POS D k D U   với S là lực lượng của tập S. Nếu k =1 thì D phụ thuộc hoàn toàn vào C. Nếu 0 1k  , D phụ thuộc bộ phận vào C. 2.2. Ma trận quan hệ và tập thô mờ Cho  1,..., nU x x là tập hữu hạn, khác rỗng n đối tượng, R là một quan hệ trên U . Ma trận quan hệ của R trên U , ký hiệu là ( )M R , được xác định như sau [7] 11 12 1 21 22 2 1 2 ... ... ( ) ... ... ... ... ... n n n n nn r r r r r r M R r r r             với  ,ij i jr R x x là giá trị của quan hệ giữa đối tượng ix và jx ,  0,1ijr  . Một quan hệ R xác định trên U được gọi là quan hệ tương tự mờ (fuzzy similarity relation) nếu thỏa mãn các điều kiện sau đây [7] 1) Tính phản xạ:  , 1,R x x x U   2) Tính đối xứng:    , , , ,R x y R y x x y U   Công nghệ thông tin & Khoa học máy tính C.C.Nghĩa, V.Đ.Thi, N.L.Giang, “Rút gọn thuộc tính trực tiếp tiếp cận tập thô mờ.” 112 3) Tính bắc cầu Max-min:       , min , , ,R x z R x y R y z với mọi , ,x y z U . Quan hệ tương tự mờ R có các tính chất sau đây [7] 1)    1 2 1 2, ,R R R x y R x y   2)       1 2 1 2, m a x , , ,R R R R x y R x y R x y    3)       1 2 1 2, m in , , ,R R R R x y R x y R x y    4)    1 2 1 2, ,R R R x y R x y   Quan hệ tương tự mờ R xác định một phân hoạch mờ (fuzzy partition) trên U, ký hiệu    1 / n i R i U R x   , với  i Rx là một tập mờ, được gọi là lớp tương đương mờ.  i Rx được biểu diễn dựa trên lý thuyết tập mờ như sau:  1 2 1 2 ...i i ini R n r r r x x x x          và lực lượng của tập mờ  i Rx được tính:   1 n i ijR j x r    Dễ thấy rằng, hàm thuộc của các đối tượng ju U đối với lớp tương đương mờ  i Ru là      ,i R j i j iju u R u u r   . Giả sử F là một tập mờ trên U và R là một quan hệ tương tự mờ, khi đó tập mờ xấp xỉ dưới  R F và tập mờ xấp xỉ trên  R F của F là các tập mờ và hàm thuộc của các đối tượng x U được xác định như sau [2, 3]         inf max 1 , ,R FR F y Ux x y y    (1)         sup , ,R FR F y U x min x y y     (2) Với      ,R Rx y x y  , khi đó tập mờ xấp xỉ dưới  R F và tập mờ xấp xỉ trên  R F được viết lại như sau:           inf max 1 ,R FR F xy Ux y y    (3)           sup ,R FxR F y Ux min y y   (4) Cặp     ,R F R F được gọi là tập thô mờ [2, 3]. Dễ thấy rằng một tập hợp (tập rõ) bất kỳ X U có thể xem là một tập mờ, hàm thuộc   1X y  với y X và   0X y  với y X . Mô hình tập thô mờ có thể xem là việc sử dụng quan hệ tương tự mờ để xấp xỉ tập mờ (hoặc tập rõ) bằng tập mờ xấp xỉ dưới và tập mờ xấp xỉ trên. Cho bảng quyết định có miền giá trị thuộc tính số  ,DS U C D  với  1 , ..., nU u u ,  1,..., mC c c . Giả sử một quan hệ tương tự mờ R xác định trên miền giá trị của thuộc tính C. Ta ký hiệu   kR c là quan hệ R xác định trên thuộc tính điều kiện , 1..kc C k m  và  R C là quan hệ R xác định trên tập thuộc tính điều kiện C. Khi đó, khái niệm miền dương  CPOS D trong lý thuyết tập thô truyền thống được mở rộng thành khái niệm miền dương mờ của tập thuộc tính D đối với tập thuộc tính C dựa trên Nghiên cứu khoa học công nghệ Tạp chí Nghiên cứu KH&CN quân sự, Số 43, 06 - 2016 113 quan hệ R, ký hiệu là    R CPOS D .    R CPOS D là một tập mờ mà hàm thuộc của các đối tượng x U được định nghĩa như sau [7].            / sup R CPOS D R C X X U D x x    (5) Dựa trên khái niệm miền dương mờ, độ phụ thuộc của tập thuộc tính điều kiện C vào tập thuộc tính quyết định D dựa trên quan hệ R được định nghĩa theo tiếp cận tập thô mờ như sau [7].                 R C R C POS D POS Dx U R C x x D U U        (6) Cho bảng quyết định có miền giá trị thuộc tính số  ,DS U C D  với ,P Q C và  R P ,  R Q là quan hệ R trên tập thuộc tính P, Q tương ứng. Khi đó ta có      R P Q R P R Q   [7], nghĩa là với mọi ,x y U ,             , min , , ,R P Q x y R P x y R Q x y  . Giả sử     R Pij n n M R P r      và     R Qij n n M R Q r      là ma trận quan hệ của R trên tập thuộc tính P và Q tương ứng, khi đó ma trận quan hệ của R trên tập thuộc tính P Q là:     R P Qij n n M R P Q r        với       min ,R P Q R P R Qij ij ijr r r  (7) 3. RÚT GỌN THUỘC TÍNH TRONG BẢNG QUYẾT ĐỊNH MIỀN GIÁ TRỊ LIÊN TỤC SỬ DỤNG ĐỘ PHỤ THUỘC CỦA THUỘC TÍNH Trong phần này, chúng tôi trình bày phương pháp rút gọn thuộc tính của bảng quyết định có miền giá trị thuộc tính số sử dụng độ phụ thuộc mờ của thuộc tính trong tập thô mờ. Phương pháp đề xuất bao gồm các bước: định nghĩa tập rút gọn dựa trên độ phụ thuộc mờ của thuộc tính trong tập thô mờ, định nghĩa độ quan trọng của thuộc tính trong tập thô mờ và xây dựng thuật toán heuristic tìm tập rút gọn tối thiểu nhất dựa trên tiêu chuẩn độ quan trọng của thuộc tính. Định nghĩa 1. Cho bảng quyết định có miền giá trị thuộc tính số  ,DS U C D  , quan hệ tương tự mờ R và tập thuộc tính P C . Nếu: 1)    ( ) ( )R P R CD D  2)     , ( ) ( )R CR P pp P D D    thì P là một tập rút gọn nhỏ nhất của C dựa trên độ phụ thuộc mờ của thuộc tính. Định nghĩa 2. Cho bảng quyết định có miền giá trị thuộc tính số  ,DS U C D  và quan hệ tương tự mờ R xác định trên miền giá trị thuộc tính. Với B C , độ quan trọng của thuộc tính b C B  đối với tập thuộc tính B dựa trên quan hệ R được định nghĩa:             R B R BR B bSIG b D D   (8) Độ quan trọng của thuộc tính được sử dụng làm tiêu chuẩn lựa chọn thuộc tính cho thuật toán heuristic tìm tập rút gọn nhỏ nhất sau đây. Thuật toán F_RSAR (Fuzzy Rough Set based Attribute Reduction) Thuật toán heuristic tìm một tập rút gọn sử dụng độ phụ thuộc mờ của thuộc tính theo tiếp cận tập thô mờ. Công nghệ thông tin & Khoa học máy tính C.C.Nghĩa, V.Đ.Thi, N.L.Giang, “Rút gọn thuộc tính trực tiếp tiếp cận tập thô mờ.” 114 Đầu vào: Bảng quyết định giá trị thuộc tính số  ,DS U C D  , quan hệ tương tự mờ R. Đầu ra: Một tập rút gọn nhỏ nhất P . 1. P  ;      0R D   ; 2. Tính ma trận quan hệ M(R(C)); 3. Tính    R C D ; // Thêm dần vào P các thuộc tính có độ quan trọng lớn nhất 4. While        R P R CD D  do 5. Begin 6. For c C P  tính             R P R PR P cSIG c D D   ; 7. Chọn mc C P  sao cho         mR P R Pc C PSIG c Max SIG c  ; 8.  mP P c  ; 9. Tính    R P D ; 10. End; //Loại bỏ các thuộc tính dư thừa trong P nếu có 11. For each a P 12. Begin 13. Tính     R P a D  ; 14. If         R CR P a D D   then  P P a  ; 15. End; 16. Return P; Ví dụ 1. Xét bảng quyết định   ,DS U C d  cho ở Bảng 1 với  1 2 3 4 5 6, , , , ,U u u u u u u ,  1 2 3 4 5 6, , , , ,C c c c c c c . Bảng 1. Bảng quyết định mô tả ví dụ 1. 1c 2c 3c 4c 5c 6c d 1u 0.8 0.2 0.6 0.4 1 0 No 2u 0.8 0.2 0 0.6 0.2 0.8 Yes 3u 0.6 0.4 0.8 0.2 0.6 0.4 No 4u 0 0.4 0.6 0.4 0 1 Yes 5u 0 0.6 0.6 0.4 0 1 Yes 6u 0 0.6 0 1 0 1 No Định nghĩa quan hệ tương tự mờ   ; 1..6kR c k  trên kc C như sau:    1 4 * , 0 .25 ( , ) m ax( ) m in( ) m ax( ) m in( ) 0, i j i j k i j k k k k x x x x R c u u c c c c otherw ise           (9) Nghiên cứu khoa học công nghệ Tạp chí Nghiên cứu KH&CN quân sự, Số 43, 06 - 2016 115    M R C được tính thông qua các ma trận quan hệ tương tự mờ trên các thuộc tính điều kiện    ; 1..6kM R c k  . Từ đó tính được     .R C d   1 0 0 0 0 0 0 1 0 0 0 0 0 0 1 0 0 0 0 0 0 1 0 0 0 0 0 0 1 0 0 0 0 0 ) , 0 ( 1 M R C                                 1 R CPOS dx U R C x d U       Áp dụng các bước của Thuật toán F_RSAR tìm được tập rút gọn nhỏ nhất  4 1,P c c . Thuật toán F_RSAR tìm được một tập rút gọn nhỏ nhất dựa trên độ quan trọng của thuộc tính nên hiệu quả hơn các thuật toán tìm tất cả các tập rút gọn theo hướng tiếp cận ma trận phân biệt trong các công trình [1, 9]. Thuật toán F_RSAR sử dụng độ phụ thuộc của thuộc tính để tìm tập rút gọn, do đó có khối lượng tính toán nhỏ hơn các thuật toán theo hướng tiếp cận entropy Shannon trong [5, 7]. Dễ thấy rằng, tập rút gọn thu được của Thuật toán F_RSAR bảo toàn miền dương mờ. 4. THỬ NGHIỆM Chúng tôi chọn thuật toán GAIN_RATIO_AS_FRS (Gọi tắt là thuật toán GRAF) tìm tập rút gọn sử dụng lượng thông tin tăng thêm (gain ratio) theo tiếp cận tập thô mờ trong công trình [5] để so sánh với thuật toán đề xuất F_RSAR về thời gian thực hiện và kết quả thực hiện. Sở dĩ chọn thuật toán GRAF vì đây là thuật toán heuristic tìm một tập rút gọn tối thiểu nhất của bảng quyết định miền giá trị thuộc tính số sử dụng entropy Shannon theo tiếp cận thô mờ. Thuật toán GRAF được trình bày cụ thể trong công trình [5], tóm lược như sau: Thuật toán GRAF (GAIN_RATIO_AS_FRS) Tìm một tập rút gọn tốt nhất của bảng quyết định theo tiếp cận tập thô mờ. Đầu vào: Bảng quyết định giá trị thuộc tính số  ,DS U C D  , ,P Q C , quan hệ tương tự mờ R. Đầu ra: Một tập rút gọn nhỏ nhất P . 1. ;P  2. For a C P  , tính độ quan trọng của thuộc tính a, _ ( , , );Gain Ratio a P D 3. Chọn thuộc tính a sao cho _ ( , , )Gain Ratio a P D đạt giá trị lớn nhất; 4. If _ ( , , ) 0Gain Ratio a P D  , then {a}P P  goto 2, else goto 5; 5. P là tập thuộc tính được chọn. Trong đó:   ( , , ) ( { }) (( { }) ) ( ) ( ) _ ( , , ) ({ }) ({ }) Gain a B D H B a H B a D H B H BD Gain Ratio a B D H a H a        Với 1 [ ]1 ( ) log n i R i x H R n n    ; 1 [ ] [ ]1 ( ) log n i P i Q P Q i x x H R R n n     (10) Công nghệ thông tin & Khoa học máy tính C.C.Nghĩa, V.Đ.Thi, N.L.Giang, “Rút gọn thuộc tính trực tiếp tiếp cận tập thô mờ.” 116 Thuật toán GRAF[5] có độ phức tạp tính toán hàm đa thức do sử dụng ma trận quan hệ trên các thuộc tính, độ phức tạp tính toán của các ma trận quan hệ là 2 ( )O C U với C là số lượng thuộc tính điều kiện, U là số lượng phần tử của bộ dữ liệu. Do vậy, độ phức tạp tính toán của GRAF và F_RSAR đều là 3 2 ( )O C U . Thuật toán GRAF được xây dựng dựa trên việc tính lượng thông tin tăng thêm khi thêm dần các thuộc tính điều kiện vào tập rút gọn, khi nào lượng thông tin không tăng nữa thì kết thúc nên đảm bảo được các điều kiện của định nghĩa 1 để tìm ra một tập rút gọn tối thiểu nhất, loại bỏ được các thuộc tính dư thừa của tập rút gọn. Hơn nữa, theo hiểu biết của tác giả thì đây là công bố tốt nhất cho đến thời điểm năm 2015 về hướng nghiên cứu của bài báo. Để tiến hành thử nghiệm, chúng tôi thực hiện các công việc sau: 1) Cài đặt thuật toán GRAF trong [5] và Thuật toán F_RSAR bằng ngôn ngữ C#. Cả hai thuật toán đều sử dụng quan hệ tương tự mờ xác định bởi công thức (9). 2) Trên máy tính PC với cấu hình Pentium dual core 2.13 GHz CPU, 1GB bộ nhớ RAM, hệ điều hành Windows 7, chạy thử nghiệm hai thuật toán với 5 bộ số liệu lấy từ kho dữ liệu UCI [10]. Với mỗi bộ số liệu, giả sử U là số đối tượng, C là số thuộc tính điều kiện, R là số thuộc tính của tập rút gọn, t là thời gian thực hiện thuật toán (đơn vị là giây s), các thuộc tính điều kiện được đánh số là 1, 2,, C . Kết quả thực hiện của hai thuật toán được mô tả ở bảng 2 và bảng 3: Bảng 2. Kết quả thực hiện Thuật toán F_RSAR và Thuật toán GRAF[5]. STT Bộ số liệu U C Thuật toán F_RSAR Thuật toán GRAF[5] R t R t 1 Ionosphere 351 34 12 1.02 12 1.04 2 Wpbc 198 33 15 0.67 17 0.68 3 Wine 178 13 6 0.26 6 0.26 4 Glass 214 9 7 0.46 8 0.48 5 Magic04 19020 10 9 6.09 9 6.28 Bảng 3. Tập rút gọn của Thuật toán F_RSAR và Thuật toán GRAF[5]. STT Tập dữ liệu Tập rút gọn của Thuật toán F_RSAR Tập rút gọn của Thuật toán GRAF[5] 1 Ionosphere 1,2,4,5,8,9,10,24,26,27, 29,33 1,2,4,5,8,9,10,24,26,27,29 ,33 2 Wpbc 1,3,4,5,7,12,13,15,18,2 4,25,26,28,32,33 1,3,4,5,7,12,13,15,17,18,2 0,24,25,26,28,32,33 3 Wine 1,3,4,8,9,12 1,3,4,8,9,12 4 Glass 1,2,4,5,6,8,9 1,2,4,5,6,7,8,9 5 Magic04 1,2,3,4,5,7,8,9,10 1,2,3,4,5,7,8,9,10 Kết quả thử nghiệm cho thấy: - Trên các bộ số liệu Ionosphere.data, Wine.data, Magic04.data, tập rút gọn thu được bởi Thuật toán F_RSAR và Thuật toán GRAF là như nhau. Tuy nhiên, với bộ số liệu Nghiên cứu khoa học công nghệ Tạp chí Nghiên cứu KH&CN quân sự, Số 43, 06 - 2016 117 Wpbc.data, Glass.data, tập rút gọn thu được bởi Thuật toán F_RSAR tối thiểu hơn tập rút gọn thu được bởi Thuật toán GRAF. - Thời gian thực hiện Thuật toán F_RSAR thường nhỏ hơn Thuật toán GRAF, đặc biệt là trên các bộ số liệu lớn thì độ chênh lệch càng nhiều. 5. KẾT LUẬN Mô hình tập thô mờ do D. Dubois và các cộng sự [2, 3] đề xuất là công cụ hiệu quả để giải quyết bài toán rút gọn thuộc tính trực tiếp trên các bảng quyết định có miền giá trị thuộc tính số. Trong bài báo này, chúng tôi đề xuất thuật toán heuristic tìm một tập rút gọn của bảng quyết định có miền giá trị thuộc tính số sử dụng độ phụ thuộc mờ của thuộc tính theo tiếp cận tập thô mờ. Độ phụ thuộc mờ của thuộc tính được xác định dựa trên ma trận quan hệ xác định bởi quan hệ tương tự mờ ở công thức (9). Thực nghiệm trên các bộ số liệu UCI cho thấy, tập rút gọn thu được bởi thuật toán đề xuất F_RSAR có số thuộc tính nhỏ hơn thuật toán GRAF trong [5] trên một số bộ dữ liệu. Do đó, độ hỗ trợ của tập luật trên tập rút gọn của thuật toán F_RSAR cao hơn so với thuật toán GRAF trong [5]. Hơn nữa, thời gian thực hiện thuật toán F_RSAR nhỏ hơn so với thuật toán GRAF trong [5] bởi thuật toán F_RSAR không sử dụng các công thức logarit, đặc biệt là trên một số bộ dữ liệu lớn. Định hướng nghiên cứu tiếp theo là tìm kiếm các độ đo hiệu quả để giải quyết bài toán rút gọn thuộc tính theo tiếp cận tập thô mờ. TÀI LIỆU THAM KHẢO [1]. Chen Degang, Lei Zhang, Suyun Zhao, Qinghua Hu, and Pengfei Zhu, “A Novel Algorithm for Finding Reducts With Fuzzy Rough Sets”, IEEE TRANSACTIONS ON FUZZY SYSTEMS, VOL. 20, NO. 2, pp. 385 - 389 , 2012. [2]. D. Dubois and H. Prade, “Putting rough sets and fuzzy sets together”, Intelligent Decision Support, Kluwer Academic Publishers,Dordrecht, 1992. [3]. Dubois, D. and Prade, H., “Rough fuzzy sets and fuzzy rough sets”, International Journal of General Systems, 17, pp. 191-209, 1990. [4]. F.F. Xu, D.Q. Miao and L. Wei, “Fuzzy-rough attribute reduction via mutual information with an application to cancer classification”, Computers and Mathematics with Applications 57, pp. 1010 -1017, 2009. [5]. Jianhua Dai and Qing Xu, “Attribute selection based on information gain ratio in fuzzy rough set theory with application to tumor classification”, Applied Soft Computing 13, pp. 211–221, 2013. [6]. Qiang He, Congxin Wu, Degang Chen, Suyun Zhao, “Fuzzy rough set based attribute reduction for information systems with fuzzy decisions”, Knowledge-Based Systems 24 (2011), pp. 689–696, 2011. [7]. Qinghua Hu, Daren Yu, Zongxia Xie, “Information-preserving hybrid data reduction based on fuzzy-rough techniques”, Pattern Recognition Letters 27, 2006, pp. 414-423. [8]. R. Jensen and Q. Shen., “Fuzzy-Rough Sets for Descriptive Dimensionality Reduction”, Proceedings of the 2002 IEEE International Conference on Fuzzy Systems ,FUZZ-IEEE'02, pp. 29-34, 2002. [9]. Zhao Ming, Yan Zhengbo, Zhou Liukun, Wang Huijie and Xu Xiaogang, “The Extraction Method of the Energy Consumption Characteristics Based on Fuzzy Rough Set”, Proceedings of Conference on Computational Intelligence and Bioinformatics (AASRI), pp. 142 – 149, 2012. [10]. The UCI machine learning repository, Công nghệ thông tin & Khoa học máy tính C.C.Nghĩa, V.Đ.Thi, N.L.Giang, “Rút gọn thuộc tính trực tiếp tiếp cận tập thô mờ.” 118 ABSTRACT FUZZY ROUGH SET BASED ON THE DIRECTLY ATTRIBUTE REDUCTION IN DECISION TABLES Attribute reduction methods based on the approach rough set perform on the decision table with discrete attribute value domain. To perform a attribute reduction directly on the decision table with the numerical attribute value, fuzzy rough set approach is considered effective and researchers are now interested. In this paper, we propose a method attribute reduction directly on the decision table with the numerical attribute value according to fuzzy rough set approach. The proposed method uses degree of dependence between attributes is more efficient than the method of using the Shannon entropy measure. Keywords: Rough set, Fuzzy rough set, Decision table, fuzzy similarity relation, Attribute redection, Reduct. Nhận bài ngày 25 tháng 3 năm 2016 Hoàn thiện ngày 25 tháng 4 năm 2016 Chấp nhận đăng ngày 09 tháng 6 năm 2016 Địa chỉ: 1 Học viện Cảnh sát Nhân dân; 2 Đại học Sư phạm kỹ thuật Hưng Yên; 3 Viện Công nghệ thông tin, Viện Hàn lâm Khoa học & Công nghệ Việt Nam. *Email: ccnghia@gmail.com

Các file đính kèm theo tài liệu này:

  • pdf13_nghia_cntt_khmaytinh_8932_2150272.pdf
Tài liệu liên quan