Tài liệu Hệ quyết định nhất quán và luật quan trọng - Nguyễn Đức Thọ: Nghiên cứu khoa học công nghệ
Tạp chí Nghiên cứu KH&CN quân sự, Số 39, 10 - 2015 69
HỆ QUYẾT ĐỊNH NHẤT QUÁN VÀ LUẬT QUAN TRỌNG
Nguyễn Đức Thọ1, Nguyễn Bá Tường2*, Nguyễn Hữu Đông2
Tóm tắt: Trong bài này nhóm tác giả giới thiệu một số tính chất liên quan đến các ma
trận độ hỗ trợ, độ chính xác và độ phủ của các luật quyết đinh. Mục đích chính của bài
viết là trình bày thuật toán tìm luật quan trọng sau khi dựa vào các tính chất được nêu ở
trên. Đó là dựa vào các ma trận thưa của độ phủ, độ chính xác để tìm các luật quan
trọng trong hệ quyết định nhất quán.
Từ khóa: Tập thô, Độ hỗ trợ, Độ chính xác, Độ phủ, Khai thác dữ liệu.
1. ĐẶT VẤN ĐỀ
Các luật trong hệ quyết định dựa trên nền lý thuyết tập thô được phát triển và nghiên cứu trong
[1, 2, 3]. Mô hình xác suất tối thiểu của các luật được nghiên cứu để phân loại luật dựa vào độ
chính xác và độ phủ cao được các tác giả quan tâm nghiên cứu và đã trình bày trong [4, 5].
Bản chất cốt lõi và cũng là kỹ thuật cơ bản ...
6 trang |
Chia sẻ: quangot475 | Lượt xem: 474 | Lượt tải: 0
Bạn đang xem nội dung tài liệu Hệ quyết định nhất quán và luật quan trọng - Nguyễn Đức Thọ, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
Nghiên cứu khoa học công nghệ
Tạp chí Nghiên cứu KH&CN quân sự, Số 39, 10 - 2015 69
HỆ QUYẾT ĐỊNH NHẤT QUÁN VÀ LUẬT QUAN TRỌNG
Nguyễn Đức Thọ1, Nguyễn Bá Tường2*, Nguyễn Hữu Đông2
Tóm tắt: Trong bài này nhóm tác giả giới thiệu một số tính chất liên quan đến các ma
trận độ hỗ trợ, độ chính xác và độ phủ của các luật quyết đinh. Mục đích chính của bài
viết là trình bày thuật toán tìm luật quan trọng sau khi dựa vào các tính chất được nêu ở
trên. Đó là dựa vào các ma trận thưa của độ phủ, độ chính xác để tìm các luật quan
trọng trong hệ quyết định nhất quán.
Từ khóa: Tập thô, Độ hỗ trợ, Độ chính xác, Độ phủ, Khai thác dữ liệu.
1. ĐẶT VẤN ĐỀ
Các luật trong hệ quyết định dựa trên nền lý thuyết tập thô được phát triển và nghiên cứu trong
[1, 2, 3]. Mô hình xác suất tối thiểu của các luật được nghiên cứu để phân loại luật dựa vào độ
chính xác và độ phủ cao được các tác giả quan tâm nghiên cứu và đã trình bày trong [4, 5].
Bản chất cốt lõi và cũng là kỹ thuật cơ bản khi nghiên cứu các luật trong hệ quyết định là xác
định độ đo chất lượng của luật, các khái niệm về độ đo chất lượng của luật được nêu và xét
trong [1, 4, 5, 6, 7, 8, 9, 14, 15]. Trong bài viết này chúng tôi tiếp tục nghiên cứu và phát triển
các ý tưởng trên và dựa vào các ma trận độ hỗ trợ, độ chính xác, độ phủ v.v để xét và nghiên
cứu phát triển các tri thức mới. Trong bài viết chúng tôi đã đưa ra được một số tính chất của các
ma trận liện quan các luật từ đó nêu được thuật toán tìm luật quan trọng đơn giản và hiệu quả.
2. TỔNG QUAN VỀ LÝ THUYẾT HỆ TIN
Các khái niệm cơ bản trong bài viết của chúng tôi được trích trong các tài liệu [1, 5, 6, 14, 15].
Định nghĩa 2.1. Hệ tin đầy đủ là S = ( U, A ), với U là tập hữu hạn khác rỗng các đối
tượng, A là tập khác rỗng các thuộc tính. Giá trị thuộc tính a A của đối tượng u U là a(u)
và a(u) khác rỗng ( not null).
Định nghia 2.2. Hệ quyết định đầy đủ DS = (U, C D) là hệ tin đầy đủ, trong đó U là tập
hữu hạn khác rỗng các đối tượng, A= C D, với C là tập khác rỗng các thuộc tính được gọi là
các thuộc tính điều kiện và D là tập các thuộc tính được gọi là các thuộc tính quyết định và C
D = .
Định nghĩa 2.3. Cho S = ( U, A) là hệ tin đầy đủ.
Với mỗi tập con B A, ta xác định quan hệ tương đương IND(B) UxU, với
IND(B) = { (u,v) UxU: a B, a(u) = a(v)}. Phân hoạch của U sinh bởi IND(B) ký hiệu
là U/B. Lớp tương đương ứng với u U là [u]B và [u]B = { v U: (u,v) IND(B)}
Định nghĩa 2.4. Cho DS = ( U, C D ) là hệ quyết định đầy đủ. Ta sẽ ký hiệu U/C = {
C1, C2, , Cm}, với Ci ( i = 1, 2, , m) là lớp điều kiện; U/D = { D1, D2, , Dn}, với Dj ( j= 1,
2, , n) là lớp quyết định. Ci U/C & Dj U/D, độ hỗ trợ ( support), độ chính xác
(accuracy), độ phủ (coverage), độ lệch (error ratio) của luật Ci → Dj được xác định như sau:
Độ hỗ trợ của luật Ci → Dj , ký hiệu Supp(Ci|Dj ) và Supp(Ci|Dj ) = | Ci DJ| / | U| ;
Độ chính xác của luật Ci → Dj, ký hiệu Acc(Ci|Dj ) và Acc(Ci|Dj ) = | Ci DJ| / | Ci|;
Độ phủ của luật Ci → Dj, ký hiệu Cov(Ci|Dj ) và Cov(Ci|Dj ) = | Ci DJ| / | Dj|.
Độ lệch của luật Ci → Dj, ký hiệu E(Ci|Dj ) và E(Ci|Dj ) = 1- Acc(Ci|Dj ). Ở đây | Ci| và | Dj|
là lực lượng của các tập Ci và Dj tương ứng.
Từ định nghĩa ta có các ma trận độ hỗ trợ, độ chính xác và độ phủ như sau:
Công nghệ thông tin & Khoa học máy tính
N. Đ. Thọ, N.B. Tường, N.H. Đông, “Hệ quyết định nhất quán và luật quan trọng.” 70
Supp(C|D) =
) D|Supp(C ... )D|Supp(C ) D|Supp(C
.
.
) D|Supp(C )... D|Supp(C ) D|Supp(C
) D|Supp(C )... D|Supp(C ) D|Supp(C
nm2m1m
n22212
n12111
Cov(C|D) =
) D|Cov(C ... )D|cov(C ) D|Cov(C
.
.
) D|Cov(C )... D|Cov(C ) D|Cov(C
) D|Cov(C )... D|Cov(C ) D|Cov(C
nm2m1m
n22212
n12111
Tương cho các a trận độ chính xác Acc(C⃒D) và độ lệch E(C⃒D).
Tính chất 2.1.[15] 0 Acc(Ci|Dj ) 1 và
n
j 1
ji ) D|Acc(C = 1, Ci U/C.
Tính chất 2.2.[15] 0 Cov(Ci|Dj ) 1 và
m
i 1
ji )D|Cov(C = 1, Dj U/D.
Định nghĩa 2.5. Hệ quyết định DS = ( U, C D ) là nhất quán ( consistent) nếu Ci
U/C Dj U/D sao cho Ci Dj.
Định nghĩa 2.6. Cho DS = ( U, C D ) là hệ quyết định; U/C = { C1, C2, , Cm}, U/D =
{ D1, D2, , Dn}. Ta nói luật Ci → Dj là luật quan trọng nếu Acc(Ci|Dj ) minAcc và
Cov(Ci|Dj ) minCov. Trong đó các ngưỡng minAcc và minCov do người dùng xác định.
3. MỘT SỐ TÍNH CHẤT CỦA MA TRẬN ĐỘ HỖ TRỢ, ĐỘ CHÍNH XÁC, ĐỘ PHỦ VÀ
THUẬT TOÁN TÌM CÁC LUẬT QUAN TRỌNG
3.1. Các tính chất
Cho DS = ( U, C D ) là hệ quyết định; U/C = { C1, C2, , Cm} và U/D = { D1, D2, ,
Dn}. Khi đó ta có mn luật quyết định Ci → Dj. Một cách tự nhiên ta có trị trung bình cộng của
support, accuracy, coverage và độ lệch của các luật.
Đinh nghiã 3.1. Trị trung bình cộng của supports, accuracy và coverage của S xác định
tương ứng như sau:
AVG(Supp(S)) =
nm.
1
m
i 1
n
j 1
ji ) D|Supp(C
AVG(Acc(S)) =
nm.
1
m
i 1
n
j 1
ji ) D|Acc(C
AVG(Cov(S)) =
nm.
1
m
i 1
n
j 1
ji ) D|Cov(C |
Tính chất 3.1. 0 supp(Ci|Dj ) 1 và
n
j 1
ji ) D|Supp(C = | Ci | / | U|, Ci U/C
Nghiên cứu khoa học công nghệ
Tạp chí Nghiên cứu KH&CN quân sự, Số 39, 10 - 2015 71
Chứng minh
x Ci Dj sao cho x Dj và vì Dj Dk = if k J nên
n
j 1
ji ) D|Supp(C =
| U|
|D C | 1i +
| U|
|D C | 2i + +
| U|
|D C | ni =
| U|
|)D...D(D C | n21i =
| U|
| U C | i =
| U|
| C | i
Tính chất 3.2. 0 Supp(Ci|Dj ) 1 và
m
i 1
ji ) D|Supp(C = | DJ | / | U|, Dj U/D.
Chứng minh
Tương tự như tính chất 3.1 ta có
m
i 1
ji ) |DSupp(C =
| U|
|D C | j1
+
| U|
|D C | j2
+ +
| U|
|D C | jm
=
| U|
|)C...C(C D | m21j
=
| U|
| U D | j
=
| U|
| D | j
Tính chất 3.3.
m
i 1
n
j 1
ji ) |DSupp(C = 1.
Chứng minh
Theo tính chất 3.1 ta có
m
i 1
n
j 1
ji ) |DSupp(C =
m
i 1 | U|
| Ci |
= | U|
| U|
= 1.
Tính chất 3.4. AVG(Supp(S)) = nm.
1
m
i 1
n
j
iCSupp
1
( | D j ) = nm.
1
.
Chứng minh tính chất 3.4 suy trực tiếp từ tính chất 3.3.
Tính chất 3.5. AVG(Acc(S)) = nm.
1
m
i 1
n
j 1
ji ) D|Acc(C = n
1
Chứng minh tính chất 3.5 suy trực tiếp từ tính chất 2.1
Tính chất 3.6. AVG(Cov(S)) = nm.
1
m
i 1
n
j 1
ji ) D|Cov(C = m
1
Chứng minh tính chất 3.6 suy từ tính chất 2.2.
Tính chất 3.7.
n
j 1
E(Ci|Dj) = n-1.
Chứng minh
Công nghệ thông tin & Khoa học máy tính
N. Đ. Thọ, N.B. Tường, N.H. Đông, “Hệ quyết định nhất quán và luật quan trọng.” 72
n
j 1
E(Ci|Dj) =
n
j 1
( 1 - | Ci DJ| / | Ci|) = n -
n
j 1
| Ci DJ| / | Ci| = n – (| Ci D1| + | Ci
D2|+ + | Ci Dn|)/| Ci| = n – ( |Ci ( D1 D2 ... Dn)|)/ | Ci| = n - | Ci|/| Ci| = n-1.
Tính chất 3.8.
m
i 1
n
j 1
E(Ci|Dj) = m(n-1).
Chứng minh tính chất 3.8 suy từ tính chất 3.7.
Tính chất 3.9. AVG(E(S)) =
nm.
1
m
i 1
n
j 1
E(Ci|Dj) =
n
n 1
Chứng minh tính chất 3.9 được suy từ định nghĩa và tính chất 3.8.
Tính chất 3.10. Cho DS = ( U, C D ) là hệ quyết định nhất quán; U/C = { C1, C2, ,
Cm}, U/D = { D1, D2, , Dn}. Với Ci U/C ta có:
a. Giá trị mỗi phần tử của ma trận Acc(C|D) chỉ có thể là 0 hoặc 1.
b. Trên mỗi dòng của ma trận Acc(C|D) có duy nhất một số 1
c. Trên mỗi dòng của ma trận Cov(C|D) có duy nhất một phần tử Cov(Ci|Dj) =
j
i
D
C
3.2. Thuật toán tìm các luật quan trọng
Lưu ý: liên quan giữa hai ma trận Acc(C|D) và Cov(C|D) là
Acc(Ci|Dj) =1 Cov(Ci|Dj) =
j
i
D
C
.
Thuật toán tìm các luật quan trọng
Input DS = ( U, C D ) là hệ quyết định nhất quán, minAcc, minCov;
Output Tập các luật quan trọng IR.
Thuật toán
1. Tính U/C = {C1, C2, , Cm}
2. Tính U/D = {D1, D2, , Dn}
3. Tính Acc(C|D)
4. Tính Cov(C|D)
5. IR:=
6. Với mỗi Cov(Ci|Dj) trong Cov(C|D) nếu Cov(Ci|Dj) > minCov then IR:= IR Ci → Dj
7. Kết thúc vòng lặp 6 ta có tập luật quan trọng IR.
4. MÔ PHỎNG VÍ DỤ
Trong phần này chúng ta minh họa một ví dụ để làm sáng tỏ các ý tưởng vừa nêu ở các phần
trên. Cho hệ quyết định nhất quán như trong bảng 1 với U = { x1, x2, , x8 }, C = { a1, a2, a3},
D ={d}. Khi đó U/C = {C1, C2, C3, C4, C5} và C1= { x1, x8 }, C2 = { x2}, C3 = { x3, x7 }, C4 = {
x4 }, C5 = { x5, x6 }; U/D = {D1, D2} và D1= { x1, x2, x5, x6, x8 }, D2 = { x3, x4, x7}
Nghiên cứu khoa học công nghệ
Tạp chí Nghiên cứu KH&CN quân sự, Số 39, 10 - 2015 73
Bảng 1. Hệ quyết định nhất quán.
U a1 a2 a3 d
x1 1 1 1 1
x2 1 1 0 1
x3 2 0 0 0
x4 0 0 0 0
x5 2 2 0 1
x6 2 2 0 1
x7 2 0 0 0
x8 1 1 1 1
Supp(C|D) =
0.00 0.25
0.125 0.00
0.25 0.00
0.00 0.125
0.00 0.25
Acc(C|D) =
0.00 1.00
1.00 0.00
1.00 0.00
0.00 1.00
0.00 1.00
Cov(C|D) =
0.00 0.40
0.33 0.00
0.66 0.00
0.00 0.2
0.00 0.40
Trong trường hợp này ta có n = 2, m = 5 và AVG(supp(S)) = 0.1, AVG(Acc(S)) = 0.5,
AVG(cov(S)) = 0.2.
Từ Cov(C|D), nếu đặt minAcc = 0.5 và minCov = 0.4 ta có tập luật quan trọng:
IR = { C1 → D1, C3 → D2, C5 → D1}.
5. KẾT LUẬN
Trong bài viết nhóm tác giả đã nêu được một số tính chất quan trọng liên quan các ma trận
độ hỗ trợ, độ chính xác, độ phủ của các luật quyết định trong hệ quyết định. Từ đó nêu được
thuật toán tìm luật quan trọng đơn giản và hiệu quả. Các kết quả trong bài viết sẽ làm cơ sở để
các tác giả tiếp tục nghiên cứu và phát triển các kết quả mới.
TÀI LIỆU THAM KHẢO
[1]. Z. Pawlak, “Rough set theory and its application”. Journal of telecommunications and
Information technology 3/2002.
[2]. M. Beynon, N. Driffeld, “An illustration of variable precision rough sets model: an
analysis of the finding of the UK Monopollies and Mergers Commission”. Computers and
operations Research, 32, 2005, pp. 1739-1759.
Công nghệ thông tin & Khoa học máy tính
N. Đ. Thọ, N.B. Tường, N.H. Đông, “Hệ quyết định nhất quán và luật quan trọng.” 74
[3]. C. Su, J. Hsu, “Precision parameter in the variable precision rough sets model: an
application”. The International Journal of Management Science, 34, 2006, pp. 149-157.
[4]. S. Tsumoto, “Extraction of expert decision process from clinical databases using rough set
model”. In Proceeding of PKDD 1997, pp. 58-67.
[5]. S. sumoto, “Accuracy and coverage in rough set rule induction”. In: J. Alpigini et al.
(Eds): RSCTC 2002, LNAI, 2475, pp. 373-380.
[6]. W. Zarko, “Variable precision rough set model”. Journal of Computer and System
Science, 46, 1993, pp. 39-59.
[7]. Y. Yao, S.K.M. Wong, “A decision theoretic frmamework for approximating concept”.
International Journal of Man-machine Studies, 37, 1992, pp. 793-809.
[8]. Y. Yao, “Decision- theoretic rough set model”. In: The Second Iternational Conference on
Rough Set and Knowledge Technology, LNAI, 4481, Springer, Heidelberg 2007, pp.1-12.
[9]. Y. Yao, “Probabilistic rough set approximations”. International Journal of Approximate
Reasoning, 49, 2008, pp. 255-271.
[10]. A. Skowron, C. Rauszer, “The discernibility matrices and function in information
system”. Intelligent Decision Support, Dordrecht, Kluwer Academic publishers, 1992, pp.
331-362.
[11]. L. Tong, L. An, “Incremental learning of decision rules based on rough set theory”. In:
Proceedings of the Word Congress on Intelligent Control and Automation (WCICA
2002), pp. 420-425.
[12]. B. Jerzy, R. Slominski, “Incremental Induction of decision rules from dominance-based
rough set approximation”. Electronic Notes in Theoretical ComputerScience, 82, 2003,
pp. 40-51.
[13]. Z. Zheng, G.Y. Wang, “RRIA: A rough set and rule tree based incremental knowledge
acquisition algorithm”. Fundamenta Informaticae, 59(2-3), 2004, pp. 299-231.
[14]. D. Liu, P. Hu, C. Jiang, “The methodology of the variable precision rough set increment study
based on completely information system”. In the third International Conference on Rough
Sets and Knowledge Technolgy, LNAI 5009, Springer, Heidlberg 2008, pp. 276-283.
[15]. D. Liu, T. Li, D. Ruan, W. Zou, “An Incremental Approach for inducing knowledge from
Dinamic Information Systems”. Fundamenta Informaticae, 94, 2009, pp. 245-260.
ABSTRACT
AN ALGORITHM FOR COMPUTING IMPORTANT RULES
IN CONSISTENT DECISION SYSTEM
Rough set analysis are closely related with accuracy and coverage. There have been
studies and results of accuracy and coverage for rule induction have been discussed and
showed in [1, 5, 6, 14, 15]. In this paper, the following characteristics of accuracy and
coverage are further investigated.
Keywords: The rough set, Support, Accuracy, Coverage, Data mining.
Nhận bài ngày 30 tháng 7 năm 2015
Hoàn thiện ngày 20 tháng 8 năm 2015
Chấp nhận đăng ngày 22 tháng 10 năm 2015
Địa chỉ: 1 Học viện Kỹ thuật quân sự;
2 Đại học Sư phạm kỹ thuật Hưng Yên.
Các file đính kèm theo tài liệu này:
- 10_batuong_5119_2149211.pdf