Tài liệu Mô hình hệ thống phát hiện bất thường sử dụng thuật toán phân cụm mờ lai ghép - Vũ Đặng Giang: Công nghệ thông tin
V. Đ. Giang, N. D. Thái, P. V. Nhã, “Mô hình hệ thống phát hiện phân cụm mờ lai ghép.” 18
MÔ HÌNH HỆ THỐNG PHÁT HIỆN BẤT THƯỜNG SỬ DỤNG
THUẬT TOÁN PHÂN CỤM MỜ LAI GHÉP
Vũ Đặng Giang1, Nguyễn Duy Thái1, Phạm Văn Nhã2*
Tóm tắt: Tấn công và phòng thủ hệ thống mạng đang thu hút sự quan tâm của
các nhà nghiên cứu. Các hệ thống này luôn trở thành mục tiêu ưu tiên hàng đầu của
các cuộc tấn công trái phép. Vì vậy, việc củng cố hệ thống phòng thủ để có thể phát
hiện xâm nhập bất thường từ bên trong và bên ngoài mạng là rất cần thiết và
thường xuyên. Trong bài báo này, chúng tôi đã đề xuất Mô hình hệ thống phát hiện
xâm nhập bất thường sử dụng thuật toán Phân cụm mờ lai ghép giữa thuật toán
FCM, PSO và SVM. Thực nghiệm đã được tiến hành trên bộ dữ liệu chuẩn mẫu
KDD CUP ‘99. Kết quả thực nghiệm đã chứng tỏ mô hình đã đề xuất đạt được hiệu
suất vượt trội so với các mô hình đã được đề xuất trước đó.
Từ khóa: Phát hiện bất thường, Phân cụm mờ, Tối ưu ...
15 trang |
Chia sẻ: quangot475 | Lượt xem: 612 | Lượt tải: 1
Bạn đang xem nội dung tài liệu Mô hình hệ thống phát hiện bất thường sử dụng thuật toán phân cụm mờ lai ghép - Vũ Đặng Giang, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
Công nghệ thông tin
V. Đ. Giang, N. D. Thái, P. V. Nhã, “Mô hình hệ thống phát hiện phân cụm mờ lai ghép.” 18
MÔ HÌNH HỆ THỐNG PHÁT HIỆN BẤT THƯỜNG SỬ DỤNG
THUẬT TOÁN PHÂN CỤM MỜ LAI GHÉP
Vũ Đặng Giang1, Nguyễn Duy Thái1, Phạm Văn Nhã2*
Tóm tắt: Tấn công và phòng thủ hệ thống mạng đang thu hút sự quan tâm của
các nhà nghiên cứu. Các hệ thống này luôn trở thành mục tiêu ưu tiên hàng đầu của
các cuộc tấn công trái phép. Vì vậy, việc củng cố hệ thống phòng thủ để có thể phát
hiện xâm nhập bất thường từ bên trong và bên ngoài mạng là rất cần thiết và
thường xuyên. Trong bài báo này, chúng tôi đã đề xuất Mô hình hệ thống phát hiện
xâm nhập bất thường sử dụng thuật toán Phân cụm mờ lai ghép giữa thuật toán
FCM, PSO và SVM. Thực nghiệm đã được tiến hành trên bộ dữ liệu chuẩn mẫu
KDD CUP ‘99. Kết quả thực nghiệm đã chứng tỏ mô hình đã đề xuất đạt được hiệu
suất vượt trội so với các mô hình đã được đề xuất trước đó.
Từ khóa: Phát hiện bất thường, Phân cụm mờ, Tối ưu bầy đàn, Máy vector hỗ trợ.
Ký hiệu
Ký hiệu Ý nghĩa
U={uci} Ma trận hàm thuộc
JFCM Hàm mục tiêu FCM
Pc Tâm cụm
Dci Khoảng cách dữ liệu giữa đối tượng thứ c và đối tượng thứ i
Chữ viết tắt
IDS Intrusion Detection Systems
PSO Particle Swarm Optimization
SVM Support Vector Machine
GA Genetic Algorithms
ANN Artificial Neural Network
FCM Fuzzy clustering
1. GIỚI THIỆU CHUNG
Phát hiện xâm nhập ngày càng thu hút sự quan tâm của các nhà nghiên cứu.
Hơn nữa đối với các vấn đề chứng thực người dùng truyền thống, mã hóa thông
tin, tường lửa và một số công nghệ bảo vệ mạng khác, phát hiện xâm nhập được sử
dụng để xác định và phân loại các cuộc tấn công trên mạng máy tính, máy chủ và
máy chủ mạng. Nó có thể phát hiện các cuộc tấn công độc hại mà các phương pháp
phòng thủ truyền thống không xác định được. Như vậy, nó đóng một vai trò quan
trọng trong quá trình quản lý bảo mật dịch vụ Web và an toàn xử lý dữ liệu. Phát
Nghiên cứu khoa học công nghệ
Tạp chí Nghiên cứu KH&CN quân sự, Số Đặc san An toàn Thông tin, 05 - 2017 19
hiện xâm nhập nói chung được chia thành hai loại: phát hiện sử dụng sai quy cách
và phát hiện bất thường.
Phát hiện sử dụng sai quy cách dựa trên các cuộc tấn công đã biết và các lỗ
hổng hệ thống để xây dựng các quy tắc phát hiện được sử dụng để đánh giá kết nối
mạng có phải là kết nối xâm nhập hay không. Nó có tỷ lệ chính xác và tốc độ phản
ứng cao, nhưng hạn chế rất lớn là không thể phát hiện các cuộc tấn công mới và
các quy tắc phát hiện chỉ có thể cập nhật bằng tay. Phát hiện bất thường là xác định
xem kết nối có phải là kết nối xâm nhập hay không bằng cách phát hiện độ lệch
của mẫu kết nối với mẫu hành vi bình thường. [12] đã mô tả và so sánh một vài
phương pháp và hệ thống phát hiện mạng bất thường. Nói chung, phát hiện bất
thường có thể tìm thấy các tấn công chưa biết, nhưng vì mẫu hành vi bình thường
mới thu được có thể bị nhầm lẫn với hành vi bất thường, nên tỷ lệ cảnh báo sai có
thể gia tăng [16], [29].
Để khắc phục những vấn đề này, một số hệ thống phát hiện xâm nhập IDS sử
dụng các kỹ thuật khai phá dữ liệu và máy học đã được thiết kế, mà chủ yếu được
sử dụng để điều tra phát hiện đặc tính, phân loại và phán đoán xâm nhập. [20] đã
đề xuất mô hình phát hiện xâm nhập bằng cách phân cụm luồng dữ liệu kết nối,
sau đó sử dụng kết quả phân cụm để phân tích và phát hiện bất thường cho mạng
không dây. Cấu trúc dữ liệu ban đầu và độ phức tạp của thuật toán phân lớp có thể
được giảm bởi tiến trình phân cụm, nhưng tâm cụm được khởi tạo ngẫu nhiên, nên
chất lượng phân cụm bị ảnh hưởng bởi hạn chế vốn có của các thuật toán phân
cụm là dễ rơi vào bẫy tối ưu cục bộ. Một số mô hình phát hiện xâp nhập hiệu quả
đã được đề xuất gần đây như mô hình sử dụng mạng thần kinh nhân tạo ANN để
phát hiện xâm nhập [19], sử dụng phương pháp phân cụm mờ FCM lai ghép với
phương pháp xác định tâm cụm để phát hiện xâm nhập bất thường [21]. [30]
nghiên cứu khả năng áp dụng của máy vector hỗ trợ SVM để xây dựng IDS. So
sánh tối ưu giải thuật di truyền GA trên ANN và SVM trong các IDS đã được mô
tả trong [5]. Tuy nhiên, ANN vốn có độ phức tạp trong việc khởi tạo các giá trị đặc
tính phân lớp và chủ yếu được sử dụng đối với dữ liệu phi tuyến, như vậy SVM có
khả năng chỉnh sửa lỗi tốt và khả năng điều khiển tốt hơn [1], [6]. Đây cũng là lý
do giúp chúng tôi lựa chọn kỹ thuật SVM trong bài báo này.
Mô hình phát hiện bất thường không giám sát đã được đề xuất trong [25]. Mô
hình này đã sử dụng thuật toán K-Means để tự động xác định số cụm bản ghi kết
nối bình thường, sau đó, xây dựng mô hình SVM một lớp. [33] đã đề xuất sử dụng
Công nghệ thông tin
V. Đ. Giang, N. D. Thái, P. V. Nhã, “Mô hình hệ thống phát hiện phân cụm mờ lai ghép.” 20
FCM và SVM đa lớp để dự đoán nồng độ silicon trong metal nóng, [9] đề xuất mô
hình IDS áp dụng kỹ thuật FCM và ANN. Nói chung, các mô hình sử dụng các kỹ
thuật FCM để khởi tạo cụm thu được hiệu suất tốt hơn SVM và ANN đơn lớp. Tuy
nhiên, phương pháp FCM truyền thống rất nhạy cảm với khởi tạo và dễ rơi vào bẫy
tối ưu cục bộ, ảnh hưởng đến kết quả dự đoán của toàn hệ thống IDS. Các thuật
toán tiến hóa như giải thuật di truyền thường được sử dụng để tìm tâm cụm khởi
tạo cho các thuật toán FCM như sử dụng PSO để tìm tâm cụm khởi tạo cho FCM
[27], sử dụng GA để tìm tâm cụm khởi tạo [34]. [4] đã sử dụng GA để tìm tâm
cụm khởi tạo cho thuật toán FCM trong mô hình IDS sử dụng SVM. Tuy nhiên,
theo kết quả nghiên cứu so sánh giữa các kỹ thuật GA và PSO từ [26], [28] cho
chúng ta thấy ảnh hưởng về kích thước phân bố đối với thời gian tìm giải pháp của
GA tăng theo lũy thừa còn PSO tăng theo tuyến tính; xu thế hội tụ sớm của GA
thấp hơn so với PSO; không gian tìm kiếm của PSO là liên tục trong khi đối với
GA là rời rạc; khả năng tránh được bẫy tối ưu cục bộ của PSO cao hơn so với GA.
Như vậy, thuật toán PSO là lựa chọn phù hợp hơn so với thuật toán GA để tìm
kiếm tâm cụm khởi tạo cho các thuật toán phân cụm.
Trong bài báo này, chúng tôi đã đề xuất mô hình phát hiện xâm nhập bất thường
PFCMS bằng cách lai ghép thuật toán FCM dựa trên thuật toán PSO và SVM.
Thuật toán PSO được sử dụng để khởi tạo tâm cụm cho thuật toán phân cụm FCM
để sinh các cụm có cùng thuộc tính cho SVM để phát hiện xâm nhập bất thường.
Thực nghiệm được tiến hành trên các bộ dữ liệu chuẩn mẫu KDD CUP ’99. Kết
quả thực nghiệm chứng tỏ mô hình đã đề xuất có thể đạt được kết quả vượt trội so
với các mô hình IDS đã được đề xuất trước đó. Tiếp theo, bài báo được tổ chức
như sau. Mục 2, trình bày một số vấn đề lý thuyết cơ bản liên quan đến các kỹ
thuật được sử dụng trong bài báo; Mục 3, trình bày chi tiết mô hình PFCMS đề
xuất; Mục 4 là một vài kết quả thực nghiệm, đánh giá hiệu suất; Mục 5, kết luận và
định hướng nghiên cứu tiếp theo.
2. NHỮNG VẤN ĐỀ CƠ BẢN
Trong mục này, chúng tôi sẽ trình bày một số vấn đề cơ bản về lý thuyết liên
quan đến bài báo. Bao gồm thuật toán Phân cụm mờ, thuật toán Tối ưu bầy đàn và
kỹ thuật phân lớp Máy vector hỗ trợ.
2.1. Thuật toán Phân cụm mờ
Thuật toán Phân cụm dữ liệu thường được áp dụng để tìm cấu trúc của dữ liệu
và đã được ứng dụng rộng rãi trong nhiều lĩnh vực chuyên môn khác nhau. Để
Nghiên cứu khoa học công nghệ
Tạp chí Nghiên cứu KH&CN quân sự, Số Đặc san An toàn Thông tin, 05 - 2017 21
nâng cao hiệu suất phân cụm dữ liệu, các thuật toán Phân cụm được kết hợp với
logic mờ nhằm tăng khả năng thu nhận các vấn đề không chắc chắn trong dữ liệu,
thuật toán này được gọi là thuật toán Phân cụm mờ. Thuật toán phân cụm mờ lần
đầu tiên được giới thiệu bởi Dunn [13] và sau đó được sửa đổi bởi Bezdek [15]
(gọi là thuật toán Fuzzy C-Means (FCM)).
Trong khuôn khổ này thuật toán FCM được sử dụng trong mô đun Phân cụm để
phân cụm bộ dữ liệu huấn luyện thành C cụm khác nhau. Hàm mục tiêu của FCM
được cho bởi công thức (1):
2
1 2
1 1
( ; , ,..., ; )
C N
m
FCM C ci ci
c i
J U p p p X u d
(1)
trong đó, X là tập N bản ghi dữ liệu kết nối, uci là độ thuộc của bản ghi thứ i đối
với cụm c. uci bị ràng buộc bởi điều kiện (2):
1
1,
C
ci
c
u
với i=1,2, ,N (2)
và uci được xác định theo công thức (3):
2
(m 1)
1 ij
1
ci
C
ci
j
u
d
d
(3)
pc là tâm cụm c, được tính theo công thức (4):
1
1
N
m
ci i
i
c N
m
ci
i
u x
p
u
(4)
dci là bình phương khoảng cách Euclidean giữa bản ghi dữ liệu kết nối xi với tâm
cụm vc, được định nghĩa như sau:
2
1
(x v )
K
ci ik ck
k
d
(5)
Số mũ m được sử dụng để điều chỉnh trọng số ảnh hưởng của các giá trị hàm
thuộc, m lớn sẽ tăng độ mờ của hàm mục tiêu JFCM, m thường được lựa chọn bằng 2.
Thuật toán FCM được mô tả theo các bước sau:
Thuật toán 1. Thuật toán Phân cụm mờ
Bước 1. Input: Tập dữ liệu , , 1..Ki iX x x R i N , số cụm C (1<C<N), hệ số
mờ m (1<m<+) và sai số .
Công nghệ thông tin
V. Đ. Giang, N. D. Thái, P. V. Nhã, “Mô hình hệ thống phát hiện phân cụm mờ lai ghép.” 22
Bước 2. Khởi tạo ma trận tâm cụm (0) x, C KcjP p P R .
Bước 3. Cập nhật pc sử dụng công thức (4).
Bước 4. Cập nhật uci sử dụng công thức (3) và (5).
Bước 5. Tính toán hàm mục tiêu JFCM (1). Nếu hội tụ (
( ) ( 1)n nJ J ) chuyển
xuống bước 6. Nếu chưa hội tụ quay lại bước 3.
Bước 6. Output: Kết quả phân cụm
Sau 6 bước của mô đun Phân cụm, bộ dữ liệu TR được phân thành C cụm
khác nhau.
Thuật toán FCM đã trở thành thuật toán phân cụm mờ phổ biến và quan trọng
trong lĩnh vực khai phá dữ liệu, không ngừng được cải tiến và áp dụng rộng rãi
trong nhiều lĩnh vực khác nhau. Một số nghiên cứu tiêu biểu như [2] trong phân
tích ảnh y tế, [17] phân đoạn ảnh mầu, [31] nhận dạng khuôn mặt người, [32] điều
khiển khung nhìn robot và phân lớp ảnh vệ tinh đa phổ [18]. Tuy nhiên, các thuật
toán FCM còn tồn tại một số hạn chế như nhạy cảm với khởi tạo và không có phản
ứng với nhiễu và ngoại lai trong dữ liệu đầu vào. Đặc biệt, đối với dữ liệu có cấu
trúc phức tạp như đa biến, kích thước lớn, hiệu quả của các thuật toán Phân cụm
mờ không cao.
2.2. Thuật toán tối ưu bầy đàn
Thuật toán PSO là một thuật toán sử dụng trí tuệ bầy đàn phổ biến [14] được
mô phỏng theo ý tưởng hành vi bầy đàn của các loài chim sống theo bầy đàn.
Thuật toán PSO đã được cải tiến và áp dụng trong một số lĩnh vực ứng dụng khác
nhau. Tiêu biểu như [8] sử dụng thuật toán PSO để giải quyết bài toán tô màu đồ
thị phẳng, tự động tạo các ký tự đồ họa phức tạp [7], phát hiện thư rác [23]. Hơn
nữa, thuật toán PSO cũng được kết hợp với một vài thuật toán khác để thực thi một
phần nhiệm vụ quan trọng của các thuật toán này. [1], [3] đã sử dụng PSO trong
bước khởi tạo của thuật toán FCM để phân đoạn ảnh, xử lý ảnh tự động [24], xác
định số cụm của dữ liệu [10].
Thuật toán PSO bao gồm Np phần tử với
( )
,1 ,2 ,K(p , p , ..., p )
t T
i i i iP , i=1, pN biểu
diễn vị trí của chúng trong không gian K chiều. Các phần tử di chuyển dọc theo
không gian tìm kiếm với vận tốc ( ) ,1 ,2 ,K( , a , ..., a )
t T
i i i iA a về phía vị trí của phần
từ tốt nhất ( )tbestP , ở đó có nhiều vùng hứa hẹn trong không gian tìm kiếm. Hướng di
Nghiên cứu khoa học công nghệ
Tạp chí Nghiên cứu KH&CN quân sự, Số Đặc san An toàn Thông tin, 05 - 2017 23
chuyển của các phần từ phụ thuộc vào vị trí tốt nhất cục bộ của từng phần tử
( )t
ip và có thể tính toán bởi công thức toán học sau:
( 1) ( ) ( ) ( ) ( ) ( ) ( ) ( )
1 1 2( ) c ( )
t t t t t t t t
i i i i i best iA A c r P A r P P
(6)
Sau đó, vị trí mới của phần từ được tính toán theo công thức sau:
( 1) (t) ( )t t
i i iP P A
(7)
Hàm ước lượng điều kiện dừng được mô tả như sau:
( )
FCM
f P
J
(8)
trong đó, là một hằng số và JFCM là hàm mục tiêu của thuật toán FCM được
tính toán bởi công thức (1).
Liên quan đến điều kiện dừng, chúng tôi đã sử dụng hai tiêu chí, nếu một trong
hai tiêu chí này được thỏa mãn thì thuật toán dừng:
a) Hoặc là hàm mục tiêu không cải thiện sau Pso vòng lặp:
( 1) ( )( ) ( ) Psof P f P (9)
b) Hoặc là đạt đến số vòng lặp tối đa Pso_max.
Thuật toán PSO đối với bài toán phân cụm mờ có thể chỉ ra như sau:
Thuật toán 2. Thuật toán Tối ưu bầy đàn PSO
Bước 1. Đầu vào: Bộ dữ liệu , , i=1,Ki iX x x R N , Np, c1, c2, w, Pso,
Pso_max.
Bước 2. Khởi tạo: Khởi tao bầy đàn với Np phần tử ngẫu nhiên (P, Pbest
và A là những ma trận kích thước K × C).
Bước 3. LOOP =1.
3.1. Đối với mỗi phần tử thứ i trong Np phần tử:
- Tính toán f(Pi) sử dụng công thức (8).
- Tính toán Pbesti.
- Cập nhật Gbest.
- Cập nhật Ai sử dụng công thức (6).
- Cập nhật Pi sử dụng công thức (7).
3.2. Tính toán Terminal_condition.
3.3. =+1..
Bước 4. WHILE (Terminal_conditionPso_max).
Bước 5. Trích xuất: Gbest.
Công nghệ thông tin
V. Đ. Giang, N. D. Thái, P. V. Nhã, “Mô hình hệ thống phát hiện phân cụm mờ lai ghép.” 24
2.3. Kỹ thuật Máy vector hỗ trợ
Thuật toán Máy vectơ hỗ trợ SVM được tìm ra bởi VN. Vapnik và C. Cortes
năm 1995. SVM là một thuật toán phân lớp nhị phân nhận dữ liệu đầu vào và phân
loại chúng vào hai lớp khác nhau.
Cho tập dữ liệu huấn luyện XTR={(xi, yi)}, xiR
D, yi=1, i=1÷N, trong đó N là
kích thước của tập XTR, yi mang giá trị 1 hoặc −1, xác định lớp của điểm xi, mỗi xi
là một vector thực D chiều. Ta cần tìm siêu phẳng có lề lớn nhất chia tách các điểm
có yi=1 và các điểm có yi=-1. Mỗi siêu phẳng đều có thể được viết dưới dạng một
tập hợp các điểm x thỏa mãn w.x-b=0, với “.” ký hiệu là tích vô hướng và w là
một vectơ pháp tuyến của siêu phẳng. Tham số
w
b
xác định khoảng cách giữa
gốc tọa độ và siêu phẳng theo hướng vectơ pháp tuyến w.
Chúng ta cần chọn w và b để cực đại hóa lề, hay khoảng cách giữa hai siêu mặt
song song ở xa nhau nhất có thể trong khi vẫn phân chia được dữ liệu. Các siêu
mặt ấy được xác định bằng w.x-b=1 và w.x-b=-1 (xem hình 1).
Hình 1. Siêu phẳng với lề cực đại cho một SVM phân lớp dữ liệu thành hai lớp.
Tuy nhiên, trong thực tế, hầu như dữ liệu không có khả năng phân lớp tuyến
tính, do vậy rất khó xác định siêu phẳng. Để giải quyết vấn đề này, SVM sử dụng
một số hàm nhân khác nhau. Trong bài báo này, chúng tôi sử dụng hàm nhân
Gauss để huấn luyện mô hình SVM và sau đó sử dụng hỗ trợ vector từ tập dữ liệu
huấn luyện trong pha huấn luyện. Trong pha kiểm tra, mô hình SVM được sử dụng
để phân lớp vector chứ năng mới.
Bài toán SVM ban đầu được mô tả như sau:
Nghiên cứu khoa học công nghệ
Tạp chí Nghiên cứu KH&CN quân sự, Số Đặc san An toàn Thông tin, 05 - 2017 25
2
w, ,
1
1
min w
2
(w. b) 1 , i=1,
0, i=1,
N
i
b
i
i i i
i
C
y x N
N
(10)
Khi tiến hành phân lớp, kích thước của các cụm khác nhau cơ bản, do vậy, cần
phải di chuyển dữ liệu và như thế sẽ ảnh hưởng đến kết quả phân lớp. Bởi vậy, cần
thiết phải cài đặt các tham số phạt khác nhau đối với dữ liệu huấn luyện dương và
âm để giảm bớt các vấn đề gây ra bởi sự di chuyển dữ liệu đến một mức độ nhất
định. Do đó, bài toán ban đầu trở thành như sau:
2
w, ,
1 1
1
min w
2
(w. b) 1 , i=1,
0, i=1,
k N
i i
b
i i k
i i i
i
C C
y x N
N
(11)
Khi đó, bài toán kép tương ứng trở thành:
1 1 1
1
1
min (x , x )
2
0
0 , y 1
0 , y 1
N N N
i j i j i j i
i j i
N
i i
i
i i
j j
y y K
y
C
C
(12)
trong đó, C+ và C- là hệ số phạt đổi với các phần tử huấn luyện có nhãn dương và
âm tương ứng. K(xi,xj) là hàm nhân có dạng sau:
22( , ) exp( )i j i jK x x x x (13)
Hàm quyết định phân lớp của mô hình SVM được xác định như sau:
1
( ) (x , x)
N
i i i
i
f x sig y K b
(14)
Cuối cùng, SVM có thể sử dụng hàm f(x) để nhận kết quả phân lớp.
3. MÔ HÌNH PHÁT HIỆN XÂM NHẬP PFCMS
Trong mục này, chúng tôi xây dựng phương pháp tiếp cận mới cho Mô hình hệ
thống phát hiện xâm nhập PFCMS. Mô hình này sử dụng thuật toán phân cụm
FCM để phân cụm dữ liệu huấn luyện thành các cụm có đặc tính phân biệt giống
nhau. Sau đó, thuật toán SVM được sử dụng để phân lớp dữ liệu huấn luyện các
cụm thành 2 lớp bất thường và bình thường. Để nâng cao hiệu suất phân cụm, đồng
Công nghệ thông tin
V. Đ. Giang, N. D. Thái, P. V. Nhã, “Mô hình hệ thống phát hiện phân cụm mờ lai ghép.” 26
thời giảm tỷ lệ cảnh báo sai, thuật toán PSO được sử dụng để tìm tâm cụm khởi tạo
phù hợp cho thuật toán phân cụm FCM. Mô hình PFCMS được biểu diễn như hình
2. Trong mô hình này, công đoạn huấn luyện gồm 3 pha chính:
Hình 2. Mô hình Hệ thống phát hiện xâm nhập 3 pha PPFCMS.
Pha 1: Tập dữ liệu ban đầu DS được phân chia thành tập huấn luyện TR và tập
kiểm tra TS. Sau đó các tập con TR1, TR2, ..., TRC được tạo ra từ TR bởi mô đun
Phân cụm mờ FCM. Đầu ra của pha này là C cụm dữ liệu TRi khác nhau, các bản
ghi dữ liệu trong cùng một cụm có độ tương tự cao và sự khác biệt với các cụm
khác cao hơn. Tức là dữ liệu trong các cụm khác nhau có phân bố dữ liệu khác
nhau. Để nâng cao hiệu quả phân cụm cho thuật toán FCM, mô đun PSO được bổ
sung trong pha này sử dụng thuật toán PSO để tìm tâm cụm khởi tạo phù hợp cho
thuật toán FCM.
Pha 2: Phân lớp được tiến hành bằng cách sử dụng C cụm dữ liệu TRi để huấn
luyện C mô đun SVMi tương ứng. Đầu ra của mỗi mô đun SVMi là hai tập dữ liệu
khác nhau.
Pha 3: Mục tiêu của mô đun hợp nhất phân lớp là kết hợp các kết quả khác nhau
của các mô dun SVMi, đồng thời kết hợp với dữ liệu TS để giảm lỗi phát hiện vì
mỗi mô đun SVMi chỉ được học từ tập con TRi. Đầu ra của pha này là toàn bộ bản
ghi kết nối được gắn nhãn bất thường hoặc bình thường.
Về lý thuyết, Mô hình hệ thống phát hiện xâm nhập bất thường PFCMS được đề
xuất trong bài báo này đạt được một số mục tiêu sau:
Nghiên cứu khoa học công nghệ
Tạp chí Nghiên cứu KH&CN quân sự, Số Đặc san An toàn Thông tin, 05 - 2017 27
1) Tìm tâm cụm khởi tạo bằng thuật toán PSO hiệu quả hơn thuật toán GA.
2) Sử dụng thuật toán phân cụm FCM trước khi phân lớp để nâng cao hiệu quả
phân lớp.
3) Phân lớp dữ liệu sử dụng kỹ thuật SVM hiệu quả hơn kỹ thuật phân lớp ANN.
4. KẾT QUẢ THỰC NGHIỆM
4.1. Chỉ số đánh giá
Để đánh giá hiệu suất các mô hình IDS, bài báo này sử dụng 3 chỉ số đánh giá
Precision, Recall và F-Value [22]. Trong đó, TP (True Positives) chỉ ra rằng IDS
phát hiện đúng một kết nối tấn công, TN (True Negatives) chỉ ra rằng IDS xác định
đúng một kết nối bình thường, FP (False Positives) chỉ ra rằng IDS đã xác định
nhầm một kết nối bình thường thành kết nối tấn công và FN (False Negatives) chỉ ra
rằng IDS đã xác định nhầm một kết nối bình thường là một kết nối tấn công nào đó.
TP
Precision
TP FP
(15)
TP
Recall
TP FN
(16)
2
2
(1 )* *
*( )
Recall Pricision
F value
Recall Pricision
(17)
Trong đó, là trọng số của Precision đối với Recall, thường được thiết lập
bằng 1. Lưu ý rằng, mô hình IDS nào thu được các giá trị Precision, Recall và F-
value cao hơn, mô hình đó được xem như có hiệu suất tốt hơn.
4.2. Kết quả thực nghiệm
Để ước lượng hiệu suất của mô hình PFCMS, chúng tôi đã tiến hành thực
nghiệm phân tích dữ liệu kết nối từ các bộ dữ liệu KDD CUP 99 sử dụng mô hình
PFCMS và các mô hình đã được đề xuất trước đó. Bộ dữ liệu thực nghiệm bao
gồm các bản ghi kết nối, mỗi bản ghi có 41 thuộc tính, tương ứng với các vector 41
chiều. Thông tin tóm tắt về bộ dữ liệu thực nghiệm được chỉ ra trong bảng 1.
Bảng 1. Số lượng và tỷ lệ phần trăm của các bản ghi kết nối xâm nhập trong bộ dữ
liệu KDD CUP ’99.
Kết nối
Bộ dữ liệu huấn luyện Bộ dữ liệu kiểm tra
Số lượng Tỷ lệ (%) Số lượng Tỷ lệ (%)
Normal 3000 16.41% 60.593 19.48%
DoS 10.000 54.69% 229.853 73.89%
PRB 4107 22.46% 4166 1.34%
Công nghệ thông tin
V. Đ. Giang, N. D. Thái, P. V. Nhã, “Mô hình hệ thống phát hiện phân cụm mờ lai ghép.” 28
R2L 1126 6.16% 16.189 5.2%
U2R 52 0.28% 288 0.09%
Bảng 2. Kết quả thực nghiệm trên các bộ dữ liệu KDD CUP ’99 sử dụng các mô
hình FC-ANN, FCM-mSVM, GAFCM-SVM và PFCMS.
Kết nối Chỉ số FC-ANN FCM-SVM GAFCM-SVM PFCMS
Normal
Pre. 91,32 89,15 95,28 98,46
Rec. 99,08 91,01 93,16 99,75
F-val. 95,04 92,11 96,24 98,31
DoS
Pre. 99,91 92,15 95,34 99,21
Rec. 96,70 92,65 98,00 98,45
F-val. 98,28 91,24 95,98 99,23
PRB
Pre. 48,12 89,56 98,12 96,75
Rec. 80,00 91,43 94,76 97,90
F-val. 60,00 88,56 90,10 97,27
R2L
Pre. 93,18 91,22 97,81 98,35
Rec. 58,57 69,18 93,27 95,95
F-val. 71,93 78,25 89,49 91,63
U2R
Pre. 83,33 93,14 92,76 99,86
Rec. 76,92 87,02 92,38 98,95
F-val. 80,00 90,17 95,62 92,75
Chúng tôi đã tiến hành 20 thực nghiệm bằng việc lựa chọn dữ liệu ngẫu nhiên.
Kết quả thực nghiệm được liệt kê trong bảng 4.2 tương ứng với từng loại tấn công.
Chúng tôi đã so sánh kết quả thực nghiệm thu được từ các mô hình khác nhau FC-
ANN [9], GAFCM-SVM [4], FCM-mSVM[33] và PFCMS đã được đề xuất trong
bài báo này sử dụng các chỉ số đánh giá Precision, Recall và F-Value.
Theo kết quả trong bảng 2 chúng ta dễ dàng nhận thấy, các mô hình FC-ANN
và FCM-mSVM mặc dù đều sử dụng thuật toán FCM phân cụm, nhưng sử dụng
các kỹ thuật phân lớp ANN và SVM khác nhau nên kết quả thu được cũng khác
nhau. Các mô hình GAFCM-SVM và PFCMS cùng sử dụng thuật toán FCM và
SVM để phân cụm và phân lớp, nhưng 2 mô hình này sử dụng hai thuật toán tìm
tâm cụm khởi tạo GA và PSO khác nhau nên kết quả thu được cũng khác nhau.
Tuy nhiên, trong tất cả các kết quả, kết quả thu được từ mô hình PFCMS la tốt nhất
tương ứng với giá trị các chỉ số đánh giá cao nhất. Điều này chứng tỏ hiệu suất đạt
Nghiên cứu khoa học công nghệ
Tạp chí Nghiên cứu KH&CN quân sự, Số Đặc san An toàn Thông tin, 05 - 2017 29
được khi sử dụng thuật toán PSO để tìm tâm cụm khởi tạo cho thuật toán FCM và
sử dụng kỹ thuật SVM để phân lớp đối tượng kết nối. Ngoài ra, chúng tôi cũng tiến
hành đo thời gian huấn luyện trên toàn bộ dữ liệu huấn luyện như sau. Đối với FC-
ANN là 2125 giây, FCM-mSVM là 2347 giây, GAFCM-SVM là 3265 giây và
PFCMS là 2985 giây. Điều này chứng tỏ, để đạt được hiệu quả phát hiện tốt hơn,
chúng ta phải trả giá về mặt thời gian cao hơn cho việc xử lý tìm tâm cụm khởi tạo
phù hợp. Đều là các kỹ thuật có thể tìm tâm cụm khởi tạo cho các thuật toán phân
cụm FCM, nhưng thuật toán PSO không chỉ thực thi nhanh hơn mà còn mang lại
hiệu suất phân cụm tốt hơn thuật toán GA.
5. KẾT LUẬN
Phòng thủ tấn công mạng chỉ sử dụng các công nghệ bảo mật truyền thống tồn
tại nhiều lỗ hổng bảo mật. Kết quả nghiên cứu cho thấy phát hiện xâm nhập là một
bài toán quan trọng trong an ninh mạng. IDS cung cấp những ưu thế tiềm năng
trong việc giảm nhân lực cần thiết trong việc giám sát, nâng cao hiệu quả phát
hiện, cung cấp dữ liệu an toàn, giúp cộng đồng bảo mật thông tin tìm hiểu về lỗ
hổng mới và cung cấp các bằng chứng pháp lý khi cần thiết.
Trong bài báo này, chúng tôi đã đề xuất một mô hình phát hiện xâm nhập mới
sử dụng một thuật toán lai ghép PFCMS, bằng cách sử dụng thuật toán PSO để tìm
tâm cụm khởi tạo phù hợp cho thuật toán FCM để nâng cao hiệu suất phân lớp cho
kỹ thuật SVM. Thông qua kỹ thuật Phân cụm mờ, tập huấn luyện không đồng nhất
được chia thành một số tập con đồng nhất. Như vậy, độ phức tạp của từng tập huấn
luyện được giảm xuống và đồng thời hiệu suất phát hiện xâm nhập được tăng lên.
Thực nghiệm được tiến hành trên bộ dữ liệu KDD CUP ‘99 đã chứng tỏ hiệu suất
của phương pháp tiếp cận mới vượt trội so với những mô hình sử dụng các kỹ
thuật đã được đề xuất trước đó về hiệu suất phát hiện, giảm tỷ lệ cảnh báo sai.
Ngoài ra, mô hình PFCMS không chỉ phát hiện các tấn công đã biết mà còn phát
hiện được các tấn công mới. Đặc biệt, đối với các cuộc tấn công tần suất thấp như
R2L và U2R về độ chính xác phát hiện và ổn định phát hiện cao.
Tuy nhiên, qua kết quả thực nghiệm cũng cho chúng tôi thấy, độ ổn định phát
hiện của hệ thống phụ thuộc rất lớn đến số cụm được lựa chọn trong pha phân
cụm. Ngoài ra, tâm cụm khởi tạo cũng là cơ sở ảnh hưởng đến độ ổn định của các
thuật toán phân cụm. Do vậy, trong tương lai, chúng tôi sẽ tiếp tục nghiên cứu để
xác định số cụm và tâm cụm khởi tạo thích hợp.
Công nghệ thông tin
V. Đ. Giang, N. D. Thái, P. V. Nhã, “Mô hình hệ thống phát hiện phân cụm mờ lai ghép.” 30
TÀI LIỆU THAM KHẢO
[1]. A. Mekhmoukh, K. Mokrani (2015), “Improved Fuzzy C-Means based
Particle Swarm Optimization (PSO) initialization and outlier rejection with
level set methods for MR brain image segmentation,” Computer Methods and
Programs in Biomedicine, Vol. 122, pp. 266–281
[2]. A. Pitiot, A.W. Toga, P.M. Thompson (2002), “Adaptive elastic
segmentation of brain MRI via shape-model-guided evolutionary
programming,” IEEE Transactions on Medical Imag, Vol. 21, pp. 910–923.
[3]. A.N. Benaichouche, H. Oulhadj, P. Siarry (2013), “Improved spatial fuzzy c-
means clustering for image segmentation using PSO initialization,
Mahalanobis distance and post-segmentation correction,” Digital Signal
Processing, Vol. 23, pp. 1390–1400.
[4]. C. Tang, Y. Xiang, Y. Wang, J. Qian, B. Qiang (2016), “Detection and
classification of anomaly intrusion using hierarchy clustering and SVM,”
Security and Communication Networks, Vol. 9(16), pp. 3401-3411.
[5]. D. Amin, I. Suhaimi, M. Reza (2015), “Comparison of genetic algorithm
optimization on artificial neural network and support vector machine in
intrusion detection system,” IEEE Conference on Open Systems, pp. 72–77.
[6]. E. Bron, M. Smits, WJ. Niessen (2015), “Feature selection based on the SVM
weight vector for classification of dementia,” IEEE Journal of Biomedical
and Health Informatics, Vol. 19(5),1617–1626.
[7]. F.J. Iztok, M. Perc, K. Ljubic, S.M. Kamal, A. Iglesias, I. Fister (2015),
“Particle swarm optimization for automatic creation of complex graphic
characters,” Chaos, Solitons & Fractals, Vol. 73, pp. 29–35.
[8]. G. Cui, L. Qin, S. Liu, Y. Wang, X. Zhang, X. Cao (2008), “Modified PSO
algorithm for solving planar graph coloring problem,” Progress in Natural
Science, Vol. 18, pp. 353–357.
[9]. G. Wang, J. Hao, J. Ma, L. Huang, (2010), “A new approach to intrusion
detection using Artificial Neural Networks and fuzzy clustering,” Expert
Systems with Applications, Vol. 37, pp. 6225–6232.
[10]. H. Ling, J. Wu, Y. Zhou, W. Zheng (2016), “How many clusters. A robust
PSO-based local density model,” Neurocomputing, Vol. 207, pp. 264-275.
[11]. H. Yoon, CS. Park, JS. Kim (2013), “Algorithm learning based neural
network integrating feature selection and classification,” Expert Systems
with Applications, Vol. 40(1), pp. 231–241.
[12]. HB. Monowar, DK. Bhattacharyya, JK. Kalita (2014), “Network anomaly
detection: methods, systems and tools,” IEEE Communications Surveys &
Tutorials, Vol. 16 (1), pp. 303–335.
[13]. J. Dunn (1973), “A Fuzzy Relative of the ISODATA Process and Its Use in
Detecting Compact Well-Separated Clusters,” Journal of Cybernatics, Vol. 3,
pp. 32-57.
Nghiên cứu khoa học công nghệ
Tạp chí Nghiên cứu KH&CN quân sự, Số Đặc san An toàn Thông tin, 05 - 2017 31
[14]. J. Kennedy, R. Eberhart (1995), “Particle swarm optimization,” IEEE
international conference on neural networks 4, pp. 1942-1950
[15]. J.C. Bezdek, R. Ehrlich, W. Full (1984), “The fuzzy C-means clustering
algorithm,” Computers & Geosciences, Vol. 10(2–3), pp. 191–203.
[16]. K. Cohen, Q. Zhao (2015), “Active hypothesis testing for anomaly detection,”
IEEE Transactions on Information Theory, Vol. 61(3), pp. 1432–1450.
[17]. K.K. Bhoyar, O. Kakde (2010), “Colour image segmentation using fast fuzzy
c-means algorithm,” Electronic Letters on Computer Vision and Image
Analysis, Vol. 9, pp. 18-31.
[18]. L.T. Ngo, D.S. Mai, W. Pedrycz (2015), “Semi-Supervised Interval Type-2
Fuzzy C-Means Clustering with Spatial Information for Multi-Spectral
Satellite Image Classification and Change Detection,” Computers and
Geosciences, Vol. 83, pp. 1-16.
[19]. M. Amini, J. Rezaeenour, E. Hadavandi (2016), “A Neural Network
Ensemble Classifier for Effective Intrusion Detection Using Fuzzy Clustering
and Radial Basis Function Networks,” International Journal on Artificial
Intelligence Tools, Vol. 25(2), 2016, pp. 293-304.
[20]. M. Wazid, AK. Das (2016), An Efficient Hybrid Anomaly Detection Scheme
Using K-Means Clustering for Wireless Sensor Networks,” Wireless Personal
Communications, Vol. 90(4), pp.1971-2000.
[21]. N. Pandeeswari, G. Kumar (2016), “A novel fuzzy anomaly detection method
based on clonal selection clustering algorithm,” Mobile Networks and
Applications, Vol. 21(3), pp. 494-505.
[22]. P. Dokas, L. Ertoz, A. Lazarevic, J. Srivastava, PN. Tan (2002), “Data
mining for network intrusion detection,” Proceeding of NGDM, pp. 21–30.
[23]. P. Y. Zhang, S. Wang, G. Ji (2014), “Binary PSO with mutation operator for
feature selection using decision tree applied to spam detection,” Knowledge-
Based Systems, Vol. 64, pp. 22-31.
[24]. Q. Liang, J. M. Mendel (2000), “Interval type-2 fuzzy logic systems: Theory
and design,” IEEE Trans. Fuzzy Systems, Vol. 8(5), pp. 535–550.
[25]. S. Jungsuk, T. Hiroki, O. Yasuo (2009), “Unsupervised anomaly detection
based on clustering and multiple oneclass SVM,” IEICE Transactions on
Communications, Vol. E92B(6), pp. 1981–1990.
[26]. S.M. Alavi, AF. Naini (2014), “A comparison between GA, PSO, and IWO
for shaped beam reflector antennas,” International Journal of Microwave and
Wireless Technologies, Vol. 7(5), pp. 565-570.
[27]. TM. Silva, BA. Pimentel, RMCR. Souza, ALI. Oliveira (2016), “Hybrid
methods for fuzzy clustering based on fuzzy c-means and improved particle
swarm optimization,” Expert Systems With Applications, Vol. 42(17-18), pp.
6315.
Công nghệ thông tin
V. Đ. Giang, N. D. Thái, P. V. Nhã, “Mô hình hệ thống phát hiện phân cụm mờ lai ghép.” 32
[28]. V. Kachitvichyanukul (2012), “Comparison of Three Evolutionary
Algorithms: GA, PSO, and DE,” Industrial Engineering & Management
Systems, Vol. 11(3), pp. 215-223.
[29]. W. Li, V. Mahadevan, N. Vasconcelos (2014), “Anomaly detection and
localization in crowded scenes,” IEEE Transactions on Pattern Analysis and
Machine Intelligence, Vol. 36(1), pp. 18–32.
[30]. WH. Chen, SH. Hsu, HP. Shen (2005), “Application of SVM and ANN for
intrusion detection,” Computer and Operations Research, Vol. 32(10),
pp.2617–2634.
[31]. X.W. Chen, T. Huang (2003), “Facial expression recognition: a clustering-
based approach,” Pattern Recognition Letters, Vol. 24, pp. 1295–1302.
[32]. Y. Tsaig, A. Averbuch (2002), “Automatic segmentation of moving objects in
video sequences: a region labeling approach,” IEEE Engineering in
Medicine and Biology Magazine, Vol. 12, 597–612.
[33]. YK. Wang, XG. Liu (2012), “Applying fuzzy cmeans clustering and multiple
SVM to silicon content prediction in hot metal,” Advances in Information
Sciences and Service Sciences, Vol. 4(2), pp. 40–48.
[34]. ZH. Che (2012), “A hybrid algorithm for fuzzy clustering,” European Journal
of Industrial Engineering, Vol. 6(1), pp. 50-67.
ABSTRACT
AN ABNORMAL DETECTION SYSTEM MODEL USING HYBRID FUZZY
CLUSTERING ALGORITHM
Attacking and defending the network system is attracting the attention of
researchers. These systems have always been a top priority of unauthorized
attacks. Therefore, strengthening the defense systems to detect abnormal
intrusions from inside and outside the network is very necessary and
frequent. In this paper, we have proposed an abnormal intrusion detection
system model using the hybrid fuzzy clustering algorithm which is a
combination of three FCM, PSO and SVM algorithms. The experiment was
conducted on the KDD CUP '99 standard data sets. Experimental results
have shown that the proposed model achieves the abnormal detection
performance overcome the previously proposed models.
Keywords: Abnormal detection system, Fuzzy clustering, Particle Swarm Optimization, Support vector
machine.
Nhận bài ngày 24 tháng 02 năm 2017
Hoàn thiện ngày 03 tháng 4 năm 2017
Chấp nhận đăng ngày 01 tháng 5 năm 2017
Địa chỉ: 1 Phòng Thí nghiệm trọng điểm ATTT
2 Phòng TM-KH, Viện KH&CN quân sự
* Email: famvannha@gmail.com
Các file đính kèm theo tài liệu này:
- 02_3625_2151857.pdf