Khóa luận Nghiên cứu mạng thư điện tử và ứng dụng trong lọc thư rác

Tài liệu Khóa luận Nghiên cứu mạng thư điện tử và ứng dụng trong lọc thư rác: - 1 - ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Bùi Ngọc Lan NGHIÊN CỨU MẠNG THƯ ĐIỆN TỬ VÀ ỨNG DỤNG TRONG LỌC THƯ RÁC KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUI Ngành: Công nghệ thông tin Hà Nội - 2006 - 2 - ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Bùi Ngọc Lan NGHIÊN CỨU MẠNG THƯ ĐIỆN TỬ VÀ ỨNG DỤNG TRONG LỌC THƯ RÁC KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUI Ngành: Công nghệ thông tin Cán bộ hướng dẫn: Tiến sĩ Trần Quang Anh Cán bộ đồng hướng dẫn: Tiến sĩ Hà Quang Thụy Hà Nội - 2006 - 3 - LỜI CẢM ƠN Đầu tiên, em muốn gửi lời cảm ơn chân thành và biết ơn sâu sắc tới Tiến sĩ Trần Quang Anh (Trường Đại học Thanh Hoa Trung Quốc) và Tiến sĩ Hà Quang Thụy (Trường Đại học Công nghệ - Đại học Quốc Gia Hà Nội) đã tận tình chỉ bảo và hướng dẫn em trong suốt quá trình thực hiện khoá luận này. Em xin chân thành cám ơn các thầy lãnh đạo Viện CNTT - ĐHQGHN, anh Nguyễn Việt Cường (Trường Đại học Công nghệ - ĐHQGHN) và anh Phan ...

64 trang | Chia sẻ: hunglv | Lượt xem: 1326 | Lượt tải: 0

Bạn đang xem trước 20 trang mẫu tài liệu Khóa luận Nghiên cứu mạng thư điện tử và ứng dụng trong lọc thư rác, để tải tài liệu gốc về máy bạn click vào nút DOWNLOAD ở trên

- 1 - ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CƠNG NGHỆ Bùi Ngọc Lan NGHIÊN CỨU MẠNG THƯ ĐIỆN TỬ VÀ ỨNG DỤNG TRONG LỌC THƯ RÁC KHĨA LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUI Ngành: Cơng nghệ thơng tin Hà Nội - 2006 - 2 - ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CƠNG NGHỆ Bùi Ngọc Lan NGHIÊN CỨU MẠNG THƯ ĐIỆN TỬ VÀ ỨNG DỤNG TRONG LỌC THƯ RÁC KHĨA LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUI Ngành: Cơng nghệ thơng tin Cán bộ hướng dẫn: Tiến sĩ Trần Quang Anh Cán bộ đồng hướng dẫn: Tiến sĩ Hà Quang Thụy Hà Nội - 2006 - 3 - LỜI CẢM ƠN Đầu tiên, em muốn gửi lời cảm ơn chân thành và biết ơn sâu sắc tới Tiến sĩ Trần Quang Anh (Trường Đại học Thanh Hoa Trung Quốc) và Tiến sĩ Hà Quang Thụy (Trường Đại học Cơng nghệ - Đại học Quốc Gia Hà Nội) đã tận tình chỉ bảo và hướng dẫn em trong suốt quá trình thực hiện khố luận này. Em xin chân thành cám ơn các thầy lãnh đạo Viện CNTT - ĐHQGHN, anh Nguyễn Việt Cường (Trường Đại học Cơng nghệ - ĐHQGHN) và anh Phan Bá Hùng (Viện Cơng nghệ Thơng tin - ĐHQGHN) đã giúp đỡ, tạo điều kiện thuận lợi để em tiến hành cĩ kết quả các thử nghiệm trên mail-server thực. Em xin bày tỏ lời cảm ơn sâu sắc tới các thầy, cơ trong trường Đại học Cơng nghệ đã dạy dỗ và tận tình chỉ bảo cho em trong suốt quá trình học tập tại trường. Em cũng muốn gửi lời cảm ơn tới các thầy cơ, anh chị và các bạn trong nhĩm xê-mi-na “Khai phá dữ liệu và khám phá tri thức” thuộc bộ mơn Các hệ thống thơng tin, Trường Đại học Cơng nghệ đã ủng hộ và khuyến khích em trong quá trình nghiên cứu và thực hiện khố luận này. Và lời cuối cùng, em xin gửi lời cảm ơn chân thành và biết ơn vơ hạn tới bố, mẹ, anh chị những người đã cĩ cơng sinh thành, nuối nấng, dạy dỗ và luơn động viên, khuyến khích em trong cuộc sống, trong học tập và làm việc. Sinh viên Bùi Ngọc Lan - 4 - Tĩm tắt Vấn đề thư rác từ lâu đã gây khơng ít phiền nhiễu cho người sử dụng thư điện tử và là vấn đề đau đầu của những người quản lý mạng. Cĩ rất nhiều giải pháp chống thư rác đã được đưa ra và áp dụng trong thực tế. Tuy nhiên, các phương pháp này đều tỏ ra chưa thực sự hiệu quả và mang những nhược điểm cố hữu của nĩ. Trong luận văn này, trên cơ sở nghiên cứu cấu trúc và các tính chất đặc trương của mạng thư điện tử (Email Networks) từ đĩ đề xuất một phương pháp lọc thư rác mới dựa trên mạng thư điện tử. Khác với phương pháp lọc thư rác dựa trên mạng thư điện tử trước đây [1], phương pháp đưa ra đã khai thác được tính chất cĩ hướng của đồ thị mạng thư điện tử và xem xét đồ thị mạng thư điện tử là đồ thị cĩ trọng số để xây dựng một cơng thức tính độ phân cụm (clustering coefficient) mới. Để kiểm chứng phương pháp đưa ra, khĩa luận thực hiện thí nghiệm trên log files của máy chủ e-mail thực của Đại học Quốc gia Hà Nội. Kết quả thực nghiệm cho thấy được tính đúng đắn của phương pháp và phương pháp này cĩ thể khắc phục được nhiều nhược điểm cố hữu của các giải pháp trước đây. - 5 - Mục lục LỜI CẢM ƠN ............................................................................................3 MỞ ĐẦU.....................................................................................................8 CHƯƠNG 1: TỔNG QUAN VỀ THƯ RÁC .........................................10 1.1 Khái niệm thư rác ............................................................................10 1.1.1 Thư rác là gì ?..............................................................................................10 1.1.2 Các đặc điểm của thư rác. ...........................................................................11 1.1.3 Phân loại thư rác .........................................................................................12 1.1.4 Những thiệt hại do thư rác gây ra................................................................13 1.2 Các giải pháp cho vấn đề lọc thư rác ...............................................16 1.2.1 Ban hành các bộ luật chống thư rác ............................................................16 1.2.2 Các phương pháp lọc thư rác trước đây......................................................16 CHƯƠNG 2: KIẾN THỨC CƠ SỞ .......................................................26 2.1 Mạng phức hợp (Complex Networks) ..............................................26 2.1.1 Độ dài đường dẫn trung bình.......................................................................30 2.1.2 Độ phân cụm ................................................................................................31 2.1.3 Độ phân bố bậc ............................................................................................31 2.2 Các mơ hình của mạng phức hợp ....................................................33 2.2.1 Mạng cặp thơng thường (Regular coupled networks) .................................33 2.2.2 Đồ thị ngẫu nhiên (Random Graphs)...........................................................34 2.2.3 Các mơ hình Small-world ............................................................................36 2.2.4 Các mơ hình Scale-free ................................................................................39 2.3 Mạng xã hội (Social Networks).......................................................41 2.4 Mạng thư điện tử (Email Networks)................................................43 2.4.1 Mạng thư điện tử scale-free. .........................................................................43 2.4.2 Tính chất Small-world của mạng thư điện tử. .............................................44 2.4.3 Mạng thư điện tử là mạng cĩ hướng............................................................46 2.4.4 Sự lan rộng của virus trong mạng thư điện tử .............................................48 2.4.5 Mạng thư điện tử khi bị spam tấn cơng .......................................................49 - 6 - CHƯƠNG 3: ỨNG DỤNG MẠNG THƯ ĐIỆN TỬ TRONG LỌC THƯ RÁC.................................................................................................50 3.2 Đề xuất phương pháp.......................................................................51 3.3 Đặc điểm của phương pháp .............................................................53 CHƯƠNG 4: THỰC NGHIỆM TRÊN LOG FILES............................55 4.1 Đặc điểm dữ liệu..............................................................................55 4.2 Kết quả thực nghiệm và phân tích ...................................................57 4.3 Nhận xét ..........................................................................................60 KếT LUậN...................................................................................................61 - 7 - Bảng từ viết tắt Từ hoặc cụm từ Viết tắt Unsolicited Commercial Email UCE Internet Service Provider ISP Short Message Service SMS Email Service Provider ESP Realtime Black hole List RBL Multiple Address Processing System MAPS eXtensible Markup Language XML Domain Name Server DNS Sender Policy Framework SPF - 8 - MỞ ĐẦU Ngày nay cùng với sự tồn cầu hĩa việc kết nối thơng tin, thư điện tử (Email) đã trở thành một phần quan trọng trong đời sống và trong cả các hoạt động kinh doanh thương mại. Thư điện tử cho phép tiết kiệm thời gian và khắc phục mọi vấn đề về khoảng cách địa lí, về chi phí trong trao đổi thơng tin liên lạc. Chính những thuận tiện trong trao đổi thư điện tử lại tạo ra một số sơ hở để cho các loại thư khơng mong muốn (thư rác: spam mail) hoạt động gây phiền tối cho người dùng. Trong một vài năm gần đây, những thư điện tử khơng mong muốn như vậy phát triển và gây ra khơng ít thiệt hại cho người dùng nĩi riêng và cho nền kinh tế - xã hội nĩi chung. Theo nhiều bản thống kê [10,15], thư rác đã chiếm tới ¾ tổng số thư điện tử lưu thơng trên tồn thế giới. Cĩ khơng ít người dùng đã hạn chế sử dụng thư điện tử như một phương tiện liên lạc, và điều đĩ đã gây ra sự trở ngại đáng kể cho liên lạc giữa các người dùng cũng như hạn chế việc phát sinh lợi nhuận chính đáng của nền kinh tế nhờ phương tiện liên lạc này. Hiện nay, thư rác đang là một trong những vấn đề nhức nhối của xã hội. Nhiều phương pháp, cơng cụ lọc thư rác đã được đề xuất, tuy nhiên nhìn chung các cơng cụ lọc thư rác hiện nay vẫn tỏ ra chưa thực sự hiệu quả. Chính vì lý do đĩ, nhiều hướng tiếp cận lọc thư rác mới đã được đề xuất [39], kể cả các hướng tiếp cận kết hợp các phương pháp khác nhau, trong đĩ hướng tiếp cận theo mạng xã hội là một trong các hướng nổi bật nhất. Ý thức được điều này, hướng nghiên cứu về các phương pháp lọc thư rác, tập trung theo hướng tiếp cận mạng thư điện tử đề tài của khĩa luận với tên gọi "Nghiên cứu mạng thư điện tử và ứng dụng trong lọc thư rác". Khĩa luận được tổ chức thành 4 chương như sau: Chương 1 giới thiệu tổng quan về thư rác và một số hướng tiếp cận điển hình trước đây trong việc lọc thư rác. Chương 2 trình bày về một số tính chất quan trọng của mạng phức hợp, mạng xã hội, mạng thư điện tử. Đây là cơ sở kiến thức để phát triển nội dung của khĩa luận trong các chương sau. Chương 3 trình bày một phương pháp mới ứng dụng các tính chất của mạng thư điện tử vào vấn đề lọc thư rác thơng qua việc tính hạng phân cụm của các địa chỉ thư. Các nội dung đề xuất được trình bày chi tiết trong chương này. - 9 - Chương 4 trình bày về thực nghiệm tiến hành với logs file của máy chủ email tại Đại học Quốc gia Hà Nội. Kết quả thực nghiệm cho thấy địa chỉ thư với độ phân cụm thấp cĩ khả năng cao là địa chỉ thư rác . Phần kết luận tổng kết các kết quả chủ yếu của khĩa luận và phương hướng nghiên cứu tiếp theo để phát triển, cải tiến phương pháp mạng thư điện tử được đề xuất. Cho dù đã cố gắng song khơng thể tránh khỏi những sai sĩt, em rất mong được sự gĩp ý của thầy cơ và các bạn. - 10 - Chương 1 TỔNG QUAN VỀ THƯ RÁC Từ lâu, thư điện tử (Email) đã trở thành một ứng dụng khơng thể thiếu khi Internet và cơng nghệ mạng phát triển. Đây là điều mà thực tế đã chứng minh qua những đĩng gĩp của ứng dụng này trong nhiều lĩnh vực như kinh doanh, thương mại, viễn thơng và các dịch vụ cá nhân. Tuy nhiên trong những năm gần đây, một hình thức mới của thư điện tử đã xuất hiện với số lượng lớn gây phiền hà cho người nhận và những thiệt hại khơng nhỏ cho nền kinh tế gọi là thư rác. Chương này sẽ khái quát các vấn đề về khái niệm thư rác, ảnh hưởng của thư rác trong cuộc sống của chúng ta và các phương pháp ngăn chặn thư rác. 1.1 Khái niệm thư rác 1.1.1 Thư rác là gì ? Thư rác (spam) là một loại thư được gửi với số lượng lớn, theo chủ ý của người gửi, hồn tồn khơng cĩ sự liên hệ gì với người nhận. Đứng trên quan điểm của người gửi, đĩ là một hình thức giửi thư theo số lượng lớn (nên gọi là bulk email) cho một danh sách địa chỉ chọn lọc ra từ các diễn đàn (Usenet discussion group), các danh sách thư (mailing list)… Hiện nay cũng cĩ nhiều cơng ty mà cơng việc kinh doanh chính là nhận gửi thư rác cho khách hàng của họ. Về phía người nhận, đa phần các bức thư này khơng cĩ giá trị và thật sự khơng được mong muốn, chúng bị coi như một thứ rác rưởi, tạp nham (xuất phát từ cụm junk email). Phần lớn các thư này cĩ nội dung quảng cáo thương mại cho một loại sản phẩm hay dịch vụ nào đĩ, những bức thư này được gọi là UCE (Unsolicited Commercial Email). Thư rác hiện nay thường cĩ nội dung: quảng cáo thương mại và dịch vụ, quấy nhiễu, phát tán virus và những nội dung khơng lành mạnh (khiêu dâm, chống phá chính trị…). - 11 - Việc gửi thư rác làm cho người nhận phải mất thời gian và phải trả tiền cho nhà cung cấp dịch vụ Internet ISP (Internet Service Provider) để đọc những bức thư khơng liên quan. Đơi khi những bức thư cĩ chứa virus cĩ thể phá hủy cả hệ thống dữ liệu trong máy tính. Ngồi ra, tài nguyên (đường truyền, máy chủ) của ISP cũng bị chiếm dụng nhiều khi gửi thư rác. 1.1.2 Các đặc điểm của thư rác. Các loại thư rác hiện nay cĩ một số đặc điểm sau: ¾ Thư rác được gửi đi một cách tự động: Mục đích của những kẻ gửi thư rác (spammer) là cĩ thể phát tán lượng thư rác tới người dùng càng nhiều càng tốt. Do vậy, chúng thường viết ra những phần mềm tự động gửi một lượng lớn thư rác trong một khoảng thời gian ngắn. ¾ Thư rác được gửi đến những địa chỉ ngẫu nhiên trên một diện rộng. Địa chỉ email của người bị nhận thư rác rất ngẫu nhiên và dường như giữa họ khơng cĩ mối quan hệ với nhau. Cĩ nhiều phương pháp và thủ thuật khác nhau mà những kẻ gửi thư rác áp dụng trong việc dị tìm địa chỉ email của người dùng như: Dùng chương trình tự động dị tìm địa chỉ email trên mạng Internet, các trang chủ, Newsgroup, Chat room.... Mua địa chỉ email từ những cơng ty đã xây dựng danh sách khách hàng của họ nhưng vì lý do nào đĩ phải bán đi hoặc đối tác của cơng ty được phép truy cập danh sách khách hàng của cơng ty này để gửi thơng tin về dịch vụ hay sản phẩm. Email chuỗi (Chain letter) từ bạn bè và người thân, yêu cầu gửi thư cho càng nhiều người càng tốt vì lý do thương người, ủng hộ một chương trình nào đĩ, hoặc mời chào người dùng nếu gửi cho nhiều người sẽ được nhận nhiều tiền hơn. Dùng chương trình đốn tên tự động: Những kẻ gửi thư rác dùng chương trình này gửi email liên tục vào một nơi để đốn địa chỉ email qua những phương pháp như E-pending, Dictionary hay Alphabet. Bên cạnh đĩ, những kẻ gửi thư rác cịn cĩ thể cĩ được địa chỉ email của người dùng do: - 12 - Các nhà cung cấp dịch vụ ISP khơng cĩ chính sách và cơng nghệ bảo mật, dẫn đến các tin tặc (hacker) ăn cắp địa chỉ của khách hàng để buơn bán và quấy nhiễu. Hoặc cĩ thể do chính nhà cung cấp ISP buơn bán địa chỉ email của khách hàng để kiếm lợi nhuận. Nhân viên của các ISP đã tiết lộ thơng tin về khách hàng cho các đối thủ cạnh tranh của chính ISP đĩ, hoặc cho những cơng ty muốn quảng cáo cho những khách hàng riêng biệt. Chính người dùng cung cấp địa chỉ email của mình qua những lần đăng kí thành viên trên Internet hoặc trên giấy tờ các dịch vụ mà chẳng bao giờ dùng, những cuộc xổ số mà chẳng bao giờ biết quả, hoặc những bản tin điện tử (newsletter) vơ nghĩa. ¾ Nội dung của thư rác thường là những nội dung bất hợp pháp, gây phiền hà cho người dùng. Phần lớn nội dung của thư rác là những thơng tin mời chào về thương mại, quảng cáo sản phẩm. Bên cạnh đĩ, phải kể đến những thư rác cĩ nội dung xấu (như khiêu dâm, chống phá chính trị...) gây tâm lý lo ngại cho người làm cơng nghệ thơng tin. Lượng thư rác phát tán virus cũng khơng nhỏ. Trong những thư này thường được gắn kèm những con virus nguy hiểm cĩ thể làm tê liệt hồn tồn máy tính của người dùng, ăn cắp những thơng tin cá nhân hoặc làm hỏng dữ liệu lưu trên máy. Hiện nay, những thư rác với nội dung hứa hẹn mang đến một khoản tiền lớn cho người đọc thư rác đã tăng nhanh. Những người dùng kém hiểu biết, cả tin thường bị lừa bởi hình thức này. ¾ Địa chỉ của người gửi thư rác thường là những địa chỉ trá hình. Để tránh sự nghi ngờ của người nhận, một số kẻ gửi thư rác thường giả dạng địa chỉ của một người dùng bình thường trong một máy chủ email nào đĩ một cách bất hợp pháp hoặc dùng một địa chỉ ảo nào đĩ để gửi thư rác. 1.1.3 Phân loại thư rác Việc phân loại thư rác rất quan trọng khơng chỉ trong lĩnh vực tạo những bộ lọc thư rác phù hợp cho hiệu quả cao mà cịn giúp cho việc ban hành các bộ luật chống thư rác thích hợp. Cĩ rất nhiều cách phân loại thư rác. Dưới đây là một số loại điển hình nhất. 1> Dựa trên kiểu phát tán thư rác - 13 - Tính tới thời điểm hiện tại, thư rác cĩ thể bị gửi thơng qua những hình thức thư điện tử, nhĩm thảo luận (newsgroups), điện thoại di động (Short Message Service - SMS) và các dịch vụ gửi tin nhắn trên mạng (như Yahoo Messenger, Windows Messenger...). 2> Dựa vào quan hệ với người gửi thư rác Các mối quan hệ với người gửi thư rác bao gồm người lạ mặt, bạn bè, người quen và các dịch vụ quyên gĩp giúp đỡ… 3> Dựa vào nội dung của thư rác. Các kiểu nội dung phổ biến như thư về thương mại, thư về chính trị, thư về cơng nghệ, chuỗi thư (chain email) và các loại khác (như thư phát tán virus...). 4> Dựa trên động lực của người gửi Thơng thường, thư rác được gửi đi cho những mục đích quảng bá thơng tin. Ngồi ra, cịn cĩ một số loại thư rác được gửi tới một người nhận xác định nào đĩ nhằm mục đích phá vỡ và gây cản trở cơng việc của người nhận hay mạng của nhà cung cấp dịch vụ thư điện tử ESP (Email Service Provider) được gọi là “bom thư”. Thư rác cịn được cố ý gửi đi nhằm thơng báo tin sai lệch, làm xáo trộn cơng việc và cuộc sống của người nhận. 1.1.4 Những thiệt hại do thư rác gây ra Các khảo sát cho thấy thư rác hiện chiếm hơn một nửa số email qua lại hàng ngày trên Internet và chính thư rác là nguồn lây lan virus nhanh nhất. Thiệt hại do chúng gây ra rất lớn. Năm 2003, báo cáo của Hội thảo Thương mại và Phát triển của Liên Hiệp Quốc cho thấy thiệt hại do thư rác gây ra khoảng 20,5 tỷ USD. Các hãng diệt virus cũng đưa ra ước tính thiệt hại của các cuộc tấn cơng do virus năm 2001 là 13 tỷ USD, năm 2002 khoảng từ 20 - 30 tỷ USD. Chi phí để khắc phục sự cố do virus gây ra trong các doanh nghiệp được điều tra ngẫu nhiên ở Mỹ năm 2002 là 81.000 USD, đến năm 2003 đã tăng lên 100.000 USD. Trên 3/4 số doanh nghiệp cho rằng sự cố virus đã gây tổn hại nhất định đến năng suất làm việc và 2/3 cho biết ảnh hưởng chủ yếu của mỗi vụ tấn cơng là làm cho máy tính khơng thể truy cập được. Những ảnh hưởng khác của virus là làm hỏng file và khơng thể truy xuất dữ liệu. - 14 - Theo thống kê tồn cầu của hãng nghiên cứu Ferris Research (San Francisco), thư rác gây thiệt hại 50 tỷ USD trong năm 2005. Chỉ tính riêng ở Mỹ, thiệt hại do thư rác gây ra đối với các doanh nghiệp ước tính khoảng 17 tỷ USD/năm. Khơng chỉ gây thiệt hại về tiền bạc, thư rác cịn làm giảm hiệu quả làm việc, gây stress, tiêu tốn thời gian của nhân viên... Những điều này cũng đồng nghĩa với việc, năng suất lao động giảm, ảnh hưởng tới tình hình kinh doanh và doanh thu của cơng ty. Báo cáo mới cơng bố của Tổ chức hợp tác phát triển kinh tế OECD cho thấy thư rác đang là vấn nạn tồn cầu, nhưng ảnh hưởng tới người sử dụng Internet ở thế giới thứ ba (các nước đang pháp triển) nhiều hơn tại các quốc gia phát triển. Theo phân tích của OECD một phần nguyên nhân của việc người sử dụng máy tính ở các nước đang phát triển hay bị virus và thư rác tấn cơng là do họ thường mua hệ điều hành và phần mềm chống virus khơng cĩ bản quyền (do điều kiện kinh tế khơng cho phép) nên khơng thể được cập nhật một cách đầy đủ, khơng đối phĩ với những kỹ thuật liên tục thay đổi của những tên tin tặc (hacker) và những tên gửi thư rác (spammer). Bênh cạnh đĩ phải kể đến nguyên nhân thiếu kiến thức, cơng nghệ và tài chính để đối phĩ với sự gia tăng thư rác trên hệ thống liên lạc trong nước, gây thất thốt đáng kể nguồn lực cơng nghệ vốn đã yếu và thiếu tại những nơi này. Các ISP nội địa thì thiếu những chính sách ngăn chặn và xử lý thư rác, trong khi đĩ, những kênh tiếp vận (relay) và proxy “mở toang” cùng với vơ số máy tính bị nhiễm virus hoặc Trojan trong mạng đã trở thành những nguồn phát tán thư rác lớn. Hậu quả là người sử dụng phải hứng chịu tình trạng bất ổn định dịch vụ, gây cản trở quá trình thu hẹp khoảng cách số tồn cầu. Từ những con số thống kê trên ta cĩ thể thấy, việc thơng qua các chế tài pháp lý quốc tế, đầu tư mạnh vào hệ thống lọc thư rác, thiết lập những trung tâm phản ứng nhanh liên kết các ISP tồn cầu, đồng thời tăng cường các chiến dịch tuyên truyền cộng đồng về sự nguy hại và cách đối phĩ với thư rác là cơng việc rất quan trọng và cần thiết. Ngày nay, spam khơng phải đơn giản chỉ nằm trong thư điện tử mà cịn cĩ cả trong blog1, cịn gọi là spam blogs hay splogs, trên các tin nhắn trực tuyến. Những xu thế này chính là những hình thức mới của spam cĩ thể phát triển nở rộ trong năm 2006. 1 Blog, gọi tắt của weblog (tiếng Anh, "nhật ký web"), là một dạng đàm luận thời sự trực tuyến, bùng nổ từ cuối thập niên 1990. Các bloger(người viết blog), cĩ thể là cá nhân hoặc nhĩm, đưa thơng tin lên mạng với mọi chủ đề, thơng thường cĩ liên quan tới kinh nghiệm hoặc ý kiến cá nhân, chủ yếu cung cấp thơng tin đề cập tới những chủ đề chọn lọc, khơng giống như các báo truyền thống. Một trang blog cĩ thể chứa các siêu liên kết, hình ảnh và liên kết (tới các trang chứa phim và âm nhạc). - 15 - Ngồi ra, luật phịng chống spam và các bộ lọc spam ngày càng chặt chẽ sẽ khiến cho những kẻ gửi thư rác phải thay đổi đối tượng tấn cơng. Để cĩ thể loại bỏ được thư rác, ta khơng thể dùng một phương pháp riêng lẻ nào để loại bỏ tận gốc mà cần áp dụng các phương pháp kết hợp với nhau. Một trong những cách hữu hiệu nhất để chặn spam là giáo dục người dùng cuối. Khi người sử dụng đã cĩ kiến thức thì họ sẽ ít bị rơi vào bẫy do những kẻ phát tán thư rác cố tình giăng ra để khai thác địa chỉ email và duy trì mục đích của chúng. Một số lời khuyên cho người dùng thư điện tử: Yêu cầu và địi hỏi những nhà chức trách cĩ những luật lệ nghiêm cấm thư rác và cĩ những hình phạt thích đáng cho những kẻ cố tình. Mỗi người dùng nên dùng nhiều địa chỉ email. Đây là phương pháp khá hiệu quả. Người dùng nên dùng các địa chỉ email khác nhau cho các mục đích khác nhau. Chẳng hạn, tạo một địa chỉ email cho cơng việc, một cho cá nhân, và một để đăng ký các dịch vụ, thơng tin trên internet. Bằng cách này, người dùng cĩ thể suy luận ra được địa chỉ nào bị lộ sau khi đăng ký các dịch vụ và tránh được chúng sau này. Hạn chế đăng ký các dịch vụ vơ ích. Người dùng nên tìm hiểu và đọc kỹ thơng tin về dịch vụ trước khi cung cấp địa chỉ email của mình, cần chắc chắn là dịch vụ này cho phép lựa chọn “khơng nhận email quảng cáo từ các đối tác của nhà cung cấp dịch vụ”. Kích hoạt các dịch vụ chống thư rác của ISP. Các ISP thường tích hợp các cơng cụ lọc thư rác cũng như chương trình quét virus. Người dùng nên kích hoạt các dịch vụ này khi dùng Internet. Phương pháp này cũng giúp giảm bớt được phần nào số lượng thư rác phải nhận mỗi ngày. Cài đặt một số chương trình xử lý thư trong máy tính cá nhân để xĩa thư rác ngay khi chuyển về máy. Bảo vệ mật khẩu của mình bằng cách chọn mật khẩu lạ, khĩ đốn hoặc khơng thể đốn được, trong đĩ chữ cái xen lẫn con số, chữ hoa xen lẫn chữ thường. Thường xuyên ghi dự phịng những dữ liệu quan trọng. Đồng thời, cảnh giác với những thư từ người quen biết nhưng khơng được báo trước, bởi cĩ thể chúng được gửi đi mà người kia khơng biết. - 16 - Spam vẫn từng phút gây thiệt hại cho nền kinh tế Internet. Người ta nhận định rằng sẽ khơng bao giờ cĩ đích đến cho cơng cuộc chống spam. Tùy vào ý thức của cư dân Internet và sức mạnh cơng nghệ, chỉ cĩ thể hạn chế phần nào nĩ mà thơi. 1.2 Các giải pháp cho vấn đề lọc thư rác 1.2.1 Ban hành các bộ luật chống thư rác Thư rác đang gia tăng với tốc độ khủng khiếp và địi hỏi cần cĩ những biện pháp cứng rắn phối hợp từ phía chính phủ. Chính vì vậy, việc ban hành các bộ luật chống thư rác là rất cần thiết và xác đáng. Hiện nay, cĩ rất ít quốc gia trên thế giới cĩ luật bảo vệ người dùng dưới sự tấn cơng của thư rác. Về mặt luật pháp đối với thư rác, Mỹ là nước đi đầu với bộ luật quy định về “Email khơng do yêu cầu” (Unsolicited Electronic Mail Act), theo sau đĩ là Khối Cộng đồng chung Châu Âu với bộ luật mẫu về Thương mại Điện tử và Quảng cáo trên Internet. Hai bộ luật này đều dựa trên những luật căn bản như Quyền riêng tư, Bảo vệ Thơng tin cá nhân và Quy định Thư tín/Giấy tờ Điện tử. Cả hai đều cĩ những điểm chung là bắt buộc người gửi email khơng được mời phải nêu rõ mục đích và nội dung trong phần tiêu đề (Subject) để người nhận cĩ thể xác định thơng tin ngay và đồng thời phải cĩ thơng tin cho phép người nhận được quyền rút tên khỏi danh sách email nếu muốn. Thêm vào đĩ, những cơng ty hoặc người gửi thư rác phải hiểu và nắm vững chính sách quản lý thư rác/quảng cáo của mỗi ISP mà họ gặp phải. Ở Việt Nam, chúng ta chỉ mới cơng nhận tính chất pháp lý của thư điện tử trong bộ Luật Hình sự, nhưng chưa cĩ luật quy định và nghiêm cấm các hình thức gửi thư rác. Theo dự kiến, Pháp lệnh Thương mại điện tử và các dịch vụ liên quan đang được xây dựng, dự kiến sẽ trình Quốc hội phê chuẩn trong thời gian tới, trong đĩ sẽ cĩ một số điều khoản quy định về thư rác được đưa ra xem xét. 1.2.2 Các phương pháp lọc thư rác trước đây Vấn đề thư rác là vấn đề gây nhức nhối trong xã hội trong những năm gần đây. Nhiều nhà khoa học và nhiều cơng trình nghiên cứu về phương pháp lọc thư rác đã được đầu tư và tiến hành từ khá lâu. Để đánh giá hiệu quả của một cơng cụ lọc thư rác người ta thường dựa trên hai độ đo sau: o False Positive – Tỷ lệ thư thường bị lọc nhầm thành thư rác. - 17 - o False Negative – Tỷ lệ thư rác bị lọc nhầm thành thư thường. Trong hai lỗi trên thì lỗi False Positive là loại lỗi cần tránh nhất, người dùng thường khơng chấp nhận lỗi này. Các cơng cụ lọc thư rác thường được tính tốn sao cho độ đo False Positives và False Negatives là nhỏ nhất. Tuy nhiên, lỗi False Positives cĩ phần được yêu tiên hơn. Một bộ lọc lý tưởng là sản phẩn cĩ False Positives bằng 0 và False Negatives bằng 0. Điều này dường như là khơng thể. Tất cả những cơng cụ lọc cĩ giá trị ngày nay thường sử dụng một trong số những phương pháp hoặc kết hợp của các phương pháp sau: . Phương pháp lọc theo từ khĩa Phương pháp lọc thư rác theo từ khĩa là một phương pháp truyền thống trong việc lọc thư rác. Người ta dựa vào những từ hay cụm từ cĩ trong đầu đề của thư (subject) và nội dung của thư để lọc. Khi một thư mới được gửi tới hịm thư của bạn, bạn phải tạo một bộ lọc mới đơn giản bằng cách chọn một số từ hoặc cụm từ trong nội dung thư. Các từ hay cụm từ này sẽ xác định đĩ là thư rác hay khơng. Vì mục đích của tất cả spam cơ bản là giống nhau (bán hoặc quảng cáo một sản phẩm hay một dịch vụ) và nội dung của hầu hết spam đều mang các đặc điểm chung. Những cụm từ, câu chữ như “Silk ties” (Cà vạt lụa) hoặc “Eliminate debt” (Xố nợ) xuất hiện thường xuyên trên spam và được coi những cụm từ thường xuyên xuất hiện nhất trong các bức thư khơng mong muốn. Các đặc điểm nội dung khác để nhận diện spam như yêu cầu hành động như “Fin out how, click here” hoặc thơng báo huỷ như “If you want to be removed from our mailing lists…”. Một vài năm gần đây, những kẻ gửi thư rác đã bắt đầu nhận ra rằng thư rác của chúng đã bị chặn bởi bộ lọc theo từ khĩa này. Do vậy những kẻ gửi thư rác này đã thay đổi cách viết nội dung của thư rác nhằm làm cho thư rác của chúng cĩ thể “xuyên qua” các bộ lọc. Điều này cĩ thể giải thích tại sao bạn nhận nhiều thư với những từ như "Vi@gra", "Mort.gage", "L|0|a|n|$" hay những tranh ảnh được nhúng vào trong thư. Phương pháp này cĩ một số ưu điểm và nhược điểm sau: Ưu điểm: Tính thích nghi: Người dùng cĩ thể dễ dàng biến đổi bộ lọc của mình để nĩ cĩ thể lọc các kiểu thư rác mà người đĩ đang phải nhận và điều quan - 18 - trọng là nĩ khơng cản trở (thích nghi) các từ và các cụm từ được sử dụng hàng ngày trong kinh doanh thương mại với bạn bè hay những người thân quen. Nhược điểm: Yêu cầu nhiều tiến trình xử lý bằng tay để điều chỉnh và duy trì bộ lọc được hiệu quả. Để cĩ thể đánh lừa các bộ lọc, những kẻ gửi thư rác luơn luơn thay đổi hình thức nội dung của thư rác, do đĩ những bộ lọc mở rộng phải được tạo ra để chống lại điều đĩ. . Phương pháp lọc Bayesian Lọc bằng thống kê Bayesian là đánh giá xem những từ ngữ trong một email sắp được chuyển đến cĩ thường xuyên xuất hiện trên thư rác (spam) hay thư hợp pháp (ham) khơng. Một cách hiệu quả giúp lọc chính xác là người dùng thơng báo cho chương trình lọc bất kỳ thư rác nào mà đã may mắn “thốt” đợt “truy quét” đầu tiên. Lần lọc sau, chắc chắn nĩ sẽ khơng thể trốn thốt qua bộ lọc. Bộ lọc Bayesian phải được học từ những email được xác định trước là thư tốt hay thư khơng tốt. Trong suốt quá trình cho bộ lọc học, nội dung của các thư này được tách các từ tố (token) và lưu vào trong một cơ sở dữ liệu. Dựa vào cơng thức Bayes, mỗi từ tố được tính cho một giá trị phụ thuộc vào một số tiêu chuẩn sau: - Mức độ thường xuyên xuất hiện của từ tố đĩ trong thư rác - Mức độ thường xuyên xuất hiện của từ tố đĩ trong thư bình thường - Số lượng thư rác mà bộ lọc đã được học - Số lượng thư bình thường bộ lọc đã được học. Khi phân tích một thư rác đến, nội dung của thư này cũng được tách ra thành các từ tố, tra giá trị ứng với từ tố này cĩ trong cơ sở dữ liệu từ đĩ tính được xác suất tổng hợp xem thư đĩ cĩ phải là thư rác khơng. Giá trị này thường gọi là “spamicity” Ưu điểm: Yêu cầu sự duy trì ít hơn các bộ lọc khác. Bộ lọc cĩ thể tự động thích nghi với các hướng thay đổi của thư rác. Bởi vì, bộ lọc Bayesian luơn tiếp tục học từ những thư mới đến, chúng sẽ tự thích nghi dần dần với các hướng thay đổi. - 19 - Tự động điều chỉnh phù hợp với hịm thư của những người dùng riêng biệt. Thí dụ, nếu người dùng là nhân viên cho vay lãi thì những thư lặp đi lặp lại yêu cầu cho vay sẽ khơng bị xác định như là thư rác Nhược đỉểm: Bộ lọc chỉ lọc tốt đối với những kiểu thư mà chúng đã được học. Để cĩ thể đạt tới khả năng là một bộ lọc tốt, nĩ cần cĩ thời gian học khá lâu và một lượng dữ liệu thư đủ phong phú. Các thư rác mới phải thường xuyên được cập nhật. . Phương pháp lọc SpamAssassin Phương pháp lọc SpamAssassin bao gồm một tập các chương trình lọc và các luật để xác định và đánh dấu thư rác. Để xác định một thư mới đến cĩ phải là thư rác hay khơng, nĩ dùng đầu đề (header) và nội dung của thư rồi dựa trên tập các luật được xác định trước và những kí hiệu dấu câu đặc biệt (tell-tale), xem thư cĩ vi phạm các luật này khơng sau đĩ tính điểm đối với từng thư. Từ kết quả thu được, xác định được một thư là thư rác hay thư thường. Ưu điểm: Tỉ lệ lọc thư rác của phương pháp SpamAssassin rất cao Nhược điểm: Phương pháp SpamAssassin tiêu tốn khá nhiều tài nguyên (khối điều khiển trung tâm CPU, bộ nhớ, thời gian xử lý) của máy chủ, đặc biệt khi phải xử lý những email cĩ dung lượng lớn. Cấu hình để SpamAssassin hoạt động tốt, đồng thời giảm nhẹ sự tiêu tốn tài nguyên cho máy chủ là một vấn đề quan trọng. . Phương pháp dùng danh sách trắng/đen Đây là phương pháp cơ sở của các bộ lọc thư rác. Tuy nhiên, ngày nay người ta ít khi sử dụng nĩ một cách đơn lập mà được dùng kết hợp với các phương pháp lọc khác như là một phần của hệ thống bộ lọc tích hợp. Bộ lọc danh sách trắng (Whitelist filter) sẽ khơng chấp nhận những email từ bất cứ địa chỉ nào nếu khơng cĩ trong danh sách được chắc chắn là những địa chỉ email (hoặc địa chỉ IP) tốt. - 20 - Bộ lọc danh sách đen (Blacklist filter), ngược lại sẽ cho phép những thư đến từ bất cứ địa chỉ email (hoặc địa chỉ IP) nào trừ những địa chỉ được liệt kê trong danh sách được biết đến như là địa chỉ email (hoặc địa chỉ IP) xấu. Danh sách đen cĩ thể được lưu trữ và được quản lý trên những hệ thống địa phương hoặc ánh xạ thơng qua mạng Internet. Ưu điểm: Danh sách trắng bảo đảm ngăn những email từ những nguồn khơng mong muốn. Với bộ lọc thư rác sử dụng danh sách đen được cập nhật thường xuyên sẽ cho giá trị False Positives bằng 0. Nhược điểm: Bộ lọc sử dụng danh sách trắng là cách loại trừ thư rác mạnh mà khơng cĩ tính mềm mỏng. Bất cứ thư nào tới mà khơng cĩ địa chỉ trong danh sách này thì đều bị loại thành thư rác, do đĩ giá trị False Positives thường cao. Các danh sách này khơng được tạo tự động mà sẽ do người quản trị thường xuyên cập nhật. Cả Blacklist và Whitelist đều rất khĩ duy trì và phương pháp này đặc biệt trở lên khơng hiệu quả đối với những tấn cơng của những kẻ tấn cơng cố đưa địa chỉ vào Whitelist và chối bỏ địa chỉ khỏi Blacklist. Ngày nay, một hình thức ngăn chặn spam mới kế thừa và pháp trển của phương pháp Blacklist được biết đến đĩ là Realtime Blackhole List (RBL) của Multiple Address Processing System (MAPS). Nĩ cĩ thể nhận biết các máy chủ cĩ nhiều thư rác do đĩ nhà cung cấp dịch vụ cĩ thể chặn những máy chủ này và lọc spam trước khi chúng đến hộp thư khách hàng của họ. Hàng ngàn nhà cung cấp dịch vụ dùng cơ sở dữ liệu của RBL đồng thời kết hợp nhiều ứng dụng bảo mật thư điện tử trong máy chủ. . Phương pháp lọc thư rác dùng chuỗi hỏi đáp (Challenge/Response filters) Đặc trưng của phương pháp này là khả năng tự động gửi thư hồi đáp cho người gửi để yêu cầu một số hành động kiểm tra chắc chắn về việc gửi thư của họ. Chương trình kiểm tra này được đặt tên là “Turing Test” do nhà tốn học người anh tên là Alan Turing nghĩ ra. - 21 - Trong một vài năm gần đây xuất hiện của một vài dịch vụ Internet tự động xử lý hàm Challenge/Response này cho người dùng. Chương trình yêu cầu người gửi thư phải vào website của họ và trả lời một số câu hỏi đơn giản để xác minh về email mà người này đã gửi.Việc này chỉ được yêu cầu trong lần gửi thư đầu tiên. Đáp ứng hàm Challenge/Response này rất đơn giản và khơng cĩ gì khĩ khăn khi một người dùng muốn gửi thư cho một người khác nhưng nĩ khơng mấy dễ dàng cho những kẻ gửi thư rác muốn phát tán một lượng lớn thư rác đi. Ưu điểm: Đối với một số người dùng cĩ lượng thư trao đổi thấp, hệ thống đơn lẻ này cĩ thể chấp nhận được như một phương pháp hồn hảo để loại trừ hồn tồn thư rác từ hịm thư của họ. Nhược điểm: Người dùng thường cảm thấy khơng thuận tiện. Những kẻ gửi thư rác cĩ thể viết những chương trình trả lời tự động những chuỗi hỏi đáp trên. . Phương pháp lọc dựa vào vị trí của các bộ lọc (Filter Placement) Cĩ 3 mơ hình chính cho bộ lọc được sắp đặt: a. Bộ lọc tích hợp với máy trạm email của người dùng: Nhiều bộ lọc thư rác được tích hợp với các máy trạm email chẳng hạn như Outlook hoặc outlool Exprees. Ưu điểm: Tối thiểu sự ảnh hưởng đối với những thĩi quen đọc thư thơng thường của người dùng. Thư rác thường bị di chuyển tới một thư mục “Junk Mail”. Người dùng cĩ thể xem lại hoặc xĩa spam lưu trong thư mục này đi một cách dễ dàng. Nhược điểm: Người dùng chỉ cĩ thể sử dụng với máy trạm của email hiện tại của mình. Khơng mềm dẻo: thường đưa cho người dùng giới hạn để chọn những cảnh báo. Thí dụ, khi người dùng đang chạy Microsoft Outlook với một bộ lọc thư rác tích hợp, bất cứ khi nào một thư rác tới, người dùng vẫn bị cảnh bảo một thư mới tới. Người dùng phải vào chương trình Outlook để - 22 - xác nhận xem thư mới đến đĩ là thư rác và khơng phải là một email quan trọng. Người dùng khơng thể điều chỉnh để tạo một cảnh báo khác cĩ thể nghe thấy giữa những email tốt và xấu hoặc chỉ cảnh báo những email tốt khi những email được gửi tới hịm thư trước khi chúng hoạt đơng chống lại bởi bộ lọc và di chuyển tới một thư mục riêng biệt. b. Các bộ lọc hoạt động như là một “proxy” giữa máy chủ email và máy trạm email của người dùng Bộ lọc này chạy bên trong máy của người dùng, định kì thăm dị máy chủ email, lấy ra những email của người dùng và nĩ được lọc trên máy chủ email trước khi những email này được gửi tới máy trạm email bình thường của người dùng và được lọc một lần nữa. Ưu điểm: Dễ thay đổi: Các thư trước khi được gửi tới người dùng nĩ cĩ thể đánh dấu, di chuyển hoặc xĩa bởi máy chủ email trước khi chúng được nhìn thấy bởi máy trạm email của người dùng. Bảo mật: chúng tương ứng như một tầng khác ở giữa Internet và máy trạm email của người dùng. Chúng sẽ khơng chạy bất cứ một ứng dụng nào hay chạy một tập lệnh nào đĩ được tìm thấy trong thư. Nhược điểm: Sử dụng hiệu quả phương pháp này địi hỏi tắt chế độ tự động kiểm tra trên máy trạn email của người dùng vì thế proxy phải thay đổi để làm việc trên máy chủ đầu tiên. Thơng tin tài khoản email cần được cài đặt trong bộ lọc cũng như trong máy trạm email của người dùng. c. Bộ lọc dựa trên máy chủ Những bộ lọc này thường chỉ được sử dụng trong một nhĩm hoặc mơi trường làm việc kinh doanh hơn là ở trong gia đình. Tất cả email đến đều thơng qua máy chủ trung tâm. Tại máy chủ trung tâm này, email được lọc bởi bộ lọc dựa trên máy chủ và những người dùng riêng biệt nhận thư của họ trên màn hình nền của máy họ lấy từ máy chủ trung tâm. Ưu điểm: - 23 - Việc quản lý trung tâm của tất cả các luật lọc thư bảo đảm tính an tồn trong mạng. Những người dùng riêng biệt khơng phải chịu trách nhiệm cũng như khơng phải lo lắng đến sự quản lý thư rác, giải phĩng họ để họ cĩ thể yên tâm trong cơng việc với trao đổi thư điện tử. Nhược điểm: Thường yêu cầu nhiều tới sự duy trì và cầm cĩ một người quản trị mạng cĩ khả năng và kinh nghiệm để quản lý bộ lọc thư rác này. Thường đắt hơn. . Phương pháp lọc dựa trên xác nhận danh tính của người gửi Giả mạo thư điện tử - là việc giả mạo địa chỉ thư điện tử của một cơng ty hoặc của một người khác để khiến người sử dụng tin tưởng và mở thư - đang là một trong những thử thách lớn nhất mà cộng đồng sử dụng Internet và các kỹ thuật viên chống thư rác hiện đang phải đối mặt. Nếu khơng cĩ sự thẩm định quyền, xác nhận và khả năng truy tìm danh tính của người gửi, các hãng cung cấp dịch vụ thư điện tử khơng bao giờ cĩ thể biết chắc một bức thư là hợp pháp hay bị giả mạo. Do đĩ việc xác nhận danh tính của người gửi là rất cần thiết. Để xác nhận danh tính của người gửi người ta đưa ra một số giải pháp sau: a. Phương pháp DomainKeys Phương pháp DomainKeys cĩ thể giúp phân định rõ thư rác và thư thường bằng cách cung cấp cho các hãng cung cấp dịch vụ thư điện tử một cơ chế xác nhận cả tên miền của mỗi người gửi thư điện tử và sự liêm chính của mỗi bức thư được gửi đi (ví dụ như các thư này khơng bị thay thế trong khi được truyền qua mạng). Và, sau khi đã xác nhận được tên miền, người ta cĩ thể so sánh tên miền này với tên miền mà người gửi sử dụng trong ơ “Người gửi” của bức thư để phát hiện các trường hợp giả mạo. Nếu đây là trường hợp giả mạo, thư đĩ sẽ bị coi là thư rác hoặc gian lận, và cĩ thể bị loại bỏ mà khơng ảnh hưởng tới người sử dụng. Nếu đây khơng phải là thư giả mạo, cĩ nghĩa là tên miền được biết đến và tên miền gửi thư đĩ cĩ thể được được đưa vào danh sách những tên miền đáng tin cậy và được đưa vào các hệ thống quy định chống thư rác được sử dụng chung giữa các hãng cung cấp dịch vụ và thậm chí đưa ra cho cả người sử dụng. b. Phương pháp Call-ID - 24 - Caller ID là một tiêu chuẩn đặt ra trong quá trình gửi thư. Tiêu chuẩn này địi hỏi người gửi thư điện tử phải cung cấp địa chỉ IP của máy chủ gửi thư theo dạng XML vào bản ghi DNS trên máy chủ tên miền của họ. Máy chủ nhận thư điện tử và máy khách nhận bức thư đĩ sẽ kiểm tra địa chỉ gửi thư trong tiêu đề bức thư với địa chỉ đã được cơng bố để xác nhận máy chủ gửi thư. Các bức thư khơng khớp với địa chỉ nguồn sẽ bị loại bỏ. DNS là hệ thống diễn dịch các địa chỉ IP số sang các tên miền Internet cĩ thể đọc được. c. Phương pháp SPF (Sender Policy Framework) - dựa trên cơ cấu chính sách người gửi Chuẩn SPF cũng yêu cầu người gửi thư điện tử phải sửa đổi DNS để cho biết máy chủ nào cĩ thể gửi thư từ một tên miền Internet nhất định. Tuy nhiên, SPF chỉ kiểm tra sự giả mạo khi bức thư trong quá trình chuyển thư hay cịn gọi là ở mức “ngồi phong bì”, xác minh địa chỉ “phản hồi” của một bức thư, thường được máy chủ nhận thư gửi trở lại trước khi tiếp nhận phần nội dung thư, sau đĩ sẽ thơng báo tới máy chủ nhận thư để loại bỏ bức thư. Trong đặc tả kỹ thuật kết hợp hai tiêu chuẩn, các cơng ty gửi thư điện tử sẽ cơng bố địa chỉ máy chủ thư điện tử của họ trong bản ghi DNS dưới định dạng Ngơn ngữ đánh dấu mở rộng (XML). Các cơng ty sẽ cĩ thể kiểm tra sự giả mạo ở mức phong bì (cũng giống như trong đề xuất SPF) và trong phần nội dung thư (theo đề xuất của Microsoft). Kỹ thuật này sẽ cho phép các cơng ty sử dụng cách thức của SPF để loại bỏ thư rác trước khi chúng được gửi đi, nếu sự giả mạo bị phát hiện ngay ở mức phong bì. Với những bức thư địi hỏi sự kiểm tra kỹ hơn trong nội dung thư, thì phương pháp Caller ID sẽ được sử dụng. Đề xuất này cũng sẽ hỗ trợ các tên miền đã cĩ sẵn những bản ghi SPF là văn bản, khơng theo định dạng XML. . Phương pháp lọc thư rác mới dựa trên mạng Xã hội Các nghiên cứu gần đây đã bắt đầu khai thác thơng tin từ mạng xã hội cho việc xác định thư rác bằng cách xây dựng một đồ thị (các đỉnh là địa chỉ email, cung được thêm vào giữa 2 node A và B nếu giữa A và B cĩ sự trao đổi thư qua lại). P.O. Boykin và V. Roychowdhury đã sử dụng một số tính chất đặc trưng của mạng xã hội để xây dựng một cơng cụ lọc thư rác [6]. Đầu tiên, người ta phân đồ thị thành các thành phần con rồi tính độ phân cụm cho từng thành phần này. Mỗi thành phần con là một đồ thị mạng xã hội của một node, - 25 - bao gồm tất cả các node hàng xĩm (các node xung quanh cĩ cung liên kết với node này) và những cung liên kết giữa các node hàng xĩm này với nhau. Nếu thành phần nào cĩ độ phân cụm thấp thì node tương ứng với thành phần đĩ là một địa chỉ gửi thư rác. Trong thành phần mạng xã hội của những node gửi thư rác, những node hàng xĩm của nĩ thường là những node rất ngẫu nhiên, khơng cĩ mối quan hệ (khơng cĩ sự trao đổi email qua lại với nhau) nên độ phân cụm của mạng xã hội của những node này rất thấp. Ngược lại, mạng xã hội ứng với những người dùng bình thường các node hàng xĩm của nĩ cĩ mối liên kết cao với nhau nên cĩ độ phân cụm cao hơn. Dựa vào độ phân cụm, người ta tạo được danh sách đen (Blacklist) gồm địa chỉ email tương ứng với những node cĩ độ phân cụm rất thấp, danh sách trắng (Whitelist) ứng với node cĩ độ phân cụm cao, số node cịn lại sẽ được đưa vào danh sách cần xem xét (Greylist). Phương pháp này cĩ thể phân loại được 53% tổng số email một cách chính xác là ham hay spam. Nhược điểm của phương pháp là những spammer cĩ thể xây dựng mạng xã hội của chính họ nên khĩ cĩ thể phát hiện ra. Cho đến nay, một bộ lọc thư rác được xem là hồn hảo vẫn chưa được tạo ra, và việc tạo ra một bộ lọc thư rác hồn hảo cho mọi thời đại dường như là thể khơng thể. Bởi, cuộc chiến khơng ngừng giữa những tên gửi thư rác và những bộ lọc làm cho siêu bộ lọc thư rác của hơm nay cĩ thể trở thành cái lỗi thời của ngày mai. Bộ lọc thư rác mạnh nhất sẽ là bộ lọc sử dụng kết hợp nhiều bộ lọc khác, hoặc tất cả các thuộc tính đã liệu kê ở trên đây. - 26 - Chương 2 KIẾN THỨC CƠ SỞ Bản chất của việc lọc thư rác dựa trên phương pháp mạng xã hội là việc áp dụng các tính chất của đồ thị của mạng, cấu trúc của mạng để tính được độ phân cụm của các thành phần của của các node mạng, từ đĩ cĩ thể đánh giá được thành phần ứng với node nào là th0ư rác. Chương này trình bày một cách cơ sở và về nguồn gốc cấu trúc của các mạng liên quan, là cơ sở khoa học của phương pháp lọc thư rác sẽ được đưa ra ở phần sau. 2.1 Mạng phức hợp (Complex Networks) Trong một vài năm gần đây người ta đã bắt đầu nhận thấy được tầm quan trọng của mạng phức hợp (Complex Networks) trong nhiều lĩnh vực trong khoa học cũng như trong đời sống của xã hội hiện đại. Việc nghiên cứu về mạng phức hợp cũng được khuyến khích và đã cĩ rất nhiều nhà khoa học, nhà nghiên cứu trên thế giới quan tâm và tìm hiểu về mạng phức hợp. Theo biểu đồ thống kê (Hình 2.1) cho thấy số lượng bài báo nghiên cứu về mạng phức hợp đã gia tăng một cách đột biến trong những năm gần đây [16]. Hình 2.1 : Biểu đồ số lượng bài báo nghiên cứu về mạng phức hợp - 27 - Mạng phức hợp là một tập các hệ thống được tạo bởi các yếu tố đồng nhất hoặc khơng đồng nhất kết nối với nhau thơng qua sự tương tác khác nhau giữa các yếu tố này và được trải ra trên diện rộng. Chúng cĩ mặt ở khắp nơi trong tự nhiên và trong xã hội. Trong thực tế, cĩ rất nhiều hệ thống trong tự nhiên cĩ thể miêu tả thơng qua các mơ hình của mạng phức hợp. Đĩ là những hệ thống cĩ cấu trúc gồm các node (hay các đỉnh) gắn với nhau thành một mạng bởi các liên kết (hoặc các cung). Thí dụ như: mạng Internet là mạng của các router hoặc các domain (Hình 2.2); mạng World Wide Web (WWW) là mạng của những trang web (Hình 2.3); bộ não chính là mạng của các nơron thần kinh (Hình 2.4); một tổ chức là mạng của những thành viên trong tổ chức; nền kinh tế tồn cầu là mạng của kinh tế của các nước thành phần, nền kinh tế mỗi nước lại là một mạng các thị trường, mỗi thị trường lại là một mạng tương tác giữa những sản phẩm hàng hĩa và người tiêu thụ; Web thức ăn (Food Web) (Hình 2.5) và những đường trao đổi chất cũng cĩ thể biểu diễn bởi một mạng (Hình 2.6); mạng của các chất hĩa học (liên kết với nhau bởi các phản ứng hĩa học); mạng ngơn ngữ (thí dụ như mạng đồng âm khác nghĩa, mạng đồng nghĩa); các mạng lưới điện cao thế (Electrical Power Grid); các chủ đề của một buổi nĩi chuyện và thậm chí việc vạch kế hoạch cho xử lý một vẫn đề tốn học nào đĩ cũng cĩ thể mơ hình bằng một mạng.... Hình 2.2 Mạng Internet Hình 2.3 Mạng World Wide Work Hình 2.4 Mạng Nơron Hình 2.5 Mạng Food web - 28 - Nếu quan sát bằng trực quan ta cĩ thể thấy chúng được thường xuất hiện một cách hỗn loạn, mang tính chất phức tạp cố hữu (cấu trúc rắc rối, tính đa dạng trong liên kết). Hình 2.6 Mạng trao đổi chất Mạng phức hợp được ứng dụng rất nhiều trong tự nhiên cũng như trong khoa học và cơng nghệ. Chính vì vậy, việc tìm hiểu về mạng này và tìm ra cấu trúc phù hợp để trên cơ sở đĩ xây dựng được một hệ thống mạnh, hiệu quả nhưng đơn giản là rất cần thiết. Liên qua đến vấn đề này, nhiều câu hỏi đã được đặt ra như: tại sao bệnh tật lại cĩ thể lan truyền thơng qua cấu trúc của mạng xã hội hay thế nào là một kiến trúc phù hợp và thuận tiện cho một tổ chức chuyên biệt... Những vấn đề đặt ra này chính là những vấn đề bức thiết trong cuộc sống địi hỏi câu trả lời và các giải pháp thích hợp. Hơn một thế kỉ qua, mơ hình các hệ thống vật lý cũng như là các hệ thống phi vật lý và các quy trình được tiến hành với giả định rằng các kiểu tương tác giữa các thành phần riêng lẻ của hệ thống và các quy trình đĩ cĩ thể nhúng được vào một cấu trúc thơng thường và phổ biến như lưới Ơ-clít (Euclidean lattice). Vào cuối những năm 1950, hai nhà tốn học Erdưs and Rényi (ER) đã tạo ra một bước ngoặt mang ý nghĩa đột phá về lý thuyết đồ thị trong thuật tốn cổ điển. Hai ơng đã mơ phỏng được một mơ hình mạng với cấu trúc hình học phức tạp bằng đồ thị ngẫu nhiên (Random Graph) [12]. Cơng trình nghiên cứu này khơng chỉ cĩ ý nghĩa đặt nền mĩng cho lý thuyết về mạng ngẫu nhiên (Random Networks) mà nĩ cịn mở ra cho nhiều phát minh và nghiên cứu sau này. Trong 40 năm tiếp theo và thậm chí cho tới tận ngày nay, mơ hình ER của hai ơng vẫn cịn mang ý nghĩa sâu sắc và được ứng dụng trong nhiều lĩnh vực của khoa học và đời sống. Mặc dù, bằng quan sát thực tế ta cĩ thể thấy rõ nhiều mạng phức hợp trong cuộc sống thực (real-life complex networks) - 29 - khơng hồn tồn đã là mạng thơng thường (Regular Networks) cũng khơng hồn tồn là một mạng ngẫu nhiên nhưng mơ hình đồ thị ngẫu nhiên ER vẫn là một hướng tiếp cận khá nhạy cảm và thể hiện sự nhìn xa trơng rộng của tác giả mà cho đến tận nửa thập kỉ gần đây vẫn tạo được ảnh hưởng sâu sắc đến những nghiên cứu về mạng phức hợp của các nhà khoa học. Trong một vài năm gần đây, hầu hết dữ liệu đã được đưa vào xử lý bằng máy tính và đạt được tốc độ tính tốn cao. Hơn nữa, các siêu máy tính cịn cĩ khả năng xử lý lượng dữ liệu khổng lồ được biểu diễn bởi nhiều cấu trúc hình học phức tạp của mạng thực. Do đĩ, việc đáp ứng sự truy cập của cộng đồng đến lượng dữ liệu lớn đĩ đã thơi thúc những sự quan tâm đặc biệt vào việc cố gắng tìm ra những đặc điểm chung của các loại mạng phức hợp khác nhau. Với sự cố gắng đĩ, người ta đã khám phá ra hai thuộc tính cĩ ý nghĩa quan trọng của hầu hết các mạng phức hợp đĩ là hiệu ứng thế giới nhỏ (small-world effect) và đặc trưng co dãn tự do (scale-free feature). Năm 1998, nhằm mơ tả sự chuyển tiếp từ đồ thị mạng thường sang đồ thị mạng ngẫu nhiên, hai nhà khoa học Watts và Strogatz (WS) đã đưa ra khái niệm về mạng small-world [36]. Trong cuộc sống đời thường chúng ta cũng cĩ thể bắt gặp hiện tượng small-world này rất nhiều, chẳng hạn ngay sau khi gặp một người lạ mặt rồi cả hai cùng bất ngờ nhận ra rằng giữa họ cĩ mối quan hệ rất gần gũi và cả hai cùng thốt lên “Thế giới này thật nhỏ bé!”. Một hiện tượng khác cũng khá thú vị của biểu hiện small-worlds được nhà tâm lý học xã hội Milgran đề cập tới vào cuối những năm 1960 gọi là nguyên tắc “sáu mức ngăn cách” (six degree of separation)[21]. Mặc dù, nguyên tắc này đã để lại rất nhiều tranh luận sau này, nhưng người ta thấy rằng kiểu biểu hiện của small-world xuất hiện trong hầu hết các mạng thực. Một đặc điểm phổ biến và đặc trưng cho đồ thị ngẫu nhiên ER và mơ hình small-world WS là sự phân bố các kết nối giữa các node trong mạng đạt giá trị cực đại tại giá trị trung bình và giảm theo hàm mũ. Những mạng như vậy cịn được gọi là mạng hàm mũ (Exponential networks) hay mạng đồng nhất (Homogeneous networks) bởi vì các node trong mạng cĩ số liên kết đến như nhau. Một khám phá gần đây cũng ý nghĩa quan trọng lĩnh vực mạng phức hợp đĩ là nhiều mạng phức hợp co dãn trên diện rộng (large-scale) là mạng co dãn tự do (scale-free). Kiểu mạng này cĩ phân bố các liên kết trong mạng tuân theo hàm lũy thừa và khơng phục thuộc vào độ lớn của mạng [4,5]. Khơng giống với các mạng hàm mũ, mạng scale-free khơng đồng nhất trong tự nhiên: hầu hết các node trong mạng cĩ một vài liên kết và cá biệt cĩ một số node cĩ rất nhiều liên kết trỏ tới. - 30 - Sự phát hiện hai đặc tính small-world và scale-free của mạng phức hợp chính là “chìa khĩa” cho sự phát triển của lý thuyết về mạng phức hợp sau này. Để đánh giá một mạng phức hợp nào đĩ người ta thường dùng ba độ đo: độ dài đường dẫn trung bình (Average Path Length), độ phân cụm (Clustering Coefficient), độ phân bố bậc (Degree Distribution). 2.1.1 Độ dài đường dẫn trung bình Trong một mạng, gọi ijd là khoảng cách giữa hai node được gắn nhãn lần lượt là i và j. Khi đĩ, ijd được định nghĩa là số các cung dọc theo đường dẫn ngắn nhất nối giữa node i và j. Từ đĩ, đường kính D của một mạng được định nghĩa là khoảng cách lớn nhất trong số tất cả các khoảng cách của bất kì hai node nào trong mạng. Độ dài đường dẫn trung bình L của mạng là trung bình khoảng cách của tất cả các cặp node trong tồn mạng. Trong trường hợp này, độ dài đường dẫn trung bình L của một mạng xác định độ lớn hiệu quả của mạng và khoảng cách giữa các cặp node trong mạng đĩ. Trong mạng của những người bạn (Friendship networks) (Hình 2.7), L là trung bình của số người bạn tồn tại trong chuỗi liên kết ngắn nhất giữa hai người bất kì trong mạng. Bằng thực nghiệm người ta đã chứng minh được rằng độ dài đường dẫn trung bình của hầu hết các mạng phức hợp thực khá nhỏ, thậm chí ngay cả trong trường hợp số cung liên kết của nĩ ít hơn so với mạng cặp đơi đầy đủ với cùng số node như nhau. Hiện tượng này đã nảy sinh hiệu ứng small-world và do đĩ cái tên mạng small-world (Small-world Networks) được ra đời. Hình 2.7 Đồ thị mạng những người bạn - 31 - 2.1.2 Độ phân cụm Trong mạng những người bạn (Hình 2.7), khả năng "bạn của bạn của bạn cũng là bạn trực tiếp của bạn" hay nĩi cách khác, xác suất "hai người bạn của một người trở thành bạn của nhau" là rất cao. Đặc tính này nĩi lên độ phân cụm của một mạng. Một cách chính xác hơn, độ phân cụm C của một mạng là trung bình của các phân số ứng với từng node i cĩ tử là số liên kết của node i với các node xung quanh và mẫu là số liên kết của các cặp node hàng xĩm (neighbors) của node i với nhau. Giả sử, node i trong mạng cĩ ki cung và chúng liên kết với ki node khác. Các node khác này chính là những node hàng xĩm của node i. Như vậy, rõ ràng số luợng cung nhiều nhất cĩ thể tồn tại giữa các node hàng xĩm của i là 2/)1( +ii kk và điều này chỉ xảy ra khi mọi node trong tập các node hàng xĩm này đều cĩ cung liên kết với các node khác trong tập node hàng xĩm trên của i. Khi đĩ, độ phân cụm của node i được định nghĩa là tỉ lệ giữa số cung Ei tồn tại thực sự giữa ki node hàng xĩm của i và tổng số cung cĩ thể 2/)1( +ii kk , cơng thức độ phân cụm ứng với từng node i )1( *2 −= ii i i kk EC (2.1) Độ phân cụm C của tồn mạng là trung bình độ phân cụm Ei của các node i. Từ cơng thức độ phân cụm trung bình của C ở trên ta cĩ thể thấy 10 ≤≤ C , C=1 nếu và chỉ nếu mạng đĩ là mạng cặp đơi đầy đủ hay nĩi cách khác tất cả các node trong mạng đều cĩ cung nối với mọi node cịn lại trong mạng, Ci = 0 trong trường hợp Ei = 0 hay giữa các node hàng xĩm của i khơng cĩ liên hệ với nhau. Đối với mạng ngẫu nhiên hồn tồn gồm N node thì khi đĩ độ phân cụm NC /1~ , độ phân cụm này khá nhỏ so với độ phân cụm của hầu hết các mạng thực. Bằng thực nghiệm người ta đã chứng minh được rằng độ phân cụm của các mạng thực large-scale cĩ độ phân cụm lớn hơn nhiều so với )/1( NO . Do vậy, hầu hết mạng phức hợp thực khơng phải là mạng ngẫu nhiên hồn tồn. Vì vậy, chúng khơng nên bị coi như là mạng ngẫu nhiên hồn tồn (Completely random networks) hay mạng lưới cặp đơi đầy đủ (Fully coupled lattices). 2.1.3 Độ phân bố bậc Thuộc tính quan trọng nhất của một node đơn lẻ là bậc của nĩ. Bậc ki của một node i thơng thường được định nghĩa là tổng số liên kết của nĩ. Do vậy, nếu một node cĩ bậc càng lớn thì node ấy lại càng quan trọng trong mạng, cĩ ý nghĩa quyết định cho - 32 - tính chất của mạng. Trung bình các bậc ki của tất cả các node i gọi là bậc trung bình của mạng và được kí hiệu là . Sự phân bố bậc của các node trong mạng được mơ tả bởi hàm phân phối P(k), hàm này cho biết xác suất của một node được chọn ngẫu nhiên cĩ chính xác k cung liên kết (cĩ bậc là k). Một mạng lưới thơng thường (Regular lattice) cĩ bậc trung bình đơn giản bởi vì tất cả các node đều cĩ số các cung liên kết bằng nhau và do đĩ, khi vẽ đồ thị độ phân bố nĩ là một đường thẳng dốc (theo phân bố delta). Trong giới hạn của mạng ngẫu nhiên hồn tồn, bậc của các node trong mạng tuân theo phân phối Poisson và đồ thị của phân phối Poisson này tuân theo hàm mũ, và giá trị cực đại đạt tại giá trị trung bình . Trong một vài năm gần đây, nhiều kết quả dựa trên kinh nghiệm đã chứng minh rằng hầu hết các mạng thực large-scale cĩ độ phân phối khơng tuân theo hàm phân phối Poisson. Một cách cá biệt, đối với một số mạng độ phân bố cĩ thể thể hiện hiệu quả hơn bởi hàm lũy thừa (power-law) P(k)~k-γ. Đặc tính small-world và scale-free là phổ biến đối với nhiều mạng phức hợp thực. Bảng 1 liệt kê một số mạng với các đại lượng đo về chúng. Mạng Cỡ Độ phân cụm Trung bình đường dẫn Độ phân bố Internet, domain level [34] 32711 0.24 3.56 2.1 Internet, router level [34] 228298 0.03 9.51 2.1 WWW [3] 153127 0.11 3.1 γin= 2.1 γout=2.45 Email [11] 56969 0.03 4.95 1.81 Software [33] 1376 0.06 6.39 2.5 Electronic circuits [7] 329 0.34 3.17 2.5 Language [8] 460902 0.437 2.67 2.7 Movie actors [36,4] 225226 0.79 3.65 2.3 - 33 - Math, co- authorship [26] 70975 0.59 9.50 2.5 Food web [23,37] 154 0.15 3.40 1.13 Metabolic system [18] 778 - 3.2 γin= γout= 2.2 Bảng 1 Kiểu small-world và thuộc tính scale-free của một vài mạng thực. Mỗi mạng cĩ số node là N, độ phân cụm C, độ dài đường dẫn trung bình L và số mũ γ của phân phối mũ. Mạng WWW và mạng trao đổi chất được thể hiện bằng đồ thị cĩ hướng. 2.2 Các mơ hình của mạng phức hợp Để hiểu được cấu trúc của một mạng phức hợp đầu tiên ta cần phải hiểu được một số tính chất cơ sở của một mạng chẳng hạn như độ dài đường dẫn trung bình L, độ phân cụm C và độ phân phối P(k). Bước tiếp theo, phát triển mơ hình thuật tốn với cấu trúc hình học của các thuộc tính tĩnh tương tự. Từ đĩ, cĩ được cơ sở để sự phân tích các thuật tốn là cĩ thể. Phần dưới đây trình bày một số mơ hình đặc trưng của mạng phức hợp. 2.2.1 Mạng cặp thơng thường (Regular coupled networks) Bằng quan sát thực tế ta cĩ thể thấy, mạng cặp đơi đầu đủ (mạng mà các node đều cĩ liên kết với tất cả các node khác trong mạng) cĩ độ dài trung bình nhỏ nhất và cĩ độ phân cụm lớn nhất. Mạng cặp đơi đầy đủ này cũng mang tính chất small-world và large-clustering của nhiều mạng thực nhưng ta cĩ thể dễ nhận thấy giới hạn của nĩ: một mạng cặp tồn bộ cĩ N node thì sẽ cĩ N(N-1)/2 cung, trong khi hầu hết hầu hết các cung liên kết của các mạng thực large-scale xuất hiện một cách rải rác, đĩ là các mạng thực khơng đầy đủ các liên kết. Sau khi nghiên cứu về mạng này, người ta thấy rằng mơ hình mạng thơng thường là mạng của các cặp đơi của những node xung quanh gần nhất gọi là một lưới (lattice). Lattice là đồ thị thơng thường trong đĩ mọi node được nối lại với nhau bởi một vài các node xung quanh nĩ. Thuật ngữ “lattice” ở đây cĩ thể đề cập tới một lưới hình vuơng hai chiều (Hình 2.8) nhưng cĩ thể cĩ rất nhiều dạng hình học khác nhau. Một lưới lattice tối thiểu là một cấu trúc đơn giản một chiều giống như một hàng người đứng bắt tay nhau. Một lưới lattice của những node xung quanh gần nhất với đường biên xung quanh của N node được xếp thành vịng trịn, mỗi node i được xếp liền kề với các node hàng xĩm của nĩ i=1, 2,..., k/2 vĩi k là số nguyên chẵn. Nếu với k - 34 - đủ lớn, mạng cĩ độ phân cụm cao, khi đĩ độ phân cụm của mạng cặp đơi những hàng xĩm gần nhất xấp xỉ C=3/4. Hình 2.8 Mơ hình lưới Lattice Mạng cặp đơi những hàng xĩm gần nhất khơng phải là mạng small-world, chiều dài trung bình của nĩ khá lớn và tiến tới vơ cùng N → ∞. Điều này lý giải vì sao khĩ dùng mơ hình mạng này để hồn tất bất kì tiến trình động nào (chẳng hạn, quá trình đồng bộ hĩa). Tuy nhiên, đối với mạng thơng thường thì các node của nĩ cũng tồn tại rải rác và bị phân cụm nhưng nĩ lại cĩ độ dài đường dẫn trung bình khá nhỏ. Một ví dụ đơn giản về mạng phân cặp hình sao trong đĩ cĩ một node trung tâm và và N-1 node khác được nối trực tiếp với node trung tâm này nhưng giữa N-1 node này khơng cĩ liên kết với nhau. Đối với loại mơ hình mạng kiểu này, độ dài đường dẫn trung bình tiến tới 2 và độ phân cụm tiến tới 1 khi N → ∞. Mơ hình mạng hình sao cũng mang tính chất rải rác, phân cụm, small-world và một số thuộc tính khác của nhiều mạng thực. Chính vì vậy, theo hướng này thì mơ hình mạng hình sao tốt hơn là các lưới lattice thơng thường và nhiều mạng thực nổi tiếng khác. Nhưng rõ ràng hầu hết các mạng thực khơng cĩ dạng hình sao chuẩn. 2.2.2 Đồ thị ngẫu nhiên (Random Graphs) Đối lập với hình ảnh cuối cùng của một mạng thơng thường ở trên là một mạng với đồ thị ngẫu nhiên hồn tồn. Mạng đồ thị ngẫu nhiên này được Erdưs và Rényi (ER) nghiên cứu và phát minh ra cách đây 40 năm [12]. - 35 - Giả thiết rằng bạn cĩ một số N rất lớn (N >> 1) các nút đặt rải rác trên sàn nhà. Bạn buộc hai nút bất kì với xác suất p thành các cặp nút bằng một sợi dây. Khi đĩ, tổng số cung là pN(N-1)/2 (Hình 2.9). Mục tiêu chính của lý thuyết đồ thị ngẫu nhiên là để các định tại liên kết nào xác suất p của một thuộc tính cụ thể của đồ thị sẽ xuất hiện gần như là nhiều nhất. Một điều khá đặc biệt đĩ là các tính chất chính và quan trọng của các đồ thị ngẫu nhiên cĩ thể xuất hiện khá đột ngột. Ví dụ, nếu bạn nâng một nút lên liệu sẽ cĩ bao nhiêu nút bị nâng theo? ER chỉ ra rằng nếu xác suất p lớn hơn một ngưỡng pc nào đĩ pc~(lnN)/N thì hầu hết mọi node trong đồ thị ngẫu nhiên là được kết nối, điều này cĩ nghĩa là bạn sẽ nhặt tất cả các nút bằng cách nâng một nút lên. Hình 2.9 Sự phát triển của một đồ thị ngẫu nhiên: khởi tạo 10 node trong(a), nối các cặp node với xác suất p=0.1 trong (b), p= 0.15 trong (c) và p= 0.25 trong (d). Bậc trung bình của một đồ thị ngẫu nhiên là pNNpk ≅−>=< )1( . Gọi Lrand là độ dài đường dẫn trung bình của mạng ngẫu nhiên. Bằng quan sát ta cĩ thể thấy sẽ cĩ randLk >< các node trong mạng ngẫu nhiên cĩ khoảng cách Lrand hoặc rất gần với nĩ. Do vậy, randLkN >< kNLrand /ln~ . Sự gia tăng của hàm - 36 - loga trong độ dài đường dẫn trung bình với độ lớn của mạng là một ảnh hưởng phổ biến của small-world. Bởi vì lnN tăng chậm so với N, nĩ cho phép chiều dài trung bình phải khá nhỏ thậm chí ngay cả trong một mạng khá lớn. Mặt khác, trong mạng ngẫu nhiên hồn tồn (ví dụ mạng của những người bạn thân) xác suất mà hai người bất kì của bạn là bạn của nhau khơng lớn hơn xác suất hai người được trọn ngẫu nhiên trong mạng của bạn là bạn của nhau. Vì thế, độ phân cụm của mơ hình ER là 1/ =<= NkpC . Điều này cĩ nghĩa là mạng ngẫu nhiên trên diện rộng nĩi chung là khơng bị phân cụm. Trong thực tế, với N lớn thuật tốn ER sinh ra một mạng đồng nhất cĩ các liên kết tuân theo phân phối Poisson (Hình 2.10). Hình 2.10 Phân bố Poisson Hình 2.11 Phân bố hàm lũy thừa 2.2.3 Các mơ hình Small-world Như đã đề cập ở trên, những mạng lưới (lattice) thơng thường bị phân cụm nhưng nhìn chung nĩ khơng thừa kế đặc tính small-world. Mặt khác, đồ thị ngẫu nhiên cĩ tính chất small-world nhưng lại khơng bị phân cụm. Chính vì thế, cả mơ hình lưới thơng thường và mơ hình ngẫu nhiên ER đều khơng thỏa mãn trong việc xây dựng lại một số thuộc tính quan trọng của của nhiều mạng thực. Xét một cách tổng quát, hầu hết những mạng thế giới thực cũng khơng hồn tồn thơng thường, cũng khơng hồn tồn ngẫu nhiên. Sự thật là mọi người thường biết những hàng xĩm của họ nhưng cái “vịng trịn” của những người quen của họ cĩ thể bị hạn chế đối với những người sống bên cạnh phía bên phải giống như mơ hình lưới lattice được đề cập ở trên. Bên cạnh đĩ, những tình huống giống như những liên kết giữa các trang web trong mạng World Wide Web cũng khơng được tạo bởi mơ hình ngẫu nhiên hay tiến trình ER như mong đợi. - 37 - Nhằm mục đích miêu tả sự chuyển đổi từ lưới lattice thơng thường sang một đồ thị ngẫu nhiên, Watts và Strogatz [36] đã đưa ra mơ hình mạng được gọi là mạng small-world. Mơ hình WS được sinh ra giống như Hình 2.12. Hình 2.12 Trong mạng những người bạn thân thơng thường (a), mọi người là bạn chỉ với 4 người hàng xĩm gần nhất. Trong mạng small- world (b), trung bình một người biết 4 người khác nhưng những người này cĩ thể khơng phải là những người gần nhất. Trong mạng ngẫu nhiên (c), trung bình mỗi người vẫn biết 4 người khác nhưng 4 người này ở vị trí rải rác Thuật tốn của mơ hình WS Small-world. Khởi đầu theo thứ tự: Bắt đầu với mạng phân cặp nearest- neighbor bao gồm N node được sắp vào một vịng trịn, các node i sắp kề sát các node hàng xĩm của nĩ, i=1,2,3,...,K/2 với K là số nguyên chẵn Ngẫu nhiên hĩa các liên kết: Nối các cặp đỉnh một cách ngẫu nhiên bằng một cung với xác suất p, thay đổi giá trị của p trong khoảng từ p=0 đến p=1 để cĩ kết quả giám sát tỉ mỉ. Việc nối các đỉnh ở trong nội dung trên cĩ nghĩa là làm thay đổi một đầu cuối của liên kết tới một node được chọn một cách ngẫu nhiên từ cả mạng với ràng buộc bất kì hai node khác nhau khơng thể cĩ hơn một liên kết giữa chúng và khơng cĩ node nào liên kết với chính nĩ. Tiến trình này tạo ra pNK/2 các cung cĩ sắp xếp dài, các cung này liên kết tất cả các node với nhau và nĩ cũng cĩ thể là một phần của những node hàng xĩm khác. Đối với hệ số phân cụm C(p) và độ dài đường dẫn trung bình L(p) - 38 - trong mơ hình WS cĩ thể được xem như một hàm cho việc nối các đỉnh với xác suất p. Một lưới lattice trịn thơng thường (p=0) cĩ độ phân cụm cao ( 4/3)0( ≅C ) nhưng nĩ cĩ độ dài đường dẫn trung bình dài ( 1)0( 2 >>≅ KNL ) (Hình 2.11). Người ta đã chứng minh rằng, đối với một mạng cĩ xác suất liên kết p nhỏ khi mà các thuộc tính cục bộ của mạng vẫ gần giống với những thuộc tính của mạng thơng thường nguyên thủy, và khi độ phân cụm khơng lớn hơn nhiều so với giá trị khởi tạo của nĩ ( )0(~)( CpC ) thì độ dài đường dẫn trung bình giảm nhanh chĩng giống như trong các mạng ngẫu nhiên( )0()( LpL >> ) (Hình 2.13). Đây là một kết quả nghiên cứu thực nghiệm trong tự nhiên. Một mặt cĩ thể tạo một vài liên kết ngẫu nhiên để giảm đáng kể độ dài đường dẫn trung bình. Mặt khác, một vài kết nối đã được tạo ra thì khơng thể thay đổi thuộc tính phân cụm địa phương của mạng. Hình 2.13 Độ dài đường dẫn trung bình và độ phân cụm của mơ hình WS small-world Mơ hình small-world cũng cĩ thể được xem như mạng đồng nhất trong đĩ tất cả các node cĩ số cung xấp xỉ bằng nhau. Với sự tơn kính tác giả, mơ hình WS small- world được tạo ra giống với mơ hình đồ thị ngẫu nhiên ER. Những cơng trình nghiên cứu trên mạng small-world WS đã mở ra những nghiên cúu trên những mơ hình mới của mạng phức hợp, bao gồm một số sự biến đổi của mơ hình WS. Một sự biến đổi phổ biến đã được đề xuất bởi Newman và Watts [24] được biết đến như là mơ hình NW small-world. Trong mơ hình NW, khơng thể phá vỡ được liên kết giữa hai node hàng xĩm gần nhất nhưng thay vì đĩ cĩ thể thêm với xác suất p một liên kết p nối giữa các cặp node. Tương tự như trên, trong mơ hình này khơng cho phép một node kết cặp với một node khác hơn một lần và khơng kết cặp với chính nĩ. Với p=0, mơ - 39 - hình NW giảm so với mạng kết cặp nearest-neighbor và nếu p=1 nĩ trở thành mạng cặp đơi đầy đủ. Mơ hình NW cĩ phần dễ hơn trong phân tích so với mơ hình WS nguyên thủy bởi vì nĩ điều khiển sự tạo thành của các cụm biệt lập, ngược lại điều này lại cĩ thể xảy ra thực sự trong mơ hình WS. Với p đủ nhỏ và N đủ lớn, mơ hình NW về cơ bản là tương đương với mơ hình WS. Ngày nay, hai mơ hình này cùng nhau là mơ hình nguyên thủy của mơ hình small-world một cách phổ biến. Mơ hình Small-world đĩng vai trị chủ chốt trong các mạng xã hội, nơi mà hầu hết mọi người đều là bạn bè với những người hàng xĩm ngay bên cạnh, ví dụ những người hàng xĩm trên cùng một con phố hoặc những người bạn đồng nghiệp trong cùng một văn phịng. Mặt khác, nhiều người cĩ những người bạn cách xa về khoảng cách chẳng hạn những người bạn ở các nước khác nhau sẽ được biểu diễn bởi những cung rất dài được nối trong mơ hình WS hoặc bởi kết nối thêm vào như trong mơ hình NW. 2.2.4 Các mơ hình Scale-free Một đặc trưng phổ biến của đồ thị ngẫu nhiên ER và mơ hình WS small-world đĩ là sự phân bố liên kết của mạng đồng nhất, đạt giá trị cực đại tại giá trị trung bình và giảm nhanh theo hàm mũ. Các mạng như vậy gọi là mạng hàm mũ (exponentially networks). Một khám phá cĩ ý nghĩa gần đây trong lĩnh vực mạng phức hợp là một số các mạng large-scale bao gồm Internet, WWW và mạng trao đổi chất cĩ tính chất scale-free và phân bố liên kết cĩ dạng hàm lũy thừa (Hình 2.11). Để giải thích nguồn gốc của độ phân bố hàm mũ, Barabási và Albert (BA) đã đưa ra một mơ hình mạng khác [4,5]. Họ đã tranh cãi là nhiều mơ hình mạng hiện nay khơng thể cĩ đầy đủ cả hai thuộc tính quan trọng nhất của hầu hết các mạng thực. Thứ nhất, các mạng thực là mở (cĩ thể mở rộng) và chúng được tạo thành động bằng cách thêm tiếp các node mới vào mạng nhưng các node khác (các node đã tồn tại trong mạng) là tĩnh trong khi tất cả các cung cĩ thể được thêm vào hay sắp xếp lại. Số các node là cố định trong suốt quá trình định hình tiến trình. Thí dụ, WWW vẫn tiếp tục tạo ra những trang web mới. Thứ hai, cả đồ thị ngẫu nhiên và mơ hình small-world đều cĩ xác suất khơng thay đổi khi tạo ra những cung mới nhưng điều này lại khơng đúng trong thực tế. Bằng quan sát ta cĩ thể thấy những trang web cĩ rất nhiều liên kết (chẳng hạn trang chủ của Yahoo hoặc CNN) rất cĩ khả năng nĩ sẽ cĩ nhiều trong liên kết đến nữa. Điều này cái gọi là hiện tượng “rich-get-richer”. - 40 - Mơ hình BA đưa ra giả thuyết là hai vấn đề chính của việc xây dựng một mạng mang cấu trúc scale-free đĩ là việc phát triển và ưu tiên gắn kèm. Giả thuyết này đã được chứng minh bằng thực tế bởi hầu hết các mạng tiếp tục phát triển bằng cách thêm các node mới và các node mới được ưu tiên gắn với các node đã tồn tại với một số lớn các kết nối (hiện tượng “rich-get-richer). Tiến trình tạo ra một mơ hình BA được tiến hành theo: Thuật tốn mơ hình BA Scale-Free 1. Khởi tạo: Bắt đầu với một lượng nhỏ mo các node. Lặp lại qua trình tạo các node: một node mới được thêm vào và nĩ được liên kết với 0mm ≤ các node đã tồn tại 2. Sự gắn thêm ưu tiên: Xác suất ∏i mà 1 node mới sẽ được kết nối với node i (một trong số m node đang tồn tại) phụ thuộc vào cấp ki của node i, hay ∏ ∑=i j ji kk / Sau t lần các bước, kết quả của thuật tốn này trong một mạng với N= t+ mo node và mt cung (Hình 2.14). Phát triển theo 2 luật này, mạng phát triển thành trạng thái scale-invariant (rộng bất biến): Hình của độ phân bố khơng thay đổi trong khoảng thời gian cụ thể và khơng thay đổi theo sự gia tăng của sự co giãn mạng. Độ phân cụm tương ứng được thể hiện bởi hàm lũy thừa với số mũ 3, đĩ là xác suất tìm một node cĩ k cung là cĩ tỉ lệ với k-3. Những kết quả bằng số đã xác định rằng, trong sự so sánh với một đồ thị ngẫu nhiên cĩ cùng cỡ và cùng bậc trung bình, đường dẫn của mơ hình scale-free cĩ phần nhỏ hơn và độ phân cụm lại cao hơn. Điều này khẳng định sự tồn tại của một vài node mới bậc rất cao (ví dụ, với số lượng liên kết rất lớn) đĩng vai trị “chìa khĩa” trong việc mang các node khác nhau trong mạng đến gần nhau hơn. Mặc dù, cho tới ngày nay chưa cĩ một cơng thức tính độ dài trung bình của đường dẫn cho mơ hình scale- free. Mơ hình BA là mơ hình nhỏ nhất sử dụng kĩ thuật đáp ứng cho độ phân bố lũy thừa. Mơ hình này cĩ một số giới hạn rõ ràng khi so sánh với một số mạng thế giới thực. Sự theo dõi này cĩ ảnh hưởng trong việc nghiên cứu và phát triển mạng, với mục đích khắc phục những giới hạn trong mơ hình BA. Một sự tổng kết của mơ hình này đã được Albert và Barabási [2] đưa ra. - 41 - Hình 2.14 Một mạng scale-free gồm 130 node được tạo ra theo mơ hình BA scale-free. Năm node lớn nhất cĩ màu đỏ, chúng kết nối với 60% các node khác cĩ màu xanh 2.3 Mạng xã hội (Social Networks) Như đã trình bày ở phần trên, mạng xã hội chính là một ví dụ cụ thể của mạng phức hợp. Nĩ là thành phần khá lớn và quan trọng trong mạng phức hợp. Một cách cụ thể, mạng xã hội là mạng của một nhĩm người hoạt động (actors) và các mối quan hệ gắn kết họ với nhau. Những người hoạt động cĩ thể là những cá nhân hoặc là tập thể (các đơn vị như các phịng ban, các tổ chức, các gia đình...). Những người này trao đổi tài nguyên với nhau và chính điều này đã gắn kết họ lại với nhau trong một mạng xã hội. Tài nguyên ở đây bao gồm dữ liệu, thơng tin, sản phẩm và các dịch vụ, hỗ trợ xã hội hoặc hỗ trợ tài chính. Mỗi loại tài nguyên trao đổi được xem như một mỗi liên kết của mạng xã hội và những cá nhân duy trì mối liên hệ này được tương ứng với việc duy trì một nút (tie). Sức bền của nút này được sắp xếp từ yếu đến mạnh phụ thuộc vào số lượng và các kiểu của nguồn tài nguyên họ trao đổi, mức độ thường xuyên trao đổi và sự thân mật trong quá trình trao đổi giữa họ. Các mối quan hệ trao đổi thường được tiến hành trong một số lượng dân số lựa chọn nhất định. Những nhà phân tích trong lĩnh vực mạng dựa vào các quan hệ giữa các thành viên của một cộng đồng, các hàng xĩm, một nhĩm hoặc một lớp để hiểu cách các mạng xác định dân số hay các nhĩm nhỏ bên trong một mạng lớn. Cách - 42 - mà một người kết nối với một người khác thể hiện cấu trúc nền tảng của mạng, bao gồm những người thuộc và khơng thuộc vào một mạng và các kiểu trao đổi nào để xác định một mạng. Mạng này được duy trì bởi sự trao đổi của các tài nguyên đơn lẻ hay rất nhiều tài nguyên lớn tương ứng với các nút mạnh hay yếu. Ví dụ, các nhà phân tích cĩ thể dị tìm sự trao đổi thơng tin về cơng việc của những người quen biết nhưng khơng mấy thân thiện, mối quan hệ trong dịng tộc hoặc mối quan hệ giữa những người cơng nhân. Các mạng xã hội được lần dấu bởi những sự chuyển đổi này chỉ ra cách các nguồn tài nguyên di chuyển trong một mạng, cách mà các actors xác định vị trí để tác động tới nguồn tài nguyên trao đổi và các kiểu của tài nguyên trao đổi rất quan trọng trong những mơi trường khác nhau. Hình 2.15 Mơ hình mạng xã hội Vấn đề nghiên cứu cấu trúc của mạng xã hội đã gây được sự chú ý và quan tâm sâu sắc của các nhà nghiên cứu trong nhiều năm qua. Đầu tiên là thí nghiệm của Stanley Milgram (1967). Milgram đã bị cuốn hút vào việc khám phá ra độ dài đường dẫn giữa mọi người trong một mạng xã hội trên diện rộng. Mặc dù thí nghiệm của ơng đã khơng tồn diện và đầy đủ song giả thuyết của ơng đường kính của các mạng xã hội là nhỏ vẫn cịn cĩ giá trị. Trên thực tế, người ta đã tìm hiểu được nhiều mạng xã hội thỏa mãn giả thuyết đường kính nhỏ của Milgram, bao gồm các mạng cộng tác khoa học (Newman [26]) và đồ thị các cuộc gọi điện thoại... - 43 - Sự quan tâm nghiên cứu về mạng xã hội của các nhà khoa học được thể hiện thơng qua những phát minh khoa học về mạng xã hội trong nhiều thập kỉ qua. nĩ được mơ hình và phân tích bằng các cơng cụ lý thuyết đồ thị. Qua những nghiên cứu này, người ta đã chứng mình được mạng xã hội thực cĩ xu hướng cĩ cấu trúc của mạng bất ngẫu nhiên (non-random) ngồi ra nĩ cịn mang hai tính chất nổi bật và quan trọng nhất của mạng phức hợp đĩ là thuộc tính small-world và thuộc tính độ phân phối theo hàm lũy thừa của mạng scale-free (Albert & Barabasi [2], Strogatz [32]). 2.4 Mạng thư điện tử (Email Networks) Mạng thư điện tử là một loại trong mạng xã hội. Nĩ là mạng của những người trao đổi thư với nhau. Trong đĩ, mỗi node của mạng thư điện tử là một địa chỉ email của những người dùng khác nhau và nếu hai người dùng bất kì cĩ sự trao đổi thư với nhau thì sẽ cĩ một cung liên kết nối giữa hai node là địa chỉ tương ứng của hai người dùng này. Mơ hình mạng thư điện tử đầu tiên được biết đến là mơ hình mạng thư điện tử của H. Ebel, L.-I. Mielsch và S. Bornholdt [11]. Họ đã chỉ ra được rằng mạng trao đổi thư điện tử là mạng cĩ hướng và nĩ mang cả hai thuộc tính của mạng small-world và mạng scale-free. 2.4.1 Mạng thư điện tử scale-free. Mạng thư điện tử dùng để nghiên cứu của H. Ebel, L.-I. Mielsch và S. Bornholdt được tạo ra từ log files của một máy chủ email tại trường đại học Keil, log files này ghi lại địa chỉ gửi và địa chỉ nhận của mọi thư điện tử từ hoặc tới một tài khoản của các sinh viên trong khoảng thời gian 112 ngày. Hình 2.16 Sự phân bố bậc k của các node trong mạng thư điện tử Mạng bao gồm N=59812 node (bao gồm 5156 tài khoản của sinh viên) với giá trị bậc trung bình của các node là =2.88 và gồm một vài cụm cĩ ít hơn 150 node và một - 44 - thành phần lớn nhất cĩ 56969 node (bậc trung bình =2.96). Sự phân phối bậc của các node tuân theo hàm lũy thừa 81.1)( −∝ kkn với giới hạn số mũ (Hình 2.16). Ví dụ của mạng thư điện tử ở trên giới hạn trong một máy chủ email riêng biệt. Vì thế, bậc của những người dùng của máy chủ email này được nhận biết một cách chính xác. Ở đây, những người dùng bên trong tương ứng với những địa chỉ email của các sinh viên. Các node bên ngồi chính là những node tương ứng với địa chỉ email khác cĩ mối quan hệ với những node bên trong là địa chỉ email của các sinh viên này. H. Ebel, L.-I. Mielsch và S. Bornholdt đã chỉ giải quyết độ phân cụm đối với các các node bên trong (Hình 2.17) và nhận thấy rằng nĩ cĩ thể được xấp xỉ bởi hàm lũy thừa 32.1int )( −∝ kkn cũng như là giá trị bậc trung bình =14.86. Bậc của các node bên ngồi thơng thường bị đánh giá thấp, số mũ này nhỏ hơn so với tồn mạng. Chính vì vậy, cĩ nhiều node cĩ bậc nhỏ trong sự phân bố của tồn mạng (Hình 2.16) từ đĩ trong sự phân cụm giới hạn với các node bên ngồi (Hình 2.17). Chú ý rằng ngưỡng của cả các độ phân phối là giống nhau. Vì thế, các địa chỉ gửi hầu hết là các node bên trong (ví dụ thư quảng cáo hay thư rác) khơng được xem là bậc tĩnh. Hình 2.17 Sự phân bố bậc k của các node ứng với địa chỉ email của các sinh viên bên trong máy chủ email 2.4.2 Tính chất Small-world của mạng thư điện tử. Bên cạnh tính chất scale-free, mạng thư điện tử cịn mang tính chất của mạng “small-world” [36]. Ví dụ, đối với hai node hàng xĩm của cùng một node nào đĩ thì xác suất mà hai node hàng xĩm này cĩ liên kết với nhau là rất cao và tồn tại đường dẫn trung bình rất nhỏ l của một đường dẫn ngắn nhất giữa hai node. Để đánh giá sự phân - 45 - cụm của mỗi mạng người ta dùng độ phân cụm C tương ứng với mỗi mạng này. Độ phân cụm C được định nghĩa như sau: Độ phân cụm vC của node v được đưa ra bằng tỉ lệ tồn tại các liên kết vE giữa vk hàng xĩm đầu tiên của nĩ và tổng số các cung cĩ thể )1(21 −vv kk . Bằng việc tính trung bình các vC của tất cả các node trong mạng cho ta độ phân cụm của mạng. vvv v vv kk ECC )1( 2 −=>=< (2.2) Một định nghĩa đơn giản khác cho độ phân cụm: triplesofnumber triplesconnectedfullyofnumberC __ )____(3×=∆ (2.3) Trong đĩ, number_of_fully_connected_triples là tổng số các bộ ba node cĩ liên kết cặp đầy đủ với nhau (cĩ ba cung liên kết giữa ba node đĩ), cịn number_of_triples là tổng số bộ ba node mà khơng đầy đủ các liên kết (chỉ cĩ hai liên kết giữa ba node đĩ). Nhìn vào cơng thức (2.2) và (2.3) ta cĩ thể thấy hai cơng thức này là khơng tương đương. Cơng thức (2.2) cĩ ý nghĩa định tính (vật lý) cịn cơng thức (2.3) mang ý nghĩa định lượng. Khi tính tốn độ phân cụm của một mạng người ta thường tìm hiểu xem nĩ cĩ chịu ảnh hưởng bởi độ lớn của mạng khơng. Với dữ liệu tiến hành thực nghiệm ta khơng thể bao quát hết được các liên kết của các node bên ngồi với nhau hay nĩi cách khác mối liên kết giữa các node bên ngồi nĩi chung là khơng xác định được. Áp dụng định nghĩa (2.2) và (2.3) đối với mạng ví dụ ở trên người ta tính được độ phân cụm của mạng 21044.3 −×=C và 31015.3 −∆ ×=C . So sánh giá trị này với độ phân cụm của mạng mạng ngẫu nhiên cĩ xác suất nối giữa hai node là p khơng đổi khi đĩ độ phân cụm của mạng ngẫu nhiên là pCrand = . Cả hai giá trị C và ∆C đều lớn hơn độ phân cụm trong một mạng ngẫu nhiên thực sự cĩ cùng độ lớn (cùng số node) 51082.4 −×=randC . Giá trị của phân số tính độ phân cụm phân bố bởi phần của các node bên trong thì nhỏ hơn phần của các node bên ngồi bởi vì mạng ví dụ khơng bao quát hết được những liên kết giữa các node bên ngồi mà những node bên ngồi thì lại chiếm đa phần các node hàng xĩm của các node bên trong. Vì vậy, hầu hết các node bên ngồi cĩ một lượng lớn các node bên trong là các node hàng xĩm của nĩ và các node bên ngồi này kết nối với các node bên ngồi khác một cách thưa thớt. Theo định - 46 - nghĩa tính hệ số phân cụm (2.2) và (2.3) thì ∆C nhỏ hơn C thậm chí nĩ cịn nhỏ hơn 2' 1087.1 −×=C là hệ số phân cụm của mạng cĩ cỡ xác định với cùng sự phân bố cấp độ nhưng được gán các liên kết một cách ngẫu nhiên [9]. Theo tính tốn với mạng thư điện tử ví dụ này, giá trị đường dẫn trung bình ngắn nhất trong thành phần lớn nhất của mạng được xác định là bằng 03.095.4 ±=l với thuật tốn Diskstra [31]. Nĩ lớn hơn độ dài đường dẫn trong một mạng cĩ độ phân phối bậc của các node là như nhau 43.3' =l [9]. Nĩ vẫn nhỏ hơn độ dài đường dẫn của mạng ngẫu nhiên 10.10=randl (là mạng mà tất cả các cặp của các node được kết nối với nhau bằng độ lớn xác suất khơng đổi theo cùng bậc trung bình [9,27]) Điều này cĩ thể giải thích là vì trong mạng thư điện tử cĩ một số node cĩ số lượng các liên kết lớn (hubs) thể hiện tính của mạng scale-free. 2.4.3 Mạng thư điện tử là mạng cĩ hướng Mạng thư điện tử cĩ thể được nghiên cứu như một đồ thị cĩ hướng. Trong mỗi một thư điện tử ta cĩ thể xác định được người gửi và người nhận. Do đĩ, đường liên kết của hai node cĩ hướng trỏ từ người gửi đến người nhận. Tuy nhiên, ta cũng cĩ thể coi mạng thư điện tử như là một đồ thị khơng cĩ hướng được đề cập trong nội dung phân tích sự lan truyền của virus được trình bày ở dưới đây. Điều này cũng cĩ vẻ hợp lý bởi bởi vì việc nhận thư và việc gửi thư được điều khiển bởi những tiến trình khác nhau. Hình 2.18 Phân phối in-degree đối với mạng thư điện tử - 47 - Khi xem xét mạng thư điện tử là mạng cĩ hướng, ta cĩ thể xác định chính xác số liên kết node đĩ với các node bên trong và số liên kết của các node đĩ với các node bên ngồi. Do đĩ một lần nữa, việc tính tốn độ phân phối bậc đối với của tất cả các node xung quanh và chỉ các node xung quanh ở bên trong lại được đặt ra. Độ phân phối bậc chỉ tính riêng đối với các node hàng xĩm bên trong máy chủ email của một node (in-degree) rất giống với độ phân phối bậc tính cho tất cả các node và tính cho các node bên ngồi (Hình 2.18). Chúng đều cĩ thể xấp xỉ bằng hàm lũy thừa 49.1)( −∝ iin . Theo giả thuyết về sự phát triển trong mơ hình mạng của Huberman và Adamic [1,17] cĩ thể giải thích vì sao ta cĩ thể chọn số mũ cho hàm phân phối mũ của in-degree nhận giá trị khoảng -1.5 như trên. Họ đề xuất rằng số các liên kết một node nhận tại một thời điểm là một phân số ngẫu nhiên của các liên kết nĩ vừa được nhận. Đối với các out-degree thì sự phân bố phức tạp hơn. Trong tồn mạng, sự phân bố của các out-degree j tuân theo sự phân bố bậc của mạng scale-free 03.2)( −∝ jjn (Hình 2.19). Mặc dù sự phân phối tương ứng cho các node bên trong là trải rộng nhưng khơng thể hiện tính chất scale-free như sự phân phối đối với các node bên ngồi. Nguyên nhân của hiện tượng này là do việc giới hạn cỡ của mạng ví dụ nhưng cũng cĩ thể chỉ ra các lỗi cĩ hệ thống gây ra do khả năng các sinh viên sử dụng nhưng account khác (bên ngồi) cho việc gửi email. Độ co dãn của số mũ out-degree của tất cả các mạng nằm trong khoảng khá rộng cho vấn đề truyền thơng và các mạng xã hội ví dụ như mạng của các ngơi sao điện ảnh hoặc mạng điện thoại. Hình 2.19 Phân phối out-degree đối với mạng thư điện tử - 48 - 2.4.4 Sự lan rộng của virus trong mạng thư điện tử Hiện tượng lan truyền virus thơng qua mạng thư điện tử là một hiện tượng khá phổ biến trong xã hội ngày nay. Mơt virus thư điện tử hay một con sâu thư điện tử là một chương trình được đính kèm với một thư điện tử. Khi người nhận mở thư điện tử cĩ chứa sâu thì chương trình email của người nhận sẽ bị điều khiển để gửi lại một số các email nhiễm virus tới các địa chỉ email được tìm thấy trong sổ địa chỉ của người nhận (address book) hoặc trong những email được lưu trữ trong thư mục inbox trong hịm thư của người nhận. Các virus thư điện tử theo cách này sẽ được nhân lên một cách nhanh chĩng, do vậy mạng thư điện tử sẽ là vơ hướng. Cách lan rộng của các virus theo hình thức này khác với chuỗi thư điện tử (chain email). Đối với chuỗi thư điện tử, trước khi chuyển tiếp chuỗi thư điện tử tới người khác người nhận sẽ bị hỏi cĩ đồng ý chuyển khơng, nếu đồng ý thì mới chuyển tiếp chuổi thư điện tử tới địa chỉ khác, nếu khơng đồng ý thì chuỗi thư điện tử sẽ khơng được chuyển tiếp. Đối với thư virus, người dùng khơng hề biết việc thư virus này bị gửi tới tất cả những người cĩ trong sổ địa chỉ của mình. Virus thư điện tử cĩ thể là nguyên nhân dẫn đến nhiều sự phá hoại mạng máy tính một cách nghiêm trọng bằng việc pháp hủy dữ liệu trong các máy tính nhiễm virus hoặc gây quá tải trên máy chủ email và một số thiết bị khác. Trong tháng 5 năm 2000, sâu email “I love you” nhiễm tới 500.000 hệ thống riêng rộng và làm tẵc nghẽn 20% số máy ở Đức. Trong các mạng scale-free, ngưỡng cho tỉ lệ lan truyền thư virus thấp hơn nhiều so với việc lan truyền thư virus trong các mạng được khám phá ra trước đây và thậm trí triệt tiêu. Điều này cĩ nghĩa là các cấu trúc tự tổ chức của mạng thư điện tử làm cho việc lan rộng của các virus máy tính cũng như là của bất cứ thơng tin nào khác trở nên dễ dàng. Thêm vào đĩ, trong mạng thư điện tử ta rất hay gặp trường hợp các node ngẫu nhiên trong mạng khơng hoạt động như mong đợi (failures). Ví dụ, một số người tham gia khơng trả lời thư điện tử hoặc máy của người nhận cĩ cài chương trình ngăn virus. Kết luận trên của mạng thư điện tử đã gợi ý ra những ứng dụng hữu dụng và cĩ lợi nhưng đồng thời cũng chỉ ra cái nguy hiểm mang tính cố hữu của mạng thư điện tử. Sự bảo mật trong quá trình liên lạc bằng thư điện tử cĩ thể phát triển theo hướng xác định ra địa chỉ trung tâm của các node cĩ lượng liên kết cao và theo dõi chúng để tìm ra địa chỉ lan truyền virus một cách kĩ lưỡng hơn. - 49 - Như vây, mạng thư điện tử là một mạng mà các node được chỉ ra bằng các địa chỉ email và các liên kết bởi sự chuyển đổi giữa các thư điện tử được thừa kế cả hai thuộc tính scale-free và small-world. Mạng thư điện tử cĩ thể được xem như là một mạng khơng cĩ hướng hoặc cĩ hướng. 2.4.5 Mạng thư điện tử khi bị spam tấn cơng Mạng thư điện tử thơng thường (khơng bị tấn cơng bởi các spam) mang các đặc trưng scale-free và small-world, nĩ khơng mang tính chất của mạng ngẫu nhiên như đã trình bày ở trên. Khi mạng bị tấn cơng bởi các spam thì cấu trúc của mạng sẽ thay đổi như thế nào? Khơng giống như kiểu lan truyền của virus trong mạng thư điện tử là bị gửi một cách tự động cho tất cả những người cĩ trong danh sách địa chỉ hoặc những người được lưu trong thư mục Inbox, spam do một tổ chức gửi với một số lượng lớn tới những đia chỉ người dùng rất ngẫu nhiên. Thơng thường các tổ chức gửi thư rác này cĩ một chương trình để tìm địa chỉ thư điện tử của người dùng rồi dùng những địa chỉ tìm ra đĩ để gửi thư rác do đĩ những người bị gửi thư rác này thường khơng cĩ mối quan hệ thân thích gì với nhau. Khi đĩ, trong mạng thư điện tử bị tấn cơng bởi spam địa chỉ gửi spam trở thành một node rất đặc biệt. Nĩ gửi đi một lượng thư lớn tới rất nhiều người ngẫu nhiên (những người khơng cĩ mối quan hệ gì với nhau) và nĩ hầu như khơng nhận thư phản hồi từ người khác. Như vậy, mạng thư điện tử bị tấn cơng bởi spam là một mạng thư điện tử nhưng cĩ thêm một số node đặc biệt của những địa chỉ gửi thư rác. Như vậy, mạng thư điện tử bị tấn cơng bởi vẫn mang đặc trưng ban đầu của nĩ đĩ là hai đặc trưng của mạng scale-free và small-world. Ngồi ra, do bị ảnh hưởng của những node là địa chỉ gửi spam, mạng mang thêm tính chất của mạng ngẫu nhiên. Tĩm lại, trong mạng thư điện tử, các node thơng thường cĩ quan hệ thư qua lại với các node hàng xĩm của nĩ trong mạng và giữa các node hàng xĩm của node này cũng cĩ quan hệ qua lại thư với nhau cịn những node tương ứng với những địa chỉ gửi spam gửi thư rất nhiều mà khơng nhận thư của ai và giữa các node hàng xĩm của node gửi spam này thường ngẫu nhiên và khơng cĩ mối quan hệ với nhau. Đây chính một đặc điểm khác nhau giữa các node thơng thường và các node gửi thư rác. Những đặc điểm khác biệt của các node gửi spam là cơ sở cho phương pháp lọc thư rác bằng bằng đồ thị thư điện tử mà sẽ được trình bày trong chương 3. - 50 - Chương 3 ỨNG DỤNG MẠNG THƯ ĐIỆN TỬ TRONG LỌC THƯ RÁC Phương pháp lọc thư rác được sử dụng phổ biến trong hầu hết các máy chủ email hiện nay đĩ là phương pháp dựa trên việc thiết lập các quy tắc SpamAssassin và phương pháp thống kê Bayesian. Tuy vậy, các phương pháp này thường chiếm một lượng tài nguyên lớn của máy chủ khi thực hiện quá trình xác minh các thư điện tử gửi đến là thư rác và thư thường, đặc biệt là đối với những máy chủ cĩ nhiều người dùng và lượng thư điện tử trao đổi là lớn. Chương này trình bày một phương pháp lọc thư rác khá hiệu quả và cĩ thể giảm tải việc tính tốn cho máy chủ email rất nhiều. Đĩ là phương pháp lọc thư rác dựa trên việc tính độ phân cụm của mạng thư điện tử. Đây là một hướng tiếp cận mới và đang được các nhà khoa học trên thế giới quan tâm phát triển. 3.1 Yêu cầu của bài tốn đặt ra Cuộc chiến tranh giữa những kẻ gửi thư rác và các bộ lọc thư rác dường như khơng thể chấm dứt. Những người phát triển phần mềm lọc thư rác thì cố gắng tìm hiểu một đặc điểm riêng nào đĩ của thư rác và dựa trên những đặc điểm này để lọc thư rác. Nhưng những kẻ phát tán thư rác (spammers) thích nghi rất nhanh với các biện pháp ngăn ngừa thư rác, chỉ một thời gian khơng lâu sau những kẻ gửi thư rác này lại tìm ra được cách khắc phục những đặc điểm đĩ. Như vậy, nĩ sẽ trở thành vịng trịn luẩn quẩn. Một bộ lọc tốt phải là một bộ lọc kết hợp được các phương pháp lọc để các phương pháp này cĩ thể phát huy thế mạnh của mình và khắc phục những nhược điểm của các phương pháp khác. Xu hướng của một cơng cụ lọc thư rác hiệu quả phải đảm bảo một số yêu cầu tối thiểu như: Bộ lọc cĩ thể lọc được nhiều loại thư rác với độ chính xác cao. Tự động cập nhập thêm danh sách các spam mới mà khơng cần cĩ sự can thiệp của con người. - 51 - Tự động thiết đặt các quy tắc lọc thư rác cho phù hợp đối với từng người dùng hoặc từng tổ chức. 3.2 Đề xuất phương pháp Với những yêu cầu đặt ra như trên, chương này trình bày phương pháp mới cĩ sử dụng các tính chất của mạng thư điện tử để xây dựng cơng cụ lọc thư rác. Đây là phương pháp sử dụng lý thuyết đồ thị tự động trong việc xác định mạng ứng mỗi người dùng. Một người dùng thư điện tử tương tự như đang sử dụng mạng thư điện tử của anh ta. Mạng này gồm một node tương ứng với anh ta và những node được nhận thư từ anh ta cũng như những node mà anh ta gửi thư đến. Mạng cĩ hướng, với những thư điện anh ta nhận từ người khác thì sẽ cĩ cung hướng từ những người đĩ tới anh ta, cịn những thư điện tử mà anh ta gửi đi tương ững với những cung hướng từ anh ta đến người đĩ. Số lượng trao đổi thư giữa hai node bất kì trong mạng chính là trọng số của cung nối giữa hai người đĩ. Ta ký hiệu đồ thị mạng thư điện tử là G = (E, V), trong đĩ E là tập các đỉnh (địa chỉ người dùng) và V là tập các cung nối các cặp đỉnh trong đồ thị. Một cách phổ biến [6,11,24,25,29], các tác giả thường dùng cách đánh chỉ số cho các đỉnh của đồ thị, vì vậy E là tập các số tự nhiên khơng vượt quá N, với N là số địa chỉ người dùng trong mạng điện tử. Tính chất quan trọng trưng quan trọng cho mạng xã hội (nĩi chung) và mạng thư điện tử nĩi riêng là scale-free và small-world. Theo [11], độ đo scale-free được tính theo số cung gắn với các đỉnh trong đồ thị, mang ý nghĩa về phân bố cung đối với các đỉnh trong đồ thị. Thơng thường, số cung gắn với các đỉnh khác nhau là khác nhau. Độ đo scale-free của mạng thường chịu ảnh hưởng nhiều bởi các đỉnh với số lượng lớn các cung liên kết đến. Theo [24], độ đo small-world thể hiện độ dài liên kết giữa các đỉnh trong đồ thị. Độ đo này được tính tương ứng với chiều dài trung bình của đường dẫn ngắn nhất giữa hai đỉnh bất kì. P.O. Boykin và V. Roychowdhury [6] xuất phát theo hướng tiếp cận dựa theo header cĩ trong Inblox của mỗi người dùng. Các tác giả mơ hình hĩa sự trao đổi thư điện tử của tập người dùng, một mạng thư điện tử, như một mạng social network. Dựa theo ý nghĩa của hai độ đo đặc trưng trên đây, cơng thức sau đây để tính độ phân cụm của đỉnh thứ i trong mạng thư điện tử được đề xuất: )1( *2 −= ii i i kk E C (3.1) - 52 - Trong đĩ, Ci là độ phân cụm của đỉnh i, ki số đỉnh kết nối với đỉnh i, Ei là số lượng cung nối giữa các đỉnh láng giềng của i. Tuy nhiên, để tính độ phân cụm cho các đỉnh trong mạng thư điện tử cơng thức này cĩ một vài hạn chế. Thứ nhất, nĩ đã bỏ qua tất cả các đỉnh cĩ k = 1. Thứ hai và là quan trọng hơn, kết quả tính tốn khơng cho phép phân biệt được các đỉnh tuy cĩ cùng giá trị E = 0 nhưng cĩ giá trị k khác nhau (C = 0 khi E = 0). Để khắc phục những nhược điểm trên, cơng thức để tính tốn độ phân cụm C được thay đổi như sau: 1)1( )1(*2 +− += ii i i kk E C (3.2) Tuy nhiên, nhằm hướng tới mục tiêu tính tốn độ tin cậy của người dùng, cơng thức trên vẫn chưa thực sự thuyết phục. Thơng thường thì những người nhận được nhiều thư là những người cĩ độ tin cậy cao. Nếu sử dụng cơng thức (3.2) để tính thì vẫn khơng phân biệt được trường hợp một người gửi thư cho nhiều người khác và trường hợp một người nhận thư từ nhiều người khác. Vì vậy, cần phải xem xét đồ thị thư điện tử trên phương diện cĩ hướng và cĩ trọng số do đĩ đề xuất cơng thức tính độ phân cụm mới như sau: i ii i i RSS E C *2.0 1)1( )1(*2 ++− += (3.3) Trong đĩ, Ei là số cung nối giữa các node xung quanh node i, Si là số node mà cĩ một cung từ node i đến các node này (số node mà được node i gửi thư đến), Ri là số node mà cĩ cung từ các node này đến i (số node gửi thư cho node i). Cơng thức đảm bảo nếu một người gửi thư cho nhiều node lân cận mà những node lân cận này cĩ mối quan hệ với nhau thì độ phân cụm cao và nếu người này được nhận thư từ các node lân cận khác nữa thì độ phân cụm của người đĩ càng lớn. Đối với những spam thường khơng nhận thư nên Ri = 0. Trong một khoảng thời gian dài, người dùng thường trao đổi qua lại nhiều thư với nhau. Số lượng thư trao đổi càng nhiều càng đánh giá mức độ thân quen của họ. Để cĩ một cái nhìn khái quát, em đưa trọng số cung vào để tính tốn độ phân cụm. Trọng số cung w của mỗi cung là số lượng thư được trao đổi giữa hai node người dùng. Cơng thức mới cho các đại lượng Ei, Si, Ri - 53 - ∑ = −+= Edge j ji wE 1 )05.0*)1(1( (3.4) ∑ = −+= Send j ji wS 1 )05.0*)1(1( (3.5) ∑ = −+= cieve j ji wR Re 1 )05.0*)1(1( (3.6) Trọng số cung chỉ cĩ ý nghĩa khẳng định thêm mức độ quan hệ giữa hai node với nhau. Vì thế, chúng tơi chỉ dùng hệ số 0.05 để tạo ra sự chênh lệch khơng quá lớn. Cơng thức độ phân cụm mà đưa ra ở trên thể hiện được cả hai thuộc tính scale-free và small-world.của mạng xã hội. Số hạng thứ nhất của cơng thức (3.3) thể hiện cho tích chất small-world cịn số hạng thứ hai của cơng thức (3.3) thể hiện cho tính chất scale-free. 3.3 Đặc điểm của phương pháp Phương pháp này cĩ một số ưu điểm sau: Anti-spam phát triển theo hướng khơng phụ thuộc vào nội dung: Phương pháp mà chúng tơi đưa ra khắc phục được nhược điểm của hướng tiếp cận nội dung đĩ là khơng can thiệp vào nội dung thư của người dùng. Hơn thế nữa, bộ lọc cĩ thể áp dụng cho bất cứ loại ngơn ngữ của nước nào hoặc với những thư cĩ kiểu đặc biệt (như chèn hình ảnh, âm thanh, website…) mà khơng cần phải đưa ra những quy tắc riêng cho từng loại. Tự động thiết lập các quy tắc: Phương pháp này khắc phục được nhược điểm của hướng tiếp cận header đĩ là khả năng tự động thiết lập các quy tắc để tìm ra spammer. Blacklist sẽ được tự động cập nhật thêm những spammer vào mà khơng cần sự can thiệp của người quản trị. Anti-spam phát triển theo hướng bản địa hĩa các quy tắc: một nhĩm các quy tắc chỉ dành cho một nhĩm server nhất định, được thiết lập chỉ dựa vào dữ liệu của server đĩ. Giải quyết được vấn đề cold-start: Thời gian mà hệ thống phải học để lọc được thư rác giảm rất nhiều so với các hướng tiếp cận khác. Hệ thống khơng cần sự can thiệp của người dùng lúc đầu phân loại đâu là địa chỉ tin cậy, đâu là địa chỉ gửi thư rác. Trong khi đĩ, một số phương pháp lọc thư rác hiệu - 54 - quả (thí dụ Bayesian) phải cần một tập dữ liệu đủ lớn và cập nhật, người dùng phải phân biệt và cho máy học đâu là thư rác, đâu là thư bình thường. Ngăn được sự tấn cơng của spammers: Những spammers muốn tấn cơng được hệ thống nĩ phải làm cho độ phân cụm của nĩ cao. Tuy nhiên, muốn cĩ hệ số phân cụm cao ngồi việc phải tạo ra mạng cĩ tính chất social network cho nĩ, nĩ cịn phải được nhận thư từ những người ở bên trong hệ thống và điều này là khơng thể với một spammer. Giảm sự truy cập tới máy chủ email: Đối với những máy chủ email lớn (thí dụ Yahoo mail, Gmail…) việc giảm tải sự truy cập đến máy chủ là rất cần thiết. Với hướng tiếp cận dựa trên nội dung phải xử lý nội dung của từng thư để xác định spam nhưng phương pháp của chúng tơi chỉ cần xử lý với log files của máy chủ. Như vậy sẽ giảm rất nhiều thời gian cũng như các tiến trình xử lý ở phía máy chủ. - 55 - Chương 4 THỰC NGHIỆM TRÊN LOG FILES Để chứng minh sự đúng đắn của thuật tốn đã đưa ra ở chương 3, chương này trình bày thực nghiệm tiến hành trên log files của máy chủ email của Đại học Quốc Gia Hà Nội trong thời gian một tuần và kết quả thu được từ thực nghiệm. 4.1 Đặc điểm dữ liệu Dữ liệu dùng để xây dựng đồ thị mạng thư điện tử được lấy từ log files của một máy chủ email Đai học Quốc gia Hà Nội trong khoảng thời gian một tuần. Từ log files này cung cấp những thơng tin về người gửi, người nhận và thời gian của các thư điện tử được gửi đi, nhận về thơng qua máy chủ email này. Log files khơng ghi nội dung thư, vì vậy khơng xâm phạm đến tính riêng tư của người dùng. Hình 4.1 Đồ thì thư điện tử của máy chủ email của Đại học Quốc Gia Hà Nội (từ ngày 28/3 đến 03/04 năm 2006) - 56 - Sau khi phân tích dữ liệu thống kê được tổng số 19875 người dùng tương ứng với 19875 địa chỉ email khác nhau. Trong đĩ cĩ 1150 người dùng bên trong máy chủ email và 18725 người dùng ở bên ngồi. Tổng số thư được trao đổi trong khoảng thời gian này là 88842 thư. Từ dữ liệu thu được em xây dựng được đồ thị mạng thư điện tử với mỗi node là một địa chỉ email, một cung cĩ hướng từ node tương ứng với địa chi gửi tới node tương ứng với địa chỉ nhận. Trọng số của cung là số lượng thư ứng với cung đĩ ở những thời điểm gửi khác nhau. Hình 4.1 minh họa một đồ thị mạng thư điện tử của máy chủ email của Đại học Quốc gia Hà Nội trong khoảng thời gian một tuần từ ngày 28/03 đến ngày 03/04 năm 2006. Hình 4.2 minh họa đồ thị mạng thư điện tử của máy chủ trong một giờ (từ 18:00 đến 19:00 ngày 28/3). Các node màu xanh tương ứng với những người dùng bên trong máy chủ email, các node màu đỏ tương ứng với những người dùng bên ngồi. Chiều của mũi tên cho biết thư được gửi đi từ người gửi đến người nhận. Hình 4.2 Đồ thì thư điện tử của máy chủ email của Đại học Quốc Gia Hà Nội (từ 18:00 đến 19:00 ngày 28/3/2006) - 57 - 4.2 Kết quả thực nghiệm và phân tích Với dữ liệu trên, sau khi tiến hành tính tốn độ phân cụm của người dùng bằng cơng thức(3) chúng tơi thu được kết quả kết quả rất khả quan. Hình 4.3 Biểu đồ độ phân cụm của người dùng bên trong máy chủ email Hình 4.4 Biểu đồ độ phân cụm của người dùng bên ngồi máy chủ email - 58 - Hình 4.3 biểu đồ độ phân cụm của người dùng bên trong máy chủ email. Biểu đồ hiển thị tổng số người dùng ứng với một độ phân cụm nào đĩ. Hình 4.4 biểu đồ độ phân cụm của người dùng bên ngồi máy chủ email. Biểu đồ biểu thị tổng số người dùng ứng với một độ phân cụm nào đĩ. Từ biểu đồ hình 4.3 và hình 4.4 cho thấy người dùng bên trong email server thường cĩ độ phân cụm cao (tập trung từ 0 đến 180) trong khi đĩ người dùng bên ngồi thì độ phân cụm rất thấp (tập trung từ 0 đến 2.5). Hình 4.4 cho thấy một số lượng khơng nhỏ những người dùng cĩ độ phân cụm rất thấp (từ 0 đến 0.5) đây rất cĩ thể là những địa chỉ gửi thư rác (xem chi tiết trong bảng 2). Giá trị độ phân cụm Tổng số người dùng Người dùng bên trong Người dùng bên ngồi 1.0≤C 653 0 653 5.01.0 ≤< C 1329 15 1314 0.15.0 ≤< C 1734 28 1706 5.10.1 ≤< C 761 33 728 0.25.1 ≤< C 7560 39 7521 5.20.2 ≤< C 6606 309 6297 0.35.2 ≤< C 583 106 477 0.40.3 ≤< C 184 171 13 0.50.4 ≤< C 100 96 4 0.5>C 366 352 14 Bảng 2 Sự phân bố tổng số địa chỉ của người dùng, người dùng bên ngồi và người dùng bên trong máy chủ email theo khoảng giá trị độ phân cụm. Hình 4.5 là đồ thị mạng thư điện tử của một người dùng ở bên ngồi cĩ độ phân cụm thấp C=0.00055. Từ đồ thị ta cĩ thể thấy rõ người này đã phát tán một lượng thư lớn đến rất nhiều địa chỉ khác mà khơng nhận được thư từ bất kì người dùng nào. Số liên kết giữa những người dùng bị người này gửi thư đến rất ít, chỉ cĩ một liên kết từ người dùng 420 gửi đến người dùng 430

Các file đính kèm theo tài liệu này:

k47_bui_ngoc_lan_thesis_666.pdf