Luận văn Khảo sát mối quanhệ định lượng giữa cấu trúc và hoạt tính của các dẫn xuất n-Acylpiperidine

Tài liệu Luận văn Khảo sát mối quanhệ định lượng giữa cấu trúc và hoạt tính của các dẫn xuất n-Acylpiperidine: BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC CẦN THƠ ---------- TRẦN DIỄM ÁI KHẢO SÁT MỐI QUAN HỆ ĐỊNH LƯỢNG GIỮA CẤU TRÚC VÀ HOẠT TÍNH CỦA CÁC DẪN XUẤT N-ACYLPIPERIDINE LUẬN VĂN THẠC SĨ HÓA HỌC Chuyên Ngành: Hóa lý thuyết và Hóa lý Mã Số: 60 44 31 CẦN THƠ – 2010 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC CẦN THƠ TRẦN DIỄM ÁI KHẢO SÁT MỐI QUAN HỆ ĐỊNH LƯỢNG GIỮA CẤU TRÚC VÀ HOẠT TÍNH CỦA CÁC DẪN XUẤT N-ACYLPIPERIDINE LUẬN VĂN THẠC SĨ HÓA HỌC Chuyên Ngành: Hóa lý thuyết và Hóa lý Mã Số: 60 44 31 Người hướng dẫn khoa học: PGS.TS BÙI THỌ THANH CẦN THƠ – 2010 Lời cảm ơn -i- LỜI CẢM ƠN ---------- Nhờ có sự giúp đỡ và động viên của nhiều người mà tôi đã hoàn thành luận văn thạc sĩ này trong thời gian qua. Tôi xin gởi lời cảm ơn sâu sắc đến:  PGS – TS Bùi Thọ Thanh đã dành nhiều thời gian và công sức hướng dẫn cho tôi trong suốt thời gian nghiên cứu.  Các thầy cô và các bạn trong Phòng Thí nghiệm Hóa tin – Khoa Hóa của Trường Đại h...

pdf79 trang | Chia sẻ: hunglv | Lượt xem: 1565 | Lượt tải: 0download
Bạn đang xem trước 20 trang mẫu tài liệu Luận văn Khảo sát mối quanhệ định lượng giữa cấu trúc và hoạt tính của các dẫn xuất n-Acylpiperidine, để tải tài liệu gốc về máy bạn click vào nút DOWNLOAD ở trên
BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC CẦN THƠ ---------- TRẦN DIỄM ÁI KHẢO SÁT MỐI QUAN HỆ ĐỊNH LƯỢNG GIỮA CẤU TRÚC VÀ HOẠT TÍNH CỦA CÁC DẪN XUẤT N-ACYLPIPERIDINE LUẬN VĂN THẠC SĨ HĨA HỌC Chuyên Ngành: Hĩa lý thuyết và Hĩa lý Mã Số: 60 44 31 CẦN THƠ – 2010 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC CẦN THƠ TRẦN DIỄM ÁI KHẢO SÁT MỐI QUAN HỆ ĐỊNH LƯỢNG GIỮA CẤU TRÚC VÀ HOẠT TÍNH CỦA CÁC DẪN XUẤT N-ACYLPIPERIDINE LUẬN VĂN THẠC SĨ HĨA HỌC Chuyên Ngành: Hĩa lý thuyết và Hĩa lý Mã Số: 60 44 31 Người hướng dẫn khoa học: PGS.TS BÙI THỌ THANH CẦN THƠ – 2010 Lời cảm ơn -i- LỜI CẢM ƠN ---------- Nhờ cĩ sự giúp đỡ và động viên của nhiều người mà tơi đã hồn thành luận văn thạc sĩ này trong thời gian qua. Tơi xin gởi lời cảm ơn sâu sắc đến:  PGS – TS Bùi Thọ Thanh đã dành nhiều thời gian và cơng sức hướng dẫn cho tơi trong suốt thời gian nghiên cứu.  Các thầy cơ và các bạn trong Phịng Thí nghiệm Hĩa tin – Khoa Hĩa của Trường Đại học Khoa Học Tự Nhiên – ĐHQG TPHCM đã nhiệt tình giúp đỡ trong quá trình thực hiện luận văn.  Các thầy cơ ở Trường Đại học Cần Thơ và Viện cơng nghệ hĩa học đã truyền đạt những kiến thức quí báu trong thời gian học tập  Sở GD & ĐT tỉnh An Giang và Ban chủ nhiệm khoa Khoa học Trường Đại học Cần Thơ đã tạo điều kiện thuận lợi trong suốt thời gian học tập.  Gia đình và bạn bè đã luơn giúp đỡ và động viên tơi trong khoảng thời gian học tập và làm việc.  Cuối cùng, xin cảm ơn quí thầy cơ trong Hội đồng chấm luận văn đã gĩp nhiều ý kiến để tơi hồn thiện luận văn này hơn. Một lần nữa xin chân thành cảm ơn! Cần Thơ, tháng 01 năm 2010 Trần Diễm Ái Mục lục -ii- MỤC LỤC ---------- Trang A – MỞ ĐẦU LỜI MỞ ĐẦU ....................................................................................................... 1 B – TỔNG QUAN Chương 1: TỔNG QUAN VỀ MỐI QUAN HỆ ĐỊNH LƯỢNG GIỮA CẤU TRÚC VÀ HOẠT TÍNH .......................................................... 3 1.1. HOẠT TÍNH ............................................................................................................................................................ 4 1.1.1. Hoạt tính sinh học.................................................................................................................................... 4 1.1.2. Hoạt tính hĩa học ..................................................................................................................................... 4 1.2. CÁC THAM SỐ CẤU TRÚC .................................................................................................................... 5 1.3. CÁC MƠ HÌNH TỐN HỌC TRONG KHẢO SÁT QSAR............................................. 5 Chương 2: CƠ HỌC LƯỢNG TỬ, LÝ THUYẾT VỀ VÂN ĐẠO PHÂN TỬ... 9 2.1. PHƯƠNG TRÌNH SĨNG SCHRƯDINGER, PHÉP GẦN ĐÚNG BORN-OPPENHEIMER ............................................................................................................................... 9 2.2. CÁC PHƯƠNG PHÁP BÁN KINH NGHIỆM ............................................................................... 11 2.2.1. Giới thiệu ........................................................................................................................................................ 11 2.2.2. Phương pháp PM3 ................................................................................................................................... 13 Chương 3: PHƯƠNG PHÁP XỬ LÝ SỐ LIỆU .................................................. 16 3.1. PHƯƠNG PHÁP HỒI QUI ĐA BIẾN TUYẾN TÍNH........................................................... 16 3.1.1. Tương quan và hồi qui ......................................................................................................................... 16 3.1.2. Phân tích hồi qui đa biến tuyến tính .......................................................................................... 20 3.1.2.1. Các thủ tục chọn biến .......................................................................................................... 20 3.1.2.1. Đánh giá mơ hình ................................................................................................................... 21 3.2. PHƯƠNG PHÁP MẠNG NƠRON NHÂN TẠO ....................................................................... 22 3.2.1. Nơron sinh học và nơron nhân tạo.............................................................................................. 25 Mục lục -iii- 3.2.2.1. Nơron sinh học ......................................................................................................................... 23 3.2.2.2. Nơron nhân tạo ........................................................................................................................ 24 3.2.2. Cấu trúc mạng nơron đa lớp ............................................................................................................ 25 3.2.3. Luyện mạng: Kỹ thuật lan truyền ngược ............................................................................... 26 3.2.4. Ngừng tiến trình luyện ......................................................................................................................... 27 3.2.5. Các yếu tố ảnh hưởng đến tính tổng quát hĩa của mạng ........................................... 28 Chương 4: CHẤT ĐUỔI MUỖI VÀ N-ACYLPIPERIDINE ............................. 30 4.1. BỆNH DO MUỖI GÂY RA VÀ CÁC HĨA CHẤT ĐUỔI MUỖI.............................. 30 4.2. N-ACYLPIPERIDINE – CHẤT ĐUỔI MUỖI MỚI ................................................................ 33 C – PHƯƠNG PHÁP Chương 5: PHẦN MỀM SỬ DỤNG VÀ CÁC BƯỚC THỰC HIỆN................. 37 5.1. PHẦN MỀM ............................................................................................................................................................ 37 5.1.1. Hyperchem 8.03........................................................................................................................................ 37 5.1.2. Stagraphics Centurion XV ................................................................................................................ 37 5.1.3. NeuroSolution 5.07 ................................................................................................................................ 37 5.1.4. Microsoft Excel ......................................................................................................................................... 37 5.2. CÁC BƯỚC THỰC HIỆN ............................................................................................................................ 37 5.2.1. Tính tốn hĩa lượng tử ........................................................................................................................ 38 5.2.2. Phân tích hồi qui đa biến tuyến tính .......................................................................................... 38 5.2.3. Tính tốn mạng nơron .......................................................................................................................... 39 D – KẾT QUẢ VÀ BÀN LUẬN Chương 6: KHẢO SÁT MỐI QUAN HỆ GIỮA CẤU TRÚC VÀ HOẠT TÍNH CỦA CÁC DẪN XUẤT N-ACYLPIPERIDINE................................ 42 6.1. DỮ LIỆU ................................................................................................................................................................... 42 6.2. KẾT QUẢ VÀ BÀN LUẬN ........................................................................................................................ 44 6.2.1. Phương pháp hồi qui đa biến tuyến tính................................................................................. 44 6.2.1.1. Tính tốn với hoạt tính PT 25 ....................................................................................... 45 Mục lục -iv- 6.2.1.2. Tính tốn với hoạt tính PT 2.5 ...................................................................................... 47 6.2.2. Phương pháp mạng nơron ................................................................................................................. 48 6.3. ĐÁNH GIÁ MỨC ĐỘ TÁC ĐỘNG CỦA CÁC THAM SỐ CẤU TRÚC LÊN HOẠT TÍNH ............................................................................................................................................................ 55 E – KẾT LUẬN KẾT LUẬN ........................................................................................................... 60 TÀI LIỆU THAM KHẢO PHỤ LỤC  -v- DANH MỤC CÁC CHỮ VIẾT TẮT AM1 Austin Model 1 ANN Artificial Neural Network HF Hartree-Fock MLR Multiple Linear Regression MNDO Modified Neglect of Diatomic Overlap MO Molecular Orbital MSE Mean Square Error PM3 Parametric Method 3 PT Protection Time QSAR Quantitative Structure-Activity Relationships USDA United States Department of Agricuture US EPA United States Environmental Protection Agency VB Valence Bond ZDO Zero Differential Overlap -vi- DANH MỤC CÁC BẢNG Trang Bảng 1 Cấu trúc và hoạt tính của dẫn xuất N-acylpiperidine ........................................................ 42 Bảng 2 Kết quả phân tích hồi qui đa biến tuyến tính với 20 biến độc lập ........................... 44 Bảng 3 Một số mơ hình tốt nhất trong 16.278 mơ hình khảo sát của PT 25 ........................ 45 Bảng 4 Kết quả phân tích hồi qui cho mơ hình 1.6, 1.7, 1.8 .......................................................... 46 Bảng 5 Giá trị dự đốn của tập dữ liệu kiểm tra với PT 25 ............................................................ 46 Bảng 6 Một số mơ hình tốt nhất trong 16.278 mơ hình khảo sát với PT 2.5..................... 47 Bảng 7 Kết quả phân tích hồi qui cho mơ hình 2.3, 2.4, 2.5 .......................................................... 47 Bảng 8 Giá trị dự đốn cho tập dữ liệu kiểm tra với PT 2.5 .......................................................... 48 Bảng 9 Hệ số R2, Q2 và R2test ứng với số nơ ron trên lớp ẩn với mạng cĩ 20 input ... 49 Bảng 10 Hệ số R2, Q2 và R2test ứng với số nơron trên lớp ẩn với mạng cĩ 9 input ....... 50 Bảng 11 Kết quả tính và dự đốn hoạt tính theo mơ hình (9 – 8 – 2) ..................................... 52 Bảng 12 Kết quả dự đốn hoạt tính cho tập dữ liệu mới .................................................................. 53 Bảng 13 Kết quả các mơ hình tốt nhất của 2 phương pháp................................................................. 54 Bảng 14 Giá trị trọng số và độ nhạy của các biến độc lập............................................................... 56 -vii- DANH MỤC CÁC HÌNH Trang Hình 1 Mơ hình chung dùng trong khảo sát QSAR .............................................................................. 8 Hình 2 Biểu đồ các mối liên hệ thường gặp của x và y ..................................................................... 17 Hình 3 Cấu tạo một nơron sinh học .................................................................................................................. 23 Hình 4 Cấu tạo một nơron nhân tạo .................................................................................................................. 24 Hình 5 Sơ đồ cấu tạo mạng nơron nhân tạo cĩ 3 lớp........................................................................... 25 Hình 6 Sơ đồ kỹ thuật lan truyền ngược........................................................................................................ 27 Hình 7 Thuốc xịt muỗi và muỗi thuộc nhĩm Plasmodium ............................................................. 31 Hình 8 Thí nghiệm hoạt tính sinh học ............................................................................................................. 35 Hình 9 Các loại mạng trong NeuroBuilder .................................................................................................. 39 Hình 10 Các loại hàm truyền trong NeuroBuilder ................................................................................. 40 Hình 11 Đồ thị giá trị dự đốn cho bộ dữ liệu kiểm tra với PT 25 ........................................... 41 Hình 12 Đồ thị giá trị dự đốn cho bộ dữ liệu kiểm tra với PT 2.5 .......................................... 46 Hình 13 Đồ thị R2, Q2 và R2test ứng với số nơron trên lớp ẩn ở 2 nồng độ đối với mạng cĩ 20 input ....................................................................................................................................................... 48 Hình 14 Đồ thị R2, Q2 và R2test ứng với số nơron trên lớp ẩn ở 2 nồng độ đối với mạng cĩ 9 input .......................................................................................................................................................... 50 Hình 15 Đồ thị giá trị tính tốn và dự đốn theo hoạt tính thực nghiệm ở 2 nồng độ với cấu trúc mạng (9 – 8 – 2)...................................................................................................................... 51 Hình 16 Đồ thị giá trị tính tốn và dự đốn theo hoạt tính thực nghiệm ở 2 nồng độ với cấu trúc mạng (9 – 8 – 2)...................................................................................................................... 53 Hình 17 Đồ thị giá trị dự đốn và thực nghiệm tập dữ liệu kiểm tra ở hai nồng độ .... 54 Hình 18 Biểu đồ giá trị trị tuyệt đối trọng số và biểu đồ độ nhạy của hai hoạt tính .... 57 Hình 19 Đồ thị biểu diễn giá trị của 9 tham số cấu trúc và hai hoạt tính ............................. 60 -viii- DANH MỤC CÁC PHỤ LỤC Phụ lục 1 Cấu trúc dẫn xuất N-acylpiperidine và hoạt tính. Phụ lục 2 Bảng số liệu các tham số cấu trúc và hoạt tính của dẫn xuất N-acylpiperidine. Phụ lục 3 Kết quả phân tích hồi qui cho 20 biến độc lập. Phụ lục 4 Ma trận hệ số tương quan Pearson các tham số cấu trúc và hoạt tính. Phụ lục 5 Ma trận hệ số tương quan Speaman các tham số cấu trúc và hoạt tính. Phụ lục 6 Biểu đồ phân tích độ nhạy của hoạt tính theo từng tham số cấu trúc. Phụ lục 7 Dữ liệu bộ trọng số. A. MỞ ĐẦU Lời mở đầu 1 LỜI MỞ ĐẦU ---------- Trong xã hội và trong tự nhiên nĩi chung hoặc trong nghiên cứu khoa học nĩi riêng, các nghiên cứu thống kê giúp tìm ra các mối quan hệ giữa các hiện tượng và đặc tính để cĩ thể tiên đốn đúng các hiện tượng sẽ xảy ra khi biết được một số dấu hiệu nào đĩ, người ta thường gặp khĩ khăn với các mơ hình thống kê kinh điển. Nhưng hiện nay, nhờ sự phát triển vượt bậc của cả cơng nghệ máy tính và trí tuệ con người, nên chúng ta cĩ một cơng cụ hết sức mạnh mẽ trong tay là trí tuệ nhân tạo. Cơng cụ này giải quyết phần lớn các khĩ khăn gặp phải trước đây khi thống kê, tiên đốn chính xác các hiện tượng phức tạp với lượng thơng tin ít ỏi, đặc biệt là khi ta kết hợp giữa các cơng cụ khác nhau của trí tuệ nhân tạo với nhau và cả các phương pháp cổ điển nữa. Ứng dụng của trí tuệ nhân tạo rất nhiều trong các lĩnh vực như nhận biết tiếng nĩi, nhận biết chữ viết, nhận biết hình ảnh, phân tích địa chấn, phân tích điện tâm đồ, chẩn đốn bệnh, phân tích thị trường chứng khốn, thương mại... Cịn trong hố học, người ta cũng cần dự đốn trong rất nhiều trường hợp như tìm hố chất cĩ hoạt tính mong muốn, dự đốn hướng phản ứng, xác định hướng phản ứng của các phản ứng cạnh tranh... và cịn nhiều mục đích khác nữa. Các cơng cụ nĩi trên cĩ nhiều ứng dụng vào các nghiên cứu, nhất là nghiên cứu mối quan hệ định lượng giữa hoạt tính và cấu trúc. Ngồi ra cũng phải kết hợp thêm các cơng cụ của hố học khác nữa để thực hiện các nghiên cứu. Một sự hiểu biết đúng đắn về độc tính của một hố chất mang một ý nghĩa đĩng gĩp rất lớn đối với cuộc sống của nhân loại như làm giảm bệnh tật và tỉ lệ tử vong.… Tuy nhiên để đạt được điều đĩ lại là một quá trình rất phức tạp và khĩ khăn liên quan đến nhiều kỹ thuật khoa học để cĩ được nhiều loại thơng tin cần thiết. Đặc biệt, với sự phát triển cơng nghệ máy tính ngày càng cao và càng rẻ việc nghiên cứu thuốc bằng phương pháp mơ phỏng phân tử kết hợp với các phương pháp thống kê ngày càng được quan tâm và phát triển. Trong luận văn này đã dùng phương pháp tính tốn Hố lượng tử kết hợp với phương pháp thống kê kinh điển và mạng nơron nhân tạo để nghiên cứu khảo sát mối quan hệ định lượng giữa hoạt tính và cấu trúc của các chất dẫn xuất N-acylpiperidine. Lời mở đầu 2 Tên đề tài: "KHẢO SÁT MỐI QUAN HỆ ĐỊNH LƯỢNG GIỮA CẤU TRÚC VÀ HOẠT TÍNH CỦA CÁC DẪN XUẤT N-ACYLPIPERIDINE". Mục đích đề tài:  Sử dụng chương trình Hĩa lượng tử thích hợp để tính tốn tham số cấu trúc của các chất dẫn xuất N-acylpiperidine. Các số liệu này kết hợp với dữ liệu về thời gian đuổi muỗi của các hợp chất N-acylpiperidine tạo thành bộ dữ liệu cấu trúc – hoạt tính sử dụng cho việc nghiên cứu QSAR.  Dùng phương pháp tính tốn thống kê kinh điển (phương pháp hồi qui đa biến tuyến tính) và phương pháp sinh – tin hiện đại (mạng nơron nhân tạo) để tìm mơ hình QSAR cĩ tính tổng quát hĩa cao.  Từ các kết quả nhận được trong luận văn và các kết quả nghiên cứu QSAR tương tự, rút ra nhận xét về phương pháp luận nghiên cứu QSAR. Đề tài gồm những phần chính sau: A. Lời mở đầu B. Tổng quan C. Phương pháp D. Kết quả và bàn luận E. Kết luận  B. TỔNG QUAN Chương 1 3 Chương 1 TỔNG QUAN VỀ MỐI QUAN HỆ ĐỊNH LƯỢNG GIỮA CẤU TRÚC VÀ HOẠT TÍNH ---------- Mối quan hệ định lượng giữa cấu trúc và hoạt tính của các hố chất được viết tắt là QSAR (Quantitative Structure – Activity Relationships). QSAR thường được nghiên cứu trên một họ hợp chất, giống nhau ở khung cơ bản nhưng khác nhau ở các nhĩm thế trên khung chính và được căn cứ vào giả định rằng cĩ mối tương quan cơ sở giữa cấu trúc phân tử và hoạt tính sinh học. Trong giả định này, QSAR cố gắng thiết lập mối tương quan giữa những tính chất riêng của cấu trúc phân tử với hoạt tính thực nghiệm của nĩ 5. Cĩ hai mục đích chính cho sự phát triển QSAR:  Xây dựng mơ hình QSAR để dự đốn hoạt tính của những phân tử chưa từng được kiểm tra.  Mơ hình QSAR cĩ vai trị như một cơng cụ cung cấp thơng tin bằng việc chọn ra một bộ tham số mơ tả liên quan đến hoạt tính được đo để cĩ thể đánh giá được các yếu tố ảnh hưởng đến hoạt tính đã biết. Điều này cĩ thể giúp thiết kế ra phân tử mới vừa cĩ hoạt tính theo mong muốn hơn vừa giảm được thời gian, chi phí, tiền của. Dạng phương trình tốn học phổ biến của QSAR là: A (Activity) = f (tính chất hĩa lý hoặc cấu trúc riêng của phân tử) Đối với một mơ hình QSAR cĩ giá trị và đáng tin cậy thì hoạt tính của chúng phải được vạch ra bởi các cơ chế chung. Chất lượng của mơ hình QSAR hồn tồn phụ thuộc vào chất lượng của bộ dữ liệu sử dụng để xây dựng mơ hình, vì vậy việc chọn ra bộ dữ liệu các tham số cấu trúc cĩ liên quan đến hoạt tính thực nghiệm là quan trọng. Một vài loại hoạt tính và các tham số cấu trúc thường được nghiên cứu trong QSAR được giới thiệu dưới đây. Chương 1 4 1.1 HOẠT TÍNH 3, 11, 31 Hoạt tính được nghiên cứu trong QSAR cĩ thể là hoạt tính hố học hay hoạt tính sinh học được quan sát từ thực nghiệm dưới các hình thức khác nhau. 1.1.1 Hoạt tính sinh học  MIC (Minimum Inhibitory Concentration): nồng độ ức chế tối thiểu, hay nồng độ kiềm khuẩn tối thiểu (dùng trong vi sinh).  MBC (Minimum Bactericidal Concentration): nồng độ diệt khuẩn tối thiểu.  IC50 (Inhibitory Concentration): nồng độ ức chế 50% đối tượng thử, hay cịn gọi là hằng số Michaelis – Menten.  EC50 (Effective Concentration): nồng độ 50% tác dụng tối đa.  ED50 (Effective Dose): liều tác dụng tối đa trên 50% đối tượng thử.  SD50 (Supression Dose): liều tiêu diệt 50% đối tượng thử.  LD50 (Lethal Dose): liều gây chết 50% thú thử.  TI (Therapeutic Index) = LD50/ED50: chỉ số trị liệu (TI càng lớn độ an tồn sử dụng càng cao)… Các hoạt tính sinh học cĩ thể được quan sát từ thực nghiệm với nhiều hình thức:  In vitro: quan sát hoạt tính trong ống nghiệm hay hộp petri cĩ nuơi cấy vi sinh vật (vi khuẩn, vi nấm) hay các bộ phận sinh vật (cơ quan, mơ, tế bào…) được phân lập.  In vivo: quan sát hoạt tính trên cơ thể sinh vật (chuột, thỏ, khỉ, người).  In situ: quan sát hoạt tính tại chỗ. 1.1.2 Hoạt tính hố học  k: hằng số tốc độ phản ứng của các hố chất trong một loại phản ứng.  K: hằng số phân ly của các axit (tính axit).  Độ chọn lọc.  Tính thân hạch, thân điện tử… Chương 1 5 Các hoạt tính hố học được quan sát bằng thực nghiệm hố học. 1.2 CÁC THAM SỐ CẤU TRÚC 16, 25, 29 Một vấn đề chung trong QSAR là cách mơ tả phân tử và tính chất của các chất. Và các đại lượng được dùng để mơ tả những nét cấu trúc phân tử là một phần khơng thể thiếu trong nghiên cứu QSAR, cịn được gọi là tham số cấu trúc. Đến nay đã cĩ hàng ngàn tham số khác nhau được ứng dụng trong các lĩnh vực nghiên cứu các mơ hình liên quan định lượng giữa cấu trúc với tác dụng. Các tham số cấu trúc của hố chất cĩ thể thu được bằng thực nghiệm hay tính tốn bằng lý thuyết bởi các phần mềm tính tốn như ADAPT, CODESSA, DRAGON, HYPERCHEM, MOE,… Các tham số thơng dụng cĩ thể kể đến như tham số điện tử, các tham số lập thể, các tham số hố lí,…  Các tham số điện tử (electronic parameters): hằng số Hammett (, +, - ,…), moment lưỡng cực, độ phân cực phân tử, điện tích nguyên tử (q+, q-), mật độ điện tử, thế tĩnh điện phân tử và trường tĩnh điện phân tử, năng lượng các vân đạo biên (EHOMO và ELUMO),…  Các tham số lập thể (steric parameters): hằng số lập thể Tafl (Es), thể tích phân tử (V), diện tích bề mặt phân tử (S), chỉ số khúc xạ (MR), tham số STERIMOL, độ dài liên kết, gĩc xoắn…  Các tham số hố lí (physicochemical parameters): hệ số phân bố giữa octanol và nước của hố chất (P) , hằng số kỵ nước … 1.3 CÁC MƠ HÌNH TỐN HỌC TRONG KHẢO SÁT QSAR 5, 9, 24, 25 Vào năm 1868, Crum-Brown và Fraser đã nhận xét rằng tác dụng sinh học là hàm số của cấu trúc hĩa học: )(Cf (1.1) Đến năm 1893, Richet đã cho rằng sự khác nhau về tác dụng sinh học là do sự thay đổi về tính chất hĩa học hay lí hĩa. )( Cf  (1.2) Chương 1 6 Đây là hai tư tưởng làm nền tảng cho việc thiết lập các mơ hình liên quan cấu trúc – tác dụng định lượng sau này. Năm 1935, một phát minh quan trọng của Hammett cĩ thể xem là phương trình đầu tiên biểu diễn mối quan hệ giữa hoạt tính và cấu trúc:  0 log K K (1.3) Với K, Ko là hằng số axit.  là hằng số Hammett, là một thơng số hố lí đặc trưng cho khả năng rút hoặc đẩy điện tử của nhĩm thế. Đối với axit benzoic, phương trình Hammett cĩ dạng như sau:  2.4apK (1.4) Như ta đã biết dựa vào phương trình Hammett ta cĩ thể dự đốn Ka của các dẫn xuất của axit benzoic khi ta biết hằng số  của các nhĩm thế. Tương tự, Hammett cịn cĩ các phương trình dành cho các phản ứng của các dẫn xuất benzen:  0 log k k (1.5) Trị số  tìm được cĩ thể gĩp phần quan trọng cho việc đề nghị cơ chế cho phản ứng đang khảo sát. Mơ hình Hansch QSAR thực sự bắt đầu được nghiên cứu bởi Corwin Hansch và các đồng sự từ những năm 60 của thế kỷ XX. Trong mơ hình QSAR, Hansch thường dùng các hằng số thực nghiệm như: Es, , , logP… làm các tham số cấu trúc. Một số phương trình ơng thu được như sau: 21 log)/1log( kPkC  (1.6) 43 2 21 )(loglog)/1log( kkPkPkC   (1.7) 43 2 21)/1log( kkkkC   (1.8) Trong đĩ C là nồng độ mol của hố chất, ở nồng độ này hố chất cĩ một tác dụng cụ thể nào đĩ, chẳng hạn nồng độ cần thiết của hố chất để cĩ tác dụng ức chế Chương 1 7 50% độc chất. Trong các mơ hình Hansch, ơng ta thường dùng phương pháp hồi qui tuyến tính (1.6) hoặc hồi qui đa thức (1.7, 1.8) để phân tích, xử lý dữ liệu. Mơ hình Free – Wilson Mơ hình QSAR Free – Wilson được Fujita và Ban cải tiến lại cĩ dạng sau:  ijaC)/1log( (1.9) Trong đĩ ija : sự cộng hợp của các nhĩm thế xi tại vị trí j trên phân tử.  : vai trị của khung chính. Thực tế thì mơ hình Hansch và mơ hình Free-Wilson cĩ liên quan với nhau, vì thế một số tác giả đã thành lập mơ hình kết hợp Free-Wilson & Hansch, cả hai dạng tuyến tính lẫn phi tuyến:   kabC ijj)/1log( (1.10)   kabbC ijjjj 2)/1log( (1.11) Trong đĩ: ijji ba  là tham số nhĩm thế. j là tham số hĩa lí j của các nhĩm thế xi. jb và k là các hệ số hồi qui. Vì hầu như chỉ dùng phương pháp hồi qui tuyến tính hay hồi qui đa thức bậc 2, 3 để xử lý và phân tích dữ liệu nên các mơ hình Hansch và Free – Wilson đã gặp phải các khĩ khăn nhất định. Chúng chỉ khảo sát QSAR thành cơng trên một số ít hợp chất. Nguyên nhân chủ yếu là do mối quan hệ giữa hoạt tính và cấu trúc thường khơng phải là tuyến tính mà rất phức tạp. Hơn nữa các tham số cấu trúc phải được xác định bằng thực nghiệm, đây là khĩ khăn lớn vì nĩ gây tốn kém thời gian và kinh phí mà lại hạn chế các thơng tin thật sự cĩ ảnh hưởng đến hoạt tính của hố chất… Vì vậy, việc tìm thêm các tham số mới về cấu trúc, giảm thời gian và chi phí nghiên cứu, cộng với dùng phương pháp xử lý số liệu mới cĩ khả năng mơ tả đúng mối quan hệ phức tạp của các tham số cấu trúc và hoạt tính là điều rất cần thiết. Hiện nay, các kỹ thuật máy tính phát triển cực kỳ nhanh chĩng và nĩ đã cĩ Chương 1 8 những đĩng gĩp quan trọng trong các lĩnh vực nghiên cứu khoa học như khoa học vũ trụ, sinh học, tốn học, lý học, hố học… Trong hố học, đã cĩ nhiều chương trình máy tính cĩ thể thiết kế cấu trúc khơng gian của phân tử hố chất; chúng kết hợp với hố lượng tử cĩ thể tối ưu hố hình dạng của hố chất và cung cấp cho chúng ta rất nhiều tham số cấu trúc liên quan đến hoạt tính. Chúng ta đã cĩ các phần mềm tin học ứng dụng trong hố học hiện nay như: HyperChem, Gaussian, CS ChemOffice, Mopac … Ngồi ra, về mặt xử lý số liệu, chúng ta khơng cịn đơn thuần dùng các phương pháp xử lý thống kê kinh điển để phân tích số liệu mà cĩ các lý thuyết mới cĩ thể áp dụng vào việc xử lý số liệu, tín hiệu… và ta cĩ thể dùng vào khảo sát QSAR. Các lý thuyết mới cĩ thể dùng trong các trường hợp mối quan hệ QSAR phức tạp như: Mạng nơron nhân tạo (ANN – Artificial Neural Network), Logic mờ (FL – Fuzzy Logic), Thuật giải di truyền (GA – Genetic Algorithm)… Việc sử dụng các phương pháp xử lý số liệu mới này đồng thời kết hợp với dùng các thơng số tính tốn tỏ ra khá thành cơng trong việc mơ tả các QSAR. Hiện nay, đã cĩ rất nhiều nhĩm nghiên cứu QSAR trên thế giới. Họ nghiên cứu rất nhiều hợp chất khác nhau và ứng dụng các phương pháp thống kê mới vào khảo sát QSAR. Hình 1 Mơ hình chung dùng trong khảo sát QSAR Chuẩn bị bộ dữ liệu hoạt tính thực nghiệm Dự đốn hoạt tính của hợp chất mới Phân tích dữ liệu, tìm mơ hình QSAR phù hợp nhất Xây dựng mơ hình phân tử, tối ưu hố hình dạng Tính các tham số hố lý, điện tử, lập thể… đặc trưng cho cấu trúc Chương 2 9 Chương 2 CƠ HỌC LƯỢNG TỬ, LÝ THUYẾT VỀ VÂN ĐẠO PHÂN TỬ ---------- 2.1 PHƯƠNG TRÌNH SĨNG SCHRƯDINGER, PHÉP GẦN ĐÚNG BORN-OPPENHEIMER 9, 11 Cho đến nay, chỉ cĩ cơ học lượng tử mới cĩ thể mơ tả được sự phân bố của điện tử một cách đầy đủ. Vì vậy, để xác định tính chất vật lý của phân tử (hình dạng cấu trúc bền nhất, mật độ điện tích, chiều dài liên kết…) người ta cố gắng giải phương trình sĩng Schrưdinger: H = E (2.1) Trong đĩ E: năng lượng tổng cộng của hệ thống. : phương trình sĩng tổng cộng đã được chuẩn hố. H: tốn tử Hamilton tổng cộng. Tốn tử Hamilton tổng cộng (H) tương ứng với năng lượng tổng cộng của phân tử bao gồm các động năng (T) và thế năng (V) của tất cả các hạt (các hạt nhân và các điện tử): Htotal = T + V (2.2) Phép gần đúng Born-Oppenheimer Phép gần đúng này dựa trên cơ sở: khối lượng của hạt nhân lớn hơn khối lượng điện tử nhiều lần nên vận tốc của hạt nhân phải nhỏ hơn vận tốc của điện tử. Vì thế phương trình Schrưdinger được chia thành hai phần:  Phần một bao gồm tốn tử Hamilton điện tử đối với hạt nhân cố định (He).  Phần hai bao gồm tốn tử động năng hạt nhân trong đĩ năng lượng từ hàm sĩng điện tử đĩng vai trị thế năng (Tn). Chương 2 10 Htotal = He +Tn (2.3) He = Te + Vne + Vee + Vnn (2.4) Trong đĩ:   A A A n M T 2 2 1 : Tốn tử động năng hạt nhân.   N i ieT 2 2 1 : Tốn tử động năng điện tử.   N i A iA A ne rR ZV || : Tốn tử hút điện tử - hạt nhân.     N i N ij ji ee rr V || 1 : Tốn tử đẩy điện tử - điện tử.     A AB BA BA nn RR ZZV || : Tốn tử đẩy hạt nhân – hạt nhân. Với:                2 2 2 2 2 2 2 A AAA zyx A, B: hạt nhân ZA: điện tích hạt nhân A i, j: các electron RA: vector chỉ vị trí hạt nhân A MA: khối lượng hạt nhân A ri: vector chỉ vị trí electron i Các tốn tử cĩ thể được tập hợp lại theo chỉ số điện tử.   A iA A ii rR Zh ||2 1 2 (2.5) || 1 ji ij rr g   (2.6)       N i N i N ij nnijie VghH 1 1 (2.7) Tốn tử một điện tử hi mơ tả sự di chuyển của điện tử i trong trường của tất cả các hạt nhân, và gij là tốn tử hai điện tử cho bởi lực đẩy điện tử – điện tử. Chú ý rằng điểm zero năng lượng tương ứng với các hạt tử được để yên (Te = 0) và được dời đi vơ tận khỏi nhau (Vne= Vee= Vnn=0). Chương 2 11 Theo phép gần đúng này, hàm sĩng điện tử chỉ phụ thuộc vào vị trí của hạt nhân, khơng phụ thuộc vào động lượng của hạt nhân; và các hạt nhân di chuyển trên các mặt đẳng thế (Potential Energy Surfaces – PES), là nghiệm của các phương trình Schrưdinger điện tử. Do vậy khi ta giải được phương trình Schrưdinger điện tử thì ta cĩ thể dùng PES để giải phương trình Schrưdinger đối với hạt nhân. Việc xây dựng hàm sĩng nhiều điện tử dựa trên tính gần đúng là các hạt ở trạng thái riêng rẽ. Trong vân đạo spin một điện tử gồm hai phần: vân đạo khơng gian và hàm spin. Phương trình Hartree – Fock (HF) được viết như sau:  N j jijiiF  (2.8) Tốn tử Hamilton được viết lại dưới dạng tổng của những tốn tử một điện tử F (tốn tử Fock) như sau: )KJ2(HFH jj jii core ii    (2.9) Ji và Kj là tốn tử Coulomb và tốn tử trao đổi. 2.2 CÁC PHƯƠNG PHÁP BÁN KINH NGHIỆM 7, 10, 11 2.2.1 Giới thiệu Địi hỏi của việc thực hiện chuỗi tính HF thường là các hàm mũ 4. Điều này phát sinh bởi số các tích phân hai điện tử cần thiết cho việc xây dựng ma trận Fock. Phương pháp bán thực nghiệm giảm địi hỏi của việc tính tốn bằng cách giảm số tích phân hai điện tử. Điều này chỉ là một tác động giới hạn bộ cơ sở rộng, và phương pháp ab initio sẽ vẫn địi hỏi một nỗ lực tính tốn lớn hơn phương pháp bán thực nghiệm. Bước đầu tiên trong việc giảm khĩ khăn tính tốn là xem như chỉ cĩ các điện tử hố trị hiện diện. Tâm điện tử được giải thích bằng cách giảm điện tích hạt nhân hoặc các hàm đưa vào mơ hình lực đẩy hố hợp do các hạt nhân và các tâm điện tử. Hơn nữa, chỉ cĩ bộ cơ sở nhỏ nhất được dùng đối với các điện tử hố trị. Vì thế hydro chỉ cĩ một hàm cơ sở, tồn bộ các nguyên tử trong hàng thứ hai và thứ ba của hệ thống tuần hồn cĩ bốn hàm cơ sở (một s và ba p). Cho đến bây giờ, phần lớn các phương pháp chỉ dùng các hàm s và p, và các hàm cơ sở là các vân đạo kiểu Slater nghĩa là các Chương 2 12 hàm mũ. Giả định trung tâm của các phương pháp bán thực nghiệm là phép gần đúng ZDO (Zero Differential Overlap). Phương pháp này bỏ qua tất cả các tích của hàm cơ sở phụ thuộc vào cùng toạ độ điện tử khi định vị trên các nguyên tử khác. Ký hiệu vân đạo nguyên tử trên tâm A là A, phép gần đúng ZDO tương ứng với A(i).B(i) = 0. Chú ý rằng tích của các hàm trên các nguyên tử khác nhau bằng khơng, khơng cĩ tích phân trên một tích như vậy. Nĩ cĩ các hệ quả sau: 1. Ma trận S giảm thành ma trận đơn vị. 2. Tích phân một điện tử ba tâm được gán về khơng. 3. Tất cả các tích phân 3 và 4 tâm 2 điện tử được bỏ qua. Để bù cho các phép gần đúng này, các tích phân cịn lại được chuyển thành các tham số, và giá trị của các tích phân này cĩ được dựa trên cơ sở tính tốn hoặc dữ liệu thực nghiệm. Cĩ chính xác bao nhiêu tích phân bị bỏ qua, đã thực hiện bao nhiêu tham số hố, điều này khác nhau trong các phương pháp bán thực nghiệm khác nhau. Viết biểu thức sau đối với yếu tố ma trận Fock, trong đĩ tích phân hai điện tử được viết tắt là :   AO DhF    ][ (2.10) Trong đĩ:  hh  Sự tham số hố. Một phép tính HF ab initio với bộ cơ sở nhỏ nhất hiếm khi cĩ thể cho chất lượng tốt hơn các MO (Molecular Orbital). Nĩ là một giá trị rất giới hạn đối với mặt dự đốn định lượng. Hơn nữa phép gần đúng ZDO làm giảm chất lượng của hàm sĩng (mà nĩ vốn đã thấp). Tức là việc dùng trực tiếp các lược đồ trên là khơng cĩ lợi. Để sửa chữa nhược điểm của các phép gần đúng trên, các tham số được đưa vào vị trí của một vài hay tồn bộ các tích phân. Cĩ ba phương pháp cĩ thể dùng để chuyển các phép gần đúng NDDO/INDO/CNDO vào mơ hình tính bằng máy tính. Chương 2 13  Các tích phân cịn lại cĩ thể được tính từ dạng hàm vân đạo nguyên tử.  Các tích phân cịn lại được chuyển thành tham số mà các giá trị được ấn định được dựa trên một vài dữ liệu thực nghiệm.  Các tích phân cịn lại cĩ thể được chuyển thành các tham số mà giá trị được ấn định dựa trên việc làm cho phù hợp với dữ liệu thực nghiệm. Phương pháp 2 bắt nguồn từ tính chất đặc biệt của nguyên tử, như là thế ion hố và năng lượng kích thích, trong biểu thức của các thơng số, và sự ấn định các giá trị của chúng dựa trên nguyên tắc bình phương cực tiểu phù hợp với bộ dữ liệu thực nghiệm lớn, tương tự với việc làm thích hợp của các thơng số trường lực. Sau đây là một số phương pháp tính tốn bán kinh nghiệm :  Phương pháp NDDO (Neglect of Diatomic Diferential Overlap Approximation).  Phương pháp INDO (Intermediate Neglect of Diferential Overlap Approximation).  Phương pháp CNDO (Complete Neglect of Diferential Overlap Approxima- tion).  Phương pháp MINDO (Modified Intermediate Neglect of Diferential Overlap Approximation).  Phương pháp MNDDO(Modified NDDO Models).  Phương pháp MNDO (Modified Neglect of Diatomic Overlap).  Phương pháp AM1 (Austin Model 1).  Phương pháp PM3 ( Parametric Method Number 3).  Phương pháp MNDO/d (The MNDO/d method).  Phương pháp SAM1 (Semi-Ab initio Method 1). Dưới đây xin trình bày phương pháp PM3. 2.2.2 Phương pháp PM3 (Parametric Method Number 3) Phương pháp PM3 là một phương pháp bán kinh nghiệm sử dụng thuật tốn tự Chương 2 14 hợp. Nĩ cĩ bản chất là phương pháp AM1 với tất cả các tham số đã được tối ưu đầy đủ. Lực đẩy core – core của mơ hình MNDO cĩ dạng: )1(),( ABBABA RRBABABA MNDO nn eessssZZBAV    (2.11) Trong đĩ  được dùng như là các tham số điều chỉnh. Tương tác gồm liên kiết O–H và N–H được xử lý khác nhau:          AHH AHA R AH R HAHAHAnn eR essssZZHAV   1),( (2.12) Thêm vào, MNDO dùng phương pháp gần đúng, s = p đối với một vài nguyên tố sáng hơn. MNDO được tham số hố đối với các nguyên tố H, B, C, N, O, F, Al, Si, P, S, Cl, Zn, Ge, Br, Sn, I, Hg, và Pb. Các tham số Gss, Gsp, Gpp, Gp2, Hsp được lấy từ phổ nguyên tử. Một hạn chế của MNDO là lực đẩy core – core quá lớn. Để khắc phục điều này, hàm core – core được sửa đổi bằng cách cộng các hàm Gaussian và tồn bộ mơ hình đã được tham số hĩa lại. Phương pháp này được gọi là phương pháp AM1. Sự tham số hố của MNDO và AM1 đã được làm bằng tay, dùng các tham số Gss, Gsp, Gpp, Gp2, Hsp từ các dữ liệu nguyên tử khác nhau và thay đổi các phần cịn lại cho đến khi đạt được sự thích hợp tốt. Bởi vì sự tối ưu hố được làm bằng tay nên chỉ bao gồm một vài hợp chất tương đối. Stewart thực hiện quá trình tối ưu tự động bằng cách bổ sung và bắt nguồn từ các cơng thức đối với các đạo hàm của hàm lỗi thích hợp tương ứng đối với các tham số. Sau đĩ tồn bộ tham số được tối ưu hố đồng thời kể cả các số hạn hai điện tử và một bộ luyện lớn hơn đáng kể với dữ liệu khoảng vài trăm được sử dụng. Trong việc tham số hố lại này, các biểu thức trong AM1 đối với lực đẩy core – core được giữ lại ngoại trừ việc chỉ cĩ 2 phương trình Gaussian được gán cho mỗi nguyên tử, các tham số Gaussian này bao gồm phần tích phân trong mơ hình. Phương pháp cịn được ký hiệu là PM3, nhưng thực chất là AM1 với tất cả các tham số được tối ưu đầy đủ. Cơ học lượng tử với các tiền đề và cơng cụ chính xác của nĩ đã giải quyết được Chương 2 15 những vấn đề cơ bản nhất của cấu tạo của các hạt cơ bản. Riêng trong hĩa học, cơ học lượng tử là một cơ sở nền tảng để nghiên cứu, giải thích các hiện tượng hĩa học, tiên đốn, chỉ đường cho nghiên cứu thực nghiệm, giúp cho hĩa học ngày càng phát huy được thế mạnh và khẳng định được vị trí của nĩ.  Chương 3 16 Chương 3 PHƯƠNG PHÁP XỬ LÝ SỐ LIỆU ---------- Khi thu được các tham số hố lý của các hố chất, ta tiến hành phân tích và xử lý các số liệu để xác định mối quan hệ giữa các thơng số cấu trúc và hoạt tính của các hố chất. Và sau đây là phương pháp phân tích hồi qui đa biến tuyến tính và phương pháp mạng nơron sử dụng để khảo sát QSAR trong luận văn này. 3.1 PHƯƠNG PHÁP HỒI QUI ĐA BIẾN TUYẾN TÍNH (Multiple Linear Regression) 6, 12, 21 3.1.1 Tương quan và hồi qui Xem xét mối quan hệ giữa hai biến định lượng x và y. Mối quan hệ giữa x và y cĩ thể cĩ bản chất xác định hoặc bản chất ngẫu nhiên.  Khi mối quan hệ cĩ bản chất xác định ta cĩ thể thiết lập được biểu thức tốn học bằng các con đường khác nhau, thí dụ bằng phương pháp phân tích hồi qui.  Khi mối quan hệ cĩ bản chất ngẫu nhiên, thì sự liên kết cĩ thể được khám phá và thiết lập bằng phương pháp phân tích tương quan. Bốn dạng liên hệ thường gặp giữa hai biến định lượng x và y được biểu diễn ở Hình 2 bên dưới. (a) khơng cĩ liên hệ (b) liên hệ tuyến tính thuận x x y y Chương 3 17 Hình 2 Biểu đồ các mối liên hệ thường gặp của x và y Trong Hình 2 (a) các chấm đại diện cho các cặp giá trị thực tế quan sát được (x; y) phân tán ngẫu nhiên, và khơng cĩ mối liên hệ giữa hai biến này. Trong Hình 2 (b) thì mối liên hệ đĩ gần như là tuyến tính thuận. Hình 2 (c) thể hiện mối liên hệ tuyến tính nghịch. Cịn Hình 2 (d) thì mối liên hệ đĩ là phi tuyến. Người ta sử dụng một đại lượng thống kê cĩ tên là hệ số tương quan Pearson (R) để lượng hĩa mức độ chặt chẽ của mối quan hệ này, được tính theo cơng thức sau: yx N i ii SSN yyxx R )1( ))((     11  R (3.1) Trong đĩ: N là số hợp chất quan sát. Sx, Sy là độ lệch chuẩn của từng biến x và y. Trị tuyệt đối của R cho biết mức độ chặt chẽ của mối liên hệ tuyến tính: R < 0.7: nghèo nàn. 0.7 < R < 0.8: khá. 0,8 < R < 0.9: rõ nét. R > 0.9: hồn tồn. Khuynh hướng của sự liên quan tuyến tính được biểu thị bởi giá trị của R: R < 0: liên quan nghịch (giảm dần). R > 0: liên quan thuận (tăng dần). (c) liên hệ tuyến tính nghịch (d) liên hệ phi tuyến x x y y Chương 3 18 Nếu xác định các biến cĩ sự tương quan tuyến tính với nhau thì ta cĩ thể mơ hình hĩa mối quan hệ của chúng bằng mơ hình hồi qui tuyến tính. Phương trình hồi qui là bộ phận cấu thành quan trọng của các mơ hình tương quan và việc lựa chọn và tính tốn đúng đắn phương trình này là một bước quan trọng nhất trong việc lập mơ hình tương quan. Hồi qui đa biến tuyến tính (MLR) là một trường hợp rất phổ biến trong thực tế, là tổ hợp tuyến tính giữa các biến phụ thuộc với nhiều biến độc lập. Phân tích hồi qui bao hàm cả ý nghĩa “ước tính” (Estimating) hay “dự đốn” (Predictive) vì sau khi sự tương quan tuyến tính giữa x và y được thiết lập bởi một biểu thức tốn học cụ thể người ta cĩ thể ước tính hay dự đốn giá trị của y từ một giá trị của x. Đường biểu diễn biểu thức tốn học ấy được gọi là đường hồi qui của y theo x. i k j ijjiikkiii xxxxy    1 022110 ... (3.2) i thường được gọi là sai số, là chênh lệch giữa giá trị quan sát được yk và trung bình của tập con các giá trị của biến y tại điểm xk. i được xem là biến ngẫu nhiên, độc lập cĩ phân phối chuẩn, cĩ trung bình bằng 0 và phương sai là 2 . Các hệ số trong phương trình được ước lượng theo nguyên tắc bình phương tối thiểu nghĩa là làm sao cho tổng bình phương các phần dư dưới đây là nhỏ nhất.                    N i k j ijji xy 1 2 1 0  (3.3) Khi thu được các dữ liệu cần thiết (yi, xji) trong đĩ số bộ dữ liệu N ít nhất phải lớn hơn số biến độc lập k thì người ta cĩ thể xác định được các hệ số hồi qui theo chuẩn bình phương cực tiểu như sau:   )min()min( 1 2 2 1 eyyMin N i i N i tính ii             (3.4) Điều kiện này đạt được khi đạo hàm của i2 theo các hệ số i triệt tiêu. Chương 3 19 ,0 i e  với i = 1, 2,..., N. (3.5) Ta giả thiết rằng hàm f phụ thuộc tuyến tính vào bộ kxxx ,...,, 21 như vậy ta chỉ cần tìm kiếm các hệ số phù hợp. Trong khảo sát QSAR, biến yi là hoạt tính hố chất, biến xi là các tham số hố lí. Giá trị thống kê đặc trưng cho mơ hình hồi qui là hệ số xác định (coefficient of determination) hay hệ số R2. Một số mơ hình hồi qui đa biến tuyến tính Mơ hình MLR cĩ dạng tổng quát như sau:  Dạng lý thuyết: kk xxx   ...22110 (3.6)  Dạng ước tính exbxbxbby kk  ...22110 (3.7)  Dạng ước tính với N trường hợp quan sát: ikikiii exbxbxbby  ...22110 (3.8)  Dạng ước tính bằng phương pháp bình phương cực tiểu: kikiii xbxbxbby  ...ˆ 22110 (3.9) Trong đĩ: iyˆ là giá trị dự đốn của y. ix là biến độc lập. ib là các hệ số hồi qui. Mơ hình MLR cĩ thể xuất hiện dưới một số dạng đặc biệt như sau:  Dạng tương tác: giả sử hai biến x1 và x2 cĩ hệ tương tác thì mơ hình MLR cĩ thể được viết: 21222110ˆ xxbxbxbbyi  (3.10)  Dạng đa thức: mơ hình hồi qui dạng đa thức bậc k cĩ thể biểu diễn dưới dạng Chương 3 20 tổng quát sau: k k xbxbxbby  ...ˆ 2 210 (3.11) 3.1.2 Phân tích hồi qui đa biến tuyến tính Các mơ hình hồi qui đa biến tuyến tính cĩ thể được thiết lập một cách tự động bởi các chương trình phân tích thống kê như SPSS, SAS, BMDP, MINITAB, Stagraphics-Plus, Microsoft EXEL, Stagraphics Centurion XV…. 3.1.2.1 Các thủ tục chọn biến Nhiều mơ hình hồi qui cĩ thể được xây dựng từ cùng một tập biến. Muốn sàn lọc các biến độc lập xi cĩ liên quan tuyến tính với biến phụ thuộc trong một nhĩm dữ liệu cĩ N trường hợp quan sát, người ta cĩ thể dùng nhiều phương pháp. Ba thủ tục phổ biến mà ta sẽ nghiên cứu là: đưa dần vào (forward selection), loại trừ dần (backward elimination), và hồi qui từng bước. Sau đây là các thủ tục chọn biến được thực hiện trong phần mềm Stagraphics Centurion XV.  Phương pháp đưa dần vào: biến đầu tiên được xem xét để đưa vào phương trình là biến cĩ tương quan thuận hay nghịch lớn nhất với biến phụ thuộc. Cĩ 2 tiêu chuẩn để đưa biến vào:  F-to-enter: là giá trị nhỏ nhất của thống kê F mà một biến phải đạt được để được đưa vào.  F-to-remove: là giá trị F tối thiểu mà thống kê F của biến độc lập đĩ phải đạt được để ở lại trong phương trình.  Phương pháp loại trừ dần: khởi đầu với tất cả các biến đều ở trong phương trình, sau đĩ loại trừ dần bằng tiêu chuẩn loại trừ. Cĩ hai tiêu chuẩn loại trừ:  F-to-enter: là giá trị nhỏ nhất của thống kê F mà một biến phải đạt được để được đưa vào.  F-to-remove: là giá trị F tối thiểu mà thống kê F của biến độc lập đĩ phải đạt được để ở lại trong phương trình.  Phương pháp chọn từng bước: là sự kết hợp của thủ tục đưa dần vào và thủ tục loại trừ dần, đây là phương pháp phổ biến nhất. Biến thứ nhất được chọn giống Chương 3 21 như cách chọn dần từng bước. Sau khi biến thứ nhất được đưa vào, thủ tục chọn từng bước khác với đưa dần vào ở chỗ biến thứ nhất được xem xét xem cĩ nên loại bỏ nĩ ra khỏi phương trình căn cứ theo tiêu chuẩn ra giống như thủ tục loại trừ dần. Các bước như thế được tiếp tục cho đến khi khơng cịn biến nào thỏa điều kiện ra nữa. 3.1.2.2 Đánh giá mơ hình Để đánh giá mức độ phù hợp của mơ hình với bộ dữ liệu thực nghiệm, người ta dùng các đại lượng sau:  Hệ số xác định (R2): bình phương hệ số tương quan giữa các giá trị yitính tính theo mơ hình hồi qui và các giá trị yi thực nghiệm.        N i i N i tính ii yy yy R 1 2 1 2 2 )( )( 1 (3.12) Trong đĩ: y là giá trị trung bình của các giá trị iy .  Ý nghĩa: R2 cho biết sự phù hợp của mơ hình với bộ dữ liệu thực nghiệm. Nếu giá trị R2 càng gần 1 thì mơ hình mơ tả tốt các số liệu thực nghiệm, các giá trị yitính tính tốn rất gần các giá trị yi thực nghiệm.  Hệ số 2R hiệu chỉnh ( 2aR ): được sử dụng để phản ánh sát hơn mức độ phù hợp của mơ hình MLR. 2aR khơng nhất thiết phải tăng lên khi nhiều biến được thêm vào phương trình. 1 )1( 222    kN RkRRa (3.13)  Tính tổng quát của mơ hình (Q2): Việc xác định tính tổng quát dựa trên phương pháp tham chiếu chéo (cross validation). Phương pháp này được thực hiện gồm các bước sau:  Chia ngẫu nhiên tập dữ liệu thành k tập con phân biệt.  Lặp lại k lần, mỗi lần chừa ra một tập con để kiểm tra, phần cịn lại để luyện Chương 3 22  Tính giá trị Q2 :        N i i N i tính ii yy yy Q 1 2 1 2 2 )( )( 1 (3.14) Giá trị Q2 càng gần 1 thì khả năng đốn nhận càng chính xác hay nĩi cách khác mơ hình cĩ khả năng tổng quát hĩa.  Khả năng dự đốn ngoại của mơ hình: phương pháp này được thực hiện như sau: chia bộ dữ liệu thành 2 nhĩm nhỏ, dùng một nhĩm luyện (training set) cĩ N trường hợp để thiết lập mơ hình hồi qui và sau đĩ dùng mơ hình ấy để dự đốn tác dụng của một nhĩm thử (test set) cĩ M trường hợp. Nếu mơ hình tìm được cĩ sự tuyến tính cao giữa các biến phụ thuộc và các biến độc lập thì phương pháp phân tích MLR cĩ ưu điểm sau:  Những mối quan hệ dữ liệu quan sát được mơ tả rõ ràng.  Là phương pháp đơn giản cho việc đốn nhận mẫu mới. Tuy nhiên phương pháp này sẽ khơng phù hợp trong những trường hợp mà giữa các biến độc lập cĩ liên hệ chặt chẽ với nhau hoặc số biến lớn hơn số mẫu quan sát. Nếu mơ hình khơng tuyến tính với các biến độc lập, khi đĩ ta cĩ mơ hình hồi qui phi tuyến. 3.2 PHƯƠNG PHÁP MẠNG NƠRON NHÂN TẠO (Artificial Neural Network) 2, 8, 19, 22 Trong thực tế, mối quan hệ giữa biến phụ thuộc và các biến độc lập thường là khơng tuyến tính, chẳng những như thế mà cĩ đơi lúc mối quan hệ này rất phức tạp. Việc áp dụng phương pháp phân tích hồi qui đa biến phi tuyến hay phi tham số vào việc khảo sát QSAR để mơ tả được các quan hệ này là điều khĩ khăn và hết sức cần thiết. Một trong những phương pháp xử lý số liệu mới được ứng dụng mạnh trong khảo sát QSAR là mạng nơron nhân tạo (ANN). Lý thuyết ANN được hai nhà bác học người Mỹ là McCulloch và Pitts đề xuất Chương 3 23 vào năm 1943, đến khoảng giữa thập niên 80 của thế kỷ XX thì nĩ bắt đầu thật sự được tìm hiểu và ứng dụng mạnh vào rất nhiều lĩnh vực khoa học – kỹ thuật khác nhau trong đĩ cĩ hố học. Dựa trên cơ sở hệ thần kinh của sinh vật, hai nhà bác học người Mỹ đã mơ phỏng lại và xây dựng ANN tạo nhằm mơ phỏng các mối quan hệ phức tạp giữa biến phụ thuộc và biến độc lập. ANN gồm những nơron là những đơn vị xử lý nhị phân mà cấu trúc và cách xử lý của nĩ được mơ phỏng và đơn giản hĩa từ cấu trúc và quá trình tiếp nhận – xử lý thơng tin phức tạp của bộ não con người. Để cĩ khái niệm tổng quát về mạng nơron, phần này sẽ giới thiệu sơ lược về cấu tạo và hoạt động của nơron sinh học, các thành phần cơ bản của nơron nhân tạo, cách truyền thơng tin, mạng lan truyền đa lớp và trạng thái hoạt động của mạng. 3.2.1 Nơron sinh học và nơron nhân tạo 3.2.1.1 Nơron sinh học Hình 3 Cấu tạo một nơron sinh học Hệ thần kinh con người bao gồm khoảng 1010 tế bào thần kinh hay cịn gọi là nơron. Một nơron sinh học tiêu biểu gồm một thân tế bào (soma hay cell body) với một nhân (nucleus) bên trong. Thân tế bào bao gồm nhiều sợi nhánh (dendrites) và sợi trục (axon). Cĩ dạng như hình trên. Những sợi nhánh cĩ nhiệm vụ nhận tín hiệu được tích lũy, sợi trục tiếp nhận tín hiệu và truyền sang một nơron khác ở vị trí khớp nối (synapse). Chương 3 24 Nhưng khơng phải lúc nào tín hiệu đưa vào cũng được truyền đi và truyền nguyên vẹn mà chỉ khi tín hiệu đĩ đạt đến một giới hạn nào đĩ và khi truyền qua synapse nĩ được biến đổi tùy thuộc vào lực synapse. Một tín hiệu cĩ cường độ xi khi qua synapse I sẽ cĩ cường độ là si ứng với lực synapse wi: si = xi . wi (3.15) 3.2.1.2 Nơron nhân tạo Cấu tạo của một nơron nhân tạo đơn (được mơ tả bởi hình sau: Hình 4 Cấu tạo một nơron nhân tạo Đầu vào của một nơron gồm các dữ liệu nhập hoặc từ đầu ra của các nơron khác. Người ta thường tổ hợp đầu vào bằng cách tính tổng trọng số dữ liệu nhập pi:    n i ii pwI 1 (3.16) Với wi là trọng số đặc trưng cho liên kết giữa nơi truyền dữ liệu (tín hiệu) đến và nơi nhận dữ liệu (tín hiệu). Giá trị đầu ra được tạo bằng cách dùng các hàm truyền (transfer function) f trên I: V = f(I) Trong ANN thường dùng các hàm truyền sau: p2 pn V = f(I) w1 w2 wn . . .    n i ii pwI 1 p1 Chương 3 25 3.2.2 Cấu trúc mạng nơron đa lớp Một mạng lan truyền tổng quát là mạng cĩ n (n > 2) lớp: lớp thứ nhất gọi là lớp nhập (input layer), lớp thứ n gọi là lớp xuất (output layer), và (n – 2) lớp ẩn (hidden layer). Số nút của lớp nhập và lớp xuất do bài tốn qui định, cịn số nút của lớp ẩn do người thiết kế mạng quyết định. Trong mạng lan truyền tiến, mỗi nút của lớp thứ i (0 < i < n) liên kết với mọi nút ở lớp thứ (i +1), và các nút trong cùng lớp khơng liên kết với nhau. Lớp nhập nhận dữ liệu vào và truyền lại cho tất cả các nơron cho lớp ẩn thứ nhất. Các nơron trong lớp ẩn thứ nhất tổ hợp các giá trị đầu vào và tạo lại đầu ra rồi truyền đi cho tất cả các nơron ẩn lớp kế tiếp… Lớp cuối cùng, lớp xuất, là lớp cho kết quả thật (giá trị biến phụ thuộc). Hình 5 Sơ đồ cấu tạo mạng nơron nhân tạo cĩ 3 lớp p1 p2 Pn a1 an wji wkj wlk Dữ liệu nhập Lớp xuất Lớp nhập Dữ liệu ra . . . . . . . . . Lớp ẩn Tanh xx xx ee eexf     )( - 1 0 1 0 1 Logistic (sigmoid) x x e exf   1 )( Threshold 0 if x< 0 f(x) = 1 if x >= 1 Chương 3 26 Mạng lan truyền chỉ cĩ thể ở một trong hai trạng thái: trạng thái ánh xạ và trạng thái học.  Ở trạng thái ánh xạ, thơng tin lan truyền từ lớp nhập đến lớp xuất và mạng thực hiện ánh xạ để tính được các biến phụ thuộc như sau: trước tiên, các nơron nhập nhận các giá trị biến độc lập được đưa vào, mỗi nơron nhập chuyển giá trị nĩ nhận được cho tất cả các nơron ẩn của lớp ẩn kế cận. Mỗi nơron ẩn tính tổng trọng hĩa của tất cả các dữ liệu nhập. Sau đĩ một hàm truyền được áp dụng lên tổng trọng để nén chúng vào một miền giới hạn của hàm truyền (tùy mỗi loại hàm truyền mà ta sử dụng sẽ cĩ miền giới hạn khác nhau). Mỗi nơron ẩn này lại chuyển kết quả của mình đến các nơ ron ở lớp kế tiếp… cho đến các nơron lớp xuất. Mỗi nút xuất thực hiện các thao tác tương tự như đã thực hiện trong nút ẩn để cho ra giá trị kết xuất của nút xuất – là giá trị của các biến phụ thuộc cần xác định.  Trạng thái học: bản chất ánh xạ do mạng thực hiện tùy thuộc vào giá trị các trọng số trong mạng. Lan truyền ngược là một phương pháp cho phép xác định tập trọng tốt nhất của mạng để giải một bài tốn được cho. Việc áp dụng phương pháp lan truyền ngược là một quá trình lặp đi lặp lại nhiều lần hai tiến trình chính: ánh xạ và lan truyền ngược sai số. Hai tiến trình này được áp dụng trên một tập mẫu xác định. Ta gọi chung tiến trình này là học hay luyện mạng. Một lợi ích của mạng lan truyền là cĩ thể xây dựng mơ hình nhiều kết xuất. Cĩ thể nĩ địi hỏi ít cơng việc hơn và ít tính tốn máy hơn. Ngồi ra một mơ hình duy nhất sẽ cĩ tính nhất quán mà những mơ hình phát triển riêng biệt khơng thể cĩ. 3.2.3 Luyện mạng: Kỹ thuật lan truyền ngược Quá trình luyện mạng được bắt đầu với các giá trị trọng số tùy ý, và tiến hành lặp đi lặp lại. Mỗi lần lặp được gọi là một thế hệ (epoch). Trong mỗi thế hệ, mạng hiệu chỉnh các trọng số sao cho sai số (độ lệch giữa các kết xuất và giá trị đích) giảm dần. Tiến trình điều chỉnh nhiều lần giúp cho trọng dần dần đạt được tập giá trị tối ưu. Để cập nhật trọng số trong mỗi thế hệ luyện, mạng phải xử lý tất cả các mẫu trong tập mẫu. Đầu tiên mạng thực hiện phép tốn lan truyền tiến, nghĩa là mạng thực hiện ánh xạ các biến nhập của mẫu hiện hành thành các giá trị xuất. Sau đĩ, xác xuất được tính dựa trên sai số của kết xuất và giá trị đích. Trên cơ sở sai số tính tốn, mạng Chương 3 27 sẽ cập nhật lại bộ trọng số theo nguyên tắc lan truyền ngược sai số - gọi là giai đoạn lan truyền ngược (back propagation). Kỹ thuật cơ bản trong lan truyền ngược là cập nhật bộ trọng số theo hướng giảm gradient. Ví dụ khi áp dụng trong QSAR, trước hết mạng tính các kết xuất hoạt tính ai theo các dữ liệu nhập (các thơng số cấu trúc) từ các trọng số đã khởi tạo ban đầu. Sau đĩ tính gradient ig . Cuối cùng chỉnh sửa các trọng số wi+1 cho vịng lặp kế tiếp theo gradient ig và tốc độ luyện hiện tại: iiii gww 1 (wi là trọng số hiện tại). Các bước này được thực hiện lặp lại nhiều lần cho đến khi đạt được điều kiện ngừng luyện. Hình 6 Sơ đồ kỹ thuật lan truyền ngược 3.2.4 Ngừng tiến trình luyện Khi mạng được luyện, ánh xạ của nĩ dần dần trở nên phức tạp. Nĩ sẽ băng qua một cấu hình tổng quát hĩa tốt nhất tại một điểm nào đĩ; sau điểm đĩ, mạng sẽ học để mơ hình hĩa nhiễu, khi đĩ mạng sẽ trả lời chính xác những gì nĩ được học, cịn đối với các dữ liệu mới thì mạng cho kết quả hồn tồn sai. Hiện tượng này được gọi là hiện Input (giá trị thực) W1 W2 W3 Output (giá trị tính) Output (giá trị thực) W1 điều chỉnh W2 điều chỉnh W3 điều chỉnh Điều chỉnh Sai số Chương 3 28 tượng quá luyện hay quá khớp (overfitting). Nếu ta cĩ thể xác định được thời điểm mạng đạt đến điểm đĩ, ta cĩ thể ngừng luyện trước khi xảy ra quá khớp và cĩ thể sử dụng cấu hình mạng tổng quát hĩa tốt nhất này. Thường tiêu chuẩn ngừng luyện là dựa trên gradient lỗi, mạng sẽ luyện đến khi khơng cịn lỗi hoặc lỗi nhỏ hơn một giá trị nào đĩ do ta cho trước. Nhưng khi mạng được luyện đến khơng cịn lỗi thì mạng khơng cịn tính tổng quát hố nghĩa là lúc đĩ mạng bị quá luyện. Ta cĩ thể ngăn ngừa hiện tượng quá luyện bằng cách tìm giá trị gradient lỗi và số nút ẩn phù hợp. Điều này địi hỏi nhiều thời gian. Nếu khơng bị giới về khả năng tính tốn (phần cứng) thì ta cĩ thể cho mạng một lượng nút ẩn thừa để luyện và dùng phương pháp dừng luyện bằng bộ kiểm tra. Phương pháp này được thực hiện như sau: chia bộ mẫu ra thành ba tập, tập số một dùng để luyện mạng, tập số hai dùng để kiểm tra hiện tượng quá khớp, bộ số ba dùng để kiểm tra tính tổng quát hố của mạng. Luyện mạng với tập mẫu luyện nhưng định kì ngừng luyện để đánh giá sai số trên tập mẫu kiểm tra (khi đánh giá sai số trên tập mẫu kiểm tra, ta chỉ cần thực hiện ánh xạ cho từng mẫu mà khơng phải trải qua giai đoạn lan truyền ngược). Khi sai số trong mẫu kiểm tra đi lên, thì quá khớp đã bắt đầu. Khi đĩ, ta ngừng luyện, trở về các trọng sinh ra lỗi thấp nhất trên mẫu kiểm tra, và dùng các trọng đĩ cho mơ hình của ta. Như vậy, song song với tiến trình luyện ta phải tính sai số trên tập mẫu kiểm tra. 3.2.5 Các yếu tố ảnh hưởng đến tính tổng quát hố của mạng nơron Mạng cĩ tính tổng quát hố khi nĩ cĩ thể dự đốn tốt các dữ liệu mới. Các yếu tố ảnh hưởng nhiều đến tính tổng quát hố của mạng là:  Kích thước tập mẫu: mạng học để mơ hình hĩa dữ liệu và cĩ thể mơ hình hĩa cả nhiễu, cĩ thể ngăn nĩ quá khớp bằng cách tạo mẫu luyện đủ lớn để bù cho mức nhiễu trong dữ liệu. Nhưng việc tăng mẫu thường gặp phải khĩ khăn trong thực hành vì thực tế mẫu hiếm khi đủ lớn để ngăn được nhiễu.  Số nút ẩn: mỗi trọng số trong mạng là một tham số làm tăng khả năng của mạng, số trọng số trong mạng là một hàm theo số nút của mạng, nĩ quyết định mức độ Chương 3 29 tự do mà mạng cĩ thể khớp với dữ liệu. Do đĩ, mạng chỉ đạt được trạng thái tối ưu khi tìm được số nút ẩn phù hợp. Để tìm số nút ẩn tối ưu thì phải luyện nhiều mạng với số nút ẩn khác nhau. Hơn nữa, phải luyện cho đến khi mạng hội tụ. Phương pháp này cũng tạm ổn nhưng địi hỏi thời gian máy tính khá nhiều. Quá trình tìm mạng tối ưu chủ yếu tập trung vào việc tìm số nút ẩn, nhưng số nút nhập cũng quan trọng. Khi dùng nhiều nút nhập ta sẽ cho mạng nhiều mức tự do hơn – nhiều khả năng để mơ hình hĩa một cách chính xác các hàm phức tạp, hay nhiều khả năng để quá khớp.  Thời gian luyện mạng cũng quan trọng khơng kém. Trong thực tế, việc luyện mạng đến hội tụ là một bài tốn khơng dễ. Giai đoạn luyện cĩ thể rất dài khi phải luyện đến giá trị gradient lỗi rất nhỏ cho đến khi một nút ẩn nào đĩ tìm được giá trị tối ưu. Vì vậy, mạng cần đủ thời gian để luyện và dừng luyện đúng lúc. Mạng chỉ cĩ giá trị sử dụng khi cĩ tính tổng quát hố cao.  Chương 4 30 Chương 4 CHẤT ĐUỔI MUỖI VÀ N-ACYLPIPERIDINE ---------- 4.1 BỆNH DO MUỖI GÂY RA VÀ CÁC HĨA CHẤT ĐUỔI MUỖI 13-15 Muỗi đốt, ngồi chuyện khĩ chịu, ngứa ngáy tại chỗ, muỗi cịn là trung gian truyền một số bệnh ký sinh trùng ở nhiều vùng nhiệt đới và cận nhiệt đới. Sau đây là một vài bệnh nguy hiểm thường gặp:  Sốt rét là một chứng bệnh gây ra bởi ký sinh trùng loại protozoa tên Plasmodium, lây truyền từ người này sang người khác khi những người này bị muỗi đốt. Muỗi lan truyền bệnh là những lồi Anopheles, thuộc nhĩm Plasmodium. Chúng hút máu người bệnh, tiêu hĩa máu nhưng khơng tiêu hĩa ký sinh trùng. Bệnh phổ biến ở các khu vực nhiệt đới và cận nhiệt đới của châu Mỹ, châu Á và châu Phi. Sốt rét là một trong những bệnh truyền nhiễm phổ biến nhất và là vấn đề nghiêm trọng đối với sức khoẻ cộng đồng. Bệnh cĩ thể chữa và phịng bằng thuốc căn bản Chloroquine.  Sốt Dengue cịn gọi là Sốt Đập Lưng (breakbone fever) do muỗi Aedes Aegyti truyền virus từ người bệnh sang người lành. Bệnh ít gây tử vong ngoại trừ trường hợp Sốt Đập Lưng Xuất Huyết thường thấy ở các quốc gia Đơng Nam Á và châu Mỹ La Tinh. Bệnh nhân cĩ triệu chứng như đau xương khớp, nhức đầu, nĩng sốt, nổi ban trên da và làm cơ thể suy nhược. Khơng cĩ thuốc chữa khỏi bệnh mà cũng chưa cĩ thuốc tiêm ngừa. Sốt xuất huyết đang là vấn đề nan giải của mọi quốc gia vì dịch bệnh ngày một gia tăng.  Sốt vàng (Yellow Fever) là chứng bệnh sốt gây vàng da do siêu vi trùng thuộc họ Flaviviridae gây ra. Đây là một chứng bệnh sốt xuất huyết quan trọng tại Châu Phi và Nam Mỹ mặc dầu hiện nay đã cĩ vắc-xin hiệu nghiệm. Sốt vàng từng gây nhiều trận dịch tàn khốc, gây tử vong khắp nơi cho đến thế kỷ 20 khi khoa học khám phá ra bệnh lây do muỗi đốt và nghiên cứu được phương cách phịng chống bằng vắc-xin. Sốt vàng cũng do muỗi Aedes Aegypti truyền một loại virus.  Bệnh Giun Chỉ (Filariasis) cĩ nhiều ở vùng nhiệt đới và bán nhiệt đới. Giun Chương 4 31 chỉ bạch huyết (Lymphatic filariasis) là một bệnh nhiễm ký sinh trùng Wuchereria bancrofti, Brugia malayi hoặc Brugia timori. Lồi ký sinh trùng này được truyền từ người này sang người khác do muỗi đốt và phát triển thành giun trưởng thành trong hệ mạch bạch huyết, gây nên tổn thương và tổ chức sưng phồng. Bệnh phù chân voi (Elephantiasis) gồm đau, biến dạng chi cơ thể và cơ quan sinh dục - đây là các dấu hiệu cổ điển trong giai đoạn muộn của bệnh này. Bệnh cĩ thể chữa được bằng thuốc diethylcarbamazine.  Viêm não Nhật Bản: tác nhân truyền bệnh là muỗi Culicinea tritaeniorhyunchus, thường cĩ ở nơng thơn. Người là ký chủ trong chu trình truyền bệnh và thường trẻ em mắc bệnh nhiều hơn người lớn. Tỉ lệ tử vong từ 7-33% hay cao hơn nhưng tỉ lệ di chứng ngược lại với tỉ lệ tử vong . Các di chứng của bệnh thường là liệt dai dẳng, mất điều hịa trương lực, chậm phát triển trí tuệ và rối loạn tính cách. Vì đây là bệnh do virus gây ra nên các hiểu biết bệnh học cịn nhiều hạn chế. Việc điều trị dựa vào điều trị triệu chứng và tiêm phịng là chủ yếu. Các vấn đề về phịng tránh, xua đuổi hay tiêu diệt muỗi đã được con người quan tâm từ lâu. Nĩ là vấn đề nan giải của nhiều quốc gia trên thế giới. Hình 7 Thuốc xịt muỗi và muỗi thuộc nhĩm Plasmodium Từ xưa, con người đã biết dùng hĩa chất để đuổi muỗi như đốt vỏ cam quýt và một số thảo mộc cĩ chứa tinh dầu hoặc dùng nhiệt để tạo điều kiện phát tán các hương liệu đối kháng với muỗi, hay dùng các loại cây củ tươi như hành tây cắt đơi đặt trong phịng,… Các phương pháp dân gian này cĩ nhiều hạn chế là khơng giết được muỗi, chỉ đuổi được muỗi trong khoảng thời gian và một vùng khơng gian nhất định, đơi khi lại cịn gây ra phiền hà đối với nhiều người khác. Chương 4 32 Ngày nay, thuốc đuổi muỗi thơng dụng sử dụng các hĩa chất tổng hợp – được điều chế thơng qua cơng nghệ cao và tiên tiến của ngành dược phẩm. Sau đây là một vài hĩa chất được sử dụng trong sản phẩm thuốc đuổi muỗi đã đăng kí với Cơ quan Bảo Vệ Mơi Sinh của Hoa Kì US EPA (United State Environmental Protection Agency):  DEET tên hĩa học là N,N-diethyl-meta-toluamide hoặc N,N-diethyl-3- methyl-benzamide là thành phần hoạt chất được tìm thấy trong nhiều sản phẩm đuổi muỗi nhất. DEET được điều chế vào năm 1946 sau khi chiến tranh thế giới lần thứ 2 nhấn mạnh cần ngăn ngừa muỗi và các cơn trùng khác đốt chích. DEET được sử dụng hơn 50 năm nay và được xem là “tiêu chuẩn vàng” cho các hoạt chất đuổi muỗi. Kể từ năm 1957 hĩa chất này đã cĩ mặt ở khắp mọi nơi và là hĩa chất chống muỗi và các lồi cơn trùng hút máu khác được sử dụng rộng rãi nhất trên thế giới. Hĩa chất DEET hoạt động bằng cách làm cho muỗi và họ hàng nhà muỗi khơng thể đánh hơi mùi mồ hơi hấp dẫn của con người ở gần đĩ. Một cuộc nghiên cứu mới được thực hiện gần đây cho thấy những kết quả như sau:  Một sản phẩm chứa 23.8% DEET cĩ cơng dụng ngăn muỗi cắn khoảng 5 giờ đồng hồ.  Một sản phẩm chứa 20% DEET cĩ cơng dụng ngăn muỗi cắn gần 4 giờ đồng hồ.  Một sản phẩm chứa 6.65% DEET cĩ cơng dụng ngăn muỗi cắn gần 2 tiếng đồng hồ.  Những sản phẩm chứa 4.75% DEET và 2% dầu đậu nành: cả hai loại này đều cĩ cơng dụng ngăn muỗi cắn trong vịng khoảng 90 phút đồng hồ. Ủy ban Sức Khỏe Mơi Trường của Hội Bác Sĩ Nhi Khoa Hoa Kỳ (The American Academy of Pediatrics Committee on Environmental Health) mới đây cho biết những sản phẩm chứa DEET cĩ thể dùng một cách an tồn cho trẻ em và cho phụ nữ mang thai hoặc đang cho con bú.  Picaridin (tên hĩa học là 1-methylpropyl 2-(2-hydroxyethyl)- 1-piperidinecarboxylat) là chất lỏng khơng màu khơng mùi được sử dụng như là thuốc diệt cơn trùng như ruồi, muỗi, chiggers, và bọ ve. Các sản phẩm cĩ chứa khoảng Chương 4 33 5-20% hoạt chất.  Tinh dầu bạch đàn chanh được tìm thấy trong lá và cành cây bạch đàn. Nĩ đã được đăng ký đầu tiên vào năm 1948 như là một thuốc trừ sâu và thuốc diệt cơn trùng và bọ ve. Như với hầu hết các loại dầu thực vật, khơng cĩ tác dụng phụ cho con người. Sản phẩm cĩ chứa khoảng 30–40% của các thành phần hoạt chất.  PMD (p-mentane-3,8-diol) là hĩa chất tổng hợp của tinh dầu bạch đàn chanh. Nĩ được áp dụng cho da hoặc quần áo để xua đuổi cơn trùng. Sản phẩm cĩ chứa 8-10% thành phần hoạt chất cĩ tác dụng bảo vệ như DEET ở nồng độ thấp.  IR3535 (tên hĩa học là etyl 3-(N-butyl-N-axetyl)-aminopropionat), cũng được gọi là Merck 3.535, được sử dụng như một thuốc diệt cơn trùng chống muỗi và lồi cắn đốt khác. Sản phẩm cĩ chứa khoảng 7.5-20.07% của các thành phần hoạt chất.  Permethrin được đăng ký để sử dụng như một loại thuốc trừ sâu và thuốc đuổi muỗi. Sản phẩm Permethrin được sử dụng trên quần áo, giày, lưới, giường. Permethrin dùng ngâm tẩm quần áo, giầy dép như một cách phịng chống bọ ve, muỗi, các lồi cơn trùng và vẫn cịn hiệu quả sau khi giặt rửa nhiều lần.  Allethrin là hĩa chất đuổi muỗi thường được sử dụng cho vùng khơng gian rộng, là chất dễ bay hơi, được sử dụng trong các sản phẩm thương mại như nhang, miếng dán, nến và đèn xơng muỗi. Hiện thị trường cĩ nhiều sản phẩm phịng chống muỗi với những cách thức sử dụng khác nhau. Loại diệt muỗi bằng nhang hoặc bình xịt (với các nhãn hiệu như Mosfly, Jumbo, Raid Max...); loại thuốc chống muỗi dùng cho cá nhân dưới dạng kem bơi (Soffell) hay thuốc xịt lên da cĩ hương thơm; loại máy xơng muỗi, máy bắt muỗi; keo dán đuổi muỗi;… Tuy nhiên, nguyên liệu của các các loại sản phẩm này là hĩa chất đều gây ra tác dụng phụ đến sức khỏe con người nên khi sử dụng cần lưu ý cơng dụng để cĩ cách sử dụng hiệu quả, phù hợp và an tồn cho sức khỏe. 4.2 N-ACYLPIPERIDINE - CHẤT ĐUỔI MUỖI MỚI 18, 29, 31 Dữ liệu ban đầu về cấu trúc và hoạt tính của các chất họ piperidines được lấy từ bộ dữ liệu về các hợp chất đuổi muỗi của Bộ Nơng Nghiệp Hoa Kì USDA (United States Department of Agricuture) đã thu thập hơn 50 năm18. Các nhà khoa học của trường đại học Florida (Mỹ) kết hợp với USDA đã nghiên cứu sàn lọc ra 200 chất từ Chương 4 34 hàng ngàn hợp chất tiềm năng, họ tập trung cuộc tìm kiếm chủ yếu trên các hợp chất N-acylpiperidine (thành phần làm cho hạt tiêu cĩ vị cay). Cơng thức tổng quát của các dẫn xuất N-acylpiperidine như sau: NR O R' 1 2 3 4 5 6 7 8 9 Từ bộ dữ liệu lựa chọn, họ dùng chương trình máy tính thiết kế thuốc, chương trình này sử dụng những thơng tin về các cấu trúc hĩa học và tác dụng của các hợp chất này trên các thụ quan của cơn trùng để tiên đốn tính hữu hiệu của chất đuổi muỗi. Chương trình máy tính này cho phép các nhà khoa học thu hẹp các hợp chất xuống cịn 11 chất. Từ những thơng tin cĩ được từ 11 chất đĩ, họ tổng hợp thêm 23 chất, sau đĩ họ kiểm nghiệm 34 chất này với các đối tượng tình nguyện trong phịng thí nghiệm. Những người tình nguyện đã đeo các miếng băng vào cánh tay thấm đầy các liều lượng xác định mỗi hợp chất và cho tay vào lồng chứa muỗi. Mỗi lồng chứa khoảng 500 con muỗi cái 5–10 ngày tuổi, nhiệt độ trong lồng là 28 1C và độ ẩm tương đối là 35–60 %. Các nhà nghiên cứu đã đo đạc tính bền bỉ của các hợp chất – thời gian cho tới khi chất đuổi muỗi phai hết – và điều này được đánh dấu bằng việc bắt đầu bị muỗi chích. Cuộc nghiên cứu đưa ra kết quả “đầy kinh ngạc” đối với các nhà khoa học, nĩ cho thấy những chất này bảo vệ được nhiều hơn gấp 3 lần hĩa chất DEET – chất đuổi muỗi hiệu quả nhất hiện nay. Những hợp chất này cĩ hiệu quả lâu nhất trong vịng 73 ngày và nhiều chất cĩ thời gian bảo vệ từ 40 đến 50 ngày so với DEET là 17.5 ngày. Các nhà nghiên cứu dự định tiếp tục kiểm nghiệm trên 7 trong số các hợp chất nhiều hứa hẹn nhất với mục đích xác định được thế hệ hĩa chất DEET kế tiếp và sẽ tiếp tục quan sát xem việc chúng chống lại các lồi cơn trùng hiệu quả như thế nào. Chương 4 35 Hình 8 Thí nghiệm hoạt tính sinh học * Những phát hiện thú vị về muỗi và thuốc đuổi muỗi gần đây 13, 14  Gần đây nhà nghiên cứu Hector Douglas tại trường Đại học Alaska Fairbanks đã phát hiện được lồi chim sẻ biển cĩ lơng vũ cĩ khả năng tiết ra chất cĩ thành phần tương tụ như DEET cĩ khả năng đuổi muỗi.  Nghiên cứu của trợ lý giáo sư Mike Tyler từ Đại học Adelaide và nhà cơn trùng học Craig Williams từ Đại học James Cook cho thấy: ếch sản xuất ra một loạt hố chất ở trên da, một số lồi lưỡng cư như một lồi ếch xanh ở Australia cũng cĩ thể bài tiết ra dịch đuổi muỗi...  Nhĩm nghiên cứu của James Logan thuộc Trung tâm Nghiên cứu Rothamsted (Anh quốc) đã tìm được thuốc đuổi muỗi từ chính mồ hơi của một số tình nguyên viên và họ đã tìm được thuốc đuổi muỗi do chính cơ thể củanhững người này để tìm cách tổng hợp một loại hĩa chất tương đương cĩ thể đuổi muỗi và tương thích cao với sức khỏe con người – chất này gần như khơng mùi đối với con người, song hiện nay vẫn đang trong thời gian thử nghiêm hoặc chỉ cĩ ở mức độ phịng thí nghiệm.  Trong một nghiên cứu vừa được cơng bố trên tạp chí Current Biology (Mỹ), một nhĩm chuyên gia quốc tế đã lập được sơ đồ chi tiết của cơ quan cảm thụ mùi mà muỗi Anopheles sử dụng để tìm con người hút máu và truyền bệnh sốt rét. Qua đĩ, các nhà khoa học đã phát hiện khả năng tiếp nhận mùi nhạy bén của xúc tu, một bộ phận xuất phát từ đầu muỗi. Cùng với râu, xúc tu này giúp muỗi Anopheles cĩ khả năng ngửi và nếm. Theo nhĩm nghiên cứu, muỗi Anopheles sử dụng xúc tu để phát hiện Vải chưa xử lý hĩa chất Vải đã xử lý hĩa chất Chương 4 36 mục tiêu từ xa; cịn trong những pham vi gần, nĩ dùng vịi để cảm nhận. Biết được cơ chế mà chúng sử dụng để phát hiện và tấn cơng con người, các chuyên gia cĩ thể tạo ra các chất mới để xua đuổi hoặc dẫn dụ chúng vào bẫy để tiêu diệt, gĩp phần hạn chế bệnh sốt rét – một căn bệnh hiểm nghèo mang tính phổ biến nhất hiện nay. Nghiên cứu này lấp đầy một khoảng trống về hiểu biết khoa học với hệ thống khứu giác của muỗi.  Hiện nay, các nhà khoa học đang nghĩ cách diệt muỗi hữu hiệu hơn bằng cách lập bản đồ gen của muỗi truyền bệnh. Qua đĩ thay đổi cơ cấu di truyền của muỗi để muỗi cái khơng thể mang ký sinh trùng sốt rét. Đầu năm 2002, một nhĩm nghiên cứu ở Đại học Cleveland (Ohio) đã cấy thành cơng một gen mới của lồi muỗi Anophele Stephensi chống lại ký sinh trùng sốt rét, nghĩa là khơng cịn là trung gian truyền bệnh, gen nay cĩ tác dụng: thay đổi các thụ thể nhận mùi của muỗi để muỗi chích động vật thay vì chích người; sử dụng cơng nghệ triệt sản cơn trùng (Sterile Insect Technique –.SIT) nghĩa là chiếu tia gamma vào muỗi đực, tạo ra giống muỗi đực triệt sản khơng cịn khả năng thụ tinh để giảm mật độ sinh sơi ở muỗi.  C. PHƯƠNG PHÁP Chương 5 37 Chương 5 PHẦN MỀM SỬ DỤNG VÀ CÁC BƯỚC THỰC HIỆN ---------- 5.1 PHẦN MỀM 5.1.1 Hyperchem 8.03 Chương trình HyperChemTM 8.03 được dùng để xây dựng cấu trúc phân tử, tối ưu hố hình học, tính các tham cấu trúc. Đây là chương trình được ứng dụng rộng rãi vì cĩ độ chính xác cĩ thể đáp ứng yêu cầu đặt ra trong lĩnh vực thiết kế phân tử với nhiều tính năng như: xây dựng cấu trúc, tối thiểu hĩa năng lượng, tính tốn tham số lượng tử, trình bày cấu trúc ba chiều. 5.1.2 Statgraphics Centurion XV Statgraphics Centurion XV là phần mềm phân tích dữ liệu thống kê chuyên dụng, được sử dụng để xây dựng mơ hình MLR. Nĩ cĩ hơn 160 chương trình thống kê, bao gồm từ phân tích thống kê cơ bản đến phức tạp. Người dùng khơng nhất thiết phải là một chuyên gia về thống kê bởi vì chương trình này đã cĩ các cơng cụ như StatWizard và StatAdvisor giúp người dùng sử dụng một cách hiệu quả nhất. 5.1.3 NeuroSolution 5.07 NeuroSolutionTM 5.07 là phần mềm mơ phỏng ANN. NeuroSolution for Excel là một sản phẩm đột phá của phần mềm NeuroSolutionTM 5.07. Nĩ được tích hợp trong Microsoft Excel giúp cho người dùng dễ dàng sử dụng với giao diện quen thuộc trong bảng tính của Microsoft Excel. Nĩ khơng chỉ dành cho người mới bắt đầu học về ANN mà cịn là cơng cụ mơ hình hĩa mạnh mẽ để giải quyết bài tốn hồi qui phi tuyến. 5.1.4 Microsoft Excel Microsoft Excel được dùng để nhập dữ liệu ban đầu, vẽ các đồ thị biểu diễn các mối quan hệ của hoạt tính và các tham số cấu trúc, truy xuất dữ liệuvào phần mềm NeuroSolution cho việc tính tốn mạng, lưu trữ các kết quả sau khi mạng luyện. 5.2 CÁC BƯỚC THỰC HIỆN Chương 5 38 5.2.1 Tính tốn hĩa lượng tử  Xây dựng mơ hình cấu trúc phân tử của các dẫn xuất N-acylpiperidine bằng phần mềm HyperChem 8.03  Tối ưu hố hình dạng các mơ hình vừa xây dựng bằng phương pháp gần đúng PM3 với các thơng số sau:  Convergence limit: 10-4  Iteration limit: 300  RHF  RMS gradient: 10-4  Thuật tốn Polak-Ribiere  Từ những cấu trúc đã tối ưu ở trên, tính tốn những thơng số đặc trưng cho cấu trúc đĩng vai trị là các biến độc lập để xây dựng mơ hình. 5.2.2 Phân tích hồi qui tuyến tính đa biến  Chia bộ dữ liệu thành hai tập: một tập để xây dựng mơ hình (27 chất), một tập để kiểm tra khả năng dự đốn của mơ hình (7 chất).  Xác định số biến độc lập thích hợp: tất cả các biến độc lập (20 biến – xem chương 6) khơng phải được đưa hết vào mơ hình. Mặc dù việc thêm biến độc lập vào làm tăng hệ số tương quan R2, nhưng nĩ chỉ tốt khi chúng cĩ liên hệ mạnh với biến phụ thuộc. Mơ hình được chọn ứng với mơ hình cĩ Q2 cao nhất, kế đĩ là số biến độc lập nhỏ nhất và cuối cùng là R2. Thực hiện tính tốn Regression Model Selection để chọn mơ hình cĩ các biến tối ưu.  Lập mơ hình thích hợp với số biến đã chọn: sau khi lựa chọn được số biến thích hợp thì tiến hành phân tích MLR. Khi đĩ thu cĩ được hằng số và hệ số cho từng biến của mơ hình.  Tính Q2 bằng cách thực hiện tham chiếu chéo trên tập dữ liệu xây dựng mơ hình với thành phần bỏ ra là 3 (xem chương 3).  Nhận xét về mơ hình đạt được.Tính tốn hoạt tính cho các tập dữ liệu theo mơ hình thu được. Chương 5 39 5.2.3 Tính tốn mạng nơ ron  Chia bộ dữ liệu thành hai tập: một tập dùng để luyện mạng cĩ kiểm tra chéo (traing set - 27 chất), một tập kiểm tra khả năng dự đốn của mạng (test set - 7 chất).  Sự lựa chọn biến độc lập được thực hiện từ những thơng tin độ nhạy sau khi mạng luyện với tồn bộ biến ứng với số nút ẩn bằng 1. Phần mềm NeuroSolution 5.07 cĩ chức năng phân tích độ nhạy (Sensetivity about the mean) là đo mức độ quan trọng tương đối giữa các input của mạng. Nĩ phân tích sự biến thiên của hoạt tính theo sự biến thiên của của một input trong vùng xung quanh giá trị trung bình trong khi vẫn giữ nguyên các input khác. Các biến chọn theo giá trị độ nhạy từ cao xuống thấp mà với bộ biến này cĩ thể luyện được mạng cho kết quả kiểm tra trên bộ test tương đương hoặc tốt hơn với kết quả kiểm tra của mạng ban đầu.  Xây dựng cấu trúc mạng nơron được thực hiện bằng NeuralBuilder tiến hành theo các bước sau:  Nhập dữ liệu (Tag): bằng cách dán nhãn cho các cột trong chức năng Tag (input – dữ liệu nhập, disire – giá trị đích), hàng (training – luyện, cross validation – tham chiếu chéo, test – kiểm tra).  Thiết kế mạng (Create Network) gồm các bước:  Chọn loại mạng (choosing a neural network): NeuralBuilder cĩ 11 tùy chọn cho loại mạng, mỗi loại cĩ những ưu điểm riêng phụ thuộc vào mục đích sử dụng và tính chất của bài tốn. Trong luận văn này, chọn Multiplayer Perceptron cho việc giải bài tốn.  Hình 9 Các loại mạng trong NeuroBuilder Chương 5 40  Thiết lập số lớp ẩn, số nơron ở lớp nhập, số nơron ở lớp ẩn và ở lớp xuất: xây dựng mạng nơron gồm ba lớp là một lớp nhập cĩ số nơron là các biến độc lập, một lớp ẩn cĩ số nơron thay đổi, một lớp xuất cĩ hai nơron đại diện cho hoạt tính ở hai nồng độ khác nhau. Ở bước này chỉ cần thiết lập số nơron cho lớp ẩn, NeuralBuilder sẽ tự động thiết lập số nơron nhập và nơron xuất khi ta thực hiện bước Tag.  Chọn hàm truyền: chọn hàm truyền ở lớp ẩn là hàm Sigmoid (kí hiệu là SigmoidAxon), hàm kích động ở lớp xuất là hàm tuyến tính (kí hiệu là LinearAxon), dùng phương pháp lan truyền ngược để cập nhật bộ trọng số. Trong phần mềm NeuroSolution 5.07, NeuroBuilder sẽ tự động chuẩn hĩa dữ liệu nhập vào vùng giới hạn của hàm truyền. Thí dụ: nếu dùng hàm truyền của lớp ẩn là hàm Sigmoid thì dữ liệu sẽ được chuẩn hĩa trong khoảng 0 và 1. Hình 10 Các loại hàm truyền trong NeuroBuilder  Ở đây dùng điều kiện dừng luyện là giá trị ngưỡng tối thiểu của trung bình bình phương sai số MSE (Mean Square Error) trên bộ luyện. Để xác được giá trị này cần phải thử luyện mạng nhiều lần với các giá trị MSE thay đổi dần để mạng cĩ thể luyện tốt mà vẫn cịn khả năng đốn tốt. Đây là bước quan trọng và mất nhiều thời gian. Sau khi xây dựng cấu trúc mạng xong, phải lưu lại cấu trúc mới cĩ thể tiếp tục luyện mạng được. Chương 5 41 Hình 11 Bảng NeuralBuilder Supervised Learning  Luyện mạng: khi cấu trúc mạng đã được xây dựng thì bắt đầu luyện mạng lần lượt với các nút ẩn thay đổi từ 1 đến 10. Số nơron trên lớp ẩn là một thơng số quan trọng trong mạng nơron. Nếu mạng cĩ ít nơron trên lớp ẩn thì mạng khơng lấy được đầy đủ nhưng thơng tin trong bộ dữ liệu, ngược lại nếu cĩ quá nhiều nơron sẽ xảy ra hiện tượng quá luyện.  Kiểm tra mạng: sau mỗi lần luyện mạng thành cơng thì kiểm tra mạng trên bộ training và bộ test. Trong quá trình thực hiện, để lấy được giá trị R2 và Q2 ta luyện mạng bằng hai cách luyện khác nhau:  Tính R2: luyện mạng với chức năng Training, sau đĩ kiểm tra mạng trên bộ training và bộ test ta sẽ cĩ giá trị R2 và R2test.  Tính Q2: luyện mạng với chức năng Leave-N-out, khi đĩ NeuroSolution for Excel sẽ đưa ra giá trị Q2. D. KẾT QUẢ VÀ BÀN LUẬN Chương 6 42 Chương 6 KHẢO SÁT MỐI QUAN HỆ ĐỊNH LƯỢNG GIỮA CẤU TRÚC VÀ HOẠT TÍNH CỦA CÁC DẪN XUẤT N-ACYLPIPERIDINE ---------- 6.1 DỮ LIỆU Dữ liệu được sử dụng trong luận văn này gồm 34 chất dẫn xuất của N-acylpiperidine đã được tổng hợp và thí nghiệm sinh học bởi nhĩm nghiên cứu của trường Đại học Florida (Mỹ) và Bộ Nơng nghiệp Hoa Kì (United States Depertment of Agriculture). Cơng thức tổng quát của các dẫn xuất N-acylpiperidine và qui ước đánh số trên các nguyên tử như sau: NR O R' 1 2 3 4 5 6 7 8 9 Bảng 1 Cấu trúc và hoạt tính của dẫn xuất N-acylpiperidine[17] Hợp chất Kí hiệu R R′ PT, d ( 25 µmol/cm2) PT, d ( 2.5 µmol/cm2) 4a Me 2-Me 2 2 4b Et H 5 4 4c Et 2-Et 5 3 4d n-C6H13 2-Me 17 5 4e n-C6H13 3-Me 15.5 7.5 4f n-C7H15 4-Me 48 8 4g n-C7H15 4-Bn 13 7 4h n-C8H17 2-Et 43 9.5 4i n-C9H19 2-Me 49.5 8 4j n-C9H19 4-Me 41 11.5 4k CH2=CH(CH2)8 H 50 13.5 Chương 6 43 Hợp chất Kí hiệu R R′ PT, d ( 25 µmol/cm2) PT, d ( 2.5 µmol/cm2) 4l CH2=CH(CH2)8 2-Et 53 9 4m CH2=CH(CH2)8 4-Bn 8.5 8 4n CH2=CH(CH2)8 4-Me 73 10.5 4o n-C10H21 H 39.5 13 4p n-C11H23 2-Me 14.5 5 4q n-C11H23 3-Me 19.5 5.5 4a′ 1-c-C6H9 H 17 5 4b′ c-C6H11 H 14 8 4c′ c-C6H11 3-Me 17 6 4d′ c-C6H11 4-Me 24.5 8.5 4e′ c-C5H9(CH2)2 H 35 9 4f′ 1-Me-c-C6H10 3-Me 12 7 4g′ 4-Me-c-C6H10 2-Me 33 8.5 4h′ c-C6H11 2-Et 21.5 7 4i′ c-C6H11CH2 2-Me 29.5 7.5 4j′ c-C6H11(CH2)2 2-Me 47.5 10 4k′ c-C6H11(CH2)2 3-Me 35 9 4l′ c-C6H11(CH2)2 4-Me 45.5 8 4m′ c-C6H11(CH2)3 4-Me 33 3 4n′ c-C5H9(CH2)2 2-Et 40.5 8.5 4o′ c-C6H11(CH2)2 2-Et 42 10.5 4p′ c-C6H11CH2 4-Bn 3 1.5 4q′ c-C6H11(CH2)2 4-Bn 12 1 Bn: benzyl Et: etyl Me: metyl Từ những cấu trúc đã tối ưu, tính tốn những dữ liệu đặc trưng về cấu trúc, gồm 20 tham số, đĩng vai trị là các biến độc lập để xây dựng mơ hình, kí hiệu các đại lượng đặc trưng cho cấu trúc đã sử dụng như sau: Ký hiệu Ý nghĩa  N1, Ci , O9 : Điện tích trên N, O và các C với i = 2, 3, 5, 4, 6, 7, 8 (e).  HOF : Nhiệt tạo thành (Kcal/mol). Chương 6 44  Etotal : Năng lượng tổng cộng (Kcal/mol).  DM : Moment lưỡng cực (D).  S : Diện tích bề mặt (Å2).  V : Thể tích phân tử (Å3).  Ref : Chỉ số khúc xạ(Å3).  Polar : Khả năng phân cực (Å3).  Mw : Khối lượng phân tử (a.u).  EHOMO : Năng lượng vân đạo phân tử đầy cao nhất (eV).  ELUMO : Năng lượng vân đạo phân tử trống thấp nhất (eV).  LogP : Hàm log của hệ số phân bố octanol – nước. Hoạt tính sử dụng trong luận văn này được biểu diễn qua giá trị PT (Protection Time) ở nồng độ 25 µmol/cm2 và ở nồng độ 2.5 µmol/cm2 là số ngày hĩa chất cĩ tác dụng bảo vệ con người khơng bị muỗi đốt. 6.2 KẾT QUẢ VÀ BÀN LUẬN 6.2.1 Phương pháp hồi qui đa biến tuyến tính Bộ biến sử dụng gồm 20 tham số cấu trúc là biến độc lập và hoạt tính ở hai nồng độ là biến phụ thuộc (Phụ lục 2). Chia ngẫu nhiên bộ dữ liệu thành 2 tập riêng biệt, tập để xây dựng mơ hình gồm 27 chất, tập để kiểm tra tính dự đốn của mơ hình gồm 7 chất (lấy ngẫu nhiên các chất cĩ kí hiệu 4a, 4c, 4n, 4p, 4d′, 4i′, 4j′ cho hoạt tính PT 25 và các chất 4a, 4c, 4l, 4p, 4d′, 4m′, 4p′ cho hoạt tính PT 2.5 ). Thử tính hồi qui tuyến tính với tất cả 20 biến độc lập, kết quả như sau: Bảng 2 Kết quả phân tích hồi qui đa biến tuyến tính với 20 biến độc lập Hoạt tính R2 R2a MSE F Q2 PT 25 0.8341 0.36 213.93 1.76 0 PT 2.5 0.8359 0.3286 6.89 1.66 0 Nhận thấy, khi cĩ nhiều biến thì sự tái lập dữ liệu tốt (R2 > 0.81) nhưng mơ hình khơng cĩ ý nghĩa về mặt thống kê (Phụ lục 3), và khơng cĩ khả năng dự đốn (Q2 = 0). Vì vậy, cần phải lựa chọn biến độc lập thích hợp trong phân tích MLR. Tìm hiểu mối quan hệ giữa các biến bằng ma trận hệ số tương quan Pearson của Chương 6 45 các biến được cho (Phụ lục 4). Nhận thấy giữa biến phụ thuộc và các biến độc lập khơng cĩ tương quan mạnh với nhau (|R| < 0.5) nhưng giữa các biến độc lập lại cĩ sự tương quan chặt chẽ với nhau (|R| > 0.9) như giữa biến S với các biến V, Mw, Ref, Polar, Etotal; giữa DM với N1. Do đĩ chỉ giữ lại một biến độc lập cĩ tương quan lớn nhất với biến phụ trong số các biến tương quan chặt chẽ đĩ. Sau khi loại ra thì số biến độc lập cịn lại là 14. 6.2.1.1 Tính tốn với hoạt tính PT 25 Từ 14 biến trên, thực hiện phương pháp hồi qui chọn mơ hình (Regression Model Selection). Như vậy đã thực hiện hồi qui tổng cộng 16.278 mơ hình chứa từ ít nhất 3 biến đến tối đa 14 biến và chọn ra được một số mơ hình cĩ R2a tốt nhất. Bảng 3 Một số mơ hình tốt nhất trong 16.278 mơ hình khảo sát của PT 25 Mơ hình MSE R2 R2a Bao gồm các biến 1.1 65.61 0.8566 0.7336 ABCDEFHIKLMN 1.2 62.89 0.8527 0.7446 ABCDEFHKLMN 1.3 60.44 0.8490 0.7546 ABCEFHKLMN 1.4 57.75 0.8467 0.7655 BCEFHKLMN 1.5 55.17 0.8449 0.7760 BCEHKLMN 1.6 52.69 0.8437 0.7861 CEHKLMN 1.7 52.92 0.8347 0.7851 CEHKMN 1.8 53.66 0.8240 0.7821 EHKMN 1.9 60.80 0.7911 0.7531 HKMN 1.10 85.316 0.6935 0.6536 CMN Kí hiệu các biến như sau: A : N1 D : C4 G : C7 J : S M : ELUMO B : C2 E : C5 H : C8 K : HOF N : LogP C : C3 F : C6 I : O9 L : EHOMO Từ kết quả ở Bảng 3, nhận thấy rằng trong các mơ hình được chọn thì mơ hình 1.6, 1.7, 1.8 cĩ R2a cao hơn các mơ hình khác, MSE thấp và các biến cũng cĩ xuất hiện trong các mơ hình khác. Do đĩ thực hiện phân tích MLR cho 3 mơ hình này. Chương 6 46 Bảng 4 Kết quả phân tích hồi qui cho mơ hình 1.6, 1.7, 1.8 Mơ hình Số biến R2 F MSE Q2 1.6 7 0.8437 14.65 52.69 0.2431 1.7 6 0.8347 16.83 52.92 0.2559 1.8 5 0.8240 19.67 53.66 0.3173 Kết quả ở Bảng 4 cho thấy rằng trong cả ba mơ hình đều cĩ R2 > 0.81 (tương ứng với R > 0.9) cĩ khả năng tái lập dữ liệu tương đối tốt, nhưng khơng cĩ khả năng khái quát hĩa (Q2 < 0.5). Nếu phải chọn mơ hình theo phương pháp phân tích hồi qui tuyến tính thì sẽ chọn mơ hình 1.8 gồm các biến C5, C8, HOF, ELUMO, LogP. Phương trình MLR cho mơ hình 1.8 như sau: PT 25 = –119.94 – 325.86 C5 – 310.95 C8 – 0.13 HOF + 32.26 ELUMO + 9.36 LogP Mơ hình cho thấy giá trị C5 cĩ tác động lớn nhất đến hoạt tính. Bảng 5 Giá trị dự đốn của tập dữ liệu kiểm tra với PT 25 Hợp chất PT 25 TN PT 25 TT Sai số 4a 2 8.17 -308.5 4c 5 3.26 34.8 4n 73 43.44 40.5 4p 14.5 57.31 -295.2 4d' 24.5 26.80 -9.4 4i' 29.5 32.64 -10.6 4j' 47.5 42.93 9.6 Sai số = (PT TN – PT TT)/PT TN*100 R2 = 0.32 0 10 20 30 40 50 60 70 0 10 20 30 40 50 60 70 80 PT 25 TN PT 2 5 TT Hình 12 Đồ thị giá trị dự đốn cho tập dữ liệu kiểm tra với PT 25 Chương 6 47 Hệ số xác định R2test cho bộ hợp chất mới là rất kém (R2test < 0.5), khơng thể dùng mơ hình này để dự đốn hoạt tính cho chất mới được. Do đĩ, khơng thể dùng mơ hình này mơ tả mối quan hệ định lượng giữa hoạt tính với cấu trúc của các dẫn xuất N- acylpiperidine. 6.2.1.2 Tính tốn với hoạt tính PT 2.5 Cũng áp dụng phương pháp lựa chọn mơ hình hồi qui cho PT 2.5 với 14 biến trên, thực hiện hồi qui tổng cộng 16.278 mơ hình chứa từ ít nhất 3 biến đến tối đa 14 biến và chọn ra được một số mơ hình cĩ R2a tốt nhất. Bảng 6 Một số mơ hình tốt nhất trong 16.278 mơ hình khảo sát với PT 2.5 PT 2.5 MSE R2 R2a Gồm các biến 2.1 4.88 0.71 0.4615 ABCDEFIJKLMN 2.2 4.79 0.6943 0.4702 ABCDEFJKLMN 2.3 2.32 0.7997 0.6746 ABCDEFIJKM 2.4 2.33 0.7865 0.6734 ABCDEFJKM 2.5 2.56 0.7511 0.6405 ABCDEFJK 2.6 2.66 0.7277 0.6274 BCDFJKM 2.7 2.88 0.6899 0.5968 BDFJKL 2.8 3.01 0.6595 0.5785 FJKLM 2.9 3.15 0.6263 0.5583 JKLM 2.10 3.15 0.6093 0.5583 KLN Kết quả trong Bảng 6 cho thấy các mơ hình cĩ khả năng tái lập dữ liệu chưa tốt (R2 < 0.81). Thử phân tích hồi qui và tính Q2 cho ba mơ hình cĩ R2 và R2a cao nhất. Bảng 7 Kết quả phân tích hồi qui cho mơ hình 2.3, 2.4, 2.5 Mơ hình Số biến R2 R2a F MSE Q2 2.3 10 0.7997 0.6746 6.39 2.32 0.2433 2.4 9 0.7865 0.6734 6.96 2.33 0.3975 2.5 8 0.7511 0.6405 6.79 2.56 0.1055 Trong 3 mơ hình thì mơ hình 2.4 cĩ giá trị Q2 cao nhất. Phương trình MLR cho mơ hình 2.4: Chương 6 48 PT 2.5 = – 65.35 – 70.68N1 – 147C2 – 121.2C3 – 79.77C4 – 71.56C5 – 121.1C6 + 0.0289S – 0.028HOF + 3.2876ELUMO Mơ hình cho thấy giá trị C2 cĩ tác động lớn nhất đến hoạt tính. Bảng 8 Giá trị dự đốn cho tập dữ liệu kiểm tra với PT 2.5 Kí hiệu hợp chất PT 2.5 TN PT 25 TT Sai số 4a 2 1.19 40.5 4c 3 -1.11 137 4l 9 12.37 -37.44 4p 5 12.21 -144.2 4d' 8.5 7.20 15.294 4m' 3 9.86 -228.7 4p' 1.5 3.61 -140.7 R2 = 0.37 -2 0 2 4 6 8 10 12 14 0 2 4 6 8 10 PT 2.5 TN PT 2 .5 T T Hình 13 Đồ thị giá trị dự đốn bộ dữ liệu kiểm tra với PT 2.5 Kết quả tính tốn cho hoạt tính PT 2.5 tương tự như PT 25 cho thấy các mơ hình này vừa khơng cĩ khả năng khái quát hĩa (Q2 < 0.5) lẫn dự đốn ngoại (R2test < 0.5). Do đĩ khơng thể dùng phương pháp MLR để xây dựng mơ hình QSAR cho các dẫn xuất N-acylpiperidine được. Điều này được biết khi phân tích tương quan giữa các biến. Kết quả chứng tỏ đây là mối quan hệ phi tuyến. Vì thế cần tìm mơ hình bằng các phương pháp khác nhằm cải thiện R2test và Q2. 6.2.2 Phương pháp mạng nơron nhân tạo Dữ liệu được chia ngẫu nhiên thành hai tập riêng biệt: 27 chất dùng để luyện mạng (training set – tính R2, Q2); 7 chất dùng để kiểm tra khả năng dự đốn của Chương 6 49 mạng cĩ kí hiệu 4n, 4m, 4g, 4g', 4j', 4j, 4i' (test set – tính R2test). Xây dựng cấu trúc mạng gồm 3 lớp với 2 nút xuất được mơ tả trong mục 5.2.3. Sau đĩ, mạng được luyện bằng cách thay đổi số nơron trên lớp ẩn từ 1 – 10 kết hợp với kiểm tra chéo. Căn cứ vào hệ số tương quan R2, Q2, R2test để đánh giá mạng. Luyện mạng với tồn bộ biến độc lập. Chuẩn ngừng luyện tốt nhất là MSE của bộ training bằng 0.01. Bảng 9 Hệ số R2, Q2 và R2test ứng với số nơron trên lớp ẩn với mạng 20 input PT 25 PT 2.5 Số nút ẩn R2 Q2 R2test R2 Q2 R2test 1 0.77 0.4 0.58 0.68 0.29 0.4 2 0.93 0.62 0.35 0.93 0.47 0.04 3 0.94 0.7 0.49 0.98 0.66 0.21 4 0.95 0.73 0.41 0.96 0.63 0.19 5 0.94 0.7 0.5 0.98 0.66 0.29 6 0.95 0.73 0.5 0.97 0.62 0.27 7 0.96 0.69 0.37 0.98 0.64 0.12 8 0.98 0.72 0.38 0.98 0.59 0.16 9 0.98 0.68 0.54 0.98 0.59 0.22 10 0.99 0.69 0.43 0.98 0.58 0.16 Kết quả trong Bảng 9 cho thấy mạng cĩ khả năng tái lập dữ liệu tốt (R2 > 0.81) nhưng khơng cĩ khả năng khái quát hĩa (Q2 < 0.81) và khơng cho kết quả đốn tốt với bộ dữ liệu khơng được học (R2test < 0.6). PT 25 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 1 2 3 4 5 6 7 8 9 10 Số nút ẩn R2 Q2 R2test Chương 6 50 PT 2.5 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 1 2 3 4 5 6 7 8 9 10 Số nút ẩn R2 Q2 R2test Hình 14 Đồ thị R2, Q2 và R2test ứng với số nơron trên lớp ẩn ở 2 nồng độ Kết quả này cũng khơng tốt hơn phương pháp MLR trên. Mạng khơng tìm được mơ hình tối ưu với bộ biến này. Qua việc khảo sát sự thay đổi số nút ẩn trên thì khĩ cĩ thể sử dụng nút ẩn để tối ưu hĩa mạng, vì vậy cần lựa chọn lại các biến nhập cho mạng. Số biến độc lập lựa chọn đưa vào mạng được chọn từ giá trị độ nhạy sau khi mạng luyện với tồn bộ biến và với số nút ở lớp ẩn là 1 như đã trình bày trong Chương 5. Các biến được chọn gồm: ELUMO, HOF, DM, S, C2, C3, C5, C6, C8. Luyện mạng với số nơron trên lớp ẩn thay đổi từ 1 đến 10 cĩ kết hợp với kiểm tra chéo. Chuẩn ngừng luyện tốt nhất là MSE của bộ training bằng 0.003. Bảng 10 Hệ số R2, Q2 và R2test ứng với số nơron trên lớp ẩn với mạng 9 input PT 25 PT 2.5 Số nút ẩn R2 Q2 R2test R2 Q2 R2test 1 0.72 0.74 0.68 0.54 0.54 0.69 2 0.92 0.8 0.73 0.75 0.52 0.76 3 0.95 0.9 0.69 0.9 0.56 0.72 4 0.98 0.91 0.83 0.97 0.88 0.58 5 0.98 0.87 0.65 0.97 0.83 0.9 6 0.97 0.92 0.42 0.99 0.87 0.74 7 0.97 0.93 0.69 0.98 0.89 0.72 8 0.98 0.93 0.85 0.98 0.92 0.85 9 0.98 0.91 0.69 0.98 0.88 0.81 10 0.98 0.92 0.8 0.99 0.88 0.78 Chương 6 51 PT 25 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 1 2 3 4 5 6 7 8 9 10 Số nút ẩn R2 Q2 R2(test) PT 2.5 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 1 2 3 4 5 6 7 8 9 10 Số nút ẩn R2 Q2 R2(test) Hình 15 R2, Q2 và R2test ứng với số nơron trên lớp ẩn ở 2 nồng độ Kết quả trong Bảng 10 và đồ thị cho thấy mạng nơron này nhanh chĩng đưa ra mơ hình cho sự tái lặp dữ liệu tốt (R2 > 0.81), đồng thời cịn cĩ khả năng khái quát hĩa và dự đốn tốt (Q2 > 0.81, R2test > 0.81) với tập dữ liệu kiểm tra. Mơ hình tốt nhất được chọn cho cả hai hoạt tính đều cĩ cấu trúc là (9 – 8 – 2). Kết quả tính tốn và dự đốn hoạt tính của mơ hình trên như sau: Chương 6 52 Bảng 11 Kết quả tính và dự đốn hoạt tính theo mơ hình (9 – 8 – 2) Kí hiệu PT 25 TN PT 25 TT SS 1 PT25 DD SS 2 PT2.5 TN PT2.5 TT SS 1 PT2.5 DD SS 2 4a 2.0 1.8 10.0 4.2 -110.0 2.0 2.3 -15.0 2.2 -10.0 4b 5.0 4.6 8.0 10.0 -100.0 4.0 3.8 5.0 4.2 -5.0 4c 5.0 4.9 2.0 -1.4 128.0 3.0 3.1 -3.3 3.4 -13.3 4d 17.0 17.8 -4.7 19.9 -17.1 5.0 5.1 -2.0 6.0 -20.0 4e 15.5 16.1 -3.9 18.3 -18.1 7.5 7.3 2.7 6.4 14.7 4f 48.0 49.5 -3.1 47.8 0.4 8.0 9.5 -18.8 11.5 -43.8 4h' 43.0 50.7 -17.9 47.8 -11.2 9.5 9.2 3.2 10.3 -8.4 4i 49.5 42.2 14.7 32.7 33.9 8.0 6.9 13.8 8.0 0.0 4k 50.0 48.9 2.2 47.7 4.6 13.5 12.9 4.4 11.0 18.5 4l 53.0 50.8 4.2 49.5 6.6 9.0 9.5 -5.6 9.4 -4.4 4o 39.5 38.7 2.0 42.7 -8.1 13.0 12.8 1.5 11.3 13.1 4p' 14.5 18.5 -27.6 25.3 -74.5 5.0 5.5 -10.0 5.1 -2.0 4q 19.5 19.8 -1.5 20.0 -2.6 5.5 5.6 -1.8 6.0 -9.1 4a' 17.0 17.8 -4.7 16.0 5.9 5.0 4.9 2.0 4.1 18.0 4b' 14.0 17.8 -27.1 18.7 -33.6 8.0 8.2 -2.5 7.8 2.5 4c' 17.0 16.9 0.6 18.2 -7.1 6.0 6.1 -1.7 5.5 8.3 4d' 24.5 21.9 10.6 23.2 5.3 8.5 8.6 -1.2 8.4 1.2 4e' 35.0 33.9 3.1 34.3 2.0 9.0 8.4 6.7 9.1 -1.1 4f' 12.0 11.5 4.2 13.1 -9.2 7.0 6.9 1.4 7.1 -1.4 4h' 21.5 21.7 -0.9 17.0 20.9 7.0 7.0 0.0 6.6 5.7 4k' 35.0 34.1 2.6 36.2 -3.4 9.0 9.1 -1.1 9.5 -5.6 4l' 45.5 46.6 -2.4 38.2 16.0 8.0 7.9 1.3 8.5 -6.3 4m' 33.0 32.2 2.4 33.5 -1.5 3.0 3.1 -3.3 4.2 -40.0 4n' 40.5 40.4 0.2 32.4 20.0 8.5 8.3 2.4 7.6 10.6 4o' 42.0 39.6 5.7 50.9 -21.2 10.5 10.6 -1.0 8.8 16.2 4p' 3.0 2.7 10.0 8.7 -190.0 1.5 1.2 20.0 0.7 53.3 4q' 12.0 12.0 0.0 8.8 26.7 1.0 1.2 -20.0 2.2 -120.0 TN: hoạt tính thực nghiệm TT: hoạt tính tính tốn DD:hoạt tính dự đốn SS 1: Sai số 1 = (PT TN – PT TT)/PT TN*100 SS 2: Sai số 2 = (PT TN – PT DD)PT TN*100 Chương 6 53 PT 25 -10 0 10 20 30 40 50 60 1 3 5 7 9 11 13 15 17 19 21 23 25 27 Số mẫu luyện PT25 TN PT25 TT PT25 DD PT 2.5 0 2 4 6 8 10 12 14 16 1 3 5 7 9 11 13 15 17 19 21 23 25 27 Số mẫu luyện PT2.5 TN PT2.5 TT PT2.5 DD Hình 16 Đồ thị giá trị tính tốn và dự đốn theo hoạt tính thực nghiệm ở 2 nồng độ với cấu trúc mạng (9 – 8 – 2) Bảng 12 Kết quả dự đốn hoạt tính cho tập dữ liệu mới Kí hiệu PT 25 TN PT 25 TT Sai số PT 2.5 TN PT 2.5 TT Sai số 4n 73 60.77 16.75 10.5 13.56 -29.14 4g' 33 28.86 12.55 8.5 8.51 -0.12 4g 13 12.20 6.15 7 4.07 41.86 4j' 47.5 41.33 12.99 10 11.05 -10.50 4j 41 44.18 -7.76 11.5 12.13 -5.48 4i' 29.5 25.24 14.44 7.5 6.03 19.60 4m 8.5 9.49 -11.65 8 7.05 11.88 Sai số = (PT TN – PT TT)/PT TN*100 Chương 6 54 PT 2.5 0 2 4 6 8 10 12 14 16 1 2 3 4 5 6 7 Số mẫu kiểm tra PT 25 TN PT 2.5 TT PT 25 0 10 20 30 40 50 60 70 80 1 2 3 4 5 6 7 Số mẫu kiểm tra PT 25 TN PT 25 TT Hình 17 Đồ thị giá trị dự đốn và thực nghiệm tập dữ liệu kiểm tra ở 2 nồng độ Với số nút nhập và chuẩn dừng phù hợp (9 nút và MSE là 0.003), mạng đã nhanh chĩng tìm được số nút ẩn thích hợp để xây dựng mơ hình QSAR tốt nhất. Ta cĩ thể dùng mơ hình này để mơ tả mối quan hệ định lượng giữa các tham số cấu trúc và hoạt tính của các dẫn xuất N-acylpiperidine. Bảng 13 Kết quả các mơ hình tốt nhất của phương pháp MLR và ANN PT 25 PT 2.5 Phương pháp Số biến độc lập R2 Q2 R2test Số biến độc lập R2 Q2 R2test MLR 5 0.82 0.32 0.32 9 0.79 0.4 0.37 ANN 9 0.98 0.93 0.85 9 0.98 0.92 0.85 Kết quả cho thấy các mơ hình QSAR cho các dẫn xuất N-acylpiperidine thu được bằng phương pháp ANN cĩ các giá trị R2, Q2 và R2test lớn hơn nhiều so với Chương 6 55 phương pháp MLR với các dẫn xuất N-acylpiperidine. Điều này cho thấy phương pháp ANN giải quyết bài tốn QSAR tốt hơn phương pháp MLR. 6.3 ĐÁNH GIÁ MỨC ĐỘ TÁC ĐỘNG CỦA CÁC THAM SỐ CẤU TRÚC LÊN HOẠT TÍNH Việc khảo sát QSAR bằng phương pháp ANN cho các dẫn xuất N- acylpiperidine đã tìm được cấu trúc mạng mơ tả tốt mối quan hệ này. Mức độ ảnh hưởng của các tham số cấu trúc được đánh giá thơng qua giá trị trọng số hoặc sự phân tích độ nhạy của hoạt tính theo tham số cấu trúc. Trọng số: luyện mạng với cấu trúc (20 – 1 – 2), khi đĩ cĩ được 20 trọng số cho 20 đường truyền từ input đến lớp ẩn. Hàm truyền sử dụng trong lớp ẩn là hàm sigmoid được tính theo biểu thức: x x e exf   1 )( Do đĩ, độ lớn giá trị trọng số cho biết mức độ tác động của mỗi input đến output. File chứa các giá trị trọng số được NeuroSolution 5.07 lưu dưới dạng mở rộng *.*.nsb (Phụ lục 6). Độ nhạy: phân tích độ nhạy là đo mức độ quan trọng tương đối giữa các input của mạng, nĩ xem xét sự biến thiên của hoạt tính theo sự biến thiên của của một input trong vùng xung quanh giá trị trung bình trong khi vẫn giữ nguyên các input khác. Phân tích độ nhạy (Sensetivity about the mean) được thực hiện trong phần test sau khi mạng luyện với cấu trúc mạng (20 – 1 – 2), kết quả đưa ra gồm bảng các giá trị độ nhạy, biểu đồ cột cho bảng giá trị này và 20 đồ thị thể hiện sự biến thiên của hoạt tính theo từng tham số cấu trúc (Phụ lục 6). Giá trị của độ nhạy thể hiện mức độ ảnh hưởng của các biến cấu trúc đến hoạt tính. Chương 6 56 Bảng 14 Giá trị trọng số và độ nhạy của các biến độc lập Độ nhạy Tên biến Trọng số Tên biến Trị tuyệt đối của trọng số Tên biến PT 25 PT 2.5 HOF 6.01 ELUMO 6.2 ELUMO 5.92 0.97 C8 4.82 HOF 6.01 HOF 4.12 0.68 C5 3.72 C8 4.82 C5 3.89 0.67 C6 3.34 C5 3.72 C8 3.48 0.57 DM 2.83 C6 3.34 C6 2.79 0.46 C2 2.79 DM 2.83 DM 2.63 0.43 N1 1.92 C2 2.79 C2 2.53 0.41 C4 1.4 C3 2.75 S 2.44 0.4 Etotal 0.9 S 2.51 C3 2.34 0.38 O9 -0.07 V 1.87 N1 1.81 0.3 LogP -0.75 N1 1.4 V 1.79 0.28 Ref -0.82 C4 1.13 C4 1.64 0.27 C7 -0.86 Polar 0.96 Polar 1.1 0.18 EHOMO -0.86 Mw 0.9 Mw 0.9 0.15 Mw -0.96 Etotal 0.86 Etotal 0.86 0.14 Polar -1.13 EHOMO 0.86 Ref 0.79 0.13 V -2.07 C7 0.82 LogP 0.77 0.13 S -2.31 Ref 0.75 EHOMO 0.72 0.12 C3 -2.75 LogP 0.46 C7 0.62 0.1 ELUMO -6.2 O9 0.07 O9 0.05 0.01 Chương 6 57 0 1 2 3 4 5 6 7 T rị tu yệ t đ ối c ủa tr ọn g số EL u m o HO F C8 C5 C6 DM C 2 C3 S V N1 C4 Po la r M w Et ot al EH om o C7 Re f Lo gP O 9 Tên biến 0 1 2 3 4 5 6 Đ ộ n h ạy EL um o HO F C5 C8 C6 DM C 2 S C3 N1 V C4 Po lar M w Et ot al Re f Lo gP EH om o C7 O9 Tên biến PT 25 PT 2.5 Hình 18 Biểu đồ giá trị trị tuyệt đối trọng số và biểu đồ độ nhạy của hai hoạt tính Trong Bảng 14, độ lớn giá trị trọng số và độ lớn giá trị độ nhạy được sắp xếp theo thứ tự giảm dần. Cột thứ 4 biểu diễn các giá trị trọng số sau khi lấy giá trị tuyệt đối của chúng ở cột thứ 2. Từ Bảng 14 và hai biểu đồ cho thấy 15 giá trị đứng đầu của hai quá trình tính tốn này tương ứng với nhau, chỉ cĩ sự đổi thứ tự của C5 và C8, C3 và S, N1 và V, nhưng các giá trị này khác nhau khơng đáng kể; thứ tự độ nhạy của các tham số cấu trúc theo hoạt tính của PT 25 và PT 2.5 cũng tương ứng với nhau. Với bộ tham số gồm 9 biến đầu tiên, đã xây dựng được mơ hình ANN vừa cĩ khả năng tái lập dữ liệu tốt vừa cĩ khả năng khái quát hĩa và dự đốn tốt cho hoạt tính ở hai nồng độ như trên. Vậy các tham số ảnh hưởng đáng kể đến hoạt tính gồm các biến theo thứ tự là ELUMO, HOF, C5, C8, C6, DM, C2, C3. Chương 6 58 Chuẩn hĩa các giá trị của tham số và hoạt tính về cùng một vùng [0.1; 0.9] để xem xét sự biến đổi của các tham số này và hoạt tính. 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 C2 PT 25 PT 2.5 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 C3 PT 25 PT 2.5 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 C5 PT 25 PT 2.5 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 C6 PT 25 PT 2.5 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 C8 PT 25 PT 2.5 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 S PT 25 PT 2.5 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 HOF PT 25 PT 2.5 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 DM PT 25 PT 2.5 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 ELUMO PT 25 PT 2.5 Hình 19 Đồ thị biểu diễn giá trị của 9 tham số cấu trúc và hoạt tính Chương 6 59 Qua các đồ thị nhận thấy sự biến thiên của các 9 tham số cấu trúc này và hoạt tính khơng tuân theo một qui luật nào cả. Điều này càng chứng tỏ đây là mối quan hệ rất phức tạp khơng thể mơ tả bằng phương trình hồi qui đa biến tuyến tính một cách rõ ràng. Mối quan hệ phi tuyến này cũng được khẳng định qua bảng ma trận hệ số tương quan tuyến tính Pearson tính cho bộ dữ liệu thỏa điều kiện phân phối chuẩn (Phụ lục 4) hay tương quan Spearman đối với dữ liệu khơng thỏa điều kiện phân phối chuẩn (Phụ lục 5), trị tuyệt đối các hệ số tương quan này đều thấp hơn 0.61.  E. KẾT LUẬN Kết luận 60 KẾT LUẬN ----------  KẾT QUẢ VỀ PHƯƠNG PHÁP NGHIÊN CỨU QSAR Việc nghiên cứu QSAR của N-acylpiperidine trong đề tài này đã được thực hiện qua sự kết hợp giữa các giá trị tính tốn bằng hĩa lượng tử với các phương pháp xử lí số liệu kinh điển và hiện đại (MLR và ANN). Kết quả thu được cho thấy phương pháp ANN giải quyết tốt bài tốn khảo sát QSAR của các dẫn xuất N- acylpiperidine. Phương pháp bán thực nghiệm PM3 trong chương trình Hyperchem 8.03 để tính các tham số cấu trúc của N-acylpiperidine khơng quá lâu và thực hiện dễ dàng. Phần mềm Stagraphics Centurion XV thực hiện nhanh chĩng các bước phân tích dữ liệu, lựa chọn biến, phân tích và lựa chọn mơ hình tối ưu. Chương trình NeuroSolution for Excel của NeuronSolution 5.07 dễ dàng thực hiện việc xây dựng, luyện và kiểm tra mạng.  KẾT QUẢ NGHIÊN CỨU QSAR Cũng cùng mục đích như các nghiên cứu QSAR về thuốc đuổi muỗi khác, luận văn này đã thực hiện khảo sát QSAR trên 34 chất dẫn xuất của N-acylpiperidine bằng hai phương pháp: hồi qui đa biến tuyến tính (MLR) và mạng nơron nhân

Các file đính kèm theo tài liệu này:

  • pdfKH7842O Samp193T M7888I QUAN H7878 2727882NH L4317906NG .pdf
Tài liệu liên quan