Tài liệu Luận văn Khảo sát mối quanhệ định lượng giữa cấu trúc và hoạt tính của các dẫn xuất n-Acylpiperidine: BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC CẦN THƠ
----------
TRẦN DIỄM ÁI
KHẢO SÁT MỐI QUAN HỆ ĐỊNH LƯỢNG
GIỮA CẤU TRÚC VÀ HOẠT TÍNH CỦA
CÁC DẪN XUẤT N-ACYLPIPERIDINE
LUẬN VĂN THẠC SĨ HÓA HỌC
Chuyên Ngành: Hóa lý thuyết và Hóa lý
Mã Số: 60 44 31
CẦN THƠ – 2010
BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC CẦN THƠ
TRẦN DIỄM ÁI
KHẢO SÁT MỐI QUAN HỆ ĐỊNH LƯỢNG
GIỮA CẤU TRÚC VÀ HOẠT TÍNH CỦA
CÁC DẪN XUẤT N-ACYLPIPERIDINE
LUẬN VĂN THẠC SĨ HÓA HỌC
Chuyên Ngành: Hóa lý thuyết và Hóa lý
Mã Số: 60 44 31
Người hướng dẫn khoa học:
PGS.TS BÙI THỌ THANH
CẦN THƠ – 2010
Lời cảm ơn
-i-
LỜI CẢM ƠN
----------
Nhờ có sự giúp đỡ và động viên của nhiều người mà tôi đã hoàn thành luận
văn thạc sĩ này trong thời gian qua. Tôi xin gởi lời cảm ơn sâu sắc đến:
PGS – TS Bùi Thọ Thanh đã dành nhiều thời gian và công sức hướng dẫn
cho tôi trong suốt thời gian nghiên cứu.
Các thầy cô và các bạn trong Phòng Thí nghiệm Hóa tin – Khoa Hóa của
Trường Đại h...
79 trang |
Chia sẻ: hunglv | Lượt xem: 1573 | Lượt tải: 0
Bạn đang xem trước 20 trang mẫu tài liệu Luận văn Khảo sát mối quanhệ định lượng giữa cấu trúc và hoạt tính của các dẫn xuất n-Acylpiperidine, để tải tài liệu gốc về máy bạn click vào nút DOWNLOAD ở trên
BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC CẦN THƠ
----------
TRẦN DIỄM ÁI
KHẢO SÁT MỐI QUAN HỆ ĐỊNH LƯỢNG
GIỮA CẤU TRÚC VÀ HOẠT TÍNH CỦA
CÁC DẪN XUẤT N-ACYLPIPERIDINE
LUẬN VĂN THẠC SĨ HĨA HỌC
Chuyên Ngành: Hĩa lý thuyết và Hĩa lý
Mã Số: 60 44 31
CẦN THƠ – 2010
BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC CẦN THƠ
TRẦN DIỄM ÁI
KHẢO SÁT MỐI QUAN HỆ ĐỊNH LƯỢNG
GIỮA CẤU TRÚC VÀ HOẠT TÍNH CỦA
CÁC DẪN XUẤT N-ACYLPIPERIDINE
LUẬN VĂN THẠC SĨ HĨA HỌC
Chuyên Ngành: Hĩa lý thuyết và Hĩa lý
Mã Số: 60 44 31
Người hướng dẫn khoa học:
PGS.TS BÙI THỌ THANH
CẦN THƠ – 2010
Lời cảm ơn
-i-
LỜI CẢM ƠN
----------
Nhờ cĩ sự giúp đỡ và động viên của nhiều người mà tơi đã hồn thành luận
văn thạc sĩ này trong thời gian qua. Tơi xin gởi lời cảm ơn sâu sắc đến:
PGS – TS Bùi Thọ Thanh đã dành nhiều thời gian và cơng sức hướng dẫn
cho tơi trong suốt thời gian nghiên cứu.
Các thầy cơ và các bạn trong Phịng Thí nghiệm Hĩa tin – Khoa Hĩa của
Trường Đại học Khoa Học Tự Nhiên – ĐHQG TPHCM đã nhiệt tình
giúp đỡ trong quá trình thực hiện luận văn.
Các thầy cơ ở Trường Đại học Cần Thơ và Viện cơng nghệ hĩa học đã
truyền đạt những kiến thức quí báu trong thời gian học tập
Sở GD & ĐT tỉnh An Giang và Ban chủ nhiệm khoa Khoa học Trường
Đại học Cần Thơ đã tạo điều kiện thuận lợi trong suốt thời gian học tập.
Gia đình và bạn bè đã luơn giúp đỡ và động viên tơi trong khoảng thời gian
học tập và làm việc.
Cuối cùng, xin cảm ơn quí thầy cơ trong Hội đồng chấm luận văn đã gĩp
nhiều ý kiến để tơi hồn thiện luận văn này hơn.
Một lần nữa xin chân thành cảm ơn!
Cần Thơ, tháng 01 năm 2010
Trần Diễm Ái
Mục lục
-ii-
MỤC LỤC
----------
Trang
A – MỞ ĐẦU
LỜI MỞ ĐẦU ....................................................................................................... 1
B – TỔNG QUAN
Chương 1: TỔNG QUAN VỀ MỐI QUAN HỆ ĐỊNH LƯỢNG GIỮA
CẤU TRÚC VÀ HOẠT TÍNH .......................................................... 3
1.1. HOẠT TÍNH ............................................................................................................................................................ 4
1.1.1. Hoạt tính sinh học.................................................................................................................................... 4
1.1.2. Hoạt tính hĩa học ..................................................................................................................................... 4
1.2. CÁC THAM SỐ CẤU TRÚC .................................................................................................................... 5
1.3. CÁC MƠ HÌNH TỐN HỌC TRONG KHẢO SÁT QSAR............................................. 5
Chương 2: CƠ HỌC LƯỢNG TỬ, LÝ THUYẾT VỀ VÂN ĐẠO PHÂN TỬ... 9
2.1. PHƯƠNG TRÌNH SĨNG SCHRƯDINGER, PHÉP GẦN ĐÚNG
BORN-OPPENHEIMER ............................................................................................................................... 9
2.2. CÁC PHƯƠNG PHÁP BÁN KINH NGHIỆM ............................................................................... 11
2.2.1. Giới thiệu ........................................................................................................................................................ 11
2.2.2. Phương pháp PM3 ................................................................................................................................... 13
Chương 3: PHƯƠNG PHÁP XỬ LÝ SỐ LIỆU .................................................. 16
3.1. PHƯƠNG PHÁP HỒI QUI ĐA BIẾN TUYẾN TÍNH........................................................... 16
3.1.1. Tương quan và hồi qui ......................................................................................................................... 16
3.1.2. Phân tích hồi qui đa biến tuyến tính .......................................................................................... 20
3.1.2.1. Các thủ tục chọn biến .......................................................................................................... 20
3.1.2.1. Đánh giá mơ hình ................................................................................................................... 21
3.2. PHƯƠNG PHÁP MẠNG NƠRON NHÂN TẠO ....................................................................... 22
3.2.1. Nơron sinh học và nơron nhân tạo.............................................................................................. 25
Mục lục
-iii-
3.2.2.1. Nơron sinh học ......................................................................................................................... 23
3.2.2.2. Nơron nhân tạo ........................................................................................................................ 24
3.2.2. Cấu trúc mạng nơron đa lớp ............................................................................................................ 25
3.2.3. Luyện mạng: Kỹ thuật lan truyền ngược ............................................................................... 26
3.2.4. Ngừng tiến trình luyện ......................................................................................................................... 27
3.2.5. Các yếu tố ảnh hưởng đến tính tổng quát hĩa của mạng ........................................... 28
Chương 4: CHẤT ĐUỔI MUỖI VÀ N-ACYLPIPERIDINE ............................. 30
4.1. BỆNH DO MUỖI GÂY RA VÀ CÁC HĨA CHẤT ĐUỔI MUỖI.............................. 30
4.2. N-ACYLPIPERIDINE – CHẤT ĐUỔI MUỖI MỚI ................................................................ 33
C – PHƯƠNG PHÁP
Chương 5: PHẦN MỀM SỬ DỤNG VÀ CÁC BƯỚC THỰC HIỆN................. 37
5.1. PHẦN MỀM ............................................................................................................................................................ 37
5.1.1. Hyperchem 8.03........................................................................................................................................ 37
5.1.2. Stagraphics Centurion XV ................................................................................................................ 37
5.1.3. NeuroSolution 5.07 ................................................................................................................................ 37
5.1.4. Microsoft Excel ......................................................................................................................................... 37
5.2. CÁC BƯỚC THỰC HIỆN ............................................................................................................................ 37
5.2.1. Tính tốn hĩa lượng tử ........................................................................................................................ 38
5.2.2. Phân tích hồi qui đa biến tuyến tính .......................................................................................... 38
5.2.3. Tính tốn mạng nơron .......................................................................................................................... 39
D – KẾT QUẢ VÀ BÀN LUẬN
Chương 6: KHẢO SÁT MỐI QUAN HỆ GIỮA CẤU TRÚC VÀ HOẠT TÍNH
CỦA CÁC DẪN XUẤT N-ACYLPIPERIDINE................................ 42
6.1. DỮ LIỆU ................................................................................................................................................................... 42
6.2. KẾT QUẢ VÀ BÀN LUẬN ........................................................................................................................ 44
6.2.1. Phương pháp hồi qui đa biến tuyến tính................................................................................. 44
6.2.1.1. Tính tốn với hoạt tính PT 25 ....................................................................................... 45
Mục lục
-iv-
6.2.1.2. Tính tốn với hoạt tính PT 2.5 ...................................................................................... 47
6.2.2. Phương pháp mạng nơron ................................................................................................................. 48
6.3. ĐÁNH GIÁ MỨC ĐỘ TÁC ĐỘNG CỦA CÁC THAM SỐ CẤU TRÚC LÊN
HOẠT TÍNH ............................................................................................................................................................ 55
E – KẾT LUẬN
KẾT LUẬN ........................................................................................................... 60
TÀI LIỆU THAM KHẢO
PHỤ LỤC
-v-
DANH MỤC CÁC CHỮ VIẾT TẮT
AM1 Austin Model 1
ANN Artificial Neural Network
HF Hartree-Fock
MLR Multiple Linear Regression
MNDO Modified Neglect of Diatomic Overlap
MO Molecular Orbital
MSE Mean Square Error
PM3 Parametric Method 3
PT Protection Time
QSAR Quantitative Structure-Activity Relationships
USDA United States Department of Agricuture
US EPA United States Environmental Protection Agency
VB Valence Bond
ZDO Zero Differential Overlap
-vi-
DANH MỤC CÁC BẢNG
Trang
Bảng 1 Cấu trúc và hoạt tính của dẫn xuất N-acylpiperidine ........................................................ 42
Bảng 2 Kết quả phân tích hồi qui đa biến tuyến tính với 20 biến độc lập ........................... 44
Bảng 3 Một số mơ hình tốt nhất trong 16.278 mơ hình khảo sát của PT 25 ........................ 45
Bảng 4 Kết quả phân tích hồi qui cho mơ hình 1.6, 1.7, 1.8 .......................................................... 46
Bảng 5 Giá trị dự đốn của tập dữ liệu kiểm tra với PT 25 ............................................................ 46
Bảng 6 Một số mơ hình tốt nhất trong 16.278 mơ hình khảo sát với PT 2.5..................... 47
Bảng 7 Kết quả phân tích hồi qui cho mơ hình 2.3, 2.4, 2.5 .......................................................... 47
Bảng 8 Giá trị dự đốn cho tập dữ liệu kiểm tra với PT 2.5 .......................................................... 48
Bảng 9 Hệ số R2, Q2 và R2test ứng với số nơ ron trên lớp ẩn với mạng cĩ 20 input ... 49
Bảng 10 Hệ số R2, Q2 và R2test ứng với số nơron trên lớp ẩn với mạng cĩ 9 input ....... 50
Bảng 11 Kết quả tính và dự đốn hoạt tính theo mơ hình (9 – 8 – 2) ..................................... 52
Bảng 12 Kết quả dự đốn hoạt tính cho tập dữ liệu mới .................................................................. 53
Bảng 13 Kết quả các mơ hình tốt nhất của 2 phương pháp................................................................. 54
Bảng 14 Giá trị trọng số và độ nhạy của các biến độc lập............................................................... 56
-vii-
DANH MỤC CÁC HÌNH
Trang
Hình 1 Mơ hình chung dùng trong khảo sát QSAR .............................................................................. 8
Hình 2 Biểu đồ các mối liên hệ thường gặp của x và y ..................................................................... 17
Hình 3 Cấu tạo một nơron sinh học .................................................................................................................. 23
Hình 4 Cấu tạo một nơron nhân tạo .................................................................................................................. 24
Hình 5 Sơ đồ cấu tạo mạng nơron nhân tạo cĩ 3 lớp........................................................................... 25
Hình 6 Sơ đồ kỹ thuật lan truyền ngược........................................................................................................ 27
Hình 7 Thuốc xịt muỗi và muỗi thuộc nhĩm Plasmodium ............................................................. 31
Hình 8 Thí nghiệm hoạt tính sinh học ............................................................................................................. 35
Hình 9 Các loại mạng trong NeuroBuilder .................................................................................................. 39
Hình 10 Các loại hàm truyền trong NeuroBuilder ................................................................................. 40
Hình 11 Đồ thị giá trị dự đốn cho bộ dữ liệu kiểm tra với PT 25 ........................................... 41
Hình 12 Đồ thị giá trị dự đốn cho bộ dữ liệu kiểm tra với PT 2.5 .......................................... 46
Hình 13 Đồ thị R2, Q2 và R2test ứng với số nơron trên lớp ẩn ở 2 nồng độ đối với mạng
cĩ 20 input ....................................................................................................................................................... 48
Hình 14 Đồ thị R2, Q2 và R2test ứng với số nơron trên lớp ẩn ở 2 nồng độ đối với mạng
cĩ 9 input .......................................................................................................................................................... 50
Hình 15 Đồ thị giá trị tính tốn và dự đốn theo hoạt tính thực nghiệm ở 2 nồng độ với
cấu trúc mạng (9 – 8 – 2)...................................................................................................................... 51
Hình 16 Đồ thị giá trị tính tốn và dự đốn theo hoạt tính thực nghiệm ở 2 nồng độ với
cấu trúc mạng (9 – 8 – 2)...................................................................................................................... 53
Hình 17 Đồ thị giá trị dự đốn và thực nghiệm tập dữ liệu kiểm tra ở hai nồng độ .... 54
Hình 18 Biểu đồ giá trị trị tuyệt đối trọng số và biểu đồ độ nhạy của hai hoạt tính .... 57
Hình 19 Đồ thị biểu diễn giá trị của 9 tham số cấu trúc và hai hoạt tính ............................. 60
-viii-
DANH MỤC CÁC PHỤ LỤC
Phụ lục 1 Cấu trúc dẫn xuất N-acylpiperidine và hoạt tính.
Phụ lục 2 Bảng số liệu các tham số cấu trúc và hoạt tính của dẫn xuất N-acylpiperidine.
Phụ lục 3 Kết quả phân tích hồi qui cho 20 biến độc lập.
Phụ lục 4 Ma trận hệ số tương quan Pearson các tham số cấu trúc và hoạt tính.
Phụ lục 5 Ma trận hệ số tương quan Speaman các tham số cấu trúc và hoạt tính.
Phụ lục 6 Biểu đồ phân tích độ nhạy của hoạt tính theo từng tham số cấu trúc.
Phụ lục 7 Dữ liệu bộ trọng số.
A. MỞ ĐẦU
Lời mở đầu
1
LỜI MỞ ĐẦU
----------
Trong xã hội và trong tự nhiên nĩi chung hoặc trong nghiên cứu khoa học nĩi
riêng, các nghiên cứu thống kê giúp tìm ra các mối quan hệ giữa các hiện tượng và đặc
tính để cĩ thể tiên đốn đúng các hiện tượng sẽ xảy ra khi biết được một số dấu hiệu
nào đĩ, người ta thường gặp khĩ khăn với các mơ hình thống kê kinh điển. Nhưng
hiện nay, nhờ sự phát triển vượt bậc của cả cơng nghệ máy tính và trí tuệ con người,
nên chúng ta cĩ một cơng cụ hết sức mạnh mẽ trong tay là trí tuệ nhân tạo. Cơng cụ
này giải quyết phần lớn các khĩ khăn gặp phải trước đây khi thống kê, tiên đốn chính
xác các hiện tượng phức tạp với lượng thơng tin ít ỏi, đặc biệt là khi ta kết hợp giữa
các cơng cụ khác nhau của trí tuệ nhân tạo với nhau và cả các phương pháp cổ điển
nữa. Ứng dụng của trí tuệ nhân tạo rất nhiều trong các lĩnh vực như nhận biết tiếng
nĩi, nhận biết chữ viết, nhận biết hình ảnh, phân tích địa chấn, phân tích điện tâm đồ,
chẩn đốn bệnh, phân tích thị trường chứng khốn, thương mại...
Cịn trong hố học, người ta cũng cần dự đốn trong rất nhiều trường hợp như
tìm hố chất cĩ hoạt tính mong muốn, dự đốn hướng phản ứng, xác định hướng phản
ứng của các phản ứng cạnh tranh... và cịn nhiều mục đích khác nữa. Các cơng cụ nĩi
trên cĩ nhiều ứng dụng vào các nghiên cứu, nhất là nghiên cứu mối quan hệ định
lượng giữa hoạt tính và cấu trúc. Ngồi ra cũng phải kết hợp thêm các cơng cụ của hố
học khác nữa để thực hiện các nghiên cứu.
Một sự hiểu biết đúng đắn về độc tính của một hố chất mang một ý nghĩa đĩng
gĩp rất lớn đối với cuộc sống của nhân loại như làm giảm bệnh tật và tỉ lệ tử vong.…
Tuy nhiên để đạt được điều đĩ lại là một quá trình rất phức tạp và khĩ khăn liên quan
đến nhiều kỹ thuật khoa học để cĩ được nhiều loại thơng tin cần thiết. Đặc biệt, với sự
phát triển cơng nghệ máy tính ngày càng cao và càng rẻ việc nghiên cứu thuốc bằng
phương pháp mơ phỏng phân tử kết hợp với các phương pháp thống kê ngày càng
được quan tâm và phát triển.
Trong luận văn này đã dùng phương pháp tính tốn Hố lượng tử kết hợp với
phương pháp thống kê kinh điển và mạng nơron nhân tạo để nghiên cứu khảo sát mối
quan hệ định lượng giữa hoạt tính và cấu trúc của các chất dẫn xuất N-acylpiperidine.
Lời mở đầu
2
Tên đề tài:
"KHẢO SÁT MỐI QUAN HỆ ĐỊNH LƯỢNG GIỮA CẤU TRÚC VÀ HOẠT
TÍNH CỦA CÁC DẪN XUẤT N-ACYLPIPERIDINE".
Mục đích đề tài:
Sử dụng chương trình Hĩa lượng tử thích hợp để tính tốn tham số cấu trúc
của các chất dẫn xuất N-acylpiperidine. Các số liệu này kết hợp với dữ liệu về thời
gian đuổi muỗi của các hợp chất N-acylpiperidine tạo thành bộ dữ liệu cấu trúc – hoạt
tính sử dụng cho việc nghiên cứu QSAR.
Dùng phương pháp tính tốn thống kê kinh điển (phương pháp hồi qui đa
biến tuyến tính) và phương pháp sinh – tin hiện đại (mạng nơron nhân tạo) để tìm mơ
hình QSAR cĩ tính tổng quát hĩa cao.
Từ các kết quả nhận được trong luận văn và các kết quả nghiên cứu QSAR
tương tự, rút ra nhận xét về phương pháp luận nghiên cứu QSAR.
Đề tài gồm những phần chính sau:
A. Lời mở đầu
B. Tổng quan
C. Phương pháp
D. Kết quả và bàn luận
E. Kết luận
B. TỔNG QUAN
Chương 1
3
Chương 1
TỔNG QUAN VỀ MỐI QUAN HỆ ĐỊNH LƯỢNG
GIỮA CẤU TRÚC VÀ HOẠT TÍNH
----------
Mối quan hệ định lượng giữa cấu trúc và hoạt tính của các hố chất được viết
tắt là QSAR (Quantitative Structure – Activity Relationships). QSAR thường được
nghiên cứu trên một họ hợp chất, giống nhau ở khung cơ bản nhưng khác nhau ở các
nhĩm thế trên khung chính và được căn cứ vào giả định rằng cĩ mối tương quan cơ sở
giữa cấu trúc phân tử và hoạt tính sinh học. Trong giả định này, QSAR cố gắng thiết
lập mối tương quan giữa những tính chất riêng của cấu trúc phân tử với hoạt tính thực
nghiệm của nĩ 5.
Cĩ hai mục đích chính cho sự phát triển QSAR:
Xây dựng mơ hình QSAR để dự đốn hoạt tính của những phân tử chưa từng
được kiểm tra.
Mơ hình QSAR cĩ vai trị như một cơng cụ cung cấp thơng tin bằng việc
chọn ra một bộ tham số mơ tả liên quan đến hoạt tính được đo để cĩ thể đánh giá được
các yếu tố ảnh hưởng đến hoạt tính đã biết. Điều này cĩ thể giúp thiết kế ra phân tử
mới vừa cĩ hoạt tính theo mong muốn hơn vừa giảm được thời gian, chi phí, tiền của.
Dạng phương trình tốn học phổ biến của QSAR là:
A (Activity) = f (tính chất hĩa lý hoặc cấu trúc riêng của phân tử)
Đối với một mơ hình QSAR cĩ giá trị và đáng tin cậy thì hoạt tính của chúng
phải được vạch ra bởi các cơ chế chung. Chất lượng của mơ hình QSAR hồn tồn phụ
thuộc vào chất lượng của bộ dữ liệu sử dụng để xây dựng mơ hình, vì vậy việc chọn ra
bộ dữ liệu các tham số cấu trúc cĩ liên quan đến hoạt tính thực nghiệm là quan trọng.
Một vài loại hoạt tính và các tham số cấu trúc thường được nghiên cứu trong
QSAR được giới thiệu dưới đây.
Chương 1
4
1.1 HOẠT TÍNH 3, 11, 31
Hoạt tính được nghiên cứu trong QSAR cĩ thể là hoạt tính hố học hay hoạt
tính sinh học được quan sát từ thực nghiệm dưới các hình thức khác nhau.
1.1.1 Hoạt tính sinh học
MIC (Minimum Inhibitory Concentration): nồng độ ức chế tối thiểu, hay
nồng độ kiềm khuẩn tối thiểu (dùng trong vi sinh).
MBC (Minimum Bactericidal Concentration): nồng độ diệt khuẩn tối thiểu.
IC50 (Inhibitory Concentration): nồng độ ức chế 50% đối tượng thử, hay cịn
gọi là hằng số Michaelis – Menten.
EC50 (Effective Concentration): nồng độ 50% tác dụng tối đa.
ED50 (Effective Dose): liều tác dụng tối đa trên 50% đối tượng thử.
SD50 (Supression Dose): liều tiêu diệt 50% đối tượng thử.
LD50 (Lethal Dose): liều gây chết 50% thú thử.
TI (Therapeutic Index) = LD50/ED50: chỉ số trị liệu (TI càng lớn độ an tồn
sử dụng càng cao)…
Các hoạt tính sinh học cĩ thể được quan sát từ thực nghiệm với nhiều hình thức:
In vitro: quan sát hoạt tính trong ống nghiệm hay hộp petri cĩ nuơi cấy vi
sinh vật (vi khuẩn, vi nấm) hay các bộ phận sinh vật (cơ quan, mơ, tế bào…) được
phân lập.
In vivo: quan sát hoạt tính trên cơ thể sinh vật (chuột, thỏ, khỉ, người).
In situ: quan sát hoạt tính tại chỗ.
1.1.2 Hoạt tính hố học
k: hằng số tốc độ phản ứng của các hố chất trong một loại phản ứng.
K: hằng số phân ly của các axit (tính axit).
Độ chọn lọc.
Tính thân hạch, thân điện tử…
Chương 1
5
Các hoạt tính hố học được quan sát bằng thực nghiệm hố học.
1.2 CÁC THAM SỐ CẤU TRÚC 16, 25, 29
Một vấn đề chung trong QSAR là cách mơ tả phân tử và tính chất của các chất.
Và các đại lượng được dùng để mơ tả những nét cấu trúc phân tử là một phần khơng
thể thiếu trong nghiên cứu QSAR, cịn được gọi là tham số cấu trúc.
Đến nay đã cĩ hàng ngàn tham số khác nhau được ứng dụng trong các lĩnh vực
nghiên cứu các mơ hình liên quan định lượng giữa cấu trúc với tác dụng. Các tham số
cấu trúc của hố chất cĩ thể thu được bằng thực nghiệm hay tính tốn bằng lý thuyết
bởi các phần mềm tính tốn như ADAPT, CODESSA, DRAGON, HYPERCHEM,
MOE,… Các tham số thơng dụng cĩ thể kể đến như tham số điện tử, các tham số lập
thể, các tham số hố lí,…
Các tham số điện tử (electronic parameters): hằng số Hammett (, +, -
,…), moment lưỡng cực, độ phân cực phân tử, điện tích nguyên tử (q+, q-), mật độ
điện tử, thế tĩnh điện phân tử và trường tĩnh điện phân tử, năng lượng các vân đạo biên
(EHOMO và ELUMO),…
Các tham số lập thể (steric parameters): hằng số lập thể Tafl (Es), thể tích
phân tử (V), diện tích bề mặt phân tử (S), chỉ số khúc xạ (MR), tham số STERIMOL,
độ dài liên kết, gĩc xoắn…
Các tham số hố lí (physicochemical parameters): hệ số phân bố giữa octanol
và nước của hố chất (P) , hằng số kỵ nước …
1.3 CÁC MƠ HÌNH TỐN HỌC TRONG KHẢO SÁT QSAR 5, 9,
24, 25
Vào năm 1868, Crum-Brown và Fraser đã nhận xét rằng tác dụng sinh học là
hàm số của cấu trúc hĩa học:
)(Cf (1.1)
Đến năm 1893, Richet đã cho rằng sự khác nhau về tác dụng sinh học là do sự
thay đổi về tính chất hĩa học hay lí hĩa.
)( Cf (1.2)
Chương 1
6
Đây là hai tư tưởng làm nền tảng cho việc thiết lập các mơ hình liên quan cấu
trúc – tác dụng định lượng sau này.
Năm 1935, một phát minh quan trọng của Hammett cĩ thể xem là phương trình
đầu tiên biểu diễn mối quan hệ giữa hoạt tính và cấu trúc:
0
log
K
K (1.3)
Với K, Ko là hằng số axit. là hằng số Hammett, là một thơng số hố lí đặc
trưng cho khả năng rút hoặc đẩy điện tử của nhĩm thế.
Đối với axit benzoic, phương trình Hammett cĩ dạng như sau:
2.4apK (1.4)
Như ta đã biết dựa vào phương trình Hammett ta cĩ thể dự đốn Ka của các dẫn
xuất của axit benzoic khi ta biết hằng số của các nhĩm thế. Tương tự, Hammett cịn cĩ
các phương trình dành cho các phản ứng của các dẫn xuất benzen:
0
log
k
k (1.5)
Trị số tìm được cĩ thể gĩp phần quan trọng cho việc đề nghị cơ chế cho phản
ứng đang khảo sát.
Mơ hình Hansch
QSAR thực sự bắt đầu được nghiên cứu bởi Corwin Hansch và các đồng sự từ
những năm 60 của thế kỷ XX. Trong mơ hình QSAR, Hansch thường dùng các hằng
số thực nghiệm như: Es, , , logP… làm các tham số cấu trúc.
Một số phương trình ơng thu được như sau:
21 log)/1log( kPkC (1.6)
43
2
21 )(loglog)/1log( kkPkPkC (1.7)
43
2
21)/1log( kkkkC (1.8)
Trong đĩ C là nồng độ mol của hố chất, ở nồng độ này hố chất cĩ một tác
dụng cụ thể nào đĩ, chẳng hạn nồng độ cần thiết của hố chất để cĩ tác dụng ức chế
Chương 1
7
50% độc chất.
Trong các mơ hình Hansch, ơng ta thường dùng phương pháp hồi qui tuyến tính
(1.6) hoặc hồi qui đa thức (1.7, 1.8) để phân tích, xử lý dữ liệu.
Mơ hình Free – Wilson
Mơ hình QSAR Free – Wilson được Fujita và Ban cải tiến lại cĩ dạng sau:
ijaC)/1log( (1.9)
Trong đĩ ija : sự cộng hợp của các nhĩm thế xi tại vị trí j trên phân tử.
: vai trị của khung chính.
Thực tế thì mơ hình Hansch và mơ hình Free-Wilson cĩ liên quan với nhau, vì
thế một số tác giả đã thành lập mơ hình kết hợp Free-Wilson & Hansch, cả hai dạng
tuyến tính lẫn phi tuyến:
kabC ijj)/1log( (1.10)
kabbC ijjjj 2)/1log( (1.11)
Trong đĩ: ijji ba là tham số nhĩm thế.
j là tham số hĩa lí j của các nhĩm thế xi.
jb và k là các hệ số hồi qui.
Vì hầu như chỉ dùng phương pháp hồi qui tuyến tính hay hồi qui đa thức bậc 2,
3 để xử lý và phân tích dữ liệu nên các mơ hình Hansch và Free – Wilson đã gặp phải
các khĩ khăn nhất định. Chúng chỉ khảo sát QSAR thành cơng trên một số ít hợp chất.
Nguyên nhân chủ yếu là do mối quan hệ giữa hoạt tính và cấu trúc thường khơng phải
là tuyến tính mà rất phức tạp. Hơn nữa các tham số cấu trúc phải được xác định bằng
thực nghiệm, đây là khĩ khăn lớn vì nĩ gây tốn kém thời gian và kinh phí mà lại hạn
chế các thơng tin thật sự cĩ ảnh hưởng đến hoạt tính của hố chất… Vì vậy, việc tìm
thêm các tham số mới về cấu trúc, giảm thời gian và chi phí nghiên cứu, cộng với
dùng phương pháp xử lý số liệu mới cĩ khả năng mơ tả đúng mối quan hệ phức tạp
của các tham số cấu trúc và hoạt tính là điều rất cần thiết.
Hiện nay, các kỹ thuật máy tính phát triển cực kỳ nhanh chĩng và nĩ đã cĩ
Chương 1
8
những đĩng gĩp quan trọng trong các lĩnh vực nghiên cứu khoa học như khoa học vũ
trụ, sinh học, tốn học, lý học, hố học… Trong hố học, đã cĩ nhiều chương trình
máy tính cĩ thể thiết kế cấu trúc khơng gian của phân tử hố chất; chúng kết hợp với
hố lượng tử cĩ thể tối ưu hố hình dạng của hố chất và cung cấp cho chúng ta rất
nhiều tham số cấu trúc liên quan đến hoạt tính. Chúng ta đã cĩ các phần mềm tin học
ứng dụng trong hố học hiện nay như: HyperChem, Gaussian, CS ChemOffice, Mopac
…
Ngồi ra, về mặt xử lý số liệu, chúng ta khơng cịn đơn thuần dùng các phương
pháp xử lý thống kê kinh điển để phân tích số liệu mà cĩ các lý thuyết mới cĩ thể áp
dụng vào việc xử lý số liệu, tín hiệu… và ta cĩ thể dùng vào khảo sát QSAR. Các lý
thuyết mới cĩ thể dùng trong các trường hợp mối quan hệ QSAR phức tạp như: Mạng
nơron nhân tạo (ANN – Artificial Neural Network), Logic mờ (FL – Fuzzy Logic),
Thuật giải di truyền (GA – Genetic Algorithm)…
Việc sử dụng các phương pháp xử lý số liệu mới này đồng thời kết hợp với
dùng các thơng số tính tốn tỏ ra khá thành cơng trong việc mơ tả các QSAR. Hiện
nay, đã cĩ rất nhiều nhĩm nghiên cứu QSAR trên thế giới. Họ nghiên cứu rất nhiều
hợp chất khác nhau và ứng dụng các phương pháp thống kê mới vào khảo sát QSAR.
Hình 1 Mơ hình chung dùng trong khảo sát QSAR
Chuẩn bị bộ dữ liệu hoạt tính thực nghiệm
Dự đốn hoạt tính
của hợp chất mới
Phân tích dữ liệu, tìm mơ hình QSAR phù hợp nhất
Xây dựng mơ hình phân tử, tối ưu hố hình dạng
Tính các tham số hố lý, điện tử, lập thể…
đặc trưng cho cấu trúc
Chương 2
9
Chương 2
CƠ HỌC LƯỢNG TỬ,
LÝ THUYẾT VỀ VÂN ĐẠO PHÂN TỬ
----------
2.1 PHƯƠNG TRÌNH SĨNG SCHRƯDINGER, PHÉP GẦN
ĐÚNG BORN-OPPENHEIMER 9, 11
Cho đến nay, chỉ cĩ cơ học lượng tử mới cĩ thể mơ tả được sự phân bố của điện
tử một cách đầy đủ. Vì vậy, để xác định tính chất vật lý của phân tử (hình dạng cấu
trúc bền nhất, mật độ điện tích, chiều dài liên kết…) người ta cố gắng giải phương
trình sĩng Schrưdinger:
H = E (2.1)
Trong đĩ E: năng lượng tổng cộng của hệ thống.
: phương trình sĩng tổng cộng đã được chuẩn hố.
H: tốn tử Hamilton tổng cộng.
Tốn tử Hamilton tổng cộng (H) tương ứng với năng lượng tổng cộng của phân
tử bao gồm các động năng (T) và thế năng (V) của tất cả các hạt (các hạt nhân và các
điện tử):
Htotal = T + V (2.2)
Phép gần đúng Born-Oppenheimer
Phép gần đúng này dựa trên cơ sở: khối lượng của hạt nhân lớn hơn khối lượng
điện tử nhiều lần nên vận tốc của hạt nhân phải nhỏ hơn vận tốc của điện tử. Vì thế
phương trình Schrưdinger được chia thành hai phần:
Phần một bao gồm tốn tử Hamilton điện tử đối với hạt nhân cố định (He).
Phần hai bao gồm tốn tử động năng hạt nhân trong đĩ năng lượng từ hàm
sĩng điện tử đĩng vai trị thế năng (Tn).
Chương 2
10
Htotal = He +Tn (2.3)
He = Te + Vne + Vee + Vnn (2.4)
Trong đĩ:
A
A
A
n M
T 2
2
1 : Tốn tử động năng hạt nhân.
N
i
ieT
2
2
1 : Tốn tử động năng điện tử.
N
i A iA
A
ne rR
ZV
||
: Tốn tử hút điện tử - hạt nhân.
N
i
N
ij ji
ee rr
V
||
1 : Tốn tử đẩy điện tử - điện tử.
A AB BA
BA
nn RR
ZZV
||
: Tốn tử đẩy hạt nhân – hạt nhân.
Với:
2
2
2
2
2
2
2
A
AAA zyx
A, B: hạt nhân ZA: điện tích hạt nhân A
i, j: các electron RA: vector chỉ vị trí hạt nhân A
MA: khối lượng hạt nhân A ri: vector chỉ vị trí electron i
Các tốn tử cĩ thể được tập hợp lại theo chỉ số điện tử.
A iA
A
ii rR
Zh
||2
1 2 (2.5)
||
1
ji
ij rr
g
(2.6)
N
i
N
i
N
ij
nnijie VghH
1 1
(2.7)
Tốn tử một điện tử hi mơ tả sự di chuyển của điện tử i trong trường của tất cả
các hạt nhân, và gij là tốn tử hai điện tử cho bởi lực đẩy điện tử – điện tử. Chú ý rằng
điểm zero năng lượng tương ứng với các hạt tử được để yên (Te = 0) và được dời đi vơ
tận khỏi nhau (Vne= Vee= Vnn=0).
Chương 2
11
Theo phép gần đúng này, hàm sĩng điện tử chỉ phụ thuộc vào vị trí của hạt
nhân, khơng phụ thuộc vào động lượng của hạt nhân; và các hạt nhân di chuyển trên
các mặt đẳng thế (Potential Energy Surfaces – PES), là nghiệm của các phương trình
Schrưdinger điện tử. Do vậy khi ta giải được phương trình Schrưdinger điện tử thì ta
cĩ thể dùng PES để giải phương trình Schrưdinger đối với hạt nhân.
Việc xây dựng hàm sĩng nhiều điện tử dựa trên tính gần đúng là các hạt ở trạng
thái riêng rẽ. Trong vân đạo spin một điện tử gồm hai phần: vân đạo khơng gian và
hàm spin. Phương trình Hartree – Fock (HF) được viết như sau:
N
j
jijiiF (2.8)
Tốn tử Hamilton được viết lại dưới dạng tổng của những tốn tử một điện tử F
(tốn tử Fock) như sau:
)KJ2(HFH jj
jii
core
ii
(2.9)
Ji và Kj là tốn tử Coulomb và tốn tử trao đổi.
2.2 CÁC PHƯƠNG PHÁP BÁN KINH NGHIỆM 7, 10, 11
2.2.1 Giới thiệu
Địi hỏi của việc thực hiện chuỗi tính HF thường là các hàm mũ 4. Điều này
phát sinh bởi số các tích phân hai điện tử cần thiết cho việc xây dựng ma trận Fock.
Phương pháp bán thực nghiệm giảm địi hỏi của việc tính tốn bằng cách giảm số tích
phân hai điện tử. Điều này chỉ là một tác động giới hạn bộ cơ sở rộng, và phương pháp
ab initio sẽ vẫn địi hỏi một nỗ lực tính tốn lớn hơn phương pháp bán thực nghiệm.
Bước đầu tiên trong việc giảm khĩ khăn tính tốn là xem như chỉ cĩ các điện tử
hố trị hiện diện. Tâm điện tử được giải thích bằng cách giảm điện tích hạt nhân hoặc
các hàm đưa vào mơ hình lực đẩy hố hợp do các hạt nhân và các tâm điện tử. Hơn
nữa, chỉ cĩ bộ cơ sở nhỏ nhất được dùng đối với các điện tử hố trị. Vì thế hydro chỉ
cĩ một hàm cơ sở, tồn bộ các nguyên tử trong hàng thứ hai và thứ ba của hệ thống
tuần hồn cĩ bốn hàm cơ sở (một s và ba p). Cho đến bây giờ, phần lớn các phương
pháp chỉ dùng các hàm s và p, và các hàm cơ sở là các vân đạo kiểu Slater nghĩa là các
Chương 2
12
hàm mũ.
Giả định trung tâm của các phương pháp bán thực nghiệm là phép gần đúng
ZDO (Zero Differential Overlap). Phương pháp này bỏ qua tất cả các tích của hàm cơ
sở phụ thuộc vào cùng toạ độ điện tử khi định vị trên các nguyên tử khác. Ký hiệu vân
đạo nguyên tử trên tâm A là A, phép gần đúng ZDO tương ứng với A(i).B(i) = 0.
Chú ý rằng tích của các hàm trên các nguyên tử khác nhau bằng khơng, khơng cĩ tích
phân trên một tích như vậy. Nĩ cĩ các hệ quả sau:
1. Ma trận S giảm thành ma trận đơn vị.
2. Tích phân một điện tử ba tâm được gán về khơng.
3. Tất cả các tích phân 3 và 4 tâm 2 điện tử được bỏ qua.
Để bù cho các phép gần đúng này, các tích phân cịn lại được chuyển thành các
tham số, và giá trị của các tích phân này cĩ được dựa trên cơ sở tính tốn hoặc dữ liệu
thực nghiệm. Cĩ chính xác bao nhiêu tích phân bị bỏ qua, đã thực hiện bao nhiêu tham
số hố, điều này khác nhau trong các phương pháp bán thực nghiệm khác nhau. Viết
biểu thức sau đối với yếu tố ma trận Fock, trong đĩ tích phân hai điện tử được viết tắt
là :
AO
DhF
][ (2.10)
Trong đĩ: hh
Sự tham số hố.
Một phép tính HF ab initio với bộ cơ sở nhỏ nhất hiếm khi cĩ thể cho chất
lượng tốt hơn các MO (Molecular Orbital). Nĩ là một giá trị rất giới hạn đối với mặt
dự đốn định lượng. Hơn nữa phép gần đúng ZDO làm giảm chất lượng của hàm sĩng
(mà nĩ vốn đã thấp). Tức là việc dùng trực tiếp các lược đồ trên là khơng cĩ lợi. Để
sửa chữa nhược điểm của các phép gần đúng trên, các tham số được đưa vào vị trí của
một vài hay tồn bộ các tích phân.
Cĩ ba phương pháp cĩ thể dùng để chuyển các phép gần đúng
NDDO/INDO/CNDO vào mơ hình tính bằng máy tính.
Chương 2
13
Các tích phân cịn lại cĩ thể được tính từ dạng hàm vân đạo nguyên tử.
Các tích phân cịn lại được chuyển thành tham số mà các giá trị được ấn định
được dựa trên một vài dữ liệu thực nghiệm.
Các tích phân cịn lại cĩ thể được chuyển thành các tham số mà giá trị được ấn
định dựa trên việc làm cho phù hợp với dữ liệu thực nghiệm.
Phương pháp 2 bắt nguồn từ tính chất đặc biệt của nguyên tử, như là thế ion hố
và năng lượng kích thích, trong biểu thức của các thơng số, và sự ấn định các giá trị
của chúng dựa trên nguyên tắc bình phương cực tiểu phù hợp với bộ dữ liệu thực
nghiệm lớn, tương tự với việc làm thích hợp của các thơng số trường lực.
Sau đây là một số phương pháp tính tốn bán kinh nghiệm :
Phương pháp NDDO (Neglect of Diatomic Diferential Overlap
Approximation).
Phương pháp INDO (Intermediate Neglect of Diferential Overlap
Approximation).
Phương pháp CNDO (Complete Neglect of Diferential Overlap Approxima-
tion).
Phương pháp MINDO (Modified Intermediate Neglect of Diferential
Overlap Approximation).
Phương pháp MNDDO(Modified NDDO Models).
Phương pháp MNDO (Modified Neglect of Diatomic Overlap).
Phương pháp AM1 (Austin Model 1).
Phương pháp PM3 ( Parametric Method Number 3).
Phương pháp MNDO/d (The MNDO/d method).
Phương pháp SAM1 (Semi-Ab initio Method 1).
Dưới đây xin trình bày phương pháp PM3.
2.2.2 Phương pháp PM3 (Parametric Method Number 3)
Phương pháp PM3 là một phương pháp bán kinh nghiệm sử dụng thuật tốn tự
Chương 2
14
hợp. Nĩ cĩ bản chất là phương pháp AM1 với tất cả các tham số đã được tối ưu đầy
đủ.
Lực đẩy core – core của mơ hình MNDO cĩ dạng:
)1(),( ABBABA RRBABABA
MNDO
nn eessssZZBAV
(2.11)
Trong đĩ được dùng như là các tham số điều chỉnh.
Tương tác gồm liên kiết O–H và N–H được xử lý khác nhau:
AHH
AHA
R
AH
R
HAHAHAnn eR
essssZZHAV
1),(
(2.12)
Thêm vào, MNDO dùng phương pháp gần đúng, s = p đối với một vài
nguyên tố sáng hơn. MNDO được tham số hố đối với các nguyên tố H, B, C, N, O, F,
Al, Si, P, S, Cl, Zn, Ge, Br, Sn, I, Hg, và Pb. Các tham số Gss, Gsp, Gpp, Gp2, Hsp
được lấy từ phổ nguyên tử.
Một hạn chế của MNDO là lực đẩy core – core quá lớn. Để khắc phục điều này,
hàm core – core được sửa đổi bằng cách cộng các hàm Gaussian và tồn bộ mơ hình
đã được tham số hĩa lại. Phương pháp này được gọi là phương pháp AM1.
Sự tham số hố của MNDO và AM1 đã được làm bằng tay, dùng các tham số
Gss, Gsp, Gpp, Gp2, Hsp từ các dữ liệu nguyên tử khác nhau và thay đổi các phần cịn
lại cho đến khi đạt được sự thích hợp tốt. Bởi vì sự tối ưu hố được làm bằng tay nên
chỉ bao gồm một vài hợp chất tương đối. Stewart thực hiện quá trình tối ưu tự động
bằng cách bổ sung và bắt nguồn từ các cơng thức đối với các đạo hàm của hàm lỗi
thích hợp tương ứng đối với các tham số. Sau đĩ tồn bộ tham số được tối ưu hố
đồng thời kể cả các số hạn hai điện tử và một bộ luyện lớn hơn đáng kể với dữ liệu
khoảng vài trăm được sử dụng. Trong việc tham số hố lại này, các biểu thức trong
AM1 đối với lực đẩy core – core được giữ lại ngoại trừ việc chỉ cĩ 2 phương trình
Gaussian được gán cho mỗi nguyên tử, các tham số Gaussian này bao gồm phần tích
phân trong mơ hình. Phương pháp cịn được ký hiệu là PM3, nhưng thực chất là AM1
với tất cả các tham số được tối ưu đầy đủ.
Cơ học lượng tử với các tiền đề và cơng cụ chính xác của nĩ đã giải quyết được
Chương 2
15
những vấn đề cơ bản nhất của cấu tạo của các hạt cơ bản. Riêng trong hĩa học, cơ học
lượng tử là một cơ sở nền tảng để nghiên cứu, giải thích các hiện tượng hĩa học, tiên
đốn, chỉ đường cho nghiên cứu thực nghiệm, giúp cho hĩa học ngày càng phát huy
được thế mạnh và khẳng định được vị trí của nĩ.
Chương 3
16
Chương 3
PHƯƠNG PHÁP XỬ LÝ SỐ LIỆU
----------
Khi thu được các tham số hố lý của các hố chất, ta tiến hành phân tích và xử
lý các số liệu để xác định mối quan hệ giữa các thơng số cấu trúc và hoạt tính của các
hố chất. Và sau đây là phương pháp phân tích hồi qui đa biến tuyến tính và phương
pháp mạng nơron sử dụng để khảo sát QSAR trong luận văn này.
3.1 PHƯƠNG PHÁP HỒI QUI ĐA BIẾN TUYẾN TÍNH
(Multiple Linear Regression) 6, 12, 21
3.1.1 Tương quan và hồi qui
Xem xét mối quan hệ giữa hai biến định lượng x và y. Mối quan hệ giữa x và y
cĩ thể cĩ bản chất xác định hoặc bản chất ngẫu nhiên.
Khi mối quan hệ cĩ bản chất xác định ta cĩ thể thiết lập được biểu thức tốn
học bằng các con đường khác nhau, thí dụ bằng phương pháp phân tích hồi qui.
Khi mối quan hệ cĩ bản chất ngẫu nhiên, thì sự liên kết cĩ thể được khám
phá và thiết lập bằng phương pháp phân tích tương quan. Bốn dạng liên hệ thường
gặp giữa hai biến định lượng x và y được biểu diễn ở Hình 2 bên dưới.
(a) khơng cĩ liên hệ (b) liên hệ tuyến tính thuận
x x
y y
Chương 3
17
Hình 2 Biểu đồ các mối liên hệ thường gặp của x và y
Trong Hình 2 (a) các chấm đại diện cho các cặp giá trị thực tế quan sát được (x;
y) phân tán ngẫu nhiên, và khơng cĩ mối liên hệ giữa hai biến này. Trong Hình 2 (b)
thì mối liên hệ đĩ gần như là tuyến tính thuận. Hình 2 (c) thể hiện mối liên hệ tuyến
tính nghịch. Cịn Hình 2 (d) thì mối liên hệ đĩ là phi tuyến.
Người ta sử dụng một đại lượng thống kê cĩ tên là hệ số tương quan Pearson
(R) để lượng hĩa mức độ chặt chẽ của mối quan hệ này, được tính theo cơng thức sau:
yx
N
i
ii
SSN
yyxx
R
)1(
))((
11 R (3.1)
Trong đĩ: N là số hợp chất quan sát.
Sx, Sy là độ lệch chuẩn của từng biến x và y.
Trị tuyệt đối của R cho biết mức độ chặt chẽ của mối liên hệ tuyến tính:
R < 0.7: nghèo nàn.
0.7 < R < 0.8: khá.
0,8 < R < 0.9: rõ nét.
R > 0.9: hồn tồn.
Khuynh hướng của sự liên quan tuyến tính được biểu thị bởi giá trị của R:
R < 0: liên quan nghịch (giảm dần).
R > 0: liên quan thuận (tăng dần).
(c) liên hệ tuyến tính nghịch (d) liên hệ phi tuyến
x x
y y
Chương 3
18
Nếu xác định các biến cĩ sự tương quan tuyến tính với nhau thì ta cĩ thể mơ
hình hĩa mối quan hệ của chúng bằng mơ hình hồi qui tuyến tính. Phương trình hồi
qui là bộ phận cấu thành quan trọng của các mơ hình tương quan và việc lựa chọn và
tính tốn đúng đắn phương trình này là một bước quan trọng nhất trong việc lập mơ
hình tương quan.
Hồi qui đa biến tuyến tính (MLR) là một trường hợp rất phổ biến trong thực tế,
là tổ hợp tuyến tính giữa các biến phụ thuộc với nhiều biến độc lập. Phân tích hồi qui
bao hàm cả ý nghĩa “ước tính” (Estimating) hay “dự đốn” (Predictive) vì sau khi sự
tương quan tuyến tính giữa x và y được thiết lập bởi một biểu thức tốn học cụ thể
người ta cĩ thể ước tính hay dự đốn giá trị của y từ một giá trị của x. Đường biểu diễn
biểu thức tốn học ấy được gọi là đường hồi qui của y theo x.
i
k
j
ijjiikkiii xxxxy
1
022110 ... (3.2)
i thường được gọi là sai số, là chênh lệch giữa giá trị quan sát được yk và
trung bình của tập con các giá trị của biến y tại điểm xk.
i được xem là biến ngẫu nhiên, độc lập cĩ phân phối chuẩn, cĩ trung bình
bằng 0 và phương sai là 2 .
Các hệ số trong phương trình được ước lượng theo nguyên tắc bình phương tối
thiểu nghĩa là làm sao cho tổng bình phương các phần dư dưới đây là nhỏ nhất.
N
i
k
j
ijji xy
1
2
1
0 (3.3)
Khi thu được các dữ liệu cần thiết (yi, xji) trong đĩ số bộ dữ liệu N ít nhất phải
lớn hơn số biến độc lập k thì người ta cĩ thể xác định được các hệ số hồi qui theo
chuẩn bình phương cực tiểu như sau:
)min()min(
1
2
2
1
eyyMin
N
i
i
N
i
tính
ii
(3.4)
Điều kiện này đạt được khi đạo hàm của i2 theo các hệ số i triệt tiêu.
Chương 3
19
,0
i
e
với i = 1, 2,..., N. (3.5)
Ta giả thiết rằng hàm f phụ thuộc tuyến tính vào bộ kxxx ,...,, 21 như vậy ta chỉ
cần tìm kiếm các hệ số phù hợp. Trong khảo sát QSAR, biến yi là hoạt tính hố chất,
biến xi là các tham số hố lí.
Giá trị thống kê đặc trưng cho mơ hình hồi qui là hệ số xác định (coefficient of
determination) hay hệ số R2.
Một số mơ hình hồi qui đa biến tuyến tính
Mơ hình MLR cĩ dạng tổng quát như sau:
Dạng lý thuyết:
kk xxx ...22110 (3.6)
Dạng ước tính
exbxbxbby kk ...22110 (3.7)
Dạng ước tính với N trường hợp quan sát:
ikikiii exbxbxbby ...22110 (3.8)
Dạng ước tính bằng phương pháp bình phương cực tiểu:
kikiii xbxbxbby ...ˆ 22110 (3.9)
Trong đĩ: iyˆ là giá trị dự đốn của y.
ix là biến độc lập.
ib là các hệ số hồi qui.
Mơ hình MLR cĩ thể xuất hiện dưới một số dạng đặc biệt như sau:
Dạng tương tác: giả sử hai biến x1 và x2 cĩ hệ tương tác thì mơ hình MLR cĩ
thể được viết:
21222110ˆ xxbxbxbbyi (3.10)
Dạng đa thức: mơ hình hồi qui dạng đa thức bậc k cĩ thể biểu diễn dưới dạng
Chương 3
20
tổng quát sau:
k
k xbxbxbby ...ˆ
2
210 (3.11)
3.1.2 Phân tích hồi qui đa biến tuyến tính
Các mơ hình hồi qui đa biến tuyến tính cĩ thể được thiết lập một cách tự động
bởi các chương trình phân tích thống kê như SPSS, SAS, BMDP, MINITAB,
Stagraphics-Plus, Microsoft EXEL, Stagraphics Centurion XV….
3.1.2.1 Các thủ tục chọn biến
Nhiều mơ hình hồi qui cĩ thể được xây dựng từ cùng một tập biến. Muốn sàn
lọc các biến độc lập xi cĩ liên quan tuyến tính với biến phụ thuộc trong một nhĩm dữ
liệu cĩ N trường hợp quan sát, người ta cĩ thể dùng nhiều phương pháp. Ba thủ tục
phổ biến mà ta sẽ nghiên cứu là: đưa dần vào (forward selection), loại trừ dần
(backward elimination), và hồi qui từng bước. Sau đây là các thủ tục chọn biến được
thực hiện trong phần mềm Stagraphics Centurion XV.
Phương pháp đưa dần vào: biến đầu tiên được xem xét để đưa vào phương
trình là biến cĩ tương quan thuận hay nghịch lớn nhất với biến phụ thuộc. Cĩ 2 tiêu
chuẩn để đưa biến vào:
F-to-enter: là giá trị nhỏ nhất của thống kê F mà một biến phải đạt được
để được đưa vào.
F-to-remove: là giá trị F tối thiểu mà thống kê F của biến độc lập đĩ
phải đạt được để ở lại trong phương trình.
Phương pháp loại trừ dần: khởi đầu với tất cả các biến đều ở trong phương
trình, sau đĩ loại trừ dần bằng tiêu chuẩn loại trừ. Cĩ hai tiêu chuẩn loại trừ:
F-to-enter: là giá trị nhỏ nhất của thống kê F mà một biến phải đạt được
để được đưa vào.
F-to-remove: là giá trị F tối thiểu mà thống kê F của biến độc lập đĩ
phải đạt được để ở lại trong phương trình.
Phương pháp chọn từng bước: là sự kết hợp của thủ tục đưa dần vào và thủ
tục loại trừ dần, đây là phương pháp phổ biến nhất. Biến thứ nhất được chọn giống
Chương 3
21
như cách chọn dần từng bước. Sau khi biến thứ nhất được đưa vào, thủ tục chọn từng
bước khác với đưa dần vào ở chỗ biến thứ nhất được xem xét xem cĩ nên loại bỏ nĩ ra
khỏi phương trình căn cứ theo tiêu chuẩn ra giống như thủ tục loại trừ dần. Các bước
như thế được tiếp tục cho đến khi khơng cịn biến nào thỏa điều kiện ra nữa.
3.1.2.2 Đánh giá mơ hình
Để đánh giá mức độ phù hợp của mơ hình với bộ dữ liệu thực nghiệm, người ta
dùng các đại lượng sau:
Hệ số xác định (R2): bình phương hệ số tương quan giữa các giá trị yitính tính
theo mơ hình hồi qui và các giá trị yi thực nghiệm.
N
i
i
N
i
tính
ii
yy
yy
R
1
2
1
2
2
)(
)(
1 (3.12)
Trong đĩ: y là giá trị trung bình của các giá trị iy .
Ý nghĩa: R2 cho biết sự phù hợp của mơ hình với bộ dữ liệu thực nghiệm.
Nếu giá trị R2 càng gần 1 thì mơ hình mơ tả tốt các số liệu thực nghiệm, các giá trị yitính
tính tốn rất gần các giá trị yi thực nghiệm.
Hệ số 2R hiệu chỉnh ( 2aR ): được sử dụng để phản ánh sát hơn mức độ phù
hợp của mơ hình MLR. 2aR khơng nhất thiết phải tăng lên khi nhiều biến được thêm
vào phương trình.
1
)1( 222
kN
RkRRa (3.13)
Tính tổng quát của mơ hình (Q2): Việc xác định tính tổng quát dựa trên
phương pháp tham chiếu chéo (cross validation). Phương pháp này được thực hiện
gồm các bước sau:
Chia ngẫu nhiên tập dữ liệu thành k tập con phân biệt.
Lặp lại k lần, mỗi lần chừa ra một tập con để kiểm tra, phần cịn lại để
luyện
Chương 3
22
Tính giá trị Q2 :
N
i
i
N
i
tính
ii
yy
yy
Q
1
2
1
2
2
)(
)(
1 (3.14)
Giá trị Q2 càng gần 1 thì khả năng đốn nhận càng chính xác hay nĩi cách khác
mơ hình cĩ khả năng tổng quát hĩa.
Khả năng dự đốn ngoại của mơ hình: phương pháp này được thực hiện
như sau: chia bộ dữ liệu thành 2 nhĩm nhỏ, dùng một nhĩm luyện (training set) cĩ N
trường hợp để thiết lập mơ hình hồi qui và sau đĩ dùng mơ hình ấy để dự đốn tác
dụng của một nhĩm thử (test set) cĩ M trường hợp.
Nếu mơ hình tìm được cĩ sự tuyến tính cao giữa các biến phụ thuộc và các biến
độc lập thì phương pháp phân tích MLR cĩ ưu điểm sau:
Những mối quan hệ dữ liệu quan sát được mơ tả rõ ràng.
Là phương pháp đơn giản cho việc đốn nhận mẫu mới.
Tuy nhiên phương pháp này sẽ khơng phù hợp trong những trường hợp mà giữa
các biến độc lập cĩ liên hệ chặt chẽ với nhau hoặc số biến lớn hơn số mẫu quan sát.
Nếu mơ hình khơng tuyến tính với các biến độc lập, khi đĩ ta cĩ mơ hình hồi
qui phi tuyến.
3.2 PHƯƠNG PHÁP MẠNG NƠRON NHÂN TẠO (Artificial
Neural Network) 2, 8, 19, 22
Trong thực tế, mối quan hệ giữa biến phụ thuộc và các biến độc lập thường là
khơng tuyến tính, chẳng những như thế mà cĩ đơi lúc mối quan hệ này rất phức tạp.
Việc áp dụng phương pháp phân tích hồi qui đa biến phi tuyến hay phi tham số vào
việc khảo sát QSAR để mơ tả được các quan hệ này là điều khĩ khăn và hết sức cần
thiết. Một trong những phương pháp xử lý số liệu mới được ứng dụng mạnh trong
khảo sát QSAR là mạng nơron nhân tạo (ANN).
Lý thuyết ANN được hai nhà bác học người Mỹ là McCulloch và Pitts đề xuất
Chương 3
23
vào năm 1943, đến khoảng giữa thập niên 80 của thế kỷ XX thì nĩ bắt đầu thật sự
được tìm hiểu và ứng dụng mạnh vào rất nhiều lĩnh vực khoa học – kỹ thuật khác nhau
trong đĩ cĩ hố học. Dựa trên cơ sở hệ thần kinh của sinh vật, hai nhà bác học người
Mỹ đã mơ phỏng lại và xây dựng ANN tạo nhằm mơ phỏng các mối quan hệ phức tạp
giữa biến phụ thuộc và biến độc lập.
ANN gồm những nơron là những đơn vị xử lý nhị phân mà cấu trúc và cách xử
lý của nĩ được mơ phỏng và đơn giản hĩa từ cấu trúc và quá trình tiếp nhận – xử lý
thơng tin phức tạp của bộ não con người.
Để cĩ khái niệm tổng quát về mạng nơron, phần này sẽ giới thiệu sơ lược về
cấu tạo và hoạt động của nơron sinh học, các thành phần cơ bản của nơron nhân tạo,
cách truyền thơng tin, mạng lan truyền đa lớp và trạng thái hoạt động của mạng.
3.2.1 Nơron sinh học và nơron nhân tạo
3.2.1.1 Nơron sinh học
Hình 3 Cấu tạo một nơron sinh học
Hệ thần kinh con người bao gồm khoảng 1010 tế bào thần kinh hay cịn gọi là
nơron. Một nơron sinh học tiêu biểu gồm một thân tế bào (soma hay cell body) với
một nhân (nucleus) bên trong. Thân tế bào bao gồm nhiều sợi nhánh (dendrites) và sợi
trục (axon). Cĩ dạng như hình trên.
Những sợi nhánh cĩ nhiệm vụ nhận tín hiệu được tích lũy, sợi trục tiếp nhận tín
hiệu và truyền sang một nơron khác ở vị trí khớp nối (synapse).
Chương 3
24
Nhưng khơng phải lúc nào tín hiệu đưa vào cũng được truyền đi và truyền
nguyên vẹn mà chỉ khi tín hiệu đĩ đạt đến một giới hạn nào đĩ và khi truyền qua
synapse nĩ được biến đổi tùy thuộc vào lực synapse.
Một tín hiệu cĩ cường độ xi khi qua synapse I sẽ cĩ cường độ là si ứng với lực
synapse wi:
si = xi . wi (3.15)
3.2.1.2 Nơron nhân tạo
Cấu tạo của một nơron nhân tạo đơn (được mơ tả bởi hình sau:
Hình 4 Cấu tạo một nơron nhân tạo
Đầu vào của một nơron gồm các dữ liệu nhập hoặc từ đầu ra của các nơron
khác. Người ta thường tổ hợp đầu vào bằng cách tính tổng trọng số dữ liệu nhập pi:
n
i
ii pwI
1
(3.16)
Với wi là trọng số đặc trưng cho liên kết giữa nơi truyền dữ liệu (tín hiệu) đến
và nơi nhận dữ liệu (tín hiệu). Giá trị đầu ra được tạo bằng cách dùng các hàm truyền
(transfer function) f trên I: V = f(I)
Trong ANN thường dùng các hàm truyền sau:
p2
pn
V = f(I)
w1
w2
wn
.
.
.
n
i
ii pwI
1
p1
Chương 3
25
3.2.2 Cấu trúc mạng nơron đa lớp
Một mạng lan truyền tổng quát là mạng cĩ n (n > 2) lớp: lớp thứ nhất gọi là lớp
nhập (input layer), lớp thứ n gọi là lớp xuất (output layer), và (n – 2) lớp ẩn (hidden
layer). Số nút của lớp nhập và lớp xuất do bài tốn qui định, cịn số nút của lớp ẩn do
người thiết kế mạng quyết định. Trong mạng lan truyền tiến, mỗi nút của lớp thứ i (0 <
i < n) liên kết với mọi nút ở lớp thứ (i +1), và các nút trong cùng lớp khơng liên kết với
nhau. Lớp nhập nhận dữ liệu vào và truyền lại cho tất cả các nơron cho lớp ẩn thứ
nhất. Các nơron trong lớp ẩn thứ nhất tổ hợp các giá trị đầu vào và tạo lại đầu ra rồi
truyền đi cho tất cả các nơron ẩn lớp kế tiếp… Lớp cuối cùng, lớp xuất, là lớp cho kết
quả thật (giá trị biến phụ thuộc).
Hình 5 Sơ đồ cấu tạo mạng nơron nhân tạo cĩ 3 lớp
p1
p2
Pn
a1
an
wji
wkj
wlk
Dữ liệu nhập
Lớp xuất Lớp nhập
Dữ liệu ra
.
.
. . .
.
.
.
.
Lớp ẩn
Tanh
xx
xx
ee
eexf
)(
-
1
0
1
0
1
Logistic (sigmoid)
x
x
e
exf
1
)(
Threshold
0 if x< 0
f(x) =
1 if x >= 1
Chương 3
26
Mạng lan truyền chỉ cĩ thể ở một trong hai trạng thái: trạng thái ánh xạ và trạng
thái học.
Ở trạng thái ánh xạ, thơng tin lan truyền từ lớp nhập đến lớp xuất và mạng
thực hiện ánh xạ để tính được các biến phụ thuộc như sau: trước tiên, các nơron nhập
nhận các giá trị biến độc lập được đưa vào, mỗi nơron nhập chuyển giá trị nĩ nhận
được cho tất cả các nơron ẩn của lớp ẩn kế cận. Mỗi nơron ẩn tính tổng trọng hĩa của
tất cả các dữ liệu nhập. Sau đĩ một hàm truyền được áp dụng lên tổng trọng để nén
chúng vào một miền giới hạn của hàm truyền (tùy mỗi loại hàm truyền mà ta sử dụng
sẽ cĩ miền giới hạn khác nhau). Mỗi nơron ẩn này lại chuyển kết quả của mình đến
các nơ ron ở lớp kế tiếp… cho đến các nơron lớp xuất. Mỗi nút xuất thực hiện các thao
tác tương tự như đã thực hiện trong nút ẩn để cho ra giá trị kết xuất của nút xuất – là
giá trị của các biến phụ thuộc cần xác định.
Trạng thái học: bản chất ánh xạ do mạng thực hiện tùy thuộc vào giá trị các
trọng số trong mạng. Lan truyền ngược là một phương pháp cho phép xác định tập
trọng tốt nhất của mạng để giải một bài tốn được cho. Việc áp dụng phương pháp lan
truyền ngược là một quá trình lặp đi lặp lại nhiều lần hai tiến trình chính: ánh xạ và lan
truyền ngược sai số. Hai tiến trình này được áp dụng trên một tập mẫu xác định. Ta gọi
chung tiến trình này là học hay luyện mạng.
Một lợi ích của mạng lan truyền là cĩ thể xây dựng mơ hình nhiều kết xuất. Cĩ
thể nĩ địi hỏi ít cơng việc hơn và ít tính tốn máy hơn. Ngồi ra một mơ hình duy nhất
sẽ cĩ tính nhất quán mà những mơ hình phát triển riêng biệt khơng thể cĩ.
3.2.3 Luyện mạng: Kỹ thuật lan truyền ngược
Quá trình luyện mạng được bắt đầu với các giá trị trọng số tùy ý, và tiến hành
lặp đi lặp lại. Mỗi lần lặp được gọi là một thế hệ (epoch). Trong mỗi thế hệ, mạng hiệu
chỉnh các trọng số sao cho sai số (độ lệch giữa các kết xuất và giá trị đích) giảm dần.
Tiến trình điều chỉnh nhiều lần giúp cho trọng dần dần đạt được tập giá trị tối ưu.
Để cập nhật trọng số trong mỗi thế hệ luyện, mạng phải xử lý tất cả các mẫu
trong tập mẫu. Đầu tiên mạng thực hiện phép tốn lan truyền tiến, nghĩa là mạng thực
hiện ánh xạ các biến nhập của mẫu hiện hành thành các giá trị xuất. Sau đĩ, xác xuất
được tính dựa trên sai số của kết xuất và giá trị đích. Trên cơ sở sai số tính tốn, mạng
Chương 3
27
sẽ cập nhật lại bộ trọng số theo nguyên tắc lan truyền ngược sai số - gọi là giai đoạn
lan truyền ngược (back propagation).
Kỹ thuật cơ bản trong lan truyền ngược là cập nhật bộ trọng số theo hướng
giảm gradient. Ví dụ khi áp dụng trong QSAR, trước hết mạng tính các kết xuất hoạt
tính ai theo các dữ liệu nhập (các thơng số cấu trúc) từ các trọng số đã khởi tạo ban
đầu. Sau đĩ tính gradient ig .
Cuối cùng chỉnh sửa các trọng số wi+1 cho vịng lặp kế tiếp theo gradient ig và
tốc độ luyện hiện tại: iiii gww 1 (wi là trọng số hiện tại).
Các bước này được thực hiện lặp lại nhiều lần cho đến khi đạt được điều kiện
ngừng luyện.
Hình 6 Sơ đồ kỹ thuật lan truyền ngược
3.2.4 Ngừng tiến trình luyện
Khi mạng được luyện, ánh xạ của nĩ dần dần trở nên phức tạp. Nĩ sẽ băng qua
một cấu hình tổng quát hĩa tốt nhất tại một điểm nào đĩ; sau điểm đĩ, mạng sẽ học để
mơ hình hĩa nhiễu, khi đĩ mạng sẽ trả lời chính xác những gì nĩ được học, cịn đối với
các dữ liệu mới thì mạng cho kết quả hồn tồn sai. Hiện tượng này được gọi là hiện
Input (giá trị thực)
W1
W2
W3
Output (giá trị tính)
Output (giá trị thực)
W1 điều chỉnh
W2 điều chỉnh
W3 điều chỉnh
Điều chỉnh
Sai số
Chương 3
28
tượng quá luyện hay quá khớp (overfitting). Nếu ta cĩ thể xác định được thời điểm
mạng đạt đến điểm đĩ, ta cĩ thể ngừng luyện trước khi xảy ra quá khớp và cĩ thể sử
dụng cấu hình mạng tổng quát hĩa tốt nhất này.
Thường tiêu chuẩn ngừng luyện là dựa trên gradient lỗi, mạng sẽ luyện đến khi
khơng cịn lỗi hoặc lỗi nhỏ hơn một giá trị nào đĩ do ta cho trước. Nhưng khi mạng
được luyện đến khơng cịn lỗi thì mạng khơng cịn tính tổng quát hố nghĩa là lúc đĩ
mạng bị quá luyện.
Ta cĩ thể ngăn ngừa hiện tượng quá luyện bằng cách tìm giá trị gradient lỗi và
số nút ẩn phù hợp. Điều này địi hỏi nhiều thời gian.
Nếu khơng bị giới về khả năng tính tốn (phần cứng) thì ta cĩ thể cho mạng
một lượng nút ẩn thừa để luyện và dùng phương pháp dừng luyện bằng bộ kiểm tra.
Phương pháp này được thực hiện như sau: chia bộ mẫu ra thành ba tập, tập số một
dùng để luyện mạng, tập số hai dùng để kiểm tra hiện tượng quá khớp, bộ số ba dùng
để kiểm tra tính tổng quát hố của mạng. Luyện mạng với tập mẫu luyện nhưng định
kì ngừng luyện để đánh giá sai số trên tập mẫu kiểm tra (khi đánh giá sai số trên tập
mẫu kiểm tra, ta chỉ cần thực hiện ánh xạ cho từng mẫu mà khơng phải trải qua giai
đoạn lan truyền ngược). Khi sai số trong mẫu kiểm tra đi lên, thì quá khớp đã bắt đầu.
Khi đĩ, ta ngừng luyện, trở về các trọng sinh ra lỗi thấp nhất trên mẫu kiểm tra, và
dùng các trọng đĩ cho mơ hình của ta. Như vậy, song song với tiến trình luyện ta phải
tính sai số trên tập mẫu kiểm tra.
3.2.5 Các yếu tố ảnh hưởng đến tính tổng quát hố của mạng nơron
Mạng cĩ tính tổng quát hố khi nĩ cĩ thể dự đốn tốt các dữ liệu mới. Các yếu
tố ảnh hưởng nhiều đến tính tổng quát hố của mạng là:
Kích thước tập mẫu: mạng học để mơ hình hĩa dữ liệu và cĩ thể mơ hình hĩa
cả nhiễu, cĩ thể ngăn nĩ quá khớp bằng cách tạo mẫu luyện đủ lớn để bù cho mức
nhiễu trong dữ liệu. Nhưng việc tăng mẫu thường gặp phải khĩ khăn trong thực hành
vì thực tế mẫu hiếm khi đủ lớn để ngăn được nhiễu.
Số nút ẩn: mỗi trọng số trong mạng là một tham số làm tăng khả năng của
mạng, số trọng số trong mạng là một hàm theo số nút của mạng, nĩ quyết định mức độ
Chương 3
29
tự do mà mạng cĩ thể khớp với dữ liệu. Do đĩ, mạng chỉ đạt được trạng thái tối ưu khi
tìm được số nút ẩn phù hợp. Để tìm số nút ẩn tối ưu thì phải luyện nhiều mạng với số
nút ẩn khác nhau. Hơn nữa, phải luyện cho đến khi mạng hội tụ. Phương pháp này
cũng tạm ổn nhưng địi hỏi thời gian máy tính khá nhiều. Quá trình tìm mạng tối ưu
chủ yếu tập trung vào việc tìm số nút ẩn, nhưng số nút nhập cũng quan trọng. Khi
dùng nhiều nút nhập ta sẽ cho mạng nhiều mức tự do hơn – nhiều khả năng để mơ hình
hĩa một cách chính xác các hàm phức tạp, hay nhiều khả năng để quá khớp.
Thời gian luyện mạng cũng quan trọng khơng kém. Trong thực tế, việc luyện
mạng đến hội tụ là một bài tốn khơng dễ. Giai đoạn luyện cĩ thể rất dài khi phải
luyện đến giá trị gradient lỗi rất nhỏ cho đến khi một nút ẩn nào đĩ tìm được giá trị tối
ưu. Vì vậy, mạng cần đủ thời gian để luyện và dừng luyện đúng lúc.
Mạng chỉ cĩ giá trị sử dụng khi cĩ tính tổng quát hố cao.
Chương 4
30
Chương 4
CHẤT ĐUỔI MUỖI VÀ N-ACYLPIPERIDINE
----------
4.1 BỆNH DO MUỖI GÂY RA VÀ CÁC HĨA CHẤT
ĐUỔI MUỖI 13-15
Muỗi đốt, ngồi chuyện khĩ chịu, ngứa ngáy tại chỗ, muỗi cịn là trung gian
truyền một số bệnh ký sinh trùng ở nhiều vùng nhiệt đới và cận nhiệt đới. Sau đây là
một vài bệnh nguy hiểm thường gặp:
Sốt rét là một chứng bệnh gây ra bởi ký sinh trùng loại protozoa tên
Plasmodium, lây truyền từ người này sang người khác khi những người này bị muỗi
đốt. Muỗi lan truyền bệnh là những lồi Anopheles, thuộc nhĩm Plasmodium. Chúng
hút máu người bệnh, tiêu hĩa máu nhưng khơng tiêu hĩa ký sinh trùng. Bệnh phổ biến
ở các khu vực nhiệt đới và cận nhiệt đới của châu Mỹ, châu Á và châu Phi. Sốt rét là
một trong những bệnh truyền nhiễm phổ biến nhất và là vấn đề nghiêm trọng đối với
sức khoẻ cộng đồng. Bệnh cĩ thể chữa và phịng bằng thuốc căn bản Chloroquine.
Sốt Dengue cịn gọi là Sốt Đập Lưng (breakbone fever) do muỗi Aedes
Aegyti truyền virus từ người bệnh sang người lành. Bệnh ít gây tử vong ngoại trừ
trường hợp Sốt Đập Lưng Xuất Huyết thường thấy ở các quốc gia Đơng Nam Á và
châu Mỹ La Tinh. Bệnh nhân cĩ triệu chứng như đau xương khớp, nhức đầu, nĩng sốt,
nổi ban trên da và làm cơ thể suy nhược. Khơng cĩ thuốc chữa khỏi bệnh mà cũng
chưa cĩ thuốc tiêm ngừa. Sốt xuất huyết đang là vấn đề nan giải của mọi quốc gia vì
dịch bệnh ngày một gia tăng.
Sốt vàng (Yellow Fever) là chứng bệnh sốt gây vàng da do siêu vi trùng
thuộc họ Flaviviridae gây ra. Đây là một chứng bệnh sốt xuất huyết quan trọng tại
Châu Phi và Nam Mỹ mặc dầu hiện nay đã cĩ vắc-xin hiệu nghiệm. Sốt vàng từng gây
nhiều trận dịch tàn khốc, gây tử vong khắp nơi cho đến thế kỷ 20 khi khoa học khám
phá ra bệnh lây do muỗi đốt và nghiên cứu được phương cách phịng chống bằng
vắc-xin. Sốt vàng cũng do muỗi Aedes Aegypti truyền một loại virus.
Bệnh Giun Chỉ (Filariasis) cĩ nhiều ở vùng nhiệt đới và bán nhiệt đới. Giun
Chương 4
31
chỉ bạch huyết (Lymphatic filariasis) là một bệnh nhiễm ký sinh trùng Wuchereria
bancrofti, Brugia malayi hoặc Brugia timori. Lồi ký sinh trùng này được truyền từ
người này sang người khác do muỗi đốt và phát triển thành giun trưởng thành trong hệ
mạch bạch huyết, gây nên tổn thương và tổ chức sưng phồng. Bệnh phù chân voi
(Elephantiasis) gồm đau, biến dạng chi cơ thể và cơ quan sinh dục - đây là các dấu
hiệu cổ điển trong giai đoạn muộn của bệnh này. Bệnh cĩ thể chữa được bằng thuốc
diethylcarbamazine.
Viêm não Nhật Bản: tác nhân truyền bệnh là muỗi Culicinea
tritaeniorhyunchus, thường cĩ ở nơng thơn. Người là ký chủ trong chu trình truyền
bệnh và thường trẻ em mắc bệnh nhiều hơn người lớn. Tỉ lệ tử vong từ 7-33% hay cao
hơn nhưng tỉ lệ di chứng ngược lại với tỉ lệ tử vong . Các di chứng của bệnh thường là
liệt dai dẳng, mất điều hịa trương lực, chậm phát triển trí tuệ và rối loạn tính cách. Vì
đây là bệnh do virus gây ra nên các hiểu biết bệnh học cịn nhiều hạn chế. Việc điều trị
dựa vào điều trị triệu chứng và tiêm phịng là chủ yếu.
Các vấn đề về phịng tránh, xua đuổi hay tiêu diệt muỗi đã được con người quan
tâm từ lâu. Nĩ là vấn đề nan giải của nhiều quốc gia trên thế giới.
Hình 7 Thuốc xịt muỗi và muỗi thuộc nhĩm Plasmodium
Từ xưa, con người đã biết dùng hĩa chất để đuổi muỗi như đốt vỏ cam quýt và
một số thảo mộc cĩ chứa tinh dầu hoặc dùng nhiệt để tạo điều kiện phát tán các hương
liệu đối kháng với muỗi, hay dùng các loại cây củ tươi như hành tây cắt đơi đặt trong
phịng,… Các phương pháp dân gian này cĩ nhiều hạn chế là khơng giết được muỗi,
chỉ đuổi được muỗi trong khoảng thời gian và một vùng khơng gian nhất định, đơi khi
lại cịn gây ra phiền hà đối với nhiều người khác.
Chương 4
32
Ngày nay, thuốc đuổi muỗi thơng dụng sử dụng các hĩa chất tổng hợp – được
điều chế thơng qua cơng nghệ cao và tiên tiến của ngành dược phẩm. Sau đây là một
vài hĩa chất được sử dụng trong sản phẩm thuốc đuổi muỗi đã đăng kí với Cơ quan
Bảo Vệ Mơi Sinh của Hoa Kì US EPA (United State Environmental Protection
Agency):
DEET tên hĩa học là N,N-diethyl-meta-toluamide hoặc N,N-diethyl-3-
methyl-benzamide là thành phần hoạt chất được tìm thấy trong nhiều sản phẩm đuổi
muỗi nhất.
DEET được điều chế vào năm 1946 sau khi chiến tranh thế giới lần thứ 2
nhấn mạnh cần ngăn ngừa muỗi và các cơn trùng khác đốt chích. DEET được sử dụng
hơn 50 năm nay và được xem là “tiêu chuẩn vàng” cho các hoạt chất đuổi muỗi. Kể từ
năm 1957 hĩa chất này đã cĩ mặt ở khắp mọi nơi và là hĩa chất chống muỗi và các
lồi cơn trùng hút máu khác được sử dụng rộng rãi nhất trên thế giới.
Hĩa chất DEET hoạt động bằng cách làm cho muỗi và họ hàng nhà muỗi
khơng thể đánh hơi mùi mồ hơi hấp dẫn của con người ở gần đĩ. Một cuộc nghiên cứu
mới được thực hiện gần đây cho thấy những kết quả như sau:
Một sản phẩm chứa 23.8% DEET cĩ cơng dụng ngăn muỗi cắn khoảng 5
giờ đồng hồ.
Một sản phẩm chứa 20% DEET cĩ cơng dụng ngăn muỗi cắn gần 4 giờ
đồng hồ.
Một sản phẩm chứa 6.65% DEET cĩ cơng dụng ngăn muỗi cắn gần 2
tiếng đồng hồ.
Những sản phẩm chứa 4.75% DEET và 2% dầu đậu nành: cả hai loại này
đều cĩ cơng dụng ngăn muỗi cắn trong vịng khoảng 90 phút đồng hồ.
Ủy ban Sức Khỏe Mơi Trường của Hội Bác Sĩ Nhi Khoa Hoa Kỳ (The
American Academy of Pediatrics Committee on Environmental Health) mới đây cho
biết những sản phẩm chứa DEET cĩ thể dùng một cách an tồn cho trẻ em và cho phụ
nữ mang thai hoặc đang cho con bú.
Picaridin (tên hĩa học là 1-methylpropyl 2-(2-hydroxyethyl)-
1-piperidinecarboxylat) là chất lỏng khơng màu khơng mùi được sử dụng như là thuốc
diệt cơn trùng như ruồi, muỗi, chiggers, và bọ ve. Các sản phẩm cĩ chứa khoảng
Chương 4
33
5-20% hoạt chất.
Tinh dầu bạch đàn chanh được tìm thấy trong lá và cành cây bạch đàn. Nĩ
đã được đăng ký đầu tiên vào năm 1948 như là một thuốc trừ sâu và thuốc diệt cơn
trùng và bọ ve. Như với hầu hết các loại dầu thực vật, khơng cĩ tác dụng phụ cho con
người. Sản phẩm cĩ chứa khoảng 30–40% của các thành phần hoạt chất.
PMD (p-mentane-3,8-diol) là hĩa chất tổng hợp của tinh dầu bạch đàn
chanh. Nĩ được áp dụng cho da hoặc quần áo để xua đuổi cơn trùng. Sản phẩm cĩ
chứa 8-10% thành phần hoạt chất cĩ tác dụng bảo vệ như DEET ở nồng độ thấp.
IR3535 (tên hĩa học là etyl 3-(N-butyl-N-axetyl)-aminopropionat), cũng
được gọi là Merck 3.535, được sử dụng như một thuốc diệt cơn trùng chống muỗi và
lồi cắn đốt khác. Sản phẩm cĩ chứa khoảng 7.5-20.07% của các thành phần hoạt chất.
Permethrin được đăng ký để sử dụng như một loại thuốc trừ sâu và thuốc
đuổi muỗi. Sản phẩm Permethrin được sử dụng trên quần áo, giày, lưới, giường.
Permethrin dùng ngâm tẩm quần áo, giầy dép như một cách phịng chống bọ ve, muỗi,
các lồi cơn trùng và vẫn cịn hiệu quả sau khi giặt rửa nhiều lần.
Allethrin là hĩa chất đuổi muỗi thường được sử dụng cho vùng khơng gian
rộng, là chất dễ bay hơi, được sử dụng trong các sản phẩm thương mại như nhang,
miếng dán, nến và đèn xơng muỗi.
Hiện thị trường cĩ nhiều sản phẩm phịng chống muỗi với những cách thức sử
dụng khác nhau. Loại diệt muỗi bằng nhang hoặc bình xịt (với các nhãn hiệu như
Mosfly, Jumbo, Raid Max...); loại thuốc chống muỗi dùng cho cá nhân dưới dạng kem
bơi (Soffell) hay thuốc xịt lên da cĩ hương thơm; loại máy xơng muỗi, máy bắt muỗi;
keo dán đuổi muỗi;… Tuy nhiên, nguyên liệu của các các loại sản phẩm này là hĩa
chất đều gây ra tác dụng phụ đến sức khỏe con người nên khi sử dụng cần lưu ý cơng
dụng để cĩ cách sử dụng hiệu quả, phù hợp và an tồn cho sức khỏe.
4.2 N-ACYLPIPERIDINE - CHẤT ĐUỔI MUỖI MỚI 18, 29, 31
Dữ liệu ban đầu về cấu trúc và hoạt tính của các chất họ piperidines được lấy từ
bộ dữ liệu về các hợp chất đuổi muỗi của Bộ Nơng Nghiệp Hoa Kì USDA (United
States Department of Agricuture) đã thu thập hơn 50 năm18. Các nhà khoa học của
trường đại học Florida (Mỹ) kết hợp với USDA đã nghiên cứu sàn lọc ra 200 chất từ
Chương 4
34
hàng ngàn hợp chất tiềm năng, họ tập trung cuộc tìm kiếm chủ yếu trên các hợp chất
N-acylpiperidine (thành phần làm cho hạt tiêu cĩ vị cay).
Cơng thức tổng quát của các dẫn xuất N-acylpiperidine như sau:
NR
O
R'
1
2
3
4
5
6
7
8
9
Từ bộ dữ liệu lựa chọn, họ dùng chương trình máy tính thiết kế thuốc, chương
trình này sử dụng những thơng tin về các cấu trúc hĩa học và tác dụng của các hợp
chất này trên các thụ quan của cơn trùng để tiên đốn tính hữu hiệu của chất đuổi
muỗi.
Chương trình máy tính này cho phép các nhà khoa học thu hẹp các hợp chất
xuống cịn 11 chất. Từ những thơng tin cĩ được từ 11 chất đĩ, họ tổng hợp thêm 23
chất, sau đĩ họ kiểm nghiệm 34 chất này với các đối tượng tình nguyện trong phịng
thí nghiệm. Những người tình nguyện đã đeo các miếng băng vào cánh tay thấm đầy
các liều lượng xác định mỗi hợp chất và cho tay vào lồng chứa muỗi. Mỗi lồng chứa
khoảng 500 con muỗi cái 5–10 ngày tuổi, nhiệt độ trong lồng là 28 1C và độ ẩm
tương đối là 35–60 %. Các nhà nghiên cứu đã đo đạc tính bền bỉ của các hợp chất –
thời gian cho tới khi chất đuổi muỗi phai hết – và điều này được đánh dấu bằng việc
bắt đầu bị muỗi chích.
Cuộc nghiên cứu đưa ra kết quả “đầy kinh ngạc” đối với các nhà khoa học, nĩ
cho thấy những chất này bảo vệ được nhiều hơn gấp 3 lần hĩa chất DEET – chất đuổi
muỗi hiệu quả nhất hiện nay. Những hợp chất này cĩ hiệu quả lâu nhất trong vịng 73
ngày và nhiều chất cĩ thời gian bảo vệ từ 40 đến 50 ngày so với DEET là 17.5 ngày.
Các nhà nghiên cứu dự định tiếp tục kiểm nghiệm trên 7 trong số các hợp chất
nhiều hứa hẹn nhất với mục đích xác định được thế hệ hĩa chất DEET kế tiếp và sẽ
tiếp tục quan sát xem việc chúng chống lại các lồi cơn trùng hiệu quả như thế nào.
Chương 4
35
Hình 8 Thí nghiệm hoạt tính sinh học
* Những phát hiện thú vị về muỗi và thuốc đuổi muỗi gần đây 13, 14
Gần đây nhà nghiên cứu Hector Douglas tại trường Đại học Alaska
Fairbanks đã phát hiện được lồi chim sẻ biển cĩ lơng vũ cĩ khả năng tiết ra chất cĩ
thành phần tương tụ như DEET cĩ khả năng đuổi muỗi.
Nghiên cứu của trợ lý giáo sư Mike Tyler từ Đại học Adelaide và nhà cơn
trùng học Craig Williams từ Đại học James Cook cho thấy: ếch sản xuất ra một loạt
hố chất ở trên da, một số lồi lưỡng cư như một lồi ếch xanh ở Australia cũng cĩ thể
bài tiết ra dịch đuổi muỗi...
Nhĩm nghiên cứu của James Logan thuộc Trung tâm Nghiên cứu
Rothamsted (Anh quốc) đã tìm được thuốc đuổi muỗi từ chính mồ hơi của một số tình
nguyên viên và họ đã tìm được thuốc đuổi muỗi do chính cơ thể củanhững người này
để tìm cách tổng hợp một loại hĩa chất tương đương cĩ thể đuổi muỗi và tương thích
cao với sức khỏe con người – chất này gần như khơng mùi đối với con người, song
hiện nay vẫn đang trong thời gian thử nghiêm hoặc chỉ cĩ ở mức độ phịng thí nghiệm.
Trong một nghiên cứu vừa được cơng bố trên tạp chí Current Biology (Mỹ),
một nhĩm chuyên gia quốc tế đã lập được sơ đồ chi tiết của cơ quan cảm thụ mùi mà
muỗi Anopheles sử dụng để tìm con người hút máu và truyền bệnh sốt rét. Qua đĩ, các
nhà khoa học đã phát hiện khả năng tiếp nhận mùi nhạy bén của xúc tu, một bộ phận
xuất phát từ đầu muỗi. Cùng với râu, xúc tu này giúp muỗi Anopheles cĩ khả năng
ngửi và nếm. Theo nhĩm nghiên cứu, muỗi Anopheles sử dụng xúc tu để phát hiện
Vải chưa xử lý hĩa chất Vải đã xử lý hĩa chất
Chương 4
36
mục tiêu từ xa; cịn trong những pham vi gần, nĩ dùng vịi để cảm nhận. Biết được cơ
chế mà chúng sử dụng để phát hiện và tấn cơng con người, các chuyên gia cĩ thể tạo ra
các chất mới để xua đuổi hoặc dẫn dụ chúng vào bẫy để tiêu diệt, gĩp phần hạn chế
bệnh sốt rét – một căn bệnh hiểm nghèo mang tính phổ biến nhất hiện nay. Nghiên cứu
này lấp đầy một khoảng trống về hiểu biết khoa học với hệ thống khứu giác của muỗi.
Hiện nay, các nhà khoa học đang nghĩ cách diệt muỗi hữu hiệu hơn bằng
cách lập bản đồ gen của muỗi truyền bệnh. Qua đĩ thay đổi cơ cấu di truyền của muỗi
để muỗi cái khơng thể mang ký sinh trùng sốt rét. Đầu năm 2002, một nhĩm nghiên
cứu ở Đại học Cleveland (Ohio) đã cấy thành cơng một gen mới của lồi muỗi
Anophele Stephensi chống lại ký sinh trùng sốt rét, nghĩa là khơng cịn là trung gian
truyền bệnh, gen nay cĩ tác dụng: thay đổi các thụ thể nhận mùi của muỗi để muỗi
chích động vật thay vì chích người; sử dụng cơng nghệ triệt sản cơn trùng (Sterile
Insect Technique –.SIT) nghĩa là chiếu tia gamma vào muỗi đực, tạo ra giống muỗi
đực triệt sản khơng cịn khả năng thụ tinh để giảm mật độ sinh sơi ở muỗi.
C. PHƯƠNG PHÁP
Chương 5
37
Chương 5
PHẦN MỀM SỬ DỤNG VÀ CÁC BƯỚC THỰC HIỆN
----------
5.1 PHẦN MỀM
5.1.1 Hyperchem 8.03
Chương trình HyperChemTM 8.03 được dùng để xây dựng cấu trúc phân tử, tối
ưu hố hình học, tính các tham cấu trúc. Đây là chương trình được ứng dụng rộng rãi
vì cĩ độ chính xác cĩ thể đáp ứng yêu cầu đặt ra trong lĩnh vực thiết kế phân tử với
nhiều tính năng như: xây dựng cấu trúc, tối thiểu hĩa năng lượng, tính tốn tham số
lượng tử, trình bày cấu trúc ba chiều.
5.1.2 Statgraphics Centurion XV
Statgraphics Centurion XV là phần mềm phân tích dữ liệu thống kê chuyên
dụng, được sử dụng để xây dựng mơ hình MLR. Nĩ cĩ hơn 160 chương trình thống
kê, bao gồm từ phân tích thống kê cơ bản đến phức tạp. Người dùng khơng nhất thiết
phải là một chuyên gia về thống kê bởi vì chương trình này đã cĩ các cơng cụ như
StatWizard và StatAdvisor giúp người dùng sử dụng một cách hiệu quả nhất.
5.1.3 NeuroSolution 5.07
NeuroSolutionTM 5.07 là phần mềm mơ phỏng ANN. NeuroSolution for Excel là
một sản phẩm đột phá của phần mềm NeuroSolutionTM 5.07. Nĩ được tích hợp trong
Microsoft Excel giúp cho người dùng dễ dàng sử dụng với giao diện quen thuộc trong
bảng tính của Microsoft Excel. Nĩ khơng chỉ dành cho người mới bắt đầu học về ANN
mà cịn là cơng cụ mơ hình hĩa mạnh mẽ để giải quyết bài tốn hồi qui phi tuyến.
5.1.4 Microsoft Excel
Microsoft Excel được dùng để nhập dữ liệu ban đầu, vẽ các đồ thị biểu diễn các
mối quan hệ của hoạt tính và các tham số cấu trúc, truy xuất dữ liệuvào phần mềm
NeuroSolution cho việc tính tốn mạng, lưu trữ các kết quả sau khi mạng luyện.
5.2 CÁC BƯỚC THỰC HIỆN
Chương 5
38
5.2.1 Tính tốn hĩa lượng tử
Xây dựng mơ hình cấu trúc phân tử của các dẫn xuất N-acylpiperidine bằng
phần mềm HyperChem 8.03
Tối ưu hố hình dạng các mơ hình vừa xây dựng bằng phương pháp gần đúng
PM3 với các thơng số sau:
Convergence limit: 10-4
Iteration limit: 300
RHF
RMS gradient: 10-4
Thuật tốn Polak-Ribiere
Từ những cấu trúc đã tối ưu ở trên, tính tốn những thơng số đặc trưng cho
cấu trúc đĩng vai trị là các biến độc lập để xây dựng mơ hình.
5.2.2 Phân tích hồi qui tuyến tính đa biến
Chia bộ dữ liệu thành hai tập: một tập để xây dựng mơ hình (27 chất), một
tập để kiểm tra khả năng dự đốn của mơ hình (7 chất).
Xác định số biến độc lập thích hợp: tất cả các biến độc lập (20 biến – xem
chương 6) khơng phải được đưa hết vào mơ hình. Mặc dù việc thêm biến độc lập vào
làm tăng hệ số tương quan R2, nhưng nĩ chỉ tốt khi chúng cĩ liên hệ mạnh với biến
phụ thuộc. Mơ hình được chọn ứng với mơ hình cĩ Q2 cao nhất, kế đĩ là số biến độc
lập nhỏ nhất và cuối cùng là R2. Thực hiện tính tốn Regression Model Selection để
chọn mơ hình cĩ các biến tối ưu.
Lập mơ hình thích hợp với số biến đã chọn: sau khi lựa chọn được số biến
thích hợp thì tiến hành phân tích MLR. Khi đĩ thu cĩ được hằng số và hệ số cho từng
biến của mơ hình.
Tính Q2 bằng cách thực hiện tham chiếu chéo trên tập dữ liệu xây dựng mơ
hình với thành phần bỏ ra là 3 (xem chương 3).
Nhận xét về mơ hình đạt được.Tính tốn hoạt tính cho các tập dữ liệu theo
mơ hình thu được.
Chương 5
39
5.2.3 Tính tốn mạng nơ ron
Chia bộ dữ liệu thành hai tập: một tập dùng để luyện mạng cĩ kiểm tra chéo
(traing set - 27 chất), một tập kiểm tra khả năng dự đốn của mạng (test set - 7 chất).
Sự lựa chọn biến độc lập được thực hiện từ những thơng tin độ nhạy sau khi
mạng luyện với tồn bộ biến ứng với số nút ẩn bằng 1. Phần mềm NeuroSolution 5.07
cĩ chức năng phân tích độ nhạy (Sensetivity about the mean) là đo mức độ quan trọng
tương đối giữa các input của mạng. Nĩ phân tích sự biến thiên của hoạt tính theo sự
biến thiên của của một input trong vùng xung quanh giá trị trung bình trong khi vẫn
giữ nguyên các input khác. Các biến chọn theo giá trị độ nhạy từ cao xuống thấp mà
với bộ biến này cĩ thể luyện được mạng cho kết quả kiểm tra trên bộ test tương đương
hoặc tốt hơn với kết quả kiểm tra của mạng ban đầu.
Xây dựng cấu trúc mạng nơron được thực hiện bằng NeuralBuilder tiến hành
theo các bước sau:
Nhập dữ liệu (Tag): bằng cách dán nhãn cho các cột trong chức năng Tag
(input – dữ liệu nhập, disire – giá trị đích), hàng (training – luyện, cross validation –
tham chiếu chéo, test – kiểm tra).
Thiết kế mạng (Create Network) gồm các bước:
Chọn loại mạng (choosing a neural network): NeuralBuilder cĩ 11 tùy
chọn cho loại mạng, mỗi loại cĩ những ưu điểm riêng phụ thuộc vào mục đích sử dụng
và tính chất của bài tốn. Trong luận văn này, chọn Multiplayer Perceptron cho việc
giải bài tốn.
Hình 9 Các loại mạng trong NeuroBuilder
Chương 5
40
Thiết lập số lớp ẩn, số nơron ở lớp nhập, số nơron ở lớp ẩn và ở lớp xuất:
xây dựng mạng nơron gồm ba lớp là một lớp nhập cĩ số nơron là các biến độc lập, một
lớp ẩn cĩ số nơron thay đổi, một lớp xuất cĩ hai nơron đại diện cho hoạt tính ở hai
nồng độ khác nhau. Ở bước này chỉ cần thiết lập số nơron cho lớp ẩn, NeuralBuilder sẽ
tự động thiết lập số nơron nhập và nơron xuất khi ta thực hiện bước Tag.
Chọn hàm truyền: chọn hàm truyền ở lớp ẩn là hàm Sigmoid (kí hiệu là
SigmoidAxon), hàm kích động ở lớp xuất là hàm tuyến tính (kí hiệu là LinearAxon),
dùng phương pháp lan truyền ngược để cập nhật bộ trọng số. Trong phần mềm
NeuroSolution 5.07, NeuroBuilder sẽ tự động chuẩn hĩa dữ liệu nhập vào vùng giới
hạn của hàm truyền. Thí dụ: nếu dùng hàm truyền của lớp ẩn là hàm Sigmoid thì dữ
liệu sẽ được chuẩn hĩa trong khoảng 0 và 1.
Hình 10 Các loại hàm truyền trong NeuroBuilder
Ở đây dùng điều kiện dừng luyện là giá trị ngưỡng tối thiểu của trung bình
bình phương sai số MSE (Mean Square Error) trên bộ luyện.
Để xác được giá trị này cần phải thử luyện mạng nhiều lần với các giá trị MSE
thay đổi dần để mạng cĩ thể luyện tốt mà vẫn cịn khả năng đốn tốt. Đây là bước
quan trọng và mất nhiều thời gian. Sau khi xây dựng cấu trúc mạng xong, phải lưu lại
cấu trúc mới cĩ thể tiếp tục luyện mạng được.
Chương 5
41
Hình 11 Bảng NeuralBuilder Supervised Learning
Luyện mạng: khi cấu trúc mạng đã được xây dựng thì bắt đầu luyện mạng lần
lượt với các nút ẩn thay đổi từ 1 đến 10. Số nơron trên lớp ẩn là một thơng số quan
trọng trong mạng nơron. Nếu mạng cĩ ít nơron trên lớp ẩn thì mạng khơng lấy được
đầy đủ nhưng thơng tin trong bộ dữ liệu, ngược lại nếu cĩ quá nhiều nơron sẽ xảy ra
hiện tượng quá luyện.
Kiểm tra mạng: sau mỗi lần luyện mạng thành cơng thì kiểm tra mạng trên bộ
training và bộ test. Trong quá trình thực hiện, để lấy được giá trị R2 và Q2 ta luyện
mạng bằng hai cách luyện khác nhau:
Tính R2: luyện mạng với chức năng Training, sau đĩ kiểm tra mạng trên
bộ training và bộ test ta sẽ cĩ giá trị R2 và R2test.
Tính Q2: luyện mạng với chức năng Leave-N-out, khi đĩ NeuroSolution
for Excel sẽ đưa ra giá trị Q2.
D. KẾT QUẢ VÀ
BÀN LUẬN
Chương 6
42
Chương 6
KHẢO SÁT MỐI QUAN HỆ ĐỊNH LƯỢNG
GIỮA CẤU TRÚC VÀ HOẠT TÍNH CỦA
CÁC DẪN XUẤT N-ACYLPIPERIDINE
----------
6.1 DỮ LIỆU
Dữ liệu được sử dụng trong luận văn này gồm 34 chất dẫn xuất của
N-acylpiperidine đã được tổng hợp và thí nghiệm sinh học bởi nhĩm nghiên cứu của
trường Đại học Florida (Mỹ) và Bộ Nơng nghiệp Hoa Kì (United States Depertment of
Agriculture). Cơng thức tổng quát của các dẫn xuất N-acylpiperidine và qui ước đánh
số trên các nguyên tử như sau:
NR
O
R'
1
2
3
4
5
6
7
8
9
Bảng 1 Cấu trúc và hoạt tính của dẫn xuất N-acylpiperidine[17]
Hợp chất
Kí hiệu R R′
PT, d ( 25
µmol/cm2)
PT, d ( 2.5
µmol/cm2)
4a Me 2-Me 2 2
4b Et H 5 4
4c Et 2-Et 5 3
4d n-C6H13 2-Me 17 5
4e n-C6H13 3-Me 15.5 7.5
4f n-C7H15 4-Me 48 8
4g n-C7H15 4-Bn 13 7
4h n-C8H17 2-Et 43 9.5
4i n-C9H19 2-Me 49.5 8
4j n-C9H19 4-Me 41 11.5
4k CH2=CH(CH2)8 H 50 13.5
Chương 6
43
Hợp chất
Kí hiệu R R′
PT, d ( 25
µmol/cm2)
PT, d ( 2.5
µmol/cm2)
4l CH2=CH(CH2)8 2-Et 53 9
4m CH2=CH(CH2)8 4-Bn 8.5 8
4n CH2=CH(CH2)8 4-Me 73 10.5
4o n-C10H21 H 39.5 13
4p n-C11H23 2-Me 14.5 5
4q n-C11H23 3-Me 19.5 5.5
4a′ 1-c-C6H9 H 17 5
4b′ c-C6H11 H 14 8
4c′ c-C6H11 3-Me 17 6
4d′ c-C6H11 4-Me 24.5 8.5
4e′ c-C5H9(CH2)2 H 35 9
4f′ 1-Me-c-C6H10 3-Me 12 7
4g′ 4-Me-c-C6H10 2-Me 33 8.5
4h′ c-C6H11 2-Et 21.5 7
4i′ c-C6H11CH2 2-Me 29.5 7.5
4j′ c-C6H11(CH2)2 2-Me 47.5 10
4k′ c-C6H11(CH2)2 3-Me 35 9
4l′ c-C6H11(CH2)2 4-Me 45.5 8
4m′ c-C6H11(CH2)3 4-Me 33 3
4n′ c-C5H9(CH2)2 2-Et 40.5 8.5
4o′ c-C6H11(CH2)2 2-Et 42 10.5
4p′ c-C6H11CH2 4-Bn 3 1.5
4q′ c-C6H11(CH2)2 4-Bn 12 1
Bn: benzyl Et: etyl Me: metyl
Từ những cấu trúc đã tối ưu, tính tốn những dữ liệu đặc trưng về cấu trúc, gồm
20 tham số, đĩng vai trị là các biến độc lập để xây dựng mơ hình, kí hiệu các đại
lượng đặc trưng cho cấu trúc đã sử dụng như sau:
Ký hiệu Ý nghĩa
N1, Ci , O9 : Điện tích trên N, O và các C với i = 2, 3, 5, 4, 6, 7, 8 (e).
HOF : Nhiệt tạo thành (Kcal/mol).
Chương 6
44
Etotal : Năng lượng tổng cộng (Kcal/mol).
DM : Moment lưỡng cực (D).
S : Diện tích bề mặt (Å2).
V : Thể tích phân tử (Å3).
Ref : Chỉ số khúc xạ(Å3).
Polar : Khả năng phân cực (Å3).
Mw : Khối lượng phân tử (a.u).
EHOMO : Năng lượng vân đạo phân tử đầy cao nhất (eV).
ELUMO : Năng lượng vân đạo phân tử trống thấp nhất (eV).
LogP : Hàm log của hệ số phân bố octanol – nước.
Hoạt tính sử dụng trong luận văn này được biểu diễn qua giá trị PT (Protection
Time) ở nồng độ 25 µmol/cm2 và ở nồng độ 2.5 µmol/cm2 là số ngày hĩa chất cĩ tác
dụng bảo vệ con người khơng bị muỗi đốt.
6.2 KẾT QUẢ VÀ BÀN LUẬN
6.2.1 Phương pháp hồi qui đa biến tuyến tính
Bộ biến sử dụng gồm 20 tham số cấu trúc là biến độc lập và hoạt tính ở hai
nồng độ là biến phụ thuộc (Phụ lục 2). Chia ngẫu nhiên bộ dữ liệu thành 2 tập riêng
biệt, tập để xây dựng mơ hình gồm 27 chất, tập để kiểm tra tính dự đốn của mơ hình
gồm 7 chất (lấy ngẫu nhiên các chất cĩ kí hiệu 4a, 4c, 4n, 4p, 4d′, 4i′, 4j′ cho hoạt tính
PT 25 và các chất 4a, 4c, 4l, 4p, 4d′, 4m′, 4p′ cho hoạt tính PT 2.5 ). Thử tính hồi qui
tuyến tính với tất cả 20 biến độc lập, kết quả như sau:
Bảng 2 Kết quả phân tích hồi qui đa biến tuyến tính với 20 biến độc lập
Hoạt tính R2 R2a MSE F Q2
PT 25 0.8341 0.36 213.93 1.76 0
PT 2.5 0.8359 0.3286 6.89 1.66 0
Nhận thấy, khi cĩ nhiều biến thì sự tái lập dữ liệu tốt (R2 > 0.81) nhưng mơ hình
khơng cĩ ý nghĩa về mặt thống kê (Phụ lục 3), và khơng cĩ khả năng dự đốn (Q2 = 0).
Vì vậy, cần phải lựa chọn biến độc lập thích hợp trong phân tích MLR.
Tìm hiểu mối quan hệ giữa các biến bằng ma trận hệ số tương quan Pearson của
Chương 6
45
các biến được cho (Phụ lục 4). Nhận thấy giữa biến phụ thuộc và các biến độc lập
khơng cĩ tương quan mạnh với nhau (|R| < 0.5) nhưng giữa các biến độc lập lại cĩ sự
tương quan chặt chẽ với nhau (|R| > 0.9) như giữa biến S với các biến V, Mw, Ref,
Polar, Etotal; giữa DM với N1. Do đĩ chỉ giữ lại một biến độc lập cĩ tương quan lớn
nhất với biến phụ trong số các biến tương quan chặt chẽ đĩ. Sau khi loại ra thì số biến
độc lập cịn lại là 14.
6.2.1.1 Tính tốn với hoạt tính PT 25
Từ 14 biến trên, thực hiện phương pháp hồi qui chọn mơ hình (Regression
Model Selection). Như vậy đã thực hiện hồi qui tổng cộng 16.278 mơ hình chứa từ ít
nhất 3 biến đến tối đa 14 biến và chọn ra được một số mơ hình cĩ R2a tốt nhất.
Bảng 3 Một số mơ hình tốt nhất trong 16.278 mơ hình khảo sát của PT 25
Mơ hình MSE R2 R2a Bao gồm các biến
1.1 65.61 0.8566 0.7336 ABCDEFHIKLMN
1.2 62.89 0.8527 0.7446 ABCDEFHKLMN
1.3 60.44 0.8490 0.7546 ABCEFHKLMN
1.4 57.75 0.8467 0.7655 BCEFHKLMN
1.5 55.17 0.8449 0.7760 BCEHKLMN
1.6 52.69 0.8437 0.7861 CEHKLMN
1.7 52.92 0.8347 0.7851 CEHKMN
1.8 53.66 0.8240 0.7821 EHKMN
1.9 60.80 0.7911 0.7531 HKMN
1.10 85.316 0.6935 0.6536 CMN
Kí hiệu các biến như sau:
A : N1 D : C4 G : C7 J : S M : ELUMO
B : C2 E : C5 H : C8 K : HOF N : LogP
C : C3 F : C6 I : O9 L : EHOMO
Từ kết quả ở Bảng 3, nhận thấy rằng trong các mơ hình được chọn thì mơ hình
1.6, 1.7, 1.8 cĩ R2a cao hơn các mơ hình khác, MSE thấp và các biến cũng cĩ xuất hiện
trong các mơ hình khác. Do đĩ thực hiện phân tích MLR cho 3 mơ hình này.
Chương 6
46
Bảng 4 Kết quả phân tích hồi qui cho mơ hình 1.6, 1.7, 1.8
Mơ hình Số biến R2 F MSE Q2
1.6 7 0.8437 14.65 52.69 0.2431
1.7 6 0.8347 16.83 52.92 0.2559
1.8 5 0.8240 19.67 53.66 0.3173
Kết quả ở Bảng 4 cho thấy rằng trong cả ba mơ hình đều cĩ R2 > 0.81 (tương
ứng với R > 0.9) cĩ khả năng tái lập dữ liệu tương đối tốt, nhưng khơng cĩ khả năng
khái quát hĩa (Q2 < 0.5). Nếu phải chọn mơ hình theo phương pháp phân tích hồi qui
tuyến tính thì sẽ chọn mơ hình 1.8 gồm các biến C5, C8, HOF, ELUMO, LogP. Phương
trình MLR cho mơ hình 1.8 như sau:
PT 25 = –119.94 – 325.86 C5 – 310.95 C8 – 0.13 HOF + 32.26 ELUMO + 9.36 LogP
Mơ hình cho thấy giá trị C5 cĩ tác động lớn nhất đến hoạt tính.
Bảng 5 Giá trị dự đốn của tập dữ liệu kiểm tra với PT 25
Hợp chất PT 25 TN PT 25 TT Sai số
4a 2 8.17 -308.5
4c 5 3.26 34.8
4n 73 43.44 40.5
4p 14.5 57.31 -295.2
4d' 24.5 26.80 -9.4
4i' 29.5 32.64 -10.6
4j' 47.5 42.93 9.6
Sai số = (PT TN – PT TT)/PT TN*100
R2 = 0.32
0
10
20
30
40
50
60
70
0 10 20 30 40 50 60 70 80
PT 25 TN
PT
2
5
TT
Hình 12 Đồ thị giá trị dự đốn cho tập dữ liệu kiểm tra với PT 25
Chương 6
47
Hệ số xác định R2test cho bộ hợp chất mới là rất kém (R2test < 0.5), khơng thể
dùng mơ hình này để dự đốn hoạt tính cho chất mới được. Do đĩ, khơng thể dùng mơ
hình này mơ tả mối quan hệ định lượng giữa hoạt tính với cấu trúc của các dẫn xuất N-
acylpiperidine.
6.2.1.2 Tính tốn với hoạt tính PT 2.5
Cũng áp dụng phương pháp lựa chọn mơ hình hồi qui cho PT 2.5 với 14 biến
trên, thực hiện hồi qui tổng cộng 16.278 mơ hình chứa từ ít nhất 3 biến đến tối đa 14
biến và chọn ra được một số mơ hình cĩ R2a tốt nhất.
Bảng 6 Một số mơ hình tốt nhất trong 16.278 mơ hình khảo sát với PT 2.5
PT 2.5 MSE R2 R2a Gồm các biến
2.1 4.88 0.71 0.4615 ABCDEFIJKLMN
2.2 4.79 0.6943 0.4702 ABCDEFJKLMN
2.3 2.32 0.7997 0.6746 ABCDEFIJKM
2.4 2.33 0.7865 0.6734 ABCDEFJKM
2.5 2.56 0.7511 0.6405 ABCDEFJK
2.6 2.66 0.7277 0.6274 BCDFJKM
2.7 2.88 0.6899 0.5968 BDFJKL
2.8 3.01 0.6595 0.5785 FJKLM
2.9 3.15 0.6263 0.5583 JKLM
2.10 3.15 0.6093 0.5583 KLN
Kết quả trong Bảng 6 cho thấy các mơ hình cĩ khả năng tái lập dữ liệu chưa tốt
(R2 < 0.81). Thử phân tích hồi qui và tính Q2 cho ba mơ hình cĩ R2 và R2a
cao nhất.
Bảng 7 Kết quả phân tích hồi qui cho mơ hình 2.3, 2.4, 2.5
Mơ hình Số biến R2 R2a F MSE Q2
2.3 10 0.7997 0.6746 6.39 2.32 0.2433
2.4 9 0.7865 0.6734 6.96 2.33 0.3975
2.5 8 0.7511 0.6405 6.79 2.56 0.1055
Trong 3 mơ hình thì mơ hình 2.4 cĩ giá trị Q2 cao nhất. Phương trình MLR cho
mơ hình 2.4:
Chương 6
48
PT 2.5 = – 65.35 – 70.68N1 – 147C2 – 121.2C3 – 79.77C4 – 71.56C5 –
121.1C6 + 0.0289S – 0.028HOF + 3.2876ELUMO
Mơ hình cho thấy giá trị C2 cĩ tác động lớn nhất đến hoạt tính.
Bảng 8 Giá trị dự đốn cho tập dữ liệu kiểm tra với PT 2.5
Kí hiệu hợp chất PT 2.5 TN PT 25 TT Sai số
4a 2 1.19 40.5
4c 3 -1.11 137
4l 9 12.37 -37.44
4p 5 12.21 -144.2
4d' 8.5 7.20 15.294
4m' 3 9.86 -228.7
4p' 1.5 3.61 -140.7
R2 = 0.37
-2
0
2
4
6
8
10
12
14
0 2 4 6 8 10
PT 2.5 TN
PT
2
.5
T
T
Hình 13 Đồ thị giá trị dự đốn bộ dữ liệu kiểm tra với PT 2.5
Kết quả tính tốn cho hoạt tính PT 2.5 tương tự như PT 25 cho thấy các mơ
hình này vừa khơng cĩ khả năng khái quát hĩa (Q2 < 0.5) lẫn dự đốn ngoại (R2test <
0.5). Do đĩ khơng thể dùng phương pháp MLR để xây dựng mơ hình QSAR cho các
dẫn xuất N-acylpiperidine được. Điều này được biết khi phân tích tương quan giữa các
biến. Kết quả chứng tỏ đây là mối quan hệ phi tuyến. Vì thế cần tìm mơ hình bằng các
phương pháp khác nhằm cải thiện R2test và Q2.
6.2.2 Phương pháp mạng nơron nhân tạo
Dữ liệu được chia ngẫu nhiên thành hai tập riêng biệt: 27 chất dùng để luyện
mạng (training set – tính R2, Q2); 7 chất dùng để kiểm tra khả năng dự đốn của
Chương 6
49
mạng cĩ kí hiệu 4n, 4m, 4g, 4g', 4j', 4j, 4i' (test set – tính R2test).
Xây dựng cấu trúc mạng gồm 3 lớp với 2 nút xuất được mơ tả trong mục 5.2.3.
Sau đĩ, mạng được luyện bằng cách thay đổi số nơron trên lớp ẩn từ 1 – 10 kết hợp
với kiểm tra chéo. Căn cứ vào hệ số tương quan R2, Q2, R2test
để đánh giá mạng.
Luyện mạng với tồn bộ biến độc lập. Chuẩn ngừng luyện tốt nhất là MSE của
bộ training bằng 0.01.
Bảng 9 Hệ số R2, Q2 và R2test ứng với số nơron trên lớp ẩn với mạng 20 input
PT 25 PT 2.5
Số nút ẩn
R2 Q2 R2test R2 Q2 R2test
1 0.77 0.4 0.58 0.68 0.29 0.4
2 0.93 0.62 0.35 0.93 0.47 0.04
3 0.94 0.7 0.49 0.98 0.66 0.21
4 0.95 0.73 0.41 0.96 0.63 0.19
5 0.94 0.7 0.5 0.98 0.66 0.29
6 0.95 0.73 0.5 0.97 0.62 0.27
7 0.96 0.69 0.37 0.98 0.64 0.12
8 0.98 0.72 0.38 0.98 0.59 0.16
9 0.98 0.68 0.54 0.98 0.59 0.22
10 0.99 0.69 0.43 0.98 0.58 0.16
Kết quả trong Bảng 9 cho thấy mạng cĩ khả năng tái lập dữ liệu tốt (R2 > 0.81)
nhưng khơng cĩ khả năng khái quát hĩa (Q2 < 0.81) và khơng cho kết quả đốn tốt với
bộ dữ liệu khơng được học (R2test < 0.6).
PT 25
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
1 2 3 4 5 6 7 8 9 10
Số nút ẩn
R2
Q2
R2test
Chương 6
50
PT 2.5
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
1 2 3 4 5 6 7 8 9 10
Số nút ẩn
R2
Q2
R2test
Hình 14 Đồ thị R2, Q2 và R2test ứng với số nơron trên lớp ẩn ở 2 nồng độ
Kết quả này cũng khơng tốt hơn phương pháp MLR trên. Mạng khơng tìm
được mơ hình tối ưu với bộ biến này.
Qua việc khảo sát sự thay đổi số nút ẩn trên thì khĩ cĩ thể sử dụng nút ẩn để
tối ưu hĩa mạng, vì vậy cần lựa chọn lại các biến nhập cho mạng. Số biến độc lập lựa
chọn đưa vào mạng được chọn từ giá trị độ nhạy sau khi mạng luyện với tồn bộ biến
và với số nút ở lớp ẩn là 1 như đã trình bày trong Chương 5. Các biến được chọn
gồm: ELUMO, HOF, DM, S, C2, C3, C5, C6, C8. Luyện mạng với số nơron trên lớp ẩn
thay đổi từ 1 đến 10 cĩ kết hợp với kiểm tra chéo. Chuẩn ngừng luyện tốt nhất là
MSE của bộ training bằng 0.003.
Bảng 10 Hệ số R2, Q2 và R2test ứng với số nơron trên lớp ẩn với mạng 9 input
PT 25 PT 2.5
Số nút ẩn
R2 Q2 R2test R2 Q2 R2test
1 0.72 0.74 0.68 0.54 0.54 0.69
2 0.92 0.8 0.73 0.75 0.52 0.76
3 0.95 0.9 0.69 0.9 0.56 0.72
4 0.98 0.91 0.83 0.97 0.88 0.58
5 0.98 0.87 0.65 0.97 0.83 0.9
6 0.97 0.92 0.42 0.99 0.87 0.74
7 0.97 0.93 0.69 0.98 0.89 0.72
8 0.98 0.93 0.85 0.98 0.92 0.85
9 0.98 0.91 0.69 0.98 0.88 0.81
10 0.98 0.92 0.8 0.99 0.88 0.78
Chương 6
51
PT 25
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
1 2 3 4 5 6 7 8 9 10
Số nút ẩn
R2
Q2
R2(test)
PT 2.5
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
1 2 3 4 5 6 7 8 9 10
Số nút ẩn
R2
Q2
R2(test)
Hình 15 R2, Q2 và R2test ứng với số nơron trên lớp ẩn ở 2 nồng độ
Kết quả trong Bảng 10 và đồ thị cho thấy mạng nơron này nhanh chĩng đưa ra
mơ hình cho sự tái lặp dữ liệu tốt (R2 > 0.81), đồng thời cịn cĩ khả năng khái quát
hĩa và dự đốn tốt (Q2 > 0.81, R2test > 0.81) với tập dữ liệu kiểm tra. Mơ hình tốt nhất
được chọn cho cả hai hoạt tính đều cĩ cấu trúc là (9 – 8 – 2). Kết quả tính tốn và dự
đốn hoạt tính của mơ hình trên như sau:
Chương 6
52
Bảng 11 Kết quả tính và dự đốn hoạt tính theo mơ hình (9 – 8 – 2)
Kí
hiệu
PT 25
TN
PT 25
TT SS 1
PT25
DD SS 2
PT2.5
TN
PT2.5
TT SS 1
PT2.5
DD SS 2
4a 2.0 1.8 10.0 4.2 -110.0 2.0 2.3 -15.0 2.2 -10.0
4b 5.0 4.6 8.0 10.0 -100.0 4.0 3.8 5.0 4.2 -5.0
4c 5.0 4.9 2.0 -1.4 128.0 3.0 3.1 -3.3 3.4 -13.3
4d 17.0 17.8 -4.7 19.9 -17.1 5.0 5.1 -2.0 6.0 -20.0
4e 15.5 16.1 -3.9 18.3 -18.1 7.5 7.3 2.7 6.4 14.7
4f 48.0 49.5 -3.1 47.8 0.4 8.0 9.5 -18.8 11.5 -43.8
4h' 43.0 50.7 -17.9 47.8 -11.2 9.5 9.2 3.2 10.3 -8.4
4i 49.5 42.2 14.7 32.7 33.9 8.0 6.9 13.8 8.0 0.0
4k 50.0 48.9 2.2 47.7 4.6 13.5 12.9 4.4 11.0 18.5
4l 53.0 50.8 4.2 49.5 6.6 9.0 9.5 -5.6 9.4 -4.4
4o 39.5 38.7 2.0 42.7 -8.1 13.0 12.8 1.5 11.3 13.1
4p' 14.5 18.5 -27.6 25.3 -74.5 5.0 5.5 -10.0 5.1 -2.0
4q 19.5 19.8 -1.5 20.0 -2.6 5.5 5.6 -1.8 6.0 -9.1
4a' 17.0 17.8 -4.7 16.0 5.9 5.0 4.9 2.0 4.1 18.0
4b' 14.0 17.8 -27.1 18.7 -33.6 8.0 8.2 -2.5 7.8 2.5
4c' 17.0 16.9 0.6 18.2 -7.1 6.0 6.1 -1.7 5.5 8.3
4d' 24.5 21.9 10.6 23.2 5.3 8.5 8.6 -1.2 8.4 1.2
4e' 35.0 33.9 3.1 34.3 2.0 9.0 8.4 6.7 9.1 -1.1
4f' 12.0 11.5 4.2 13.1 -9.2 7.0 6.9 1.4 7.1 -1.4
4h' 21.5 21.7 -0.9 17.0 20.9 7.0 7.0 0.0 6.6 5.7
4k' 35.0 34.1 2.6 36.2 -3.4 9.0 9.1 -1.1 9.5 -5.6
4l' 45.5 46.6 -2.4 38.2 16.0 8.0 7.9 1.3 8.5 -6.3
4m' 33.0 32.2 2.4 33.5 -1.5 3.0 3.1 -3.3 4.2 -40.0
4n' 40.5 40.4 0.2 32.4 20.0 8.5 8.3 2.4 7.6 10.6
4o' 42.0 39.6 5.7 50.9 -21.2 10.5 10.6 -1.0 8.8 16.2
4p' 3.0 2.7 10.0 8.7 -190.0 1.5 1.2 20.0 0.7 53.3
4q' 12.0 12.0 0.0 8.8 26.7 1.0 1.2 -20.0 2.2 -120.0
TN: hoạt tính thực nghiệm TT: hoạt tính tính tốn DD:hoạt tính dự đốn
SS 1: Sai số 1 = (PT TN – PT TT)/PT TN*100
SS 2: Sai số 2 = (PT TN – PT DD)PT TN*100
Chương 6
53
PT 25
-10
0
10
20
30
40
50
60
1 3 5 7 9 11 13 15 17 19 21 23 25 27
Số mẫu luyện
PT25 TN
PT25 TT
PT25 DD
PT 2.5
0
2
4
6
8
10
12
14
16
1 3 5 7 9 11 13 15 17 19 21 23 25 27
Số mẫu luyện
PT2.5 TN
PT2.5 TT
PT2.5 DD
Hình 16 Đồ thị giá trị tính tốn và dự đốn theo hoạt tính thực nghiệm ở 2 nồng
độ với cấu trúc mạng (9 – 8 – 2)
Bảng 12 Kết quả dự đốn hoạt tính cho tập dữ liệu mới
Kí hiệu PT 25 TN
PT 25
TT
Sai số PT 2.5 TN
PT 2.5
TT Sai số
4n 73 60.77 16.75 10.5 13.56 -29.14
4g' 33 28.86 12.55 8.5 8.51 -0.12
4g 13 12.20 6.15 7 4.07 41.86
4j' 47.5 41.33 12.99 10 11.05 -10.50
4j 41 44.18 -7.76 11.5 12.13 -5.48
4i' 29.5 25.24 14.44 7.5 6.03 19.60
4m 8.5 9.49 -11.65 8 7.05 11.88
Sai số = (PT TN – PT TT)/PT TN*100
Chương 6
54
PT 2.5
0
2
4
6
8
10
12
14
16
1 2 3 4 5 6 7
Số mẫu kiểm tra
PT 25 TN
PT 2.5 TT
PT 25
0
10
20
30
40
50
60
70
80
1 2 3 4 5 6 7
Số mẫu kiểm tra
PT 25 TN
PT 25 TT
Hình 17 Đồ thị giá trị dự đốn và thực nghiệm tập dữ liệu kiểm tra ở 2 nồng độ
Với số nút nhập và chuẩn dừng phù hợp (9 nút và MSE là 0.003), mạng đã
nhanh chĩng tìm được số nút ẩn thích hợp để xây dựng mơ hình QSAR tốt nhất. Ta
cĩ thể dùng mơ hình này để mơ tả mối quan hệ định lượng giữa các tham số cấu trúc
và hoạt tính của các dẫn xuất N-acylpiperidine.
Bảng 13 Kết quả các mơ hình tốt nhất của phương pháp MLR và ANN
PT 25 PT 2.5 Phương
pháp
Số biến
độc lập R2 Q2 R2test
Số biến
độc lập R2 Q2 R2test
MLR 5 0.82 0.32 0.32 9 0.79 0.4 0.37
ANN 9 0.98 0.93 0.85 9 0.98 0.92 0.85
Kết quả cho thấy các mơ hình QSAR cho các dẫn xuất N-acylpiperidine thu
được bằng phương pháp ANN cĩ các giá trị R2, Q2 và R2test lớn hơn nhiều so với
Chương 6
55
phương pháp MLR với các dẫn xuất N-acylpiperidine. Điều này cho thấy phương
pháp ANN giải quyết bài tốn QSAR tốt hơn phương pháp MLR.
6.3 ĐÁNH GIÁ MỨC ĐỘ TÁC ĐỘNG CỦA CÁC THAM
SỐ CẤU TRÚC LÊN HOẠT TÍNH
Việc khảo sát QSAR bằng phương pháp ANN cho các dẫn xuất N-
acylpiperidine đã tìm được cấu trúc mạng mơ tả tốt mối quan hệ này. Mức độ ảnh
hưởng của các tham số cấu trúc được đánh giá thơng qua giá trị trọng số hoặc sự
phân tích độ nhạy của hoạt tính theo tham số cấu trúc.
Trọng số: luyện mạng với cấu trúc (20 – 1 – 2), khi đĩ cĩ được 20 trọng số
cho 20 đường truyền từ input đến lớp ẩn. Hàm truyền sử dụng trong lớp ẩn là hàm
sigmoid được tính theo biểu thức:
x
x
e
exf
1
)(
Do đĩ, độ lớn giá trị trọng số cho biết mức độ tác động của mỗi input đến
output. File chứa các giá trị trọng số được NeuroSolution 5.07 lưu dưới dạng mở rộng
*.*.nsb (Phụ lục 6).
Độ nhạy: phân tích độ nhạy là đo mức độ quan trọng tương đối giữa các input
của mạng, nĩ xem xét sự biến thiên của hoạt tính theo sự biến thiên của của một input
trong vùng xung quanh giá trị trung bình trong khi vẫn giữ nguyên các input khác.
Phân tích độ nhạy (Sensetivity about the mean) được thực hiện trong phần test
sau khi mạng luyện với cấu trúc mạng (20 – 1 – 2), kết quả đưa ra gồm bảng các giá
trị độ nhạy, biểu đồ cột cho bảng giá trị này và 20 đồ thị thể hiện sự biến thiên của
hoạt tính theo từng tham số cấu trúc (Phụ lục 6). Giá trị của độ nhạy thể hiện mức độ
ảnh hưởng của các biến cấu trúc đến hoạt tính.
Chương 6
56
Bảng 14 Giá trị trọng số và độ nhạy của các biến độc lập
Độ nhạy
Tên biến Trọng số Tên biến Trị tuyệt đối của trọng số Tên biến PT 25 PT 2.5
HOF 6.01 ELUMO 6.2 ELUMO 5.92 0.97
C8 4.82 HOF 6.01 HOF 4.12 0.68
C5 3.72 C8 4.82 C5 3.89 0.67
C6 3.34 C5 3.72 C8 3.48 0.57
DM 2.83 C6 3.34 C6 2.79 0.46
C2 2.79 DM 2.83 DM 2.63 0.43
N1 1.92 C2 2.79 C2 2.53 0.41
C4 1.4 C3 2.75 S 2.44 0.4
Etotal 0.9 S 2.51 C3 2.34 0.38
O9 -0.07 V 1.87 N1 1.81 0.3
LogP -0.75 N1 1.4 V 1.79 0.28
Ref -0.82 C4 1.13 C4 1.64 0.27
C7 -0.86 Polar 0.96 Polar 1.1 0.18
EHOMO -0.86 Mw 0.9 Mw 0.9 0.15
Mw -0.96 Etotal 0.86 Etotal 0.86 0.14
Polar -1.13 EHOMO 0.86 Ref 0.79 0.13
V -2.07 C7 0.82 LogP 0.77 0.13
S -2.31 Ref 0.75 EHOMO 0.72 0.12
C3 -2.75 LogP 0.46 C7 0.62 0.1
ELUMO -6.2 O9 0.07 O9 0.05 0.01
Chương 6
57
0
1
2
3
4
5
6
7
T
rị
tu
yệ
t đ
ối
c
ủa
tr
ọn
g
số
EL
u m
o
HO
F
C8 C5 C6 DM C
2 C3 S V N1 C4
Po
la
r
M
w
Et
ot
al
EH
om
o
C7 Re
f
Lo
gP O
9
Tên biến
0
1
2
3
4
5
6
Đ
ộ
n
h
ạy
EL
um
o
HO
F C5 C8 C6 DM C
2 S C3 N1 V C4
Po
lar M
w
Et
ot
al Re
f
Lo
gP
EH
om
o C7 O9
Tên biến
PT 25
PT 2.5
Hình 18 Biểu đồ giá trị trị tuyệt đối trọng số và biểu đồ độ nhạy của hai hoạt tính
Trong Bảng 14, độ lớn giá trị trọng số và độ lớn giá trị độ nhạy được
sắp xếp theo thứ tự giảm dần. Cột thứ 4 biểu diễn các giá trị trọng số sau khi lấy giá
trị tuyệt đối của chúng ở cột thứ 2. Từ Bảng 14 và hai biểu đồ cho thấy 15 giá trị
đứng đầu của hai quá trình tính tốn này tương ứng với nhau, chỉ cĩ sự đổi thứ tự của
C5 và C8, C3 và S, N1 và V, nhưng các giá trị này khác nhau khơng đáng kể; thứ tự độ
nhạy của các tham số cấu trúc theo hoạt tính của PT 25 và PT 2.5 cũng tương ứng với
nhau.
Với bộ tham số gồm 9 biến đầu tiên, đã xây dựng được mơ hình ANN vừa cĩ
khả năng tái lập dữ liệu tốt vừa cĩ khả năng khái quát hĩa và dự đốn tốt cho hoạt
tính ở hai nồng độ như trên. Vậy các tham số ảnh hưởng đáng kể đến hoạt tính gồm
các biến theo thứ tự là ELUMO, HOF, C5, C8, C6, DM, C2, C3.
Chương 6
58
Chuẩn hĩa các giá trị của tham số và hoạt tính về cùng một vùng [0.1; 0.9] để
xem xét sự biến đổi của các tham số này và hoạt tính.
0.0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1.0
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27
C2
PT 25
PT 2.5
0.0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1.0
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27
C3
PT 25
PT 2.5
0.0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1.0
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27
C5
PT 25
PT 2.5
0.0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1.0
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27
C6
PT 25
PT 2.5
0.0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1.0
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27
C8
PT 25
PT 2.5
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27
S
PT 25
PT 2.5
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27
HOF
PT 25
PT 2.5
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27
DM
PT 25
PT 2.5
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27
ELUMO
PT 25
PT 2.5
Hình 19 Đồ thị biểu diễn giá trị của 9 tham số cấu trúc và hoạt tính
Chương 6
59
Qua các đồ thị nhận thấy sự biến thiên của các 9 tham số cấu trúc này và hoạt
tính khơng tuân theo một qui luật nào cả. Điều này càng chứng tỏ đây là mối quan hệ
rất phức tạp khơng thể mơ tả bằng phương trình hồi qui đa biến tuyến tính một cách
rõ ràng. Mối quan hệ phi tuyến này cũng được khẳng định qua bảng ma trận hệ số
tương quan tuyến tính Pearson tính cho bộ dữ liệu thỏa điều kiện phân phối chuẩn
(Phụ lục 4) hay tương quan Spearman đối với dữ liệu khơng thỏa điều kiện phân phối
chuẩn (Phụ lục 5), trị tuyệt đối các hệ số tương quan này đều thấp hơn 0.61.
E. KẾT LUẬN
Kết luận
60
KẾT LUẬN
----------
KẾT QUẢ VỀ PHƯƠNG PHÁP NGHIÊN CỨU QSAR
Việc nghiên cứu QSAR của N-acylpiperidine trong đề tài này đã được thực
hiện qua sự kết hợp giữa các giá trị tính tốn bằng hĩa lượng tử với các phương pháp
xử lí số liệu kinh điển và hiện đại (MLR và ANN). Kết quả thu được cho thấy
phương pháp ANN giải quyết tốt bài tốn khảo sát QSAR của các dẫn xuất N-
acylpiperidine.
Phương pháp bán thực nghiệm PM3 trong chương trình Hyperchem 8.03 để
tính các tham số cấu trúc của N-acylpiperidine khơng quá lâu và thực hiện dễ dàng.
Phần mềm Stagraphics Centurion XV thực hiện nhanh chĩng các bước phân tích dữ
liệu, lựa chọn biến, phân tích và lựa chọn mơ hình tối ưu. Chương trình
NeuroSolution for Excel của NeuronSolution 5.07 dễ dàng thực hiện việc xây dựng,
luyện và kiểm tra mạng.
KẾT QUẢ NGHIÊN CỨU QSAR
Cũng cùng mục đích như các nghiên cứu QSAR về thuốc đuổi muỗi khác,
luận văn này đã thực hiện khảo sát QSAR trên 34 chất dẫn xuất của N-acylpiperidine
bằng hai phương pháp: hồi qui đa biến tuyến tính (MLR) và mạng nơron nhân
Các file đính kèm theo tài liệu này:
- KH7842O Samp193T M7888I QUAN H7878 2727882NH L4317906NG .pdf