Tài liệu Đề tài Xây dựng cơ sở dữ liệu hai gene hsp-70 và reverse transcripte-rnaseh ở một số loài virus thực vật: TRƢỜNG ĐẠI HỌC NÔNG LÂM TP. HỒ CHÍ MINH
BỘ MÔN CÔNG NGHỆ SINH HỌC
***000***
KHÓA LUẬN TỐT NGHIỆP
XÂY DỰNG CƠ SỞ DỮ LIỆU HAI GENE HSP-70
và REVERSE TRANSCRIPTE-RNaseH Ở MỘT SỐ
LOÀI VIRUS THỰC VẬT
Nghành học: CÔNG NGHỆ SINH HỌC
Niên khóa: 2001-2005
Sinh viên thực hiện: NGUYỄN VĂN THÁI
Thành phố Hồ Chí Minh
Tháng 8/2005
BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƢỜNG ĐẠI HỌC NÔNG LÂM TP. HỒ CHÍ MINH
BỘ MÔN CÔNG NGHỆ SINH HỌC
************
XÂY DỰNG CƠ SỞ DỮ LIỆU HAI GENE HSP-70
và REVERSE TRANSCRIPTASE-RNaseH Ở MỘT
SỐ LOÀI VIRUS THỰC VẬT
Giáo viên hƣớng dẫn:
TS. TRẦN THỊ DUNG
Cử Nhân. LƢU PHÚC LỢI
Thành phố Hồ Chí Minh
Tháng 8/2005
Sinh viên thực hiện:
NGUYỄN VĂN THÁI
iii
LỜI CẢM TẠ
Thành kính ghi ơn công lao dạy dỗ, tận tụy suốt đời vì
con của cha mẹ.
Xin bày tỏ lòng biết ơn sâu sắc đến:
TS. Trần Thị Dung
Cử Nhân. Lưu Phúc Lợi
Đã tận tụy hướng dẫn, truyền đạt kiến thức cho tôi
hoàn thành khóa luận này, đặc biệt là thầy Lưu Phúc Lợi đã...
72 trang |
Chia sẻ: hunglv | Lượt xem: 1064 | Lượt tải: 0
Bạn đang xem trước 20 trang mẫu tài liệu Đề tài Xây dựng cơ sở dữ liệu hai gene hsp-70 và reverse transcripte-rnaseh ở một số loài virus thực vật, để tải tài liệu gốc về máy bạn click vào nút DOWNLOAD ở trên
TRƢỜNG ĐẠI HỌC NÔNG LÂM TP. HỒ CHÍ MINH
BỘ MÔN CÔNG NGHỆ SINH HỌC
***000***
KHÓA LUẬN TỐT NGHIỆP
XÂY DỰNG CƠ SỞ DỮ LIỆU HAI GENE HSP-70
và REVERSE TRANSCRIPTE-RNaseH Ở MỘT SỐ
LOÀI VIRUS THỰC VẬT
Nghành học: CÔNG NGHỆ SINH HỌC
Niên khóa: 2001-2005
Sinh viên thực hiện: NGUYỄN VĂN THÁI
Thành phố Hồ Chí Minh
Tháng 8/2005
BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƢỜNG ĐẠI HỌC NÔNG LÂM TP. HỒ CHÍ MINH
BỘ MÔN CÔNG NGHỆ SINH HỌC
************
XÂY DỰNG CƠ SỞ DỮ LIỆU HAI GENE HSP-70
và REVERSE TRANSCRIPTASE-RNaseH Ở MỘT
SỐ LOÀI VIRUS THỰC VẬT
Giáo viên hƣớng dẫn:
TS. TRẦN THỊ DUNG
Cử Nhân. LƢU PHÚC LỢI
Thành phố Hồ Chí Minh
Tháng 8/2005
Sinh viên thực hiện:
NGUYỄN VĂN THÁI
iii
LỜI CẢM TẠ
Thành kính ghi ơn công lao dạy dỗ, tận tụy suốt đời vì
con của cha mẹ.
Xin bày tỏ lòng biết ơn sâu sắc đến:
TS. Trần Thị Dung
Cử Nhân. Lưu Phúc Lợi
Đã tận tụy hướng dẫn, truyền đạt kiến thức cho tôi
hoàn thành khóa luận này, đặc biệt là thầy Lưu Phúc Lợi đã
trang bị cho tôi những kiến thức quí báu và là người đầu
tiên đưa tôi đến với Bioinformatics.
Xin chân thành cảm ơn đến quí thầy cô bộ môn Công Nghệ
Sinh Học, khoa Công Nghệ Thông Tin. Đã nhiệt tình giúp đỡ,
khuyên bảo, tạo điều kiện thuận lợi và đóng góp ý kiến
chân thành cho tôi trong suốt thời gian làm khóa luận này.
Xin gởi lời cảm ơn đến tập thể lớp Công Nghệ Sinh Học
K27 đã động viên, giúp đỡ và luôn ở bên cạnh tôi trong
những lúc khó khăn trong suốt thời gian học đại học.
Nguyễn Văn Thái
iv
TÓM TẮT KHOÁ LUẬN
NGUYỄN VĂN THÁI, Đại học Nông Lâm TP. Hồ Chí Minh. Tháng 8/2005.
“XÂY DỰNG CƠ SỞ DỮ LIỆU HAI GENE HSP-70 VÀ REVERSE
TRANSCRIPTASE-RNaseH Ở MỘT SỐ LOÀI VIRUS THỰC VẬT”
Hội đồng hƣớng dẫn:
TS. Trần Thị Dung
Cử Nhân. Lƣu Phúc Lợi
Khóa luận đƣợc thực hiện tại bộ môn Công Nghệ Sinh Học. Trƣờng Đại Học
Nông Lâm TP. Hồ Chí Minh. Trong khoảng thời gian từ tháng 3/2005 đến 8/2005. Với
sự phát triển của kỹ thuật giải trình tự, một số lƣợng lớn các gene hsp-70 và RT-
RNaseH đã đƣợc giải trình tự. Những trình tự gene này đƣợc lƣu trữ trong CSDL sinh
học lớn nhƣ NCBI, EMBL, DDBj,…Vì các CSDL này quá lớn và chứa rất nhiều thông
tin khác nhau, không tập trung thành từng gene cụ thể nên khó có thể thực hiện việc
truy xuất các thông tin phục vụ trực tiếp cho một nghiên cứu chuyên biệt. Do vậy, mục
tiêu của chúng tôi là tiến hành xây dựng cơ sở dữ liệu hai gene hsp-70 và reverse
transcriptase-RNaseH ở một số loài virus thực vật.
Để đạt đƣợc mục tiêu trên, khóa luận cần đảm bảo thực hiện nội dung nhƣ sau:
Dùng Perl script để thu nhận trình tự các nucleotide và protein của hai gene từ
trang CSDL GenBank (NCBI cơ sở dữ liệu nucleotide).
Xác định gene và protein của hai gene hsp-70 và Reverse transcriptase-RNaseH
(RT-RNaseH) trong genome hay ORF (Open Reading Frame) của virus.
Tìm hiểu về mô hình dữ liệu quan hệ, sử dụng mô hình này vào việc lƣu trữ dữ
liệu các trình tự nucleotide và protein của hai gene, tạo CSDL hai gene này.
Dùng Perl script để chuyển tự động các dữ liệu vào CSDL.
Sử dụng giao thức CGI kết hợp với ngôn ngữ lập trình Perl, để thiết kế trang
web CSDL về hai gene hsp-70 và RT-RNaseH ở trên hai họ virus
Closteroviridae và Caulimoviridae.
v
Sau khi thực hiện các nội dung trên chúng tôi đạt đƣợc những kết quả nhƣ sau:
Chúng tôi đã tải đƣợc 325 trình tự gene hsp-70 và RT-RNaseH từ cơ sở dữ
liệu NCBI.
Thông qua việc tìm hiểu về hai họ virus, trình tự gene tƣơng đồng, trình tự
protein bảo tồn và kết hợp với ClustalW. Chúng tôi đã xác định đƣợc vị trí
gene hsp-70 và RT-RNaseH trong ORF hay nằm trong genome của chúng.
CSDL có 325 trình tự đƣợc tích hợp với Web.
Trang Web CSDL gene hsp-70 và RT-RNaseH gồm có 6 trang chính, đó là
HOME, SEARCH, TOOL, TAXONOMY, LINK, ABOUT PAGE. Ngoài ra,
từ những trang web chính này còn có thể kết nối đến những trang phụ khác để
cung cấp những tiện ích cho ngƣời dùng. Từ các trang web này, ngƣời sử
dụng có thể truy xuất thông tin, so sánh một trình tự quan tâm với các trình tự
trong cơ sở dữ liệu gene hsp-70 và RT-RNaseH, tìm kiếm trình tự, các đặc
tính của loài,…
vi
MỤC LỤC
Nội dung Trang
Trang bìa ........................................................................................................................... i
Trang trong ...................................................................................................................... ii
Lời Cảm Tạ .................................................................................................................... iii
Tóm Tắt Luận Văn ......................................................................................................... iv
Mục Lục .......................................................................................................................... vi
Danh Sách Các Bảng ...................................................................................................... ix
Danh Sách Các Hình ....................................................................................................... x
Danh Sách Các Chử Viết Tắt ........................................................................................ xii
Phần 1. LỜI MỞ ĐẦU .................................................................................................. 1
Phần 2. TỔNG QUAN TÀI LIỆU ................................................................................ 4
2.1. SƠ LƢỢC VỀ CƠ SỞ DỮ LIỆU .......................................................................... 4
2.1.1. Định nghĩa .................................................................................................... 4
2.1.2. Hệ quản trị CSDL ......................................................................................... 4
2.1.3. Các mô hình dữ liệu ...................................................................................... 5
2.1.3.1. Định nghĩa ........................................................................................ 5
2.1.3.2. So sánh các mô hình dữ liệu………………………………………..5
2.2. NGÔN NGỮ LẬP TRÌNH PERL, MẠNG INTERNET VÀ WEB .................... 6
2.2.1. Perl ................................................................................................................ 6
2.2.1.1. Tóm tắt lịch sử phát triển .................................................................. 6
2.2.1.2. Ứng dụng .......................................................................................... 7
2.2.1.3. Một số module của Perl thƣờng đƣợc sử dụng ................................. 7
2.2.2. Giới thiệu về mạng Internet ......................................................................... 8
2.2.2.1. Tóm lƣợc lịch sử phát triển ............................................................... 8
2.2.2.2. Một số khái niệm .............................................................................. 9
2.2.3. Web ............................................................................................................... 9
2.2.3.1. Tóm lƣợt lịch sử phát triển ............................................................... 9
2.2.3.2. Tích hợp CSDL với web dùng CGI ................................................ 10
2.3. CƠ SỞ DỮ LIỆU SINH HỌC ........................................................................... 11
2.3.1. NCBI ........................................................................................................... 11
vii
2.3.1.1. Vài nét về NCBI ............................................................................. 11
2.3.1.2. Một số cơ sở dữ liệu trong NCBI.................................................... 11
2.3.1.3. Một số công cụ trong NCBI ............................................................ 12
2.3.2. EBI .............................................................................................................. 13
2.3.2.1. Vài nét về EBI ................................................................................. 13
2.3.2.2. Một số cơ sở dữ liệu trong EBI ....................................................... 13
2.3.2.3. Một số công cụ hỗ trợ phân tích trình tự sinh học .......................... 14
2.3.3. SIB ............................................................................................................. 15
2.3.4. DDJB và PDBj ............................................................................................ 15
2.4. VIRUS CAULIMOVIRIDAE VÀ CLOSTEROVIRIDAE ................................... 18
2.4.1. CAULIMOVIRIDAE ................................................................................... 19
2.4.1.1. Khái quát .......................................................................................... 19
2.4.1.2. Cấu tạo ............................................................................................. 20
2.4.1.3. Đặc tính sinh học ............................................................................. 20
2.4.1.4. Cơ chế xâm nhiễm và sao mã trong tế bào ký chủ .......................... 20
2.4.2. CLOSTEROVIRIDAE ................................................................................. 21
2.4.2.1. Khái quát .......................................................................................... 21
2.4.2.2. Cấu tạo ............................................................................................. 21
2.4.2.3. Cơ chế xâm nhiễm và sao mã trong tế bào ký chủ .......................... 22
2.5. Gene Hsp-70 và Reverse transcriptase-RNaseH ................................................ 23
2.5.1. Gene Reverse transciptase-RNaseH ........................................................... 23
2.5.2.1. Vị trí gene RT-RNaseH nằm trong genome .................................... 23
2.5.2.2. Chức năng của protein ..................................................................... 23
2.5.2. Gene hsp-70 ................................................................................................ 24
2.5.1.1. Vị trí gene hsp-70 nằm trong genome ............................................. 24
2.5.1.2. Chức năng ........................................................................................ 24
PHẦN 3. PHƢƠNG PHÁP VÀ CHƢƠNG TRÌNH SỬ DỤNG ............................. 25
3.1. Các chƣơng trình và ngôn ngữ lập trình đƣợc sử dụng...................................... 25
3.1.1. Hệ điều hành ............................................................................................... 25
3.1.2. Các chƣơng trình phân tích trình tự ........................................................... 25
3.1.2.1. Chƣơng trình so sánh trình tự ClustalW .......................................... 25
3.1.2.2. Chƣơng trình tìm kiếm các trình tự tƣơng đồng – BLAST ............. 25
viii
3.1.2.3. Hệ quả trị CSDL quan hệ MySQL .................................................. 26
3.1.2.4. Apache web Server .......................................................................... 27
3.1.2.5. Ngôn ngữ lập trình Perl và các gói sử dụng .................................... 27
3.2. Phƣơng pháp ....................................................................................................... 28
3.2.1. Thu nhận trình tự ........................................................................................ 28
3.2.2. Xác định gene và protein trong bộ gene virus ............................................ 29
3.2.3. Thiết kế CSDL trình tự gene và protein hsp-70 và RT-RNaseH ................ 32
3.2.3.1. Phân tích dữ liệu .............................................................................. 32
3.2.3.2. Thiết kế CSDL dạng bảng ............................................................... 34
3.2.3.3. Lƣu trữ các thông tin vào CSDL ..................................................... 35
3.2.4. Tích hợp CSDL gene hsp-70 và RT-RNaseH với trang Web .................... 37
Phần 4. KẾT QUẢ VÀ THẢO LUẬN ....................................................................... 39
4.1. Kết quả thu nhận trình tự của hai họ Closteroviridae và Caulimoviridae .......... 39
4.2. Kết quả thu nhận trình tự hai gene hsp-70 và Reverse transcriptase-RNaseH ... 41
4.3. CSDL trình tự gene hsp-70 và RT-RNaseH ........................................................ 42
4.4. Trang web thể hiện thông tin CSDL gene hsp-70 và RT-RNaseH ..................... 46
4.4.1. Trang thông tin chung về CSDL gene hsp-70 và RT-RNaseH .................... 47
4.4.2. Trang tìm kiếm ............................................................................................ 47
4.4.3. Trang công cụ .............................................................................................. 49
4.4.4. Trang cây phân loài ..................................................................................... 52
4.4.4.1. Trang Caulimoviridae ..................................................................... 52
4.4.4.2. Trang Closteroviridae ..................................................................... 54
4.4.5. Trang liên kết ............................................................................................... 54
4.4.6. Trang thông tin về bộ môn công nghệ sinh học .......................................... 54
PHẦN 5. KẾT LUẬN VÀ ĐỀ NGHỊ ......................................................................... 55
4.1. KẾT LUẬN ........................................................................................................ 55
4.2. ĐỀ NGHỊ ........................................................................................................... 55
PHẦN 6. TÀI LIỆU THAM KHẢO .......................................................................... 57
PHỤ LỤC ..................................................................................................................... 59
ix
DANH MỤC BẢNG
Trang
Bảng 2.1. Một số CSDL sinh học lớn và các địa chỉ web tƣơng ứng ........................... 17
Bảng 2.2. Một số CSDL sinh học lớn và các địa chỉ web tƣơng ứng.(tiếp theo) .......... 18
Bảng 3.1. Các đối tƣợng phụ dựa trên đối tƣợng chính Sinh vật (Organism) .............. 33
Bảng 3.2. Các đối tƣợng phụ dựa trên đối tƣợng chính trình tự (Sequence) ................ 34
Bảng 4.1 Tổng số trình tự trong CSDL gene hsp-70 và RT-RNaseH ........................... 43
Bảng 4.2 Số trình tự gene hsp-70 .................................................................................. 43
Bảng 4.3 Số trình tự gene RT-RNaseH .......................................................................... 43
x
DANH MỤC HÌNH
Trang
Hình 1.1 Định nghĩa Bioinformatics theo NCBI ............................................................. 1
Hình 1.2 Định nghĩa bioinformatics đƣợc mở rộng ........................................................ 2
Hình 2.1 Tƣơng tác giữa Perl script-DBI-DBD-và RBDMS .......................................... 8
Hình 2.2 Tƣơng quan giữa NCBI, NLM ....................................................................... 11
Hình 2.3 Một số cơ sở dữ liệu trong NCBI ................................................................... 14
Hình 2.4 Ba cơ sở dữ liệu nucleotide (GenBank – EMB - DDB) và công cụ tìm kiếm
tƣơng ứng……………………………………………………………………………...16
Hình 2.5. Sự hợp nhất của ba cơ sở dữ liệu MSD, PDBj, PDB .................................... 16
Hình 2.6 Tổ chức genome của virus CaMV .................................................................. 19
Hình 2.7 Một số loài trong họ Caulimoviridae ............................................................. 20
Hình 2.8 Cơ chế nhân bản, sao mã và dịch mã vào tế bào ký chủ của virus dsDNA ......... 21
Hình 2.9 Hình thái virion của Citrus tristeza virus thuộc Closterovirus ...................... 22
Hình 2.10 Cơ chế nhân bản, sao mã và dịch mã vào tế bào ký chủ của virus
(+)ssRNA ...................................................................................................................... 22
Hình 2.11 Vị trí gene RT-RNasseH nằm trong cấu trúc genome Cauliflower mosaic
virus ...................................................................................................................... 23
Hình 2.12. Protein reverse transcriptase ........................................................................ 24
Hình 2.13 Vị trí gene hsp-70 nằm trong tổ chức genome của Beet yellows virus .............. 24
Hình 2.14 Protein HSP-70 ............................................................................................. 24
Hình 3.1 Sơ đồ tóm tắt quá trình thu nhận trình tự ....................................................... 28
Hình 3.2 Sơ đồ xác định gene trong genome virus ....................................................... 29
Hình 3.3 Định dạng FASTA để thực hiện sắp gióng cột hai trình tự ............................ 30
Hình 3.4 Kết quả sắp gióng cột cặp trình tự gene RT-RNaseH (đã biết vị trí) với RT-
RNaseH trong ORF hay genome của virus .......................................................... 31
Hình 3.5 Sơ đồ các đối tƣợng của CSDL gene hsp-70 và RT-RNaseH ........................ 32
Hình 3.6 Tiến trình lấy thông tin từ CSDL hai gene ở hai loài virus ........................... 37
Hình 3.7 Sơ đồ chi tiết các bảng quan hệ trong CSDL hai gene và protein hsp-70 và
RT-RNaseH ở hai họ virus Caulimoviridae và Closteroviridae …………………………38
Hình 4.1 File chứa accession number và dòng định nghĩa của giống Crinivirus.......... 39
xi
Hình 4.2 Mẫu tin về gene hsp-70 của Sweet potato chlorotic stunt virus trên
NCBI………..40
Hình 4.3 Mô hình thu nhận gene RT-RNaseH trong ORF5 của CMV………………..41
Hình 4.4 Sơ đồ cấu trúc của trang web CSDL gene hsp-70 và RT-RNaseH ................. 46
Hình 4.5 Trang HOME PAGE ...................................................................................... 47
Hình 4.6 Trang tìm kiếm trình tự khi biết ACCESSION NUMBER ............................ 48
Hình 4.7 Trang kết quả tìm kiếm trình tự khi biết ACCESION NUBER ..................... 48
Hình 4.8 Trang tìm kiếm trình tự tƣơng đồng bằng Alignment .................................... 50
Hình 4.9 Trang kết quả khi thực hiện Alignment giữa các trình tự…………………..51
Hình 4.10 Trang tìm kiếm trình tự tƣơng đồng bằng BLAST ...................................... 51
Hình 4.11 Trang cây phân loài của hai họ Caulimoviridae và Closteroviridae ............ 52
Hình 4.12 Trang web thể hiện nội dung các đặc tính của họ…………………………53
xii
DANH SÁCH CÁC CHỮ VIẾT TẮT
CSDL Cơ sở dữ liệu.
RT-RNaseH Reverse transcriptase-RnaseH
hsp-70 Heat sock protein 70.
Perl Practical Extraction and Report Language
CGI Common Gateway Interface
DBI Database Interface
DBD Datadbase Driver
WWW World Wide Web
HTML Hypertext Markup Language
HTTP Hypertext Transfer Protocol
NCBI Center for Bioinformatic Information
BLAST Basic Local Alignment Search Tool
EBI European Bioinformatics Insiture
EMBL European Molecular Biology Laboratory
SIB Swiss Insitute of Bioiformatics
DDBJ DNA Data Bank Japan
PDBj Protein Database Japan
CaMV Caulimoflower mosaic virus
1
PHẦN 1
LỜI MỞ ĐẦU
Với những bƣớc tiến vƣợt bậc trong việc khám phá và ứng dụng những kỹ thuật
sinh học phân tử vào trong giải trình tự genome của sinh vật, ngày càng nhiều trình tự
đƣợc giải. Đòi hỏi có sự lƣu trữ, tổ chức, quản lý và khai thác tốt các thông tin về trình
tự thu đƣợc này ngày càng hiệu quả và nhanh chóng hơn. Vì vậy, cần có sự hỗ trợ đắc
lực của các nghành khoa học khác.Với khả năng xử lý, lƣu trữ, liên kết và truy xuất
một lƣợng thông tin lớn một cách nhanh chóng của máy tính đã giúp nó trở thành một
công cụ hữu ích cho việc ứng dụng vào trong lĩnh vực sinh học. Sự kết hợp giữa ngành
tin học và sinh học dẫn đến cho ra đời một công cụ mới, phục vụ cho việc nghiên cứu
trong sinh học đó là Tin - sinh học. Mặc dù Tin - sinh học là một lĩnh vực mới ra đời
nhƣng triển vọng của nó phục vụ cho nghiên cứu sinh học rất lớn.
KHÁI NIỆM VỀ TIN - SINH HỌC
Sự kết hợp, liên thông giữa các ngành khoa học giúp cho khoa học có những
bƣớc phát triển mới.Trong thời đại khoa học hiện nay, sự kết hợp giữa các ngành lại
với nhau là hết sức cần thiết. Không một ngành khoa học nào có thể phát triển mà
không cần sự hổ trợ của ngành khác.Với những bƣớc đột phá mạnh mẽ trong lĩnh vực
công nghệ thông tin và một số thành tựu mới trong nghiên cứu sinh học (giải mã toàn
bộ genome của ngƣời và một số loài khác) thì sự kết hợp này cho ra đời một lĩnh vực
nghiên cứu mới – Bioinformatics hay Tin - sinh học là một ví dụ điển hình cho sự liên
kết này.
Nhƣ vậy, bioinformatics là gì? Có nhiều định nghĩa khác nhau về thuật ngữ
này. Có thể định nghĩa một cách ngắn gọn thuật ngữ này nhƣ sau “Bioinformatics là sự
kết hợp giữa công nghệ sinh học và công nghệ thông tin với mục tiêu giúp hiểu biết và
khám phá những nguyên lý trong sinh học” (theo trang web NCBI). [7, 22]
Công nghệ sinh học
Bioinformatics:
giúp hiểu biết và
khám phá những
nguyên lý trong
sinh học
Hình 1.1 Định nghĩa Bioinformatics theo NCBI.
Công nghệ tin học
2
TOÁN HỌC
KHOA HỌC MÁY TÍNH
THỐNG KÊ
SINH HỌC
HÓA HỌC
VẬT LÝ
Bioinformatics
Hình 1.2 Định nghĩa bioinformatics đƣợc mở rộng
Thật vậy, sự kết hợp này đã giải quyết hàng loạt những nghiên cứu trong sinh
học mà đòi hỏi thời gian khá dài hay khó có thể thực hiện bằng tay và mắt thƣờng
đƣợc.
Nhƣng định nghĩa trên chƣa hoàn toàn đầy đủ, vì bioinformatics không chỉ đơn
thuần là sự kết hợp giữa công nghệ sinh học và công nghệ thông tin, mà là sự kết hợp
của nhiều ngành khoa học khác nhau nhƣ toán học, thống kê, khoa học máy tính, sinh
học, hóa học, vật lý,… Ngoài ra, sự kết hợp này có sự đan xen tƣơng hỗ với nhau. Vì
thế, thành quả nghiên cứu mang lại của ngành học này không chỉ đóng góp cho sinh
học mà còn cho các ngành khác. Một ví dụ rõ ràng nhất là trong qui trình nghiên cứu
về hệ thần kinh của động vật, con ngƣời đã phát hiện ra neuron thần kinh và cách xung
thần kinh đƣợc dẫn truyền các tính hiệu qua các tế bào thần kinh. Kết hợp với những
tính toán vật lý, trí tuệ nhân tạo, những lý thuyết sinh học trên đƣợc áp dụng vào tin
học, để hình thành một mạng tính toán (Neuron network). Một ví dụ khác là thuật giải
di truyền (GA - Genetic Algorithm) giúp giải những bài toán gần đúng có tính chính
xác cao, dựa trên lý thuyết tiến hóa trong sinh học của Darwin. Nhƣ vậy, sơ đồ trên
cần đƣợc bổ sung nhƣ sau:
3
Hầu hết, các nhà tin – sinh học trên thế giới hiện nay đang phát triển
bioinformatics theo hƣớng nhƣ định nghĩa ban đầu (theo trang NCBI) do công nghệ
sinh học là ngành khoa học mũi nhọn của thế kỷ 21.
Sự phát triển của kỹ thuật giải trình tự, một số lƣợng lớn các gene hsp-70 và
RT-RNaseH đã đƣợc giải trình tự. Những trình tự gene này đƣợc lƣu trữ trong CSDL
sinh học lớn nhƣ NCBI, EMBL, DDBj,… Vì các CSDL này quá lớn và chứa rất nhiều
thông tin khác nhau, không tập trung thành từng gene cụ thể nên khó có thể thực hiện
việc truy xuất các thông tin phục vụ trực tiếp cho một nghiên cứu chuyên biệt
Vì vậy, khóa luận đƣợc thực hiện với các mục tiêu lần lƣợt nhƣ sau. Một là xây
dựng cơ sở dữ liệu (CSDL) về trình tự nucleotide và protein của 2 gene hsp-70 và
Reverse transcriptase-RNaseH (RT-RNaseH). Hai là dùng giao diện web để truy xuất
thông tin về cơ sở dữ liệu và thực hiện việc chia sẻ thông tin đó.
Để đạt đƣợc mục tiêu này, khóa luận cần đảm bảo thực hiện nội dung nhƣ sau:
Dùng Perl script để thu nhận trình tự các nucleotide và protein của hai gene từ
CSDL GenBank (NCBI cơ sở dữ liệu nucleotide).
Xác định gene và protein của hai gene hsp-70 và Reverse transcriptase-RNaseH
(RT-RNaseH) trong genome hay ORF (Open Reading Frame) của virus.
Tìm hiểu về mô hình dữ liệu quan hệ, sử dụng mô hình này vào việc lƣu trữ dữ
liệu các trình tự nucleotide và protein của hai gene, tạo CSDL hai gene này.
Dùng Perl script để chuyển tự động các dữ liệu vào CSDL.
Sử dụng giao thức CGI kết hợp với ngôn ngữ lập trình Perl, để thiết kế trang
web CSDL về hai gene hsp-70 và RT-RNaseH trên hai họ virus Closteroviridae
và Caulimoviridae.
4
PHẦN 2
TỔNG QUAN TÀI LIỆU
2.1. SƠ LƢỢC VỀ CƠ SỞ DỮ LIỆU
2.1.1. Định nghĩa [3, 8]
Cơ sở dữ liệu (CSDL) là một tập hợp dữ liệu đƣợc tổ chức theo một cấu trúc
chặt chẽ nhằm phục vụ cho nhiều mục tiêu khác nhau một cách có chọn lọc. Tập hợp
dữ liệu sẽ đƣợc lƣu trữ trên các thiết bị lƣu trữ thông tin thứ cấp nhƣ băng từ, đĩa từ,…
để thỏa mãn nhu cầu khai thác thông tin đồng thời của nhiều ngƣời sử dụng hay nhiều
chƣơng trình ứng dụng với nhiều mục đích khác nhau.
Nhƣ vậy, các đặc tính của một CSDL là:
Tính nhất quán
Tính toàn vẹn
Tính tích hợp
Tính chia sẻ
Tính độc lập dữ liệu
Tính an toàn
Tính bảo mật
2.1.2. Hệ quản trị CSDL (Database Management System – DBMS)
Là một hệ thống phần mềm cho phép các nhà phân tích và thiết kế CSDL
cũng nhƣ ngƣời khai thác CSDL đƣợc thuận lợi trong quá trình định nghĩa, thao tác,
truy xuất và quản lý dữ liệu.
Hệ quản trị CSDL đầu tiên ra đời vào đầu những năm 60 dựa trên mô hình dữ
liệu phân cấp và mô hình mạng. Năm 1976 đánh dấu sự ra đời hệ quản trị CSDL đầu
tiên dựa trên mô hình quan hệ mang tên System-R. Đến những năm 90, bắt đầu xuất
hiện các hệ quản trị CSDL dựa trên mô hình hƣớng đối tƣợng,… Tuy nhiên chúng vẫn
dựa chủ yếu vào nền tảng là mô hình quan hệ. Hệ quản trị ODMG ra đời năm 1996
đƣợc coi là hệ quản trị thuần hƣớng đối tƣợng nhất.
Hiện nay, một số hệ quản trị CSDL mạnh đang đƣợc đƣa ra thị trƣờng nhƣ
Visual FoxPro, SQL-Server, Oracle,…
5
Một hệ quản trị cơ sở dữ liệu phải có khả năng giải quyết các vấn đề:
Tính chủ quyền của dữ liệu: đó là phải bảo đảm vấn đề an toàn dữ liệu
và tính chính xác của dữ liệu.
Tính bảo mật và quyền khai thác thông tin của ngƣời sử dụng.
Tranh chấp dữ liệu: do có thể cùng một lúc có nhiều ngƣời cùng truy cập
vào một nguồn tài nguyên dữ liệu với các mục đích khác nhau nên hệ quản trị
CSDL phải có cơ chế ƣu tiên truy cập dữ liệu. Cơ chế ƣu tiên có thể đƣợc thực
hiện bằng cách cấp quyền ƣu tiên cho ngƣời khai thác (ngƣời đƣợc cấp quyền
hạn ƣu tiên cao hơn thì đƣợc phép truy cập dữ liệu trƣớc) hay dựa vào thời điểm
truy cập (ngƣời truy xuất trƣớc thì có quyền truy cập dữ liệu trƣớc).
Phục hồi dữ liệu khi có sự cố.
2.1.3. Các mô hình dữ liệu [2, 3]
2.1.3.1. Định nghĩa
Mô hình dữ liệu là sự trừu tƣợng hóa thế giới thực, là sự biểu diễn dữ liệu
mức quan niệm. Mô hình dữ liệu đƣợc phân loại dựa trên các cách tiếp cận dữ liệu
khác nhau của các nhà phân tích, thiết kế CSDL. Mô hình dữ liệu hoàn toàn độc lập
giữa hệ thống máy tính và cấu trúc dữ liệu.
Hiện nay, có năm loại mô hình dữ liệu chính. Đó là:
Mô hình dữ liệu mạng: thập niên 60-70.
Mô hình dữ liệu phân cấp: thập niên 60-70.
Mô hình dữ liệu quan hệ: thập niên 80.
Mô hình dữ liệu thực thể kết hợp: thập niên 90.
Mô hình dữ liệu hƣớng đối tƣợng: thập niên 90.
2.1.3.2. So sánh các mô hình dữ liệu [2]
Sự ra đời của mô hình dữ liệu quan hệ đã khắc phục đƣợc những khó
khăn khi thiết kế và quản lí CSDL theo mô hình mạng và mô hình phân cấp.
Thứ nhất, mô hình mạng và mô hình phân cấp sử dụng nguyên lý chủ
nhân – thành viên, cha – con rất khó khăn cho việc thiết kế, sắp xếp và sau
khi thiết kế xong muốn sửa đổi rất phức tạp, hầu nhƣ phải làm lại từ đầu.
Mô hình quan hệ tổ chức dữ liệu dƣới dạng bảng dễ hiểu và đơn giản hơn
6
trong việc thiết kế và sửa đổi sau này. Ngoài ra, việc thiết kế mô hình quan
hệ hoàn toàn độc lập với hệ quản trị CSDL.
Thứ hai, các ngôn ngữ để tạo và thao tác các cấu trúc trong mô hình
mạng và mô hình phân cấp rất khó sử dụng. Ví dụ khi sử dụng hệ quản trị
IDMS đòi hỏi phải thông thạo về ngôn ngữ từ điển dữ liệu tích hợp và các
trình biên dịch lƣợc đồ và lƣợc đồ con. Trong khi đó, các hệ quản trị theo
mô hình quan hệ dễ sử dụng hơn vì sử dụng ngôn ngữ truy vấn dữ liệu ở
mức độ cao nhƣ SQL,…
Do những ƣu điểm trên CSDL quan hệ ngày càng đƣợc sử dụng rộng rãi. Tuy
nhiên, trong một số trƣờng hợp, mô hình quan hệ trở nên không thích hợp, nhất là khi
sử dụng nó để thể hiện những dữ liệu có quan hệ cấu trúc nhƣ cây hệ thống sinh học.
đối với những loại dữ liệu loại này, sử dụng mô hình dữ liệu hƣớng đối tƣợng là thích
hợp nhất.
Khi một CSDL đƣợc xây dựng xong, thì việc tiếp theo là làm sao để có thể
truy xuất thông tin từ CSDL này, nghĩa là ngƣời dùng có thể nhận đƣợc các thông tin
mà họ cần hay có thể bổ sung thêm một vài thông tin qua một giao diện thân thiện.
Hơn thế nữa, ngƣời dùng còn muốn chia sẻ thông tin với các nơi khác. Để thực hiện
đƣợc điều đó, ngƣời ta thƣờng chọn giao thức CGI, hiển thị những đòi hỏi thông tin về
CSDL của ngƣời dùng thông qua dịch vụ web.
2.2. NGÔN NGỮ LẬP TRÌNH PERL, MẠNG INTERNET VÀ WEB
2.2.1. Perl [19]
2.2.1.1. Tóm tắt lịch sử phát triển
Perl là chữ viết tắt của “Practical Extraction and Report Language”. Larry
Wall tạo ra ngôn ngữ Perl năm 1986 nhằm quản trị và cấu hình các mạng máy tính lớn.
Ngôn ngữ này phát sinh từ ngôn ngữ lập trình C và bị ảnh hƣởng bởi ngôn ngữ khác
nhƣ BASIC, awk, sed và UNIX shell.
Năm 1987, Perl 1.0 ra đời.
Năm 1988, Perl 2.0 phát hành và đƣợc các nhà quản trị UNIX sử dụng rộng
rãi.
7
Năm 1989, Perl 3.0 ra đời, nhƣng phiên bản này đƣợc phát hành dƣới bản
quyền đƣợc bảo vệ của GNU. Với phiên bản này Perl nhanh chóng trở thành tiêu
chuẩn để viết CGI script dùng cho việc xử lý dữ liệu đƣợc gửi trên Internet.
Năm 1991, phiên bản 4.0 đƣợc đƣa ra vào tháng 3. Đến thời điểm này, Perl đã
trở thành ngôn ngữ khá hoàn chỉnh mặc dù vẫn còn một số khuyết điểm nhỏ.
Năm 1994, phiên bản Perl 5.0 ra đời cùng với sự ra đời của DBI (Database
Interface) và DBD (Datadbase Driver) cho hệ quản trị CSDL Oracle của Tim Bunce.
Từ đó, các DBD của các hệ quản trị CSDL khác cũng dần xuất hiện.
Năm 2000, phiên bản 5.6 xuất hiện vào tháng 3. Phiên bản này đã chuyển
sang định dạng tiêu chuẩn và có sự hỗ trợ cả Unicode và UTF-8.
Năm 2002, phiên bản Perl 5.8 ra đời cùng với nhiều cải tiến mới đƣợc bổ
sung.
2.2.1.2. Ứng dụng [6]
Perl đƣợc dùng để xử lý tập tin, truy cập dữ liệu và đƣợc dùng cho giao diện
cổng chung (Common Gateway Interface – CGI), tiến hành tạo script của Microsoft
Windows, tạo giao diện ngƣời dùng đồ họa (graphical user interface – GUI).
Ƣu điểm: là ngôn ngữ dễ nắm bắt, thích hợp cho xử lý chuỗi và văn bản thuần
túy, đƣợc sự hổ trợ của nhiều hệ điều hành. Vì vậy, Perl là ngôn ngữ lập trình thích
hợp cho các nhà tin – sinh học vì nó có thể giúp cho việc thao tác trên các chuỗi trình
tự sinh học, tạo CSDL sinh học dễ dàng hơn. Ngoài ra, Perl còn đƣợc sự hỗ trợ module
(tập các hàm) giúp kết nối, truy xuất CSDL với trang Web, tạo ra trang web động.
Nhƣợc điểm: chỉ có thể dùng để viết các chƣơng trình, script nhỏ.
2.2.1.3. Một số module của Perl thƣờng đƣợc sử dụng [20, 21]
Mudule CGI (Common Gateway Interface – CGI) của Perl: do Lincoln D.
Stein viết và bổ sung, nâng cấp thêm các tính năng từ version 1.44 đến version 3.04.
Module này gồm các hàm giúp viết kịch bản Perl theo giao thức CGI. Các script này
giúp lấy thông tin từ trình diệt khách gởi đến máy chủ, đƣa vào chƣơng trình sử lý và
đƣa lại thông tin kết quả đến máy khách.
Module DBI (Database Interface) của Perl: là tập các hàm, biến và những
qui ƣớc cần thiết cho việc tƣơng tác với một CSDL nhất định thông qua Perl script,
hoàn toàn độc lập với hệ quản trị CSDL (do tác giả của DBI, Tim Bunce, định nghĩa).
8
Những tƣơng tác có thể nhập, nâng cấp, xử lý, rút trích,…dữ liệu vào hay ra khỏi
CSDL. Phiên bản hiện tại là 1.48.
Module DBD (Datadbase Driver) của Perl: là một module phụ thuộc loại hệ
quản trị CSDL và liên kết với module BDI để truy cập vào một loại hệ quản trị CSDL
nhất định. Nhƣ vậy tƣơng ứng với một hệ quản trị CSDL có một loại DBD. Ví dụ nhƣ
hệ quản trị MySQL có Database Driver là DBD::MySQL.
2.2.2. Giới thiệu về mạng Internet [2]
2.2.2.1. Tóm lƣợc lịch sử phát triển
Năm 1957, Bộ quốc phòng Mỹ thành lập cơ quan nghiên cứu các dự án kỹ
thuật cao ARPA (Advanced Research Projects Agency), thuộc một bộ phận trong bộ
quốc phòng. Chỉ một thập niên sau, năm 1969, ARPA thiết lập mạng ARPANET –
tiền thân của Internet ngày nay. ARPANET là một mạng máy tính nối bốn máy chủ tại
các trƣờng đại học California – Los Angeles, đại học California – Santa Barbara, viện
nghiên cứu Standford và đại học Utah lại với nhau.
Từ năm 1969 đến 1986, số lƣợng máy chủ tăng lên khoảng năm ngàn.
Đến năm 1973, mạng xuyên quốc gia đầu tiên đƣợc thiết lập giữa hai nƣớc
Anh và Na Uy.
Năm 1982, giao thức TCP/IP ra đời và nhanh chóng trở thành giao thức
chuẩn.
Internet dần dần đƣợc phát triển và đột phá từ khi có sự ra đời của dịch vụ
WWW (World Wide Web). Và từ đây, Internet đƣợc mở rộng sử dụng cho các ngành
nghiên cứu khác và trở thành một công cụ có mụch đích thƣơng mại.
P
E
R
L
S
C
R
I
P
T
D
B
I
S
w
it
c
h
DBD
DBD
DBD
RDBMS
RDBMS
RDBMS
Hình 2.1 Tƣơng tác giữa Perl script-DBI-DBD-và RBDMS
RDBMS (Relational Database Management Systems): hệ quản trị CSDL quan hệ
9
2.2.2.2. Một số khái niệm
Internet là một mạng toàn cầu, kết nối các mạng máy tính theo cùng một giao
thức chung TCP/IP.
Giao thức là cách thức đóng gói, mã hóa dữ liệu truyền trên đƣờng mạng và
các qui tắc để thiết lập và duy trì quá trình trao đổi dữ liệu.
Giao thức TCP/IP là giao thức dùng cho hệ mạng Internet/Intranet.
2.2.3. Web [2, 4]
2.2.3.1. Tóm lƣợt lịch sử phát triển
Năm 1991, WWW đƣợc phát triển đầu tiên ở Thụy Sỹ và trở thành dịch vụ
thông dụng trên mạng Internet. Tim Berners – Lee và các cộng sự tại phòng thí
nghiệm Vật lý Phân tử Châu Âu đã phát minh ra giao thức truyền thông trên cơ sở các
thông tin dạng siêu văn bản (Hypertext).
Từ đó, một loạt các thuật ngữ lần lƣợt ra đời nhƣ webServer, webClient,
webPage, webSite, URL:
WebServer: máy cung cấp thông tin dạng web.
WebClient: máy truy xuất thông tin từ web server.
WebSite: tập hợp các trang web của một tổ chức, một website có thể có
nhiều web server.
WebPage: một trang tự liệu web.
URL (Uniform Resource Locator) đƣờng dẫn chỉ đến một tập tin trong
một máy chủ trên Internet.
Để truy xuất các thông tin trên web server, các web client phải sử dụng một
chƣơng trình để duyệt các thông tin này gọi là web browser. Đến năm 1993, trung tâm
ứng dụng siêu máy tính quốc gia NCSA (National Center Supercomputer Application)
xây dựng trình duyệt web, có tên là Mosaic, đầu tiên có giao diện đồ họa.
Năm 1995, đánh dấu sự ra đời của trình duyệt Netscape và sau đó là
Microsoft Internet Explorer. Các trình duyệt này cho phép truy xuất dữ liệu khu trú
trên máy WWW. Hai công cụ hỗ trợ WWW là ngôn ngữ đánh dấu siêu văn bản
HTML (Hypertext Markup Language) dùng để tạo ra các trang web và giao thức
truyền siêu văn bản HTTP (Hypertext Transfer Protocol).
10
Tuy nhiên, các trang web này chỉ là những trang web tĩnh. Khi nhu cầu trao
đổi thông tin ngƣời sử dụng và các nhà cung cấp thông tin ngày càng tăng, các trang
web động dần dần thay thế các trang web tĩnh. Trang web động là trang web đƣợc tạo
ra để đáp ứng các dữ liệu nhập vào của ngƣời dùng trực tiếp hay gián tiếp và trả lại kết
quả thông qua sự tƣơng tác với hệ thống CSDL.
Có nhiều kỹ thuật đƣợc dùng để tích hợp CSDL với web để tạo ra trang web
động nhƣ CGI, PHP, ASP, JSP, Coldfusion. Trong đó:
CGI (Common Gateway Interface): là kỹ thuật ra đời sớm nhất và
đƣợc các nhà tin – sinh học sử dụng. Cụ thể CGI đƣợc định nghĩa là
một cách thức mà web server chạy một chƣơng trình một cách cục bộ
và trả lại kết quả thông qua máy server về trình duyệt web (ở máy
client) của ngƣời dùng yêu cầu nội dung động. Nhiều ngôn ngữ lập
trình đƣợc sử dụng để viết CGI nhƣ Perl, C, C++.
ASP (Active Server Page): là kỹ thuật của Microsoft sử dụng Visual
Basic hay các ngôn ngữ khác để viết, thƣờng chỉ ứng dụng trên hệ điều
hành Windows.
JSP (Java Server Page): là thuật ngữ dùng Java để viết, có thể chạy trên
các hệ điều hành nhƣ Unix, Linux, Windows, Mac,…
PHP (Hypertext Preprocessior): là dự án của Apache Software
Foundation. Tƣơng tự nhƣ ASP và JSP, PHP có một tập các thẻ mã
chƣơng trình đặt bên cạnh các thẻ HTML.
2.2.3.2. Tích hợp CSDL với web dùng CGI [2]
Gồm ba bƣớc:
Bƣớc 1: từ trình duyệt web (trên máy client) gởi đi những yêu cầu của
ngƣời dùng đến máy server. Ở máy server, thông qua trình ứng dụng CGI chuyển
những yêu cầu đó thành những câu truy vấn SQL.
Bƣớc 2: kết nối CSDL, thực hiện những câu truy vấn đó.
Bƣớc 3: thu lấy kết quả truy vấn, thông qua trình ứng dụng CGI chuyển kết
quả thu đƣợc từ CSDL thành định dạng HTML, rồi trả về máy client.
11
NLM
NCBI
NIH
Hình 2.2 Tƣơng quan giữa NCBI, NLM (National Library of Medicine và NIH)
2.3. CƠ SỞ DỮ LIỆU SINH HỌC
Dữ liệu sinh học ngày càng tăng theo cấp số mũ qua các dự án giải trình tự bộ
gene, do sự phát triển của kỹ thuật và thiết bị thí nghiệm nhƣ kỹ thuật DNA micro
array, kỹ thuật giải trình tự tự động cho phép tạo ra hàng ngàn dữ liệu sinh học trong
chốc lát. Nhƣ vậy vấn đề đặt ra là cần phải có biện pháp lƣu trữ, quản lý, sử dụng và
chia sẽ nguồn dữ liệu này. Do đó cần xây dựng các dữ liệu này thành một CSDL hoàn
chỉnh để có thể thực hiện đƣợc mục đích trên. Hơn thế nữa, với việc hệ thống hóa toàn
bộ dữ liệu trên, chúng ta dễ dàng thực hiện việc chia sẽ những thông tin ấy qua mạng
Internet hay kết nối thêm vào những tập dữ liệu ở nơi khác.
Một số CSDL lớn, trực tuyến đã đƣợc xây dựng để cung cấp thông tin cho các
nhà nghiên cứu sinh học nhƣ NCBI, EBI, SIB, DDBJ,…
2.3.1. NCBI (National Center for Bioinformatic Information) [22]
2.3.1.1. Vài nét về NCBI
NCBI là chữ viết tắt của “Center for Bioinformatic Information”. Đây là trung
tâm quốc gia về Công nghệ sinh học, thuộc viện sức khỏe quốc gia của Hoa kỳ (NIH –
National Insitute of Health). NCBI chính thức đƣợc thành lập vào ngày 4/10/1988.
Đến năm 1991, NCBI đảm nhiệm việc quản lý CSDL trình tự DNA và từ đó NCBI
còn đƣợc gọi là GenBank.
NCBI là nơi cung cấp, trao đổi thông tin về sinh học phân tử của Mỹ, thông
qua những CSDL trực tuyến. Ngoài ra, NCBI còn tham gia những nghiên cứu về “sinh
học tính toán” (computation biology), phát triển những công cụ phân tích dữ liệu bộ
gene, protein,…
2.3.1.2. Một số cơ sở dữ liệu trong NCBI
Nucleotide (GenBank): là CSDL về trình tự nucleotide.
Protein: là CSDL về trình tự amino acid.
Genome: trình tự toàn bộ genome của một số sinh vật.
12
Structure: hay còn có tên gọi là MMDB (Molecular Modeling Database)
chứa cấu trúc ba chiều của những đại phân tử bao gồm cả protein lẫn những chuỗi
nucleotide.
Ngoài ra, NCBI còn một số CSDL khác. Chúng là các CSDL trung gian, đƣợc
tạo thành từ sự kết hợp của hai hay nhiều CSDL trên, hay do liên kết đến các CSDL
khác.
2.3.1.3. Một số công cụ trong NCBI
Công cụ khai thác dữ liệu
o Tìm kiếm thông tin sinh học dựa trên từ khóa có dạng văn bản:
Entrez: chứa các phƣơng thức tìm kiếm nhƣ tìm kiếm dựa trên accession
number, hay dựa theo tên sinh vật, tên gene, tên protein,… trên tất cả các CSDL đã đề
cập ở phần 2.3.1.2.
o Tìm kiếm trình tự tƣơng đồng: có phần mềm điển hình nhƣ:
BLAST (Basic Local Alignment Search Tool): có BLAST Homepage là nơi
cung cấp thông tin hƣớng dẫn về BLAST, chƣơng trình BLAST,…
Blink: nơi hiển thị kết quả bằng BLAST trên mọi protein có trong mọi CSDL
protein Entrez.
Network-client BLAST: client BLAST (blastcl3) có thể thâm nhập vào bộ
máy BLAST của NCBI. Blastcl3 này có thể tìm kiếm tất cả các trình tự dƣới dạng file
FASTA và tạo sự gióng cột một-nhiều trình tự, sau đó lƣu dƣới dạng file text hay
HTML. Ngoài ra, blastcl3 còn có thể thực hiện việc tìm kiếm trên nhiều CSDL.
Stand-alone BLAST: là phần mềm có thể tải về từ NCBI. Phần mềm này
thực hiện việc tìm kiếm các trình tự tƣơng tự trên CSDL trình tự cục bộ.
o Phân loại sinh vật:
Taxonomy Browser: công cụ thực hiện việc tìm kiếm trên CSDL Taxonomy.
Taxonomy BLAST: nhóm lại những kết quả có tỉ lệ tƣơng đồng khi thực
hiện BLAST, tùy thuộc vào sự phân loại của chúng trong CSDL Taxonomy.
TaxTable: tóm tắt kết quả sau khi thực hiện BLAST với CSDL Taxonomy và
hiển thị mối quan hệ giữa sinh vật này với sinh vật khác bằng các biểu đồ màu.
13
Công cụ phục vụ cho việc góp trình tự protein, DNA, EST, STS,
…lên NCBI
Sequin: phần mềm này có thể tải về từ NCBI, hổ trợ cho việc tạo ra những
file văn bản (chứa trình tự, tên tác giả, bài báo,…) có cấu trúc theo khuôn mẫu. Trong
phần mềm này còn kèm theo một số công cụ nhỏ nhƣ công cụ tìm khung đọc mở, công
cụ gióng cột trình tự,… phần mềm này thích hợp cho việc góp nhiều trình tự cùng một
lúc.
NCBI còn tích hợp khá nhiều những công cụ, phần mềm phân tích
trình tự DNA, protein nhƣ:
BanklIt, ORF Finder, Electronic-PCR (e-PCR), VecScreen, Homologene,
COGs, COGnitor, GEO, MGC, Clone Registry, CDD, LocusLink,…
2.3.2. EBI (European Bioinformatics Insiture) [23]
2.3.2.1. Vài nét về EBI
EBI là viện Tin - sinh học của Cộng đồng chung Châu Âu, EBI đặt tại
Welcome Trust Genome Campus nƣớc Anh, thành lập năm 1992. EBI bắt nguồn từ
EMBL (European Molecular Biology Laboratory). EBML đƣợc thành lập năm 1980
tại phòng thí nghiệm sinh học phân tử Heidelberg của Đức và đây là CSDL trình tự
nucleotide đầu tiên của thế giới.
EBI phục vụ cho việc nghiên cứu trong các lĩnh vực nhƣ sinh học phân tử, di
truyền, y học, nông nghiệp,… bằng cách xây dựng, duy trì những CSDL chia sẻ trực
tuyến thông tin cần thiết. Bên cạnh đó, EBI còn thực hiện những nghiên cứu trong lĩnh
vực Tin-sinh học và sinh học phân tử tính toán.
2.3.2.2. Một số cơ sở dữ liệu trong EBI
EMBL (European Molecular Biology Laboratory): còn đƣợc gọi là EMBL-
BANK chứa CSDL về trình tự DNA, RNA.
MSD (Macromolecular Structure Database): chứa thông tin cấu trúc của các
đại phân tử sinh học nhƣ protein, DNA, RNA,…
ArrayExpress: tích trữ nguồn dữ liệu về sự biểu hiện của gene dựa trên kỹ
thuật microArray.
TrEMBL (Translate EMBL): là cơ sở dữ liệu về protein. Do lƣợng trình tự
này ngày càng nhiều và để quản lý tốt hơn, TrEMBL đã kết hợp với Swiss-Prot (CSDL
14
Cơ sở dữ liệu về
protein của Thụy
Sỹ đặt tại Genva
Cơ sở dữ liệu về protein
của trƣờng đại học Y
Georgetown (Mỹ)
Hình 2.3 Một số cơ sở dữ liệu trong EBI
về trình tự protein của Thụy Sỹ), PIR (CSDL về protein của trƣờng đại học Y
Georgetown, Hoa Kỳ) tạo thành CSDL UniProt.
Ngoài ra, EBI còn một số CSDL khác. Chúng là các CSDL trung gian, đƣợc tạo
thành từ sự kết hợp của hai hay nhiều CSDL trên, hay do liên kết đến CSDL khác
2.3.2.3. Một số công cụ hỗ trợ phân tích trình tự sinh học
FASTA: Do Smith và Waterman tạo ra năm 1981, là chƣơng trình tìm kiếm
những trình tự tƣơng đồng, có thể là trình tự DNA hay trình tự protein, trong CSDL đã
chọn.
BLAST: chủ yếu là phần mềm WU-BLAST (Washington University Bacis
Local Alignment Tool version 2.0). Đặc điểm chính của công cụ này là tìm kiếm vùng
trình tự tƣơng đồng nhanh chóng.
ClustalW: là công cụ dành cho việc sắp gióng cột ở hai hay nhiều trình tự
sinh học (cả protein và DNA), công cụ này cho ra kết quả có ý nghĩa sinh học cao.
15
2.3.3. SIB (Swiss Insitute of Bioiformatics) [32]
Là viện Tin-sinh học của Thụy Sỹ đặt tại Genva, nơi cung cấp dịch vụ trên
web chất lƣợng cao cho cộng đồng khoa học thế giới qua trang ExPASy (Expert
Protein Analyis System).
Một số CSDL trong ExPASy:
SWISS-PROT: là CSDL protein, đƣợc thành lập năm 1986. Nhƣng kể từ
năm 1987, SWISS-PROT liên kết với EBI.
SWISS-2DPAGE (2-dimensional polyacrylamide gel electrophoresis
database): chứa dữ liệu điện di hai chiều từ protein của ngƣời, chuột, E.coli,…
PROSITE: tích trữ về các họ protein có cùng chức năng.
ENZYME (enzyme nomenclature): cung cấp thông tin về danh pháp của
enzyme.
SWISS-3DIMAGE: lƣu trữ hình ảnh chất lƣợng cao của các đại phân tử sinh
học đã biết cấu trúc không gian ba chiều.
2.3.4. DDBJ (DNA Data Bank Japan) và PDBj (Protein Database Japan) [25]
DDBJ là CSDL về trình tự DNA của Nhật Bản, chính thức đi vào hoạt động
năm 1986, đặt tại viện di truyền quốc gia (NIG). Đến năm 2001, trung tâm thông tin về
sinh học ở NIG đƣợc tổ chức lại với cái tên là CIB (Center Information Biology) kết
hợp với DDBJ, viết tắt CIB/DDBJ.
PDBj là CSDL của Nhật Bản, tích trữ dữ liệu về cấu trúc, chức năng protein.
DDBJ của Nhật Bản, EMBL của Châu Âu, NCBI của Hoa Kỳ là ba CSDL về
trình tự nucleotide lớn, mang tính chất toàn cầu và ba cơ sở dữ liệu này có sự hợp tác,
trao đổi qua lại dữ liệu. Từ đó càng làm cho dữ liệu về trình tự nucleotide trở nên
phong phú hơn.
16
Các tổ chức này đều xây dựng công cụ tìm kiếm trong CSDL của họ. Với
NCBI là Entrez, EBI là SRS và CIB là getentry. Nhƣ vậy để có thể khai thác hiệu quả
các CSDL này thì việc đầu tiên cần thực hiện là nắm vững các hoạt động của công cụ
tìm kiếm (“search engines”) này.
Ngoài ra, cũng có sự kết hợp của các CSDL protein trên thế giới để tạo ra một
CSDL thống nhất wwPDB (world wide Protein Database).
EB
I
GenBank
DDBJ
EMB
L
EMB
L
Entrez
SRS
getentry
NIG
CI
B
NCB
I
NI
H
•Submissions
•Updates
•Submissions
•Updates
•Submissions
•Updates
Hình 2.4 Ba cơ sở dữ liệu nucleotide (GenBank – EMB -DDB) và
công cụ tìm kiếm tƣơng ứng.
Hình 2.5 Sự hợp nhất của ba cơ sở dữ liệu MSD, PDBj, PDB
17
Bảng 2.1. MỘT SỐ CSDL SINH HỌC LỚN VÀ CÁC ĐỊA CHỈ WEB TƢƠNG ỨNG.
STT Tổ chức
Tên cơ sở dữ
liệu
Địa chỉ trang web
1
EBI
(
ww.ebi.a
c.uk/)
EMBL-BANK
TrEMBL
MSD
Ensembl
ArrayExpress
2
NCBI
(
ww.ncbi.
nlm.nih.
gov)
OMIM
GenBank
Protein
Genome
MMDB
Taxonomy
dbSNP
CDD
Pubmed
Cancer
Chromosomes
Chromosomes
dbEST
dbSTS
DbGSS
18
Bảng 2.2. MỘT SỐ CSDL SINH HỌC LỚN VÀ CÁC ĐỊA CHỈ WEB TƢƠNG ỨNG
(tiếp theo)
2.4. VIRUS CAULIMOVIRIDAE VÀ CLOSTEROVIRIDAE
Giới thiệu chung [1]
Bệnh hại do virus thực vật gây ra cho nền nông nghiệp rất lớn. Nhƣng xác
định đúng tác nhân gây ra những thiệt hại này đối với từng loại cây trồng gặp nhiều
khó khăn vì bệnh do virus gây ra thƣờng rất khó xác định, do kích thƣớc của chúng
quá bé, do biến chuyển của quá trình gây bệnh thƣờng rất phức tạp và chịu ảnh hƣởng
của nhiều điều kiện khác nhau.
Ví dụ: Theo J.S.Hu và cộng sự, bệnh héo do virus (Mealybug wilt of
pineapple- MWP) là bệnh gây thiệt hại ở nhiều khu vực trồng dứa trên thế giới. Các
nghiên cứu đã chứng minh rằng một yếu tố tiềm tàng liên quan đến bệnh là virus. Một
dạng closterovirus hình que gấp khúc đƣợc phân lập từ những cây có triệu chứng
MWP ở Hawaii. Tuy nhiên sau đó những tiểu phần closterovirus cũng đƣợc tìm thấy ở
cả cây dứa có và không có thể hiện triệu chứng trên phạm vi thế giới. Virus liên quan
đến bệnh héo ở dứa (PMWaV) thực chất là phức hợp của 2 loại virus PMWaV-1 và
PMWaV-2. Vì tác nhân không biểu hiện ra ngoài không gây ảnh hƣởng đến sự sinh
trƣởng và phát triển của dứa, để phát hiện phân biệt hai tác nhân này ở những cây
không và có biểu hiện ra ngoài là rất khó khăn.
STT Tổ chức Tên cơ sở dữ liệu Địa chỉ trang web
3 SIB
(
asy.org)
SWISS-PROT
SWISS-2DPAGE
PROSITE
ENZYME
SWISS-3DIMAGE
CD40L
4 CIB/DDBJ DDBJ
5 Pdbj Pdbj
6 PDB PDB
7 wwPDB wwPDB
19
Trong đó:
ORF I Movement protein
ORF II Insect transmission factor
ORF III
ORF IV Capsid protein
ORF V Protease, reverse transcriptase and RNaseH
ORF VI Translational activator / Inclusion body protein
ORF VII Unknown (dispensable)
Hình 2.6 Tổ chức genome của virus CaMV (Caulimoflower mosaic virus)
2.4.1. CAULOMOVIRIDAE [29]
2.4.1.1. Khái quát
Caulimoviriruse là họ virus thực vật có genome chứa dsDNA. Đƣợc chia ra
làm năm nhóm gồm:
Caulimovirus (loài đặc trƣng: cauliflower mosaic virus).
Soymovirus (loài đặc trƣng: Soybean chlorotic mottle-like viruses).
Cavemovirus (loài đặc trƣng: Cassava vein mosaic-like viruses).
Tungrovirus (loài đặc trƣng: Rice tungro bacilliform-like viruses).
Badnavirus (loài đặc trƣng: Cammelina yellow mottle virus).
Petuvirus (loài đặc trƣng: Petunia vein clearing-like virus).
Trong đó, Virion của các loài Caulimovirus, Soymovirus, Cavemovirus,
Petuvirus có đƣờng kính khoảng 50 nm. Còn Tungrovirus và Badnavirus có chiều dài
110-400 và 130 nm, đƣờng kính khoảng 30-35 và 30-35 nm tƣơng ứng. Các loài trong
họ có kích thƣớc genome khoảng 7,5-8 kb và tổ chức genome gồm 9 ORF (Open
Reading Frame) trong ORF1 gồm có ORF1a và ORF1b). Sự sao mã genome của virus
trong tế bào ký chủ phụ thuộc vào gene reverse transcriptase (gene này không chèn
vào DNA của tế bào ký chủ trong quá sao mã và dịch mã)
20
2.4.1.2. Cấu tạo
Virion có cấu trúc đơn giản gồm một lớp vỏ capsid. Viron không có áo
(enveloped) bao bọc bên ngoài. Capsid có hình cầu hoặc dạng bacilliform. Ở dạng cầu
có đƣờng kính khoảng 35-47.52-50 nm. Các lớp vỏ (shell) capsid của virion là tổ hợp
của những màng đa, sự sắp xếp của capsomer không có sự phân biệt. Còn ở dạng
bacilliform thì capsid có độ dài 130 nm hoặc 60-900 nm và có đƣờng kính 24-30-35
nm.
2.4.1.3. ĐẶC TÍNH SINH HỌC
Dãy ký chủ tự nhiên
Ký chủ của virus liên quan đến Domain Eucarya.
Mối quan hệ vector và ký chủ trung gian
Virus có thể đƣợc vận chuyển bởi một số nhân tố sau: vector, hạt,
phấn hoa, sự cọ sát giữa hai ký chủ,…
Vùng phân bố
Phân bố khắp nơi nhƣ châu Phi, Mỹ, Á,…
2.4.1.4. Cơ chế xâm nhiễm và sao mã trong tế bào ký chủ [18]
Virus tấn công vào tế bào ký chủ thông qua các thụ thể trên màng, khi vào tế
bào ký chủ tiến hành cởi bỏ lớp vỏ, phóng thích dsDNA vào tế bào chất của tế bào ký
chủ. Sợi dsDNA này tiến hành đi vào nhân của tế bào ký chủ, sau đó nó tiến hành nhân
bản trong nhân và sao mã tạo mRNA dƣới sự tham gia của các enzyme của nhân và
virus (DNA-dependent RNA polymerase). mRNA này từ nhân đi ra tế bào chất của tế
bào ký chủ để thực hiện việc dịch mã. Các protein của sự dịch mã mRNA virus lại trở
Hình 2.7 Hình thái virion của một số loài trong họ Caulimoviridae
21
Hình 2.8 Cơ chế nhân bản, sao mã và dịch mã vào tế bào ký chủ của
virus dsDNA
lại nhân, kết hợp với sản phẩm của quá trình nhân bản, để hình thành nên các virion,
các virion này thoát khỏi nhân và cuối cùng ly giải ra khỏi tế bào ký chủ (Hình 2.8).
2.4.2. CLOSTEROVIRIDAE
2.4.2.1. Khái quát [12]
Closteroviridae cũng là họ virus gây hại trên thực vật, có bộ genome là
ssRNA và virion có hình dạng sợi tròn mảnh (flexuous rod-shaped virion), có độ dài
khoảng 1250-2200 nm chứa một sợi sense dƣơng, kích thƣớc của một RNA sợi đơn
khoảng 15,5-19.3 kb (Martelli và cộng sự, 2002). Đƣợc chia ra làm 3 nhóm gồm:
Ampelovirus (loài đặc trƣng: Grapevine leafroll-associated virus 3).
Closterovirus (loài đặc trƣng: Beet yellows virus).
Crinivirus (loài đặc trƣng: Lettuce infectious yellows virus).
2.4.2.2. Cấu tạo [30]
Virion có cấu tạo đơn giản gồm có một lớp vỏ (capsid), không có lớp áo
(enveloped) bao bên ngoài. Capsid của nó rất mảnh, có độ dài khoảng 650-900 hoặc
1200-2325 nm và có đƣờng kính khoảng 10-13 nm.
22
Hình 2.9 Hình thái virion của Citrus tristeza virus thuộc Closterovirus
2.4.2.3. Cơ chế xâm nhiễm và sao mã trong tế bào ký chủ [18]
Thông qua các thụ thể trên màng của tế bào ký chủ, virus nhận biết và tấn
công vào vào tế bào ký chủ để đi vào tế bào chất của tế bào ký chủ. Khi ở trong tế bào
chất virus tiến hành sự hóa acid thể nhân (acidification of endosome) để tạo ra sợi
single strand RNA sense (+). Ở trong tế bào chất, mRNA này có hai nhiệm vụ là:
Thực hiện việc dịch mã ra protein virus, protein này sau đó đƣợc biến đổi để
hình thành nên các protein cấu trúc của virus
Sao mã genome của virus tiếp đó tạo nên sợi single strand RNA (ssRNA).
Các protein cấu trúc đƣợc hình thành sẽ “gói” các ssRNA ở trên để hình thành các
virion trong tế bào chất, sau đó ly giải màng tế bào ký chủ và phóng thích ra ngoài.
(hình 2.10).
Hình 2.10 Cơ chế nhân bản, sao mã và dịch mã vào tế bào ký chủ của virus (+)ssRNA
23
2.5. Gene Hsp-70 và Reverse transcriptase-RNaseH
Mụch tiêu của khóa luận là xây dựng CSDL phục vụ cho việc phân biệt các loài
trong họ hay phân biệt các họ với nhau thông qua phản ứng PCR phát hiện. Nên chúng
tôi chỉ quan tâm đến vùng gene bảo tồn để tiến hành xây dựng CSDL. Mặc dù, trong
hai họ virus này có nhiều gene bảo tồn, nhƣng sau khi tìm hiểu thông tin chúng tôi tiến
hành xây dựng CSDL về hai gene hsp-70 và RT-RnasH với hai lý do sau:
Thứ nhất, gene hsp-70 là gene quan trọng ở Closteroviridae khi tồn tại trong môi
trƣờng sốc nhiệt và gene Reverse Transcriptase-RNaseH (RT-RNaseH) ở
Caulimoviridae thuộc nhóm Retrovirus nên gene RT-RNaseH rất quan trọng cho quá
trình hoàn thành chu kỳ sống của chúng trong tế bào ký chủ.
Thứ hai, các thông tin về trình tự hai gene này đƣợc nghiên cứu, giải trình tự và
đăng tải nhiều trên CSDL nucleotide của NCBI.
2.5.1. Gene Reverse transciptase-RnasH (RT-RNaseH)
2.5.1.1. Vị trí gene RT-RNaseH nằm trong genome [15, 16]
Gene RT-RNaseH đây là tổ hợp của hai gene RT và RNaseH mã hóa cho
enzyme reverse transcriptase và ribonuclease H (RNaseH) thuộc ORF5 trong tổ chức
genome của Cauliflower mosaic virus. Đây là hai gene có mối quan hệ chặt chẽ trong
quá trình thực hiện sao chép từ ssRNA sang dsDNA của quá trình tạo genome hoàn
chỉnh của virus. Ngoài ra, trong ORF5 này còn chứa một số gene khác mã hóa cho một
số polyprotein khác nhƣ aspartic protease, protein áo,… Còn một số thành viên khác
thuộc giống Badnavirus thì gene này nằm trong ORF3. Gene RT-RNaseH bảo tồn
trong họ mã hóa cho protein reverse transcriptase-RNaseH, đây là một trong những
protein bảo tồn trong họ virus Caulimoviridae.
2.5.1.2. Chức năng của protein [31]
Đối với các loài virus có tổ chức genome là dsDNA trong quá trình sao mã
trong tế bào ký chủ, chúng sử dụng enzyme Reverse transcriptase-RNaseH để hoàn
thành chu kỳ sao mã của chúng.
Protein Reverse transcriptase-RNaseH có hai chức năng:
DNA polymerase: Trong chu kỳ sống của virus reverse transcriptase chỉ
sao chép RNA. Nó sẽ sao mã cả khuân mẫu RNA và DNA sợi đơn. Trong
cả hai trƣờng hợp này nó điều cần những primer RNA hoặc DNA để khởi
đầu cho sự tổng hợp của nó.
Hình 2.11 Vị trí gene RT-RNaseH nằm trong cấu trúc genome Cauliflower mosaic virus (CMV)
24
Hình 2.13 Vị trí gene hsp-70 nằm trong tổ chức genome của Beet yellows virus (BYV)
Hình 2.12 Protein Reverse transcriptase
RNase H: là một ribonuclease, enzyme này có chức năng phân tách RNA
từ những RNA-DNA lai, RNA-DNA lai này đƣợc hình thành trong quá trình
sao mã ngƣợc của đoạn khuôn mẫu RNA. RNase H hoạt động có hai tính
năng endonuclease và exonuclease trong quá trình phân tách RNA-DNA lai.
2.5.2. Gene hsp-70
2.5.2.1. Vị trí gene hsp-70 nằm trong genome [13, 17]
Gene hsp-70 mã hóa cho enzyme HSP-70 thuộc ORF2 trong tổ chức genome
(gồm có 9 ORF nằm trong 2 RNA là RNA1 và RNA2) và gene này thuộc RNA2 của
họ Closteroviridae. Đây là gene bảo tồn trong họ và nhiều nghiên cứu tiến hành xây
dựng cây phát sinh loài dựa trên gene này.
2.5.2.2. Chức năng [10]
Protein HSP-70 (hình 2.14), trọng lƣợng phân tử 70 kD đƣợc mã hóa từ gene
hsp-70 có vai trò quan trọng trong quá trình tồn tại của sinh vật trong môi trƣờng có sự
thay đổi đột ngột về nhiệt độ. Ngoài ra, protein HSP-70 còn tham gia vào một số quá
trình điều hòa quan trọng khác nhƣ: giúp sự hình thành cấu của protein, giúp di chuyển
của virus qua các tế bào ký chủ,…Đây là protein bảo tồn trong họ.
Hình 2.14 Protein HSP-70
25
PHẦN 3
PHƢƠNG PHÁP VÀ CHƢƠNG TRÌNH SỬ DỤNG
3.1. Các chƣơng trình và ngôn ngữ lập trình đƣợc sử dụng
3.1.1. Hệ điều hành: Windows XP (Microsoft). Xây dựng CSDL trình tự
nucleotide, protein ở Caulimoviridae và Closteroviridae trên hệ điều hành này.
3.1.2. Các chƣơng trình phân tích trình tự
3.1.2.1. Chƣơng trình so sánh trình tự ClustalW [26]
ClustalW là một phần mềm (chạy trên nền Dos) dùng để so sánh sự tƣơng
đồng của hai hay nhiều trình tự sinh học (pairswise or mutiple alignment). ClustalW
mô tả kết quả bằng hệ thống các kí hiệu làm nổi bậc những nét đặc trƣng trong những
đoạn tƣơng đồng. ClustalW ngày càng trở nên hữu ích cho các nhà nghiên cứu trong
việc tìm kiếm những vùng bảo tồn trên những trình tự DNA hoặc protein. Sự hiểu biết
về mutiple alignment giúp ích rất nhiều cho các nhà khoa học trong việc dự đoán cấu
trúc bậc hai, bậc ba của protein, đồng thời phát hiện sự tƣơng đồng giữa những đoạn
gene (hoặc protein) vừa đƣợc giải trình tự với những gene (hoặc protein) đã tồn tại.
ClustalW tiến hành so sánh tƣơng đồng nhiều trình tự sinh học qua ba giai đoạn:
Đầu tiên chƣơng trình sử dụng thuật toán alignment xấp xỉ của Wilbur và
Lipman năm 1983 để tính hệ số tƣơng đồng giữa mỗi cặp trình tự.
Những hệ số tƣơng đồng tính đƣợc sẽ đƣợc sử dụng để thành lập cây phả hệ
(“Guide tree” hay dendrogram) bằng phƣơng pháp UPGMA (Unwieghted Pair –
Group Method) của Sneath và Sokal năm 1973.
Cuối cùng các trình tự đƣợc so sánh với những nhóm trình tự lớn hơn và cứ
thế tiếp tục. Ở mỗi giai đoạn so sánh này, ClustalW sẽ sử dụng thuật toán của Myers
và Miller (1998) nhằm tối ƣu kết quả.
ClustalW 1.83 đƣợc sử dụng trong khóa luận này, đƣợc tải về từ trang web
(
3.1.2.2. Chƣơng trình tìm kiếm các trình tự tƣơng đồng – BLAST [27]
BLAST là một chƣơng trình tìm kiếm và so sánh trình tự tƣơng đồng đƣợc
nhiều ngƣời dùng nhất hiện nay. Thuật giải của BLAST xuất phát từ ý tƣởng “liệu
trong ngân hàng dữ liệu (bao gồm cả CSDL cục bộ và những CSDL lớn trên thế giới
26
nhƣ GenBank, EMBL,…) có trình tự nào giống hoặc gần giống với trình tự đang quan
tâm”. BLAST thực hiện so sánh trình tự nhập vào (có thể DNA hay protein) với những
trình tự trong CSDL. Kết quả của BLAST là những số liệu thống kê chính xác về tỉ lệ
tƣơng đồng và nguồn gốc các trình tự.
Chiến lƣợc tìm kiếm trình tự tƣơng đồng trong BLAST đƣợc thực hiện qua ba
bƣớc chính:
Đầu tiên BLAST tìm kiếm những đoạn tƣơng đồng HSPs (High Scoring
Pair) giữa một trình tự đƣa vào và mỗi trình tự trong CSDL.
Công việc tiếp theo là thực hiện đánh giá ý nghĩa thống kê dựa trên bất cứ
sự tƣơng đồng nào đƣợc tìm thấy.
Sau cùng BLAST đƣa ra một báo cáo kết quả giống nhau thỏa mãn ngƣỡng
giá trị mà ngƣời dùng mong muốn.
Stand-alone BLAST version 2.28 là phiên bản đƣợc sử dụng trong khóa
luận này, có thể dễ dàng tải về từ địa chỉ web của trang CSDL NCBI
(ftp://ftp.ncbi.nih.gov.blast/executables/).
3.1.2.3. Hệ quả trị CSDL quan hệ MySQL[33]
MySQL là một hệ quản trị CSDL quan hệ nguồn mở phổ biến nhất, dƣới
sự phát triển, phân phối và bảo vệ bởi MySQL AB (MySQL AB là một công ty thƣơng
mại). Phần SQL của MySQL đƣợc viết tắt từ chữ ”Structured Query Language''. SQL
là một ngôn ngữ chuẩn đƣợc dùng phổ biến để xây dựng CSDL và đƣợc công nhận bởi
cơ quan tiêu chuẩn SQL là ANSI/ISO công nhận (phiên bản chuẩn của SQL ra đời từ
năm 1986 và cho đến nay thì có rất nhiều phiên bản đã tồn tại, “SQL:2003” là phiên
bản chuẩn ra đời vào giữa năm 2003, phiên bản này có nhiều ƣu điểm so với các phiên
bản trƣớc đó).
Xuất xứ của tên MySQL không rõ. Tiền tố My của MySQL chỉ xuất hiện cách
đây khoảng 10 năm nay, có lẽ nó đƣợc lấy từ tên con gái của Monty Widenius (ngƣời
đặt nền móng cho sự phát triển của MySQL). MySQL đƣợc viết dựa trên ngôn ngữ C
và C++, hoạt động trên nhiều hệ điều hành khác nhau. Phiên bản mới nhất của MySQL
là MySQL 5.0.
Ƣu điểm.
Dể sử dụng.
Mã nguồn mở.
27
Thích hợp cho việc xây dựng CSDL vừa và nhỏ.
Nhƣợc điểm:
Không thích hợp cho việc xây dựng CSDL lớn.
Phiên bản MySQL 4.0.15 đƣợc sử dụng trong khóa luận này.
3.1.2.4. Apache web Server [28]
Trên thế giới hiện nay có rất nhiều trình chủ web hỗ trợ CGI và một trong
số đó là Apache web Server. Apache web Server là một trình chủ web đƣợc nhiều
ngƣời dùng nhất hiện nay trên Internet. Theo số liệu thăm dò của NetCraft, có trên
60% trình chủ web đang đƣợc sử dụng trên Internet hiện nay là sử dụng Apache web
Server. Sở dĩ Apache có đƣợc một vị trí đáng nể nhƣ thế là nhờ vào việc nó là một
chƣơng trình mã nguồn mở và hoàn toàn miễn phí. Hai ƣu điểm này đã giúp Apache
đƣợc yêu thích đối với những công việc vừa và lớn của nhiều công ty trên thế giới.
Hơn thế, Apache hoạt động ổn định, an toàn và đáng tin cậy. Chỉ trong thời gian 5 năm
qua, Apache đã trở thành một trình chủ web có chức năng tƣơng đƣơng, thậm chí còn
vƣợt trội so với nhiều trình chủ web thƣơng mại khác.
Một trong những điểm mạnh của Apache là khả năng nâng cấp trình chủ web
thông qua các module. Có 2 loại module trong Apache đó là external module và
internal module. Cả hai loại module này điều có thể đƣợc sửa chữa, thay thế hoặc
nâng cấp vì chúng có kèm theo mã nguồn mở. Khi một yêu cầu từ trình tự khách đƣợc
gởi đến Apache phải trải qua một loạt nhiều giai đoạn sử lý để cuối cùng trả về kết quả
cho ngƣời dùng.
Apache có một chế độ bảo mật đáng tin cậy. Quy trình làm việc của Apache
cho phép ngƣời dùng thêm mới những module cần thiết vào bất kỳ giai đoạn nào của
quá trình xử lý.
Apache 1.3.24 là phiên bản đƣợc sử dụng trong khóa luận này, có thể tải
phiên bản này từ địa chỉ (
3.1.2.5. Ngôn ngữ lập trình Perl và các gói sử dụng
Trình dịch phiên bản Perl phiên bản 5.6
DBI, DBD::MySQL, CGI.pm
DBI: version 1.37
DBD::MySQL version 2.9002
28
Dùng Perl script tải về lấy tất cả các
trình tự có ACCESSION NUMBER
của hai gene RT-RNaseH và hsp-70
Từ khóa
Tách lấy
ACCESSION
NUMBER
NCBI
Toàn bộ thông tin về
trình tự gene hsp-70
và RT-RNaseH
Hình 3.1 Sơ đồ tóm tắt quá trình thu nhận trình tự
CGI.pm version 2.752
Các gói này đƣợc cài đặt thông qua ppm trong Perl.
3.2. Phƣơng pháp
3.2.1 Thu nhận trình tự
Trình tự nucleotide và protein của hai gene hsp-70 (heat sock protein 70)
và RT-RNaseH (Reverse transcriptase-RNaseH), dùng để tạo CSDL đƣợc thu nhận từ
trang CSDL NCBI. Sơ đồ tóm tắt quá trình thu nhận nhƣ sau:
Các bƣớc thực hiện tuần tự theo sơ đồ sau:
Từ khóa sử dụng là:
“Caulimovirus[ORGANISM]reverse transcriptase-RNaseH[GENE]”
“Badnavius[ORGANISM]reverse transcriptase-RNaseH[GENE]”
“Soymovirus[ORGANISM]reverse transcriptase-RNaseH[GENE]”
“Cavemovirus[ORGANISM]reverse transcriptase-RNaseH[GENE]”
29
Tách lấy tất cả các trình tự
Thực hiện sắp gióng cột từng cặp
trình tự gene (trên cùng loài)
tƣơng ứng
Sau đó ta xác định vị trí của gene
trong ORF hay genome thông qua
trình tự gene đã biết
Hình 3.2 Sơ đồ xác định gene trong ORF hay genome virus
Lƣu trữ các trình tự trên vào CSDL
Trình tự của gene RT-
RNaseH trong ORF hay
genome từ NCBI
Trình tự gene RT-RNaseH
đã biết đƣợc thu nhận từ
NCBI
Viết chƣơng trình Perl script để
tách lấy các gene đã đƣợc xác
định vị trí ở trên
“Tungrovirus[ORGANISM]reverse transcriptase-RNaseH[GENE]”
“Petuvirus[ORGANISM]reverse transcripte-RNaseH[GENE]”
“Ampelovirus[ORGANISM]hsp-70[GENE]”
“Closterovirus[ORGANISM]hsp-70[GENE]”
“Crinivirus [ORGANISM]hsp-70[GENE]”
3.2.2. Xác định gene và protein trong bộ gene virus
Sau khi khảo sát các mẫu tin về trình tự gene hsp-70 và RT-RNaseH trên hai
họ virus chúng tôi nhận thấy toàn bộ mẫu tin gene hsp-70 và chỉ có một số mẫu tin của
gene RT-RNaseH đƣợc xác định vị trí rõ trong ORF hay genome, nên chúng tôi chỉ cần
viết chƣơng trình perl script để tách chúng (thông qua vị trí đã biết). Còn đối với có
một số mẫu tin chứa gene RT-RNaseH chƣa biết vị trí chúng tôi tiến hành thu nhận
gene này theo sơ đồ sau:
30
Các bƣớc thực hiện
Bƣớc 1: thu nhận trình tự gene về gene RT-RNaseH đã biết và chƣa biết (các
mẫu tin chứa toàn bộ genome hay ORF).
Để xác định đƣợc vị trí của một gene trong các gene khác trong ORF hay
genome của virus, phải thông qua các trình gene đã biết thu nhận đƣợc.
Từ đó, thông qua trình tự gene đã biết này ta xác định vị trí của gene RT-
RNasH nằm trong genome hay nằm cùng với các gene trong ORF của virus.
Bƣớc 2: tách các trình tự gene trong các file text tải về từ NCBI có chứa gene
mong muốn, nằm cùng với các gene khác trong ORF hay genome. Các trình tự sau khi
rút trích đƣợc lƣu vào file dƣới dạng FASTA (Hình 3.3), đây là một trong những dạng
file mà ClustalW có thể nhận dạng đƣợc.
Bƣớc 3: thực hiện sắp gióng cột trình tự gene đã biết ở trên với trình tự
nuleotide trong ORF hay genome của virus, bằng công cụ ClustalW. Thông qua kết
quả của sắp gióng cột (Hình 3.4), ta có thể xác định vị trí của gene trong genome của
virus, do tính bảo tồn cao nên kết quả của sắp gióng cột có độ tƣơng đồng rất cao.
>AY186615
agccatattt caaagaaaaa tggactcggt attcaaaggg tgtgaaaaat tcctcgctgt
ttatattgat gatattctgg tattttctaa caatgaggaa gatcatgcaa aacacctgac
tatcatgcta caactgtgta aagaacatgg tcttgttctt tcacccacca agatgaatat
tgcagtcaaa gaagttaatt ttctcggagc tactattggc agcagaaaag taaagctcca
ggaaaatatt attaagaaga tccttgactt caatgaagaa aatcttcaat caaagaaggg
tcttcggtca ttcttgggaa ttctcaacta tgcccgaaat catattccta atctcgggaa
aatagctggt cctctttatt ctaagacttc cgtctatggt gatatcaggt tttcagcatc
tgattggaag cttattaaag agatcaaggc tattgtggag aagctcccac cgcttgatta
tccaccagag caagcataca tcattattga atctgatggc tgtatggat
>NC_007002
tggtgctgaa aagaaaggca aagaacgtct tgtcttcaat tataaaaggc ttaatgacaa
tactgaaaag gatcagtatt ccttacctgg gataaacaca atcatagcta gaatcagcca
ttcaaaaata tattctaaat ttgacttgaa gagcggtttt catcaagtag ctatggagga
ggaatctatc ccatggacgg ccttttgggc tattaacggg ttatacgaat ggctcgtaat
gccgtttggt ctgaagaacg cacctgccat atttcaacga aagatggaca actgcttccg
aggtacagaa aaatttatag ctgtttacat agatgatatt ctaatctttt cagatagcaa
ggaagcccat cgaacccatc tcagacaatt catcaccata tgtgaagaaa atgggctggt
actaagccca acgaagatga agataggagt ccaacaagtg gatttcttgg gtgcaaccat
tggcgattct aaagtaaggc ttcagcctca catagtcaaa aaagtgctag aaacaaagga
agaaagcctg tctgaaacga aggccttaag aagatggtta ggcatactca attatgccag
agcatatatt cctgatcttg gaaaaatcct aggtccctta tactcaaaaa cctcaggaaa
aggggagcga aaactcaatc accaagacat gaagataatt caccagatca aggaaaaggt
aaaaaatctc cctgaattag aggttcctcc accagagtcc atcatactaa ttgaaacaga
cggatgtatg gatggttggg gtggcatttg caaatggaag ttaaacaaag gggaaccccg
atccgctgaa aagatctgtg cttatgcaag tggacgtttc aaccccatca aaggagctat
tgacgctgaa atacaggctg ttatctacag tctagaaaaa tttaagatct actatcttga
caaaagggag cttattttaa gaactgacag caaggcaatt gtcaggttct acgaaaaatg
(…)
ttcagaacac aaaccctctc gtgtccgatg gatgactcta actgactaca tctcgggatg
cggagtcaag gtatattttg aacacatcga tggaaaagat aatacacttg cagacgaact
atcacgactt gttcaagcaa ttctcatcaa caaagaagaa tctcctataa tactatctct
aatcaaagca acaacggagg tattacaaaa ggaaaatcct atttccagga gtagattagc
tctatgcatt tccagagcac tgg taacaa atatcaagtc aatttcatga cttgggaaca
accccagctg aagtgtgcct gtggagaaaa tgccgtactc cttacttcac ataccagccg
aaatccag a cggag ttct atagatgtgg taccaaca t tgtcatgta ggtactgg c
tgatctaatc gaagattata ttgcgcaact tagcaatctt cagaatcttg actcaggaca
(…)
agcagatgat gaaggatggg cctatcaaac agaagatctg atcaacccag aagatctggc
caactccgac atagacgacc ctccagaaga ctcaggacta ttccaccgac atgatgacta
aggcggacgt ggtggaccca gcaataatta aggaatccaa ttccttactt caccaggttc
attattaaag agcctttaca gctcataccc ttattaataa tgttggtgct tgtactattg
(…)
Hình 3.3 Định dạng FASTA để thự hiện sắp gióng cột h i trình tự
31
Từ các thông số hiển thị trong bản kết quả của ClustalW ta có thể xác định vị
trí của gene thông qua các vị trí đƣợc biết này ta viết chƣơng trình Perl script để tách
lấy trình tự gene mong muốn. Sau đó các trình tự này đƣợc đƣa vào CSDL
Khi thu nhận mẫu tin trình tự gene thì chúng đồng thời chứa luôn trình tự
protein của gene đó. Nên chúng tôi tiến hành thu nhận trình tự protein với các bƣớc đã
đƣợc thực hiện để thu nhận đƣợc một trình tự gene.
(…)
NC_007002 GCCGTTTGGTCTGAAGAACGCACCTGCCATATTTCAACGAAAGATGGACAACTGCTTCCG
AY186615 ------------------------AGCCATATTTCAAAGAAAAATGGACTCGGTATTCAA
************ **** ****** ***
NC_007002 AGGTACAGAAAAATTTATAGCTGTTTACATAGATGATATTCTAATCTTTTCAGATAGCAA
AY186615 AGGGTGTGAAAAATTCCTCGCTGTTTATATTGATGATATTCTGGTATTTTCTAACAATGA
*** ******** * ******** ** *********** * ***** * * *
NC_007002 GGAAGCCCATCGAACCCATCTCAG-ACAATTCATCACCATATGTGAAGAAAATGGGCTGG
AY186615 GGAAGATCATGCAAAACACCTGACTATCATGCTACAAC-TGTGTAAAGAACATGGTCTTG
***** *** ** ** ** * * ** * ** * * *** ***** **** ** *
NC_007002 TACTAAGCCCAACGAAGATGAAGATAGGAGTCCAACAAGTGGATTTCTTGGGTGCAACCA
AY186615 TTCTTTCACCCACCAAGATGAATATTGCAGTCAAAGAAGTTAATTTTCTCGGAGCTACTA
* ** ** ** ******** ** * **** ** **** **** * ** ** ** *
NC_007002 TTGGCGATTCTAAAGTAAGGCTTCAGCCTCACATAGTCAAAAAAGTGCTAGAAACAAAGG
AY186615 TTGGCAGCAGAAAAGTAAAGCTCCAGGAAAATATTATTAAGAAGATCCTTGACTTCAATG
***** ******* *** *** * ** * ** ** * ** ** ** *
NC_007002 AAGAAAGCCTGTCTGAAACGAAGGCCTTAAGAAGATGGTTAGGCATACTCAATTATGCCA
AY186615 AAGAAAATCTTCAATCAAAGAAGGGTCTTCGGTCATTCTTGGGAATTCTCAACTATGCCC
****** ** ** ***** * * ** ** ** ** ***** ******
NC_007002 GAGCATATATTCCTGATCTTGGAAAAATCCTAGGTCCCTTATACTCAAAAACCTCAGGAA
AY186615 GAAATCATATTCCTAATCTCGGGAAAATAGCTGGTCCTCTTTATTCTAAGACTTCCGTCT
** ******** **** ** ***** ***** * ** ** ** ** ** *
NC_007002 AAGGGGA-GCGAAAACTCAATCACCAAGACATGAAGATAATTCACCAGATCAAGGAAAAG
AY186615 ATGGTGATATCAGGTTTTCAGCATCT-GATTGGAAGCTTATTAAAGAGATCAAGGCTATT
* ** ** * * * ** * ** **** * *** * ********* *
NC_007002 GTAAAAAATCTCCCTGAATTAGAGGTTCCTCCACCAGAGTCCATCATACTAATTGAAACA
AY186615 GTGGAGAAGCTCCCACCGCTTGATTATCCACCAGAGCAAGCATACATCATTATTGAATCT
** * ** ***** * ** *** *** * * *** * ****** *
NC_007002 GACGGATGTATGGATGGTTGGGGTGGCATTTGCAAATGGAAGTTAAACAAAGGGGAACCC
AY186615 GATGGCTGTATGGAT---------------------------------------------
** ** *********
(…)
Hình 3.4 Kết quả sắp gióng cột cặp trình tự gene RT-RNaseH (đã biết vị trí) với RT-
RNaseH trong ORF hay genome của virus
32
3.2.3. Thiết kế CSDL trình tự gene và protein hsp-70 và RT-RNaseH
3.2.3.1. phân tích dữ liệu
Các yêu cầu của dữ liệu
Dữ liệu về trình tự nucleotide của gene hsp-70 và RT-RNaseH gồm có hai
thực thể chính cần quan tâm: là Trình tự (Sequence) và Sinh vật (Organism). Nhƣ vậy,
ta có thể xác định đƣợc sơ đồ đối tƣợng nhƣ sau:
Đối tƣợng sinh vật cung cấp các thông tin về:
Tên sinh vật trong hai họ virus là Caulimoviridae và Closteroviridae.
Ký chủ nhạy cảm.
Ký chủ không nhạy cảm
Ký chủ trung gian.
Hình thể.
Đặc tính hóa lý và vật lý.
Vùng phân bố địa lý
Nucleic acid
Protein
Phƣơng pháp chẩn đoán.
CSDL tham khảo của sinh vật nhƣ accession number, họ,…
Đối tƣợng trình tự cung cấp các thông tin về:
Trình tự các gene hsp-70 và RT-RNaseH.
Trình tự các protein HSP-70 và RT-RNaseH tƣơng ứng với các trình tự
nucleotide nói trên.
Tên của các trình tự nucleotide và protein trên.
Chiều dài của gene hsp-70 và RT-RNaseH.
CSDL tham khảo của trình tự tác giả, bài báo,…
Sinh vật Trình tự
có
Hình 3.5 Sơ đồ các đối tƣợng của CSDL gene hsp-70 và RT-RNaseH
33
Xác định các đối tƣợng phụ
Đối tƣợng Sinh vật (Organism):
Các đối tƣợng phụ dựa trên thực thể Sinh vật đƣợc liệt kê trong bảng 3.1.
Mối quan hệ của các đối tƣợng này là: một sinh vật có thể có nhiều gene,
protein (mỗi trình tự thì chỉ có một số accession number) và một sinh vật có những đặc
điểm (sinh lý sinh hóa, vùng phân bố,…) riêng biệt.
Bảng 3.1 Các đối tƣợng phụ dựa trên đối tƣợng chính Sinh vật (Organism)
Tên đối
tƣợng
Ý nghĩa của
đối tƣợng
Thuộc tính Ý nghĩa của thuộc tính
Organism
Chứa các đặc
điểm về các
loài trong họ
Organism_name Chứa tên của các loài trong họ
Morphology Hình thể của virus
Physicochemical_and_ph
ysical properties
Chứa các đặc tính hóa lý và
vật lý
Nucleic acid
Mô tả về trạng thái DNA và
kích thƣớc genome
Protein
Chứa sự mã hóa của virus cho
các protein
Symptom_and_host
Chứa các triệu chứng virus
gây ra cho ký chủ
Susceptible_host Ký chủ nhạy cảm
Insusceptible_host Ký chủ không nhạy cảm
Transmission Ký chủ trung gian
Geographic_distribution Chứa vùng phân bố của virus
Diagnostic_and_method Phƣơng pháp chuẩn đoán
Char
Chứa các
thông tin về
quan hệ họ
hàng
Family Chứa họ virus
genus Giống
species Loài
RNA_stage Trạng thái RNA
Acc
Chứa số truy
cập trên
NCBI
Acc_no Các số truy cập
34
Đối tƣợng trình tự (Sequence)
Các đối tƣợng dựa trên thực thể Sequence đƣợc liệt kê trong bảng 3.2
Mối quan hệ của các đối tƣợng này là một trình tự của đối tƣợng Sequence
chỉ có một số accession number, một thông tin chung về trình tự đó. Nhƣng một trình
tự có một hay nhiều tác giả cũng nhƣ một hay nhiều bài báo về trình tự đó.
Bảng 3.2 Các đối tƣợng phụ dựa trên đối tƣợng chính Trình tự (Sequence)
3.2.3.2. Thiết kế CSDL dạng bảng
Theo các mô tả trong mô hình đối tƣợng, ta chuyển từ mô hình đối tƣợng
sang mô hình quan hệ nhƣ sau:
Mỗi đối tƣợng trong mô hình đối tƣợng là một quan hệ trong mô
hình quan hệ.
Mỗi thuộc tính trong mô hình đối tƣợng là thuộc tính trên quan
hệ tƣơng ứng.
Khóa của đối tƣợng là khóa của quan hệ tƣơng ứng.
Tên đối
tƣợng
Ý nghĩa của đối tƣợng Thuộc tính Ý nghĩa của thuộc tính
Gen_seq Chứa trình tự nucleotide
Gen_name Chứa tên trình tự nucleotide
Gen_seq Chứa trình tự nucleotide
Length Chứa chiều dài của gene
Pro_seq Chứa trình tự protein
Pro_name Chứa tên protein
Pro_seq Chứa trình tự protein
Accession
number
Chứa số truy cập của
các trình tự trong CSDL
Acc_no Là các số truy cập
NCBI
Các thông tin chung cho
trình tự
Definition Định nghĩa của trình tự
Locus Locus của trình tự
Pubday Ngày công bố trình tự
Author
Các thông tin về tác giả
giải trình tự và những
bài báo của tác giả về
các trình tự đó
Author Tác giả của trình tự
Paper
Bài báo của tác giả về trình
tự
35
Tạo các quan hệ nhƣ sau:
1:1 đặt khóa chính của quan hệ thứ nhất thành khóa ngoại của
quan hệ thứ hai và ngƣợc lại.
1: n đặt khóa chính của quan hệ ở đầu một thành khóa ngoại
của quan hệ ở đầu n.
Ta có các bảng quan hệ và sơ đồ chi tiết của các bảng quan hệ (hình 3.7)
này nhƣ sau:
organism_table(organism_id, organism_name, morphology,
physicochemical, nucleic_acid, protein, symptom_and_host_range,
susceptible_host, insusceptible_host, transmission,
geographic_distribution, diagnostic_and_method).
char_table (char_id, family, genus, species, RNA_stage, organism_id)
acc_table (acc_id, acc_no, organism_id)
gen_seq (gen_id, gen_name, gen_seq, length, acc_id)
pro_table (pro_id, pro_name, pro_seq, acc_id)
ncbi_table (ncbi_id, definition, pubday, locus, acc_id)
author_table (author_id, author_name, paper, ncbi_id)
Sau khi có các bảng quan hệ, ta thực hiện thiết kế các bảng này ở mức vật lý,
nghĩa là đƣa vào hệ quản trị CSDL quan hệ MySQL bằng các ngôn ngữ truy vấn SQL
nhƣ tạo CSDL, tạo bảng,…
3.2.3.3. Lƣu trữ các thông tin vào CSDL
Sau khi CSDL đƣợc thiết kế ở mức vật lý, ta thực hiện việc đƣa các dữ liệu
vào CSDL. Công việc này đƣợc thực hiện tự động cùng một lúc tất cả các quan hệ
bằng Perl script và thông qua hai gói DBI, DBD::MySQL để kết nối với CSDL. Tuy
nhiên, để việc trình bày này đƣợc mạch lạc rõ ràng, chúng tôi chia ra thành từng phần
nhƣ sau:
o Lƣu trữ các trình tự (chỉ có chứa trình tự gene và protein hsp-70 và RT-
RNaseH), thông tin chung, tác giả, bài báo, definition, locus, tên sinh
vật,…(các thành phần này đã có trong mẫu tin của NCBI).
o Lƣu trữ các đoạn gene và protein RT-RNaseH, mà chúng nằm trong bộ
genome hay các gene khác trong ORF (dữ liệu của phần này cần đƣợc
xác định qua nhiều bƣớc và đã đƣợc trình bày ở phần 3.2.2) và các thông
36
tin khác (ký chủ, vùng phân bố, triệu chứng,…) đƣợc tham khảo và thu
nhận từ các trang web trên Internet [21, 22].
Lƣu trữ các trình tự, thông tin chung, tác giả và bài báo,…
Một mẫu tin về trình tự gene hsp-70 hay RT-RNaseH đƣợc trình bày nhƣ
hình 4.2 ta có thể rút trích các thông tin để đƣa vào CSDL.
Trong phần LOCUS: ta lấy phần đầu “SPO010920“ cho vào trƣờng
locus trong bảng ncbi_table, phần ngày tháng “02-MAR-2000 “ ta cho vào
trƣờng pubday cũng trong bảng ncbi_table.
Trong phần DEFINITION: lấy toàn bộ phần này cho vào trƣờng
definition trong bảng ncbi_table.
Phần ACCESSION: lấy số truy cập này cho vào trƣờng acc_no của bảng
acc_table.
Phần ORGANISM: tách lấy các phần tên loài, họ, giống và RNA_stage.
Phần AUTHOR, TITLE: lần lƣợt cho vào trƣờng author, paper của bảng
author_table
Phần gene:lấy độ dài của đoạn gene.
Phần note: lấy tên của gene.
Phần product: lấy tên protein.
Phần translation: cho vào trƣờng pro_seq của bảng pro_table.
Phần ORIGIN: cho vào trƣờng gen_seq của bảng gen_table.
Lƣu trữ các thông tin gen, protein, morphylogy,…
Tất cả các trình tự gene, protein đƣợc xác định trong mục 3.2.2 đƣợc đƣa
tự động vào CSDL gen_seq và pro_seq bằng Perl script. Đồng thời các dữ liệu về
morphology, triệu chứng,… cũng đƣợc đƣa vào CSDL tự động bằng Perl script hay
bằng các thao tác bằng tay. Gồm có các thông tin sau:
Trình tự gene và protein của virus có số ACCESSION tƣơng ứng.
Độ dài của gene.
Các đặc điểm sinh lý, sinh hóa, hình thể, vùng phân bố,…
Do quan hệ của các bảng đƣợc xác định ngay từ đầu, nên việc đƣa dữ liệu vào
phải đƣợc thực hiện tuần tự nhƣ sau:
Đầu tiên là đƣa vào bảng organism_table
Rồi lần lƣợt đến acc_table, gen_table, pro_table, char_table.
Cuối cùng vào các bảng ncbi_table, author_table.
37
3.2.4. Tích hợp CSDL gene hsp-70 và RT-RNaseH với trang Web
Nhằm mục đích cung cấp giao diện cho ngƣời sử dụng truy xuất thông tin,
chia sẽ CSDL trực tuyến, CSDL gene và protein hsp-70 và RT-RNaseH đƣợc tích hợp
với Web bằng giao thức CGI. Bên cạnh đó, việc tích hợp với web cũng nhằm cung cấp
một vài công cụ phân tích trình tự sinh học để hổ trợ cho việc truy xuất thông tin tốt
hơn.
Tiến trình ngƣời sử dụng lấy thông tin từ CSDL về hai gene trên đƣợc thực
hiện ở hình 3.6, gồm các bƣớc nhƣ sau:
Thông qua giao thức truyền siêu văn bản HTTP, trình chủ web Apache
nhận thông tin từ yêu cầu trình duyệt, sau đó sử lý và chuyển đến script
CGI.
Từ yêu cầu đƣa vào, sử dụng ngôn ngữ truy vấn SQL và các hàm trong
module DBI, DBD::MySQL để lấy kết quả trong CSDL của hai gene trên.
Kết quả đƣợc script CGI chuyển đến trình chủ Apache. Sau đó Apache
chuyển thông tin kết quả lên trình duyệt của ngƣời sử dụng.
CSDL
hai GEN
Trình chủ web Apache
* Nhận và xử lý yêu
cầu
* Tƣơng tác CSDL
* Trả kết quả
PERL
DBI, CGI
DBD::MySQ
L
Kết quả
Yêu cầu
Trình duyệt client
Hình 3.6 Tiến trình lấy thông tin từ CSDL hai gene ở hai loài virus
38
gen_table
gen_id
gen_name
gen_seq
length
acc_id
acc_table
acc_id
acc_no
organism_id
organism_table
organism_id
organism_name
morphology
physicochemical
nucleic_acid
protein
symptom_and_host
susceptible_host
insusceptible_host
transmission
geographic_distribution
diagnostic_and_method
ncbi_table
ncbi_id
definition
pubday
locus
acc_id
pro_table
pro_id
pro_name
pro_seq
acc_id
author_table
author_id
author
paper
ncbi_id
char_table
char_id
family
genus
species
RNA_stage
organism_id
1
Hình 3.7 Sơ đồ chi tiết các bảng quan hệ trong
CSDL hai gene và protein hsp-70 và RT-RNaseH
ở hai họ virus Caulimoviridae và Closteroviridae
pk: primary key
fk: foreign key
1
1
1 n
1
1
1
AY
99
55
66
Ci
tr
us
tr
is
te
za
vi
ru
s
is
ol
at
e
46
4-
2
p6
,
Hs
p7
0h
,
p6
1,
CP
m,
CP
,
p1
8,
p1
3,
p2
0,
an
d
p2
3
ge
ns
,
co
mp
le
te
cd
1
1
1
1
39
PHẦN 4
KẾT QUẢ VÀ THẢO LUẬN
4.1. Kết quả thu nhận trình tự của hai họ Closteroviridae và Caulimoviridae
Khi sử dụng các từ khóa và phƣơng pháp nhƣ ở mục 3.2 (phần phƣơng pháp
và chƣơng trình sử dụng). Chúng tôi đã thu nhận đƣợc 7 file gồm:
Thu 3 file chứa ACCESSION NUMBER và dòng định nghĩa về loài và gene
hsp-70 tƣơng ứng cho 3 giống trong họ Closteroviridae.
Thu 4 file chứa ACCESSION NUMBER và dòng định nghĩa về loài và gene
Reverse transcriptase-RNaseH tƣơng ứng cho 4 giống trong họ Caulimoviridae.
Ví dụ, một file của giống Crinivirus chứa bảng danh sách các ACCESSION
NUMBER và dòng định nghĩa về loài và gene hsp-70 trong giống nhƣ sau:
Sau khi thu đƣợc các file chứa số ACCESSION NUMBER cùng với dòng định
nghĩa ngắn ngọn nhƣ trên, chúng tôi tiến hành chạy chƣơng trình perl script (đƣợc viết
dựa trên ngôn ngữ lập trình perl để phục vụ cho việc tải mẫu tin chứa ACCESSION
NUMBER có trong file) trên mạng Internet để tải thông tin, kết quả chúng tôi thu đƣợc
hơn 300 các mẫu tin có số ACCESION NUMBER và dòng định nghĩa chứa trong 7
file trên.
Ví dụ, một mẫu tin có số ACCESSION NUMBER AJ010920 sau khi chạy
chƣơng trình perl script thu đƣợc mẫu tin trên NCBI có dạng nhƣ sau:
Hình 4.1 File chứa ACCESSION NUMBER và dòng định nghĩa của giống Crinivirus
1: AJ344213
Tomato infectious chlorosis virus partial HSP70 gene for heat shock protein
70,
genomic RNA, isolate Gr/P1
gi|17976838|emb|AJ344213.1|TIN344213[17976838]
2: AJ010920
Sweet potato chlorotic stunt virus mRNA for heat shock protein 70, isolate
S1EA-19a, partial
gi|3560042|emb|AJ010920.1|SPO010920[3560042]
3: AY048854
Tomato chlorosis virus Sicily heat shock protein 70 gene, partial cds
gi|15292654|gb|AY048854.1|[15292654]
(…)
4: AJ010921
Sweet potato chlorotic stunt virus mRNA for heat shock protein 70, isolate
S2EA-4a, partial
gi|3560044|emb|AJ010921.1|SPO010921[3560044]
(…)
20: AY048855
Tomato infectious chlorosis virus Liguria heat shock protein 70 gene,
partial cds
gi|15292656|gb|AY048855.1|[15292656] (…)
40
LOCUS SPO010920 486 bp mRNA linear VRL 02-MAR-2000
DEFINITION Sweet potato chlorotic stunt virus mRNA for heat shock protein 70,
isolate S1EA-19a, partial.
ACCESSION AJ010920
VERSION AJ010920.1 GI:3560042
KEYWORDS heat shock protein 70; hsp70 gene; HSP70 protein.
SOURCE Sweet potato chlorotic stunt virus
ORGANISM Sweet potato chlorotic stunt virus
Viruses; ssRNA positive-strand viruses, no DNA stage;
Closteroviridae; Crinivirus.
REFERENCE 1
AUTHORS Alicai,T., Fenby,N.S., Gibson,R.W., Adipala,E., Vetten,J.H.,
Foster,G.D. and Seal,S.
TITLE Occurence of two serotypes of sweet potato chlorotic stunt virus in
East Africa and their associated differences in coat protein and
HSP70 homologue gene sequences
JOURNAL Plant Pathol. 48, 718-726 (1999)
REFERENCE 2 (bases 1 to 486)
AUTHORS Fenby,N.S.
TITLE Direct Submission
JOURNAL Submitted (28-AUG-1998) Fenby N.S., Department of Biology, Bristol
University, Woodland Road, Bristol, BS8 1UG, U.K
FEATURES Location/Qualifiers
source 1..486
/organism="Sweet potato chlorotic stunt virus"
/mol_type="mRNA"
/isolate="S1EA-19a"
/db_xref="taxon:81931"
gene 1..486
/gene="hsp70"
CDS 486
/gene="hsp70"
/codon_start=2
/product="heat shock protein 70 (HSP70)"
/protein_id="CAA09397.1"
/db_xref="GI:3560043"
/db_xref="GOA:Q9YIR1"
/db_xref="UniProt/TrEMBL:Q9YIR1"
/translation="SAYVGGTMKVLRINGSEFIPTCLSVTATGDVVVGGAAQVLDSSQ
PHCYFYDLKRWVGVDRLSFEEIKRKISPQYTVRLEGNDVLITGISKGFSCTYTVK
QLYVDTLVRLFSNVEKLKILSLNVSVPADYKTKQRMFMKSVCESLGFPLRRIINE
PSAA"
ORIGIN
1 atcggcgtat gttggtggta cgatgaaggt ccttagaata aacgggtcgg agtttattcc
61 cacctgttta tctgtcacgg ctacaggcga cgtggttgtt ggtggggctg cccaggtttt
121 ggattcttcg cagttacccc attgctattt ctatgactta aaacgttggg ttggcgttga
181 taggttgtcc tttgaagaaa taaaacgtaa gatatcccca cagtatacgg tcagattgga
241 aggtaatgat gtgctaataa caggaatctc gaaggggttc tcttgtacat atactgtgaa
301 acagctcatt cttctctatg ttgacacctt ggtcagacta ttctcaaatg ttgaaaagct
361 gaagattctg agtttaaatg tgtcagttcc cgcagattac aaaaccaagc aacggatgtt
421 tatgaaatca gtttgtgagt cgctcggttt tccattgaga aggatcataa acgagccttc
481 tgctgc
//
Hình 4.2 Mẫu tin về gene hsp-70 của Sweet potato chlorotic stunt virus trên NCBI
41
Khi tiến hành khảo sát thu nhận trình tự bằng các từ khóa và nhƣ phƣơng pháp
phần 3.2.1, ở các giống thuộc họ Caulimoviridae chúng tôi chỉ nhận đƣợc 4 giống
(Caulimovirus, Soymovirus, Badnavirus và Petuvirus) có trình tự gene RT-RNaseH
đƣợc đăng tải trên NCBI. Còn hai giống còn lại (Tungrovirus và Cavemovirus) thì
không thu nhận đƣợc mẫu tin về gene RT-RnasH của hai giống này đăng tải.
Trong 4 giống (Caulimovirus, Soymovirus, Badnavirus và Petuvirus) ở
Caulimoviridae và 3 giống (Ampelovirus, Crinivirus và Closterovirus) ở
Closteroviridae khi sử dụng các từ khóa và phƣơng pháp này, chúng tôi nhận đƣợc hầu
hết các loài trong giống có chứa hai gene này. Vì trong quá trình tìm kiếm chúng tôi
tiến hành kiểm tra các mẫu tin thu nhận đƣợc bằng cách lấy trình tự gene trên để thức
hiện BLAST với tất cả các sinh vật trong CSDL nucleotide của NCBI, kết quả BLAST
không hoặc rất ít xuất hiện loài nào thuộc hai họ mà chúng tôi chƣa thu nhận. Tuy
nhiên, cũng thông qua BLAST thì chúng tôi nhận thấy các từ khóa đƣợc sử dụng vẫn
chƣa hoàn toàn đầy đủ, để có thể nhận đƣợc hoàn toàn gene hsp-70 và RT-RNaseH
trong hai họ, nên cần có sự kiểm tra lại bằng cách lấy một đoạn gene hsp-70 hay RT-
RNaseH rồi thực hiện BLAST trên NCBI.
4.2. Kết quả thu nhận trình tƣ hai gene hsp-70 và RT-RNaseH
Sau khi tải trên Internet chúng tôi thu nhận đƣợc:
125 gene hsp-70 của Closteroviridae đã biết.
215 gene RT-RNaseH của Caulimoviridae
Trong đó:
o Gene RT-RNaseH chỉ có 180 gene đã biết còn 35 gene lại nằm chung
với các gene khác trong ORF hay trong genome.
Vì có các gene RT-RNaseH nằm trong ORF hay genome nên chúng tôi tiến hành
thu nhận gene này bằng phƣơng pháp đƣợc mô tả nhƣ ở phần 3.2.2. Kết quả chúng tôi
thu nhận đƣợc 35 gene RT-RNaseH còn lại.
Ví dụ: mô hình xác định gene RT-RNaseH ở Caulimoviridae theo sơ đồ sau:
Alignment Thu nhận đƣợc vị trí gene RT-
RNaseH trong ORF5, rồi dùng
perl script tách ra.
Hình 4.3 Mô hình thu nhận gene RT-RNaseH trong ORF5 của CMV
Gene RT-RNaseH
Gene RT-RNaseH nằm trong ORF5
42
Khi tiến hành khảo sát thu nhận trình tự trên NCBI, chúng tôi nhận đƣợc chiều
dài của hai gene có sự giao động lớn, do các phƣơng pháp và mục tiêu giải trình tự
khác nhau nên kết quả đăng tải trình tự về hai gene này có sự giao động khoảng từ 409
đến 2200 bp. Nhƣ phƣơng pháp thu nhận trình tự ở phần 3.2.2, chúng tôi chỉ tiến hành
sắp gióng cột dựa vào một trình tự gene RT-RNaseH đã biết chiều dài để tách lấy trình
tự gene RT-RNaseH nằm cùng với các gene khác hay genome của virus nên chỉ thu
đƣợc một đoạn nhất định của gene này. Tuy nhiên, với mụch đích xây dựng CSDL
phục vụ cho việc thiết kế primer để phân biệt giữa các loài nên có thể chấp nhận đƣợc.
Việc dựa vào sự bảo tồn của gene RT-RNaseH để thực hiện sắp gióng cột nên độ chính
xác của phƣơng pháp này không cao. Chỉ rất ít loài trong họ Caulimoviridae gene
Reverse transcriptase đƣợc xác định chính xác, còn lại hầu hết nó nằm chung với gene
RNaseH, nên chúng tôi chƣa có đủ các thông tin để tách riêng chúng ra đƣợc nên trong
CSDL chứa cả gene RT và RNaseH.
4.3. CSDL trình tự gene hsp-70 và RT-RNaseH
Nhờ sự phát triển của kỹ thuật giải trình tự, một số lƣợng lớn các gene hsp-70
và RT-RNaseH đã đƣợc giải trình tự. Những trình tự gene này đƣợc lƣu trữ trong
CSDL sinh học lớn nhƣ NCBI, EMBL, DDBj, … Vì các CSDL này quá lớn và chứa
rất nhiều thông tin khác nhau, không tập trung thành từng gene cụ thể nên khó có thể
thực hiện việc truy xuất các thông tin phục vụ trực tiếp cho một nghiên cứu chuyên
biệt. Do vậy, chúng tôi đã tập hợp các trình tự gene hsp-70 (của Closteroviridae) và
RT-RNaseH (của Caulimoviridae). Để xây dựng CSDL riêng cho hai gene này. Đồng
thời xác định các loài trong họ có chứa hai gene trên.
Về sinh vật
CSDL lƣu trữ hai họ, 7 giống, 56 loài. Số lƣợng trình tự thu nhận ở bảng 4.1.
Về trình tự
CSDL gene hsp-70 và RT-RNaseH gồm 325 trình tự (hsp-70 và RT-RNaseH),
kết quả chi tiết ở bảng III.3.2. và III.3.3. CSDL gene này đƣợc phân chia thành hai
nhóm trình tự hsp-70 thuộc Closteroviridae và RT-RNaseH thuộc Caulimoviridae,
tƣơng ứng với mỗi gene có thông tin về protein tƣơng ứng.
43
Bảng 4.1 Tổng số trình tự trong CSDL gene hsp-70 và RT-RNaseH
Họ Số trình tự gene Số trình tự protein
Closteroviridae 125 125
Caulimoviridae 200 200
Bảng 4.2 Số trình tự gene hsp-70
Họ Genus Species Số trình tự
Closteroviridae
Ampelovirus
Grapevine leafroll-associated virus 1 45
Grapevine leafroll-associated virus 3 16
Grapevine leafroll-associated virus 9 2
Closterovirus
Beet yellows virus 3
Apricot stem pitting asso 3
Mint virus 1 4
Citrus tristeza virus 6
Little cherry virus 1 2
Grapevine leafroll-associated virus 2 2
Crinivirus
Sweet potato chlorotic stunt virus 16
Cucurbit yellow stunting disorder
virus
3
Tomato infectious chlorosis virus 9
Potato yellow vein virus 7
Tomato chlorosis virus 4
Beet pseudo-yellows virus 3
Tổng số trinh tự 125
Tƣơng tự, số trình tự về protein của họ Closteroviridae cũng thu nhận đƣợc với
số lƣợng tƣơng ứng với gene hsp-70 (mỗi trình tự điều có một trình tự protein tƣơng
ứng trong CSDL).
Bảng 4.3 Số trình tự gene RT-RNaseH
Họ Genus Species Số trình tự
Caulimoviridae Badnavirus
Banana streak Obino l'Ewai virus 13
Banana streak Goldfinger virus 10
Banana streak Imove virus 8
44
Banana streak Uganda A virus 11
Banana streak Uganda B virus 2
Banana streak Uganda C virus 1
Banana streak Uganda D virus 2
Banana streak Uganda E virus 3
Banana streak Uganda F virus 2
Banana streak Uganda G virus 2
Banana streak Uganda H virus 2
Banana streak Uganda I virus 26
Banana streak Uganda J virus 4
Banana streak Uganda K virus 4
Banana streak Uganda L virus 20
Banana streak Uganda M virus 32
Banana streak virus 1
Rubus yellow net virus 2
Stilbocarpa mosaic bacilliform
virus
1
Banana streak OL virus 2
Taro bacilliform virus 9
Citrus yellow mosaic virus 2
Bougainvillea spectabilis chlorotic
vein-banding virus
1
Pineapple bacilliform virus 1
Sugarcane bacilliform virus 1
Cacao swollen shoot virus 5
Kalanchoe top-spotting virus 1
Banana streak GF virus 1
45
Banana streak virus strain
Acuminata Vietnam
1
Banana streak Mys virus 1
Caulimovirus
Cauliflower mosaic virus 8
Blueberry red ringspot virus 2
Dahlia mosaic virus 2
Carnation etched ring virus 2
Horseradish latent virus 1
Peanut chlorotic streak virus 2
Cassava vein mosaic virus 2
Figwort mosaic virus 2
Petuvirus Petunia vein clearing virus 4
Soymovirus
Peanut chlorotic streak virus 2
Soybean chlorotic mottle virus 2
Tổng số trình tự 200
Trong CSDL chứa hai đối tƣợng chính thì còn chứa đối tƣợng phụ nhằm cung
cấp các thông tin khác để bổ sung cho hai đối tƣợng chính nhƣ: tên tác giả, tên bài báo,
cây phân loài,…
CSDL về hai gene hsp-70 và RT-RNaseH, rất tiện ích cho việc truy xuất, nghiên
cứu các thông tin liên quan đến trình tự DNA, protein, loài, các đặc trƣng của từng loài
chứa hai gene này, tiết kiệm thời gian tìm hiểu, nắm bắt thông tin nhanh. CSDL này
đƣợc xây dựng trên hai gene khá bảo tồn ở hai loài nên chúng ta có thể dựa vào các
thông tin trong CSDL để nghiên cứu các hiện tƣợng biến chủng trong họ, giúp đƣa ra
các kết luận chính xác về các biến chủng xảy ra ở trên hai gene này. Nhƣng CSDL
nhỏ, chỉ có 325 trình tự gene hsp-70 và RT-RNaseH ở hai họ virus, chứa lƣợng thông
tin ít và chƣa có chế độ bảo mật. Ở cấp độ phòng thí nghiệm, cơ quan nghiên cứu hay
trƣờng đại học thì việc xây dựng CSDL cho từng đối tƣợng (về một gene, một sinh
vật,…) thì rất tiện ích để phục vụ cho các nghiên cứu về một đối tƣợng nhất định.
46
4.4. Trang web thể hiện thông tin CSDL gene hsp-70 và RT-RNaseH
Cấu trúc của các trang web CSDL gene hsp-70 và RT-RNaseH thể hiện ở hình (4.4)
Hsp-70 and RT-RNaseH gene
DATABASE WEB PAGE
HOME PAGE SEARCH PAGE TOOL PAGE TAXONOMY PAGE ABOUT PAGE LINK PAGE
ACCESSION
NUMBER(s)
ORGANISM
ALIGNMENT CAULIMOVIRDAE
CLOSTEROVIRIDAE
BIOTECH.
Dep.
BLAST
Hình 4.4 Sơ đồ cấu trúc của trang web CSDL gene hsp-70 và RT-RNaseH
46
47
4.4.1. Trang thông tin chung về CSDL gene hsp-70 và RT-RNaseH
(HOME PAGE)
Nội dung trang web: cung cấp thông tin về các giống, loài trong họ, trình tự
của từng loài, kiểm tra độ tƣơng đồng về trình tự (nucleotide và protein) giữa
các loài trong họ thông qua công cụ Alignment.
Hình thức thể hiện: Hình 4.5
4.4.2. Trang tìm kiếm (SEARCH PAGE)
Nội dung của trang web: cho phép ngƣời dùng tìm kiếm trình tự gene
hay protein có trong CSDL gene hsp-70 và RT-RNaseH. Trong trang này gồm
có hai thanh công cụ tìm kiếm. Tìm kiếm khi biết ACCESSION NUMBER,
hai là khi biết tên của loài trong họ.
Hình 4.5 Trang HOME PAGE
48
Hình thức thể hiện:
Với trang tìm kiếm khi biết ACCESSION NUMBER(s)
o Khi biết ACCESSION NUMBER (số truy cập của CDSL GenBank),
ngƣời ta dùng có thể nhập một hoặc nhiều mã số này, để tìm các trình
tự nucleotide, protein,… có mã số tƣơng ứng (Hình 4.6).
o Ngƣời dùng có thể tùy chọn các phần sẽ hiện thị trong kết quả tìm
kiếm, ví dụ ngƣời dùng có thể tùy chọn các phần cần thông tin cần
tìm và kết quả sẽ hiển thị sau khi thực hiện lệnh SEARCH là trình tự
protein, gene và cả phần định nghĩa, tác giả, ngày xuất bản, tựa đề
của bài báo,… của trình tự gene hsp-70 và RT-RNaseH (Hình 4.7).
Hình 4.6 Trang tìm kiếm trình tự khi biết ACCESSION NUMBER
49
Với trang tìm kiếm khi biết tên của loài.
o Khi biết tên của sinh vật, chúng ta có thể nhập tên của nó vào trong
thanh ORGANISM(s). để tìm sinh vật đó trong CSDL (phụ lục).
o Ngƣời dùng có thể tùy chọn các phần sẽ hiển thị trong kết quả tìm
kiếm, ví dụ ngƣời dùng có thể tùy chọn phần hiển thị nhƣ là loài,
giống, vùng phân bố, đặc tính sinh lý,… của sinh vật đó (phụ lục).
4.4.3. Trang công cụ (TOOL PAGE)
Sắp gióng cột (alignment) hai hay nhiều trình tự là một công cụ khá thông
dụng để khảo sát sự tƣơng đồng, đột biến, nghiên cứu chức năng của gene. Mặc khác
để tìm trình tự tƣơng đồng với một trình tự quan tâm, các nhà sinh học thƣờng sử dụng
Hình 4.7 Trang kết quả tìm kiếm trình tự khi biết ACCESION NUMBER
50
công cụ BLAST. Do nhu cầu đó, chúng tôi đã tích hợp hai công cụ này vào trang web
CSDL gene hsp-70 và RT-RNaseH.
Nội dung trang web: trang này cung cấp hai công cụ chủ yếu để phân tích
trình tự sinh học, đó là sắp gióng cột (alignment) và tìm kiếm trình tự tƣơng
đồng (BLAST).
Hình thức thể hiện:
Với công cụ Alignment: ngƣời sử dụng có thể nhập vào một hay nhiều trình
tự (có thể là DNA hay protein) thông qua ô nhập văn bản hay một tập tin
dƣới định dạng FASTA. Rồi chọn một hay nhiều trình tự trong CSDL gene
hsp-70 và RT-RNaseH để thực hiện sắp gióng cột (có thể thực hiện
Alignment giữa các gene, protein trong CSDL) (Hình 4.8).
Với công cụ BLAST: ngƣời dùng có thể nhập vào một trình tự (có thể là
DNA hay protein). Trình tự này sẽ đƣợc so sánh tƣơng đồng cục bộ với
CSDL của trình tự gene hsp-70 và RT-RNaseH. Các tham số của BLAST:
giá trị mong đợi E_value, ma trận sử dụng có thể thay đổi (Hình 4.10).
Hình 4.8 Trang web tìm kiếm trình tự tƣơng đồng bằng Alignment
51
Hình 4.9 Trang kết quả Alignment giữa các trình tự
Hình 4.10 Trang web tìm kiếm trình tự tƣơng đồng bằng BLAST
52
4.4.4. Trang cây phân loài (Taxonomy)
Nội dung trang web: trang gồm có hai trang về hai họ Caulimoviridae
và Closteroviridae.
Hình thức thể hiện: Hình 4.11
4.4.4.1. Trang Caulimoviridae: cung cấp thông tin chung cho các đặc
trƣng cho họ nhƣ thông tin về các giống, loài trong hai họ, đồng thời, kích thƣớc
genome, hình thể, các đặc tính sinh hóa, dãy kí chủ trong tự nhiên, triệu chứng, vùng
phân bố, các loài trong họ,…
Hình 4.11 Trang web cây phân loài của hai họ
53
Nội dung trang web: đƣợc thể hiện qua các mục điển hình sau:
o Đặc tính Virion: cung cấp các thông tin về hình thể, đặc tính vật lý và
hóa lý, acid nucleic, protein, tổ chức genome,…
o Đặc tính sinh học: cung cấp các thông tin về dãy kí chủ tự nhiên, kí chủ
trung gian, triệu chứng, vùng phân bố địa lý, phƣơng pháp chuẩn
đoán,…
o Cấu trúc phân loài: chứa các thông tin về các thành viên trong loài.
Hình thức thể hiện: Hình 4.12
Hình 4.12 Trang web thể hiện nội dung các đặc tính của họ
54
4.4.4.2. Trang Closteroviridae: cung cấp các thông tin về họ
Closteroviridae tƣơng tự nhƣ trang caulimoviridae (phụ lục).
4.4.5. Trang liên kết (LINK PAGE)
Trang này thực hiện việc liên kết đến một vài CSDL lớn trên thế giới nhƣ
NCBI, EMBL,… (phụ lục).
4.4.6. Trang thông tin về bộ môn công nghệ sinh học (ABOUT PAGE)
Trang này cung cấp các thông tin về cấu trúc tổ chức, các hoạt động giáo dục
- đào tạo và nghiên cứu khoa học,… của khoa công nghệ sinh học (phụ lục).
Dùng giao diện web để truy xuất thông tin và chia sẽ nguồn thông đó. Trang
web đƣợc viết dựa trên mụch đích tiện ích cho ngƣời sử dụng. Các thông tin cần truy
xuất hầu hết điều hiển thị trên giao diện web. Nên ngƣời sử dụng chỉ check vào các ô
chọn lựa để truy xuất các thông tin mong muốn. Web chứa trang công cụ Alignment
và BLAST giúp ngƣời sử dụng tìm kiếm các trình tự tƣơng đồng thông qua công cụ
này chúng ta có thể biết đƣợc mức độ tƣơng đồng của về trình tự giữa các loài. Ngoài
ra, trên web này còn liên kết với các CSDL lớn nhƣ NCBI, EBI, DDBj, SIB thông qua
trang liên kết. Mục đích của trang web chỉ phục vụ cho việc truy xuất thông tin trong
nội bộ ở cấp độ phòng thí nghiệm, trƣờng đại học,… nên chúng tôi không xây dựng
chế độ bảo mật cho web. Tuy nhiên, trang web còn tồn tại một số vấn đề nhƣ số lƣợng
trang trên web ít (6 trang chính), các thông tin cung cấp không chƣa đáp ứng thỏa mãn
cho các nghiên cứu lớn và các công cụ đƣợc tích hợp vào ít cần đƣợc bổ sung vào
thêm.
55
PHẦN 5
KẾT LUẬN VÀ ĐỀ NGHỊ
5.1. KẾT LUẬN
Chúng tôi đã tải đƣợc 325 trình tự gene hsp-70 và RT-RNaseH từ cơ sở dữ
liệu NCBI.
Thông qua việc tìm hiểu về hai họ virus, trình tự gene tƣơng đồng, trình tự
protein bảo tồn và kết hợp với ClustalW. Chúng tôi đã xác định đƣợc vị trí
gene hsp-70 và RT-RNaseH nằm trong ORF hay trong genome của chúng.
CSDL có 325 trình tự đƣợc tích hợp với Web
Trang Web CSDL gene hsp-70 và RT-RNaseH gồm có 6 trang chính, đó là
HOME, SEARCH, TOOL, TAXONOMY, LINK, ABOUT PAGE. Ngoài ra,
từ những trang web chính này còn có thể kết nối đến những trang phụ khác để
cung cấp những tiện ích cho ngƣời dùng. Từ các trang web này, ngƣời sử
dụng có thể truy xuất thông tin, so sánh một trình tự quan tâm với các trình tự
trong cơ sở dữ liệu gene hsp-70 và RT-RNaseH, tìm kiếm trình tự, các đặc
tính của loài,…
5.2. ĐỀ NGHỊ
Dùng từ khóa chính xác hơn để khảo sát đƣợc toàn bộ các loài chứa hai gene
này ở hai họ và khảo sát về hai hai giống còn lại trong họ Caulimoviriae trên
NCBI.
Tiến hành khảo sát chính xác vị trí gene hsp-70 và RT-RNaseH trong ORF
hay genome của hai loài virus thông qua các thông tin cung cấp trên mạng hay
sử dụng trình tự nucleotide đã biết để thiết kế một primer, primer còn lại đƣợc
thiết kế ngẩu nhiên, thông qua
Các file đính kèm theo tài liệu này:
- khoa luan tot nghiep - Thai CNSH27.pdf