Tài liệu Luận văn Xây dựng cơ sở dữ liệu ssrs (simple sequence repeats) từ ests (expressed sequence tags) của cây dứa (ananas comosus): BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƢỜNG ĐẠI HỌC NÔNG LÂM TP. HỒ CHÍ MINH
BỘ MÔN CÔNG NGHỆ SINH HỌC
***000***
TRẦN NGUYỄN MINH ĐĂNG
XÂY DỰNG CƠ SỞ DỮ LIỆU SSRs (SIMPLE
SEQUENCE REPEATS) TỪ ESTs (EXPRESSED
SEQUENCE TAGS) CỦA CÂY DỨA (Ananas comosus)
Thành phố Hồ Chí Minh
Tháng 09/2006
BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƢỜNG ĐẠI HỌC NÔNG LÂM TP. HỒ CHÍ MINH
BỘ MÔN CÔNG NGHỆ SINH HỌC
***000***
XÂY DỰNG CƠ SỞ DỮ LIỆU SSRs (SIMPLE
SEQUENCE REPEATS) TỪ ESTs (EXPRESSED
SEQUENCE TAGS) CỦA CÂY DỨA (Ananas comosus)
Luận văn kỹ sƣ
Chuyên ngành: Công Nghệ Sinh Học
Giáo viên hƣớng dẫn: Sinh viên thực hiện:
TS. TRẦN THỊ DUNG TRẦN NGUYỄN MINH ĐĂNG
Cử Nhân LƢU PHÚC LỢI Khóa: 2002-2006
Thành phố Hồ Chí Minh
Tháng 09/2006
MINISTRY OF EDUCATION AND TRAINING
NONG LAM UNIVERSITY, HCMC
DEPARTMENT OF BIOTECHNOLOGY
***000***
BUILDING SSRs (SIMPLE SEQUENCE REPEATS)
DATABASE FROM ESTs (EXPRESSED SEQUENCE
TAGS) OF PINEAPPLE (Ananas comosus)
Graduation thesis
Major: Biot...
83 trang |
Chia sẻ: hunglv | Lượt xem: 1109 | Lượt tải: 0
Bạn đang xem trước 20 trang mẫu tài liệu Luận văn Xây dựng cơ sở dữ liệu ssrs (simple sequence repeats) từ ests (expressed sequence tags) của cây dứa (ananas comosus), để tải tài liệu gốc về máy bạn click vào nút DOWNLOAD ở trên
BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƢỜNG ĐẠI HỌC NÔNG LÂM TP. HỒ CHÍ MINH
BỘ MÔN CÔNG NGHỆ SINH HỌC
***000***
TRẦN NGUYỄN MINH ĐĂNG
XÂY DỰNG CƠ SỞ DỮ LIỆU SSRs (SIMPLE
SEQUENCE REPEATS) TỪ ESTs (EXPRESSED
SEQUENCE TAGS) CỦA CÂY DỨA (Ananas comosus)
Thành phố Hồ Chí Minh
Tháng 09/2006
BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƢỜNG ĐẠI HỌC NÔNG LÂM TP. HỒ CHÍ MINH
BỘ MÔN CÔNG NGHỆ SINH HỌC
***000***
XÂY DỰNG CƠ SỞ DỮ LIỆU SSRs (SIMPLE
SEQUENCE REPEATS) TỪ ESTs (EXPRESSED
SEQUENCE TAGS) CỦA CÂY DỨA (Ananas comosus)
Luận văn kỹ sƣ
Chuyên ngành: Công Nghệ Sinh Học
Giáo viên hƣớng dẫn: Sinh viên thực hiện:
TS. TRẦN THỊ DUNG TRẦN NGUYỄN MINH ĐĂNG
Cử Nhân LƢU PHÚC LỢI Khóa: 2002-2006
Thành phố Hồ Chí Minh
Tháng 09/2006
MINISTRY OF EDUCATION AND TRAINING
NONG LAM UNIVERSITY, HCMC
DEPARTMENT OF BIOTECHNOLOGY
***000***
BUILDING SSRs (SIMPLE SEQUENCE REPEATS)
DATABASE FROM ESTs (EXPRESSED SEQUENCE
TAGS) OF PINEAPPLE (Ananas comosus)
Graduation thesis
Major: Biotechnology
Professor Student
PhD. Tran Thi Dung TRAN NGUYEN MINH DANG
BSc. LƢU PHÚC LỢI Term: 2002 - 2006
Ho Chi Minh City
09/2006
iv
LỜI CẢM ƠN
XIN CHÂN THÀNH CẢM ƠN
Ban Giám Hiệu trƣờng Đại học Nông Lâm Tp. Hồ Chí Minh đã tạo mọi
điều kiện cho tôi trong suốt thời gian học tập.
Các thầy cô trong bộ môn Công Nghệ Sinh Học cùng các thầy cô đã trực
tiếp giảng dạy trong suốt bốn năm qua.
Xin bày tỏ lòng biết ơn sâu sắc đến:
TS. Trần Thị Dung
Cử Nhân Lƣu Phúc Lợi
Đã tận tụy hƣớng dẫn, truyền đạt kiến thức giúp cho tôi hoàn thành khóa
luận này.
Cùng toàn thể lớp Công Nghệ Sinh Học 28 thân thiện đã hỗ trợ, giúp đỡ và
động viên tôi trong suốt thời gian làm đề tài.
Thành kính ghi ơn ba mẹ cùng những ngƣời thân trong gia đình luôn tạo
điều kiện và động viên con trong suốt quá trình học tập tại trƣờng.
Tháng 08 năm 2006
Trần Nguyễn Minh Đăng
v
TÓM TẮT KHOÁ LUẬN
TRẦN NGUYỄN MINH ĐĂNG, đại học Nông Lâm TP. Hồ Chí Minh, tháng
08/2006. “XÂY DỰNG CƠ SỞ DỮ LIỆU SSRs (SIMPLE SEQUENCE
REPEATS) TỪ ESTs (EXPRESSED SEQUENCE TAGS) CỦA CÂY DỨA
(Ananas comosus)”
Hội đồng hướng dẫn:
TS. Trần Thị Dung
Cử Nhân. Lưu Phúc Lợi
Khóa luận được thực hiện tại bộ môn Công Nghệ Sinh Học, trường đại học
Nông Lâm TP. Hồ Chí Minh, trong khoảng thời gian từ tháng 3/2006 đến 8/2006.
Trong những năm qua sinh học không ngừng phát triển, đã tạo ra những kho dữ
liệu rất lớn về trình tự gene, protein,... của thực vật, động vật,… Và với các thành tựu
vốn có của công nghệ thông tin, những trình tự gene này đã và đang được lưu trữ trong
cơ sở dữ liệu sinh học lớn như NCBI, EMBL, DDBj,…Vì các cơ sở dữ liệu này quá
lớn và chứa rất nhiều thông tin khác nhau, không tập trung thành từng gene cụ thể nên
khó có thể thực hiện việc truy xuất các thông tin phục vụ trực tiếp cho một nghiên cứu
chuyên biệt, trong đó có phương pháp microsatellite. Do vậy, mục tiêu của chúng tôi
là tiến hành xây dựng cơ sở dữ liệu SSRs từ ESTs của cây dứa Ananas comosus được
lấy ở cơ sở dữ liệu sinh học NCBI.
Để đạt được mục tiêu trên, khóa luận cần đảm bảo thực hiện nội dung như sau:
Dùng Perl script để thu nhận trình tự các nucleotide của gene từ trang cơ
sở dữ liệu GenBank NCBI.
Tìm và tách các đoạn microsatellite có thể có trong mỗi đoạn gen.
Tìm hiểu về mô hình dữ liệu quan hệ, sử dụng mô hình này vào việc lưu
trữ dữ liệu các trình tự nucleotide và trình tự SSRs của Ananas comosus, và tạo
cơ sở dữ liệu chứa những trình tự này. Sau đó chuyển các dữ liệu này vào cơ sở
dữ liệu chính.
Kết hợp các phần mềm quản lý cơ sở dữ liệu và phần mềm tạo web, thiết
kế trang web chia sẻ thông tin với người dùng.
vi
MỤC LỤC
Nội dung Trang
LỜI CẢM ƠN ...............................................................................................................iv
TÓM TẮT KHOÁ LUẬN ............................................................................................. v
DANH SÁCH CÁC HÌNH ............................................................................................ x
DANH SÁCH CÁC BẢNG ..........................................................................................xi
DANH SÁCH CÁC TỪ VIẾT TẮT .......................................................................... xii
Phần 1. Mở đầu .............................................................................................................. 1
1.1. Đặt vấn đề ................................................................................................................ 1
1.1.1. Sơ lược về sinh – tin học ........................................................................................... 1
1.1.2. Sơ lược về cây dứa ..................................................................................................... 2
1.1.3. Sơ lược về phương pháp Microsatellite ................................................................... 2
1.2. Mục tiêu của khóa luận ......................................................................................... 3
Phần 2. Tổng quan tài liệu ............................................................................................ 4
2.1. Giới thiệu về cây dứa ............................................................................................. 4
2.1.1. Vị trí phân loại ............................................................................................................ 4
2.1.2. Nguồn gốc và phân bố ............................................................................................... 4
2.1.3. Đặc điểm hình thái ..................................................................................................... 5
2.1.3.1. Rễ ................................................................................................................. 5
2.1.3.2. Thân ............................................................................................................. 5
2.1.3.3. Lá ................................................................................................................. 5
2.1.3.4. Hoa ............................................................................................................... 5
2.1.3.5. Quả ............................................................................................................... 6
2.3.1.6. Hạt ................................................................................................................ 6
2.1.4. Đặc điểm trồng trọt .................................................................................................... 6
2.1.4.1. Yếu tố khí hậu .............................................................................................. 6
2.1.4.2. Yếu tố đất đai ............................................................................................... 6
2.1.4.3. Yếu tố sinh vật ............................................................................................. 7
2.1.5. Giá trị kinh tế và sử dụng .......................................................................................... 7
2.1.6. Các giống trồng .......................................................................................................... 8
2.1.6.1. Nhóm Cayenne ............................................................................................. 8
2.1.6.2. Nhóm Queen ................................................................................................ 9
2.1.6.3. Nhóm Spanish .............................................................................................. 9
vii
2.1.6.4. Nhóm Abacaxi ........................................................................................... 10
2.1.6.5. Các giống trồng trong nước ....................................................................... 11
2.1.7. Tình hình phát triển của cây dứa trong và ngoài nước ........................................ 11
2.2. Các Marker phân tử ............................................................................................ 12
2.2.1. Isozymes .................................................................................................................... 12
2.2.2. ALP ............................................................................................................................ 12
2.2.3. AFLP .......................................................................................................................... 12
2.2.4. RAPD ......................................................................................................................... 13
2.2.5. SSCP .......................................................................................................................... 14
2.2.6. SNP ............................................................................................................................ 14
2.2.7. SSR ............................................................................................................................. 15
2.2.8. Kỹ thuật STS và SCARP .................................................................................. 15
2.2.9. RFLP .......................................................................................................................... 15
2.3. Chi tiết về microsatellite ..................................................................................... 16
2.3.1. Định nghĩa ................................................................................................................. 16
2.3.2. Các phương pháp phát hiện microsatellite ............................................................ 16
2.3.2.1. Phương pháp lai ......................................................................................... 17
2.3.2.2. Phương pháp PCR ...................................................................................... 17
2.3.3. Vai trò của microsatellite ........................................................................................ 18
2.3.4. Ứng dụng ................................................................................................................... 19
2.4. EST ........................................................................................................................ 19
2.4.1. Sơ lược về EST ......................................................................................................... 19
2.4.2. Nguồn gốc của EST ................................................................................................. 20
2.5. Cơ sở dữ liệu và hệ quản trị cơ sở dữ liệu ......................................................... 20
2.5.1. Nguyên nhân ra đời của mô hình quan hệ ............................................................. 20
2.5.2. Cơ sở dữ liệu và hệ quản trị cơ sở dữ liệ .......................................................... 21
2.5.2.1. Định nghĩa cơ sở dữ liệu ............................................................................ 21
2.5.2.2. Hệ quản trị cơ sở dữ liệu ............................................................................ 21
2.5.3. Các mô hình dữ liệu ................................................................................................. 23
2.5.3.1. Định nghĩa .................................................................................................. 23
2.5.3.2. So sánh các mô hình dữ liệu ...................................................................... 23
2.5.4. Người dùng ............................................................................................................... 24
2.5.5. Cơ sở dữ liệu quan hệ và hệ tập tin theo lối cũ .................................................... 25
2.5.5.1. Vấn đề 1: Cấu trúc logic và cấu trúc vật lý ................................................ 25
viii
2.5.5.2. Vấn đề 2: Dư thừa dữ liệu .......................................................................... 25
2.5.5.3. Vấn đề 3: Sự khai thác dữ liệu của người sử dụng .................................... 25
2.6. Internet và Web ................................................................................................... 26
2.6.1. Sơ lược về Internet ................................................................................................... 26
2.6.1.1. Tóm lược lịch sử phát triển ........................................................................ 26
2.6.1.2. Tổng quát về Internet ................................................................................. 26
2.6.2. Các dịch vụ được cung cấp trên Internet ............................................................... 28
2.6.2.1. Phân loại khối thông tin ............................................................................. 28
2.6.2.2. Các dịch vụ cơ bản ..................................................................................... 28
2.6.3. Tích hợp cơ sở dự liệu với web .............................................................................. 28
2.7. Ngôn ngữ lập trình Perl và Javascript .............................................................. 28
2.7.1. Ngôn ngữ Perl ........................................................................................................... 28
2.7.1.1. Tóm tắt lịch sử phát triển ........................................................................... 28
2.7.1.2. Ứng dụng.................................................................................................... 29
2.7.1.3. Một số module của Perl thường được sử dụng .......................................... 29
2.7.2. Ngôn ngữ Javascript................................................................................................. 30
2.7.2.1. Định nghĩa Javascript ................................................................................. 31
2.7.2.2. Javascript có thể làm gì? ............................................................................ 31
2.7.2.3. Ưu và nhược điểm của Javascript .............................................................. 31
2.8. Cơ sở dữ liệu sinh học ......................................................................................... 32
2.8.1. NCBI .......................................................................................................................... 32
2.8.1.1. Vài nét về NCBI ......................................................................................... 32
2.8.1.2. Một số cơ sở dữ liệu trong NCBI ............................................................... 33
2.8.1.3. Một số công cụ trong NCBI ....................................................................... 33
Phần 3. Phƣơng pháp và chƣơng trình sử dụng ....................................................... 35
3.1. Các chƣơng trình và ngôn ngữ lập trình đƣợc sử dụng .................................. 35
3.1.1. Hệ điều hành ............................................................................................................. 35
3.1.2. Các chương trình phân tích trình tự ....................................................................... 35
3.1.2.1. Chương trình so sánh trình tự ClustalW .................................................... 35
3.1.2.2. Chương trình tìm kiếm các trình tự tương đồng – BLAST ....................... 36
3.1.2.3. Hệ quả trị CSDL quan hệ MySQL ............................................................. 36
3.1.2.4. Apache web Server .................................................................................... 37
3.2. Thu nhận trình tự SSRs ...................................................................................... 38
3.2.1. Thu thập và chọn lọc dữ liệu ................................................................................... 40
ix
3.2.2. Thu nhận trình tự SSR ............................................................................................. 41
3.3. Xây dựng CSDL, công cụ để giúp ngƣời dùng có thể khai thác tốt dữ liệu. .. 44
3.3.1. Xây dựng cơ sở dữ liệu ............................................................................................ 44
3.3.1.1. Tạo bảng chứa dữ liệu ................................................................................ 44
3.3.1.2. Xây dựng mối quan hệ ............................................................................... 46
3.3.1.3. Nhập dữ liệu vào bảng ............................................................................... 47
3.4. Thiết kế giao diện web để truy xuất thông tin tại cơ sở dữ liệu ...................... 47
3.5. Tích hợp các công cụ sinh học vào trang web ................................................... 48
Phần 4. Kết quả và thảo luận ..................................................................................... 49
4.1. Kết quả thu nhận trình tự microsatellite .......................................................... 49
4.1.1. Kết quả thu nhận trình tự của Ananas comosus.................................................... 49
4.1.2. Kết quả thu nhận trình tự SSRs .............................................................................. 50
4.2. Xây dựng CSDL, công cụ để giúp ngƣời dùng có thể khai thác tốt dữ liệu ... 51
4.2.1. Cơ sở dữ liệu trình tự Ananas comosus ................................................................. 51
4.2.2. Kết quả sau khi lập CSDL của trình tự microsatellite ......................................... 52
4.2.3. Mô hình quan hệ ....................................................................................................... 57
4.3. Trang web thể hiện thông tin cơ sở dữ liệu SSRs của Ananas comosus ......... 59
4.3.1. Trang chủ (HOME PAGE) ..................................................................................... 60
4.3.2. Trang thông tin về microsatellite (ABOUT SSRs PAGE) .................................. 60
4.3.3. Trang thông tin về Ananas comosus (Ananas comosus PAGE) ......................... 60
4.3.4. Trang cơ sở dữ liệu ESTs (ESTs PAGE) .............................................................. 61
4.3.5. Trang cơ sở dữ liệu SSRs (SSRs PAGE) .............................................................. 62
4.3.6. Trang công cụ ........................................................................................................... 64
4.3.6.1. Trang tích hợp công cụ để tìm kiếm SSR .................................................. 64
Phần 5. Kết luận và đề nghị ........................................................................................ 65
5.1. Kết luận ................................................................................................................ 65
5.2. Đề nghị .................................................................................................................. 65
Phần 6. Tài liệu tham khảo ......................................................................................... 66
x
DANH SÁCH CÁC HÌNH
Hình Trang
Hình 1. 1. Định nghĩa bioinformatics được mở rộng ...................................................... 2
Hình 1. 2. Tìm hiểu nguồn gốc dựa vào Microsatellite ................................................... 3
Hình 2. 1. Các giống dứa Natal Queen - Red Spanish – Cayenne ................................ 11
Hình 2. 2. Sơ đồ một hệ quản trị cơ sở dữ liệu .............................................................. 22
Hình 2. 3. So sánh cơ sở dữ liệu quan hệ và hệ tập tin theo lối cũ ............................... 25
Hình 2. 4. Tương tác giữa Perl script-DBI-DBD-và RBDMS ...................................... 30
Hình 2. 5. Tương quan giữa NCBI, NLM (National Library of Medicine và NIH) ..... 32
Hình 3. 1. Sơ đồ tóm tắt quá trình thu nhận trình tự SSR của Steven Schroeder ......... 38
Hình 3. 2. Kết quả thiết kế mồi cuối cùng của Steven Schroeder ................................. 39
Hình 3. 3. Sơ đồ tóm tắt quá trình thu nhận trình tự chính từ NCBI............................. 40
Hình 3. 4. Sơ đồ tóm tắt quá trình thu nhận trình tự microsatellite .............................. 41
Hình 3. 5. Nội dung tập tin “sequence31052006.txt” để thu nhận SSR........................ 42
Hình 3. 6. Nội dung tập tin “ssrout31052006.txt”......................................................... 42
Hình 3. 7. Nội dung tập tin “labdbout31052006.txt” .................................................... 43
Hình 3. 8. Nội dung tập tin “new_ids31052006.txt” ..................................................... 44
Hình 3. 9. Sơ đồ trình tự nhập dữ liệu vào bảng ........................................................... 47
Hình 3. 10. Trang web mẫu về trình tự microsatellite .................................................. 48
Hình 4. 1. Nội dung mẫu tin về Ananas comosus trên NCBI ....................................... 50
Hình 4. 2. Mô hình quan hệ giữa các bảng .................................................................... 57
Hình 4. 3. Sơ đồ cấu trúc của trang web ....................................................................... 59
Hình 4. 4. Nội dung trang thông tin về microsatellite ................................................... 60
Hình 4. 5. Nội dung trang thông tin về Ananas comosus .............................................. 61
Hình 4. 6. Trang cơ sở dữ liệu ESTs ............................................................................. 61
Hình 4. 7. Trang cơ sở dữ liệu SSRs (All) .................................................................... 62
Hình 4. 8. Trang cơ sở dữ liệu SSRs chọn lọc theo “Motif Length Group ID” ............ 63
Hình 4. 9. Trang web tìm kiếm trình tự microsatellite .................................................. 64
xi
DANH SÁCH CÁC BẢNG
Bảng Trang
Bảng 3. 1. Nội dung tblStrain ........................................................................................ 44
Bảng 3. 2. Nội dung tblMotifLengthGroup ................................................................... 45
Bảng 3. 3. Nội dung tblEST .......................................................................................... 45
Bảng 3. 4. Nội dung tblGenBank .................................................................................. 45
Bảng 3. 5. Nội dung tblSSR .......................................................................................... 46
Bảng 4. 1. Phân loại giống Ananas comosus tại NCBI ................................................. 49
Bảng 4. 2. Các trình tự SSRs trên cây dứa Ananas comosus có trong CSDL ............... 52
Bảng 4. 3. Ví dụ nhiều đoạn microsatellite trong một trình tự chính ............................ 57
Bảng 4. 4. Số trình tự trong cơ sở dữ liệu ..................................................................... 51
Bảng 4. 5. Các loại Motif trong cơ sở dữ liệu ............................................................... 62
xii
DANH SÁCH CÁC TỪ VIẾT TẮT
AFLP Amplified Fragment Length Polymorphism
ALP Amplicon Length Polymorphism
AP-PCR Arbitrary Primer- PCR
ASP Active Server Page
BLAST Basic Local Alignment Search Tool
CGI Common Gateway Interface
CSDL Cơ sở dữ liệu
DBD Database Driver
DBI Database Interface
DNA deoxyribonucleic acid
EST Expressed Sequence Tag
GUI Graphical User Interface
HTML Hypertext Markup Language
HTTP Hypertext Transfer Protocol
JSP Java Server Page
NCBI the National Center for Biotechnology Information
NIG the National Institute of Genetics
NIH the National Institutes of Health
NLM the Nation Library of Medicine
Perl Practical Extraction and Report Language
PHP Hypertext Preprocessior
RAPD Random Amplififed Polymorphic DNA
RDBMS Relational Database Management System
RFLP Restriction Fragment Length Polymorphism
SNP Single Nucleotide Polymorphism
SSCP Single- Strand Conformation Polymorphism
SSR Simple Sequence Repeats
STS Sequence Tagged Site
1
Phần 1
MỞ ĐẦU
1.1. Đặt vấn đề
1.1.1. Sơ lƣợc về sinh – tin học
Dữ liệu sinh học đang được thu nhận với tốc độ rất nhanh. Đến tháng 8
năm 2000, ngân hàng dữ liệu GENEBANK đã có 8.214.000 mục liên quan đến
các trình tự sinh học DNA và cơ sở dữ liệu SWISS-PROT có 88.166 mục liên
quan đến các trình tự protein. Trung bình những sơ sở dữ liệu đang tăng gấp
đôi kích thước sau mỗi chu kỳ 15 tháng. Ngoài ra sự ra đời của vô số dự án
nghiên cứu gen, xác định cấu trúc protein được mã hóa trong bộ gen... đã tạo ra
một lượng lớn thông tin sinh học và thông tin này ngày càng đa dạng và phong
phú.
Do dữ liệu sinh học tăng trưởng mạnh mẽ nên công cụ tin học đã trở
thành một phương tiện không thể thiếu trong phân tích xử lý dữ liệu sinh học.
Công nghệ thông tin có thể quản lý nguồn dữ liệu khổng lồ, phân tích các dữ
liệu đa dạng và luôn biến đổi trong thế giới tự nhiên. Ngành Sinh Tin học được
xem là lĩnh vực nghiên cứu liên ngành nhằm kết hợp các kỹ thuật xử lý, tính
toán và tổ chức thông tin bằng thiết bị tin học với các kỹ thuật, công cụ phổ
biến trong ngành sinh học phân tử.
Sinh tin học hiện đang là ngành nghiên cứu khoa học khá mới tại Việt
Nam, ra đời với mục tiêu xây dựng các công cụ để tính toán , mô phỏng và đưa
ra những chương trình máy tính phục vụ nghiên cứu sinh học.
Nhưng định nghĩa trên chưa hoàn toàn đầy đủ, vì bioinformatics không
chỉ đơn thuần là sự kết hợp giữa công nghệ sinh học và công nghệ thông tin,
mà là sự kết hợp của nhiều ngành khoa học khác nhau như toán học, thống kê,
khoa học máy tính, sinh học, hóa học, vật lý,… Ngoài ra, sự kết hợp này có sự
đan xen tương hỗ với nhau. Vì thế, thành quả nghiên cứu mang lại của ngành
học này không chỉ đóng góp cho sinh học mà còn cho các ngành khác. Như
vậy, định nghĩa đầy đủ về Bioinformatics như sau:
2
Hình 1. 1. Định nghĩa bioinformatics đƣợc mở rộng
1.1.2. Sơ lƣợc về cây dứa (Ananas comosus)
Dứa là loại cây ăn trái nhiệt đới có giá trị dinh dưỡng cao, được tiêu thụ
rộng rãi trên thị trường thế giới. Nước khóm còn có chứa men Bromelin có tác
dụng phân hủy protein làm kích thích tiêu hóa. Ngoài ra, nước khóm còn cung
cấp nhiều năng lượng, 1ml nước khóm cho 1 calori. Toàn bộ trái khóm có 60%
phần ăn được.
Phần lớn việc sản xuất khóm trên thế giới được dùng đóng hộp, các sản
phẩm chính gồm có: Xắt khoanh vô hộp, nước khóm hộp. Các dạng khác là sy
rô, rượu, nước giải khát, hay trích acid citric, men bromelin...
Ngoài việc ăn tươi và đóng hộp, các phụ phẩm khác của khóm còn được
sử dụng để: chế biến thức ăn gia súc; dệt vải; thân lá khóm cũng có thể dùng
làm nguyên liệu chế biến bột giấy.
1.1.3. Sơ lƣợc về phƣơng pháp Microsatellite (SSR)
Microsatellite là một công cụ đắc lực để giải quyết vấn đề như định danh
và phát hiện những cây bị mất lai lịch đồng thời cũng đánh giá mức độ đa dạng
di truyền của cây. Ngoài ra phương pháp này hỗ trợ rất lớn cho công tác chọn
giống cây trồng.
TOÁN HỌC
KHOA HỌC MÁY TÍNH
THỐNG KÊ
SINH HỌC
HÓA HỌC
VẬT LÝ
Bioinformatics
3
Hình 1. 2. Tìm hiểu nguồn gốc dựa vào Microsatellite
1.2. Mục tiêu của khóa luận
Các nhà nghiên cứu đã tìm ra rất nhiều trình tự của cây dứa, vì vậy cũng sẽ
có rất nhiều đoạn Microsatellite trong những trình tự đó. Khi đó các cơ sở dữ liệu
này quá lớn và chứa rất nhiều thông tin khác nhau, không tập trung thành từng
gene cụ thể nên khó có thể thực hiện việc truy xuất các thông tin phục vụ trực tiếp
cho một nghiên cứu chuyên biệt.
Việc xây dựng cơ sở dữ liệu Microsatellite để phục vụ cho việc tìm hiểu đa
dạng và quan hệ di truyền; phân biệt loài và cá thể, lập bản đồ di truyền, xác định
gen; chọn giống nhờ chỉ thị phân tử.
Vì vậy, khóa luận “Xây dựng cơ sở dữ liệu SSRs (Simple Sequence
Repeats) từ ESTs (Expressed Sequence Tags) của cây dứa (Ananas comosus)”
được thực hiện với các mục tiêu lần lượt như sau:
Thu nhận trình tự SSR của cây dứa từ CSDL ESTs được lấy tại trang
chính NCBI.
Hai là xây dựng CSDL và công cụ để giúp người dùng có thể khai thác
tốt dữ liệu.
Ba là dùng giao diện web để truy xuất thông tin về cơ sở dữ liệu và thực
hiện việc chia sẻ thông tin đó, giúp cho việc tìm kiếm, quản lý thông tin
được tốt hơn .
Bốn là tích hợp vào trang web công cụ để tìm trình tự SSRs và một số
công cụ sinh học khác.
4
Phần 2
TỔNG QUAN TÀI LIỆU
2.1. Giới thiệu về cây dứa [9, 19]
2.1.1. Vị trí phân loại
Ngành : Magnoliophyta
Lớp : Liliopsida
Bộ : Poales
Họ : Bromeliaceae
Tên khoa học : Ananas comosus (Merr.)
Tên tiếng Anh : Pineapple
Tên thường gọi : Dứa, thơm, khóm
2.1.2. Nguồn gốc và phân bố
Họ dứa gồm khoảng 50 chi và 1700 – 2000 loài, có nguồn gốc ở vùng
nhiệt đới châu Mỹ, Braxin hay Paraguay, được Christopher Columbus phát
hiện khi đến đảo Guadeloup năm 1943.
Năm 1939, sau khi khảo sát Nam Mỹ, Baker và Collins cho rằng nguồn
gốc cây dứa là ở một vùng rộng lớn nằm giữa vĩ tuyến Nam 15o đến 30o, kinh
tuyến Tây 40o đến 60o, chủ yếu là ở Nam Braxin, Bắc Argentina và Paraguay.
(Claude, 1963)
M. Bertoni lại khoanh vùng nguồn gốc dứa vào lưu vực Panama và
Paragoay đã cho rằng cây dứa đã di cư từ đó lên phía bắc tới các bộ lạc Tupi –
Guarani trong vùng. Và do đó, sự trao đổi giữa các bộ lạc đã đưa dứa tiến dần
từng bước lên Trung Mỹ và vùng Caribe.
Sự phổ biến của cây dứa gắn liền với sự mở rộng đường hàng hải trong
quá trình thực dân hóa các thuộc địa.
Đến thế kỷ 17, cây dứa đã phổ biến hầu hết ở các vùng nhiệt đới.
Theo tài liệu của J. Lan (1928) và Nguyễn Công Thuận (1939) thì giống
“dứa ta” đã có ở Việt Nam cách đây hơn 100 năm, có thể là do các thuyền
buồm Tây Ban Nha, Bồ Đào Nha mang những giống mới trong đó có dứa vào
nước ta.
5
Năm 1913, giống “dứa tây” đã được người Pháp đưa đến trồng đầu tiên.
Năm 1939, giống dứa Cayen không gai được trồng đầu tiên ở Sơn Tây và
về sau phát triển ra nhiều vùng ở nước ta.
2.1.3. Đặc điểm hình thái
2.1.3.1. Rễ
Rễ dứa thuộc loại ăn nông, phần lớn do nhân giống bằng chồi nên
mọc từ thân ra, nhỏ và phân nhiều nhánh. Rễ có thể ăn sâu 0,9m thường tập
trung ở tầng đất 10cm – 20cm và phát triển rộng .
Rễ gồm có rễ cái và rễ nhánh: mọc ra từ phôi hạt, rễ bất định: mọc ra
từ các mầm rễ.
2.1.3.2. Thân
Dứa là cây thân cỏ, chia làm 2 phần: một phần trên mặt đất, một phần
dưới mặt đất. Phần trên thường bị các lá hình giải vây kín, xếp thành hình
hoa thị ở gốc nên khó nhìn thấy.
Thân trưởng thành dài 20cm – 30cm, đường kính 3cm – 7cm, trọng
lượng 200g – 400g. Trung tâm của thân là một mô rỗng, mềm, chứa các
chất dinh dưỡng có nhiều tinh bột ở giữa, nối tiếp là một lớp bó mạch có
nhiều xơ và ngoài cùng được bao bọc bởi một biểu bì và gốc lá.
2.1.3.3. Lá
Lá mọc trên thân cây theo hình xoắn ốc, chụm lại ở gốc thành hình
phễu, trong có nước và chất hữu cơ bị phân hủy nên là môi trường sống
thích hợp cho một số động vật nhỏ, thực vật (một số cây ăn thịt, giáp xác
thấp, lưỡng thê…).
Lá thường dày, không có cuống, hẹp ngang và dài. Mặt lá và lưng lá
thường có một lớp phấn trắng hoặc một lớp sáp có tác dụng làm giảm độ
bốc hơi nước cho lá. Thường thì có gai nhọn và cứng ở mép lá, tuy nhiên
cũng có giống lá không có gai như Cayen.
Gốc lá hút nước và chất dinh dưỡng thay cho rễ.
2.1.3.4. Hoa
Hoa mẫu 3, tập hợp quanh trục lớn thành bông ngắn, chùm hay chùy.
Với lá bắc màu tím ở dưới hoa gồm có ba lá đài, ba cánh hoa, sáu nhị đực
6
xếp thành hai vòng, một nhị cái có ba tâm bì và bầu dưới. cánh hoa màu
xanh, đỏ tía, gốc có màu trắng nhạt, trên mặt cánh hoa có những vảy.
Cả tràng hoa có dạng một ống dài hơi loe ở phía đầu, ở giữa lồi lên ba
núm nhụy tím mờ của vòi nhụy. Ba tuyến mật thông ra gốc vài nhị cái qua
các ống dẫn. Hoa dứa bất thụ.
2.1.3.5. Quả
Quả dứa là loại quả kép do 100 quả - 150 quả nhỏ họp lại. Các giống
khác nhau thì hình dạng quả và mắt quả (các quả nhỏ) cũng khác nhau:
hình bầu dục, mắt quả lồi hay hình ống, mắt quả to hay hình chóp cụt, mắt
quả rất to, phẳng.
Phần ăn được gồm trục hoa và các lá bắc mọng nước, còn quả thật
nằm trong các mắt dứa.
2.3.1.6. Hạt
Cây dứa thường không có hạt nếu để thụ phấn tự do. Nếu đem lai các
giống với nhau thì có thể có hạt.
Hạt rất bé, tím đen, hình bóng tròn, dài độ 3mm, mỗi quả con chỉ có
vài hạt.
2.1.4. Đặc điểm trồng trọt
2.1.4.1. Yếu tố khí hậu
Cây dứa là cây ăn quả nhiệt đới thích hợp nhiệt độ cao, sinh trưởng
phát triển tốt ở nhiệt độ 30oC – 31oC, nhiệt độ giới hạn dưới 5oC và trên
40
oC (Claude và Tisseau, 1963). Nhiệt độ tối ưu 24oC – 27oC.
Dứa rất mẫn cảm với nhệt độ thấp. Khi nhiệt độ hạ thấp đến 10oC, cây
ngừng sinh trưởng, 5oC cây bị rét gây hại, 0oC bị rét cóng, nếu càng kéo
dài thì càng thiệt hại nghiêm trọng.
2.1.4.2. Yếu tố đất đai
Đất đai thích hợp cho trồng dứa phải tơi xốp, thoáng, có kết cấu hạt,
không có nước đọng trong mùa mưa, như đất cát thịt, đất latercte trên đồi
núi, đất phèn nếu được thoát nước tốt.
Tỷ lệ Mn/Fe trong đất cao sẽ có hại cho dứa, để khắc phục cần phun
sulfat sắt 1%.
7
Hiện nay, ở nước ta, cây dứa được trồng trên nhiều loại đất: đỏ bazan,
đá vôi, đất đỏ váng… ở miền Bắc, đất phèn ở Đồng bằng sông Cửu Long,
đất xám ở miền Đông Nam Bộ.
Các giống khác nhau thì có yêu cầu về độ pH khác nhau. Cayen trơn
có độ pH = 5,6 – 6,0, dứa tây nhóm Queen có thể sinh trưởng tốt trên đất
phèn có độ pH <= 4,0.
Dứa có yêu cầu về thành phần dinh dưỡng kho áng cần thiết cho cây
như N, P, K, Ca, Mg, Bo, trong đó N và K là hai nguyên tố đóng vai trò
chủ đạo, các nguyên tố vi lượng khác ít ảnh hưởng đến năng suất cây dứa.
Lượng phân bón phụ thuộc vào điều kiện đất đai (tốt hay xấu), mật độ
trồng trên một đơn vị diện tích và đặc tính của từng giống (chịu được phân
bón nhiều hay ít).
2.1.4.3. Yếu tố sinh vật
So với nhiều loại cây trồng khác, dứa ít bị côn trùng gây hại. Đối
tượng sâu hại quan trọng và phổ biến hầu khắp ở các vùng trồng dứa trên
thế giới là rệp sáp (Dysmicocus hoặc Pseudoeocus brevipes).
Ngoài ra còn có một loại sâu non (Adoretus chinensis Thanber) phá
hoại rễ, tạo vết thương cơ giới, tạo điều kiện cho tuyến trùng và nấm bệnh
xâm nhập sinh sống và sinh sản, gây nên hiện tượng thối đen thân chồi
dứa, làm lụi tàn vườn dứa.
Các bệnh hại dứa như bệnh thối nõn (do nấm Phytophthora
cinnamonic, nấm Phytophthora palmisora hay vi khuẩn Erwinia
chrysanthemi), bệnh héo virus, bệnh luộc lá… cũng gây ra nhiều thiệt hại
cho vùng trồng dứa.
2.1.5. Giá trị kinh tế và sử dụng
Dứa ngoài để ăn tươi như một quả có giá trị dinh dưỡng cao, còn có thể
chế biến thành nhiều loại sản phẩm, đa phần là làm đồ hộp xuất khẩu như dứa
khoanh, dứa rẻ quạt, nước dứa làm rượu, làm dấm, bột dứa dùng trong giải
khát.
Trong 100g thịt quả có trung bình:
Acid hữu cơ: 0,6 g (78% acid citric, còn lại là acid malic và acid khác).
Vitamin A.
8
Vitamin C.
Khoáng: Ca (16mg), P (11mg), Fe (0,3mg), Cu (0,07mg).
Hydrat carbon: 13,7g.
Nước: 85,5g
Khi phân tích thành phần dinh dưỡng trong dứa Cayenne ở Hawaii cho
thấy trong đường tổng số 11% - 13% là saccharose và còn lại là glucose và
fructose.
Trong quả dứa còn có men bromelin giúp cho việc tiêu hóa rất tốt. Người
ta đã chiết và sản xuất bromelin dùng trong công nghiệp thực phẩm, thuộc da,
vật liệu làm phim…
Sản phẩm phụ của cây dứa để lên men dùng làm thức ăn gia súc.
Sau khi thu hoạch quả, lá dứa dùng để lấy sợi (2% - 2,5% cellulose), sản
phẩm dệt từ dứa bền, đẹp, chất lượng hơn cả đay.
Thân cây dứa có chứa 12,5% tinh bột là nguyên liệu dùng để lên men
rượu, làm môi trường nuôi cấy nấm và vi khuẩn.
Dứa là cây ăn quả chịu hạn trồng ở vùng đồi có khả năng bảo vệ đất,
chống xói mòn, một số giống dứa có thể trồng xen ở tầng thấp dưới tán một số
cây ăn quả khác và cây công nghiệp, vừa có tác dụng phủ đất chống xói mòn,
vừa tăng thu nhập.
2.1.6. Các giống trồng [20]
2.1.6.1. Nhóm Cayenne
Được trồng rất phổ biến trên thế giới, đồng thời được ưa chuộng nhất
để đóng hộp. Giống tiêu biểu là Smooth Cayenne (Cayenne lisse).
Đặc tính đóng hộp: rất tốt.
Ăn tươi: tốt.
Xuất khẩu tươi: khá.
Các đặc điểm về hình thái:
Lá: gần như không gai, chỉ có một ít gai ở chóp lá.
Chồi: ít chồi.
Dạng trái: hình trụ, mắt dẹp, cạn.
Trọng lượng trái: trung bình 2,5 kg.
9
Lỏi (cùi): trung bình.
Màu vỏ trái khi chín: vàng da cam.
Màu ruột khi chín: vàng lợt đến vàng.
Hương vị: ngọt, hơi chua, ít xơ, nhiều nước, mềm.
Tính kháng: mẩn cảm với triệu chứng héo khô đầu lá (Wilt).
Năng suất: cao.
2.1.6.2. Nhóm Queen
Là nhóm được trồng chủ yếu ở nước ta hiện nay.
Đặc tính đóng hộp: kém
Ăn tươi: rất tốt
Xuất khẩu tươi: rất tốt
Các đặc điểm về hình thái:
Lá: đầy gai, lá ngắn hơn Cayenne.
Chồi: cho nhiều chồi cuống, chồi nhỏ.
Dạng trái: hình nón, mắt sâu.
Trọng lượng trái: trung bình 1 kg.
Lỏi: nhỏ.
Màu vỏ khi chín: vàng.
Màu ruột khi chín: vàng.
Hương vị: ngọt hơn Cayenne, ít chua, ít xơ, xơ ngắn, cong, thơ.
Thích hợp cho tiêu thụ tươi.
Tính kháng: mẩn cảm với bệnh Wilt.
Năng suất: kém.
2.1.6.3. Nhóm Spanish (Tây Ban Nha)
Đặc tính đóng hộp: kém
Ăn tươi: rất tốt
Xuất khẩu tươi: rất tốt
Các đặc điểm về hình thái:
Lá: dài, hẹp, có gai.
Chồi: cho nhiều chồi cuống.
Dạng trái: hơi tròn (Trụ bầu), mắt rộng, dẹp.
10
Trọng lương trái: trung bình 1,2-1,5 kg.
Lỏi: rất lớn.
Màu vỏ khi chín: cam.
Màu ruột khi chín: trắng đến vàng.
Hương vị: ngọt, hơi có vị cay chua, nhiều xơ.
Tính kháng: kháng bệnh Wilt.
Năng suất: kém.
2.1.6.4. Nhóm Abacaxi
Ít phổ biến, còn gọi là Brazilian.
Đặc tính đóng hộp: xấu.
Ăn tươi: tốt.
Xuất khẩu tươi: kém.
Các đặc điểm về hình thái:
Lá: đầy gai.
Chồi: nhiều chồi cuống.
Dạng trái: hình tháp (chóp).
Trọng lượng trái: trung bình 1,5 kg.
Lỏi: nhỏ đến rất nhỏ.
Màu vỏ khi chín: vàng.
Màu thịt khi chín: vàng lợt đến trắng.
Hương vị: ngọt, mềm, nhiều nước.
Tính kháng: kháng Wilt khá.
Năng suất: kém.
Ngoài 4 nhóm trên, Leal và Soule (1977) còn đề nghị thêm một nhóm mới
là Maipure. Các giống trong nhóm này hoàn toàn không có gai ở lá, như
Perolera, Monte Lirio, Bumanguesa. Trái có hình trụ đến bầu dục, lỏi nhỏ, thịt
màu ngà, khá nhiều xơ. Chất lượng không cao khi dùng xuất tươi và đóng hộp,
chỉ thích hợp cho tiêu thụ tại chỗ.
11
Hình 2. 1. Các giống dứa Natal Queen - Red Spanish – Cayenne
(nguồn
2.1.6.5. Các giống trồng trong nƣớc
Ở miền Bắc có các giống như:
Dứa hoa Phú thọ (Natal Queen): Victoria
Dứa hoa Na hoa (Nam phi Queen): Paris, Yellow Mauritius
Dứa hoa Nam bộ (Nam phi Queen): khóm, thơm ta.
Dứa ta (Red Spanish): thơm bẹ đỏ, thơm lửa, dứa Sàn, dứa Buộm,
Tam dương.
Độc bình không gai (Cayenne): thơm tây, Sarawak, Hồng Kông.
Ở miền Nam khóm trồng chủ yếu là nhóm Queen, tập trung ở một số
tỉnh như: Cần Thơ, Kiên Giang, Minh Hải, Long An, Tiền Giang và thành
phố Hồ Chí Minh, gồm có các giống Singapore Canning, Alexandra, Mac-
grégor...Nhóm Cayenne chỉ được trồng nhiều ở Bảo Lộc (Lâm Đồng).
2.1.7. Tình hình phát triển của cây dứa trong và ngoài nƣớc
Thái Lan là nước đứng đầu, kế đến là Philippin và Trung Quốc. Tuy
nhiên, trong những năm gần đây, sản lượng dứa tăng nhanh nhờ phương pháp
canh tác, kỹ thuật trồng trọt thu hoạch ngày càng được cải thiện hơn, bên cạnh
đó có sự góp phần của nhu cầu thị trường về sản phẩm và xuất khẩu. hâu Á có
sản lượng dứa lớn nhất, chiếm 52% sản lượng của thế giới, tiếp theo là châu
Mỹ: 31%, châu Phi: 15,4%, châu Âu: 1,4%.
Cây dứa đã được trồng ở Việt Nam từ rất lâu, tuy nhiên, trước đây, chưa
có một thống kê đầy đủ nào về tình hình phát triển cũng như là về sản lượng
thu được hàng năm mãi cho đến những năm gần đây. Năm 2002 thì diện tích
trồng dứa trong cả nước đã tăng lên là 37.800 ha, sản lượng dứa thu được là
284.000 tấn, trong đó đồng bằng Sông Cửu Long chiếm 71%.
12
2.2. Các Marker phân tử [2, 4]
2.2.1. Isozymes
Isozymes là các dạng khác nhau của một enzyme một cá thể, có cùng
chức năng xúc tác cho một phản ứng (hoạt tính xúc tác tương tự hoặc giống
nhau) nhưng lại bị ức chế bởi những phân tử khác nhau. Nói cách khác,
isozyme là tất cả các dạng khác nhau của một enzyme được mã hóa bởi locus
di truyền. Hoạt tính của chúng đặc trưng đối với một cơ chất và trợ enzyme
nhất định. Chỉ thị isozyme là chỉ thị sinh hóa.
Phân loại isozyme:
Isozyme đơn gen.
Isozyme đa gen.
2.2.2. ALP (Amplicon Length Polymorphism)
Người ta tìm thấy ALP trong phân tích PCR của nhiều cá thể. Sự biến dị
trong vùng khuếch đại (amplicon) được ghi nhận trong gel điện di, với các sản
phẩm của PCR.
2.2.3. AFLP (Amplified Fragment Length Polymorphism)
Nguyên lý:
Đa hình độ dài các đoạn nhân bản chọn lọc – AFLP: kết hợp RFLP
và PCR, nhân DNA chọn lọc từ các đoạn DNA nhận được từ cắt DNA hệ
gen bằng enzyme giới hạn.
Ưu điểm và hạn chế:
Ưu điểm:
Phát hiện thay đổi trên toàn bộ hệ gen, cho đa hình cao.
Kỹ thuật nhanh, ổn định, có khả năng lặp lại cao, cần ít DNA.
Hạn chế:
Giá thành cao.
Không phân biệt được đồng và dị hợp tử
Ứng dụng:
Nghiên cứu đa dạng và quan hệ di truyền, nghiên cứu quần thể, phả hệ,
phát sinh chủng loại.
Lập bản đồ.
13
2.2.4. RAPD (Random Amplififed Polymorphic DNA)
Một trong những giới hạn chính của PCR chuẩn đối với ALP marker là
mọi thông tin về chuỗi mã di truyền đầu tiên phải được biết rõ trước khi chuẩn
bị các primer tương ứng. Nhưng hiện nay, thông tin về các chuỗi mã này trên
các vùng của genome sinh vật chưa được biết hết. Do đó, người ta phải cải
tiến kỹ thuật PCR để có thể phát hiện ra các thể đa hình DNA như vậy. Năm
1990, có hai nhóm nghiên cứu đã thực hiện việc cải tiến này để phát hiện thể
đa hình DNA bằng PCR tiêu chuẩn.
Nguyên tắc: Khi khuếch đại một đoạn DNA đặc biệt nào đó có thể thu
nhận được kết quả thông qua điều kiện nghiêm ngặt PCR. Nhưng các sọc
không có tính chuyên biệt gì vẫn thể hiện ra trong điện di khi sự nghiêm ngặt
này lơi lỏng. Trong trường hợp nhiệt độ ở giai đoạn tác động của primer tại
đầu dây đơn bị giảm thấp hơn Tm, sẽ có nhiều sọc bất thường thể hiện ra trên
gel. Welsh và Mc Clelland (1990) đã ghi nhận hiện tượng này và đã phát minh
ra AP-PCR (Arbitrary Primer- PCR).
Trong AP-PCR, người ta sử dụng một primer đơn hay một cặp primer với
một chuỗi mã điều hành (arbitrary) có khoảng 20 Nu tiếp nhận điều kiện
nghiêm ngặt PCR, thay vì sử dụng hai primer đặc biệt như những primer tiêu
chuẩn. Thành phần còn lại của phản ứng giống như bình thường, nhưng nội
dung chu trình hoàn toàn khác. Sau bước mở dây đôi DNA của chu kỳ đầu
tiên, nhiệt độ của phản ứng được phép giảm xuống khoảng 400C, primer điều
hành có thể tác động ở đầu dây đơn DNA, tại nhiều nơi trong genome, để bắt
đầu tổng hợp DNA. Sau hai vòng khuếch đại trong điều kiện không nghiêm
ngặt lắm (relaxed), người ta sử dụng PCR bình thường và có thể quan sát các
sản phẩm PCR không chuyên biệt ở trên gel. Nếu AP-PCR được lặp lại, thì
sản phẩm của PCR sẽ được sản xuất giống hệt nhau.
Thay vì sử dụng primer có 20 Nu, William và cộng sự (1990) đã sử dụng
primer có 10 Nu. Vì nhiệt độ Tm thấp hơn rất nhiều ở thể 10 mers so với 20
mers, cho nên William và cộng sự đã sử dụng mọi điều kiện giống nhau cho
tất cả các chu kỳ. Thể đa hình DNA được xác định thông qua sản phẩm PCR
trên gel, với đa hình về độ dài của các đoạn PCR. Wiliiam gọi đó là RAPD.
14
2.2.5. SSCP (Single- Strand Conformation Polymorphism)
ALP không phải luôn luôn được tìm thấy nếu những amplicon có cùng
một độ dài, thậm chí trong trường hợp chúng có biến dị di truyền giữa những
amplicon.
Người ta tìm thấy có sự chuyển dịch của đoạn DNA dạng dây đơn, ngắn,
trong điều kiện chưa qua quá trình biến hóa DNA thành dây đơn
(denaturation). Người ta giả định: sự thay đổi chuỗi mã di truyền DNA là do
sự thay đổi ngoại hình của dây đơn (single- strand conformation). Sự thay đổi
này làm cho DNA chuyển dịch trên gel, tạo ra thể đa hình.
Trong phân tích SSCP, phản ứng chuẩn PCR đã hoàn thành. Sản phẩm
của PCR này lại bị mở dây đơn lần nữa. Các mẫu này được ngâm trong nước
đá, hiện tượng “snap-back” sẽ xảy ra cấu trúc thứ cấp. Để tránh hiện tượng đứt
gãy cấu trúc thứ cấp, các mẫu này phải được xử lý trong điều kiện lạnh. Nếu
P
32
được dùng trong PCR, thì phim chụp X quang sẽ thể hiện rõ trên gel. Nếu
không, người ta sẽ dùng bạc để nhuộm gel. Nhuộm bạc trên DNA dây đơn (SS
DNA) sẽ nhạy cảm gấp trăm lần nhuộm ethidium bromide.
2.2.6. SNP (Single Nucleotide Polymorphism)
Marker này thường dùng để phân tích genome người và được áp dụng cho
nhiều genome sinh vật khác, nhờ đột biến điểm tại một Nucleotide trên
genome.
Yêu cầu SNP là:
Xác định chuỗi trình tự DNA.
Tần suất alen.
Có hai phương pháp để tạo ra SNP:
Dùng trực tiếp mã trình tự di truyền.
Phân biệt các đột biến điểm thông qua dùng tách sắc ký lỏng.
Thông thường dùng primer để thiết kế mã trình tự và các đoạn khuếch đại
khoảng 500 cặp base. Chúng có thể dùng phường pháp PCR tách hai cá thể và
trộn các cá thể này chung, sau đó đun nóng và lai để thành lập các delux tương
đồng và dị biệt
15
2.2.7. SSR (Simple Sequence Repeats)
Microsatellite là chuỗi mã di truyền lặp lại rất đơn giản, xảy ra ngẫu nhiên
trong hầu hết genome thực vật, động vật và trên con người. Chiều dài thường
1 – 100 bp. Do đó, SSR có thể khuếch đại trong ống nghiệm bằng phương
pháp PCR với tính phát triển của primer theo miền của hai bên trên một locus.
Ứng dụng kỹ thuật SSR chi phí ít hơn RFLP. Do đó, hiện nay SSR được dùng
để thiết kế bản đồ gen trong di truyền, chọn lọc giống, đa dạng hóa các vật liệu
di truyền.
2.2.8. Kỹ thuật STS (Sequence Tagged Site) và SCARP (Sequence
Characterzied Amplified Region Primer)
Khái niệm
Chỉ thị STS là chỉ thị bậc hai, phát triển từ các chỉ thị RFLP và AFLP
đã được xác định vị trí trên bản đồ di truyền và liên kết với một tính trạng
nào đó
Chỉ Thị SCARP là chỉ thị bậc hai, phát triển từ chỉ thị RAPD đã được
xác định vị trí trên bản đồ di truyền và liên kết với một tính trạng nào đó.
Ứng dụng:
Trong đánh giá và chọn giống nhờ chỉ thị phân tử
2.2.9. RFLP (Restriction Fragment Length Polymorphism)
Nguyên lý:
Đa hình độ dài các đoạn cắt giới hạn – RFLP (Bot Stein et al., 1980),
dùng cDNA hoặc DNA ngẫu nhiên trong hệ gen như mẫu dò để phát hiện
các đoạn DNA có độ dài khác nhau được tạo ra khi cắt DNA hệ gen của
mẫu nghiên cứu và phân tách bằng điện di trên gel.
Ưu điểm và hạn chế:
Ưu điểm:
Phát hiện trên tất cả NST đồng dạng, phát hiện tính trạng đồng hợp
tử và dị hợp tử.
Ổn định và chính xác cao, không cần đọc trình tự.
Hạn chế:
Cần lượng DNA lớn (50 - 250 mg).
16
Tốn thời gian và công sức.
Ứng dụng:
Lập bản đồ, phát hiện gen.
Ứng dụng trong chuyển gen.
2.3. Chi tiết về microsatellite [2, 15, 26]
2.3.1. Định nghĩa
Microsatellite ngày nay đã trở thành thuật ngữ chung nhất để miêu tả các
trình tự lặp lại ngắn và ngẫu nhiên, thay vì sử dụng các thuật ngữ STR (short
tandem repeats, Edward,1991) hay VNTR (variable number of tandem
repeats). Microsatellite bao gồm các đoạn lặp lại ngắn từ 2-6 bp và kích thước
tại mỗi locus là 20–100 bp. Microsatellite được tìm thấy trong tất cả cơ thể
sống, đặc biệt là ở những cơ thể sống có bộ gen lớn và phân bố đều trên
genome.
Microsatellite có tính đa hình rất cao (đa hình theo chiều dài), là những
codominant-alen hay alen đồng trội (bao gồm 2 loại: alen đồng hợp và alen dị
hợp), nó có các tính chất cần thiết chất cần thiết cho một marker. Tần số đột
biến từ 104 - 5.10-6, nó tuân theo định luật Mendel. Vị trí của microsatellite
trên nhiễm sắc thể có thể được xác định bằng PCR từ một lượng DNA rất nhỏ.
Xác định microsatellite PCR trên một loài nào đó thì có thể áp dụng trên
những loài khác có quan hệ họ hàng.
Ví dụ:
Mononucleotide SSR (A)11
AAAAAAAAAAA
Dinucleotide SSR (GT)6
GTGTGTGTGTGT
Trinucleotide SSR (CTG)4
CTGCTGCTGCTG
Tetranucleotide SSR (ACTC)4
ACTCACTCACTCACTC
2.3.2. Các phƣơng pháp phát hiện microsatellite
Có 2 phương pháp để phát hiện microsatllite: phương pháp lai và phương
pháp PCR.
17
2.3.2.1. Phƣơng pháp lai
Phương pháp lai ghép phân tử cho phép xác định chính xác kiểu
microsatellite bằng cách chuyển qua màng lai, cùng một lúc có thể phát
hiện nhiều kiểu microsatellite bằng các mẫu dò khác nhau. Tuy nhiên xác
định chiều dài của chúng còn bị hạn chế.
Trong phương pháp lai có hai cách: phương pháp phát hiện nhờ đồng
vị phóng xạ và phương pháp nhuộm bạc.
Phương pháp phát hiện nhờ đồng vị phóng xạ: Phương pháp hiệu
quả và được dùng đầu tiên là đồng vị phóng xạ. Người ta có thể đánh
dấu vào một đầu của primer (end-labelling) hoặc đánh dấu và trộn lẫn
một trong bốn thành phần nucleotide A, T, G, C (incorporation-
labelling). Nhưng ngày nay phương pháp dùng đồng vị phóng xạ rất ít
được sử dụng vì nguy hiểm đến sức khỏe con người và đòi hỏi việc
xử lý chất thải tốn kém.
Phương pháp nhuộm bạc (phát hiện không dùng phóng xạ):
Phương pháp này rẻ, không độc hại nhưng độ nhạy cao, đòi hỏi một
số kỹ thuật rắc rối khi nhuộm.
2.3.2.2. Phƣơng pháp PCR
Phương pháp PCR sử dụng màu huỳnh quang để đánh dấu primer
forward và sử dụng máy giải trình tự tự động.
Phương pháp này được phát triển cùng với sự phát triển của màng giải
trình tự nucleotide để phát hiện sản phẩm PCR được đánh dấu bởi một chất
nhuộm huỳnh quang (end-labelling primer hoặc incorporation). Khi kích
thích bởi tia laser, các chất nhuộm màu này giải phóng ra một tín hiệu mà
máy tính có thể phát hiện được bằng cách so sánh sự di chuyển của sản
phẩm PCR với DNA chuẩn, chúng ta có thể có kích thước chính xác của
đoạn DNA quan tâm.
Chất huỳnh quang này được gắn vào một đầu 5’ của cặp mồi, 40 ng
mồi loại này đủ dùng cho 10000 phản ứng PCR.
Phương pháp này có hiệu quả rất cao và đang được sử dụng phổ biến
trên các phòng thí nghiệm trên thế giới. Người ta có thể đánh dấu bằng 3
loại chất nhuộm huỳnh quang khác nhau, trong cùng một phản ứng PCR và
18
chạy cùng một giếng điện di, kể cả kích thước các đoạn bằng nhau nhưng
chúng ta vẫn có thể xác định được nhờ màu huỳnh quang khác nhau.
Kết quả được thể hiện trên máy tính, nhờ đó chúng ta có thể xác định
được chính xác kích thước của alen, loại trừ những băng lặp lại (stuter
DNA) hoặc thêm một nucleotide A,…
2.3.3. Vai trò của microsatellite
Rất nhiều microsatellite đã được tìm thấy ở vùng phía trên của các vùng
khởi đầu sao mã của vùng mang mã. Chức năng rõ rệt của những vùng như
vậy vẫn còn chưa rõ ràng, mặc dù người ta tìm thấy chúng tồn tại giữa các
vùng exon và có liên quan tới các bệnh di truyền.
Microsatellite được dùng như một marker di truyền để nghiên cứu về di
truyền quần thể, quan hệ tiến hóa, lập bản đồ gen. Tuy nhiên có rất nhiều
chứng cứ cho rằng trình tự microsatellite cũng đóng vai trò là yếu tố mang mã
hoặc nhân tố điều hòa. Microsatellite được tìm thấy khắp nơi ở phần trước
vùng khởi đầu sao mã của vùng mang mã, và một số đã được tìm thấy có quan
hệ với vùng mã hoá. Số lượng khác nhau của các đoạn lặp lại của
microsatellite ở vùng mã hoá có quan hệ với sự biểu hiện của gene và chức
năng của gene.
Ở một số trường hợp, sự thay đổi (mất hoặc thêm) các đơn vị lặp lại của
microsatellite cũng làm thay đổi chức năng hoạt động của promotor. Vị trí của
microsatellite gần hay xa promotor cũng làm hoạt động của promotor thay đổi.
Vùng điều khiển có chứa microsatellite hoạt động như một nhân tố thúc đẩy
quá trình phiên mã và những đột biến mất đoạn microsatellite đã làm giảm
chức năng của gen.
Microsatellite cũng liên kết với các protein bám mà các protein này có
chức năng bám dính vào các trình tự khởi động của gen, khi trình tự này được
giải phóng thì gen được khởi động và sao mã. Điều này chỉ ra rằng
microsatellite hoạt động như một yếu tố điều hòa trong quá trình sao mã, ảnh
hưởng đến quá trình sao mã thông qua ảnh hướng đến protein bám. Rất nhiều
nghiên cứu chỉ ra rằng ảnh hưởng thúc đẩy của microsatellite và protein bám
dính của nó là một chức năng của các đoạn lặp lại trong một vùng
microsatellite đặc biệt nào đó. Như một trình tự mang mã, microsatellite đã
19
được tìm thấy biểu hiện ở rất nhiều protein và sự khác nhau về số lần lặp lại
của các trình tự trong microsatellite có thể dẫn đến sự khác nhau về chức năng
của protein và hoạt động của gen, do đó có thể ảnh hưởng đến chức năng sinh
lý cũng như sự phát triển của cơ thể.
Một số nghiên cứu gần đây đã chỉ ra rằng có sự ảnh hưởng của chiều dài
khác nhau của microsatellite đến hình thái và sự phát triển ở mức độ cơ quan
được tổng kết lại như một yếu tố chức năng của hệ gen. Những tính chất đặc
biệt của microsatellite như sự đột biến điểm dẫn đến những giả thiết cho rằng
microsatellite có thể là một nguồn chủ yếu tạo nên sự đa dạng về di truyền số
lượng và quá trình tiến hóa thích nghi. Nó cho phép một quần thể có thể khôi
phục lại nguồn đa dạng di truyền đã bị mất trong quá trình chọn lọc, nó hoạt
động như một “núm điều chỉnh” mà qua đó những gen đặc biệt có thể điều
chỉnh nhanh chóng các phản ứng thay đổi ít hay nhiều trong quá trình đòi hỏi
của tiến hóa. Do vậy microsatellite là một nguồn rất quan trọng trong việc
nghiên cứu đa dạng di truyền và làm cơ sở cho sự thay đổi của tiến hóa.
2.3.4. Ứng dụng
Thiết kế bản đồ gen trong di truyền.
Đa dạng hóa vật liệu di truyền.
Nghiên cứu quần thể.
Chẩn đoán và xác định các bệnh ở người.
Sử dụng cho việc bảo tồn hệ sinh vật trong thiên nhiên.
2.4. EST [23]
2.4.1. Sơ lƣợc về EST
EST (Expressed Sequence Tag) là những Marker được tạo ra nhờ PCR, sử
dụng các primer có tính chất oligonucleotide, thiết kế primer trên cơ sở chuỗi
trình tự của cDNA.
Expressed Sequence Tag là một phần nhỏ của toàn bộ gen mà nó có thể
được sử dụng để nhận biết những gen chưa biết và xác lập vị trí của chúng
trong bộ gen.
20
ESTs cung cấp một phương pháp nghiên cứu nhanh chóng và không tốn
kém đối với việc khám phá ra các gen mới, tính bảo toàn của gen về biểu hiện
và điều khiển hoạt động, và xây dựng bản đồ di truyền.
2.4.2. Nguồn gốc của EST
ESTs là những mảnh nhỏ của cấu trúc DNA (thường có chiều dài từ 200
đến 500 Nucleotide), chúng được hình thành bởi một phần hay toàn bộ cấu
trúc của một gen biểu hiện. Đó là sự kết hợp những phần nhỏ DNA của gen
nằm trong các tế bào, mô, cơ quan của những sinh vật khác nhau và sử dụng
những “tags” này để thiết lập một gen nằm ngoài vị trí của chromosome bằng
cách bắt cặp với các cặp base.
Đây là sự kết hợp khó khăn của những gen đã biết từ các bộ gen khác
nhau giữa các loài sinh vật và phụ thuộc vào kích thước của bộ gen khi có mặt
hay không có mặt của các intron, sự can thiệp của cấu trúc DNA làm gián
đoạn cấu trúc của gen quy định protein.
2.5. Cơ sở dữ liệu và hệ quản trị cơ sở dữ liệu [1, 7]
2.5.1. Nguyên nhân ra đời của mô hình quan hệ (Relational Model)
Trong nhiều năm, công nghệ tính toán và thông tin phát triển từ những hệ
thống lớn, đắt tiền, độc quyền đến các hệ thống mở mạnh và không đắt tiền.
Sự phát triển này mang lại lợi ích to lớn cho người dùng cuối bởi sự phát triển
của các gói ứng dụng số như xử lý văn bản, bảng tính điện tử, văn phòng xuất
bản, hệ quản lý cơ sở dữ liệu, máy tính trợ giúp công nghệ phần mềm....
Trước khi máy tính hóa cơ sở dữ liệu đươc giới thiệu, dữ liệu được lưu trữ
theo kiểu điện tử thành nhiều tập tin riêng biệt sử dụng hệ tập tin (hệ tập tin
theo lối cũ). Những tập tin này được xử lý bằng các ngôn ngữ thế hệ thứ ba
như Cobol, Fortran, Pascal và ngay cả Basic để tạo ra các giải pháp cho các
vấn đề của doanh nghiệp. Các ứng dụng như vậy tạo ra ba vấn đề sau:
Có sự liên kết chặt chẽ giữa cấu trúc luận lý và cấu trúc vật lý của các
tập tin và chương trình ứng dụng khai thác chúng. Điều này khiến việc tạo
nên các ứng dụng này rất khó khăn, tốn nhiều thời gian và do vậy mà tốn
kém trong bảo trì hệ thống.
Có sự dư thừa dữ liệu rất lớn qua việc trùng lắp các tập tin trong các
ứng dụng khác nhau. Điều này tạo ra những vấn đề như: dữ liệu thiếu nhất
21
quán, không gian đĩa bị lãng phí, thời gian bảo trì và lưu phòng hờ các tập
tin gia tăng, vấn đề về quản trị như không chú trọng bảo mật và tổ chức
dữ liệu thiếu thống nhất.
Người sử dụng có ít khả năng khai thác trực tiếp dữ liệu.
2.5.2. Cơ sở dữ liệu (Database) và hệ quản trị cơ sở dữ liệu (Database
Management System)
2.5.2.1. Định nghĩa cơ sở dữ liệu
Cơ sở dữ liệu là một tập hợp dữ liệu được tổ chức theo một cấu trúc
chặt chẽ nhằm phục vụ cho nhiều mục tiêu khác nhau một cách có chọn
lọc, có tương quan, các mẫu tin và các cột. Tập hợp dữ liệu sẽ được lưu trữ
trên các thiết bị lưu trữ thông tin thứ cấp như băng từ, đĩa từ,… để thỏa
mãn nhu cầu khai thác thông tin đồng thời của nhiều người sử dụng hay
nhiều chương trình ứng dụng với nhiều mục đích khác nhau.
Ngày nay cơ sở dữ liệu tồn tại trong mỗi ứng dụng thông dụng.
Như vậy, các đặc tính của một cơ sở dữ liệu là:
Tính nhất quán.
Tính toàn vẹn.
Tính tích hợp.
Tính chia sẻ.
Tính độc lập dữ liệu.
Tính an toàn.
Tính bảo mật.
2.5.2.2. Hệ quản trị cơ sở dữ liệu
Hệ quản trị cơ sở dữ liệu đầu tiên ra đời vào đầu những năm 60 dựa
trên mô hình dữ liệu phân cấp và mô hình mạng. Năm 1976 đánh dấu sự ra
đời hệ quản trị cơ sở dữ liệu đầu tiên dựa trên mô hình quan hệ mang tên
System-R. Đến những năm 90, bắt đầu xuất hiện các hệ quản trị cơ sở dữ
liệu dựa trên mô hình hướng đối tượng,… Tuy nhiên chúng vẫn dựa chủ
yếu vào nền tảng là mô hình quan hệ. Hệ quản trị ODMG ra đời năm 1996
được coi là hệ quản trị thuần hướng đối tượng nhất.
Một hệ quản trị cơ sở dữ liệu là:
22
Một tập các phần mềm quản lý cơ sở dữ liệu và cung cấp các dịch
vụ xử lý cơ sở dữ liệu cho các những người phát triển ứng dụng và
người dùng cuối.
Hệ quản trị cơ sở dữ liệu cung cấp một giao diện giữa người sử
dụng và dữ liệu.
Hệ quản trị cơ sở dữ liệu biến đổi cơ sở dữ liệu vật lý thành cơ sở
dữ liệu logic.
Hình 2. 2. Sơ đồ một hệ quản trị cơ sở dữ liệu
Dựa vào cách tổ chức dữ liệu, hệ quản trị cơ sở dữ liệu được chia
thành năm loại:
Loại phân cấp như hệ IMS của IBM
Loại mạng như IDMS của Cullinet Software
Loại tập tin đảo như ADABAS của Software AG
Loại quan hệ như như ORACLE của Oracle, DB2 của IBM,
ACCESS của Microsoft Access
Loại đối tượng là một tiếp cận khá mới trong thiết kế hệ quản trị
cơ sở dữ liệu và việc sử dụng loại này sớm trở nên phổ biến
Hiện tại, loại hệ quản trị cơ sở dữ liệu chính được sử dụng trong công
nghệ là loại hệ quản trị cơ sở dữ liệu quan hệ. Loại này đã chiếm lĩnh trong
công nghệ trên 10-15 năm cuối cùng khi đánh bật loại hệ quản trị cơ sở dữ
liệu phân cấp và gần đây là hệ quản trị cơ sở dữ liệu mạng.
Hiện nay, một số hệ quản trị cơ sở dữ liệu mạnh đang được đưa ra thị
trường như Visual FoxPro, SQL-Server, Oracle,…
Một hệ quản trị cơ sở dữ liệu phải có khả năng giải quyết các vấn đề:
23
Tính chủ quyền của dữ liệu: đó là phải bảo đảm vấn đề an toàn dữ
liệu và tính chính xác của dữ liệu.
Tính bảo mật và quyền khai thác thông tin của người sử dụng.
Tranh chấp dữ liệu: do có thể cùng một lúc có nhiều người cùng
truy cập vào một nguồn tài nguyên dữ liệu với các mục đích khác
nhau nên hệ quản trị cơ sở dữ liệu phải có cơ chế ưu tiên truy cập dữ
liệu.
Phục hồi dữ liệu khi có sự cố.
2.5.3. Các mô hình dữ liệu
2.5.3.1. Định nghĩa
Mô hình dữ liệu là sự trừu tượng hóa thế giới thực, là sự biểu diễn dữ
liệu mức quan niệm. Mô hình dữ liệu được phân loại dựa trên các cách tiếp
cận dữ liệu khác nhau của các nhà phân tích, thiết kế cơ sở dữ liệu. Mô
hình dữ liệu hoàn toàn độc lập giữa hệ thống máy tính và cấu trúc dữ liệu.
Hiện nay, có năm loại mô hình dữ liệu chính. Đó là:
Mô hình dữ liệu mạng: thập niên 60-70.
Mô hình dữ liệu phân cấp: thập niên 60-70.
Mô hình dữ liệu quan hệ: thập niên 80.
Mô hình dữ liệu thực thể kết hợp: thập niên 90.
Mô hình dữ liệu hướng đối tượng: thập niên 90.
2.5.3.2. So sánh các mô hình dữ liệu
Sự ra đời của mô hình dữ liệu quan hệ đã khắc phục được những khó
khăn khi thiết kế và quản lí cơ sở dữ liệu theo mô hình mạng và mô hình
phân cấp.
Thứ nhất, mô hình mạng và mô hình phân cấp sử dụng nguyên lý
chủ nhân – thành viên, cha – con rất khó khăn cho việc thiết kế, sắp
xếp và sau khi thiết kế xong muốn sửa đổi rất phức tạp, hầu như phải
làm lại từ đầu. Mô hình quan hệ tổ chức dữ liệu dưới dạng bảng dễ
hiểu và đơn giản hơn trong việc thiết kế và sửa đổi sau này. Ngoài ra,
việc thiết kế mô hình quan hệ hoàn toàn độc lập với hệ quản trị cơ sở
dữ liệu.
24
Thứ hai, các ngôn ngữ để tạo và thao tác các cấu trúc trong mô
hình mạng và mô hình phân cấp rất khó sử dụng. Ví dụ khi sử dụng
hệ quản trị IDMS đòi hỏi phải thông thạo về ngôn ngữ từ điển dữ liệu
tích hợp và các trình biên dịch lược đồ và lược đồ con. Trong khi đó,
các hệ quản trị theo mô hình quan hệ dễ sử dụng hơn vì sử dụng ngôn
ngữ truy vấn dữ liệu ở mức độ cao như SQL,…
Do những ưu điểm trên cơ sở dữ liệu quan hệ ngày càng được sử
dụng rộng rãi. Tuy nhiên, trong một số trường hợp, mô hình quan hệ trở
nên không thích hợp, nhất là khi sử dụng nó để thể hiện những dữ liệu có
quan hệ cấu trúc như cây hệ thống sinh học. đối với những loại dữ liệu loại
này, sử dụng mô hình dữ liệu hướng đối tượng là thích hợp nhất.
Khi một cơ sở dữ liệu được xây dựng xong, thì việc tiếp theo là làm
sao để có thể truy xuất thông tin từ cơ sở dữ liệu này, nghĩa là người dùng
có thể nhận được các thông tin mà họ cần hay có thể bổ sung thêm một vài
thông tin qua một giao diện thân thiện. Hơn thế nữa, người dùng còn muốn
chia sẻ thông tin với các nơi khác. Để thực hiện được điều đó, người ta
thường chọn giao thức CGI, hiển thị những đòi hỏi thông tin về cơ sở dữ
liệu của người dùng thông qua dịch vụ web.
2.5.4. Ngƣời dùng (User)
Người dùng khai thác cơ sở dữ liệu thông qua hệ quản trị cơ sở dữ liệu có
thể phân thành ba loại: người quản trị cơ sở dữ liệu, người phát triển ứng dụng
và lập trình, người dùng cuối.
Người quản trị cơ sở dữ liệu, hàng ngày, chịu trách nhiệm quản lý và
bảo trì cơ sở dữ liệu
Người phát triển và lập trình ứng dụng là những người chuyên nghiệp
về máy tính có trách nhiệm thiết kế, tạo dựng và bảo trì hệ thông tin cho
người dùng cuối.
Người dùng cuối là những người không chuyên về máy tính nhưng
họ là các chuyên gia trong các lãnh vực khác có trách nhiệm cụ thể trong
tổ chức. Họ khai thác cơ sở dữ liệu thông qua hệ được phát triển bởi
người phát triển ứng dụng hay các công cụ truy vấn của hệ quản trị cơ sở
dữ liệu.
25
2.5.5. Cơ sở dữ liệu quan hệ và hệ tập tin theo lối cũ
Tiếp cận cơ sở dữ liệu đã giải quyết 3 vấn đề của hệ tập tin theo lối cũ:
2.5.5.1. Vấn đề 1: Cấu trúc logic và cấu trúc vật lý
Hình 2. 3. So sánh cơ sở dữ liệu quan hệ và hệ tập tin theo lối cũ
Kiến trúc bên trong hệ quản trị cơ sở dữ liệu quan hệ tách biệt rõ ràng
giữa:
Cấu trúc luận lý của tất cả tập tin và chương trình ứng dụng khai
thác tập tin này
Cấu trúc vật lý của cơ sở dữ liệu và phần lưu trữ các tập tin.
Tiếp cận này tạo cho người quản trị cơ sở dữ liệu có thể thay đổi cấu
trúc vật lý hay nơi lưu trữ của tập tin mà không ảnh hưởng đến chương
trình ứng dụng.
2.5.5.2. Vấn đề 2: Dƣ thừa dữ liệu
Khi hệ quản trị cơ sở dữ liệu quan hệ được giới thiệu, nhiều tổ chức
mong tích hợp các tập tin đã phân tán khắp trong tổ chức vào một cơ sở dữ
liệu tập trung. Dữ liệu có thể chia sẻ cho nhiều ứng dụng khác nhau và
người sử dụng có thể khai thác đồng thời các tập con dữ liệu liên quan đến
họ. Điều này làm hạn chế sự dư thừa dữ liệu.
2.5.5.3. Vấn đề 3: Sự khai thác dữ liệu của ngƣời sử dụng
Trong hệ quản trị cơ sở dữ liệu quan hệ người dùng có thể trực tiếp
khai thác dữ liệu thông qua việc sử dụng các câu truy vấn hay các công cụ
báo cáo được cung cấp bởi hệ quản trị cơ sở dữ liệu.
26
2.6. Internet và Web [5]
2.6.1. Sơ lƣợc về Internet
2.6.1.1. Tóm lƣợc lịch sử phát triển
Năm 1957, Bộ quốc phòng Mỹ thành lập cơ quan nghiên cứu các dự
án kỹ thuật cao ARPA (Advanced Research Projects Agency), thuộc một
bộ phận trong bộ quốc phòng. Chỉ một thập niên sau, năm 1969, ARPA
thiết lập mạng ARPANET – tiền thân của Internet ngày nay. ARPANET là
một mạng máy tính nối bốn máy chủ tại các trường đại học California –
Los Angeles, đại học California – Santa Barbara, viện nghiên cứu
Standford và đại học Utah lại với nhau.
Từ năm 1969 đến 1986, số lượng máy chủ tăng lên khoảng năm ngàn.
Đến năm 1973, mạng xuyên quốc gia đầu tiên được thiết lập giữa hai
nước Anh và Na Uy.
Năm 1982, giao thức TCP/IP ra đời và nhanh chóng trở thành giao
thức chuẩn.
Năm 1985 là năm bùng nổ Internet lần thứ 1 khi xa lộ thông tin thực
sự hình thành. Lúc này có khoảng 2000 máy trên Internet.
2.6.1.2. Tổng quát về Internet
Internet là kho tài nguyên thông tin, là mạng của các mạng, là một tổ
hợp hàng triệu máy tính trên toàn thế giới, có thể trao đổi, chia sẻ nguồn
thông tin hầu như vô tận với nhau cho dù người dùng đang ở đâu và vào
lúc nào. Các máy tính có thể đủ các loại và sử dụng các hệ điều hành khác
nhau một cách bình đẳng.
Như vậy Internet là một mạng khổng lồ được tạo ra bằng việc kết nối
các máy tính và các mạng máy tính lại với nhau. Nó kết hợp nhiều mạng
máy tính riêng rẽ của các trường học, thư viện, các hãng kinh doanh, bệnh
viện, các tổ chức nhà nước, viện nghiên cứu… và nhiều thành phần khác
vào trong một mạng chung rộng lớn mang tính chất toàn cầu.
Từ đó, một loạt các thuật ngữ lần lượt ra đời như webServer,
webClient, webPage, webSite, URL:
WebServer: Máy cung cấp thông tin dạng web.
WebClient: Máy truy xuất thông tin từ web server.
27
WebSite: Tập hợp các trang web của một tổ chức, một website có
thể có nhiều web server.
WebPage: Một trang tự liệu web.
URL (Uniform Resource Locator) đường dẫn chỉ đến một tập tin
trong một máy chủ trên Internet.
Việc kết nối về mặt vật lý các mạng máy tính này được thực hiện
thông qua các mạng viễn thông khác nhau như mạng điện thoại công cộng,
kênh vệ tinh (satellite), các kênh vi-ba (micro-waves), các đường thuê
riêng (dedicated lines), hoặc cáp quang (optical cable),…
Không thể có được sơ đồ cụ thể của mạng Internet vì các máy tính và
các mạng máy tính liên tục đăng ký thêm vào mạng Internet cũng như các
thông tin trên mạng cũng liên tục được thay đổi, cập nhật.
Các đặc tính chính của Internet:
Mạng thông tin phát triển với tốc độ nhanh chưa từng thấy trong
lịch sử.
Mạng máy tính lớn nhất thế giới.
Mạng duy nhất có quy mô toàn cầu, lớn nhất về lãnh thỗ, số
người tham gia, các hoạt động dịch vụ về thông tin.
Internet là công nghệ tin học tiên tiến nhất, mới nhất, là công
nghệ chuẩn, công nghệ mở, sản phẩm trí tuệ chung của nhân loại.
Internet là mạng thông tin không có chủ hoặc có rất nhiều chủ.
Công cụ không thể thiếu trong xã hội thông tin.
Bộ mặt văn hóa mới có tính toàn cầu.
Thành phần của Internet bao gồm:
Các máy chủ (Host Computer hay Internet Server).
Các máy trạm (Work Station hay Client).
Các thiết bị đầu cuối như Card mạng, Hub, Router,…
Đường truyền.
Các phần mềm quản trị Server trên máy chủ.
Các phần mềm Client trên máy người dùng.
28
2.6.2. Các dịch vụ đƣợc cung cấp trên Internet
2.6.2.1. Phân loại khối thông tin
Khối thông tin mở cho công cộng: bao gồm các thông tin về văn hóa,
xã hội, giáo dục và đào tạo, khoa học kỹ thuật, kết quả của các công trình
nghiên cứu khoa học công nghệ. Bất cứ ai thuộc mạng, một khi đã truy cập
vào mạng, tại bất kỳ điểm nút nào, bất cứ lúc nào đều có thể khai thác và
nhận được tất cả thông tin thuộc loại mở này.
Khối thông tin không mở cho công cộng: bao gồm các hệ thống cơ sở
dữ liệu chuyên ngành do các tổ chức có mạng con hoặc có các máy chủ ở
bất cứ nước nào xây dựng và thiết lập để phục vụ cho các nhu cầu riêng
của họ và để bán thông tin. Các cơ sở dữ liệu này thường được bảo mật
cao, chỉ những người sử dụng nào được phép mới có quyền truy nhập và
khai thác.
2.6.2.2. Các dịch vụ cơ bản
Tìm kiếm thông tin.
Thư điện tử.
Truyền File.
Trao đổi trực tiếp.
Truy cập máy tính khác.
2.6.3. Tích hợp cơ sở dự liệu với web
Có nhiều kỹ thuật được dùng để tích hợp cơ sở dữ liệu với web để tạo ra
trang web động như CGI, PHP, ASP, JSP, Coldfusion.
2.7. Ngôn ngữ lập trình Perl và Javascript
2.7.1. Ngôn ngữ Perl [7]
2.7.1.1. Tóm tắt lịch sử phát triển
Perl là chữ viết tắt của “Practical Extraction and Report Language”.
Larry Wall tạo ra ngôn ngữ Perl năm 1986 nhằm quản trị và cấu hình các
mạng máy tính lớn. Ngôn ngữ này phát sinh từ ngôn ngữ lập trình C và bị
ảnh hưởng bởi ngôn ngữ khác như BASIC, awk, sed và UNIX shell.
Năm 1987, Perl 1.0 ra đời.
29
Năm 1988, Perl 2.0 phát hành và được các nhà quản trị UNIX sử
dụng rộng rãi.
Năm 1989, Perl 3.0 ra đời, nhưng phiên bản này được phát hành dưới
bản quyền được bảo vệ của GNU. Với phiên bản này Perl nhanh chóng trở
thành tiêu chuẩn để viết CGI script dùng cho việc xử lý dữ liệu được gửi
trên Internet.
Năm 1991, phiên bản 4.0 được đưa ra vào tháng 3. Đến thời điểm
này, Perl đã trở thành ngôn ngữ khá hoàn chỉnh mặc dù vẫn còn một số
khuyết điểm nhỏ.
Năm 1994, phiên bản Perl 5.0 ra đời cùng với sự ra đời của DBI
(Database Interface) và DBD (Datadbase Driver) cho hệ quản trị cơ sở dữ
liệu Oracle của Tim Bunce. Từ đó, các DBD của các hệ quản trị cơ sở dữ
liệu khác cũng dần xuất hiện.
Năm 2000, phiên bản 5.6 xuất hiện vào tháng 3. Phiên bản này đã
chuyển sang định dạng tiêu chuẩn và có sự hỗ trợ cả Unicode và UTF-8.
Năm 2002, phiên bản Perl 5.8 ra đời cùng với nhiều cải tiến mới được
bổ sung.
2.7.1.2. Ứng dụng
Perl được dùng để xử lý tập tin, truy cập dữ liệu và được dùng cho
giao diện cổng chung (Common Gateway Interface – CGI), tiến hành tạo
script của Microsoft Windows, tạo giao diện người dùng đồ họa (graphical
user interface – GUI).
Ưu điểm: là ngôn ngữ dễ nắm bắt, thích hợp cho xử lý chuỗi và văn
bản thuần túy, được sự hổ trợ của nhiều hệ điều hành. Vì vậy, Perl là ngôn
ngữ lập trình thích hợp cho các nhà tin – sinh học vì nó có thể giúp cho
việc thao tác trên các chuỗi trình tự sinh học, tạo cơ sở dữ liệu sinh học dễ
dàng hơn. Ngoài ra, Perl còn được sự hỗ trợ module (tập các hàm) giúp kết
nối, truy xuất cơ sở dữ liệu với trang Web, tạo ra trang web động.
Nhược điểm: chỉ có thể dùng để viết các chương trình, script nhỏ.
2.7.1.3. Một số module của Perl thƣờng đƣợc sử dụng
Mudule CGI (Common Gateway Interface – CGI) của Perl: do
Lincoln D. Stein viết. Module này gồm các hàm giúp viết kịch bản Perl
30
theo giao thức CGI. Các script này giúp lấy thông tin từ trình diệt khách
gởi đến máy chủ, đưa vào chương trình sử lý và đưa lại thông tin kết quả
đến máy khách.
Module DBI (Database Interface) của Perl: là tập các hàm, biến và
những qui ước cần thiết cho việc tương tác với một cơ sở dữ liệu nhất định
thông qua Perl script, hoàn toàn độc lập với hệ quản trị cơ sở dữ liệu (do
tác giả của DBI, Tim Bunce, định nghĩa). Những tương tác có thể nhập,
nâng cấp, xử lý, rút trích,…dữ liệu vào hay ra khỏi cơ sở dữ liệu.
Module DBD (Datadbase Driver) của Perl: là một module phụ thuộc
loại hệ quản trị cơ sở dữ liệu và liên kết với module BDI để truy cập vào
một loại hệ quản trị cơ sở dữ liệu nhất định. Như vậy tương ứng với một hệ
quản trị cơ sở dữ liệu có một loại DBD. Ví dụ như hệ quản trị MySQL có
Database Driver là DBD::MySQL.
Hình 2. 4. Tƣơng tác giữa Perl script-DBI-DBD-và RBDMS
2.7.2. Ngôn ngữ Javascript [6]
Javascript đã và đang phát triển một cách vững chắc về mặt phổ cập lẫn
khả năng kể từ khi nó ra đời và hiện giờ đã trở thành ngôn ngữ số một dành
cho trình duyệt. Công nghệ này có hai thế mạnh chính: hỗ trợ nhiều trình duyệt
khác nhau và có thể lập trình dễ dàng. Công nghệ này thành công đến nỗi nó
không chỉ là ngôn ngữ lập trình cho các trình duyệt mà còn được dùng để lập
trình cho các tập tin PDF và lập trình cho máy chủ web.
P
E
R
L
S
C
R
I
P
T
D
B
I
S
w
i
t
c
h
DBD
DBD
DBD
RDBMS
RDBMS
RDBMS
31
2.7.2.1. Định nghĩa Javascript
Javascript ra đời với tên gọi là LiveScript, tuy nhiên Netscape đã thay
đổi tên gọi thành Javascript. Tuy nhiên, tên gọi này đã gây ra lúng túng cho
một số người khi cho rằng có một mối quan hệ gần gũi giữa Java và
Javascript. Trong thực tế, giữa hai ngôn ngữ này có rất ít các điểm chung,
dù rằng cú pháp của chúng có thể giống nhau.
Năm 1996, ngôn ngữ Javascript được tạo ra bởi Netscape và được đưa
vào trong trình duyệt Netscape Navigator 2.0 của họ thông qua một trình
biên dịch để đọc và thực hiện các mã lệnh Javascript được kèm theo trong
các trang .HTML. Ngôn ngữ này ngày càng trở nên phổ cập và hiện giờ đã
được hỗ trợ bởi phần lớn các trình duyệt trên Internet: các trình duyệt được
tạo bởi ra bởi Netscape và Microsoft, cũng như các trình duyệt ít phổ biến
hơn như Opera.
2.7.2.2. Javascript có thể làm gì?
Các hiệu ứng rollover (thay đổi hình ảnh khi di chuyển chuột lên phía
trên hình ảnh) và các thủ thuật HTML đều có gắn liền với Javascript.
Kiểm tra tính hợp lệ về dữ liệu người dùng, kiểm tra xem dữ liệu
được nhập vào có phù hợp không trước khi chúng được gửi lên máy chủ.
Khi Javascript được phát triển theo đúng chức năng của mình, các nhà
phát triển và các nhà thiết kế có thể tạo ra nhiều hiệu ứng và tương tác trực
quan có ấn tượng hơn cho người dùng.
2.7.2.3. Ƣu và nhƣợc điểm của Javascript
Ưu điểm:
Khả năng chạy trên nhiều trình duyệt.
Kiểm tra tính hợp lệ của dữ liệu trên máy khách.
Khả năng tạo ra các giao diện người dùng tinh tế và phức tạp.
Các hiệu ứng tạo ra bởi Javascript còn có thể được tải xuống
nhanh hơn rất nhiều so với một số công nghệ khác như Flash và Java
applets.
Các ưu điểm khác bao gồm: không cần phải có các công cụ riêng
biệt để viết Javascript, có thể sử dụng bất kỳ trình soạn thảo văn bản
32
hoặc HTML nào để thực hiện việc đó, không phải tốn chi phí để mua
các sản phẩm phần mềm vốn thường là không rẻ. Javascript cũng là
một ngôn ngữ dễ học, trên Internet có rất nhiều nguồn thông tin và
nhiều cộng đồng các nhà phát triển có tính hỗ trợ nhau trong việc phát
triển ứng dụng Javascript để tham khảo.
Nhược điểm:
Phụ thuộc vào tính tương thích của trình duyệt
2.8. Cơ sở dữ liệu sinh học
Dữ liệu sinh học ngày càng tăng theo cấp số mũ qua các dự án giải trình tự
bộ gene, do sự phát triển của kỹ thuật và thiết bị thí nghiệm như kỹ thuật DNA
micro array, kỹ thuật giải trình tự tự động cho phép tạo ra hàng ngàn dữ liệu sinh
học trong chốc lát. Như vậy vấn đề đặt ra là cần phải có biện pháp lưu trữ, quản
lý, sử dụng và chia sẽ nguồn dữ liệu này. Do đó cần xây dựng các dữ liệu này
thành một cơ sở dữ liệu hoàn chỉnh để có thể thực hiện được mục đích trên. Hơn
thế nữa, với việc hệ thống hóa toàn bộ dữ liệu trên, chúng ta dễ dàng thực hiện
việc chia sẽ những thông tin ấy qua mạng Internet hay kết nối thêm vào những tập
dữ liệu ở nơi khác.
Một số cơ sở dữ liệu lớn, trực tuyến đã được xây dựng để cung cấp thông tin
cho các nhà nghiên cứu sinh học như NCBI, EBI, SIB, DDBJ,…
2.8.1. NCBI
2.8.1.1. Vài nét về NCBI
Hình 2. 5. Tƣơng quan giữa NCBI, NLM (National Library of
Medicine và NIH)
NCBI là chữ viết tắt của “Center for Bioinformatic Information”. Đây
là trung tâm quốc gia về Công nghệ sinh học, thuộc viện sức khỏe quốc gia
của Hoa kỳ (NIH – National Insitute of Health). NCBI chính thức được
NLM
NCBI
NIH
33
thành lập vào ngày 4/10/1988. Đến năm 1991, NCBI đảm nhiệm việc quản
lý cơ sở dữ liệu trình tự DNA và từ đó NCBI còn được gọi là GenBank.
NCBI là nơi cung cấp, trao đổi thông tin về sinh học phân tử của Mỹ,
thông qua những cơ sở dữ liệu trực tuyến. Ngoài ra, NCBI còn tham gia
những nghiên cứu về “sinh học tính toán” (computation biology), phát triển
những công cụ phân tích dữ liệu bộ gene, protein,…
2.8.1.2. Một số cơ sở dữ liệu trong NCBI
Nucleotide (GenBank): là cơ sở dữ liệu về trình tự nucleotide.
Protein: là cơ sở dữ liệu về trình tự amino acid.
Genome: trình tự toàn bộ genome của một số sinh vật.
Structure: hay còn có tên gọi là MMDB (Molecular Modeling
Database) chứa cấu trúc ba chiều của những đại phân tử bao gồm cả
protein lẫn những chuỗi nucleotide.
Ngoài ra, NCBI còn một số cơ sở dữ liệu khác. Chúng là các cơ sở dữ
liệu trung gian, được tạo thành từ sự kết hợp của hai hay nhiều cơ sở dữ
liệu trên, hay do liên kết đến các cơ sở dữ liệu khác.
2.8.1.3. Một số công cụ trong NCBI
Công cụ khai thác dữ liệu:
Tìm kiếm thông tin sinh học dựa trên từ khóa có dạng văn bản:
Entrez: chứa các phương thức tìm kiếm như tìm kiếm dựa trên
accession number, hay dựa theo tên sinh vật, tên gene, tên
protein,… trên tất cả các cơ sở dữ liệu.
Tìm kiếm trình tự tương đồng: có phần mềm điển hình như:
BLAST (Basic Local Alignment Search Tool): có BLAST
Homepage là nơi cung cấp thông tin hướng dẫn về BLAST,
chương trình BLAST,…
Blink: nơi hiển thị kết quả bằng BLAST trên mọi protein có
trong mọi cơ sở dữ liệu protein Entrez.
Network-client BLAST: client BLAST (blastcl3) có thể thâm
nhập vào bộ máy BLAST của NCBI. Blastcl3 này có thể tìm kiếm
tất cả các trình tự dưới dạng file FASTA và tạo sự gióng cột một-
34
nhiều trình tự, sau đó lưu dưới dạng file text hay HTML. Ngoài
ra, blastcl3 còn có thể thực hiện việc tìm kiếm trên nhiều cơ sở dữ
liệu.
Stand-alone BLAST: là phần mềm có thể tải về từ NCBI.
Phần mềm này thực hiện việc tìm kiếm các trình tự tương tự trên
cơ sở dữ liệu trình tự cục bộ.
Phân loại sinh vật:
Taxonomy Browser: công cụ thực hiện việc tìm kiếm trên cơ sở
dữ liệu Taxonomy.
Taxonomy BLAST: nhóm lại những kết quả có tỉ lệ tương đồng
khi thực hiện BLAST, tùy thuộc vào sự phân loại của chúng trong cơ
sở dữ liệu Taxonomy.
TaxTable: tóm tắt kết quả sau khi thực hiện BLAST với cơ sở dữ
liệu Taxonomy và hiển thị mối quan hệ giữa sinh vật này với sinh vật
khác bằng các biểu đồ màu.
Công cụ phục vụ cho việc góp trình tự protein, DNA, EST, STS,…
lên NCBI
Sequin: phần mềm này có thể tải về từ NCBI, hổ trợ cho việc tạo
ra những file văn bản (chứa trình tự, tên tác giả, bài báo,…) có cấu
trúc theo khuôn mẫu. Trong phần mềm này còn kèm theo một số
công cụ nhỏ như công cụ tìm khung đọc mở, công cụ gióng cột trình
tự,… phần mềm này thích hợp cho việc góp nhiều trình tự cùng một
lúc.
NCBI còn tích hợp khá nhiều những công cụ, phần mềm phân tích
trình tự DNA, protein như: BanklIt, ORF Finder, Electronic-PCR (e-PCR),
VecScreen, Homologene, COGs, COGnitor, GEO, MGC, Clone Registry,
CDD, LocusLink,…
35
Phần 3
PHƢƠNG PHÁP VÀ CHƢƠNG TRÌNH SỬ DỤNG
CÁC PHẦN MỀM ĐƢỢC SỬ DỤNG
3.1. Các chƣơng trình và ngôn ngữ lập trình đƣợc sử dụng [7]
3.1.1. Hệ điều hành
Microsoft Windows XP Server Pack 2. Xây dựng CSDL trình tự SSRs
của cây dứa Ananas comosus trên hệ điều hành này.
3.1.2. Các chƣơng trình phân tích trình tự
3.1.2.1. Chƣơng trình so sánh trình tự ClustalW
ClustalW là một phần mềm (chạy trên nền Dos) dùng để so sánh sự
tương đồng của hai hay nhiều trình tự sinh học (pairswise or mutiple
alignment). ClustalW mô tả kết quả bằng hệ thống các kí hiệu làm nổi bậc
những nét đặc trưng trong những đoạn tương đồng. ClustalW ngày càng trở
nên hữu ích cho các nhà nghiên cứu trong việc tìm kiếm những vùng bảo
tồn trên những trình tự DNA hoặc protein. Sự hiểu biết về mutiple
alignment giúp ích rất nhiều cho các nhà khoa học trong việc dự đoán cấu
trúc bậc hai, bậc ba của protein, đồng thời phát hiện sự tương đồng giữa
những đoạn gene (hoặc protein) vừa được giải trình tự với những gene
(hoặc protein) đã tồn tại.
ClustalW tiến hành so sánh tương đồng nhiều trình tự sinh học qua ba
giai đoạn:
Đầu tiên chương trình sử dụng thuật toán alignment xấp xỉ của
Wilbur và Lipman năm 1983 để tính hệ số tương đồng giữa mỗi cặp
trình tự.
Những hệ số tương đồng tính được sẽ được sử dụng để thành lập
cây phả hệ (“Guide tree” hay dendrogram) bằng phương pháp
UPGMA (Unwieghted Pair – Group Method) của Sneath và Sokal
năm 1973.
36
Cuối cùng các trình tự được so sánh với những nhóm trình tự lớn
hơn và cứ thế tiếp tục. Ở mỗi giai đoạn so sánh này, ClustalW sẽ sử
dụng thuật toán của Myers và Miller (1998) nhằm tối ưu kết quả.
ClustalW được tải về từ trang web:
(
3.1.2.2. Chƣơng trình tìm kiếm các trình tự tƣơng đồng – BLAST
BLAST là một chương trình tìm kiếm và so sánh trình tự tương đồng
được nhiều người dùng nhất hiện nay. Thuật giải của BLAST xuất phát từ
ý tưởng “liệu trong ngân hàng dữ liệu (bao gồm cả CSDL cục bộ và những
CSDL lớn trên thế giới như GenBank, EMBL,…) có trình tự nào giống
hoặc gần giống với trình tự đang quan tâm”. BLAST thực hiện so sánh
trình tự nhập vào (có thể DNA hay protein) với những trình tự trong
CSDL. Kết quả của BLAST là những số liệu thống kê chính xác về tỉ lệ
tương đồng và nguồn gốc các trình tự.
Chiến lược tìm kiếm trình tự tương đồng trong BLAST được thực
hiện qua ba bước chính:
Đầu tiên BLAST tìm kiếm những đoạn tương đồng HSPs (High
Scoring Pair) giữa một trình tự đưa vào và mỗi trình tự trong CSDL.
Công việc tiếp theo là thực hiện đánh giá ý nghĩa thống kê dựa
trên bất cứ sự tương đồng nào được tìm thấy.
Sau cùng BLAST đưa ra một báo cáo kết quả giống nhau thỏa
mãn ngưỡng giá trị mà người dùng mong muốn.
Stand-alone BLAST sử dụng trong khóa luận này có thể tải về từ địa
chỉ của trang CSDL NCBI:
(ftp://ftp.ncbi.nih.gov.blast/executables/).
3.1.2.3. Hệ quả trị CSDL quan hệ MySQL
MySQL là một hệ quản trị CSDL quan hệ nguồn mở phổ biến nhất,
dưới sự phát triển, phân phối và bảo vệ bởi MySQL AB (MySQL AB là
một công ty thương mại). Phần SQL của MySQL được viết tắt từ chữ
“Structured Query Language”. SQL là một ngôn ngữ chuẩn được dùng phổ
biến để xây dựng CSDL và được công nhận bởi cơ quan tiêu chuẩn SQL là
ANSI/ISO công nhận (phiên bản chuẩn của SQL ra đời từ năm 1986 và cho
37
đến nay thì có rất nhiều phiên bản đã tồn tại, “SQL:2003” là phiên bản
chuẩn ra đời vào giữa năm 2003, phiên bản này có nhiều ưu điểm so với
các phiên bản trước đó).
Ưu điểm.
Dể sử dụng.
Mã nguồn mở.
Thích hợp cho việc xây dựng CSDL vừa và nhỏ.
Nhược điểm:
Không thích hợp cho việc xây dựng CSDL lớn.
3.1.2.4. Apache web Server
Trên thế giới hiện nay có rất nhiều trình chủ web hỗ trợ CGI và một
trong số đó là Apache web Server. Apache web Server là một trình chủ
web được nhiều người dùng nhất hiện nay trên Internet. Apache có được
một vị trí đáng nể như thế là nhờ vào việc nó là một chương trình mã
nguồn mở và hoàn toàn miễn phí. Hai ưu điểm này đã giúp Apache được
yêu thích đối với những công việc vừa và lớn của nhiều công ty trên thế
giới.
Một trong những điểm mạnh của Apache là khả năng nâng cấp trình
chủ web thông qua các module. Có 2 loại module trong Apache đó là
external module và internal module. Cả hai loại module này điều có thể
được sửa chữa, thay thế hoặc nâng cấp vì chúng có kèm theo mã nguồn
mở. Khi một yêu cầu từ trình tự khách được gởi đến Apache phải trải qua
một loạt nhiều giai đoạn sử lý để cuối cùng trả về kết quả cho người dùng.
Apache có một chế độ bảo mật đáng tin cậy. Quy trình làm việc của
Apache cho phép người dùng thêm mới những module cần thiết vào bất kỳ
giai đoạn nào của quá trình xử lý.
Apache có thể được tải về từ địa chỉ :
(
38
PHƢƠNG PHÁP
3.2. Thu nhận trình tự SSRs [22]
Công cụ được tìm kiếm trình tự SSR được tham khảo và tải về từ địa chỉ
của tác giả Steven Schroeder viết với mục đích là: tìm kiếm, tách các trình tự SSR
và những vùng kế bên trong một trình tự chính để phục vụ cho những nghiên cứu
về sau.
Hình 3. 1. Sơ đồ tóm tắt quá trình thu nhận trình tự SSR của Steven Schroeder
Nội dung được nhập vào
Nội dung được xuất ra
Các bước thực hiện của tác giả:
Bước 1: Tìm kiếm SSRs trong trình tự chính sau đó phân biệt đoạn
SSR và các vùng phụ cận.
Bước 2: Thiết kế mồi khuếch đại vùng có chứa trình tự SSR.
labdbouttxt
new_ids.txt
ssrout.txt
1_ssr_repeat_finder
3_ssr_primer_rep_check
2_ssr_primer_designer
4_ssr_primer_blast
5_ssr_order_filter
6_ssr_order_formatter
Sequence.txt
primer_results.txt
filter.txt
fullblastoutput.txt
blastout.txt
rescreened.txt
order.txt
AllPrimer.nt
39
Bước 3: Thực hiện chọn lọc lại, loại bỏ những mồi có độ phức tạp thấp
và các đoạn mồi có chứa trình tự lặp lại nhiều lần.
Bước 4: BLAST những đoạn SSR đã được thiết kế mồi với CSDL
chính. Tập tin chứa CSDL là “AllPrimer.nt”.
Bước 5: Chọn lọc lại những trình tự SSR mà chỉ có một mồi duy nhất.
Bước 6: Sắp xếp lại các primer được tạo ra.
Hình 3. 2. Kết quả thiết kế mồi cuối cùng của Steven Schroeder
Trong đề tài này chúng tôi chỉ thiết kế CSDL của cây dứa Ananas comosus,
các bước còn lại sẽ được tích hợp vào trang web, tùy vào mục đích của người
dùng để có thể sử dụng hợp lý nhất.
40
3.2.1. Thu thập và chọn lọc dữ liệu [25]
Quá trình thu nhận trình tự nucleotide được tóm tắt thành sơ đồ sau
Hình 3. 3. Sơ đồ tóm tắt quá trình thu nhận trình tự chính từ NCBI
Từ khóa sử dụng là: Ananas comosus
Định dạng FASTA: là định dạng theo quy định của NCBI, FASTA là một
giải thuật bắt cặp trình tự được David J. Lipman và William R. Pearson miêu
tả lần đầu tiên vào năm 1985 (Rapid and sensitive protein similarity searches),
nó có một hàng chú thích bắt đầu bằng ký tự “>” ở cột đầu tiên. Ví dụ một
định dạng FASTA:
>gi|77390573|gb|DV190744.1|DV190744 JBC034F11 Pineapple week
TTCTTTCGTGGAACTGTTTGTTTGCATGGTGGTAGTGGTTGGTGGAAATATGAAGTTTGTT
ACGGAAAAACGGTAATGCAATACCACTCTGAACTGAGCAAAAAGCGCGAAAATATTTTGTT
GGGAGTTTTTGATAAGGCTGTACATATGGCATGGACCATAGAGCATCCAGAGAAGGTTATT
GAGCGCAACGAAGATGGAAGAGTTATGAGTGCAACAAATCTTTACACACAAGGCGATATCT
GTAAGGAGAATGGTGCTCACAGGTCTTGTGAAGTGCGGATTCGCTGTAGAGATGATATTGT
TTCTCAGAAG
Truy cập trang web NCBI
Nhập từ khóa
Chọn lọc theo giống
Chọn cơ sở dữ liệu EST
Chọn dạng FASTA
Thu nhận tất cả trình tự
nucleotide theo từng giống
Chọn dạng Summary
Thu nhận các thông tin liên
quan
41
Trong đó:
gi là mã số do NCBI quy định.
gb là mã số của cơ sở dữ liệu gen (Genbank) của từng loài.
Hiện nay trên cơ sở dữ liệu của trang NCBI chỉ mới có một giống là
Smooth Cayenne (4102 trình tự, từ khóa của giống là “txid4615[orgn] AND
strain Smooth Cayenne[tw]”) của Ananas comosus.
3.2.2. Thu nhận trình tự SSR [22]
Các bước thực hiện:
Hình 3. 4. Sơ đồ tóm tắt quá trình thu nhận trình tự microsatellite
Trình tự nucleotide thu nhận từ NCBI về được lưu thành tập tin với
tên là “sequence31052006.txt”.
Trình tự chính được tải về từ NCBI
Lưu lại với tên “sequence31052006.txt”
ssrout31052006.txt labdbout31052006.txt new_ids31052006.txt
Chạy tập tin “SSRRepeatFinder.pl”
Chép vào cùng địa chỉ “31052006”
Tập tin “SSRRepeatFinder.pl”
42
Hình 3. 5. Nội dung tập tin “sequence31052006.txt” để thu nhận SSR
Thực thi đoạn mã Perl “SSRRepeatFinder.pl”, khi đó chương trình sẽ
tạo ra 3 tập tin khác với tên lần lượt là “ssrout31052006.txt”,
“labdbout31052006.txt”, “new_ids31052006.txt”.
Hình 3. 6. Nội dung tập tin “ssrout31052006.txt”
DT339790.1a CTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCT CTCTCTCT
ATGAAAAAAAGAAAAAGAAAAAGAAAAAAAAGAGCGGCTCCCGCGAGTGAAGCTCCGATC
GAACAACGTCTCCCCCAAAAATCTCTCCTTTACC[CTCTCTCTCTCTCTCTCTCTCTCTCTCTCTC
T]CTCCCCCAATAAGACACCCTTCGTCCCCAAATCTAAACCTAGAGCTAGAGAGAGAGAGAGAGAG
AGAGAGAGAGAGAGGAGGGAGAGATGGATGCGGCGATGGATCTGATGCGGCGAATCTCGCCGAAGC
AGAGCGAGACGGCGTTGTCG
DT339790.1b AGAGAGAGAGAGAGAGAGAGAGAGAGAGAGAG AGAGAGAG
GAAAAAAAAGAGCGGCTCCCGCGAGTGAAGCTCCGATCGAACAACGTCTCCCCCAAAAAT
CTCTCCTTTACCCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCCCCCAATAAGACACCCTTC
GTCCCCAAATCTAAACCTAGAGCT[AGAGAGAGAGAGAGAGAGAGAGAGAGAGAGAG]GAGGGAGA
GATGGATGCGGCGATGGATCTGATGCGGCGAATCTCGCCGAAGCAGAGCGAGACGGCGTTGTCGGC
GCTGTTGTCGCTATTGCCCCACCATTCCGCCGATCTCCTCTCCCAAGTCGACCAACCCCTCCAGGT
TTGTATGGAT
>gi|73689682|gb|DT339790.1|DT339790 JBW102H10.b_066.abi Pineapple
root tip cDNA library Ananas comosus cDNA clone JBW102H10 similar
to actin capping protein beta-2 -related, mRNA sequence
ATGAAAAAAAGAAAAAGAAAAAGAAAAAAAAGAGCGGCTCCCGCGAGTGAAGCTCCGATCGAACAA
CGTCTCCCCCAAAAATCTCTCCTTTACCCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCCCC
CAATAAGACACCCTTCGTCCCCAAATCTAAACCTAGAGCTAGAGAGAGAGAGAGAGAGAGAGAGAG
AGAGAGGAGGGAGAGATGGATGCGGCGATGGATCTGATGCGGCGAATCTCGCCGAAGCAGAGCGAG
ACGGCGTTGTCGGCGCTGTTGTCGCTATTGCCCCACCATTCCGCCGATCTCCTCTCCCAAGTCGAC
CAACCCCTCCAGGTTTGTATGGATGAGGAGTCGATGAAGGAGTTCATACTTTGTGAATACAATAGG
GATGCTGATTCCTATAGATCGCCATGGACGAACAAATATTACCCGCCTTTAGAGGATGGGCCACTC
CCTTCTATTGAGTTGAGGAAACTCGAAGTTGAAGCAAATGAAGTTTTTGCTGTTTATCTTGACCAG
TATTATGAAGGAGGTGTCTCGTCGGTGTACTTGTGGGAAGATGTTAACCAGGGCTTTGTGGCATGC
TTCTTAATAAAGAAAGATGGGTCGAAGACGGGGGCATGGCAGAAGAGGATACTTGCAAGAGGGTTC
GTGGGATGCTATTCATGTAATTGAGGTTGGACCAGAGGAAGAAGGAACAGCTCGTTACTGCTTAAC
CAGTACCATCATGCTATCATTGACAACGGAAAACAAGCCATCGGGAACTTTTAATCTCTCGGGATC
GATCAGGAGACAGATGAATCTTAATCTTTCAGTGGCAGAGGGTCATCTGTGTA
>gi|73689681|gb|DT339789.1|DT339789 JBW102H08.b_050.abi Pineapple
root tip cDNA library Ananas comosus cDNA clone JBW102H08 similar
to thioredoxin -like protein, mRNA sequence
ATCAGGGAGAGAGGAAGGGTTTGGAAGGGACGAGGGAGCTCTCCCTCCCCGCAAATCGCCATTGCC
ACATCCGCAGCGCCTCTAGCGATCAACAACTCAAGGAGATCCTCGACGAGGTCAAAACATCCAAAA
CCCCCGTGGTTATCAACTATGGCGCCTCATGGTGCCGTGTTTGTAGCCAGATCCTTCCTTCCTTCT
GCGAGCTGAGCAATAAATTCAAAAAGCTTTCTTTCGTCTATGCGGACATTGACGAATGCCCTGAAA
CAACTCAGCATATACGATACACCCCGACTTTCCAATTCTTTCGGGATGGAGAAAAGGTCGATGAGA
TGTTTGGCGGCGGGGAGCAGAGGCTGCACGATCGCTTATGGTTGCATTCGTAGTAAAAACTCGACT
GTCATTATATATAAGGAAATTCCTCTCATGCATCTGATGCGCAACCATCTTATAGGTCTCCCAATG
AAATTTTGTTTGGGTTTTCATTACTTGGGTAAATGGCACATCAGTTGGTAATTGCTTGTTTGCACC
CAAGGTTGGTATTGCTGCAGATTACTAACTGAGGGTATCTTTCTTGCGTTTTCCATATGGATTGGC
ATACCATCATGTAGCAAATTGAGAAGCTATTTTCTTG
43
Trong tập tin này nó sẽ gồm các nội dung theo thứ tự là:
Mã của đoạn SSR (SSR Version) (DT339790.1a) dựa vào mã số
genbank (DT339790.1) để tạo ra mã quy định cho mỗi đoạn SSR, khi một
trình tự có 2 hay nhiều đoạn SSR thì nó sẽ quy định là “a”, “b”, “c”,…
(DT339790.1a và DT339790.1b)
Trình tự đoạn SSR:
CTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCT
Đoạn SSR (Motif):
CTCTCTCT
Đoạn SSR trong trình tự chính được rút gọn, nó được phân biệt trong
dấu “[]”
ATGAAAAAAAGAAAAAGAAAAAGAAAAAAAAGAGCGGCTCCCGCGAGTGAAGCTCCGATCGA
ACAACGTCTCCCCCAAAAATCTCTCCTTTACC[CTCTCTCTCTCTCTCTCTCTCTCTCTCTC
TCT]CTCCCCCAATAAGACACCCTTCGTCCCCAAATCTAAACCTAGAGCTAGAGAGAGAGAG
AGAGAGAGAGAGAGAGAGAGGAGGGAGAGATGGATGCGGCGATGGATCTGATGCGGCGAATC
TCGCCGAAGCAGAGCGAGACGGCGTTGTCG
Hình 3. 7. Nội dung tập tin “labdbout31052006.txt”
Nội dung tập tin này gần giống với tập tin “ssrout31052006.txt”, nó chỉ bổ
sung thêm phần mã genbank (DT339790.1) và vị trí bắt đầu (94) và chiều dài
đoạn SSR (32).
DT339790.1 DT339790.1a CTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCT
CTCTCTCT 94,32
ATGAAAAAAAGAAAAAGAAAAAGAAAAAAAAGAGCGGCTCCCGCGAGTGAAGCTCCGATC
GAACAACGTCTCCCCCAAAAATCTCTCCTTTACC[CTCTCTCTCTCTCTCTCTCTCTCTCTCTCTC
T]CTCCCCCAATAAGACACCCTTCGTCCCCAAATCTAAACCTAGAGCTAGAGAGAGAGAGAGAGAG
AGAGAGAGAGAGAGGAGGGAGAGATGGATGCGGCGATGGATCTGATGCGGCGAATCTCGCCGAAGC
AGAGCGAGACGGCGTTGTCG
DT339790.1 DT339790.1b AGAGAGAGAGAGAGAGAGAGAGAGAGAGAGAG
AGAGAGAG 172,32
GAAAAAAAAGAGCGGCTCCCGCGAGTGAAGCTCCGATCGAACAACGTCTCCCCCAAAAAT
CTCTCCTTTACCCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCCCCCAATAAGACACCCTTC
GTCCCCAAATCTAAACCTAGAGCT[AGAGAGAGAGAGAGAGAGAGAGAGAGAGAGAG]GAGGGAGA
GATGGATGCGGCGATGGATCTGATGCGGCGAATCTCGCCGAAGCAGAGCGAGACGGCGTTGTCGGC
GCTGTTGTCGCTATTGCCCCACCATTCCGCCGATCTCCTCTCCCAAGTCGACCAACCCCTCCAGGT
TTGTATGGAT
44
Hình 3. 8. Nội dung tập tin “new_ids31052006.txt”
Tập tin “new_ids31052006.txt” bổ sung thêm phần định nghĩa (definition).
3.3. Xây dựng CSDL và công cụ để giúp ngƣời dùng có thể khai thác tốt dữ liệu.
3.3.1. Xây dựng cơ sở dữ liệu
3.3.1.1. Tạo bảng chứa dữ liệu
Theo các mô tả trong mô hình đối tượng, ta chuyển từ mô hình đối
tượng sang mô hình quan hệ như sau:
Mỗi đối tượng trong mô hình đối tượng là một quan hệ trong mô
hình quan hệ.
Mỗi thuộc tính trong mô hình đối tượng là thuộc tính trên quan
hệ tương ứng.
Khóa của đối tượng là khóa của quan hệ tương ứng.
Tạo các quan hệ 1: , được trình bày hình 4.2
tblStrain: chứa thông tin về các giống Ananas comosus, được trình
bày ở bảng 3.1.
Bảng 3. 1. Nội dung tblStrain
Tên trƣờng Kiểu dữ
liệu
Chú thích
StrainID Text Mã số quy định giống.
StrainName Text Tên của giống.
DT339790.1 DT339790 JBW102H10.b_066.abi Pineapple root tip cDNA
library Ananas comosus cDNA clone JBW102H10 similar to actin
capping protein beta-2 -related, mRNA sequence
DT339789.1 DT339789 JBW102H08.b_050.abi Pineapple root tip cDNA
library Ananas comosus cDNA clone JBW102H08 similar to thioredoxin
-like protein, mRNA sequence
45
tblMotifLengthGroup: chứa nội dung quy định mã các đoạn SSR
Bảng 3. 2. Nội dung tblMotifLengthGroup
Tên trƣờng Kiểu dữ
liệu
Chú thích
MotifLengthGroupID Text Mã số quy định chiều dài đoạn SSR
MotifLengthGroup Text Chiều dài đoạn SSR.
MotifDescription Text Chú thích.
tblEST, tblGenBank: nội dung chính của trình tự do NCBI quy định.
Bảng 3. 3. Nội dung tblEST
Tên trƣờng Kiểu dữ
liệu
Chú thích
dbESTID Text Mã số EST do NCBI quy định.
ESTName Text Tên của EST.
GenbankAcc Text Chứa số truy cập trên NCBI.
Genbank_gi Number Mã số gi do NCBI quy định.
StrainID Text Mã số quy định giống.
Address Hyperlink Liên kết đến NCBI cho người dùng
biết thêm thông tin.
SequenceLength Text Chiều dài của đoạn nucleotide.
Sequence Text Trình tự.
Bảng 3. 4. Nội dung tblGenBank
Tên trƣờng Kiểu dữ
liệu
Chú thích
GenbankAcc Text Chứa số truy cập trên NCBI.
Version Text Phiên bản của đoạn trình tự
Date Text Ngày cập nhật mới nhất
Definition Number Thông tin về đoạn trình tự.
46
tblSSR: chứa thông tin về đoạn Microsatellite
Bảng 3. 5. Nội dung tblSSR
Tên trƣờng Kiểu dữ
liệu
Chú thích
SSRID Text Mã số của đoạn SSR.
GenbankACC Text Chứa số truy cập trên NCBI.
SSRVersion Text Phiên bản của đoạn SSR dựa vào.
MotifLengthGroupID Text Mã số quy định chiều dài đoạn SSR
Motif Text Đoạn SSR.
NoOfRepeat Number Số lần lập lại.
SSRSequence Text Trình tự đoạn SSR
SSRStart Number Vị trí bắt đầu.
SSREnd Number Vị trí kết thúc.
ShortSequence Text Đoạn trình tự ngắn dựa vào đoạn
trình tự chính để người xem có thể
dễ nhận ra vị trí đoạn SSR.
3.3.1.2. Xây dựng mối quan hệ (khóa chính và khóa ngoại)
tblStrain
Khóa chính: StrainID
tblMotifLengthGroup
Khóa chính: MotifLengthGroupID
tblGenBank
Khóa chính: GenbankAcc
tblEST
Khóa chính: dbESTID
Khóa ngoại: StrainID, GenbankAcc
Vì để giảm dung lượng của bảng tblEST nên đã tách ra thêm bảng
tblGenBank do đó ngoài quan hệ khóa ngoại, thuộc tính GenbankAcc
còn có thêm một đặc điểm là duy nhất (Unique).
tblSSR
Khóa chính: SSRID
Khóa ngoại: GenbankAcc, MotifLengthGroupID
47
3.3.1.3. Nhập dữ liệu vào bảng
Do các quan hệ ràng buộc giữa khóa chính và khóa ngoại nên việc
nhập cơ sở dữ liệu vào các bảng phải được thực hiện một cách tuần tự, nếu
không sẽ phát sinh lỗi và không thể nhập được.
Nhập dữ liệu vào các bảng chỉ có khóa chính (không có khóa
ngoại) để nó có thể quản lý các thông tin một cách chính xác và
không trùng lắp. Các bảng đó là:
tblStrain
tblMotifLengthGroup
tblGenBank
Nhập dữ liệu vào các bảng còn lại
tblEST
tblSSR
Hình 3. 9. Sơ đồ trình tự nhập dữ liệu vào bảng
3.4. Thiết kế giao diện web để truy xuất thông tin tại cơ sở dữ liệu [26]
Nhằm tạo giao diện thân mật, dễ sử dụng cho người dùng cuối, trang web đã
được tạo ra để đưa cơ sở dữ liệu đến người dùng. Sau đó dựa vào cơ sở dữ liệu
Microsatelite, người dùng có thể phục vụ cho việc nghiên cứu riêng của mình.
Việc thiết kế trang web CSDL microsatellites của cây dứa Ananas comosus được
tham khảo với trang web mẫu về phương pháp micorsatellite khác đã phổ biến
trên intermet trước đó như ở hình 4.6.
Nhập liệu vào bảng
tblGenBank
tblMotifLengthGroup
tblStrain
1. Nhập bảng chỉ chứa khóa chính
tblSSR
tblEST
2. Nhập bảng có chứa khóa ngoại
48
Hình 3. 10. Trang web mẫu về trình tự microsatellite
(Nguồn:
Các bước thực hiện:
Xác định những nội dung cần thực hiện: ngoài phần chính là cơ sở dữ
liệu Microsatelite, còn có những phần thông tin thêm vào để người sử dụng
có thể hiểu rõ hơn về cây dứa Ananas comosus và phương pháp
Microsatelite.
Thiết kế giao diện để người dùng có thể sử dụng một cách dễ dàng nhất.
Tích hợp cơ sở dữ liệu vào trang web.
3.5. Tích hợp các công cụ sinh học vào trang web
Công cụ để dò tìm trình tự SSR: đây là công cụ cần thiết để người dùng có
thể dò tìm các trình microsatellite trong một đoạn gen bất kỳ, các đoạn SSR được
tạo ra đã có phân biệt trong dấu [] nên khi thiết kế primer sẽ loại bỏ những vùng
trong dấu [].
49
Phần 4
KẾT QUẢ VÀ THẢO LUẬN
4.1. Kết quả thu nhận trình tự microsatellite
4.1.1. Kết quả thu nhận trình tự của Ananas comosus
Khi sử dụng các từ khóa (Ananas comosus - chưa chọn lọc theo giống) và
phương pháp như ở phần 3 (phần phương pháp và chương trình sử dụng) có
5656 trình tự, được phân loại như ở bảng 4.1.
Bảng 4. 1. Phân loại giống Ananas comosus tại NCBI
Strain Smooth Cayenne [4102]
Cultivar Cayenne [1 1]
N67-10 [4 4]
Smooth cayenne [1555 8]
Isolate 136 [1 1]
H136 [2 2 1]
Specimen-voucher R. Horres & K. Schulte 220601-1 (FR) [1 1 1]
Khi tiến hành khảo sát thu nhận trình tự bằng các từ khóa và như phương
pháp phần 3.1.1, các giống dứa Ananas comosus chúng tôi chỉ nhận được 1
giống Smooth cayenne từ ESTs được đăng tải trên CSDL NCBI. Còn các
trường hợp còn lại là riêng biệt, không thuộc các giống dứa chung nên không
dùng để thu thập trình tự microsatellite.
50
Hình 4. 1. Nội dung mẫu tin về Ananas comosus trên NCBI
Ngoài ra để có thể thu nhận được trình tự SSRs cần phải tải trình tự có
định dạng FASTA, cách thức tiến hành như trên. Kết quả chúng tôi thu được
4102 trình tự theo định dạng FASTA được lưu vào tập tin
“sequence01012006.txt” (hình 3.2).
4.1.2. Kết quả thu nhận trình tự SSRs
Sau khi thực thi tập tin “SSRRepeatFinder.pl”, chúng tôi thu được 986
trình tự microsatellite trong đó có:
dimer .................................. 127 trình tự
trimer .................................. 461 trình tự
tetramer .............................. 151 trình tự
pentamer ............................... 19 trình tự
LOCUS DV190760 168 bp mRNA linear EST 07-OCT-2005
DEFINITION JBC034H12 Pineapple week 1-4 nematode-infected gall cDNA library
Ananas comosus cDNA clone JBC034H12 similar to undiscovered
sequence, mRNA sequence.
ACCESSION DV190760
VERSION DV190760.1 GI:77390589
KEYWORDS EST.
SOURCE Ananas comosus (pineapple)
ORGANISM Ananas comosus
Eukaryota; Viridiplantae; Streptophyta; Embryophyta; Tracheophyta;
Spermatophyta; Magnoliophyta; Liliopsida; Poales; Bromeliaceae;
Ananas.
REFERENCE 1 (bases 1 to 168)
AUTHORS Moyle,R.L., Crowe,M.L., Ripi-Koia,J., Fairbairn,D.J. and
Botella,J.R.
TITLE PineappleDB: An online pineapple bioinformatics resource
JOURNAL BMC Plant Biol. 5 (1), 21 (2005)
PUBMED 16202174
COMMENT Contact: Botella J.R.
School of Integrative Biology
The University of
Các file đính kèm theo tài liệu này:
- TRAN NGUYEN MINH DANG - 02126145.pdf