Khóa luận Thu thập và tổ chức dữ liệu gene phục vụ nghiên cứu cây trồng biến đổi di truyền

Tài liệu Khóa luận Thu thập và tổ chức dữ liệu gene phục vụ nghiên cứu cây trồng biến đổi di truyền: BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC NÔNG LÂM TP. HỒ CHÍ MINH BỘ MÔN CÔNG NGHỆ SINH HỌC    KHÓA LUẬN TỐT NGHIỆP THU THẬP VÀ TỔ CHỨC DỮ LIỆU GENE PHỤC VỤ NGHIÊN CỨU CÂY TRỒNG BIẾN ĐỔI DI TRUYỀN NGÀNH HỌC: CÔNG NGHỆ SINH HỌC NIÊN KHÓA: 2001-2005 SINH VIÊN THỰC HIỆN: NGUYỄN KỲ TRUNG 01125137 LÊ THÀNH TRUNG 01126165 Thành phố Hồ Chí Minh Tháng 9/2005 ii BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC NÔNG LÂM TP. HỒ CHÍ MINH BỘ MÔN CÔNG NGHỆ SINH HỌC    THU THẬP VÀ TỔ CHỨC DỮ LIỆU GENE PHỤC VỤ NGHIÊN CỨU CÂY TRỒNG BIẾN ĐỔI DI TRUYỀN Giảng viên hƣớng dẫn: Sinh viên thực hiện: PGS.TS. BÙI THỌ THANH NGUYỄN KỲ TRUNG TS. BÙI MINH TRÍ LÊ THÀNH TRUNG TS. NGUYỄN CÔNG VŨ Thành phố Hồ Chí Minh Tháng 9/2005 iii LỜI CẢM ƠN Chúng em chân thành cảm ơn: - Ban Giám hiệu trƣờng Đại học Nông Lâm thành phố Hồ Chí Minh. - Ban Giám đốc Trung tâm Phân tích Thí nghiệm Trƣờng Đại học Nông Lâm thành phố Hồ Chí Minh. - Ban chủ nhiệm Bộ Môn Công nghệ Sinh ...

pdf215 trang | Chia sẻ: hunglv | Lượt xem: 1271 | Lượt tải: 0download
Bạn đang xem trước 20 trang mẫu tài liệu Khóa luận Thu thập và tổ chức dữ liệu gene phục vụ nghiên cứu cây trồng biến đổi di truyền, để tải tài liệu gốc về máy bạn click vào nút DOWNLOAD ở trên
BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC NÔNG LÂM TP. HỒ CHÍ MINH BỘ MÔN CÔNG NGHỆ SINH HỌC    KHÓA LUẬN TỐT NGHIỆP THU THẬP VÀ TỔ CHỨC DỮ LIỆU GENE PHỤC VỤ NGHIÊN CỨU CÂY TRỒNG BIẾN ĐỔI DI TRUYỀN NGÀNH HỌC: CÔNG NGHỆ SINH HỌC NIÊN KHÓA: 2001-2005 SINH VIÊN THỰC HIỆN: NGUYỄN KỲ TRUNG 01125137 LÊ THÀNH TRUNG 01126165 Thành phố Hồ Chí Minh Tháng 9/2005 ii BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC NÔNG LÂM TP. HỒ CHÍ MINH BỘ MÔN CÔNG NGHỆ SINH HỌC    THU THẬP VÀ TỔ CHỨC DỮ LIỆU GENE PHỤC VỤ NGHIÊN CỨU CÂY TRỒNG BIẾN ĐỔI DI TRUYỀN Giảng viên hƣớng dẫn: Sinh viên thực hiện: PGS.TS. BÙI THỌ THANH NGUYỄN KỲ TRUNG TS. BÙI MINH TRÍ LÊ THÀNH TRUNG TS. NGUYỄN CÔNG VŨ Thành phố Hồ Chí Minh Tháng 9/2005 iii LỜI CẢM ƠN Chúng em chân thành cảm ơn: - Ban Giám hiệu trƣờng Đại học Nông Lâm thành phố Hồ Chí Minh. - Ban Giám đốc Trung tâm Phân tích Thí nghiệm Trƣờng Đại học Nông Lâm thành phố Hồ Chí Minh. - Ban chủ nhiệm Bộ Môn Công nghệ Sinh học cùng toàn thể Quý Thầy Cô đã truyền đạt kiến thức cho chúng em trong suốt quá trình học tập tại trƣờng. Chúng em xin gửi lòng biết ơn sâu sắc đến: - TS. Bùi Minh Trí - PGS.TS. Bùi Thọ Thanh - TS. Nguyễn Công Vũ Đã tận tình hƣớng dẫn tạo điều kiện tốt nhất cho chúng em trong suốt quá trình thực hiện đề tài và hoàn thành luận văn tốt nghiệp này. Chúng em đồng chân thành cảm ơn đến: - Thầy Lƣu Phúc Lợi - TS. Đinh Duy Kháng - Các bạn sinh viên Khoa Công nghệ Thông tin đang làm việc trong nhóm Bioinformatics Đại học Nông Lâm thành phố Hồ Chí Minh - Các anh chị đang làm việc tại Trung tâm Phân tích Hóa sinh - Các bạn trong lớp CNSH27 Đã hết giúp đỡ, hỗ trợ, động viên, chia sẽ những buồn vui trong suốt thời gian chúng tôi thực tập và thực hiện đề tài này. Tp. Hồ Chí Minh tháng 09 năm 2005 Sinh viên thực hiện Nguyễn Kỳ Trung Lê Thành Trung iv TÓM TẮT Tên đề tài: THU THẬP VÀ TỔ CHỨC DỮ LIỆU GENE PHỤC VỤ NGHIÊN CỨU CÂY TRỒNG BIẾN ĐỔI DI TRUYỀN, do hai sinh viên: NGUYỄN KỲ TRUNG và LÊ THÀNH TRUNG thực hiện tháng 9/2005. Giảng viên hƣớng dẫn: PGS.TS. BÙI THỌ THANH TS. BÙI MINH TRÍ TS. NGUYỄN CÔNG VŨ Đề tài thực hiện nhằm mục đích tập hợp, tổ chức dữ liệu gene phục vụ cho nghiên cứu cây trồng biến đổi di truyền. Công việc đƣợc tiến hành tại Trung Tâm Phân Tích Hóa Sinh (Đại học Nông Lâm TP.HCM), Phòng thực hành mạng (Khoa Công Nghệ Thông Tin, Đại học Nông Lâm TP.HCM). Công việc đƣợc tiến hành chia ra nhiều giai đoạn:  Khai thác thông tin ấn phẩm bài báo về cây trồng biến đổi di truyền trên kho dữ liệu khổng lồ trên internet bằng hai công cụ tìm kiếm trang web Google và Scirus.  Khai thác thông tin trình tự trên GenBank tại NCBI bằng hai công cụ Entrez và BLAST.  Tổ chức thông tin dữ liệu với ngôn ngữ Perl.  Xử lý dữ liệu, tạo giao diện sử dụng khai thác dữ liệu cho ngƣời dùng với Biojava, công nghệ Java servlet và công cụ thiết kế web Frontpage, Dreamweaver. Kết quả tạo ra qui trình tìm trình tự gene mong muốn trên cơ sở dữ liệu trình tự chung GenBank và tạo đƣợc cơ sở dữ liệu riêng về các gene liên quan đến cây trồng biến đổi di truyền phục vụ khai thác dễ dàng thuận lợi cho các nhà nghiên cứu trong lĩnh vực này. v SUMMARY “COLECTING AND ORGANIZING GENE DATA SERVES GENETIC MODIFIED PLANT RESEARCHES” by TRUNG NGUYEN KY and TRUNG LE THANH in 9/2005. Supervisors: Assoc. prof. PhD. THANH BUI THO PhD. TRI BUI MINH PhD. VU NGUYEN CONG The purpose of this research is to collect, orgarnize gene data to surve research in genetic modified plant. The research was carried out at the Chemical and Biological Analysis and Experiment Center and the practical network department (in the Information Facuty at Nong Lam University). The process was devided in various phases as following: Accessing articles about GM plants on the internet with two web search engines Google and Scirus. Accessing comparing and selecting sequences of interest from the GenBank at NCBI with Entrez and BLAST tools. Organizing data with Perl language. Processing data, designing user interfaces with Biojava, Java Servlet technology in combination with Frontpage and Dreamweaver. The establishing database allows researchers in the related fields easily to access and satisfied with basic requirement in genetic research. vi MỤC LỤC Nội dung Trang Trang tựa ............................................................................................................................ ii Lời cảm ơn ......................................................................................................................... iii Tóm tắt ............................................................................................................................... iv Sumary ................................................................................................................................ v Mục lục .............................................................................................................................. vi Danh sách các chữ viết tắt .................................................................................................. x Danh sách các sơ đồ và bảng .............................................................................................. xi Danh sách các hình ........................................................................................................... xii PHẦN A: GIỚI THIỆU ................................................................................................... 1 I. Đặt vấn đề ................................................................................................................. 1 II. Mục đích của đề tài .................................................................................................. 2 III. Yêu cầu của đề tài .................................................................................................... 2 IV. Các giai đoạn tiến hành .............................................................................................. 3 V. Giới hạn .................................................................................................................... 3 PHẦN B: TỔNG QUAN TÀI LIỆU ............................................................................... 4 I. GIỚI THIỆU VỀ SINH HỌC .................................................................................... 4 I.1. Cơ sở sinh học về gene ........................................................................................ 4 I.1.1. Thuật ngữ và quan niệm về gene ................................................................ 4 I.1.2. DNA ở các sinh vật khác nhau .................................................................... 5 I.1.2.1. Sự khác nhau giữa các phân tử DNA ................................................. 5 I.1.2.2. Cấu trúc acid nucleic .......................................................................... 6 I.1.3 Mã di truyền ................................................................................................. 8 I.1.3.1. Thuật ngữ ............................................................................................ 8 I.1.3.2. Từ điển mã di truyền ........................................................................... 8 I.1.3.3. Ba đặc tính quan trọng của mã di truyền ............................................ 10 I.1.4 Cấu trúc căn bản của một gene eukaryote .................................................... 12 I.2. Cơ sở sinh học về chuyển gene ............................................................................ 13 vii I.2.1. Các vấn đề chủ yếu trong việc cải biến di truyền ...................................... 14 I.2.2. Các phƣơng pháp chuyển gene ................................................................... 14 I.2.3. Những khó khăn trong chuyển gene ........................................................... 17 I.2.4. Sản phẩm của kỹ thuật di truyền ................................................................. 18 I.2.5. Tiềm năng của chuyển gene ........................................................................ 19 I.2.5.1. Các chức năng mới trong cải biến di truyền thực vật ......................... 19 I.2.5.2. Các tính trạng mới (News traits)......................................................... 20 I.2.5.3. Sự biểu hiện gene ................................................................................ 21 I.2.6. Locus chuyển gene ...................................................................................... 22 I.3. Hiện trạng sản xuất cây trồng chuyển gene trên thế giới .................................... 24 II. GIỚI THIỆU VỀ BIOINFORMATICS ..................................................................... 28 II.1. Khái niệm về Bioinformatics .............................................................................. 28 II.2. Vài nét về các cơ sở dữ liệu Sinh học ................................................................ 29 II.2.1. NCBI ......................................................................................................... 29 II.2.2. EMBL......................................................................................................... 29 II.2.3. DDBJ .......................................................................................................... 30 II.3. Vài công cụ Bioinformatics hiện nay ................................................................. 31 II.3.1. Readseq ...................................................................................................... 31 II.3.2. BLAST ....................................................................................................... 31 II.3.3. BLAT ......................................................................................................... 32 II.3.4. ClustalW..................................................................................................... 32 II.3.5. HMMER..................................................................................................... 32 II.3.6. MEME/MAST ........................................................................................... 33 II.3.7. EMBOSS .................................................................................................... 33 II.4. Ngôn ngữ dùng trong Bioinformatics................................................................. 34 III. CƠ SỞ TIN HỌC CHO VIỆC XÂY DỰNG CƠ SỞ DỮ LIỆU TRÌNH TỰ ........... 35 III.1. Khái niệm về lập trình ....................................................................................... 35 III.2. Ngôn ngữ Perl dùnh trong Bioinformatics ........................................................ 39 III.2.1. Giới thiệu Perl ........................................................................................... 39 III.2.2. Thành phần cơ bản trong Perl ................................................................... 39 III.3. Công nghệ Java ứng dụng trong công việc xử lý dữ liệu Bioinformatics ........ 50 III.3.1. Biojava ...................................................................................................... 50 viii III.3.2. Biojava và CSDL ...................................................................................... 50 III.3.3. Tổng quan về công nghệ servlet cho các ứng dụng trên Web .................. 51 III.3.4. Chức năng cơ bản của servlet ................................................................... 52 III.3.5. Thuận lợi của servlet so với các công nghệ thiết kế web khác ................ 53 III.3.6. Sự xây dựng ứng dụng servlet .................................................................. 55 PHẦN C: PHƢƠNG TIỆN VÀ PHƢƠNG PHÁP TIẾN HÀNH ................................ 57 I. PHƢƠNG TIỆN ........................................................................................................ 57 I.1. Thiết bị ................................................................................................................. 57 I.2. Thời gian và địa điểm xây dựng CSDL ............................................................... 57 II. TÌM KIẾM DỮ LIỆU BÀI BÁO .............................................................................. 58 II.1. Tìm kiếm tổng hợp tính trạng ............................................................................. 58 II.2. Tổng hợp dữ liệu Primer dùng trong phát hiện GMO ........................................ 64 III. TÌM KIẾM DỮ LIỆU TRÌNH TỰ ............................................................................ 66 III.1. Tìm kiếm trình tự bằng Keyword ...................................................................... 66 III.2. Tìm kiếm trình tự bằng Primer .......................................................................... 70 PHẦN D: KẾT QUẢ VÀ THẢO LUẬN ....................................................................... 82 I. Kết quả thu đƣợc từ quá trình tìm kiếm ấn phẩm khoa học ...................................... 82 II. Kết quả thu đƣợc từ quá trình tìm kiếm trình tự trên NCBI ...................................... 82 II.1. Kết quả tìm kiếm trình tự bằng keyword ............................................................ 83 II.2. Kết quả tìm kiếm trình tự bằng Primer ............................................................... 84 II.3. Dùng Perl xử lý kết quả thu đƣợc ....................................................................... 85 II.3.1. Loại bỏ trùng lắp dữ liệu, tổng hợp danh sách tổng hợp ........................... 85 II.3.2. Tải trình tự ................................................................................................. 90 III. Các kết quả thu đƣợc từ quá trình tải trình tự từ Genbank ........................................ 92 IV. Tổ chức dữ liệu .......................................................................................................... 93 IV.1. Cách thức tổ chức dữ liệu ................................................................................. 93 IV.2. Tiến hành tổ chức, phân loại dữ liệu ................................................................. 94 V. Java xử lý dữ liệu ....................................................................................................... 98 V.1. Các yêu cầu đặt ra .............................................................................................. 98 V.2. Xử lý yêu cầu bằng Java và Biojava .................................................................. 99 V.3. Thiết kế giao diện ............................................................................................... 101 V.4. Lập trình hiển thị giao diện sử dụng .................................................................. 104 ix VI. Kết quả giao diện tìm kiếm với dữ liệu tập hợp đƣợc .............................................. 108 PHẦN E: KẾT LUẬN VÀ ĐỀ NGHỊ ............................................................................. 118 I. Kết luận ...................................................................................................................... 118 II. Đề nghị ....................................................................................................................... 119 TÀI LIỆU THAM KHẢO ................................................................................................ 121 Phụ lục A ............................................................................................................................ 126 Phụ lục B ............................................................................................................................ 139 Phụ lục C ............................................................................................................................ 152 Phụ lục D ............................................................................................................................ 173 Phụ lục E ............................................................................................................................. 197 x DANH SÁCH CÁC CHỮ VIẾT TẮT A adenine API application programing interface BLAST Basic Local Alignment Search Tools BLAT BLAST-Like Alignment Tool C cytosine CDS coding sequence CGI common gateway interface CIB the Center for Information Biology CSDL Cơ sở dữ liệu DDBJ DNA Data Bank of Japan DNA deoxyribonucleic acid EBI the European Bioinformatics Institute EMBL the European Molecular Biology Laborary EPSP 5-enolpyruvyl-shikimate-3-phosphate synthase E-value expected value G guanine gi GenInfo Indentifier Gln Glutamine GM plant Genetic modified plant GMO Genetic modified organism HTML hypertext markup language HTTP hypertext transfer protocol ID identify J2EE Java 2 Enterprise Edition JDBC Java Database Connectivity JSP JavaServer page Met methionine mRNA messenger ribonucleic acid NCBI the National Center for Biotechnology Information NIG the National Institute of Genetics NIH the National Institutes of Health NLM the Nation Library of Medicine NOS noplaine synthase Phe phenylalanine RNA ribonucleic acid SQL Structure Query Language STDIN standard input T thymine T-DNA transfer DNA tRNA tranfer ribonucleic acid Trp tryptophan U uracil xi DANH SÁCH CÁC SƠ ĐỒ VÀ BẢNG Bảng Trang PHẦN A PHẦN B Bảng 1.1: Một số loài đã đƣợc chuyển gene .................................................................... 19 Bảng 1.2: Bảng thống kê danh sách các tính trạng đƣợc chuyển vào cây trồng ............. 24 Bảng 2.1: Bảng liệt kê một số chƣơng trình BLAST ...................................................... 31 Sơ đồ 3.1: Sơ đồ một ứng dụng phần mềm...................................................................... 54 Sơ đồ 3.2: Cấu trúc của một ứng dụng Servlet (Servlet Application) ............................. 56 Sơ đồ 3.3: Một cấu trúc phổ biến hơn của một server application .................................. 56 PHẦN C Sơ đồ 2.1: Quy trình tìm kiếm thông tin sinh học ........................................................... 58 Bảng 2.1: Địa chỉ những phƣơng tiện tìm kiếm trên Internet .......................................... 59 PHẦN D Sơ đồ 4.1: Mô hình tổ chức một hệ thống ứng dụng ....................................................... 93 xii DANH SÁCH CÁC HÌNH Hình Trang PHẦN A PHẦN B Hình 1.1: Sự biểu hiện thông tin di truyền. ................................................................. 4 Hình 1.2: Cấu trúc xoắn kép DNA .............................................................................. 6 Hình 1.3: Cấu trúc của các base pyrimidine và purine. ............................................... 6 Hình 1.4: Cấu trúc của Oligonucleotide ...................................................................... 7 Hình 1.5: Chi tiết cấu trúc của chuỗi Polynucleotide. ................................................. 8 Hình 1.6: Sao chép và dịch mã .................................................................................... 9 Hình 1.7: Mã di truyền của nhân (các codon của mRNA) .......................................... 9 Hình 1.8: Mã di truyền ty thể ngƣời ............................................................................ 10 Hình 1.9: Các kiểu wobble trong tế bào chất (ở các hữu nhũ) .................................... 11 Hình 1.10: Các trình tự đƣợc sao chép của DNA (gene) ............................................. 12 Hình 1.11: Cắt DNA Plasmid sử dụng enzyme cắt giới hạn ....................................... 13 Hình 1.12: Gắn gene chuyển vào vector (Plasmid) ..................................................... 13 Hình 1.13: Plasmid dùng trong chuyển gene đậu nành ............................................... 15 Hình 1.14: Chuyển gene thông qua môi trƣờng Agrobacterium tumefaciens ............. 16 Hình 1.15: Súng bắn gene đƣợc dùng trong chuyển gene ........................................... 16 Hình 1.16: Chuyển gene thông qua vi ......................................................................... 17 Hình 1.17: Ví dụ cấu trúc di truyền đƣợc dùng ức chế gene UDP 6-glucose dehydrogenease trong đậu nành. .................................................................................. 23 Hình 1.18: Bản đồ một số nƣớc chính có cây trồng chuyển gene lớn trên thế giới .... 27 Hình 1.19: Diện tích cây trồng chuyển gene các nƣớc trên thế giới ........................... 27 Hình 1.20: Biểu đồ tỷ lệ các gene kháng đƣợc chuyển vào cây trồng trên thế giới .... 27 Hình 3.1: Một chu kỳ sống của CGI ............................................................................ 53 Hình 3.2: Chu kỳ sống của CGI hiện nay .................................................................... 54 PHẦN C Hình 2.1: Trang kết quả tìm kiếm bằng Google sau khi nhập từ khóa ........................ 60 Hình 2.2: Trang tìm kiếm Scirus.com nâng cao .......................................................... 61 xiii Hình 2.3: Trang kết quả của Scirus sau khi tìm kiếm ................................................. 62 Hình 2.4: Trang chủ NCBI .......................................................................................... 62 Hình 2.5: Trang Entrez PubMed của NCBI ................................................................ 63 Hình 2.6: Trang kết quả Entrez PubMed sau khi tìm kiếm ......................................... 63 Hình 2.7: Trang chủ Agbios.com ................................................................................ 64 Hình 2.8: Kết quả tìm kiếm bằng Google với keyword .............................................. 65 Hình 2.9: Trang Entrez Nucleotide với từ khóa cần tìm ............................................. 66 Hình 2.10: Trang kết quả của Entrez Nucleotide sau tìm kiếm................................... 67 Hình 2.11: Trang kết quả Entrez Nucleoide dạng text ................................................ 67 Hình 2.12: Kết quả sau khi nhấp vào mục Details ...................................................... 68 Hình 2.13: Nhập từ khóa cần tìm vào khung tìm kiếm .............................................. 69 Hình 2.14: Xem chi tiết (Details) khi kết quả không tìm thấy .................................... 70 Hình 2.15: Trang BLAST của cơ sở dữ liệu NCBI ..................................................... 70 Hình 2.16: Trang BLAST Nucleotide của NCBI ........................................................ 71 Hình 2.17: Khung nhập trình tự ................................................................................... 71 Hình 2.18: Phần tùy chọn của trang BLAST Nucleotide ............................................ 72 Hình 2.19: Phần lựa chọn định dạng trang kết quả BLAST ........................................ 73 Hình 2.20: Trang trung gian kết quả BLAST .............................................................. 74 Hình 2.21: Phần đầu của trang kết quả BLAST .......................................................... 74 Hình 2.22: Phần ảnh minh họa tổng thể kết quả BLAST ............................................ 75 Hình 2.23: Phần tóm tắt kết quả BLAST..................................................................... 75 Hình 2.24: Phần xem chi tiết về sự gióng trình tự trên trang kết quả BLAST ............ 76 Hình 2.25: Lấy trình tự cần từ trang kết quả BLAST .................................................. 76 Hình 2.26: Nhập trình tự Primer vào khung tìm kiếm gene cryIA(b) ......................... 77 Hình 2.27: Kết quả tìm kiếm với Primer gene cryIA(b) .............................................. 78 Hình 2.28: Kết quả tìm kiếm sau khi thay đổi thông số ............................................. 78 Hình 2.29: Lựa chọn lại thông số là Pat thay vì nr ...................................................... 79 Hình 2.30: Kết quả tìm kiếm với Database Pat ........................................................... 79 Hình 2.31: Trang lấy kết quả từ chƣơng trình BLAST ............................................... 80 Hình 2.32: Tìm kiếm trình tự bằng số xác định qua trang BLAST ............................. 80 Hình 2.33: Kết quả BLAST dạng HTML .................................................................... 81 Hình 2.34: Kết quả BLAST dạng text ......................................................................... 81 xiv PHẦN D Hình 2.1: Kết quả dạng text khi tìm kiếm bằng keyword 1 ........................................ 83 Hình 2.2: Kết quả dạng text khi tìm kiếm bằng keyword 2 ........................................ 83 Hình 2.3: Kết quả dạng text khi tìm kiếm bằng keyword ........................................... 84 Hình 2.4: Kết quả dạng text khi tìm kiếm bằng Primer ............................................... 85 Hình 2.5: Minh họa 1 file kết quả thu đƣợc sau khi tìm kiếm trình tự trên NCBI ...... 86 Hình 2.6: Chƣơng trình Perl bắt đầu chạy ................................................................... 88 Hình 2.7: Nhập đƣờng dẫn đến thƣ mục chứa file kết quả tìm kiếm .......................... 89 Hình 2.8: Chƣơng trình Perl đã chạy xong .................................................................. 89 Hình 2.9: Lƣu danh sách này vào file tonghopdulieu.txt ................................ 89 Hình 2.10: Nội dung file tonghopdulieu.txt .................................................... 90 Hình 2.11: Chƣơng trình load.pl đang chạy .......................................................... 92 Hình 2.12: Minh họa kết quả các trình tự đƣợc tải về ................................................. 92 Hình 4.1: Vị trí thể hiện Division trong nội dung của 1 record Genbank ................... 95 Hình 4.2: Chƣơng trình phân chia Division bắt đầu chạy ........................................... 96 Hình 4.3: Chƣơng trình đã chạy xong ......................................................................... 96 Hình 4.4: Kết quả cuối cùng sau khi chƣơng trình phân Division đã chạy xong ....... 97 Hình 5.1: Các trƣờng tìm kiếm chính xác. .................................................................. 99 Hình 5.2: Các trƣờng cung cấp thông tin trình tự cần tách ......................................... 100 Hình 5.3: Trang giao diện tìm kiếm GM Databases .................................................... 102 Hình 5.4: Nội dung trang tìm kiếm.............................................................................. 103 Hình 5.5: Một trƣờng hợp tìm kiếm trên web ............................................................. 105 Hình 5.6: Thể hiện kết quả tìm kiếm với nội dung tóm tắt ......................................... 107 Hình 6.1: Trang chủ tìm kiếm trình tự GM Plants bằng keyword .............................. 109 Hình 6.2: Nhập keyword cần tìm vào khung tìm kiếm ............................................... 110 Hình 6.3: Trang kết quả tìm kiếm mặc định là dạng Summary .................................. 111 Hình 6.4: Trang biểu diễn kết quả dạng GenBank ...................................................... 113 Hình 6.5: Trang biểu diễn kết quả dạng FASTA ......................................................... 114 Hình 6.6: Trang biểu diễn vùng trình tự mã hóa (CDS) dạng FASTA. ...................... 114 Hình 6.7: Trang Biểu diễn trình tự aminoacid do CDS mã hóa, dạng FASTA........... 115 Hình 6.8: Trang biểu diễn kết quả dạng text của kiểu GenBank ................................. 116 PHẦN A: GIỚI THIỆU NGUYỄN KỲ TRUNG – LÊ THÀNH TRUNG 1 A. GIỚI THIỆU I. Đặt vấn đề Có thể thấy rằng trong những năm gần đây nƣớc ta đang có những đầu tƣ rất lớn vào các phòng thí nghiệm, các công trình nghiên cứu trong lĩnh vực Công Nghệ Sinh Học. Các nhà khoa học, các sinh viên theo lĩnh vực này đang nỗ lực, phấn đấu để hoàn thành các nghiên cứu sinh học của mình. Tuy nhiên, các nhà nghiên cứu cơ bản lẫn nghiên cứu ứng dụng đang vƣớng phải một khó khăn rất lớn đó chính là việc tìm kiếm, phân tích, so sánh, trích tải những dữ liệu sinh học liên quan đến các nghiên cứu của họ. Chính những thông tin đa dạng, quá phong phú trong các cơ sở dữ liệu khổng lồ trên thế giới, đƣợc tải trên nhiều trang thông tin khác nhau đã trở thành những khó khăn đầu tiên cho các nhà nghiên cứu. Việc tìm kiếm những thông tin ngắn gọn, dễ dàng và nhanh chóng nhƣng vẫn đảm bảo tính chính xác nhằm phục vụ riêng cho từng cá nhân nghiên cứu ở mỗi phòng thí nghiệm là hết sức cần thiết. Công nghệ di truyền thực vật nói chung và sự xuất hiện của cây trồng và thực phẩm biến đổi di truyền nói riêng (GM Plants, GM Food) hiện là vấn đề toàn cầu. Diện tích cây trồng biến đổi di truyền không ngừng tăng qua các năm. Theo thống kê gần đây nhất về diện tích canh tác cây chuyển gene đƣợc thể hiện ở bảng dƣới đây: (Agrifood Awareness Australia Limited- AFAA, February 2005) Bên cạnh các thành tựu đã thành công và thƣơng mại hóa nhƣ: chuyển gene kháng bệnh, kháng côn trùng, kháng thuốc trừ cỏ; chuyển gene có năng suất nông học cao hay chuyển gene có đặc tính mong muốn từ các thực vật khác cho mục đích dinh dƣỡng và dƣợc liệu … là những mối nguy hại mà cây trồng chuyển gene có thể ảnh hƣởng tiềm ẩn nhƣ: sự đa dạng của cây trồng, ảnh hƣởng độc và dị ứng, khả năng phát sinh cỏ dại, sự xâm chiếm hay sự phóng thích ngoài ý muốn của gene ra quần thể cây trồng, các cây trồng không phải cây trồng đích … PHẦN A: GIỚI THIỆU NGUYỄN KỲ TRUNG – LÊ THÀNH TRUNG 2 Về khoa học, ta không thể phủ nhận những thành tựu cũng nhƣ những mặt hạn chế mà công nghệ chuyển gene mang lại. Việc nắm bắt thông tin về các gene chuyển hiện nay sẽ giúp ta chủ động trong các nghiên cứu về lĩnh vực còn khá mới này. Đƣợc sự hƣớng dẫn của thầy TS. Bùi Minh Trí, cùng các thầy PGS. TS. Bùi Thọ Thanh và thầy TS. Nguyễn Công Vũ chúng tôi đã thực hiện đề tài “THU THẬP VÀ TỔ CHỨC DỮ LIỆU GENE PHỤC VỤ NGHIÊN CỨU CÂY TRỒNG BIẾN ĐỔI DI TRUYỀN”, bƣớc đầu đặt cơ sở cho việc ứng dụng Bioinformatics vào xây dựng Cơ sở dữ liệu Sinh học đầu tiên tại trƣờng Đại Học Nông Lâm Tp HCM. II. Mục đích của đề tài  Tập hợp và chọn lọc các ấn phẩm, bài báo khoa học liên quan đến cây trồng biến đổi di truyền.  Khảo sát một số công cụ tìm kiếm trình tự trên NCBI.  Tập hợp các trình tự liên quan đến cây trồng biến đổi di truyền.  Tổ chức dữ liệu gene phục vụ việc tìm kiếm thông tin về các gene một cách nhanh chóng và gọn nhất.  Thiết kế giao diện thân thiện, thiết thực đáp ứng nhu cầu của ngƣời dùng. Giải quyết công việc tìm kiếm một cách khó khăn trên mạng Internet của các nhà nghiên cứu CNSH Thực vật. Giúp các nhà nghiên cứu CNSH Thực vật thuận tiện, dễ dàng tra cứu, tìm kiếm gene phù hợp với từng yêu cầu riêng. III. Yêu cầu của đề tài  Tất cả các thông tin trong dữ liệu theo chuẩn quốc tế.  Dễ tìm kiếm theo nhiều chiều.  Sử dụng các loại ngôn ngữ lập trình thông dụng, giúp dữ liệu mang tính dễ truy suất, dễ phát triển về sau, đó là ngôn ngữ lập trình Perl và ngôn ngữ lập trình Java.  Dữ liệu có tính “mở” về nội dung Sinh học có thể phát triển, bổ sung bởi các công trình nghiên cứu về sau của Đại học Nông Lâm Thành phố Hồ Chí Minh. PHẦN A: GIỚI THIỆU NGUYỄN KỲ TRUNG – LÊ THÀNH TRUNG 3 IV. Các giai đoạn tiến hành đề tài Giai đoạn 1: Tìm hiểu thông tin và các công cụ có liên quan.  Tìm hiểu ngôn ngữ lập trình Perl dùng trong Bioinformatics.  Tìm hiểu ngôn ngữ Java dùng trong Bioinformatics.  Tìm hiểu dữ liệu bài báo trên PubMed và dữ liệu trình tự GenBank trên NCBI.  Tìm hiểu các công cụ sinh học dùng trong Bioinformatics. Giai đoạn 2: Xây dựng và tổ chức các dữ liệu.  Tìm kiếm dữ liệu cho đề tài (bài báo khoa học, trình tự).  Tiến hành xây dựng trang tìm kiếm với dữ liệu trình tự tìm đƣợc. V. Giới hạn của đề tài Do thời gian thực tập tốt nghiệp có hạn, kiến thức cần thiết để xây dựng đƣợc một cơ sở dữ liệu hoàn chỉnh thì nhiều, do đó đề tài có rất nhiều hạn chế cần hoàn thiện về sau :  Dữ liệu không lớn chỉ vài ngàn gene đƣợc xem là thông dụng nhất trong công nghệ chuyển gene hiện nay.  Phải thiết lập các mối liên hệ trong dữ liệu, tiến tới quản lý dữ liệu một cách có hệ thống bằng một hệ quản trị cơ sở dữ liệu hoặc nghiên cứu sử dụng công nghệ mới vào quản lý dữ liệu.  Giao diện Web của chƣơng trình chƣa hoàn chỉnh. Về sau sẽ phát triển, nâng cấp mở rộng phục vụ nhiều nhu cầu khác của ngƣời dùng.  Chƣa đƣa đƣợc các công cụ phân tích gene sẵn có vào sử dụng trực tiếp trên cơ sở dữ liệu. PHẦN B: TỔNG QUAN - Giới thiệu Sinh học – Gene NGUYỄN KỲ TRUNG – LÊ THÀNH TRUNG 4 B. TỔNG QUAN TÀI LIỆU I. Giới thiệu về sinh học I.1. Cơ sở sinh học về gene I.1.1. Thuật ngữ và quan niệm về gene Sinh học phân tử là gì ? Sinh học phân tử (Molecular biology) là môn học nghiên cứu các hiện tƣợng sinh học ở mức phân tử. Ngày nay, sinh học phân tử đƣợc hiểu là sinh học phân tử của gene (Molecular biology of the gene), là môn học nghiên cứu cấu trúc, sự biểu hiện và kiểm soát sự biểu hiện của các gene, là đơn vị thông tin di truyền riêng biệt chứa một trình tự chuyên biệt trong DNA (hay trong RNA của virus). Quan niệm về gene – lý thuyết trung tâm của sinh học phân tử 1866, Mendel đề ra giả thuyết về các đơn vị qui định các đặc tính di truyền, tức các gene. 1909, Garrod cho rằng gene điều khiển kiểu hình qua enzyme. 1940, Beadle và Tatum đề nghị giả thuyết “một gene - một enzyme” (một gene điều khiển sự sản xuất một enzyme chuyên biệt). Thuyết này đã phát triển để trở nên khái quát hơn , “một gene – một protein”, và hiện nay “một gene – một polypetide”. 1953, Watson và Crick đề nghị cấu trúc xoắn kép của phân tử DNA. Sau đó, là sự ra đời lý thuyết trung tâm (central dogma) của sinh học phân tử (Crick, 1958): thông tin di truyền đƣợc mang bởi chuỗi DNA (hay RNA ở vài virus) qua các giai đoạn sao chép (transcription) và dịch mã (translation), đƣợc chuyển thành các trình tự amino acid của protein. Sự tái bản DNA (DNA replication) là cơ chế giúp một phân tử DNA tự tái sinh thành hai phân tử DNA giống nhau. Hình 1.1: Sự biểu hiện thông tin di truyền. PHẦN B: TỔNG QUAN - Giới thiệu Sinh học – Gene NGUYỄN KỲ TRUNG – LÊ THÀNH TRUNG 5 * Lý thuyết trung tâm của sinh học phân tử giúp ta hiểu: - Cấu trúc của DNA là cơ sở phân tử của sự di truyền; sự tái bản DNA là cơ sở phân tử để hiểu vì sao con cái giống cha mẹ; sự chuyển thông tin vào protein là cơ sở phân tử của các đặc tính kiểu hình. - Hình thái và chức năng sống chủ yếu của sinh vật là sự biểu hiện về cách tổ chức và hoạt động của các protein trong cơ thể sinh vật. Chính sự sắp xếp các thành phần amino acid của protein quyết định sự sắp xếp trong không gian (cấu trúc bậc hai và bậc ba) và chức năng của protein. I.1.2. DNA ở các sinh vật khác nhau I.1.2.1. Sự khác nhau giữa các phân tử DNA DNA là vật liệu mang thông tin di truyền ở sinh vật nói chung, trừ RNA ở vài virus. DNA ở mọi sinh vật (động vật, thực vật, vi khuẩn hay virus) có cùng kiểu cấu trúc hai sợi xoắn DNA, trừ ngoại lệ ở vài virus. Sự khác nhau giữa các phân tử DNA xoắn kép ở các loài là do: - Vị trí của các phân tử DNA trong tế bào: trong nhân (ở eukaryote) hay trong tế bào chất (ở prokaryote). - Số phân tử DNA: một phân tử ở virus hay vi khuẩn (nhƣ E.coli), nhiều phân tử trong tế bào động vật và thực vật bậc cao. - Hình dạng: thẳng (ở eukaryote) hay vòng (ở prokaryote). Khái niệm: “vòng” chỉ tính khép kýn của chuỗi DNA, không chỉ hình thể trong không gian. - Chiều dài phân tử DNA: Các virus có phân tử acid nucleic ngắn nhất: DNA virus có từ vài ngàn tới vài chục ngàn nucleotide. DNA prokaryote dài hơn DNA virus khoảng một ngàn lần: DNA của E.coli có chừng bốn triệu cặp nucleotide. Ở prokaryote, đôi khi còn có các plasmid, tức các đoạn DNA nhỏ, dạng vòng, bên cạnh nhiễm sắc thể. Ở eukaryote, phân tử DNA rất dài, chứa từ vài ngàn đến vài tỉ đơn vị nucleotide; các đơn vị nucleotide này đƣợc phân phối trên nhiều nhiễm sắc thể riêng biệt. Không có sự tƣơng quan giữa lƣợng DNA và tính phức tạp của sinh vật. PHẦN B: TỔNG QUAN - Giới thiệu Sinh học – Gene NGUYỄN KỲ TRUNG – LÊ THÀNH TRUNG 6 Hình 1.2: Cấu trúc xoắn kép DNA - Các trình tự base đặc trƣng. Đây là tính chất quan trọng nhất của mỗi phân tử DNA. I.1.2.2. Cấu trúc acid nucleic Các đơn vị nucleotide Acid nucleotide, nhƣ tên gọi, là các chất lúc khởi đầu đƣợc cô lập từ nhân (nucleus). Có hai kiểu acid nucleic: - Acid deoxyribonucleic (DNA) đƣợc tìm thấy chủ yếu ở trong nhân tế bào (eukaryote). - Acid ribonucleic (RNA) đƣợc tìm thấy chủ yếu trong tế bào chất. - Acid nucleic đƣợc cấu tạo bởi các đơn vị gọi là nucleotide. Mỗi nucleotide đƣợc cấu tạo bởi ba yếu tố: base nitrogen, pentose và acid phosphoric. Hình 1.3: Cấu trúc của các base pyrimidine và purine. PHẦN B: TỔNG QUAN - Giới thiệu Sinh học – Gene NGUYỄN KỲ TRUNG – LÊ THÀNH TRUNG 7 Trong các nucleotide, base là dẫn xuất của pyrimidine hay purine. Các base pyrimidine là: cytosine (C) và uracil (U) trong RNA; cytosine (C) và thymine (T) trong DNA. Có vài base bất thƣờng, đặc biệt ở vài bacteriophage, nhƣ hydroxymethylcytsine thay vì cytosine hay hydroxymethyluracil thay vì thymine. Hai base purine chính đƣợc tìm thấy trong DNA cũng nhƣ RNA là adenine (A) và guanine (G). Ngoài ra, có những base purine hiếm chỉ đƣợc tìm thấy trong vài acid nucleic (nhất là t-RNA), thí dụ: isopentenyladenin (chất có hoạt tính hormone cykotinin ở thực vật). Các base nitrogen của phân tử DNA mang thông tin di truyền, trong khi các nhóm pentose và phosphate chỉ có vai trò cấu trúc. Tùy theo bản chất của pentose, ta có ribonucleotide hay deoxyribonucleotide. Theo qui ƣớc, ngƣời ta đọc một chuỗi acid nucleotide theo hƣớng 5‟P tới 3‟OH; để đơn giản ngƣời ta chỉ viết các số 5‟ và 3‟. Hình 1.4: Cấu trúc của Oligonucleotide Cấu trúc bậc hai của DNA do Watson và Crick (1953) đề nghị có ba đặc tính quan trọng  Đối song: hai chuỗi nucleotide song song nhƣng ngƣợc hƣớng.  Bổ sung: sự liên kết hai sợi DNA theo qui tắc: “A đối T, C đối G”.  Xoắn ốc: hai chuỗi DNA xoắn quanh một trục tƣởng tƣợng. PHẦN B: TỔNG QUAN - Giới thiệu Sinh học – Gene NGUYỄN KỲ TRUNG – LÊ THÀNH TRUNG 8 Tóm lại, trong phân tử DNA, deoxyribose và H3PO4 giống nhau suốt chiều dài phân tử. Ngƣợc lại, 4 base khác nhau và trình tự của các base đặc trƣng cho mỗi phân tử DNA. Theo qui ƣớc, ta có thể viết chuỗi acid nucleic với các base A, T, C, G với: C = nucleotide chứa Cystosine, T = nucleotide chứa Thymine, A = nucleotide chứa Adenine, G = nucleotide chứa Guanine. Hình 1.5: Chi tiết cấu trúc của chuỗi Polynucleotide. I.1.3. Mã di truyền I.1.3.1. Thuật ngữ Thông tin di truyền đƣợc viết bởi các codon (mã di truyền) và đƣợc dịch thành các trình tự amino acid. Nói cách khác, thông tin di truyền đƣợc sao chép thành RNA và sau đó dịch mã thành polypeptide. Để dịch chính xác một ngôn ngữ, cần có một quyển từ điển. Tƣơng tự, để giải mã di truyền, cần có quyển từ điển mã di truyền. Mã di truyền hay “codon” đƣợc viết bởi ba chữ, chính xác hơn là ba nucleotide, tạo thành một “bộ ba” (triplet). Một “bộ ba”, trong phân tử mRNA sẽ đƣợc dịch mã thành một amino acid. I.1.3.2. Từ điển mã di truyền Theo qui ƣớc, các base đƣợc trình bày trong từ điển mã di truyền là các ribonucleotide. Theo đó, U có trong RNA thay cho T. Đối với các mã di truyền trong DNA, T thay cho U. PHẦN B: TỔNG QUAN - Giới thiệu Sinh học – Gene NGUYỄN KỲ TRUNG – LÊ THÀNH TRUNG 9 Hình 1.6: Sao chép và dịch mã Trong 64 codon, ta có thể kể:  Ba codon UAA, UAG, UGA là các “codons non sens”, không đƣợc dịch thành amino acid; chúng là dấu hiệu chấm dứt sự đọc, nên còn đƣợc gọi là “codon stop”.  61 codon còn lại mã hóa 20 amino acid. Trừ Met và Trp chỉ đƣợc mã hóa bởi 1 codon, các amino acid khác đƣợc mã hóa bởi nhiều codon. Nhƣ vậy có nhiều codon cùng nghĩa. Hình 1.7: Mã di truyền của nhân (các codon của mRNA) PHẦN B: TỔNG QUAN - Giới thiệu Sinh học – Gene NGUYỄN KỲ TRUNG – LÊ THÀNH TRUNG 10 I.1.3.3. Ba đặc tính quan trọng của mã di truyền  Phổ biến (universal): Mã di truyền cơ bản giống nhau cho mọi sinh vật (động vật, thực vật, vi khuẩn hay virus). Chính vì thế từ điển mã di truyền ra đời là bằng chứng thuyết phục về nguồn gốc tiến hóa chung của sinh vật.  Suy biến (degenerate): nhiều codon mã hóa cho một amino acid. Trong phần lớn các trƣờng hợp, các bộ ba mã hóa cho một amino acid chỉ khác nhau ở base thứ ba, thí dụ: UUU và UUC (Phe), CAA và CAG (Gln)…  Không gối nhau: Mã di truyền đƣợc đọc tuần tự từ “bộ ba” này đến “bộ ba” kế tiếp, liên tục trong một chuỗi, từ điểm khởi đầu cho đến kết thúc. a) Giả thuyết về base “dao động” *Thế nào là base “dao động” Mã di truyền chung (có tính phổ biến) là điều hết sức lý thú để hiểu về sinh vật. Tuy nhiên, Sanger (1980) đã đặt lại vấn đề, vì có vài codon khác biệt trong ti thể. Và vì Met và Trp đƣợc mã hóa bởi hai codon thay vì một. Hình 1.8: Mã di truyền ty thể ngƣời Sau phát hiện này, ngƣời ta còn thấy những codon khác ở nấm men, Paramecium,…Thí dụ UAA của mRNA tế bào chất của Paramecium không phải là codon Stop, mà là Gln. PHẦN B: TỔNG QUAN - Giới thiệu Sinh học – Gene NGUYỄN KỲ TRUNG – LÊ THÀNH TRUNG 11 Mã di truyền có 61 codon mã hóa cho 20 amino acid. Do đó ta có thể nghĩ rằng có 61 tRNA (qui tắc bổ sung codon-anticodon). Tuy nhiên, thực tế một mRNA nhận biết nhiều codon mã hóa cho cùng một amino acid. Nói cách khác không cần phải có đủ 61 tRNA để vận chuyển acid amin trong quá trình dịch mã (nhƣng một tRNA không bao giờ nhận biết hai amino acid khác nhau). Theo giả thuyết base “dao động” (Crick, 1966), hai nucleotide đầu tiên của một codon (mRNA) bổ sung một cách nghiêm chỉnh với anticodon của t-RNA, nhƣng base thứ ba của codon bắt cặp với base thứ nhất của anticodon theo cách tƣơng đối lỏng lẻo. b) Ích lợi của tính suy biến mã di truyền và base “dao động” Có ba điều lợi chính:  Sự suy biến mã di truyền tạo nên một hệ thống bảo vệ đối với các đột biến có thể sinh ra, sự thay đổi base thứ ba thƣờng không gây hậu quả, vì codon đột biến không làm thay đổi tRNA.  Các nối wobble cho phép tế bào tiết kiệm vật chất và năng lƣợng: không cần 61 tRNA để nhận biết 61 codon.  Cầu nối yếu hơn giữa base thứ nhất của anticodon và base thứ base của codon giúp các tRNA phân ly dễ hơn, và do đó sự tổng hợp protein nhanh hơn. Hình 1.9: Các kiểu wobble trong tế bào chất (ở các hữu nhũ) PHẦN B: TỔNG QUAN - Giới thiệu Sinh học – Gene NGUYỄN KỲ TRUNG – LÊ THÀNH TRUNG 12 I.1.4. Cấu trúc căn bản của một gene eukaryote Chiều dài và cấu trúc một gene rất thay đổi. Gene là các trình tự DNA đƣợc sao chép, các trình tự này có thể ở trên sợi này hay sợi kia của phân tử DNA. Geneome là toàn bộ các gene và các trình tự không mã hóa của một cá thể. (A) (B) Hình 1.10: Các trình tự đƣợc sao chép của DNA (gene). (A) sự sao chép của một sợi DNA (B) sự không liên tục của gene Gene eukaryote không liên tục, mà bao gồm:  Các exon là các trình tự mang thông tin di truyền sẽ đƣợc biểu hiện.  Các intron là các trình tự nằm xen kẽ với các phần mang thông tin di truyền, đƣợc sao chép nhƣng không đƣợc dịch.  Gene ở phần lớn prokaryote có phần ghi mã liên tục, không có intron. PHẦN B: TỔNG QUAN - Giới thiệu Sinh học - Chuyển Gene NGUYỄN KỲ TRUNG – LÊ THÀNH TRUNG 13 I.2. Cơ sở sinh học về chuyển gene Hình thức cơ bản nhất trong cải biến di truyền (Genetic transformation) là đƣa những gene chuyển (transgenes) vào trong sinh vật bằng cách nào đó mà các gene này có thể đƣợc biểu hiện. Kỹ thuật này còn đƣợc gọi là kỹ thuật di truyền. Mục tiêu cuối cùng của kỹ thuật di truyền hay kỹ thuật DNA tái tổ hợp là sự biểu hiện bền vững và có thể di truyền của tính trạng mới trong bộ phận hay cơ thể khác. Điều này đạt đƣợc thông qua cấu trúc vector mang gene chuyển. Plasmid, retrovirus (RNA virus) và bacteriophage là các vector quan trọng đặc biệt trong chuyển thông tin di truyền. Trong quá trình chuyển gene, kỹ thuật di truyền cắt và sắp xếp lại các đoạn DNA tạo ra cấu trúc gene chuyển chèn vào vector. Hình 1.11: Cắt DNA Plasmid sử dụng enzyme cắt giới hạn Hình 1.12: Gắn gene chuyển vào vector (Plasmid) Hebert Boyer và Stanley Cohen đã đạt đƣợc thành tựu chuyển gene đầu tiên vào năm 1973, khi đó họ đã tạo ra gene với các phần DNA từ vi khuẩn và lƣỡng cƣ, biểu hiện gene kháng kháng sinh. Với sự thành công trong việc sử dụng enzyme và vector, các nhà khoa học này đã tiên phong trong việc sử dụng kỹ thuật di truyền và chuyển thông tin di truyền. Nghiên cứu của họ đã đặt nền móng cho nhiều công việc ngày nay trong công nghệ sinh học. PHẦN B: TỔNG QUAN - Giới thiệu Sinh học - Chuyển Gene NGUYỄN KỲ TRUNG – LÊ THÀNH TRUNG 14 I.2.1. Các vấn đề chủ yếu trong việc cải biến di truyền Thuật ngữ genetically modified thƣờng xuyên đƣợc dùng để mô tả những sinh vật đƣợc chuyển gene hay đƣợc biến đổi di truyền. Khoa học của kỹ thuật di truyền đƣợc phát triển với mục tiêu xây dựng các gene phục vụ cho chuyển gene. Hệ thống chuyển gene gồm ba vấn đề chính:  Kỹ thuật đƣa DNA lạ vào tế bào đích.  Tế bào hay mô bền vững với điều kiện chuyển gene.  Các phƣơng pháp cho phép xác định và chọn lọc tế bào hay bộ phận chuyển gene. Một trong những giới hạn của cải thiện di truyền truyền thống là sự không hòa hợp giữa các loài. Ví dụ: Đậu là loài giàu amino acid chứa sunfur. Tuy nhiên đậu lại thiếu lysine. Mặt khác lúa giàu lysine nhƣng thiếu amino acid chứa sunfur. Vì không thể lai giữa hai loài này với nhau, vì thế ngƣời trồng trọt truyền thống không thể phát triển loại đậu mới giàu lysine hay lúa giàu thành phần amino acid chứa sunfur. Chuyển gene cho phép trao đổi các gene giữa các sinh vật mà không hòa hợp giới tính. Với kỹ thuật di truyền và chuyển gene có thể cho phép ta chuyển gene giữa vi khuẩn, động vật, thực vật và virus. Công cụ cơ bản trong chuyển gene là enzyme cắt giới hạn, đƣợc dùng để cắt DNA tại những vị trí đặc biệt, và các enzyme ligase mà xúc tác cho việc nối các đoạn DNA. Sử dụng đúng enzyme cắt giới hạn có thể cắt đƣợc DNA plasmid vòng của vi khuẩn thành dạng thẳng. Dùng ligase có thể gắn thêm đoạn DNA khác chứa gene quan tâm vào plasmid bị cắt. Plasmid mới có thể đƣợc đƣa vào vi khuẩn thông qua quá trình gọi là “xung điện” (electroporation), vi khuẩn có thể đƣợc dùng để chuyển gene chuyển vào (sinh vật đích). Nếu plasmid DNA đƣợc tích hợp vào trong genome của sinh vật nhận và gene chuyển đƣợc biểu hiện, cá thể đó đƣợc xem nhƣ đã đƣợc chuyển gene (transgenic). I.2.2. Các phương pháp chuyển gene Có nhiều phƣơng pháp chuyển gene, nhƣng bốn phƣơng pháp đạt kết quả cao nhất là: Chuyển gene thông qua Agrobacterium, bắn gene, vi tiêm, và chuyển trực tiếp. Mỗi phƣơng pháp có ƣu và nhƣợc riêng và đƣợc sử dụng trong những trƣờng hợp đặc PHẦN B: TỔNG QUAN - Giới thiệu Sinh học - Chuyển Gene NGUYỄN KỲ TRUNG – LÊ THÀNH TRUNG 15 biệt. Ở thời điểm này không có một phƣơng pháp nào phù hợp cho tất cả các trƣờng hợp. Chuyển gene thông qua Agrobacterium Vi khuẩn Agrobacterium tumefaciens có khả năng nhận ra vết thƣơng trên thực vật, kích thích việc chuyển plasmid vi khuẩn vào thực vật. Plasmid có khả năng tích hợp vào DNA tế bào chủ gây ra sự tăng trƣởng không kiểm soát ở thực vật hình thành bƣớu. Khả năng này của A. tumefaciens làm nó có vai trò quan trọng trong giai đoạn sớm của chuyển gene. A. tumefaciens là vector đầu tiên đƣợc dùng để chuyển gene lạ vào tế bào thực vật, đƣợc dùng cho cả thực vật hai lá mầm và thực vật một lá mầm. Một loại vi khuẩn đất khác Agrobacterium rhizogenees, kích thích tạo rễ thứ cấp sau khi nhiễm cũng đã đƣợc dùng cho chuyển gene thực vật. Cơ bản của phƣơng pháp này dựa vào plasmid vi khuẩn có khả năng tích hợp bộ gene cây chủ. Phần quan trọng của plasmid là vùng đảm nhận trách nhiệm cho việc chuyển gene vào trong bộ gene thực vật. Phần này gọi là DNA chuyển (T-DNA), và phần DNA này là phần chủ yếu gây tăng trƣởng bƣớu của thực vật nhiễm. Vùng này nằm giữa vai phải và vai trái của plasmid cho phép vi khuẩn chuyển gene mới vào trong thực vật nhận. Hình 1.13: Plasmid dùng trong chuyển gene đậu nành Chuyển gene nhờ vi khuẩn A. tumefaciens thƣờng là sử dụng đĩa lá. Đĩa lá có đƣờng kýnh khoảng 6 mm đƣợc nuôi cấy trên đĩa môi trƣờng chứa A. tumefaciens mang plasmid chứa gene chuyển. Sau khoảng thời gian ủ khoảng một tháng trong môi PHẦN B: TỔNG QUAN - Giới thiệu Sinh học - Chuyển Gene NGUYỄN KỲ TRUNG – LÊ THÀNH TRUNG 16 trƣờng nuôi cấy mô, chồi bắt đầu phát triển trên đĩa lá. Thông qua các phƣơng pháp chọn lọc, chồi chuyển gene đƣợc xác định và đƣợc tái tạo thành cây hoàn chỉnh. Hình 1.14: Chuyển gene thông qua môi trƣờng Agrobacterium tumefaciens Bắn gene (biolistics) Phƣơng pháp bắn gene sớm đƣợc sử dụng nhiều ngay sau khi ra đời để chuyển gene vào cây ngũ cốc. Phƣơng pháp này dựa trên sự bắn các vi hạt (tungsten hoặc vàng) bọc DNA vào mô nhờ lực đẩy của không khí, khí helium hoặc dòng điện. Christou và ctv (1991) là những tác giả đầu tiên nhận đƣợc cây chuyển gene từ phôi non của một số giống lúa qua sử dụng thiết bị bắn ACCELLR. Sau đó, Cao và ctv (1992) thông báo việc tạo cây chuyển gene từ tế bào huyền phù nhờ thiết bị PDS1000/ He Biolistic TM. Từ đó, phƣơng pháp này đƣợc sử dụng phổ biến để tạo cây chuyển gene. Phƣơng pháp này có thể áp dụng trên bất cứ loại mô nào có khả năng tái sinh cây, không cần sử dụng tế bào trần và loại mô đã qua giai đoạn mô sẹo lâu dài do đó giảm thiểu đƣợc sự biến dị. Hình 1.15: Súng bắn gene đƣợc dùng trong chuyển gene PHẦN B: TỔNG QUAN - Giới thiệu Sinh học - Chuyển Gene NGUYỄN KỲ TRUNG – LÊ THÀNH TRUNG 17 Phƣơng pháp này có nhƣợc điểm là chi phí cao và sự tích hợp vào cây chủ rất phức tạp cho nên nhiều nhóm nghiên cứu đã giảm thiểu sử dụng phƣơng pháp này. Vi tiêm (Microinjection) Phƣơng pháp này đƣợc phát triển cho chuyển gene ở động vật nhƣng cũng đƣợc mở rộng cho thực vật. Mặc dù rất khó và tốn nhiều công sức, sự vi tiêm DNA cũng đã đem lại nhiều kết quả dƣơng tính và đã đƣợc dùng nhiều trong các phòng thí nghiệm. Hình 1.16: Chuyển gene thông qua vi Trong kỹ thuật này, ống vi mao quản đƣợc dùng để đƣa DNA trực tiếp vào tế bào. Mỗi tế bào chuyển phải đƣợc thao tác riêng lẽ. Một thuận lợi của phƣơng pháp này là tối ƣu hóa lƣợng DNA đƣợc đƣa vào trong tế bào đích, giúp tối ƣu khả năng tích hợp. Kết quả dƣơng tính đã thu đƣợc ở các loài nhƣ bắp, lúa mì, đậu nành, thuốc lá, lúa và trong động vật nhƣ cá hồi, gia súc và heo. Chuyển gene trực tiếp Chuyển gene trực tiếp đã đƣợc hoàn thành sớm sau phƣơng pháp dùng Agrobacterium. Các phƣơng pháp này dùng tế bào trần (protoplast) là tế bào đích cho chuyển gene. Phƣơng pháp này đơn giản là thêm một lƣợng lớn plasmid chuyển gene vào môi trƣờng nuôi cấy tế bào trần, đảm bảo rằng một lƣợng nhỏ tế bào trần sẽ bắt đƣợc plasmid. Tỷ lệ tích hợp sẽ tăng lên khi dùng thêm polyethylene glycol (PEG) hay sử dụng xung điện. Không có rào cản thực sự nào đối với phƣơng pháp này, do đó ngƣời ta cho rằng phƣơng pháp này đƣợc sử dụng cho hầu hết các loài. Vấn đề khó khăn là tái tạo lại toàn bộ cây trồng từ tế bào trần. Vì thế phƣơng pháp này không đƣợc dùng rộng rãi nhƣ các phƣơng pháp khác. I.2.3. Những khó khăn trong chuyển gene. Nuôi cấy mô đƣợc xác định là trở ngại lớn nhất trong sự phát triển của sản phẩm cây chuyển gene. Cần thiết phải có phƣơng pháp để tái tạo lại toàn bộ cá thể từ tế bào hay mô đƣợc chuyển gene. Một trong những khó khăn đối với các nhà khoa học là tính PHẦN B: TỔNG QUAN - Giới thiệu Sinh học - Chuyển Gene NGUYỄN KỲ TRUNG – LÊ THÀNH TRUNG 18 lặp lại của công việc thông thƣờng chỉ đƣợc một số chứ không đƣợc cho tất cả các loài. Điều này giới hạn phổ cá thể có thể đƣợc chuyển gene. Trong nhiều trƣờng hợp, phải dùng phƣơng pháp chuyển gene chuyển thông qua phƣơng pháp lai truyền thống. Một ví dụ cho trƣờng hợp này là chuyển gene ở lúa mì. Chuyển gene ở hầu hết lúa mì thì rất khó vì gặp khó khăn trong nuôi cấy mô. Giống Bobwhite không nằm trong trƣờng hợp trên, và phƣơng pháp chuyển gene đã đƣợc phát triển cho giống lúa mì này. Khi gene đã đƣợc chuyển thành công trong Bobwhite, nó có thể chuyển sang các giống khác thông qua lai giống truyền thống. Một khó khăn liên quan đến sử dụng nuôi cấy mô trong chuyển gene là các loại dòng tế bào soma. Các cây trồng tạo ra trong nuôi cấy mô có tỉ lệ đột biến cao và xuất hiện những giống bất thƣờng. Điều này bởi tính nhạy cảm của tế bào trong nuôi cấy mô. Nhiều trƣờng hợp, cây trồng nuôi cấy mô gặp vấn đề trong nuôi cấy tế bào chứ không từ sự tích hợp của gene chuyển. Các phƣơng pháp chuyển gene gần đây hứa hẹn tạo ra cuộc cách mạng trong việc chuyển gene vào cây trồng. Một vài phƣơng pháp đã đƣợc sử dụng trong Arabidopsis thaliana. Một phƣơng pháp là ngâm chồi trong dung dịch chứa plasmid mang gene chuyển. Một phƣơng pháp khác, vẫn đang trong giai đoạn phát triển là chuyển gene vào hạt thông qua vi khuẩn Agrobacterium tumefaciens. Mặc dù các phƣơng pháp này đã đƣợc sử dụng thành công trong Arabidopsis, nhƣng vẫn chƣa có công bố đối với cây trồng. Vấn đề mấu chốt của hai phƣơng pháp này là sự chuyển gene không cần phải thực hiện tái tạo cây qua nuôi cấy mô. Các phƣơng pháp này thú vị bởi vì sự chuyển gene thực hiện trên hạt mà có thể trồng để xác định cá thể chuyển gene. I.2.4. Sản phẩm của kỹ thuật di truyền Chuyển gene đã phát triển nhiều sản phẩm mới với nhiều tác động lên xã hội, từ thuốc tới thực phẩm với dinh dƣỡng cao cấp. Thành công thƣơng mại lớn nhất của kỹ thuật di truyền là insulin trong vi khuẩn chuyển gene năm 1980. Sau đó nhiều sản phẩm khác cũng đã đƣợc công bố. Giống cây trồng đƣợc thƣơng mại hóa đầu tiên là cà chua Flavr Savr, đƣợc phát triển bởi công ty Calgene, California. Sản phẩm này đƣợc thƣơng mại ngày 21 tháng 5 năm 1994, với hai gene mới đƣợc chuyển vào cây cà chua. Gene thứ nhất là bản sao ngƣợc của gene polygalactonurase (reverse copy of the polygalactonurase gene), mã hóa cho enzyme phá hủy cellulose. Chuyển gene ở hình thức ngƣợc, gọi là antisense, PHẦN B: TỔNG QUAN - Giới thiệu Sinh học - Chuyển Gene NGUYỄN KỲ TRUNG – LÊ THÀNH TRUNG 19 tạo ra lƣợng enzyme polygalactonurase thấp. Kết quả, những quả cà chua chín không mất đi sự cứng cáp của nó, bởi vì thành tế bào cà chua là cellulose không bị phân hủy nhanh chóng nhƣ cà chua thông thƣờng. Gene thứ hai đƣợc chuyển vào giống Flavr Savr mã hóa cho tính kháng với kháng sinh kanamycin. Gene này đƣợc chuyển vào cây nhƣ chỉ thị (marker) cho nhận biết cây chuyển gene. Bảng sau bao gồm danh sách các cây trồng chuyển gene. Các tính trạng phần lớn là kháng thuốc trừ cỏ, kháng côn trùng, và chất lƣợng dinh dƣỡng. Bảng 1.1: Một số loài sinh vật đã đƣợc chuyển gene Thực vật Động vật Cải dầu Lúa Bò Bắp Đậu nành Khỉ Bông vải Hƣớng dƣơng Chuột Cây khuynh diệp Thuốc lá Heo Nho Cà chua Cá hồi Đu đủ Lúa mì Khoai tây Củ cải đƣờng I.2.5. Tiềm năng của chuyển gene Mục đích của phát triển giống thông qua công nghệ sinh học cũng giống nhƣ cải thiện theo di truyền cổ điển. Tất cả các tính trạng mong muốn đƣợc cải thiện năng suất, tăng sức sống, kháng côn trùng, và chất lƣợng dinh dƣỡng. Tuy nhiên, công nghệ sinh học còn cho phép phát triển giống với những tính trạng mà không thể phát triển qua lai giống cổ điển. Ví dụ: Trƣờng hợp giống lúa giàu lysine và đậu nành giàu amino acid sunfur đƣợc đề cập ở phần trên. I.2.5.1. Các chức năng mới được thêm vào trong cải biến di truyền thực vật Thay đổi hình dạng của enzyme (Altered Forms of Enzymes) Chuyển gene mã hóa cho enzyme có cấu trúc đƣợc bổ sung làm nó không nhạy cảm với điều kiện hóa chất và môi trƣờng. Ví dụ, gene mã hóa cho enzyme EPSP (5- enolpyruvyl-shikimate-3-phosphate synthase) biến đổi cấu trúc đem lại tính kháng thuốc diệt cỏ glyphosate. PHẦN B: TỔNG QUAN - Giới thiệu Sinh học - Chuyển Gene NGUYỄN KỲ TRUNG – LÊ THÀNH TRUNG 20 Tổng hợp tăng cƣờng protein (overproduction of proteins) Chuyển vào nhiều bản sao của gene hay sử dụng promoter mạnh đem lại kết quả tăng cƣờng sản phẩm protein. Vấn đề này có thể đƣợc áp dụng cho tính trạng dinh dƣỡng hay cho tính kháng bệnh. Ức chế gene nội sinh (Silencing of Endogeneous Genes) Ức chế một phần hay toàn bộ sự biểu hiện gene có thể đạt đƣợc qua kỹ thuật RNA antisense. Kỹ thuật này chuyển gene có chiều ngƣợc lại với gene ban đầu. Khi sao mã, sản phẩm này bổ sung với gene ban đầu. mRNA của gene quan tâm lại bổ sung đối với gene chuyển, kết quả tạo thành RNA kép ngăn cản quá trình dịch mã. Về mặt lý thuyết, mRNA antisense có thể đƣợc dùng để ức chế sự biểu hiện của bất kỳ gene nào. I.2.5.2. Các tính trạng mới (News traits) Các gene ở các loài khác có thể đƣợc chuyển vào sinh vật đích, làm cho tính trạng của loài này cũng có trong loài khác. Gồm các khả năng sau: Trao đổi chất (Metabolism): chuyển gene từ loài cố định nitơ. Kháng côn trùng sinh học (Biopesticides): gene Bt đƣợc chuyển từ vi khuẩn Bacillus thuringiensis tới bắp, bông vải, và các cây trồng khác. Kháng bệnh (Disease Resistance) Một ví dụ là lúa mạch kháng đối với Barley Yellow Dwarf Virus (BYDV), kết quả của việc chuyển gene mã hóa protein vỏ của virus BYDV vào lúa mạch. Khử đực (Male sterility) Chuyển gene khử đực để có thể tăng tỉ lệ thụ phấn chéo trong các loài tự thụ phấn. Xử lý sinh học (Bioremediation) Chuyển các gene mã hóa cho các chất hấp thụ kim loại nặng hay khả năng xử lý chất thải ô nhiễm đó là những ứng dụng trong xử lý sinh học. Dƣợc liệu (Pharmaceutical) Chuyển các gene mã hóa các chất có đặc tính chữa bệnh đƣợc dùng trong y khoa Thay đổi các đặc tính bản chất (Alteration in the Individual’s Architecture) Thay đổi thời gian ra hoa, cấu trúc cây, hay màu sắc đối với các thực vật dùng cho trang trí. PHẦN B: TỔNG QUAN - Giới thiệu Sinh học - Chuyển Gene NGUYỄN KỲ TRUNG – LÊ THÀNH TRUNG 21 I.2.5.3. Sự biểu hiện gene Tất cả tế bào đều chứa số lƣợng nhiễm sắc thể đặc trƣng cho loài. Nhƣng không phải tất cả các gene đều biểu hiện trong mỗi tế bào. Ví dụ, các gene mã hóa cho sản phẩm chlorophyll đƣợc biểu hiện ở lá và các thành phần xanh khác của cây. Tuy nhiên chúng lại không biểu hiện ở rễ. Sự điều hòa gene là một quá trình phức tạp, chịu sự chi phối của hàng loạt các yếu tố. Hiện tƣợng chung xảy ra trong kỹ thuật di truyền là sự không có quá trình biểu hiện gene sau khi gene đã đƣợc chuyển vào sinh vật. Vì vậy, hiểu cơ chế biểu hiện gene là điều cực kỳ quan trọng trong kỹ thuật di truyền. Trong vi khuẩn, một số gene đƣợc kích hoạt trong khi đó một số gene khác lại bị bất hoạt phụ thuộc vào môi trƣờng mà vi khuẩn tăng trƣởng. Ví dụ, vi khuẩn Escherichia coli có thể sử dụng hai loại nguồn cacbon khác nhau, lactose và glucose tạo ra năng lƣợng. Vi khuẩn cần tổng hợp ra enzyme đặc biệt phân hủy cacbohydrate thành năng lƣợng. Các enzyme này cũng giống nhƣ các protein khác, đƣợc mã hóa bởi gene. Khi E.coli đƣợc nuôi cấy trong môi trƣờng với cả hai glucose và lactose (ƣa thích glucose hơn), nó trao đổi chất. Gene mã hóa cho enzyme trao đổi glucose vì thế đƣợc biểu hiện trƣớc. Trao đổi chất lactose đòi hỏi thêm enzyme khác và chỉ đƣợc hoạt hóa khi môi trƣờng cạn kiệt glucose và lactose trở thành nguồn năng lƣợng có sẵn. Hiện tƣợng này đƣợc gọi là điều hòa gene. Biểu hiện gene trong cơ thể phức tạp vẫn chƣa đƣợc hiểu biết hoàn toàn. Biểu hiện gene không chỉ là chức năng bên trong cơ thể mà còn chịu sự kích thích của môi trƣờng. Cơ chế điều hòa gene liên quan đến gene điều hòa. Các trình tự DNA này không mã hóa cho bất kỳ protein nào. Chức năng của chúng là đẩy mạnh sự kích hoạt hay ức chế gene. Một phần quan trọng của gene điều hòa là promoter. Promoter là trình tự DNA đứng trƣớc gene, chứa trình tự điều hòa để kiểm soát tỉ lệ RNA sao mã. Promoter kiểm soát khi trong tế bào có gene đƣợc biểu hiện. Thông qua xử lý trên promoter có thể tạo ra biểu hiện quá mức, quá thấp hoặc ức chế. Một số promoter mang tính cơ bản (constitutive) trong khi đó một số khác mang tính có thể chi phối (inducible). Trong số các promoter này, một số có thể bị chi phối bởi chất hóa học, số khác đƣợc kích hoạt bởi nhiệt, ánh sáng hay hormon. Một số PHẦN B: TỔNG QUAN - Giới thiệu Sinh học - Chuyển Gene NGUYỄN KỲ TRUNG – LÊ THÀNH TRUNG 22 promoter hoạt động trong một số mô hay cơ quan nhất định, không hoạt động trong phần khác. Trong trƣờng hợp này, chúng đƣợc xem là promoter đặc biệt của mô. Sau đây giới thiệu một số promoter thƣờng đƣợc dùng trong kỹ thuật di truyền: Loại cơ bản  UBI từ bắp  35SCaMV từ virus khảm suplơ (cauliflower) Loại mô đặc biệt  Phaseolina promoter (promoter đặc biệt của hạt từ đậu phộng).  Vicillin promoter (promoter đặc biệt của hạt từ đậu Hà Lan).  Glutamine promoter (promoter đặc biệt của nội nhũ từ lúa mì). Loại kích thích  Rubisco 5S promoter ( kích hoạt bởi ánh sáng). Bên cạnh promoter, các yếu tố di truyền khác cũng quan trọng trong sự biểu hiện gene phù hợp. Mặc dù mã di truyền có tính toàn bộ, nó cũng đƣợc xem là thoái hóa. Mỗi sinh vật ƣa thích các codon đặc biệt mã hóa amino acid trong suốt quá trình tiến hóa, điều này cũng tác động đến sự biểu hiện gene. Đó là trƣờng hợp của gene Bt từ vi khuẩn Bacillus thuringiensis chuyển trong bắp. Ban đầu biểu hiện gene đó của vi khuẩn trong bắp rất thấp, tuy nhiên khi gene chuyển đƣợc xử lý lại sử dụng các codon ƣa thích của bắp, sự biểu hiện gene xảy ra bình thƣờng. Nhiều yếu tố khác có thể ảnh hƣởng sự biểu hiện của gene chuyển, nhƣ sự hiện diện của các peptide tín hiệu, vị trí sự tích hợp của gene trong bộ gene, số lƣợng bản sao tích hợp, và sự tái sắp xếp gene chuyển trong suốt quá trình tích hợp. Tích hợp gene chuyển vào trong tế bào cây chủ nhìn chung xảy ra ngẫu nhiên, nghĩa là nó có thể xảy ra bất kỳ trên nhiễm sắc thể nào của tế bào và bất kỳ vị trí nào trong nhiễm sắc thể. Tuy nhiên, hầu hết các tính trạng chuyển gene, gene chuyển thƣờng nằm ở vị trí cuối của nhiễm sắc thể. Nhiều bản sao của gene chuyển đƣợc tích hợp cùng nhau một cách đặc thù. I.2.6. Locus chuyển gene Cấu trúc gene đƣợc dùng trong chuyển gene có promoter, vùng mã hóa, và trình tự cuối. Trong hình, vicillin promoter, đặc biệt cho sự biểu hiện trong hạt, chi phối sự biểu hiện gene của gene UDP 6-glucose dehydrogenease theo chiều antisen. Trong cấu trúc cũng có trình tự kết thúc NOS (noplaine synthase), đánh dấu vị trí kết thúc của sự PHẦN B: TỔNG QUAN - Giới thiệu Sinh học - Chuyển Gene NGUYỄN KỲ TRUNG – LÊ THÀNH TRUNG 23 sao chép. Ngoài gene quan tâm, nhìn chung gene reporter đƣợc chuyển đồng thời để dễ dàng cho sự xác định và chọn lọc cá thể chuyển gene. Hình 1.17: Ví dụ cấu trúc di truyền đƣợc dùng ức chế gene UDP 6-glucose dehydrogenease trong đậu nành. Thông thƣờng gene reporter cũng nằm trong cấu trúc gene chuyển. Chức năng của reporter cho phép sự chọn lọc có thể thấy đối với các tế bào chuyển gene. Chuyển gene cá thể là nhiệm vụ khó khăn. Tính khoa học ẩn sau các phƣơng pháp thì chỉ có thể hiểu ở mức cơ bản, còn kết quả của các phƣơng pháp thì không luôn luôn theo dự định. Trình tự các gene đặc biệt cần để kích thích sự biểu hiện của gene chuyển và các gene cần cho sự xác định cá thể chuyển gene. Chuyển gene vẫn đang tiếp tục đƣợc cải thiện để biểu hiện chính xác hơn các tính trạng mong muốn trong các sinh vật khác nhau. Hiểu đƣợc sự phức tạp của chuyển gene là mấu chốt để mở rộng những ứng dụng trong công nghệ sinh học. PHẦN B: TỔNG QUAN - Giới thiệu Sinh học – Hiện trạng chuyển Gene NGUYỄN KỲ TRUNG – LÊ THÀNH TRUNG 24 I.3. Hiện trạng sản xuất cây trồng chuyển gene trên thế giới Từ 1986-1997 đã có khoảng 25.000 cuộc thử nghiệm ngoài đồng về cây chuyển gene, đƣợc tiến hành ở 45 quốc gia với hơn 60 cây trồng và 10 đặc tính. Trong số 25.000 cuộc thử nghiệm thì 60% đƣợc tiến hành từ năm 1986-1995, còn lại đƣợc tiến hành vào 2 năm 1996-1997. Năm 1997, chỉ có 46 sản phẩm chuyển gene của 12 cây trồng với 6 đặc tính đã đƣợc thƣơng mại hóa. Bảng 1.2: Bảng thống kê danh sách các tính trạng đƣợc chuyển vào cây trồng. STT Tính trạng Yếu tố di truyền Nguồn 1 Fatty acid composition Delta(12)-fatty acid dehydrogenease Glycine max 2 Fatty acid composition Fatty acid desaturase NULL 3 Fatty acid composition Thioesterase Umbellularia californica 4 Fertility restoration Barnase ribonuclease inhibitor Bacillus amyloliquefaciens 5 Herbicide tolerance 5-enolpyruvylshikimate-3- phosphate synthase Agrobacterium tumefaciens CP4 6 Herbicide tolerance 5-enolpyruvylshikimate-3- phosphate synthase Z. mays 7 Herbicide tolerance Acetolactate synthase chimera of 2 resistant AHAS genes (S4-Hr4) 8 Herbicide tolerance Acetolactate synthase chlorsulfuron tolerant line of A. thaliana 9 Herbicide tolerance Acetolactate synthase chlorsulfuron tolerant Nicotiana tabacum 10 Herbicide tolerance Glyphosate oxidoreductase Ochrobactrum anthropi 11 Herbicide tolerance Nitrilase Klebsiella pneumoniae subspecies ozanae 12 Herbicide tolerance Phosphinothricin N- acetyltransferase S. hygroscopicus 13 Herbicide tolerance Phosphinothricin N- acetyltransferase S. viridochromogenes PHẦN B: TỔNG QUAN - Giới thiệu Sinh học – Hiện trạng chuyển Gene NGUYỄN KỲ TRUNG – LÊ THÀNH TRUNG 25 STT Tính trạng Yếu tố di truyền Nguồn 14 Insect resistance Cry1Ab delta-endotoxin (Btk HD-1) Bacillus thuringiensis subsp. kurstaki (Btk) 15 Insect resistance Cry1Ac delta-endotoxin Bacillus thuringiensis subsp. kurstaki (Btk) 16 Insect resistance Cry1F delta-endotoxin Bacillus thuringiensis var. aizawai 17 Insect resistance Cry2Ab delta-endotoxin Bacillus thuringiensis 18 Insect resistance Cry3A delta-endotoxin Bacillus thuringiensis subsp. Tenebrionis 19 Insect resistance Cry3Bb1 delta-endotoxin Bacillus thuringiensis subsp. kumamotoensis 20 Insect resistance Cry9c delta-endotoxin Bacillus thuringiensis subsp. Tolworthi 21 Insect resistance Protease inhibitor S. tuberosum 22 Lepidopteran resistance Cry1F delta-endotoxin Bacillus thuringiensis 23 Male sterility Barnase ribonuclease Bacillus amyloliquefaciens 24 Male sterility DNA adenine methylase Escherichia coli 25 Modified color Dihydroflavonol reductase Petunia hybrida 26 Modified color Flavonoid 3p, 5p hydroxylase Petunia hybrida 27 Modified color Flavonoid 3p, 5p hydroxylase Viola sp. 28 Mutations Acetolactate synthase Brassica napus 29 Mutations Acetolactate synthase Helianthus annus 30 Mutations Acetolactate synthase Lens culinaris 31 Mutations Acetolactate synthase Oryza sativa 32 Mutations Acetolactate synthase Triticum aestivum 33 Mutations Acetolactate synthase Z. mays 34 Mutations Acetyl-CoA-carboxylase Z. mays PHẦN B: TỔNG QUAN - Giới thiệu Sinh học – Hiện trạng chuyển Gene NGUYỄN KỲ TRUNG – LÊ THÀNH TRUNG 26 STT Tính trạng Yếu tố di truyền Nguồn 35 Nicotine reduced Nicotinate-nucleotide pyrophosphorylase (carboxylating) Nicotiana tabaccum 36 Ripening delayed 1-amino-cyclopropane -1- carboxylic acid synthase Dianthus caryophyllus L. 37 Ripening delayed 1-amino-cyclopropane-1- carboxylic acid deaminase Pseudomonas chlororaphis 38 Ripening delayed Aminocyclopropane cyclase synthase Tomato 39 Ripening delayed Polygalacturonase Tomato 40 Ripening delayed S-adenosylmethionine hydrolase E. coli bacteriophage T3 41 Virus resistance Helicase potato leafroll luteovirus (PLRV) orf 2 42 Virus resistance Replicase (RNA dependent RNA polymerase) potato leafroll luteovirus (PLRV) orf 1 43 Virus resistance Viral coat protein Cucumber mosaic cucumovirus 44 Virus resistance Viral coat protein papaya ringspot potyvirus (PRSV) 45 Virus resistance Viral coat protein potato potyvirus Y (PVY) strain O (common strain) 46 Virus resistance Viral coat protein Watermelon mosaic potyvirus 2 47 Virus resistance Viral coat protein Zucchini yellow mosaic potyvirus PHẦN B: TỔNG QUAN - Giới thiệu Sinh học – Hiện trạng chuyển Gene NGUYỄN KỲ TRUNG – LÊ THÀNH TRUNG 27 Đến năm 2004, diện tích trồng cây chuyển gene tăng 40 lần, từ 1,7 triệu ha lên đến 80 triệu ha, đặc biệt là ở các nƣớc đang phát triển. Hình 1.18: Bản đồ một số nƣớc chính có cây trồng chuyển gene lớn trên thế giới Hình 1.19: Diện tích cây trồng chuyển gene các nƣớc trên thế giới. Hình 1.20: Biểu đồ tỷ lệ các loại gene kháng đƣợc chuyển vào cây trồng trên thế giới PHẦN B: TỔNG QUAN – Giới thiệu Bioinformatics – Khái niệm NGUYỄN KỲ TRUNG – LÊ THÀNH TRUNG 28 II. Giới thiệu về Bioinformatics II.1. Khái niệm về Bioinformatics Bioinformatics là sự kết hợp giữa Công nghệ sinh học và Công nghệ thông tin với mục tiêu giúp hiểu biết và khám phá những nguyên lý trong sinh học. Bioinformatics sử dụng máy tính để giải quyết những vấn đề của khoa học sự sống, chủ yếu là các vấn đề về cơ sở dữ liệu (CSDL) đa dạng của bộ gene, CSDL về trình tự protein, ... Đây còn là môn học giải quyết những vấn đề về kỹ thuật nhƣ mô hình cấu trúc ba chiều của phân tử và các hệ thống sinh học. Bioinformatics là sự phối hợp giữa toán học, thống kê và kỹ thuật máy tính nhằm phân tích thông tin sinh học, sinh lý, sinh hóa, di truyền. Bioinformatics liên quan đến những phƣơng pháp nhƣ lƣu trữ, tìm kiếm và phân tích dữ liệu sinh học nhƣ nucleic acid, trình tự protein; nghiên cứu cấu trúc, chức năng, con đƣờng và những ảnh hƣởng di truyền. Bioinformatics đã thực sự trở thành một công cụ nghiên cứu mới, trợ giúp đắc lực và hiệu quả để đẩy nhanh tốc độ nghiên cứu và ứng dụng công nghệ sinh học. Ba nhiệm vụ cơ bản của Bioinformatics là:  Xây dựng, bổ sung, tổ chức quản lý và khai thác cơ sở dữ liệu đa dạng và toàn diện trên quy mô toàn cầu liên quan đến sinh học và các ngành khoa học liên quan.  Xây dựng và phát triển các chƣơng trình xử lý dữ liệu ứng dụng, dƣới dạng các chƣơng trình xử lý độc lập hay đƣợc tích hợp ngay trên các thiết bị phân tích hiện đại.  Đào tạo và cập nhật thƣờng xuyên cho các nhà sinh học kỹ năng tƣ duy và năng lực khai thác hai nội dung trên vào hoạt động khoa học và công nghệ nhằm tạo ra bƣớc chuyển đột phá trong cách tiếp cận nghiên cứu sinh học. PHẦN B: TỔNG QUAN – Giới thiệu Bioinformatics – CSDL trình tự thế giới NGUYỄN KỲ TRUNG – LÊ THÀNH TRUNG 29 II.2. Vài nét về các cơ sở dữ liệu sinh học trình tự hiện nay trên thế giới II.2.1. NCBI (The National Center For Biotechnology Information) Trung tâm thông tin quốc gia về Công nghệ sinh học (NCBI) đƣợc thành lập từ năm 1988 nhƣ là nguồn thông tin quốc gia về sinh học phân tử. NCBI là bộ phận của Thƣ Viện Y Học Quốc Gia (the National Library of Medicine (NLM)) tại Viện Sức Khỏe Quốc Gia (the National Institutes of Health (NIH)). NCBI tạo ra các cơ sở dữ liệu công cộng, quản lý các nghiên cứu trong lĩnh vực sinh học tính toán, phát triển các công cụ phần mềm cho phân tích dữ liệu genome, và công bố các thông tin y sinh. Tất cả phục vụ cho sự hiểu tốt hơn tiến trình phân tử tác động đến sức khỏe và bệnh của con ngƣời. Cơ sở dữ liệu trình tự GenBank là một tập hợp đƣợc chú thích các trình tự nucleotide có sẵn và sản phẩm protein của chúng. Cơ sở dữ liệu này đƣợc tạo tại NCBI nhƣ là một phần của sự hợp tác quốc tế cùng với EMBL từ EBI và DDBJ. GenBank và các thành viên nhận trình tự từ các phòng thí nghiệm trên khắp thế giới từ hơn 100 ngàn sinh vật khác nhau. GenBank tiếp tục tăng trƣởng theo lũy thừa, gấp đôi khoảng 10 tháng. II.2.2. EMBL The European Molecular Biology Laboratory (EMBL) đƣợc thành lập năm 1974 và đƣợc đóng góp bởi tám thành viên bao gồm gần nhƣ tất cả khu vực Tây Âu và Israel. EMBL bao gồm năm liên kết: phòng thí nghiệm chính ở Heidelberg (Đức), Qutstations ở Hamburg (Đức), Grenoble (Pháp), Hinxton (Anh) và Monterotondo (Ý). EMBL là một trong những viện nghiên cứu hàng đầu trên thế giới; nó dẫn đầu Châu Âu về sinh học phân tử. EMBL là trung tâm quốc tế chung cho cả thế giới về tiến bộ trong giáo dục và đã đƣợc đào tạo bằng tiến sĩ từ năm 1997. EMBL đƣợc thành lập với bốn nhiệm vụ: quản lý những nghiên cứu cơ bản trong sinh học phân tử, cung cấp những dịch vụ cần thiết cho các nhà khoa học thành viên, đào tạo ở mức độ cao cho các hội đồng, sinh viên, các khách hàng và phát triển các công cụ mới cho nghiên cứu sinh học. Các chức năng chính này đƣợc kết hợp với các hoạt động mang ý nghĩa vƣợt trội trong lĩnh vực chuyển giao công nghệ, khoa học, xã hội và huấn luyện cho các giáo viên khoa học. PHẦN B: TỔNG QUAN – Giới thiệu Bioinformatics – CSDL trình tự thế giới NGUYỄN KỲ TRUNG – LÊ THÀNH TRUNG 30 The European Bioinformatics Institute (EBI) là một tổ chức học thuật không lợi nhuận và là một phần của EMBL. EBI là trung tâm cho nghiên cứu và phục vụ trong bioinformatics. Viện này quản lý cơ sở dữ liệu sinh học bao gồm trình tự acid nucleic, protein và cấu trúc các đại phân tử. Nhiệm vụ của EBI là đảm bảo sự tăng trƣởng thông tin từ sinh học phân tử và các nghiên cứu genome sẽ đƣợc đƣa lên công cộng và có thể đƣợc lấy miễn phí cho tất cả các khía cạnh trao đổi khoa học để thúc đẩy tiến bộ khoa học. II.2.3. DDBJ DDBJ (DNA Data Bank of Japan) bắt đầu những hoạt động ngân hàng dữ liệu DNA trong giai đoạn đầu của năm 1986 tại viện di truyền quốc gia (National Institute of Genetics - NIG) với sự công nhận của bộ giáo dục, khoa học, thể thao, và trồng trọt. Ngay từ ban đầu, DDBJ đã có chức năng là một cơ sở dữ liệu trình tự mang tính quốc tế bao gồm: EBI và NCBI (chịu trách nhiệm cho cơ sở dữ liệu GenBank) với vai trò là hai thành viên khác. DDBJ đã hợp tác với hai ngân hàng dữ liệu thông qua trao đổi dữ liệu và thông tin trên Internet và tổ chức hai cuộc họp, cuộc họp ban cố vấn ngân hàng dữ liệu DNA quốc tế ( the International DNA Data Banks Advisory Meeting) và cuộc họp hợp tác ngân hàng dữ liệu DNA quốc tế (the International DNA Data Banks Collaborative Meeting). Trung tâm thông tin sinh học tại NIG đƣợc tổ chức lại thành trung tâm thông tin sinh học (Center for Information Biology) và ngân hàng dữ liệu trình tự của Nhật (CIB-DDBJ) năm 2001. Trung tâm mới này đóng vai trò quan trọng thực hiện những nghiên cứu về thông tin sinh học và vận hành hệ thống cơ sở dữ liệu DDBJ trên thế giới. DDBJ là ngân hàng DNA duy nhất tại Nhật, đƣợc chứng nhận chính thức cho việc thu thập trình tự DNA từ các nhà nghiên cứu và tạo ra số Accession number cho dữ liệu trình tự đƣợc gởi tới. DDBJ tập hợp dữ liệu chủ yếu từ các nhà khoa học Nhật, tuy nhiên cũng chấp nhận dữ liệu và tạo Accession number cho các nhà khoa học tại các quốc gia khác. Vì DDBJ trao đổi dữ liệu hàng ngày với EMBL/EBI và GenBank/NCBI, nên ba cơ sở dữ liệu này chia sẽ cùng dữ liệu tại bất kỳ thời điểm nào. DDBJ cũng cung cấp nhiều công cụ cho phân tích và lấy ra các dữ liệu đƣợc phát triển bởi DDBJ và thành viên khác. PHẦN B: TỔNG QUAN – Giới thiệu Bioinformatics – Vài công cụ NGUYỄN KỲ TRUNG – LÊ THÀNH TRUNG 31 II.3. Vài công cụ Bioinformatics hiện nay Vì không có cách nào mô tả hết các công cụ có sẵn, dƣới đây chỉ trích một vài công cụ phổ biến dùng trong phân tích trình tự sinh học. II.3.1. Readseq Readseq là một phần mềm cũ, ra đời từ năm 1989. Đƣợc phát triển bởi Don Gilbert, chƣơng trình này đọc và viết trình tự nucleotide và protein sang nhiều định dạng hữu dụng. Công cụ này đƣợc viết bằng ngôn ngữ Java. II.3.2. BLAST BLAST (Basic Local Alignment Search Tools) là công cụ đƣợc biết tốt nhất trong phân tích trình tự. Nó so sánh hai trình tự bởi cố gắng gióng (align) chúng, và cũng đƣợc dùng để tìm kiếm trình tự trong cơ sở dữ liệu. Thuật toán bắt đầu bởi tìm kiếm sự so khớp chính xác, sau đó mở rộng vùng đã đƣợc gióng bởi những so khớp không chính xác (mismatches).  blastall cho phép sử dụng tất cả các chƣơng trình BLAST (blastn, blastp, blastx, và tblastn). Bảng sau đây tóm tắt trình tự dùng truy vấn (Query sequence), trình tự cơ sở dữ liệu (Database sequence), và loại gióng trình tự (Alignment sequence) đối với lệnh BLAST khác nhau. Program Query sequence type Database sequence type Alignment sequence type blastn nucleotide Nucleotide nucleotide blastp protein Protein protein blastx nucleotide Protein protein tblastn protein Nucleotide protein tblastx nucleotide Nucleotide protein Bảng 2.1: Bảng liệt kê một số chƣơng trình BLAST  megablast sử dụng thuật toán gióng trình tự nucleotide tìm kiếm và nối nhiều trình tự truy vấn để giảm thời gian quét (scanning) qua cơ sở dữ liệu. PHẦN B: TỔNG QUAN – Giới thiệu Bioinformatics – Vài công cụ NGUYỄN KỲ TRUNG – LÊ THÀNH TRUNG 32  blastpgp thực hiện blastp có khe (gap) và có thể đƣợc dùng để thực hiện lặp đi lặp lại tìm kiếm ở chế độ psi-blast và phi-blast.  PSI-BLAST (Position-Specific Iterated BLAST) là sự tìm kiếm lặp lại trong đó các trình tự tìm thấy trong một vòng tìm kiếm đƣợc dùng để xây dựng mô hình tính điểm cho vòng tìm kiếm kế tiếp.  PHI-BLAST (Pattern-Hit Initiated BLAST) là chƣơng trình tìm kiếm kết hợp sự so khớp của regular expression với sự gióng khu vực xung quanh sự so khớp.  bl2seq (BLAST 2 Sequences) cho phép gióng trình tự hai trình tự đƣợc nhận. II.3.3. BLAT BLAT là công cụ gióng trình tự rất nhanh tƣơng tự nhƣ BLAST. Nó tƣơng đối mới so với BLAST, nhƣng nó đã trở nên rất phổ biến. BLAT thì chính xác hơn và nhanh hơn hàng trăm lần so với BLAST. Tốc độ của BLAT xuất phát từ thời gian chạy các phần tử là các trình tự nhỏ không trùng lắp từ chiều dài đƣợc cho. Phần tử này đủ nhỏ phù hợp với bộ nhớ máy tính và đƣợc tính toán điển hình chỉ một lần đối với mỗi tập hợp genome. Jim Kent phát triển BLAT đặc biệt trợ giúp xử lý tập hợp bộ gene trong quá trình làm việc với bộ gene ngƣời. II.3.4. ClustalW ClustalW là chƣơng trình gióng đa trình tự dùng cho trình tự nucleotide và trình tự protein. Sự gióng có thể là toàn bộ (global) (toàn trình tự) hay khu vực (local) (giới hạn đoạn trình tự con). ClustalW tính toán sự khớp tốt nhất cho trình tự đƣợc chọn lựa, và sắp chúng thành hàng để xác định, những sự tƣơng đồng và sự khác biệt có thể đƣợc thấy. II.3.5. HMMER HMMER là tập hợp các chƣơng trình tạo ra mô hình Markov ẩn (hidden Markov model-HMM) của họ trình tự đƣợc dùng nhƣ trình tự truy vấn đối với cơ sở dữ liệu để xác định thêm sự tƣơng đồng (homologs) của họ trình tự. HMMER đƣợc phát triển bởi Sean Eddy tại đại học Washington. PHẦN B: TỔNG QUAN – Giới thiệu Bioinformatics – Vài công cụ NGUYỄN KỲ TRUNG – LÊ THÀNH TRUNG 33 II.3.6. MEME/MAST Hệ thống MEME/MAST cho phép bạn:  Khám phá motif (vùng có tính bảo tồn cao) trong nhóm trình tự DNA hay protein sử dụng MEME.  Tìm kiếm trình tự cơ sở dữ liệu bằng motif dùng MAST. MEME và MAST đƣợc phát triển bởi Timothy Bailey, Charles và Bill Grundy tại phòng kỹ thuật và khoa học máy tính tại trung tâm San Diego Supercomputer. II.3.7. EMBOSS EMBOSS (European Molecular Biology Open Software Suite) là công cụ phân tích trình tự với mã nguồn mở. Phần mềm này bao gồm nhiều chức năng và có thể xử lý dữ liệu với nhiều dạng format. Thƣ viện mở rộng đƣợc cung cấp với gói, cho phép ngƣời dùng phát triển và đƣa ra phần mềm riêng của họ. EMBOSS cũng tích hợp các gói và công cụ có sẵn dùng cho phân tích trình tự, nhƣ BLAST và ClustalW. EMBOSS chứa khoảng 150 chƣơng trình. Chúng xử lý một số lĩnh vực sau: o Gióng trình tự o Tìm kiếm nhanh chóng trình tự với trình tự ban đầu. o Xác định motif protein. o Phân tích trình tự, ví dụ xác định vùng CpG hay trình tự lặp lại. o Xác định nhanh chóng trình tự trong tập trình tự lớn. o Trình bày các công cụ đã đƣợc công bố… PHẦN B: TỔNG QUAN – Giới thiệu Bioinformatics – Ngôn ngữ NGUYỄN KỲ TRUNG – LÊ THÀNH TRUNG 34 II.4. Ngôn ngữ dùng trong Bioinformatics Cuộc cách mạng về bộ gene đã thay đổi diện mạo của sinh học. Bất cứ ai làm việc trong lĩnh vực này đều sử dụng phần lớn thời gian trên máy tính và duyệt qua các cơ sở dữ liệu lớn về genes, proteins, các bài báo đã công bố trên các cơ sở dữ liệu lớn trên mạng. Ví dụ danh sách toàn bộ gene ngƣời có sẵn, đã thay đổi cách làm việc của mọi ngƣời trong lĩnh vực nghiên cứu di truyền. Theo phƣơng cách truyền thống, một nhà sinh học trải qua nhiều ngày suy nghĩ chiến lƣợc cho việc xác định một gene và hàng tháng trời làm việc trong phòng thí nghiệm để tạo dòng. Ngày nay, anh ta chỉ phải mất vài ngày suy nghĩ chiến lƣợc phù hợp cho ý nghĩa của gene từ cơ sở dữ liệu bộ gene, tiếp theo thực hiện truy vấn (query), và vài phút để sắp xếp trật tự các dòng phù hợp từ nguồn dữ liệu. Để tạo thuận lợi trong sinh học mới, các nhà sinh học phải làm quen với máy tính. Truy xuất dữ liệu từ trang web dữ liệu sinh học và những công cụ phân tích chúng thì thƣờng không đủ. Để thật sự tạo ra cuộc cách mạng thông tin trong sinh học, các nhà sinh học phải có thể quản lý và phân tích lƣợng lớn dữ liệu sinh học thu đƣợc từ nhiều nguồn khác nhau. Điều này có nghĩa là viết phần mềm và Perl là ngôn ngữ ƣa thích cho Bioinformatics. Khả năng tạo ra Perl script tự động quản lý thông tin là một thuận lợi. Mặc dù Perl là ngôn ngữ rất phù hợp đối với bioinformatics, nó không phải là chọn lựa duy nhất và cũng không phải là chọn lựa tốt nhất. Các ngôn ngữ khác nhƣ Java, C++, Python… cũng đƣợc dùng trong bioinformatics. Chọn lựa ngôn ngữ nào phụ thuộc vào vấn đề cần đƣợc lập trình, kỹ năng của ngƣời lập trình và hệ thống có sẵn. PHẦN B: TỔNG QUAN – Cơ sở tin học – Lập trình hướng đối tượng NGUYỄN KỲ TRUNG – LÊ THÀNH TRUNG 35 III. Cơ sở tin học cho việc xây dựng cơ sở dữ liệu trình tự III.1. Khái niệm về lập trình Hiện nay lập trình thƣờng đƣợc phân chia thành hai trƣờng phái: + Lập trình cấu trúc hay còn gọi là “lập trình thủ tục”, “lập trình truyền thống” (Structured Programming). + Lập trình hƣớng đối tƣợng (Object -Oriented Programming). Để hiểu rõ hơn sự khác biệt cũng nhƣ ƣu khuyết điểm của hai trƣờng phái này, ta hãy xét một yêu cầu đơn giản: Hãy hiển thị thông tin miêu tả các hình trong CSDL ra màn hình. Ta có thể dễ dàng phân tích vấn đề theo thứ tự các bƣớc sau: 1. Định vị các hình trong cơ sở dữ liệu. 2. Tạo danh sách hình. 3. Sắp xếp danh sách hình theo một thứ tự nhất định. 4. Biễu diễn từng hình riêng ra màn hình. Mỗi một bƣớc trong bốn bƣớc ở trên có thể phân rã thành những đơn vị nhỏ hơn để có thể dễ dàng hơn trong việc thực hiện. Ví dụ ta có thể chia bƣớc 4 thành các bƣớc sau (sử dụng vòng lặp): - Lấy từng hình trong danh sách bắt đầu từ vị trí đầu tiên cho đến vị trí cuối cùng. - Gọi hàm hiển thị từng hình ra màn hình. Cách nhìn nhận và phân tích vấn đề nhƣ thế đƣợc gọi là phân rã chức năng (functionnal decomposition). Phân rã chức năng là cách tiếp cận bằng cách chia nhỏ vấn đề đến mức mà ngƣời lập trình có thể sử dụng tập lệnh của một ngôn ngữ lập trình để thực hiện chúng. Bằng cách này, ta có thể dễ dàng giải quyết và quản lý những vấn đề lớn thông qua từng công việc nhỏ. Cách tiếp cận trên là tƣ tƣởng chủ đạo của lập trình cấu trúc. Đây cũng là điểm giống nhau giữa lập trình cấu trúc và lập trình hƣớng đối tƣợng. Tuy nhiên, nếu chỉ dừng lại ở đây thì việc giải quyết một số vấn đề phức tạp ta sẽ gặp khó khăn vì những lý do sau: + Phân rã chức năng thƣờng có một chƣơng trình chính chịu trách nhiệm về các chƣơng trình con và ta không hề gặp khó khăn trong việc chia nhỏ các chức năng. Tuy nhiên khi đó chƣơng trình chính phải gánh rất nhiều nhiệm vụ: đảm bảo mọi thứ đều hoạt động tốt, liên kết và quản lý trình tự thực hiện các chức năng. Do đó, khi yêu cầu PHẦN B: TỔNG QUAN – Cơ sở tin học – Lập trình hướng đối tượng NGUYỄN KỲ TRUNG – LÊ THÀNH TRUNG 36 ngày càng nhiều, độ phức tạp của các yêu cầu ngày càng cao, thì chƣơng trình viết theo kiểu cấu trúc sẽ ngày càng phức tạp, gây khó khăn trong việc quản lý, bảo trì và phát triển chƣơng trình về sau. Mọi thứ đều phát triển và thay đổi theo thời gian, không có gì là bất biến. Và một chƣơng trình ứng dụng cũng không nằm ngoài quy luật đó, nó luôn luôn thay đổi để ngày càng phù hợp với yêu cầu của thực tế. Tính khó thích nghi khi có những thay đổi là nhƣợc điểm quan trọng nhất của lập trình thủ tục. + Trong một chƣơng trình có cấu trúc nhiều phần khác nhau có thể truy cập cùng một dữ liệu. Điều này nghĩa là nếu một chƣơng trình cần thay đổi cách tổ chức dữ liệu, ta phải tìm tất cả các chức năng hoặc các lệnh truy cập dữ liệu đó để có những thay đổi tƣơng ứng. Nếu sót một trong các chức năng hoặc lệnh này thì chƣơng trình có thể vẫn hoạt động nhƣng sẽ cho ra kết quả sai. + Một nhƣợc điểm khác của lập trình thủ tục là ta không thể kế thừa hiệu quả cũng nhƣ tái sử dụng hiệu quả các chức năng đã viết, trong nhiều tình huống phải viết lại gần nhƣ toàn bộ. Lập trình hƣớng đối tƣợng đƣợc đƣa ra để khắc phục các nhƣợc điểm của lập trình có cấu trúc. Lập trình hƣớng đối tƣợng giúp ta tƣ duy và giải quyết vấn đề nhƣ cách ta thực hiện ngoài đời, do đó giúp ta tiếp cận các vấn đề một cách dễ dàng. Nói cách khác lập trình hƣớng đối tƣợng chính là mô hình thu nhỏ của thế giới thực dƣới góc độ nhìn nhận của con ngƣời. Trọng tâm của lập trình hƣớng đối tƣợng là ở khái niệm về đối tƣợng (object) chứ không phải là khái niệm chức năng. Tất cả mọi vật, hiện tƣợng tồn tại xung quanh ta khi đƣa vào chƣơng trình đều đƣợc gọi chung là đối tƣợng. Ví dụ, ta có đối tƣợng sinh viên, đối tƣợng sách khoa học, trong vấn đề sinh học đối tƣợng có thể là gene, record, báo cáo khoa học … Nhƣ đã nói trên, đối tƣợng chính là các sự vật hiện tƣợng thật trong cuộc sống, do đó, nó có các đặc điểm, tính chất để phân biệt với các đối tƣợng khác và trong lập trình hƣớng đối tƣợng nó đƣợc gọi là thuộc tính (attribute). Để làm rõ ta có thể có các ví dụ về thuộc tính của một số đối tƣợng nhƣ sau: Đối tƣợng Thuộc tính * Sinh viên - họ tên - lớp - mã số sinh viên PHẦN B: TỔNG QUAN – Cơ sở tin học – Lập trình hướng đối tượng NGUYỄN KỲ TRUNG – LÊ THÀNH TRUNG 37 * Xe hơi - nhà sản xuất - màu - tốc độ tối đa * Gene - tên gene - số accession - tác giả … Thuận lợi của dùng đối tƣợng là ta có thể gắn kết thuộc tính với nhiệm vụ / chức năng riêng (behavior) của đối tƣợng đó. Đây là khác biệt quan trọng giữa lập trình cấu trúc (dữ liệu không gắn kết chặt chẽ với hành vi) và lập trình hƣớng đối tƣợng. Đối tƣợng nào có thuộc tính nào thì chỉ thực hiện các hành vi phù hợp với thuộc tính mà nó có. Những hành vi không phù hợp phải thuộc về một đối tƣợng nào khác mà có thuộc tính phù hợp để thực hiện nhiệm vụ đó. Nhƣ sách chỉ dùng để đọc và xe dùng để lái mà không thể làm ngƣợc lại nghĩa là ta chỉ có thể thực hiện “đọc sách lái xe” chứ không thể “lái sách đọc xe”. Trong lập trình hƣớng đối tƣợng các chức năng, nhiệm vụ này gọi là hàm. Ví dụ: Đối tƣợng Student có các hàm : gotoSchool() // đi học learn() // học bài Thay vì xem mỗi sinh viên là một object điều này sẽ giúp ta dễ dàng xác định chính xác đó là sinh viên nào và nó hoàn toàn độc lập với các object khác. Tóm lại, lập trình hƣớng đối tƣợng đã bổ sung đƣợc những điều mà lập trình cấu trúc còn hạn chế, nó giúp ta quản lý và tiếp tục phát triển chƣơng trình cho phù hợp với các yêu cầu mới phát sinh một cách dễ dàng. Hơn thế nữa các nhà phát triển phần mềm có thể hoàn toàn không biết về nhau nhƣng điều đó không hề gây khó khăn bởi lập trình hƣớng đối tƣợng là mô hình thu nhỏ của thế giới và nó nhìn nhận cũng nhƣ phân tích vấn đề xảy ra nhƣ bộ não con ngƣời. Vì thế muốn chƣơng trình của mình có thể phù hợp và phát triển bền vững thì lập trình hƣớng đối tƣợng là chọn lựa tốt nhất hiện nay. PHẦN B: TỔNG QUAN – Cơ sở tin học – Lập trình hướng đối tượng NGUYỄN KỲ TRUNG – LÊ THÀNH TRUNG 38 Ví dụ: Xác định chức năng f() của ký tự A trong sinh học - Đối với lập trình cấu trúc define f() { if (A of DNA) then f stabilize the structure of DNA else if (A of RNA) then f stabilize the structure of RNA else # A of Protein f stabilize the structure of Protein } - Đối với lập trình hƣớng đối tƣợng Ta có 3 đối tƣợng DNA, RNA, và Protein. Ba đối tƣợng này có thể gọi chung là một đại-phân-tử. Cho trƣớc một đại-phân-tử bất kỳ, muốn gọi thi hành một chức năng f nào đó, ta không cần kiểm tra xem đó là DNA, RNA hay Protein. Ta chỉ cần gọi đại-phân-tử.f() thì đối tƣợng đại-phân-tử sẽ cho ra kết quả phù hợp với bản chất của nó. đại-phân-tử.f() Cách tiếp cận này sẽ trở nên đơn giản nếu chúng ta phải thực hiện nhiều hàm khác nhau trên đối tƣợng đại-phân-tử, chẳng hạn g(), h(), … Khi đó, ta không phải mất sức nhớ và kiểm tra xem đại-phân-tử đó là DNA, RNA, hay Protein. Điều này giải phóng phần nào năng lực tƣ duy của ngƣời lập trình. PHẦN B: TỔNG QUAN – Cơ sở tin học – Lập trình Perl NGUYỄN KỲ TRUNG – LÊ THÀNH TRUNG 39 III.2. Ngôn ngữ lập trình Perl dùng trong Bioinformatics III.2.1. Giới thiệu Perl Perl (Pratical Extraction and Reporting Language) là ngôn ngữ đa năng, hữu dụng. Perl đƣợc dùng xử lý các tập tin, CGI, …đặc biệt hỗ trợ rất mạnh trong việc xử lý chuỗi. Perl đƣợc đƣa vào sử dụng đầu tiên vào năm 1987 do Larry Wall. Tiếp theo đó là các phiên bản 2.0, 3.0, 4.0, 5.0. Hiện nay phiên bản Perl mới nhất 5.8. Perl có thể cài đƣợc trên các hệ điều hành khác nhau. Mỗi hệ điều hành khác nhau sẽ có phiên bản Perl khác nhau. Trên hệ điều hành Windows ta dùng phiên bản ActivePerl 5.6 (hay 5.8) cho Win. Để soạn thảo ngôn ngữ Perl, ta có thể dùng các phần mềm soạn thảo nhƣ: UltraEdit, Notepad, EditPlus, Perl Builder, … Để chạy chƣơng trình Perl, ta dùng các dòng lệnh trên MS-DOS. III.2.2 Thành phần cơ bản trong Perl 1. Kiểu dữ liệu vô hƣớng (Scalar data) a. Kiểu số: Ví dụ: 1, 109, 1.5e5…. b. Kiểu chuỗi: Chuỗi là một loạt các ký tự liên tiếp từ bộ 256 ký tự ASCII có sẵn. Ví dụ: „Đây là chuỗi trình tự DNA‟, hay ta có thể viết “Đây là chuỗi trình tự DNA”. Chuỗi có thể đặt trong dấu „‟ hay “”. c. Biến vô hƣớng: Biến vô hƣớng dùng để lƣu giá trị dữ liệu vô hƣớng trong quá trình tính toán, thực hiện chƣơng trình.  Biến vô hƣớng phải bắt đầu tên biến với ký tự “$”.  Sau ký tự “$” phải có ít nhất một mẫu tự, và mẫu tự bắt đầu không đƣợc là ký tự số.  Tên biến có sự phân biệt giữa chữ hoa và chữ thƣờng. Ví dụ: $a, $A, $DNA, $number2… PHẦN B: TỔNG QUAN – Cơ sở tin học – Lập trình Perl NGUYỄN KỲ TRUNG – LÊ THÀNH TRUNG 40 d. Các toán tử:  Toán tử tính toán cơ bản: Toán tử Ý nghĩa Ví dụ = + - * / ** Gán Cộng Trừ Nhân Chia Lũy thừa $DNA=„actacacagt‟ 2+3 5-6 4*2 10/5 5**3  Toán tử một ngôi: Toán tử Ví dụ Ý nghĩa += -= *= /= ++ -- $x += 5 $x -=5 $x *=5 $x /=5 $x++ $x-- $x = $x + 5 $x = $x – 5 $x = $x * 5 $x = $x / 5 Biến $x tự tăng một đơn vị Biến $x tự giảm một đơn vị  Các toán tử so sánh: kết quả trả về là true hay false Áp dụng đối với số Áp dụng đối với chuỗi Ý nghĩa < > == <= >= != lt gt eq le ge ne Nhỏ hơn Lớn hơn Bằng Nhỏ hơn hoặc bằng Lớn hơn hoặc bằng Không bằng  Các toán tử luận lý Toán tử Cách dùng tương đương && || ^ ! and or xor not PHẦN B: TỔNG QUAN – Cơ sở tin học – Lập trình Perl NGUYỄN KỲ TRUNG – LÊ THÀNH TRUNG 41  Một số toán tử thông dụng khác Toán tử Chức năng hoặc chomp chop length Nhập input từ bàn phím Cắt bỏ ký tự newline ở cuối chuỗi Cắt bỏ ký tự bất kỳ ở cuối chuỗi Tính chiều dài của chuỗi 2. Các cấu trúc điều khiển a. Câu lệnh điều kiện:  If: If (biểu thức) { Khối lệnh cần thực hiện; } Nếu biểu thức là đúng thì khối lệnh đƣợc thực hiện, nếu không khối lệnh đƣợc bỏ qua.  If – else: If (biểu thức) { Khối lệnh 1 cần thực hiện; } else { Khối lệnh 2 cần thực hiện; } Nếu biểu thức là đúng thì khối lệnh 1 đƣợc thực hiện, nếu không khối lệnh hai đƣợc thực hiện.  If – elsif - else: If (biểu thức 1) { Khối lệnh 1 cần thực hiện; } elsif (biểu thức 2) { Khối lệnh 2 cần thực hiện; }..... . . } else { PHẦN B: TỔNG QUAN – Cơ sở tin học – Lập trình Perl NGUYỄN KỲ TRUNG – LÊ THÀNH TRUNG 42 Khối lệnh cần thực hiện; } Nếu biểu thức 1 là đúng thì khối lệnh 1 đƣợc thực hiện, nếu không sẽ kiểm tra biểu thức 2. Nếu biểu thức 2 đúng thì khối lệnh 2 đƣợc thực hiện…Nếu không biểu thức nào đƣợc thỏa mãn, khối lệnh trong biểu thức else đƣợc thực hiện.  Unless: unless (biểu thức) { Khối lệnh cần thực hiện; } Nếu biểu thức sai thì khối lệnh sẽ đƣợc thực hiện.  Unless - else: unless (biểu thức) { Khối lệnh 1 cần thực hiện; } else { Khối lệnh 2 cần thực hiện; } Nếu biểu thức là sai thì khối lệnh thứ 1 sẽ đƣợc thực hiện, nếu không thì khối lệnh 2 đƣợc thực hiện. b. Vòng lặp “while”: while (biểu thức) { Khối lệnh cần thực hiện; } Đầu tiên, biểu thức sẽ đƣợc kiểm tra. Nếu biểu thức là đúng thì khối lệnh sẽ đƣợc thực hiện. Việc thực hiện khối lệnh sẽ đƣợc lặp đi lặp lại và sẽ dừng lại khi biểu thức sai. Khối lệnh có thể sẽ không thực hiện lần nào nêu biểu thức sai ngay từ đầu. do { Khối lệnh cần thực hiện; }while (biểu thức); Đầu tiên sẽ thực hiện khối lệnh cho dù biểu thức là đúng hay sai. Sau đó, biểu thức sẽ đƣợc kiểm tra, nếu đúng thì sẽ lặp lại khối lệnh. Vòng lặp sẽ dừng khi biểu thức là sai. PHẦN B: TỔNG QUAN – Cơ sở tin học – Lập trình Perl NGUYỄN KỲ TRUNG – LÊ THÀNH TRUNG 43 c. Vòng lặp “for”: Vòng lặp for thƣờng dùng để xác định số lần mà khối lệnh muốn thực hiện for (biểu thức 1; biểu thức điều kiện; biểu thức 2){ khối lệnh cần thực hiện; } Vòng lặp sẽ dừng lại khi “biểu thức điều kiện” là sai. 3. Mảng và Bảng băm (Array and Hash) 3.1 Mảng a) Giới thiệu: Biến mảng giống nhƣ biến vô hƣớng, nó đƣợc tạo ra để lƣu dữ liệu. Tuy nhiên dữ liệu là một danh sách (list) (danh sách là một nhóm dữ liệu vô hƣớng đƣợc sắp xếp theo thứ tự). Mở đầu biến mảng là ký tự “@”, và các quy tắc đặt tên cho biến mảng cũng tƣơng tự nhƣ đặt tên cho biến vô hƣớng. Ví dụ: @a; @a = (1, 2, 3, $x, $y); Các phần tử của mảng đƣợc đánh số từ 0, nhƣ mảng trên 1 ở vị trí 0, 2 là vị trí 1… Truy cập đến một phần tử trong mảng: $a[0] truy cập đến phần tử thứ 0, $a[1] truy cập đến phần tử thứ 1 của mảng. Nhập phần tử vào mảng từ bàn phím: @array = ; b) Một số hàm thao tác trên mảng:  Tìm chiều dài mảng: $chieudai = scalar (@a); Hoặc $chieudai = ($#a +1);  Tìm chỉ số phần tử cuối cùng của mảng: $chisophantucuoi = $#a;  Hàm sort, sắp xếp thứ tự: @b = sort (@a); PHẦN B: TỔNG QUAN – Cơ sở tin học – Lập trình Perl NGUYỄN KỲ TRUNG – LÊ THÀNH TRUNG 44 Hàm này sắp xếp thứ tự các phần tử trong mảng theo thứ tự bảng mã ASCII, không sắp xếp theo thứ tự số.  Hàm push, thêm phần tử mới vào mảng: push (@a, $new_element); Phần tử mới đƣợc thêm vào vị trí cuối cùng.  Hàm pop, lấy đi phần tử cuối cùng: $x = pop (@a); Sau dòng lệnh này, mảng @a sẽ mất đi phần tử cuối cùng sẽ đƣợc gán vào biến $x.  Hàm unshift, thêm phần tử mới vào đầu mảng: unshif (@a, „new_element‟); Phần tử new_element đƣợc thêm vào đầu mảng.  Hàm shift, lấy đi phần tử đầu tiên của mảng: $x = shift (@a); Sau dòng lệnh này, mảng @a sẽ mất đi phần tử đầu tiên của mảng và phần tử này đƣợc gán tới biến $x.  Hàm reverse, đảo ngƣợc các phần tử trong mảng: @b = reverse (@a);  Hàm join, nối các phần tử trong mảng thành một chuỗi: $string = join (“separator”, @a); Separator là ký tự hay chuỗi ký tự phân cách giữa hai phần tử mảng.  Hàm split, tách một chuỗi thành một bảng các phần tử: @a = split (“separator”, $string); c) Mảng con: Mảng con chỉ chứa một số phần tử trong mảng cho trƣớc @a = (a, b, c, d, e, f); @b = @a[1..3]; mảng @b chứa các phần tử thứ 1, 2, 3 trong mảng @a, cụ thể là các phần tử b, c, d. @c = @a[1,4,5]; mảng @c chứa các phần tử thứ 1, 4, 5 trong mảng @a, cụ thể là các phần tử b, e, f. a. Vòng lặp dành cho mảng: Vòng lặp foreach đƣợc áp dụng cho mảng. PHẦN B: TỔNG QUAN – Cơ sở tin học – Lập trình Perl NGUYỄN KỲ TRUNG – LÊ THÀNH TRUNG 45 foreach $a (@array) { khối lệnh cần thực hiện; } Các phần tử trong mảng lần lƣợt đƣợc gán cho biến $a qua mỗi vòng lặp. Biến $a chỉ có hiệu lực cục bộ trong vòng lặp foreach. 3.2 Bảng băm (Hash) a) Giới thiệu: Hash là một loại biến dùng để lƣu trữ danh sách dữ liệu vô hƣớng tƣơng tự nhƣ mảng. Tuy nhiên, các phần tử trong mảng đƣợc chỉ mục (index) tự động còn trong Hash thì không đƣợc tạo chỉ mục một cách tự động. Các phần tử trong Hash đi thành từng cặp key/ value, trong đó phần tử key dùng làm chỉ mục cho phần tử value. Mở đầu biến hash là ký tự “%” và qui tắc đặt tên cho hash tƣơng tự nhƣ mảng. Có hai cách khai báo:  %hash = (key1, value1, key2, value2, key3, value3);  %hash = ( key1 => value 1, key2 => value 2, key3 => value 3); Truy cập một phần tử của hash: $a = $hash {$key}; Thêm phần tử mới vào hash: $hash{$key} = $value; cặp giá trị key/ value đƣợc thêm vào hash. b) Một số hàm thao tác trên hash:  Hàm delete, xóa phần tử trong hash: delete $hash{$key}; xóa cặp giá trị key/value tƣơng ứng với nhau.  Hàm keys, trích các keys và lƣu các keys này vào mảng: @keys = keys (%hash);  Hàm values, trích các values và lƣu các values này vào mảng: @values = values (%hash); PHẦN B: TỔNG QUAN – Cơ sở tin học – Lập trình Perl NGUYỄN KỲ TRUNG – LÊ THÀNH TRUNG 46 4. Thao tác với tập tin a) Mở tập tin: Cú pháp: Open (Filehandle, “đường dẫn đến tập tin cần mở”) or die (“Không mở được tập tin”); FileHandle sẽ là tham chiếu đến tập tin cần mở suốt chƣơng trình. Nếu không mở đƣợc tập tin với lý do nào đó, hàm die đƣợc thực thi và chƣơng trình bị ngắt. Khi mở một tập tin, chúng ta có thể mở ở ba chế độ khác nhau: đọc (read), viết (write), chèn (append). Một tập tin đƣợc mở thì mặc định trong chế độ đọc. Mở tập tin trong chế độ viết (write), ta thêm dấu “>”trƣớc đƣờng dẫn. Chú ý khi mở tập tin trong chế độ Write thì nội dung của toàn bộ tập tin sẽ bị xóa và nội dung mới sẽ đƣợc ghi thêm vào, nếu không đƣợc thêm vào tập tin sẽ là rỗng. Cú pháp: Open (FileHandle, “>đường dẫn tới tập tin cần ghi”) or die (“Không thể mở tập tin”); Mở tập tin trong chế độ chèn (append) ta thêm dấu “>>” vào trƣớc đƣờng dẫn. Khi mở tập tin trong chế độ này ta có thể thêm nội dung vào tập tin. Mở tập tin để đọc và thêm nội dung vào (read/write) ta thêm dấu “+<” vào trƣớc đƣờng dẫn. Tạo một tập tin mới có thể đọc và viết vào ta thêm dấu +> vào trƣớc đƣờng dẫn. b) Đóng tập tin: Cú pháp: close (FileHandle); c) Đọc tập tin: Sau lệnh mở tập tin, nội dung của tập tin có thể đƣợc đọc nhƣ sau: Open (THU, “D:/Perl/thu.txt”) or die (“Không mở được tập tin”); $thu = ; print “dòng đầu tiên của tập tin là: $thu”; PHẦN B: TỔNG QUAN – Cơ sở tin học – Lập trình Perl NGUYỄN KỲ TRUNG – LÊ THÀNH TRUNG 47 Nếu tập tin thu.txt có nhiều dòng, mỗi dòng trong tập tin thu.txt tƣơng ứng với một phần tử

Các file đính kèm theo tài liệu này:

  • pdfLUAN VAN TOT NGHIEP HOAN CHINH.pdf