Tài liệu Khóa luận Thu thập và tổ chức dữ liệu gene phục vụ nghiên cứu cây trồng biến đổi di truyền: BỘ GIÁO DỤC VÀ ĐÀO TẠO
ĐẠI HỌC NÔNG LÂM TP. HỒ CHÍ MINH
BỘ MÔN CÔNG NGHỆ SINH HỌC
KHÓA LUẬN TỐT NGHIỆP
THU THẬP VÀ TỔ CHỨC DỮ LIỆU GENE
PHỤC VỤ NGHIÊN CỨU CÂY TRỒNG
BIẾN ĐỔI DI TRUYỀN
NGÀNH HỌC: CÔNG NGHỆ SINH HỌC
NIÊN KHÓA: 2001-2005
SINH VIÊN THỰC HIỆN:
NGUYỄN KỲ TRUNG 01125137
LÊ THÀNH TRUNG 01126165
Thành phố Hồ Chí Minh
Tháng 9/2005
ii
BỘ GIÁO DỤC VÀ ĐÀO TẠO
ĐẠI HỌC NÔNG LÂM TP. HỒ CHÍ MINH
BỘ MÔN CÔNG NGHỆ SINH HỌC
THU THẬP VÀ TỔ CHỨC DỮ LIỆU GENE
PHỤC VỤ NGHIÊN CỨU CÂY TRỒNG
BIẾN ĐỔI DI TRUYỀN
Giảng viên hƣớng dẫn: Sinh viên thực hiện:
PGS.TS. BÙI THỌ THANH NGUYỄN KỲ TRUNG
TS. BÙI MINH TRÍ LÊ THÀNH TRUNG
TS. NGUYỄN CÔNG VŨ
Thành phố Hồ Chí Minh
Tháng 9/2005
iii
LỜI CẢM ƠN
Chúng em chân thành cảm ơn:
- Ban Giám hiệu trƣờng Đại học Nông Lâm thành phố Hồ Chí Minh.
- Ban Giám đốc Trung tâm Phân tích Thí nghiệm Trƣờng Đại học Nông Lâm thành
phố Hồ Chí Minh.
- Ban chủ nhiệm Bộ Môn Công nghệ Sinh ...
215 trang |
Chia sẻ: hunglv | Lượt xem: 1271 | Lượt tải: 0
Bạn đang xem trước 20 trang mẫu tài liệu Khóa luận Thu thập và tổ chức dữ liệu gene phục vụ nghiên cứu cây trồng biến đổi di truyền, để tải tài liệu gốc về máy bạn click vào nút DOWNLOAD ở trên
BỘ GIÁO DỤC VÀ ĐÀO TẠO
ĐẠI HỌC NÔNG LÂM TP. HỒ CHÍ MINH
BỘ MÔN CÔNG NGHỆ SINH HỌC
KHÓA LUẬN TỐT NGHIỆP
THU THẬP VÀ TỔ CHỨC DỮ LIỆU GENE
PHỤC VỤ NGHIÊN CỨU CÂY TRỒNG
BIẾN ĐỔI DI TRUYỀN
NGÀNH HỌC: CÔNG NGHỆ SINH HỌC
NIÊN KHÓA: 2001-2005
SINH VIÊN THỰC HIỆN:
NGUYỄN KỲ TRUNG 01125137
LÊ THÀNH TRUNG 01126165
Thành phố Hồ Chí Minh
Tháng 9/2005
ii
BỘ GIÁO DỤC VÀ ĐÀO TẠO
ĐẠI HỌC NÔNG LÂM TP. HỒ CHÍ MINH
BỘ MÔN CÔNG NGHỆ SINH HỌC
THU THẬP VÀ TỔ CHỨC DỮ LIỆU GENE
PHỤC VỤ NGHIÊN CỨU CÂY TRỒNG
BIẾN ĐỔI DI TRUYỀN
Giảng viên hƣớng dẫn: Sinh viên thực hiện:
PGS.TS. BÙI THỌ THANH NGUYỄN KỲ TRUNG
TS. BÙI MINH TRÍ LÊ THÀNH TRUNG
TS. NGUYỄN CÔNG VŨ
Thành phố Hồ Chí Minh
Tháng 9/2005
iii
LỜI CẢM ƠN
Chúng em chân thành cảm ơn:
- Ban Giám hiệu trƣờng Đại học Nông Lâm thành phố Hồ Chí Minh.
- Ban Giám đốc Trung tâm Phân tích Thí nghiệm Trƣờng Đại học Nông Lâm thành
phố Hồ Chí Minh.
- Ban chủ nhiệm Bộ Môn Công nghệ Sinh học cùng toàn thể Quý Thầy Cô đã truyền
đạt kiến thức cho chúng em trong suốt quá trình học tập tại trƣờng.
Chúng em xin gửi lòng biết ơn sâu sắc đến:
- TS. Bùi Minh Trí
- PGS.TS. Bùi Thọ Thanh
- TS. Nguyễn Công Vũ
Đã tận tình hƣớng dẫn tạo điều kiện tốt nhất cho chúng em trong suốt quá trình
thực hiện đề tài và hoàn thành luận văn tốt nghiệp này.
Chúng em đồng chân thành cảm ơn đến:
- Thầy Lƣu Phúc Lợi
- TS. Đinh Duy Kháng
- Các bạn sinh viên Khoa Công nghệ Thông tin đang làm việc trong nhóm
Bioinformatics Đại học Nông Lâm thành phố Hồ Chí Minh
- Các anh chị đang làm việc tại Trung tâm Phân tích Hóa sinh
- Các bạn trong lớp CNSH27
Đã hết giúp đỡ, hỗ trợ, động viên, chia sẽ những buồn vui trong suốt thời gian
chúng tôi thực tập và thực hiện đề tài này.
Tp. Hồ Chí Minh tháng 09 năm 2005
Sinh viên thực hiện
Nguyễn Kỳ Trung
Lê Thành Trung
iv
TÓM TẮT
Tên đề tài: THU THẬP VÀ TỔ CHỨC DỮ LIỆU GENE PHỤC VỤ
NGHIÊN CỨU CÂY TRỒNG BIẾN ĐỔI DI TRUYỀN, do hai sinh viên:
NGUYỄN KỲ TRUNG và LÊ THÀNH TRUNG thực hiện tháng 9/2005.
Giảng viên hƣớng dẫn: PGS.TS. BÙI THỌ THANH
TS. BÙI MINH TRÍ
TS. NGUYỄN CÔNG VŨ
Đề tài thực hiện nhằm mục đích tập hợp, tổ chức dữ liệu gene phục vụ cho nghiên
cứu cây trồng biến đổi di truyền. Công việc đƣợc tiến hành tại Trung Tâm Phân Tích
Hóa Sinh (Đại học Nông Lâm TP.HCM), Phòng thực hành mạng (Khoa Công Nghệ
Thông Tin, Đại học Nông Lâm TP.HCM).
Công việc đƣợc tiến hành chia ra nhiều giai đoạn:
Khai thác thông tin ấn phẩm bài báo về cây trồng biến đổi di truyền trên
kho dữ liệu khổng lồ trên internet bằng hai công cụ tìm kiếm trang web Google
và Scirus.
Khai thác thông tin trình tự trên GenBank tại NCBI bằng hai công cụ
Entrez và BLAST.
Tổ chức thông tin dữ liệu với ngôn ngữ Perl.
Xử lý dữ liệu, tạo giao diện sử dụng khai thác dữ liệu cho ngƣời dùng
với Biojava, công nghệ Java servlet và công cụ thiết kế web Frontpage,
Dreamweaver.
Kết quả tạo ra qui trình tìm trình tự gene mong muốn trên cơ sở dữ liệu trình tự
chung GenBank và tạo đƣợc cơ sở dữ liệu riêng về các gene liên quan đến cây trồng
biến đổi di truyền phục vụ khai thác dễ dàng thuận lợi cho các nhà nghiên cứu trong
lĩnh vực này.
v
SUMMARY
“COLECTING AND ORGANIZING GENE DATA SERVES GENETIC
MODIFIED PLANT RESEARCHES” by TRUNG NGUYEN KY and TRUNG
LE THANH in 9/2005.
Supervisors: Assoc. prof. PhD. THANH BUI THO
PhD. TRI BUI MINH
PhD. VU NGUYEN CONG
The purpose of this research is to collect, orgarnize gene data to surve research in
genetic modified plant. The research was carried out at the Chemical and Biological
Analysis and Experiment Center and the practical network department (in the
Information Facuty at Nong Lam University).
The process was devided in various phases as following:
Accessing articles about GM plants on the internet with two web search
engines Google and Scirus.
Accessing comparing and selecting sequences of interest from the
GenBank at NCBI with Entrez and BLAST tools.
Organizing data with Perl language.
Processing data, designing user interfaces with Biojava, Java Servlet
technology in combination with Frontpage and Dreamweaver.
The establishing database allows researchers in the related fields easily to access
and satisfied with basic requirement in genetic research.
vi
MỤC LỤC
Nội dung Trang
Trang tựa ............................................................................................................................ ii
Lời cảm ơn ......................................................................................................................... iii
Tóm tắt ............................................................................................................................... iv
Sumary ................................................................................................................................ v
Mục lục .............................................................................................................................. vi
Danh sách các chữ viết tắt .................................................................................................. x
Danh sách các sơ đồ và bảng .............................................................................................. xi
Danh sách các hình ........................................................................................................... xii
PHẦN A: GIỚI THIỆU ................................................................................................... 1
I. Đặt vấn đề ................................................................................................................. 1
II. Mục đích của đề tài .................................................................................................. 2
III. Yêu cầu của đề tài .................................................................................................... 2
IV. Các giai đoạn tiến hành .............................................................................................. 3
V. Giới hạn .................................................................................................................... 3
PHẦN B: TỔNG QUAN TÀI LIỆU ............................................................................... 4
I. GIỚI THIỆU VỀ SINH HỌC .................................................................................... 4
I.1. Cơ sở sinh học về gene ........................................................................................ 4
I.1.1. Thuật ngữ và quan niệm về gene ................................................................ 4
I.1.2. DNA ở các sinh vật khác nhau .................................................................... 5
I.1.2.1. Sự khác nhau giữa các phân tử DNA ................................................. 5
I.1.2.2. Cấu trúc acid nucleic .......................................................................... 6
I.1.3 Mã di truyền ................................................................................................. 8
I.1.3.1. Thuật ngữ ............................................................................................ 8
I.1.3.2. Từ điển mã di truyền ........................................................................... 8
I.1.3.3. Ba đặc tính quan trọng của mã di truyền ............................................ 10
I.1.4 Cấu trúc căn bản của một gene eukaryote .................................................... 12
I.2. Cơ sở sinh học về chuyển gene ............................................................................ 13
vii
I.2.1. Các vấn đề chủ yếu trong việc cải biến di truyền ...................................... 14
I.2.2. Các phƣơng pháp chuyển gene ................................................................... 14
I.2.3. Những khó khăn trong chuyển gene ........................................................... 17
I.2.4. Sản phẩm của kỹ thuật di truyền ................................................................. 18
I.2.5. Tiềm năng của chuyển gene ........................................................................ 19
I.2.5.1. Các chức năng mới trong cải biến di truyền thực vật ......................... 19
I.2.5.2. Các tính trạng mới (News traits)......................................................... 20
I.2.5.3. Sự biểu hiện gene ................................................................................ 21
I.2.6. Locus chuyển gene ...................................................................................... 22
I.3. Hiện trạng sản xuất cây trồng chuyển gene trên thế giới .................................... 24
II. GIỚI THIỆU VỀ BIOINFORMATICS ..................................................................... 28
II.1. Khái niệm về Bioinformatics .............................................................................. 28
II.2. Vài nét về các cơ sở dữ liệu Sinh học ................................................................ 29
II.2.1. NCBI ......................................................................................................... 29
II.2.2. EMBL......................................................................................................... 29
II.2.3. DDBJ .......................................................................................................... 30
II.3. Vài công cụ Bioinformatics hiện nay ................................................................. 31
II.3.1. Readseq ...................................................................................................... 31
II.3.2. BLAST ....................................................................................................... 31
II.3.3. BLAT ......................................................................................................... 32
II.3.4. ClustalW..................................................................................................... 32
II.3.5. HMMER..................................................................................................... 32
II.3.6. MEME/MAST ........................................................................................... 33
II.3.7. EMBOSS .................................................................................................... 33
II.4. Ngôn ngữ dùng trong Bioinformatics................................................................. 34
III. CƠ SỞ TIN HỌC CHO VIỆC XÂY DỰNG CƠ SỞ DỮ LIỆU TRÌNH TỰ ........... 35
III.1. Khái niệm về lập trình ....................................................................................... 35
III.2. Ngôn ngữ Perl dùnh trong Bioinformatics ........................................................ 39
III.2.1. Giới thiệu Perl ........................................................................................... 39
III.2.2. Thành phần cơ bản trong Perl ................................................................... 39
III.3. Công nghệ Java ứng dụng trong công việc xử lý dữ liệu Bioinformatics ........ 50
III.3.1. Biojava ...................................................................................................... 50
viii
III.3.2. Biojava và CSDL ...................................................................................... 50
III.3.3. Tổng quan về công nghệ servlet cho các ứng dụng trên Web .................. 51
III.3.4. Chức năng cơ bản của servlet ................................................................... 52
III.3.5. Thuận lợi của servlet so với các công nghệ thiết kế web khác ................ 53
III.3.6. Sự xây dựng ứng dụng servlet .................................................................. 55
PHẦN C: PHƢƠNG TIỆN VÀ PHƢƠNG PHÁP TIẾN HÀNH ................................ 57
I. PHƢƠNG TIỆN ........................................................................................................ 57
I.1. Thiết bị ................................................................................................................. 57
I.2. Thời gian và địa điểm xây dựng CSDL ............................................................... 57
II. TÌM KIẾM DỮ LIỆU BÀI BÁO .............................................................................. 58
II.1. Tìm kiếm tổng hợp tính trạng ............................................................................. 58
II.2. Tổng hợp dữ liệu Primer dùng trong phát hiện GMO ........................................ 64
III. TÌM KIẾM DỮ LIỆU TRÌNH TỰ ............................................................................ 66
III.1. Tìm kiếm trình tự bằng Keyword ...................................................................... 66
III.2. Tìm kiếm trình tự bằng Primer .......................................................................... 70
PHẦN D: KẾT QUẢ VÀ THẢO LUẬN ....................................................................... 82
I. Kết quả thu đƣợc từ quá trình tìm kiếm ấn phẩm khoa học ...................................... 82
II. Kết quả thu đƣợc từ quá trình tìm kiếm trình tự trên NCBI ...................................... 82
II.1. Kết quả tìm kiếm trình tự bằng keyword ............................................................ 83
II.2. Kết quả tìm kiếm trình tự bằng Primer ............................................................... 84
II.3. Dùng Perl xử lý kết quả thu đƣợc ....................................................................... 85
II.3.1. Loại bỏ trùng lắp dữ liệu, tổng hợp danh sách tổng hợp ........................... 85
II.3.2. Tải trình tự ................................................................................................. 90
III. Các kết quả thu đƣợc từ quá trình tải trình tự từ Genbank ........................................ 92
IV. Tổ chức dữ liệu .......................................................................................................... 93
IV.1. Cách thức tổ chức dữ liệu ................................................................................. 93
IV.2. Tiến hành tổ chức, phân loại dữ liệu ................................................................. 94
V. Java xử lý dữ liệu ....................................................................................................... 98
V.1. Các yêu cầu đặt ra .............................................................................................. 98
V.2. Xử lý yêu cầu bằng Java và Biojava .................................................................. 99
V.3. Thiết kế giao diện ............................................................................................... 101
V.4. Lập trình hiển thị giao diện sử dụng .................................................................. 104
ix
VI. Kết quả giao diện tìm kiếm với dữ liệu tập hợp đƣợc .............................................. 108
PHẦN E: KẾT LUẬN VÀ ĐỀ NGHỊ ............................................................................. 118
I. Kết luận ...................................................................................................................... 118
II. Đề nghị ....................................................................................................................... 119
TÀI LIỆU THAM KHẢO ................................................................................................ 121
Phụ lục A ............................................................................................................................ 126
Phụ lục B ............................................................................................................................ 139
Phụ lục C ............................................................................................................................ 152
Phụ lục D ............................................................................................................................ 173
Phụ lục E ............................................................................................................................. 197
x
DANH SÁCH CÁC CHỮ VIẾT TẮT
A adenine
API application programing interface
BLAST Basic Local Alignment Search Tools
BLAT BLAST-Like Alignment Tool
C cytosine
CDS coding sequence
CGI common gateway interface
CIB the Center for Information Biology
CSDL Cơ sở dữ liệu
DDBJ DNA Data Bank of Japan
DNA deoxyribonucleic acid
EBI the European Bioinformatics Institute
EMBL the European Molecular Biology Laborary
EPSP 5-enolpyruvyl-shikimate-3-phosphate synthase
E-value expected value
G guanine
gi GenInfo Indentifier
Gln Glutamine
GM plant Genetic modified plant
GMO Genetic modified organism
HTML hypertext markup language
HTTP hypertext transfer protocol
ID identify
J2EE Java 2 Enterprise Edition
JDBC Java Database Connectivity
JSP JavaServer page
Met methionine
mRNA messenger ribonucleic acid
NCBI the National Center for Biotechnology Information
NIG the National Institute of Genetics
NIH the National Institutes of Health
NLM the Nation Library of Medicine
NOS noplaine synthase
Phe phenylalanine
RNA ribonucleic acid
SQL Structure Query Language
STDIN standard input
T thymine
T-DNA transfer DNA
tRNA tranfer ribonucleic acid
Trp tryptophan
U uracil
xi
DANH SÁCH CÁC SƠ ĐỒ VÀ BẢNG
Bảng Trang
PHẦN A
PHẦN B
Bảng 1.1: Một số loài đã đƣợc chuyển gene .................................................................... 19
Bảng 1.2: Bảng thống kê danh sách các tính trạng đƣợc chuyển vào cây trồng ............. 24
Bảng 2.1: Bảng liệt kê một số chƣơng trình BLAST ...................................................... 31
Sơ đồ 3.1: Sơ đồ một ứng dụng phần mềm...................................................................... 54
Sơ đồ 3.2: Cấu trúc của một ứng dụng Servlet (Servlet Application) ............................. 56
Sơ đồ 3.3: Một cấu trúc phổ biến hơn của một server application .................................. 56
PHẦN C
Sơ đồ 2.1: Quy trình tìm kiếm thông tin sinh học ........................................................... 58
Bảng 2.1: Địa chỉ những phƣơng tiện tìm kiếm trên Internet .......................................... 59
PHẦN D
Sơ đồ 4.1: Mô hình tổ chức một hệ thống ứng dụng ....................................................... 93
xii
DANH SÁCH CÁC HÌNH
Hình Trang
PHẦN A
PHẦN B
Hình 1.1: Sự biểu hiện thông tin di truyền. ................................................................. 4
Hình 1.2: Cấu trúc xoắn kép DNA .............................................................................. 6
Hình 1.3: Cấu trúc của các base pyrimidine và purine. ............................................... 6
Hình 1.4: Cấu trúc của Oligonucleotide ...................................................................... 7
Hình 1.5: Chi tiết cấu trúc của chuỗi Polynucleotide. ................................................. 8
Hình 1.6: Sao chép và dịch mã .................................................................................... 9
Hình 1.7: Mã di truyền của nhân (các codon của mRNA) .......................................... 9
Hình 1.8: Mã di truyền ty thể ngƣời ............................................................................ 10
Hình 1.9: Các kiểu wobble trong tế bào chất (ở các hữu nhũ) .................................... 11
Hình 1.10: Các trình tự đƣợc sao chép của DNA (gene) ............................................. 12
Hình 1.11: Cắt DNA Plasmid sử dụng enzyme cắt giới hạn ....................................... 13
Hình 1.12: Gắn gene chuyển vào vector (Plasmid) ..................................................... 13
Hình 1.13: Plasmid dùng trong chuyển gene đậu nành ............................................... 15
Hình 1.14: Chuyển gene thông qua môi trƣờng Agrobacterium tumefaciens ............. 16
Hình 1.15: Súng bắn gene đƣợc dùng trong chuyển gene ........................................... 16
Hình 1.16: Chuyển gene thông qua vi ......................................................................... 17
Hình 1.17: Ví dụ cấu trúc di truyền đƣợc dùng ức chế gene UDP 6-glucose
dehydrogenease trong đậu nành. .................................................................................. 23
Hình 1.18: Bản đồ một số nƣớc chính có cây trồng chuyển gene lớn trên thế giới .... 27
Hình 1.19: Diện tích cây trồng chuyển gene các nƣớc trên thế giới ........................... 27
Hình 1.20: Biểu đồ tỷ lệ các gene kháng đƣợc chuyển vào cây trồng trên thế giới .... 27
Hình 3.1: Một chu kỳ sống của CGI ............................................................................ 53
Hình 3.2: Chu kỳ sống của CGI hiện nay .................................................................... 54
PHẦN C
Hình 2.1: Trang kết quả tìm kiếm bằng Google sau khi nhập từ khóa ........................ 60
Hình 2.2: Trang tìm kiếm Scirus.com nâng cao .......................................................... 61
xiii
Hình 2.3: Trang kết quả của Scirus sau khi tìm kiếm ................................................. 62
Hình 2.4: Trang chủ NCBI .......................................................................................... 62
Hình 2.5: Trang Entrez PubMed của NCBI ................................................................ 63
Hình 2.6: Trang kết quả Entrez PubMed sau khi tìm kiếm ......................................... 63
Hình 2.7: Trang chủ Agbios.com ................................................................................ 64
Hình 2.8: Kết quả tìm kiếm bằng Google với keyword .............................................. 65
Hình 2.9: Trang Entrez Nucleotide với từ khóa cần tìm ............................................. 66
Hình 2.10: Trang kết quả của Entrez Nucleotide sau tìm kiếm................................... 67
Hình 2.11: Trang kết quả Entrez Nucleoide dạng text ................................................ 67
Hình 2.12: Kết quả sau khi nhấp vào mục Details ...................................................... 68
Hình 2.13: Nhập từ khóa cần tìm vào khung tìm kiếm .............................................. 69
Hình 2.14: Xem chi tiết (Details) khi kết quả không tìm thấy .................................... 70
Hình 2.15: Trang BLAST của cơ sở dữ liệu NCBI ..................................................... 70
Hình 2.16: Trang BLAST Nucleotide của NCBI ........................................................ 71
Hình 2.17: Khung nhập trình tự ................................................................................... 71
Hình 2.18: Phần tùy chọn của trang BLAST Nucleotide ............................................ 72
Hình 2.19: Phần lựa chọn định dạng trang kết quả BLAST ........................................ 73
Hình 2.20: Trang trung gian kết quả BLAST .............................................................. 74
Hình 2.21: Phần đầu của trang kết quả BLAST .......................................................... 74
Hình 2.22: Phần ảnh minh họa tổng thể kết quả BLAST ............................................ 75
Hình 2.23: Phần tóm tắt kết quả BLAST..................................................................... 75
Hình 2.24: Phần xem chi tiết về sự gióng trình tự trên trang kết quả BLAST ............ 76
Hình 2.25: Lấy trình tự cần từ trang kết quả BLAST .................................................. 76
Hình 2.26: Nhập trình tự Primer vào khung tìm kiếm gene cryIA(b) ......................... 77
Hình 2.27: Kết quả tìm kiếm với Primer gene cryIA(b) .............................................. 78
Hình 2.28: Kết quả tìm kiếm sau khi thay đổi thông số ............................................. 78
Hình 2.29: Lựa chọn lại thông số là Pat thay vì nr ...................................................... 79
Hình 2.30: Kết quả tìm kiếm với Database Pat ........................................................... 79
Hình 2.31: Trang lấy kết quả từ chƣơng trình BLAST ............................................... 80
Hình 2.32: Tìm kiếm trình tự bằng số xác định qua trang BLAST ............................. 80
Hình 2.33: Kết quả BLAST dạng HTML .................................................................... 81
Hình 2.34: Kết quả BLAST dạng text ......................................................................... 81
xiv
PHẦN D
Hình 2.1: Kết quả dạng text khi tìm kiếm bằng keyword 1 ........................................ 83
Hình 2.2: Kết quả dạng text khi tìm kiếm bằng keyword 2 ........................................ 83
Hình 2.3: Kết quả dạng text khi tìm kiếm bằng keyword ........................................... 84
Hình 2.4: Kết quả dạng text khi tìm kiếm bằng Primer ............................................... 85
Hình 2.5: Minh họa 1 file kết quả thu đƣợc sau khi tìm kiếm trình tự trên NCBI ...... 86
Hình 2.6: Chƣơng trình Perl bắt đầu chạy ................................................................... 88
Hình 2.7: Nhập đƣờng dẫn đến thƣ mục chứa file kết quả tìm kiếm .......................... 89
Hình 2.8: Chƣơng trình Perl đã chạy xong .................................................................. 89
Hình 2.9: Lƣu danh sách này vào file tonghopdulieu.txt ................................ 89
Hình 2.10: Nội dung file tonghopdulieu.txt .................................................... 90
Hình 2.11: Chƣơng trình load.pl đang chạy .......................................................... 92
Hình 2.12: Minh họa kết quả các trình tự đƣợc tải về ................................................. 92
Hình 4.1: Vị trí thể hiện Division trong nội dung của 1 record Genbank ................... 95
Hình 4.2: Chƣơng trình phân chia Division bắt đầu chạy ........................................... 96
Hình 4.3: Chƣơng trình đã chạy xong ......................................................................... 96
Hình 4.4: Kết quả cuối cùng sau khi chƣơng trình phân Division đã chạy xong ....... 97
Hình 5.1: Các trƣờng tìm kiếm chính xác. .................................................................. 99
Hình 5.2: Các trƣờng cung cấp thông tin trình tự cần tách ......................................... 100
Hình 5.3: Trang giao diện tìm kiếm GM Databases .................................................... 102
Hình 5.4: Nội dung trang tìm kiếm.............................................................................. 103
Hình 5.5: Một trƣờng hợp tìm kiếm trên web ............................................................. 105
Hình 5.6: Thể hiện kết quả tìm kiếm với nội dung tóm tắt ......................................... 107
Hình 6.1: Trang chủ tìm kiếm trình tự GM Plants bằng keyword .............................. 109
Hình 6.2: Nhập keyword cần tìm vào khung tìm kiếm ............................................... 110
Hình 6.3: Trang kết quả tìm kiếm mặc định là dạng Summary .................................. 111
Hình 6.4: Trang biểu diễn kết quả dạng GenBank ...................................................... 113
Hình 6.5: Trang biểu diễn kết quả dạng FASTA ......................................................... 114
Hình 6.6: Trang biểu diễn vùng trình tự mã hóa (CDS) dạng FASTA. ...................... 114
Hình 6.7: Trang Biểu diễn trình tự aminoacid do CDS mã hóa, dạng FASTA........... 115
Hình 6.8: Trang biểu diễn kết quả dạng text của kiểu GenBank ................................. 116
PHẦN A: GIỚI THIỆU
NGUYỄN KỲ TRUNG – LÊ THÀNH TRUNG
1
A. GIỚI THIỆU
I. Đặt vấn đề
Có thể thấy rằng trong những năm gần đây nƣớc ta đang có những đầu tƣ rất lớn
vào các phòng thí nghiệm, các công trình nghiên cứu trong lĩnh vực Công Nghệ Sinh
Học. Các nhà khoa học, các sinh viên theo lĩnh vực này đang nỗ lực, phấn đấu để hoàn
thành các nghiên cứu sinh học của mình.
Tuy nhiên, các nhà nghiên cứu cơ bản lẫn nghiên cứu ứng dụng đang vƣớng phải
một khó khăn rất lớn đó chính là việc tìm kiếm, phân tích, so sánh, trích tải những dữ
liệu sinh học liên quan đến các nghiên cứu của họ.
Chính những thông tin đa dạng, quá phong phú trong các cơ sở dữ liệu khổng lồ
trên thế giới, đƣợc tải trên nhiều trang thông tin khác nhau đã trở thành những khó
khăn đầu tiên cho các nhà nghiên cứu. Việc tìm kiếm những thông tin ngắn gọn, dễ
dàng và nhanh chóng nhƣng vẫn đảm bảo tính chính xác nhằm phục vụ riêng cho từng
cá nhân nghiên cứu ở mỗi phòng thí nghiệm là hết sức cần thiết.
Công nghệ di truyền thực vật nói chung và sự xuất hiện của cây trồng và thực
phẩm biến đổi di truyền nói riêng (GM Plants, GM Food) hiện là vấn đề toàn cầu.
Diện tích cây trồng biến đổi di truyền không ngừng tăng qua các năm. Theo thống kê
gần đây nhất về diện tích canh tác cây chuyển gene đƣợc thể hiện ở bảng dƣới đây:
(Agrifood Awareness Australia Limited- AFAA, February 2005)
Bên cạnh các thành tựu đã thành công và thƣơng mại hóa nhƣ: chuyển gene
kháng bệnh, kháng côn trùng, kháng thuốc trừ cỏ; chuyển gene có năng suất nông học
cao hay chuyển gene có đặc tính mong muốn từ các thực vật khác cho mục đích dinh
dƣỡng và dƣợc liệu … là những mối nguy hại mà cây trồng chuyển gene có thể ảnh
hƣởng tiềm ẩn nhƣ: sự đa dạng của cây trồng, ảnh hƣởng độc và dị ứng, khả năng phát
sinh cỏ dại, sự xâm chiếm hay sự phóng thích ngoài ý muốn của gene ra quần thể cây
trồng, các cây trồng không phải cây trồng đích …
PHẦN A: GIỚI THIỆU
NGUYỄN KỲ TRUNG – LÊ THÀNH TRUNG
2
Về khoa học, ta không thể phủ nhận những thành tựu cũng nhƣ những mặt hạn
chế mà công nghệ chuyển gene mang lại. Việc nắm bắt thông tin về các gene chuyển
hiện nay sẽ giúp ta chủ động trong các nghiên cứu về lĩnh vực còn khá mới này.
Đƣợc sự hƣớng dẫn của thầy TS. Bùi Minh Trí, cùng các thầy PGS. TS. Bùi Thọ
Thanh và thầy TS. Nguyễn Công Vũ chúng tôi đã thực hiện đề tài “THU THẬP VÀ
TỔ CHỨC DỮ LIỆU GENE PHỤC VỤ NGHIÊN CỨU CÂY TRỒNG BIẾN
ĐỔI DI TRUYỀN”, bƣớc đầu đặt cơ sở cho việc ứng dụng Bioinformatics vào xây
dựng Cơ sở dữ liệu Sinh học đầu tiên tại trƣờng Đại Học Nông Lâm Tp HCM.
II. Mục đích của đề tài
Tập hợp và chọn lọc các ấn phẩm, bài báo khoa học liên quan đến cây trồng
biến đổi di truyền.
Khảo sát một số công cụ tìm kiếm trình tự trên NCBI.
Tập hợp các trình tự liên quan đến cây trồng biến đổi di truyền.
Tổ chức dữ liệu gene phục vụ việc tìm kiếm thông tin về các gene một cách
nhanh chóng và gọn nhất.
Thiết kế giao diện thân thiện, thiết thực đáp ứng nhu cầu của ngƣời dùng. Giải
quyết công việc tìm kiếm một cách khó khăn trên mạng Internet của các nhà nghiên
cứu CNSH Thực vật. Giúp các nhà nghiên cứu CNSH Thực vật thuận tiện, dễ dàng tra
cứu, tìm kiếm gene phù hợp với từng yêu cầu riêng.
III. Yêu cầu của đề tài
Tất cả các thông tin trong dữ liệu theo chuẩn quốc tế.
Dễ tìm kiếm theo nhiều chiều.
Sử dụng các loại ngôn ngữ lập trình thông dụng, giúp dữ liệu mang tính dễ truy
suất, dễ phát triển về sau, đó là ngôn ngữ lập trình Perl và ngôn ngữ lập trình Java.
Dữ liệu có tính “mở” về nội dung Sinh học có thể phát triển, bổ sung bởi các
công trình nghiên cứu về sau của Đại học Nông Lâm Thành phố Hồ Chí Minh.
PHẦN A: GIỚI THIỆU
NGUYỄN KỲ TRUNG – LÊ THÀNH TRUNG
3
IV. Các giai đoạn tiến hành đề tài
Giai đoạn 1: Tìm hiểu thông tin và các công cụ có liên quan.
Tìm hiểu ngôn ngữ lập trình Perl dùng trong Bioinformatics.
Tìm hiểu ngôn ngữ Java dùng trong Bioinformatics.
Tìm hiểu dữ liệu bài báo trên PubMed và dữ liệu trình tự GenBank trên NCBI.
Tìm hiểu các công cụ sinh học dùng trong Bioinformatics.
Giai đoạn 2: Xây dựng và tổ chức các dữ liệu.
Tìm kiếm dữ liệu cho đề tài (bài báo khoa học, trình tự).
Tiến hành xây dựng trang tìm kiếm với dữ liệu trình tự tìm đƣợc.
V. Giới hạn của đề tài
Do thời gian thực tập tốt nghiệp có hạn, kiến thức cần thiết để xây dựng đƣợc
một cơ sở dữ liệu hoàn chỉnh thì nhiều, do đó đề tài có rất nhiều hạn chế cần hoàn
thiện về sau :
Dữ liệu không lớn chỉ vài ngàn gene đƣợc xem là thông dụng nhất trong công
nghệ chuyển gene hiện nay.
Phải thiết lập các mối liên hệ trong dữ liệu, tiến tới quản lý dữ liệu một cách có
hệ thống bằng một hệ quản trị cơ sở dữ liệu hoặc nghiên cứu sử dụng công nghệ mới
vào quản lý dữ liệu.
Giao diện Web của chƣơng trình chƣa hoàn chỉnh. Về sau sẽ phát triển, nâng
cấp mở rộng phục vụ nhiều nhu cầu khác của ngƣời dùng.
Chƣa đƣa đƣợc các công cụ phân tích gene sẵn có vào sử dụng trực tiếp trên cơ
sở dữ liệu.
PHẦN B: TỔNG QUAN - Giới thiệu Sinh học – Gene
NGUYỄN KỲ TRUNG – LÊ THÀNH TRUNG
4
B. TỔNG QUAN TÀI LIỆU
I. Giới thiệu về sinh học
I.1. Cơ sở sinh học về gene
I.1.1. Thuật ngữ và quan niệm về gene
Sinh học phân tử là gì ?
Sinh học phân tử (Molecular biology) là môn học nghiên cứu các hiện tƣợng sinh
học ở mức phân tử.
Ngày nay, sinh học phân tử đƣợc hiểu là sinh học phân tử của gene (Molecular
biology of the gene), là môn học nghiên cứu cấu trúc, sự biểu hiện và kiểm soát sự
biểu hiện của các gene, là đơn vị thông tin di truyền riêng biệt chứa một trình tự
chuyên biệt trong DNA (hay trong RNA của virus).
Quan niệm về gene – lý thuyết trung tâm của sinh học phân tử
1866, Mendel đề ra giả thuyết về các đơn vị qui định các đặc tính di truyền, tức
các gene.
1909, Garrod cho rằng gene điều khiển kiểu hình qua enzyme.
1940, Beadle và Tatum đề nghị giả thuyết “một gene - một enzyme” (một gene
điều khiển sự sản xuất một enzyme chuyên biệt). Thuyết này đã phát triển để trở nên
khái quát hơn , “một gene – một protein”, và hiện nay “một gene – một polypetide”.
1953, Watson và Crick đề nghị cấu trúc xoắn kép của phân tử DNA. Sau đó, là sự
ra đời lý thuyết trung tâm (central dogma) của sinh học phân tử (Crick, 1958): thông
tin di truyền đƣợc mang bởi chuỗi DNA (hay RNA ở vài virus) qua các giai đoạn sao
chép (transcription) và dịch mã (translation), đƣợc chuyển thành các trình tự amino
acid của protein. Sự tái bản DNA (DNA replication) là cơ chế giúp một phân tử DNA
tự tái sinh thành hai phân tử DNA giống nhau.
Hình 1.1: Sự biểu hiện thông tin di truyền.
PHẦN B: TỔNG QUAN - Giới thiệu Sinh học – Gene
NGUYỄN KỲ TRUNG – LÊ THÀNH TRUNG
5
* Lý thuyết trung tâm của sinh học phân tử giúp ta hiểu:
- Cấu trúc của DNA là cơ sở phân tử của sự di truyền; sự tái bản DNA là cơ sở
phân tử để hiểu vì sao con cái giống cha mẹ; sự chuyển thông tin vào protein là cơ sở
phân tử của các đặc tính kiểu hình.
- Hình thái và chức năng sống chủ yếu của sinh vật là sự biểu hiện về cách tổ
chức và hoạt động của các protein trong cơ thể sinh vật. Chính sự sắp xếp các thành
phần amino acid của protein quyết định sự sắp xếp trong không gian (cấu trúc bậc hai
và bậc ba) và chức năng của protein.
I.1.2. DNA ở các sinh vật khác nhau
I.1.2.1. Sự khác nhau giữa các phân tử DNA
DNA là vật liệu mang thông tin di truyền ở sinh vật nói chung, trừ RNA ở vài
virus. DNA ở mọi sinh vật (động vật, thực vật, vi khuẩn hay virus) có cùng kiểu cấu
trúc hai sợi xoắn DNA, trừ ngoại lệ ở vài virus. Sự khác nhau giữa các phân tử DNA
xoắn kép ở các loài là do:
- Vị trí của các phân tử DNA trong tế bào: trong nhân (ở eukaryote) hay trong tế
bào chất (ở prokaryote).
- Số phân tử DNA: một phân tử ở virus hay vi khuẩn (nhƣ E.coli), nhiều phân tử
trong tế bào động vật và thực vật bậc cao.
- Hình dạng: thẳng (ở eukaryote) hay vòng (ở prokaryote). Khái niệm: “vòng” chỉ
tính khép kýn của chuỗi DNA, không chỉ hình thể trong không gian.
- Chiều dài phân tử DNA: Các virus có phân tử acid nucleic ngắn nhất: DNA
virus có từ vài ngàn tới vài chục ngàn nucleotide. DNA prokaryote dài hơn DNA virus
khoảng một ngàn lần: DNA của E.coli có chừng bốn triệu cặp nucleotide. Ở
prokaryote, đôi khi còn có các plasmid, tức các đoạn DNA nhỏ, dạng vòng, bên cạnh
nhiễm sắc thể. Ở eukaryote, phân tử DNA rất dài, chứa từ vài ngàn đến vài tỉ đơn vị
nucleotide; các đơn vị nucleotide này đƣợc phân phối trên nhiều nhiễm sắc thể riêng
biệt. Không có sự tƣơng quan giữa lƣợng DNA và tính phức tạp của sinh vật.
PHẦN B: TỔNG QUAN - Giới thiệu Sinh học – Gene
NGUYỄN KỲ TRUNG – LÊ THÀNH TRUNG
6
Hình 1.2: Cấu trúc xoắn kép DNA
- Các trình tự base đặc trƣng. Đây là tính chất quan trọng nhất của mỗi phân tử
DNA.
I.1.2.2. Cấu trúc acid nucleic
Các đơn vị nucleotide
Acid nucleotide, nhƣ tên gọi, là các chất lúc khởi đầu đƣợc cô lập từ nhân
(nucleus). Có hai kiểu acid nucleic:
- Acid deoxyribonucleic (DNA) đƣợc tìm thấy chủ yếu ở trong nhân tế bào
(eukaryote).
- Acid ribonucleic (RNA) đƣợc tìm thấy chủ yếu trong tế bào chất.
- Acid nucleic đƣợc cấu tạo bởi các đơn vị gọi là nucleotide. Mỗi nucleotide đƣợc
cấu tạo bởi ba yếu tố: base nitrogen, pentose và acid phosphoric.
Hình 1.3: Cấu trúc của các base pyrimidine và purine.
PHẦN B: TỔNG QUAN - Giới thiệu Sinh học – Gene
NGUYỄN KỲ TRUNG – LÊ THÀNH TRUNG
7
Trong các nucleotide, base là dẫn xuất của pyrimidine hay purine. Các base
pyrimidine là: cytosine (C) và uracil (U) trong RNA; cytosine (C) và thymine (T)
trong DNA. Có vài base bất thƣờng, đặc biệt ở vài bacteriophage, nhƣ
hydroxymethylcytsine thay vì cytosine hay hydroxymethyluracil thay vì thymine.
Hai base purine chính đƣợc tìm thấy trong DNA cũng nhƣ RNA là adenine (A)
và guanine (G). Ngoài ra, có những base purine hiếm chỉ đƣợc tìm thấy trong vài acid
nucleic (nhất là t-RNA), thí dụ: isopentenyladenin (chất có hoạt tính hormone
cykotinin ở thực vật).
Các base nitrogen của phân tử DNA mang thông tin di truyền, trong khi các
nhóm pentose và phosphate chỉ có vai trò cấu trúc. Tùy theo bản chất của pentose, ta
có ribonucleotide hay deoxyribonucleotide. Theo qui ƣớc, ngƣời ta đọc một chuỗi acid
nucleotide theo hƣớng 5‟P tới 3‟OH; để đơn giản ngƣời ta chỉ viết các số 5‟ và 3‟.
Hình 1.4: Cấu trúc của Oligonucleotide
Cấu trúc bậc hai của DNA do Watson và Crick (1953) đề nghị có ba đặc
tính quan trọng
Đối song: hai chuỗi nucleotide song song nhƣng ngƣợc hƣớng.
Bổ sung: sự liên kết hai sợi DNA theo qui tắc: “A đối T, C đối G”.
Xoắn ốc: hai chuỗi DNA xoắn quanh một trục tƣởng tƣợng.
PHẦN B: TỔNG QUAN - Giới thiệu Sinh học – Gene
NGUYỄN KỲ TRUNG – LÊ THÀNH TRUNG
8
Tóm lại, trong phân tử DNA, deoxyribose và H3PO4 giống nhau suốt chiều dài
phân tử. Ngƣợc lại, 4 base khác nhau và trình tự của các base đặc trƣng cho mỗi phân
tử DNA. Theo qui ƣớc, ta có thể viết chuỗi acid nucleic với các base A, T, C, G với:
C = nucleotide chứa Cystosine, T = nucleotide chứa Thymine,
A = nucleotide chứa Adenine, G = nucleotide chứa Guanine.
Hình 1.5: Chi tiết cấu trúc của chuỗi Polynucleotide.
I.1.3. Mã di truyền
I.1.3.1. Thuật ngữ
Thông tin di truyền đƣợc viết bởi các codon (mã di truyền) và đƣợc dịch thành
các trình tự amino acid. Nói cách khác, thông tin di truyền đƣợc sao chép thành RNA
và sau đó dịch mã thành polypeptide.
Để dịch chính xác một ngôn ngữ, cần có một quyển từ điển. Tƣơng tự, để giải mã
di truyền, cần có quyển từ điển mã di truyền. Mã di truyền hay “codon” đƣợc viết bởi
ba chữ, chính xác hơn là ba nucleotide, tạo thành một “bộ ba” (triplet). Một “bộ ba”,
trong phân tử mRNA sẽ đƣợc dịch mã thành một amino acid.
I.1.3.2. Từ điển mã di truyền
Theo qui ƣớc, các base đƣợc trình bày trong từ điển mã di truyền là các
ribonucleotide. Theo đó, U có trong RNA thay cho T. Đối với các mã di truyền trong
DNA, T thay cho U.
PHẦN B: TỔNG QUAN - Giới thiệu Sinh học – Gene
NGUYỄN KỲ TRUNG – LÊ THÀNH TRUNG
9
Hình 1.6: Sao chép và dịch mã
Trong 64 codon, ta có thể kể:
Ba codon UAA, UAG, UGA là các “codons non sens”, không đƣợc dịch thành
amino acid; chúng là dấu hiệu chấm dứt sự đọc, nên còn đƣợc gọi là “codon
stop”.
61 codon còn lại mã hóa 20 amino acid. Trừ Met và Trp chỉ đƣợc mã hóa bởi 1
codon, các amino acid khác đƣợc mã hóa bởi nhiều codon. Nhƣ vậy có nhiều
codon cùng nghĩa.
Hình 1.7: Mã di truyền của nhân (các codon của mRNA)
PHẦN B: TỔNG QUAN - Giới thiệu Sinh học – Gene
NGUYỄN KỲ TRUNG – LÊ THÀNH TRUNG
10
I.1.3.3. Ba đặc tính quan trọng của mã di truyền
Phổ biến (universal): Mã di truyền cơ bản giống nhau cho mọi sinh vật
(động vật, thực vật, vi khuẩn hay virus). Chính vì thế từ điển mã di truyền ra
đời là bằng chứng thuyết phục về nguồn gốc tiến hóa chung của sinh vật.
Suy biến (degenerate): nhiều codon mã hóa cho một amino acid. Trong phần
lớn các trƣờng hợp, các bộ ba mã hóa cho một amino acid chỉ khác nhau ở
base thứ ba, thí dụ: UUU và UUC (Phe), CAA và CAG (Gln)…
Không gối nhau: Mã di truyền đƣợc đọc tuần tự từ “bộ ba” này đến “bộ ba”
kế tiếp, liên tục trong một chuỗi, từ điểm khởi đầu cho đến kết thúc.
a) Giả thuyết về base “dao động”
*Thế nào là base “dao động”
Mã di truyền chung (có tính phổ biến) là điều hết sức lý thú để hiểu về sinh vật.
Tuy nhiên, Sanger (1980) đã đặt lại vấn đề, vì có vài codon khác biệt trong ti thể. Và
vì Met và Trp đƣợc mã hóa bởi hai codon thay vì một.
Hình 1.8: Mã di truyền ty thể ngƣời
Sau phát hiện này, ngƣời ta còn thấy những codon khác ở nấm men,
Paramecium,…Thí dụ UAA của mRNA tế bào chất của Paramecium không phải là
codon Stop, mà là Gln.
PHẦN B: TỔNG QUAN - Giới thiệu Sinh học – Gene
NGUYỄN KỲ TRUNG – LÊ THÀNH TRUNG
11
Mã di truyền có 61 codon mã hóa cho 20 amino acid. Do đó ta có thể nghĩ rằng
có 61 tRNA (qui tắc bổ sung codon-anticodon). Tuy nhiên, thực tế một mRNA nhận
biết nhiều codon mã hóa cho cùng một amino acid. Nói cách khác không cần phải có
đủ 61 tRNA để vận chuyển acid amin trong quá trình dịch mã (nhƣng một tRNA
không bao giờ nhận biết hai amino acid khác nhau).
Theo giả thuyết base “dao động” (Crick, 1966), hai nucleotide đầu tiên của một
codon (mRNA) bổ sung một cách nghiêm chỉnh với anticodon của t-RNA, nhƣng base
thứ ba của codon bắt cặp với base thứ nhất của anticodon theo cách tƣơng đối lỏng lẻo.
b) Ích lợi của tính suy biến mã di truyền và base “dao động”
Có ba điều lợi chính:
Sự suy biến mã di truyền tạo nên một hệ thống bảo vệ đối với các đột biến có
thể sinh ra, sự thay đổi base thứ ba thƣờng không gây hậu quả, vì codon đột
biến không làm thay đổi tRNA.
Các nối wobble cho phép tế bào tiết kiệm vật chất và năng lƣợng: không cần 61
tRNA để nhận biết 61 codon.
Cầu nối yếu hơn giữa base thứ nhất của anticodon và base thứ base của codon
giúp các tRNA phân ly dễ hơn, và do đó sự tổng hợp protein nhanh hơn.
Hình 1.9: Các kiểu wobble trong tế bào chất (ở các hữu nhũ)
PHẦN B: TỔNG QUAN - Giới thiệu Sinh học – Gene
NGUYỄN KỲ TRUNG – LÊ THÀNH TRUNG
12
I.1.4. Cấu trúc căn bản của một gene eukaryote
Chiều dài và cấu trúc một gene rất thay đổi. Gene là các trình tự DNA đƣợc sao
chép, các trình tự này có thể ở trên sợi này hay sợi kia của phân tử DNA. Geneome là
toàn bộ các gene và các trình tự không mã hóa của một cá thể.
(A)
(B)
Hình 1.10: Các trình tự đƣợc sao chép của DNA (gene).
(A) sự sao chép của một sợi DNA
(B) sự không liên tục của gene
Gene eukaryote không liên tục, mà bao gồm:
Các exon là các trình tự mang thông tin di truyền sẽ đƣợc biểu hiện.
Các intron là các trình tự nằm xen kẽ với các phần mang thông tin di truyền,
đƣợc sao chép nhƣng không đƣợc dịch.
Gene ở phần lớn prokaryote có phần ghi mã liên tục, không có intron.
PHẦN B: TỔNG QUAN - Giới thiệu Sinh học - Chuyển Gene
NGUYỄN KỲ TRUNG – LÊ THÀNH TRUNG
13
I.2. Cơ sở sinh học về chuyển gene
Hình thức cơ bản nhất trong cải biến di truyền (Genetic transformation) là đƣa
những gene chuyển (transgenes) vào trong sinh vật bằng cách nào đó mà các gene này
có thể đƣợc biểu hiện. Kỹ thuật này còn đƣợc gọi là kỹ thuật di truyền.
Mục tiêu cuối cùng của kỹ thuật di truyền hay kỹ thuật DNA tái tổ hợp là sự biểu
hiện bền vững và có thể di truyền của tính trạng mới trong bộ phận hay cơ thể khác.
Điều này đạt đƣợc thông qua cấu trúc vector mang gene chuyển. Plasmid, retrovirus
(RNA virus) và bacteriophage là các vector quan trọng đặc biệt trong chuyển thông tin
di truyền. Trong quá trình chuyển gene, kỹ thuật di truyền cắt và sắp xếp lại các đoạn
DNA tạo ra cấu trúc gene chuyển chèn vào vector.
Hình 1.11: Cắt DNA Plasmid sử dụng enzyme cắt giới hạn
Hình 1.12: Gắn gene chuyển vào vector (Plasmid)
Hebert Boyer và Stanley Cohen đã đạt đƣợc thành tựu chuyển gene đầu tiên vào
năm 1973, khi đó họ đã tạo ra gene với các phần DNA từ vi khuẩn và lƣỡng cƣ, biểu
hiện gene kháng kháng sinh. Với sự thành công trong việc sử dụng enzyme và vector,
các nhà khoa học này đã tiên phong trong việc sử dụng kỹ thuật di truyền và chuyển
thông tin di truyền. Nghiên cứu của họ đã đặt nền móng cho nhiều công việc ngày nay
trong công nghệ sinh học.
PHẦN B: TỔNG QUAN - Giới thiệu Sinh học - Chuyển Gene
NGUYỄN KỲ TRUNG – LÊ THÀNH TRUNG
14
I.2.1. Các vấn đề chủ yếu trong việc cải biến di truyền
Thuật ngữ genetically modified thƣờng xuyên đƣợc dùng để mô tả những sinh
vật đƣợc chuyển gene hay đƣợc biến đổi di truyền. Khoa học của kỹ thuật di truyền
đƣợc phát triển với mục tiêu xây dựng các gene phục vụ cho chuyển gene. Hệ thống
chuyển gene gồm ba vấn đề chính:
Kỹ thuật đƣa DNA lạ vào tế bào đích.
Tế bào hay mô bền vững với điều kiện chuyển gene.
Các phƣơng pháp cho phép xác định và chọn lọc tế bào hay bộ phận chuyển
gene.
Một trong những giới hạn của cải thiện di truyền truyền thống là sự không hòa
hợp giữa các loài.
Ví dụ: Đậu là loài giàu amino acid chứa sunfur. Tuy nhiên đậu lại thiếu lysine.
Mặt khác lúa giàu lysine nhƣng thiếu amino acid chứa sunfur. Vì không thể lai giữa
hai loài này với nhau, vì thế ngƣời trồng trọt truyền thống không thể phát triển loại đậu
mới giàu lysine hay lúa giàu thành phần amino acid chứa sunfur.
Chuyển gene cho phép trao đổi các gene giữa các sinh vật mà không hòa hợp giới
tính. Với kỹ thuật di truyền và chuyển gene có thể cho phép ta chuyển gene giữa vi
khuẩn, động vật, thực vật và virus.
Công cụ cơ bản trong chuyển gene là enzyme cắt giới hạn, đƣợc dùng để cắt
DNA tại những vị trí đặc biệt, và các enzyme ligase mà xúc tác cho việc nối các đoạn
DNA. Sử dụng đúng enzyme cắt giới hạn có thể cắt đƣợc DNA plasmid vòng của vi
khuẩn thành dạng thẳng. Dùng ligase có thể gắn thêm đoạn DNA khác chứa gene quan
tâm vào plasmid bị cắt. Plasmid mới có thể đƣợc đƣa vào vi khuẩn thông qua quá trình
gọi là “xung điện” (electroporation), vi khuẩn có thể đƣợc dùng để chuyển gene
chuyển vào (sinh vật đích). Nếu plasmid DNA đƣợc tích hợp vào trong genome của
sinh vật nhận và gene chuyển đƣợc biểu hiện, cá thể đó đƣợc xem nhƣ đã đƣợc chuyển
gene (transgenic).
I.2.2. Các phương pháp chuyển gene
Có nhiều phƣơng pháp chuyển gene, nhƣng bốn phƣơng pháp đạt kết quả cao
nhất là: Chuyển gene thông qua Agrobacterium, bắn gene, vi tiêm, và chuyển trực tiếp.
Mỗi phƣơng pháp có ƣu và nhƣợc riêng và đƣợc sử dụng trong những trƣờng hợp đặc
PHẦN B: TỔNG QUAN - Giới thiệu Sinh học - Chuyển Gene
NGUYỄN KỲ TRUNG – LÊ THÀNH TRUNG
15
biệt. Ở thời điểm này không có một phƣơng pháp nào phù hợp cho tất cả các trƣờng
hợp.
Chuyển gene thông qua Agrobacterium
Vi khuẩn Agrobacterium tumefaciens có khả năng nhận ra vết thƣơng trên thực
vật, kích thích việc chuyển plasmid vi khuẩn vào thực vật. Plasmid có khả năng tích
hợp vào DNA tế bào chủ gây ra sự tăng trƣởng không kiểm soát ở thực vật hình thành
bƣớu. Khả năng này của A. tumefaciens làm nó có vai trò quan trọng trong giai đoạn
sớm của chuyển gene.
A. tumefaciens là vector đầu tiên đƣợc dùng để chuyển gene lạ vào tế bào thực
vật, đƣợc dùng cho cả thực vật hai lá mầm và thực vật một lá mầm. Một loại vi khuẩn
đất khác Agrobacterium rhizogenees, kích thích tạo rễ thứ cấp sau khi nhiễm cũng đã
đƣợc dùng cho chuyển gene thực vật.
Cơ bản của phƣơng pháp này dựa vào plasmid vi khuẩn có khả năng tích hợp
bộ gene cây chủ. Phần quan trọng của plasmid là vùng đảm nhận trách nhiệm cho việc
chuyển gene vào trong bộ gene thực vật. Phần này gọi là DNA chuyển (T-DNA), và
phần DNA này là phần chủ yếu gây tăng trƣởng bƣớu của thực vật nhiễm. Vùng này
nằm giữa vai phải và vai trái của plasmid cho phép vi khuẩn chuyển gene mới vào
trong thực vật nhận.
Hình 1.13: Plasmid dùng trong chuyển gene đậu nành
Chuyển gene nhờ vi khuẩn A. tumefaciens thƣờng là sử dụng đĩa lá. Đĩa lá có
đƣờng kýnh khoảng 6 mm đƣợc nuôi cấy trên đĩa môi trƣờng chứa A. tumefaciens
mang plasmid chứa gene chuyển. Sau khoảng thời gian ủ khoảng một tháng trong môi
PHẦN B: TỔNG QUAN - Giới thiệu Sinh học - Chuyển Gene
NGUYỄN KỲ TRUNG – LÊ THÀNH TRUNG
16
trƣờng nuôi cấy mô, chồi bắt đầu phát triển trên đĩa lá. Thông qua các phƣơng pháp
chọn lọc, chồi chuyển gene đƣợc xác định và đƣợc tái tạo thành cây hoàn chỉnh.
Hình 1.14: Chuyển gene thông qua môi trƣờng Agrobacterium tumefaciens
Bắn gene (biolistics)
Phƣơng pháp bắn gene sớm đƣợc sử dụng nhiều ngay sau khi ra đời để chuyển
gene vào cây ngũ cốc. Phƣơng pháp này dựa trên sự bắn các vi hạt (tungsten hoặc
vàng) bọc DNA vào mô nhờ lực đẩy của không khí, khí helium hoặc dòng điện.
Christou và ctv (1991) là những tác giả đầu tiên nhận đƣợc cây chuyển gene từ phôi
non của một số giống lúa qua sử dụng thiết bị bắn ACCELLR. Sau đó, Cao và ctv
(1992) thông báo việc tạo cây chuyển gene từ tế bào huyền phù nhờ thiết bị PDS1000/
He Biolistic
TM. Từ đó, phƣơng pháp này đƣợc sử dụng phổ biến để tạo cây chuyển
gene. Phƣơng pháp này có thể áp dụng trên bất cứ loại mô nào có khả năng tái sinh
cây, không cần sử dụng tế bào trần và loại mô đã qua giai đoạn mô sẹo lâu dài do đó
giảm thiểu đƣợc sự biến dị.
Hình 1.15: Súng bắn gene đƣợc dùng trong chuyển gene
PHẦN B: TỔNG QUAN - Giới thiệu Sinh học - Chuyển Gene
NGUYỄN KỲ TRUNG – LÊ THÀNH TRUNG
17
Phƣơng pháp này có nhƣợc điểm là chi phí cao và sự tích hợp vào cây chủ rất
phức tạp cho nên nhiều nhóm nghiên cứu đã giảm thiểu sử dụng phƣơng pháp này.
Vi tiêm (Microinjection)
Phƣơng pháp này đƣợc phát triển cho chuyển gene ở động vật nhƣng cũng đƣợc
mở rộng cho thực vật. Mặc dù rất khó và tốn nhiều công sức, sự vi tiêm DNA cũng đã
đem lại nhiều kết quả dƣơng tính và đã đƣợc dùng nhiều trong các phòng thí nghiệm.
Hình 1.16: Chuyển gene thông qua vi
Trong kỹ thuật này, ống vi mao quản đƣợc dùng để đƣa DNA trực tiếp vào tế
bào. Mỗi tế bào chuyển phải đƣợc thao tác riêng lẽ. Một thuận lợi của phƣơng pháp
này là tối ƣu hóa lƣợng DNA đƣợc đƣa vào trong tế bào đích, giúp tối ƣu khả năng
tích hợp. Kết quả dƣơng tính đã thu đƣợc ở các loài nhƣ bắp, lúa mì, đậu nành, thuốc
lá, lúa và trong động vật nhƣ cá hồi, gia súc và heo.
Chuyển gene trực tiếp
Chuyển gene trực tiếp đã đƣợc hoàn thành sớm sau phƣơng pháp dùng
Agrobacterium. Các phƣơng pháp này dùng tế bào trần (protoplast) là tế bào đích cho
chuyển gene. Phƣơng pháp này đơn giản là thêm một lƣợng lớn plasmid chuyển gene
vào môi trƣờng nuôi cấy tế bào trần, đảm bảo rằng một lƣợng nhỏ tế bào trần sẽ bắt
đƣợc plasmid. Tỷ lệ tích hợp sẽ tăng lên khi dùng thêm polyethylene glycol (PEG) hay
sử dụng xung điện. Không có rào cản thực sự nào đối với phƣơng pháp này, do đó
ngƣời ta cho rằng phƣơng pháp này đƣợc sử dụng cho hầu hết các loài. Vấn đề khó
khăn là tái tạo lại toàn bộ cây trồng từ tế bào trần. Vì thế phƣơng pháp này không đƣợc
dùng rộng rãi nhƣ các phƣơng pháp khác.
I.2.3. Những khó khăn trong chuyển gene.
Nuôi cấy mô đƣợc xác định là trở ngại lớn nhất trong sự phát triển của sản phẩm
cây chuyển gene. Cần thiết phải có phƣơng pháp để tái tạo lại toàn bộ cá thể từ tế bào
hay mô đƣợc chuyển gene. Một trong những khó khăn đối với các nhà khoa học là tính
PHẦN B: TỔNG QUAN - Giới thiệu Sinh học - Chuyển Gene
NGUYỄN KỲ TRUNG – LÊ THÀNH TRUNG
18
lặp lại của công việc thông thƣờng chỉ đƣợc một số chứ không đƣợc cho tất cả các
loài. Điều này giới hạn phổ cá thể có thể đƣợc chuyển gene. Trong nhiều trƣờng hợp,
phải dùng phƣơng pháp chuyển gene chuyển thông qua phƣơng pháp lai truyền thống.
Một ví dụ cho trƣờng hợp này là chuyển gene ở lúa mì. Chuyển gene ở hầu hết lúa mì
thì rất khó vì gặp khó khăn trong nuôi cấy mô. Giống Bobwhite không nằm trong
trƣờng hợp trên, và phƣơng pháp chuyển gene đã đƣợc phát triển cho giống lúa mì
này. Khi gene đã đƣợc chuyển thành công trong Bobwhite, nó có thể chuyển sang các
giống khác thông qua lai giống truyền thống.
Một khó khăn liên quan đến sử dụng nuôi cấy mô trong chuyển gene là các loại
dòng tế bào soma. Các cây trồng tạo ra trong nuôi cấy mô có tỉ lệ đột biến cao và xuất
hiện những giống bất thƣờng. Điều này bởi tính nhạy cảm của tế bào trong nuôi cấy
mô. Nhiều trƣờng hợp, cây trồng nuôi cấy mô gặp vấn đề trong nuôi cấy tế bào chứ
không từ sự tích hợp của gene chuyển.
Các phƣơng pháp chuyển gene gần đây hứa hẹn tạo ra cuộc cách mạng trong việc
chuyển gene vào cây trồng. Một vài phƣơng pháp đã đƣợc sử dụng trong Arabidopsis
thaliana. Một phƣơng pháp là ngâm chồi trong dung dịch chứa plasmid mang gene
chuyển. Một phƣơng pháp khác, vẫn đang trong giai đoạn phát triển là chuyển gene
vào hạt thông qua vi khuẩn Agrobacterium tumefaciens. Mặc dù các phƣơng pháp này
đã đƣợc sử dụng thành công trong Arabidopsis, nhƣng vẫn chƣa có công bố đối với
cây trồng. Vấn đề mấu chốt của hai phƣơng pháp này là sự chuyển gene không cần
phải thực hiện tái tạo cây qua nuôi cấy mô. Các phƣơng pháp này thú vị bởi vì sự
chuyển gene thực hiện trên hạt mà có thể trồng để xác định cá thể chuyển gene.
I.2.4. Sản phẩm của kỹ thuật di truyền
Chuyển gene đã phát triển nhiều sản phẩm mới với nhiều tác động lên xã hội, từ
thuốc tới thực phẩm với dinh dƣỡng cao cấp. Thành công thƣơng mại lớn nhất của kỹ
thuật di truyền là insulin trong vi khuẩn chuyển gene năm 1980. Sau đó nhiều sản
phẩm khác cũng đã đƣợc công bố.
Giống cây trồng đƣợc thƣơng mại hóa đầu tiên là cà chua Flavr Savr, đƣợc phát
triển bởi công ty Calgene, California. Sản phẩm này đƣợc thƣơng mại ngày 21 tháng 5
năm 1994, với hai gene mới đƣợc chuyển vào cây cà chua. Gene thứ nhất là bản sao
ngƣợc của gene polygalactonurase (reverse copy of the polygalactonurase gene), mã
hóa cho enzyme phá hủy cellulose. Chuyển gene ở hình thức ngƣợc, gọi là antisense,
PHẦN B: TỔNG QUAN - Giới thiệu Sinh học - Chuyển Gene
NGUYỄN KỲ TRUNG – LÊ THÀNH TRUNG
19
tạo ra lƣợng enzyme polygalactonurase thấp. Kết quả, những quả cà chua chín không
mất đi sự cứng cáp của nó, bởi vì thành tế bào cà chua là cellulose không bị phân hủy
nhanh chóng nhƣ cà chua thông thƣờng. Gene thứ hai đƣợc chuyển vào giống Flavr
Savr mã hóa cho tính kháng với kháng sinh kanamycin. Gene này đƣợc chuyển vào
cây nhƣ chỉ thị (marker) cho nhận biết cây chuyển gene.
Bảng sau bao gồm danh sách các cây trồng chuyển gene. Các tính trạng phần lớn
là kháng thuốc trừ cỏ, kháng côn trùng, và chất lƣợng dinh dƣỡng.
Bảng 1.1: Một số loài sinh vật đã đƣợc chuyển gene
Thực vật Động vật
Cải dầu Lúa Bò
Bắp Đậu nành Khỉ
Bông vải Hƣớng dƣơng Chuột
Cây khuynh diệp Thuốc lá Heo
Nho Cà chua Cá hồi
Đu đủ Lúa mì
Khoai tây Củ cải đƣờng
I.2.5. Tiềm năng của chuyển gene
Mục đích của phát triển giống thông qua công nghệ sinh học cũng giống nhƣ cải
thiện theo di truyền cổ điển. Tất cả các tính trạng mong muốn đƣợc cải thiện năng
suất, tăng sức sống, kháng côn trùng, và chất lƣợng dinh dƣỡng. Tuy nhiên, công nghệ
sinh học còn cho phép phát triển giống với những tính trạng mà không thể phát triển
qua lai giống cổ điển.
Ví dụ:
Trƣờng hợp giống lúa giàu lysine và đậu nành giàu amino acid sunfur đƣợc đề
cập ở phần trên.
I.2.5.1. Các chức năng mới được thêm vào trong cải biến di truyền thực vật
Thay đổi hình dạng của enzyme (Altered Forms of Enzymes)
Chuyển gene mã hóa cho enzyme có cấu trúc đƣợc bổ sung làm nó không nhạy
cảm với điều kiện hóa chất và môi trƣờng. Ví dụ, gene mã hóa cho enzyme EPSP (5-
enolpyruvyl-shikimate-3-phosphate synthase) biến đổi cấu trúc đem lại tính kháng
thuốc diệt cỏ glyphosate.
PHẦN B: TỔNG QUAN - Giới thiệu Sinh học - Chuyển Gene
NGUYỄN KỲ TRUNG – LÊ THÀNH TRUNG
20
Tổng hợp tăng cƣờng protein (overproduction of proteins)
Chuyển vào nhiều bản sao của gene hay sử dụng promoter mạnh đem lại kết quả
tăng cƣờng sản phẩm protein. Vấn đề này có thể đƣợc áp dụng cho tính trạng dinh
dƣỡng hay cho tính kháng bệnh.
Ức chế gene nội sinh (Silencing of Endogeneous Genes)
Ức chế một phần hay toàn bộ sự biểu hiện gene có thể đạt đƣợc qua kỹ thuật
RNA antisense. Kỹ thuật này chuyển gene có chiều ngƣợc lại với gene ban đầu. Khi
sao mã, sản phẩm này bổ sung với gene ban đầu. mRNA của gene quan tâm lại bổ
sung đối với gene chuyển, kết quả tạo thành RNA kép ngăn cản quá trình dịch mã. Về
mặt lý thuyết, mRNA antisense có thể đƣợc dùng để ức chế sự biểu hiện của bất kỳ
gene nào.
I.2.5.2. Các tính trạng mới (News traits)
Các gene ở các loài khác có thể đƣợc chuyển vào sinh vật đích, làm cho tính
trạng của loài này cũng có trong loài khác. Gồm các khả năng sau:
Trao đổi chất (Metabolism): chuyển gene từ loài cố định nitơ.
Kháng côn trùng sinh học (Biopesticides): gene Bt đƣợc chuyển từ vi khuẩn
Bacillus thuringiensis tới bắp, bông vải, và các cây trồng khác.
Kháng bệnh (Disease Resistance)
Một ví dụ là lúa mạch kháng đối với Barley Yellow Dwarf Virus (BYDV), kết quả
của việc chuyển gene mã hóa protein vỏ của virus BYDV vào lúa mạch.
Khử đực (Male sterility)
Chuyển gene khử đực để có thể tăng tỉ lệ thụ phấn chéo trong các loài tự thụ phấn.
Xử lý sinh học (Bioremediation)
Chuyển các gene mã hóa cho các chất hấp thụ kim loại nặng hay khả năng xử lý
chất thải ô nhiễm đó là những ứng dụng trong xử lý sinh học.
Dƣợc liệu (Pharmaceutical)
Chuyển các gene mã hóa các chất có đặc tính chữa bệnh đƣợc dùng trong y khoa
Thay đổi các đặc tính bản chất (Alteration in the Individual’s
Architecture)
Thay đổi thời gian ra hoa, cấu trúc cây, hay màu sắc đối với các thực vật dùng cho
trang trí.
PHẦN B: TỔNG QUAN - Giới thiệu Sinh học - Chuyển Gene
NGUYỄN KỲ TRUNG – LÊ THÀNH TRUNG
21
I.2.5.3. Sự biểu hiện gene
Tất cả tế bào đều chứa số lƣợng nhiễm sắc thể đặc trƣng cho loài. Nhƣng không
phải tất cả các gene đều biểu hiện trong mỗi tế bào. Ví dụ, các gene mã hóa cho sản
phẩm chlorophyll đƣợc biểu hiện ở lá và các thành phần xanh khác của cây. Tuy nhiên
chúng lại không biểu hiện ở rễ.
Sự điều hòa gene là một quá trình phức tạp, chịu sự chi phối của hàng loạt các
yếu tố. Hiện tƣợng chung xảy ra trong kỹ thuật di truyền là sự không có quá trình biểu
hiện gene sau khi gene đã đƣợc chuyển vào sinh vật. Vì vậy, hiểu cơ chế biểu hiện
gene là điều cực kỳ quan trọng trong kỹ thuật di truyền.
Trong vi khuẩn, một số gene đƣợc kích hoạt trong khi đó một số gene khác lại bị
bất hoạt phụ thuộc vào môi trƣờng mà vi khuẩn tăng trƣởng. Ví dụ, vi khuẩn
Escherichia coli có thể sử dụng hai loại nguồn cacbon khác nhau, lactose và glucose
tạo ra năng lƣợng. Vi khuẩn cần tổng hợp ra enzyme đặc biệt phân hủy cacbohydrate
thành năng lƣợng. Các enzyme này cũng giống nhƣ các protein khác, đƣợc mã hóa bởi
gene. Khi E.coli đƣợc nuôi cấy trong môi trƣờng với cả hai glucose và lactose (ƣa
thích glucose hơn), nó trao đổi chất. Gene mã hóa cho enzyme trao đổi glucose vì thế
đƣợc biểu hiện trƣớc. Trao đổi chất lactose đòi hỏi thêm enzyme khác và chỉ đƣợc
hoạt hóa khi môi trƣờng cạn kiệt glucose và lactose trở thành nguồn năng lƣợng có
sẵn. Hiện tƣợng này đƣợc gọi là điều hòa gene.
Biểu hiện gene trong cơ thể phức tạp vẫn chƣa đƣợc hiểu biết hoàn toàn.
Biểu hiện gene không chỉ là chức năng bên trong cơ thể mà còn chịu sự kích
thích của môi trƣờng.
Cơ chế điều hòa gene liên quan đến gene điều hòa. Các trình tự DNA này không
mã hóa cho bất kỳ protein nào. Chức năng của chúng là đẩy mạnh sự kích hoạt hay ức
chế gene.
Một phần quan trọng của gene điều hòa là promoter. Promoter là trình tự DNA
đứng trƣớc gene, chứa trình tự điều hòa để kiểm soát tỉ lệ RNA sao mã. Promoter kiểm
soát khi trong tế bào có gene đƣợc biểu hiện. Thông qua xử lý trên promoter có thể tạo
ra biểu hiện quá mức, quá thấp hoặc ức chế.
Một số promoter mang tính cơ bản (constitutive) trong khi đó một số khác mang
tính có thể chi phối (inducible). Trong số các promoter này, một số có thể bị chi phối
bởi chất hóa học, số khác đƣợc kích hoạt bởi nhiệt, ánh sáng hay hormon. Một số
PHẦN B: TỔNG QUAN - Giới thiệu Sinh học - Chuyển Gene
NGUYỄN KỲ TRUNG – LÊ THÀNH TRUNG
22
promoter hoạt động trong một số mô hay cơ quan nhất định, không hoạt động trong
phần khác. Trong trƣờng hợp này, chúng đƣợc xem là promoter đặc biệt của mô.
Sau đây giới thiệu một số promoter thƣờng đƣợc dùng trong kỹ thuật di truyền:
Loại cơ bản
UBI từ bắp
35SCaMV từ virus khảm suplơ (cauliflower)
Loại mô đặc biệt
Phaseolina promoter (promoter đặc biệt của hạt từ đậu phộng).
Vicillin promoter (promoter đặc biệt của hạt từ đậu Hà Lan).
Glutamine promoter (promoter đặc biệt của nội nhũ từ lúa mì).
Loại kích thích
Rubisco 5S promoter ( kích hoạt bởi ánh sáng).
Bên cạnh promoter, các yếu tố di truyền khác cũng quan trọng trong sự biểu hiện
gene phù hợp. Mặc dù mã di truyền có tính toàn bộ, nó cũng đƣợc xem là thoái hóa.
Mỗi sinh vật ƣa thích các codon đặc biệt mã hóa amino acid trong suốt quá trình tiến
hóa, điều này cũng tác động đến sự biểu hiện gene. Đó là trƣờng hợp của gene Bt từ vi
khuẩn Bacillus thuringiensis chuyển trong bắp. Ban đầu biểu hiện gene đó của vi
khuẩn trong bắp rất thấp, tuy nhiên khi gene chuyển đƣợc xử lý lại sử dụng các codon
ƣa thích của bắp, sự biểu hiện gene xảy ra bình thƣờng.
Nhiều yếu tố khác có thể ảnh hƣởng sự biểu hiện của gene chuyển, nhƣ sự hiện
diện của các peptide tín hiệu, vị trí sự tích hợp của gene trong bộ gene, số lƣợng bản
sao tích hợp, và sự tái sắp xếp gene chuyển trong suốt quá trình tích hợp. Tích hợp
gene chuyển vào trong tế bào cây chủ nhìn chung xảy ra ngẫu nhiên, nghĩa là nó có thể
xảy ra bất kỳ trên nhiễm sắc thể nào của tế bào và bất kỳ vị trí nào trong nhiễm sắc thể.
Tuy nhiên, hầu hết các tính trạng chuyển gene, gene chuyển thƣờng nằm ở vị trí cuối
của nhiễm sắc thể. Nhiều bản sao của gene chuyển đƣợc tích hợp cùng nhau một cách
đặc thù.
I.2.6. Locus chuyển gene
Cấu trúc gene đƣợc dùng trong chuyển gene có promoter, vùng mã hóa, và trình
tự cuối. Trong hình, vicillin promoter, đặc biệt cho sự biểu hiện trong hạt, chi phối sự
biểu hiện gene của gene UDP 6-glucose dehydrogenease theo chiều antisen. Trong cấu
trúc cũng có trình tự kết thúc NOS (noplaine synthase), đánh dấu vị trí kết thúc của sự
PHẦN B: TỔNG QUAN - Giới thiệu Sinh học - Chuyển Gene
NGUYỄN KỲ TRUNG – LÊ THÀNH TRUNG
23
sao chép. Ngoài gene quan tâm, nhìn chung gene reporter đƣợc chuyển đồng thời để
dễ dàng cho sự xác định và chọn lọc cá thể chuyển gene.
Hình 1.17: Ví dụ cấu trúc di truyền đƣợc dùng ức chế gene UDP 6-glucose
dehydrogenease trong đậu nành.
Thông thƣờng gene reporter cũng nằm trong cấu trúc gene chuyển. Chức năng
của reporter cho phép sự chọn lọc có thể thấy đối với các tế bào chuyển gene.
Chuyển gene cá thể là nhiệm vụ khó khăn. Tính khoa học ẩn sau các phƣơng
pháp thì chỉ có thể hiểu ở mức cơ bản, còn kết quả của các phƣơng pháp thì không
luôn luôn theo dự định. Trình tự các gene đặc biệt cần để kích thích sự biểu hiện của
gene chuyển và các gene cần cho sự xác định cá thể chuyển gene.
Chuyển gene vẫn đang tiếp tục đƣợc cải thiện để biểu hiện chính xác hơn các tính
trạng mong muốn trong các sinh vật khác nhau. Hiểu đƣợc sự phức tạp của chuyển
gene là mấu chốt để mở rộng những ứng dụng trong công nghệ sinh học.
PHẦN B: TỔNG QUAN - Giới thiệu Sinh học – Hiện trạng chuyển Gene
NGUYỄN KỲ TRUNG – LÊ THÀNH TRUNG
24
I.3. Hiện trạng sản xuất cây trồng chuyển gene trên thế giới
Từ 1986-1997 đã có khoảng 25.000 cuộc thử nghiệm ngoài đồng về cây
chuyển gene, đƣợc tiến hành ở 45 quốc gia với hơn 60 cây trồng và 10 đặc tính.
Trong số 25.000 cuộc thử nghiệm thì 60% đƣợc tiến hành từ năm 1986-1995, còn
lại đƣợc tiến hành vào 2 năm 1996-1997. Năm 1997, chỉ có 46 sản phẩm chuyển
gene của 12 cây trồng với 6 đặc tính đã đƣợc thƣơng mại hóa.
Bảng 1.2: Bảng thống kê danh sách các tính trạng đƣợc chuyển vào cây trồng.
STT Tính trạng Yếu tố di truyền Nguồn
1 Fatty acid composition
Delta(12)-fatty acid
dehydrogenease
Glycine max
2 Fatty acid composition Fatty acid desaturase NULL
3 Fatty acid composition Thioesterase Umbellularia californica
4 Fertility restoration
Barnase ribonuclease
inhibitor
Bacillus
amyloliquefaciens
5 Herbicide tolerance
5-enolpyruvylshikimate-3-
phosphate synthase
Agrobacterium
tumefaciens CP4
6 Herbicide tolerance
5-enolpyruvylshikimate-3-
phosphate synthase
Z. mays
7 Herbicide tolerance
Acetolactate synthase chimera of 2 resistant
AHAS genes (S4-Hr4)
8 Herbicide tolerance
Acetolactate synthase chlorsulfuron tolerant
line of A. thaliana
9 Herbicide tolerance
Acetolactate synthase chlorsulfuron tolerant
Nicotiana tabacum
10 Herbicide tolerance Glyphosate oxidoreductase Ochrobactrum anthropi
11 Herbicide tolerance
Nitrilase Klebsiella pneumoniae
subspecies ozanae
12 Herbicide tolerance
Phosphinothricin N-
acetyltransferase
S. hygroscopicus
13 Herbicide tolerance
Phosphinothricin N-
acetyltransferase
S. viridochromogenes
PHẦN B: TỔNG QUAN - Giới thiệu Sinh học – Hiện trạng chuyển Gene
NGUYỄN KỲ TRUNG – LÊ THÀNH TRUNG
25
STT Tính trạng Yếu tố di truyền Nguồn
14 Insect resistance
Cry1Ab delta-endotoxin (Btk
HD-1)
Bacillus thuringiensis
subsp. kurstaki (Btk)
15 Insect resistance
Cry1Ac delta-endotoxin Bacillus thuringiensis
subsp. kurstaki (Btk)
16 Insect resistance
Cry1F delta-endotoxin Bacillus thuringiensis
var. aizawai
17 Insect resistance Cry2Ab delta-endotoxin Bacillus thuringiensis
18 Insect resistance
Cry3A delta-endotoxin Bacillus thuringiensis
subsp. Tenebrionis
19 Insect resistance
Cry3Bb1 delta-endotoxin Bacillus thuringiensis
subsp. kumamotoensis
20 Insect resistance
Cry9c delta-endotoxin Bacillus thuringiensis
subsp. Tolworthi
21 Insect resistance Protease inhibitor S. tuberosum
22 Lepidopteran resistance Cry1F delta-endotoxin Bacillus thuringiensis
23 Male sterility
Barnase ribonuclease Bacillus
amyloliquefaciens
24 Male sterility DNA adenine methylase Escherichia coli
25 Modified color Dihydroflavonol reductase Petunia hybrida
26 Modified color
Flavonoid 3p, 5p
hydroxylase
Petunia hybrida
27 Modified color
Flavonoid 3p, 5p
hydroxylase
Viola sp.
28 Mutations Acetolactate synthase Brassica napus
29 Mutations Acetolactate synthase Helianthus annus
30 Mutations Acetolactate synthase Lens culinaris
31 Mutations Acetolactate synthase Oryza sativa
32 Mutations Acetolactate synthase Triticum aestivum
33 Mutations Acetolactate synthase Z. mays
34 Mutations Acetyl-CoA-carboxylase Z. mays
PHẦN B: TỔNG QUAN - Giới thiệu Sinh học – Hiện trạng chuyển Gene
NGUYỄN KỲ TRUNG – LÊ THÀNH TRUNG
26
STT Tính trạng Yếu tố di truyền Nguồn
35 Nicotine reduced
Nicotinate-nucleotide
pyrophosphorylase
(carboxylating)
Nicotiana tabaccum
36 Ripening delayed
1-amino-cyclopropane -1-
carboxylic acid synthase
Dianthus caryophyllus L.
37 Ripening delayed
1-amino-cyclopropane-1-
carboxylic acid deaminase
Pseudomonas
chlororaphis
38 Ripening delayed
Aminocyclopropane cyclase
synthase
Tomato
39 Ripening delayed Polygalacturonase Tomato
40 Ripening delayed
S-adenosylmethionine
hydrolase
E. coli bacteriophage T3
41 Virus resistance
Helicase potato leafroll luteovirus
(PLRV) orf 2
42 Virus resistance
Replicase (RNA dependent
RNA polymerase)
potato leafroll luteovirus
(PLRV) orf 1
43 Virus resistance
Viral coat protein Cucumber mosaic
cucumovirus
44 Virus resistance
Viral coat protein papaya ringspot
potyvirus (PRSV)
45 Virus resistance
Viral coat protein potato potyvirus Y (PVY)
strain O (common strain)
46 Virus resistance
Viral coat protein Watermelon mosaic
potyvirus 2
47 Virus resistance
Viral coat protein Zucchini yellow mosaic
potyvirus
PHẦN B: TỔNG QUAN - Giới thiệu Sinh học – Hiện trạng chuyển Gene
NGUYỄN KỲ TRUNG – LÊ THÀNH TRUNG
27
Đến năm 2004, diện tích trồng cây chuyển gene tăng 40 lần, từ 1,7 triệu ha lên
đến 80 triệu ha, đặc biệt là ở các nƣớc đang phát triển.
Hình 1.18: Bản đồ một số nƣớc chính có cây trồng chuyển gene lớn trên thế giới
Hình 1.19: Diện tích cây trồng chuyển gene các nƣớc trên thế giới.
Hình 1.20: Biểu đồ tỷ lệ các loại gene kháng đƣợc chuyển vào cây trồng trên thế giới
PHẦN B: TỔNG QUAN – Giới thiệu Bioinformatics – Khái niệm
NGUYỄN KỲ TRUNG – LÊ THÀNH TRUNG
28
II. Giới thiệu về Bioinformatics
II.1. Khái niệm về Bioinformatics
Bioinformatics là sự kết hợp giữa Công nghệ sinh học và Công nghệ thông tin
với mục tiêu giúp hiểu biết và khám phá những nguyên lý trong sinh học.
Bioinformatics sử dụng máy tính để giải quyết những vấn đề của khoa học sự sống,
chủ yếu là các vấn đề về cơ sở dữ liệu (CSDL) đa dạng của bộ gene, CSDL về trình tự
protein, ... Đây còn là môn học giải quyết những vấn đề về kỹ thuật nhƣ mô hình cấu
trúc ba chiều của phân tử và các hệ thống sinh học.
Bioinformatics là sự phối hợp giữa toán học, thống kê và kỹ thuật máy tính nhằm
phân tích thông tin sinh học, sinh lý, sinh hóa, di truyền. Bioinformatics liên quan đến
những phƣơng pháp nhƣ lƣu trữ, tìm kiếm và phân tích dữ liệu sinh học nhƣ nucleic
acid, trình tự protein; nghiên cứu cấu trúc, chức năng, con đƣờng và những ảnh hƣởng
di truyền.
Bioinformatics đã thực sự trở thành một công cụ nghiên cứu mới, trợ giúp đắc lực
và hiệu quả để đẩy nhanh tốc độ nghiên cứu và ứng dụng công nghệ sinh học.
Ba nhiệm vụ cơ bản của Bioinformatics là:
Xây dựng, bổ sung, tổ chức quản lý và khai thác cơ sở dữ liệu đa dạng
và toàn diện trên quy mô toàn cầu liên quan đến sinh học và các ngành khoa học liên
quan.
Xây dựng và phát triển các chƣơng trình xử lý dữ liệu ứng dụng, dƣới
dạng các chƣơng trình xử lý độc lập hay đƣợc tích hợp ngay trên các thiết bị phân
tích hiện đại.
Đào tạo và cập nhật thƣờng xuyên cho các nhà sinh học kỹ năng tƣ duy
và năng lực khai thác hai nội dung trên vào hoạt động khoa học và công nghệ nhằm
tạo ra bƣớc chuyển đột phá trong cách tiếp cận nghiên cứu sinh học.
PHẦN B: TỔNG QUAN – Giới thiệu Bioinformatics – CSDL trình tự thế giới
NGUYỄN KỲ TRUNG – LÊ THÀNH TRUNG
29
II.2. Vài nét về các cơ sở dữ liệu sinh học trình tự hiện nay trên thế giới
II.2.1. NCBI (The National Center For Biotechnology Information)
Trung tâm thông tin quốc gia về Công nghệ sinh học (NCBI) đƣợc thành lập từ
năm 1988 nhƣ là nguồn thông tin quốc gia về sinh học phân tử. NCBI là bộ phận của
Thƣ Viện Y Học Quốc Gia (the National Library of Medicine (NLM)) tại Viện Sức
Khỏe Quốc Gia (the National Institutes of Health (NIH)). NCBI tạo ra các cơ sở dữ
liệu công cộng, quản lý các nghiên cứu trong lĩnh vực sinh học tính toán, phát triển các
công cụ phần mềm cho phân tích dữ liệu genome, và công bố các thông tin y sinh. Tất
cả phục vụ cho sự hiểu tốt hơn tiến trình phân tử tác động đến sức khỏe và bệnh của
con ngƣời.
Cơ sở dữ liệu trình tự GenBank là một tập hợp đƣợc chú thích các trình tự
nucleotide có sẵn và sản phẩm protein của chúng. Cơ sở dữ liệu này đƣợc tạo tại NCBI
nhƣ là một phần của sự hợp tác quốc tế cùng với EMBL từ EBI và DDBJ. GenBank và
các thành viên nhận trình tự từ các phòng thí nghiệm trên khắp thế giới từ hơn 100
ngàn sinh vật khác nhau. GenBank tiếp tục tăng trƣởng theo lũy thừa, gấp đôi khoảng
10 tháng.
II.2.2. EMBL
The European Molecular Biology Laboratory (EMBL) đƣợc thành lập năm 1974
và đƣợc đóng góp bởi tám thành viên bao gồm gần nhƣ tất cả khu vực Tây Âu và
Israel. EMBL bao gồm năm liên kết: phòng thí nghiệm chính ở Heidelberg (Đức),
Qutstations ở Hamburg (Đức), Grenoble (Pháp), Hinxton (Anh) và Monterotondo (Ý).
EMBL là một trong những viện nghiên cứu hàng đầu trên thế giới; nó dẫn đầu
Châu Âu về sinh học phân tử. EMBL là trung tâm quốc tế chung cho cả thế giới về
tiến bộ trong giáo dục và đã đƣợc đào tạo bằng tiến sĩ từ năm 1997.
EMBL đƣợc thành lập với bốn nhiệm vụ: quản lý những nghiên cứu cơ bản trong
sinh học phân tử, cung cấp những dịch vụ cần thiết cho các nhà khoa học thành viên,
đào tạo ở mức độ cao cho các hội đồng, sinh viên, các khách hàng và phát triển các
công cụ mới cho nghiên cứu sinh học. Các chức năng chính này đƣợc kết hợp với các
hoạt động mang ý nghĩa vƣợt trội trong lĩnh vực chuyển giao công nghệ, khoa học, xã
hội và huấn luyện cho các giáo viên khoa học.
PHẦN B: TỔNG QUAN – Giới thiệu Bioinformatics – CSDL trình tự thế giới
NGUYỄN KỲ TRUNG – LÊ THÀNH TRUNG
30
The European Bioinformatics Institute (EBI) là một tổ chức học thuật không lợi
nhuận và là một phần của EMBL.
EBI là trung tâm cho nghiên cứu và phục vụ trong bioinformatics. Viện này quản
lý cơ sở dữ liệu sinh học bao gồm trình tự acid nucleic, protein và cấu trúc các đại
phân tử. Nhiệm vụ của EBI là đảm bảo sự tăng trƣởng thông tin từ sinh học phân tử và
các nghiên cứu genome sẽ đƣợc đƣa lên công cộng và có thể đƣợc lấy miễn phí cho tất
cả các khía cạnh trao đổi khoa học để thúc đẩy tiến bộ khoa học.
II.2.3. DDBJ
DDBJ (DNA Data Bank of Japan) bắt đầu những hoạt động ngân hàng dữ liệu
DNA trong giai đoạn đầu của năm 1986 tại viện di truyền quốc gia (National Institute
of Genetics - NIG) với sự công nhận của bộ giáo dục, khoa học, thể thao, và trồng trọt.
Ngay từ ban đầu, DDBJ đã có chức năng là một cơ sở dữ liệu trình tự mang tính quốc
tế bao gồm: EBI và NCBI (chịu trách nhiệm cho cơ sở dữ liệu GenBank) với vai trò là
hai thành viên khác. DDBJ đã hợp tác với hai ngân hàng dữ liệu thông qua trao đổi dữ
liệu và thông tin trên Internet và tổ chức hai cuộc họp, cuộc họp ban cố vấn ngân hàng
dữ liệu DNA quốc tế ( the International DNA Data Banks Advisory Meeting) và cuộc
họp hợp tác ngân hàng dữ liệu DNA quốc tế (the International DNA Data Banks
Collaborative Meeting).
Trung tâm thông tin sinh học tại NIG đƣợc tổ chức lại thành trung tâm thông tin
sinh học (Center for Information Biology) và ngân hàng dữ liệu trình tự của Nhật
(CIB-DDBJ) năm 2001. Trung tâm mới này đóng vai trò quan trọng thực hiện những
nghiên cứu về thông tin sinh học và vận hành hệ thống cơ sở dữ liệu DDBJ trên thế
giới. DDBJ là ngân hàng DNA duy nhất tại Nhật, đƣợc chứng nhận chính thức cho
việc thu thập trình tự DNA từ các nhà nghiên cứu và tạo ra số Accession number cho
dữ liệu trình tự đƣợc gởi tới. DDBJ tập hợp dữ liệu chủ yếu từ các nhà khoa học Nhật,
tuy nhiên cũng chấp nhận dữ liệu và tạo Accession number cho các nhà khoa học tại
các quốc gia khác. Vì DDBJ trao đổi dữ liệu hàng ngày với EMBL/EBI và
GenBank/NCBI, nên ba cơ sở dữ liệu này chia sẽ cùng dữ liệu tại bất kỳ thời điểm
nào. DDBJ cũng cung cấp nhiều công cụ cho phân tích và lấy ra các dữ liệu đƣợc phát
triển bởi DDBJ và thành viên khác.
PHẦN B: TỔNG QUAN – Giới thiệu Bioinformatics – Vài công cụ
NGUYỄN KỲ TRUNG – LÊ THÀNH TRUNG
31
II.3. Vài công cụ Bioinformatics hiện nay
Vì không có cách nào mô tả hết các công cụ có sẵn, dƣới đây chỉ trích một vài
công cụ phổ biến dùng trong phân tích trình tự sinh học.
II.3.1. Readseq
Readseq là một phần mềm cũ, ra đời từ năm 1989. Đƣợc phát triển bởi Don
Gilbert, chƣơng trình này đọc và viết trình tự nucleotide và protein sang nhiều định
dạng hữu dụng. Công cụ này đƣợc viết bằng ngôn ngữ Java.
II.3.2. BLAST
BLAST (Basic Local Alignment Search Tools) là công cụ đƣợc biết tốt nhất
trong phân tích trình tự. Nó so sánh hai trình tự bởi cố gắng gióng (align) chúng, và
cũng đƣợc dùng để tìm kiếm trình tự trong cơ sở dữ liệu. Thuật toán bắt đầu bởi tìm
kiếm sự so khớp chính xác, sau đó mở rộng vùng đã đƣợc gióng bởi những so khớp
không chính xác (mismatches).
blastall cho phép sử dụng tất cả các chƣơng trình BLAST (blastn, blastp,
blastx, và tblastn). Bảng sau đây tóm tắt trình tự dùng truy vấn (Query sequence), trình
tự cơ sở dữ liệu (Database sequence), và loại gióng trình tự (Alignment sequence) đối
với lệnh BLAST khác nhau.
Program
Query
sequence type
Database
sequence type
Alignment
sequence type
blastn nucleotide Nucleotide nucleotide
blastp protein Protein protein
blastx nucleotide Protein protein
tblastn protein Nucleotide protein
tblastx nucleotide Nucleotide protein
Bảng 2.1: Bảng liệt kê một số chƣơng trình BLAST
megablast sử dụng thuật toán gióng trình tự nucleotide tìm kiếm và nối nhiều
trình tự truy vấn để giảm thời gian quét (scanning) qua cơ sở dữ liệu.
PHẦN B: TỔNG QUAN – Giới thiệu Bioinformatics – Vài công cụ
NGUYỄN KỲ TRUNG – LÊ THÀNH TRUNG
32
blastpgp thực hiện blastp có khe (gap) và có thể đƣợc dùng để thực hiện lặp đi
lặp lại tìm kiếm ở chế độ psi-blast và phi-blast.
PSI-BLAST (Position-Specific Iterated BLAST) là sự tìm kiếm lặp lại trong đó
các trình tự tìm thấy trong một vòng tìm kiếm đƣợc dùng để xây dựng mô hình tính
điểm cho vòng tìm kiếm kế tiếp.
PHI-BLAST (Pattern-Hit Initiated BLAST) là chƣơng trình tìm kiếm kết hợp sự
so khớp của regular expression với sự gióng khu vực xung quanh sự so khớp.
bl2seq (BLAST 2 Sequences) cho phép gióng trình tự hai trình tự đƣợc nhận.
II.3.3. BLAT
BLAT là công cụ gióng trình tự rất nhanh tƣơng tự nhƣ BLAST. Nó tƣơng đối
mới so với BLAST, nhƣng nó đã trở nên rất phổ biến. BLAT thì chính xác hơn và
nhanh hơn hàng trăm lần so với BLAST. Tốc độ của BLAT xuất phát từ thời gian chạy
các phần tử là các trình tự nhỏ không trùng lắp từ chiều dài đƣợc cho. Phần tử này đủ
nhỏ phù hợp với bộ nhớ máy tính và đƣợc tính toán điển hình chỉ một lần đối với mỗi
tập hợp genome. Jim Kent phát triển BLAT đặc biệt trợ giúp xử lý tập hợp bộ gene
trong quá trình làm việc với bộ gene ngƣời.
II.3.4. ClustalW
ClustalW là chƣơng trình gióng đa trình tự dùng cho trình tự nucleotide và trình
tự protein. Sự gióng có thể là toàn bộ (global) (toàn trình tự) hay khu vực (local) (giới
hạn đoạn trình tự con). ClustalW tính toán sự khớp tốt nhất cho trình tự đƣợc chọn lựa,
và sắp chúng thành hàng để xác định, những sự tƣơng đồng và sự khác biệt có thể
đƣợc thấy.
II.3.5. HMMER
HMMER là tập hợp các chƣơng trình tạo ra mô hình Markov ẩn (hidden Markov
model-HMM) của họ trình tự đƣợc dùng nhƣ trình tự truy vấn đối với cơ sở dữ liệu để
xác định thêm sự tƣơng đồng (homologs) của họ trình tự. HMMER đƣợc phát triển bởi
Sean Eddy tại đại học Washington.
PHẦN B: TỔNG QUAN – Giới thiệu Bioinformatics – Vài công cụ
NGUYỄN KỲ TRUNG – LÊ THÀNH TRUNG
33
II.3.6. MEME/MAST
Hệ thống MEME/MAST cho phép bạn:
Khám phá motif (vùng có tính bảo tồn cao) trong nhóm trình tự DNA hay
protein sử dụng MEME.
Tìm kiếm trình tự cơ sở dữ liệu bằng motif dùng MAST.
MEME và MAST đƣợc phát triển bởi Timothy Bailey, Charles và Bill Grundy tại
phòng kỹ thuật và khoa học máy tính tại trung tâm San Diego Supercomputer.
II.3.7. EMBOSS
EMBOSS (European Molecular Biology Open Software Suite) là công cụ phân
tích trình tự với mã nguồn mở. Phần mềm này bao gồm nhiều chức năng và có thể xử
lý dữ liệu với nhiều dạng format. Thƣ viện mở rộng đƣợc cung cấp với gói, cho phép
ngƣời dùng phát triển và đƣa ra phần mềm riêng của họ. EMBOSS cũng tích hợp các
gói và công cụ có sẵn dùng cho phân tích trình tự, nhƣ BLAST và ClustalW.
EMBOSS chứa khoảng 150 chƣơng trình. Chúng xử lý một số lĩnh vực sau:
o Gióng trình tự
o Tìm kiếm nhanh chóng trình tự với trình tự ban đầu.
o Xác định motif protein.
o Phân tích trình tự, ví dụ xác định vùng CpG hay trình tự lặp lại.
o Xác định nhanh chóng trình tự trong tập trình tự lớn.
o Trình bày các công cụ đã đƣợc công bố…
PHẦN B: TỔNG QUAN – Giới thiệu Bioinformatics – Ngôn ngữ
NGUYỄN KỲ TRUNG – LÊ THÀNH TRUNG
34
II.4. Ngôn ngữ dùng trong Bioinformatics
Cuộc cách mạng về bộ gene đã thay đổi diện mạo của sinh học. Bất cứ ai làm
việc trong lĩnh vực này đều sử dụng phần lớn thời gian trên máy tính và duyệt qua các
cơ sở dữ liệu lớn về genes, proteins, các bài báo đã công bố trên các cơ sở dữ liệu lớn
trên mạng. Ví dụ danh sách toàn bộ gene ngƣời có sẵn, đã thay đổi cách làm việc của
mọi ngƣời trong lĩnh vực nghiên cứu di truyền. Theo phƣơng cách truyền thống, một
nhà sinh học trải qua nhiều ngày suy nghĩ chiến lƣợc cho việc xác định một gene và
hàng tháng trời làm việc trong phòng thí nghiệm để tạo dòng. Ngày nay, anh ta chỉ
phải mất vài ngày suy nghĩ chiến lƣợc phù hợp cho ý nghĩa của gene từ cơ sở dữ liệu
bộ gene, tiếp theo thực hiện truy vấn (query), và vài phút để sắp xếp trật tự các dòng
phù hợp từ nguồn dữ liệu.
Để tạo thuận lợi trong sinh học mới, các nhà sinh học phải làm quen với máy
tính. Truy xuất dữ liệu từ trang web dữ liệu sinh học và những công cụ phân tích
chúng thì thƣờng không đủ. Để thật sự tạo ra cuộc cách mạng thông tin trong sinh học,
các nhà sinh học phải có thể quản lý và phân tích lƣợng lớn dữ liệu sinh học thu đƣợc
từ nhiều nguồn khác nhau. Điều này có nghĩa là viết phần mềm và Perl là ngôn ngữ ƣa
thích cho Bioinformatics. Khả năng tạo ra Perl script tự động quản lý thông tin là một
thuận lợi.
Mặc dù Perl là ngôn ngữ rất phù hợp đối với bioinformatics, nó không phải là
chọn lựa duy nhất và cũng không phải là chọn lựa tốt nhất. Các ngôn ngữ khác nhƣ
Java, C++, Python… cũng đƣợc dùng trong bioinformatics. Chọn lựa ngôn ngữ nào
phụ thuộc vào vấn đề cần đƣợc lập trình, kỹ năng của ngƣời lập trình và hệ thống có
sẵn.
PHẦN B: TỔNG QUAN – Cơ sở tin học – Lập trình hướng đối tượng
NGUYỄN KỲ TRUNG – LÊ THÀNH TRUNG
35
III. Cơ sở tin học cho việc xây dựng cơ sở dữ liệu trình tự
III.1. Khái niệm về lập trình
Hiện nay lập trình thƣờng đƣợc phân chia thành hai trƣờng phái:
+ Lập trình cấu trúc hay còn gọi là “lập trình thủ tục”, “lập trình truyền
thống” (Structured Programming).
+ Lập trình hƣớng đối tƣợng (Object -Oriented Programming).
Để hiểu rõ hơn sự khác biệt cũng nhƣ ƣu khuyết điểm của hai trƣờng phái này, ta
hãy xét một yêu cầu đơn giản: Hãy hiển thị thông tin miêu tả các hình trong CSDL ra
màn hình.
Ta có thể dễ dàng phân tích vấn đề theo thứ tự các bƣớc sau:
1. Định vị các hình trong cơ sở dữ liệu.
2. Tạo danh sách hình.
3. Sắp xếp danh sách hình theo một thứ tự nhất định.
4. Biễu diễn từng hình riêng ra màn hình.
Mỗi một bƣớc trong bốn bƣớc ở trên có thể phân rã thành những đơn vị nhỏ hơn
để có thể dễ dàng hơn trong việc thực hiện. Ví dụ ta có thể chia bƣớc 4 thành các bƣớc
sau (sử dụng vòng lặp):
- Lấy từng hình trong danh sách bắt đầu từ vị trí đầu tiên cho đến vị trí cuối cùng.
- Gọi hàm hiển thị từng hình ra màn hình.
Cách nhìn nhận và phân tích vấn đề nhƣ thế đƣợc gọi là phân rã chức năng
(functionnal decomposition). Phân rã chức năng là cách tiếp cận bằng cách chia nhỏ
vấn đề đến mức mà ngƣời lập trình có thể sử dụng tập lệnh của một ngôn ngữ lập trình
để thực hiện chúng. Bằng cách này, ta có thể dễ dàng giải quyết và quản lý những vấn
đề lớn thông qua từng công việc nhỏ.
Cách tiếp cận trên là tƣ tƣởng chủ đạo của lập trình cấu trúc. Đây cũng là điểm
giống nhau giữa lập trình cấu trúc và lập trình hƣớng đối tƣợng. Tuy nhiên, nếu chỉ
dừng lại ở đây thì việc giải quyết một số vấn đề phức tạp ta sẽ gặp khó khăn vì những
lý do sau:
+ Phân rã chức năng thƣờng có một chƣơng trình chính chịu trách nhiệm về các
chƣơng trình con và ta không hề gặp khó khăn trong việc chia nhỏ các chức năng. Tuy
nhiên khi đó chƣơng trình chính phải gánh rất nhiều nhiệm vụ: đảm bảo mọi thứ đều
hoạt động tốt, liên kết và quản lý trình tự thực hiện các chức năng. Do đó, khi yêu cầu
PHẦN B: TỔNG QUAN – Cơ sở tin học – Lập trình hướng đối tượng
NGUYỄN KỲ TRUNG – LÊ THÀNH TRUNG
36
ngày càng nhiều, độ phức tạp của các yêu cầu ngày càng cao, thì chƣơng trình viết
theo kiểu cấu trúc sẽ ngày càng phức tạp, gây khó khăn trong việc quản lý, bảo trì và
phát triển chƣơng trình về sau. Mọi thứ đều phát triển và thay đổi theo thời gian,
không có gì là bất biến. Và một chƣơng trình ứng dụng cũng không nằm ngoài quy
luật đó, nó luôn luôn thay đổi để ngày càng phù hợp với yêu cầu của thực tế. Tính khó
thích nghi khi có những thay đổi là nhƣợc điểm quan trọng nhất của lập trình thủ tục.
+ Trong một chƣơng trình có cấu trúc nhiều phần khác nhau có thể truy cập cùng
một dữ liệu. Điều này nghĩa là nếu một chƣơng trình cần thay đổi cách tổ chức dữ liệu,
ta phải tìm tất cả các chức năng hoặc các lệnh truy cập dữ liệu đó để có những thay đổi
tƣơng ứng. Nếu sót một trong các chức năng hoặc lệnh này thì chƣơng trình có thể vẫn
hoạt động nhƣng sẽ cho ra kết quả sai.
+ Một nhƣợc điểm khác của lập trình thủ tục là ta không thể kế thừa hiệu quả
cũng nhƣ tái sử dụng hiệu quả các chức năng đã viết, trong nhiều tình huống phải viết
lại gần nhƣ toàn bộ.
Lập trình hƣớng đối tƣợng đƣợc đƣa ra để khắc phục các nhƣợc điểm của lập
trình có cấu trúc. Lập trình hƣớng đối tƣợng giúp ta tƣ duy và giải quyết vấn đề nhƣ
cách ta thực hiện ngoài đời, do đó giúp ta tiếp cận các vấn đề một cách dễ dàng. Nói
cách khác lập trình hƣớng đối tƣợng chính là mô hình thu nhỏ của thế giới thực dƣới
góc độ nhìn nhận của con ngƣời.
Trọng tâm của lập trình hƣớng đối tƣợng là ở khái niệm về đối tƣợng (object)
chứ không phải là khái niệm chức năng. Tất cả mọi vật, hiện tƣợng tồn tại xung quanh
ta khi đƣa vào chƣơng trình đều đƣợc gọi chung là đối tƣợng. Ví dụ, ta có đối tƣợng
sinh viên, đối tƣợng sách khoa học, trong vấn đề sinh học đối tƣợng có thể là gene,
record, báo cáo khoa học …
Nhƣ đã nói trên, đối tƣợng chính là các sự vật hiện tƣợng thật trong cuộc sống, do
đó, nó có các đặc điểm, tính chất để phân biệt với các đối tƣợng khác và trong lập trình
hƣớng đối tƣợng nó đƣợc gọi là thuộc tính (attribute). Để làm rõ ta có thể có các ví dụ
về thuộc tính của một số đối tƣợng nhƣ sau:
Đối tƣợng Thuộc tính
* Sinh viên - họ tên
- lớp
- mã số sinh viên
PHẦN B: TỔNG QUAN – Cơ sở tin học – Lập trình hướng đối tượng
NGUYỄN KỲ TRUNG – LÊ THÀNH TRUNG
37
* Xe hơi - nhà sản xuất
- màu
- tốc độ tối đa
* Gene - tên gene
- số accession
- tác giả …
Thuận lợi của dùng đối tƣợng là ta có thể gắn kết thuộc tính với nhiệm vụ / chức
năng riêng (behavior) của đối tƣợng đó. Đây là khác biệt quan trọng giữa lập trình cấu
trúc (dữ liệu không gắn kết chặt chẽ với hành vi) và lập trình hƣớng đối tƣợng.
Đối tƣợng nào có thuộc tính nào thì chỉ thực hiện các hành vi phù hợp với thuộc
tính mà nó có. Những hành vi không phù hợp phải thuộc về một đối tƣợng nào khác
mà có thuộc tính phù hợp để thực hiện nhiệm vụ đó. Nhƣ sách chỉ dùng để đọc và xe
dùng để lái mà không thể làm ngƣợc lại nghĩa là ta chỉ có thể thực hiện “đọc sách lái
xe” chứ không thể “lái sách đọc xe”. Trong lập trình hƣớng đối tƣợng các chức năng,
nhiệm vụ này gọi là hàm.
Ví dụ:
Đối tƣợng Student có các hàm :
gotoSchool() // đi học
learn() // học bài
Thay vì xem mỗi sinh viên là một object điều này sẽ giúp ta dễ dàng xác định
chính xác đó là sinh viên nào và nó hoàn toàn độc lập với các object khác.
Tóm lại, lập trình hƣớng đối tƣợng đã bổ sung đƣợc những điều mà lập trình cấu
trúc còn hạn chế, nó giúp ta quản lý và tiếp tục phát triển chƣơng trình cho phù hợp
với các yêu cầu mới phát sinh một cách dễ dàng. Hơn thế nữa các nhà phát triển phần
mềm có thể hoàn toàn không biết về nhau nhƣng điều đó không hề gây khó khăn bởi
lập trình hƣớng đối tƣợng là mô hình thu nhỏ của thế giới và nó nhìn nhận cũng nhƣ
phân tích vấn đề xảy ra nhƣ bộ não con ngƣời. Vì thế muốn chƣơng trình của mình có
thể phù hợp và phát triển bền vững thì lập trình hƣớng đối tƣợng là chọn lựa tốt nhất
hiện nay.
PHẦN B: TỔNG QUAN – Cơ sở tin học – Lập trình hướng đối tượng
NGUYỄN KỲ TRUNG – LÊ THÀNH TRUNG
38
Ví dụ: Xác định chức năng f() của ký tự A trong sinh học
- Đối với lập trình cấu trúc
define f() {
if (A of DNA) then
f stabilize the structure of DNA
else if (A of RNA) then
f stabilize the structure of RNA
else # A of Protein
f stabilize the structure of Protein
}
- Đối với lập trình hƣớng đối tƣợng
Ta có 3 đối tƣợng DNA, RNA, và Protein. Ba đối tƣợng này có thể gọi chung là
một đại-phân-tử. Cho trƣớc một đại-phân-tử bất kỳ, muốn gọi thi hành một chức
năng f nào đó, ta không cần kiểm tra xem đó là DNA, RNA hay Protein. Ta chỉ cần gọi
đại-phân-tử.f() thì đối tƣợng đại-phân-tử sẽ cho ra kết quả phù hợp với bản chất của
nó.
đại-phân-tử.f()
Cách tiếp cận này sẽ trở nên đơn giản nếu chúng ta phải thực hiện nhiều hàm
khác nhau trên đối tƣợng đại-phân-tử, chẳng hạn g(), h(), … Khi đó, ta không
phải mất sức nhớ và kiểm tra xem đại-phân-tử đó là DNA, RNA, hay Protein. Điều
này giải phóng phần nào năng lực tƣ duy của ngƣời lập trình.
PHẦN B: TỔNG QUAN – Cơ sở tin học – Lập trình Perl
NGUYỄN KỲ TRUNG – LÊ THÀNH TRUNG
39
III.2. Ngôn ngữ lập trình Perl dùng trong Bioinformatics
III.2.1. Giới thiệu Perl
Perl (Pratical Extraction and Reporting Language) là ngôn ngữ đa năng, hữu
dụng. Perl đƣợc dùng xử lý các tập tin, CGI, …đặc biệt hỗ trợ rất mạnh trong việc xử
lý chuỗi.
Perl đƣợc đƣa vào sử dụng đầu tiên vào năm 1987 do Larry Wall. Tiếp theo đó là
các phiên bản 2.0, 3.0, 4.0, 5.0. Hiện nay phiên bản Perl mới nhất 5.8.
Perl có thể cài đƣợc trên các hệ điều hành khác nhau. Mỗi hệ điều hành khác
nhau sẽ có phiên bản Perl khác nhau. Trên hệ điều hành Windows ta dùng phiên bản
ActivePerl 5.6 (hay 5.8) cho Win.
Để soạn thảo ngôn ngữ Perl, ta có thể dùng các phần mềm soạn thảo nhƣ:
UltraEdit, Notepad, EditPlus, Perl Builder, …
Để chạy chƣơng trình Perl, ta dùng các dòng lệnh trên MS-DOS.
III.2.2 Thành phần cơ bản trong Perl
1. Kiểu dữ liệu vô hƣớng (Scalar data)
a. Kiểu số:
Ví dụ: 1, 109, 1.5e5….
b. Kiểu chuỗi:
Chuỗi là một loạt các ký tự liên tiếp từ bộ 256 ký tự ASCII có sẵn.
Ví dụ: „Đây là chuỗi trình tự DNA‟, hay ta có thể viết “Đây là chuỗi trình tự
DNA”. Chuỗi có thể đặt trong dấu „‟ hay “”.
c. Biến vô hƣớng:
Biến vô hƣớng dùng để lƣu giá trị dữ liệu vô hƣớng trong quá trình tính toán,
thực hiện chƣơng trình.
Biến vô hƣớng phải bắt đầu tên biến với ký tự “$”.
Sau ký tự “$” phải có ít nhất một mẫu tự, và mẫu tự bắt đầu không đƣợc
là ký tự số.
Tên biến có sự phân biệt giữa chữ hoa và chữ thƣờng.
Ví dụ: $a, $A, $DNA, $number2…
PHẦN B: TỔNG QUAN – Cơ sở tin học – Lập trình Perl
NGUYỄN KỲ TRUNG – LÊ THÀNH TRUNG
40
d. Các toán tử:
Toán tử tính toán cơ bản:
Toán tử Ý nghĩa Ví dụ
=
+
-
*
/
**
Gán
Cộng
Trừ
Nhân
Chia
Lũy thừa
$DNA=„actacacagt‟
2+3
5-6
4*2
10/5
5**3
Toán tử một ngôi:
Toán tử Ví dụ Ý nghĩa
+=
-=
*=
/=
++
--
$x += 5
$x -=5
$x *=5
$x /=5
$x++
$x--
$x = $x + 5
$x = $x – 5
$x = $x * 5
$x = $x / 5
Biến $x tự tăng một đơn vị
Biến $x tự giảm một đơn vị
Các toán tử so sánh: kết quả trả về là true hay false
Áp dụng
đối với số
Áp dụng
đối với chuỗi
Ý nghĩa
<
>
==
<=
>=
!=
lt
gt
eq
le
ge
ne
Nhỏ hơn
Lớn hơn
Bằng
Nhỏ hơn hoặc bằng
Lớn hơn hoặc bằng
Không bằng
Các toán tử luận lý
Toán tử Cách dùng tương đương
&&
||
^
!
and
or
xor
not
PHẦN B: TỔNG QUAN – Cơ sở tin học – Lập trình Perl
NGUYỄN KỲ TRUNG – LÊ THÀNH TRUNG
41
Một số toán tử thông dụng khác
Toán tử Chức năng
hoặc
chomp
chop
length
Nhập input từ bàn phím
Cắt bỏ ký tự newline ở cuối chuỗi
Cắt bỏ ký tự bất kỳ ở cuối chuỗi
Tính chiều dài của chuỗi
2. Các cấu trúc điều khiển
a. Câu lệnh điều kiện:
If:
If (biểu thức) {
Khối lệnh cần thực hiện;
}
Nếu biểu thức là đúng thì khối lệnh đƣợc thực hiện, nếu không khối lệnh đƣợc bỏ
qua.
If – else:
If (biểu thức) {
Khối lệnh 1 cần thực hiện;
} else {
Khối lệnh 2 cần thực hiện;
}
Nếu biểu thức là đúng thì khối lệnh 1 đƣợc thực hiện, nếu không khối lệnh hai
đƣợc thực hiện.
If – elsif - else:
If (biểu thức 1) {
Khối lệnh 1 cần thực hiện;
} elsif (biểu thức 2) {
Khối lệnh 2 cần thực hiện;
}.....
.
.
} else {
PHẦN B: TỔNG QUAN – Cơ sở tin học – Lập trình Perl
NGUYỄN KỲ TRUNG – LÊ THÀNH TRUNG
42
Khối lệnh cần thực hiện;
}
Nếu biểu thức 1 là đúng thì khối lệnh 1 đƣợc thực hiện, nếu không sẽ kiểm tra
biểu thức 2. Nếu biểu thức 2 đúng thì khối lệnh 2 đƣợc thực hiện…Nếu không biểu
thức nào đƣợc thỏa mãn, khối lệnh trong biểu thức else đƣợc thực hiện.
Unless:
unless (biểu thức) {
Khối lệnh cần thực hiện;
}
Nếu biểu thức sai thì khối lệnh sẽ đƣợc thực hiện.
Unless - else:
unless (biểu thức) {
Khối lệnh 1 cần thực hiện;
} else {
Khối lệnh 2 cần thực hiện;
}
Nếu biểu thức là sai thì khối lệnh thứ 1 sẽ đƣợc thực hiện, nếu không thì khối
lệnh 2 đƣợc thực hiện.
b. Vòng lặp “while”:
while (biểu thức) {
Khối lệnh cần thực hiện;
}
Đầu tiên, biểu thức sẽ đƣợc kiểm tra. Nếu biểu thức là đúng thì khối lệnh sẽ đƣợc
thực hiện. Việc thực hiện khối lệnh sẽ đƣợc lặp đi lặp lại và sẽ dừng lại khi biểu thức
sai. Khối lệnh có thể sẽ không thực hiện lần nào nêu biểu thức sai ngay từ đầu.
do {
Khối lệnh cần thực hiện;
}while (biểu thức);
Đầu tiên sẽ thực hiện khối lệnh cho dù biểu thức là đúng hay sai. Sau đó, biểu
thức sẽ đƣợc kiểm tra, nếu đúng thì sẽ lặp lại khối lệnh. Vòng lặp sẽ dừng khi biểu
thức là sai.
PHẦN B: TỔNG QUAN – Cơ sở tin học – Lập trình Perl
NGUYỄN KỲ TRUNG – LÊ THÀNH TRUNG
43
c. Vòng lặp “for”:
Vòng lặp for thƣờng dùng để xác định số lần mà khối lệnh muốn thực hiện
for (biểu thức 1; biểu thức điều kiện; biểu thức 2){
khối lệnh cần thực hiện;
}
Vòng lặp sẽ dừng lại khi “biểu thức điều kiện” là sai.
3. Mảng và Bảng băm (Array and Hash)
3.1 Mảng
a) Giới thiệu:
Biến mảng giống nhƣ biến vô hƣớng, nó đƣợc tạo ra để lƣu dữ liệu. Tuy nhiên dữ
liệu là một danh sách (list) (danh sách là một nhóm dữ liệu vô hƣớng đƣợc sắp xếp
theo thứ tự).
Mở đầu biến mảng là ký tự “@”, và các quy tắc đặt tên cho biến mảng cũng
tƣơng tự nhƣ đặt tên cho biến vô hƣớng.
Ví dụ:
@a;
@a = (1, 2, 3, $x, $y);
Các phần tử của mảng đƣợc đánh số từ 0, nhƣ mảng trên 1 ở vị trí 0, 2 là vị trí
1…
Truy cập đến một phần tử trong mảng: $a[0] truy cập đến phần tử thứ 0,
$a[1] truy cập đến phần tử thứ 1 của mảng.
Nhập phần tử vào mảng từ bàn phím: @array = ;
b) Một số hàm thao tác trên mảng:
Tìm chiều dài mảng:
$chieudai = scalar (@a);
Hoặc $chieudai = ($#a +1);
Tìm chỉ số phần tử cuối cùng của mảng:
$chisophantucuoi = $#a;
Hàm sort, sắp xếp thứ tự:
@b = sort (@a);
PHẦN B: TỔNG QUAN – Cơ sở tin học – Lập trình Perl
NGUYỄN KỲ TRUNG – LÊ THÀNH TRUNG
44
Hàm này sắp xếp thứ tự các phần tử trong mảng theo thứ tự bảng mã ASCII,
không sắp xếp theo thứ tự số.
Hàm push, thêm phần tử mới vào mảng:
push (@a, $new_element);
Phần tử mới đƣợc thêm vào vị trí cuối cùng.
Hàm pop, lấy đi phần tử cuối cùng:
$x = pop (@a);
Sau dòng lệnh này, mảng @a sẽ mất đi phần tử cuối cùng sẽ đƣợc gán vào biến
$x.
Hàm unshift, thêm phần tử mới vào đầu mảng:
unshif (@a, „new_element‟);
Phần tử new_element đƣợc thêm vào đầu mảng.
Hàm shift, lấy đi phần tử đầu tiên của mảng:
$x = shift (@a);
Sau dòng lệnh này, mảng @a sẽ mất đi phần tử đầu tiên của mảng và phần tử này
đƣợc gán tới biến $x.
Hàm reverse, đảo ngƣợc các phần tử trong mảng:
@b = reverse (@a);
Hàm join, nối các phần tử trong mảng thành một chuỗi:
$string = join (“separator”, @a);
Separator là ký tự hay chuỗi ký tự phân cách giữa hai phần tử mảng.
Hàm split, tách một chuỗi thành một bảng các phần tử:
@a = split (“separator”, $string);
c) Mảng con:
Mảng con chỉ chứa một số phần tử trong mảng cho trƣớc
@a = (a, b, c, d, e, f);
@b = @a[1..3]; mảng @b chứa các phần tử thứ 1, 2, 3 trong mảng @a, cụ
thể là các phần tử b, c, d.
@c = @a[1,4,5]; mảng @c chứa các phần tử thứ 1, 4, 5 trong mảng @a, cụ
thể là các phần tử b, e, f.
a. Vòng lặp dành cho mảng:
Vòng lặp foreach đƣợc áp dụng cho mảng.
PHẦN B: TỔNG QUAN – Cơ sở tin học – Lập trình Perl
NGUYỄN KỲ TRUNG – LÊ THÀNH TRUNG
45
foreach $a (@array) {
khối lệnh cần thực hiện;
}
Các phần tử trong mảng lần lƣợt đƣợc gán cho biến $a qua mỗi vòng lặp. Biến $a
chỉ có hiệu lực cục bộ trong vòng lặp foreach.
3.2 Bảng băm (Hash)
a) Giới thiệu:
Hash là một loại biến dùng để lƣu trữ danh sách dữ liệu vô hƣớng tƣơng tự nhƣ
mảng. Tuy nhiên, các phần tử trong mảng đƣợc chỉ mục (index) tự động còn trong
Hash thì không đƣợc tạo chỉ mục một cách tự động. Các phần tử trong Hash đi thành
từng cặp key/ value, trong đó phần tử key dùng làm chỉ mục cho phần tử value.
Mở đầu biến hash là ký tự “%” và qui tắc đặt tên cho hash tƣơng tự nhƣ mảng.
Có hai cách khai báo:
%hash = (key1, value1, key2, value2, key3,
value3);
%hash = ( key1 => value 1,
key2 => value 2,
key3 => value 3);
Truy cập một phần tử của hash:
$a = $hash {$key};
Thêm phần tử mới vào hash:
$hash{$key} = $value; cặp giá trị key/ value đƣợc thêm vào hash.
b) Một số hàm thao tác trên hash:
Hàm delete, xóa phần tử trong hash:
delete $hash{$key}; xóa cặp giá trị key/value tƣơng ứng với nhau.
Hàm keys, trích các keys và lƣu các keys này vào mảng:
@keys = keys (%hash);
Hàm values, trích các values và lƣu các values này vào mảng:
@values = values (%hash);
PHẦN B: TỔNG QUAN – Cơ sở tin học – Lập trình Perl
NGUYỄN KỲ TRUNG – LÊ THÀNH TRUNG
46
4. Thao tác với tập tin
a) Mở tập tin:
Cú pháp:
Open (Filehandle, “đường dẫn đến tập tin cần mở”)
or die (“Không mở được tập tin”);
FileHandle sẽ là tham chiếu đến tập tin cần mở suốt chƣơng trình. Nếu không mở
đƣợc tập tin với lý do nào đó, hàm die đƣợc thực thi và chƣơng trình bị ngắt.
Khi mở một tập tin, chúng ta có thể mở ở ba chế độ khác nhau: đọc (read), viết
(write), chèn (append). Một tập tin đƣợc mở thì mặc định trong chế độ đọc.
Mở tập tin trong chế độ viết (write), ta thêm dấu “>”trƣớc đƣờng dẫn. Chú ý khi
mở tập tin trong chế độ Write thì nội dung của toàn bộ tập tin sẽ bị xóa và nội dung
mới sẽ đƣợc ghi thêm vào, nếu không đƣợc thêm vào tập tin sẽ là rỗng.
Cú pháp:
Open (FileHandle, “>đường dẫn tới tập tin cần
ghi”) or die (“Không thể mở tập tin”);
Mở tập tin trong chế độ chèn (append) ta thêm dấu “>>” vào trƣớc đƣờng dẫn.
Khi mở tập tin trong chế độ này ta có thể thêm nội dung vào tập tin.
Mở tập tin để đọc và thêm nội dung vào (read/write) ta thêm dấu “+<” vào trƣớc
đƣờng dẫn.
Tạo một tập tin mới có thể đọc và viết vào ta thêm dấu +> vào trƣớc đƣờng dẫn.
b) Đóng tập tin:
Cú pháp:
close (FileHandle);
c) Đọc tập tin:
Sau lệnh mở tập tin, nội dung của tập tin có thể đƣợc đọc nhƣ sau:
Open (THU, “D:/Perl/thu.txt”) or die (“Không mở
được tập tin”);
$thu = ;
print “dòng đầu tiên của tập tin là: $thu”;
PHẦN B: TỔNG QUAN – Cơ sở tin học – Lập trình Perl
NGUYỄN KỲ TRUNG – LÊ THÀNH TRUNG
47
Nếu tập tin thu.txt có nhiều dòng, mỗi dòng trong tập tin thu.txt tƣơng ứng với
một phần tử
Các file đính kèm theo tài liệu này:
- LUAN VAN TOT NGHIEP HOAN CHINH.pdf