Tài liệu Dự đoán mối quan hệ giữa mirnas và bệnh bằng phương pháp RWRS - Nguyễn Đình Hùng: JOURNAL OF SCIENCE OF HNUE DOI: 10.18173/2354-1075.2015-0048
Educational Sci., 2015, Vol. 60, No. 7A, pp. 10-20
This paper is available online at
DỰ ĐOÁNMỐI QUAN HỆ GIỮAMIRNAs VÀ BỆNH
BẰNG PHƯƠNG PHÁP RWRs
Nguyễn Đình Hùng1, Trương Thị Tiến2, Trần Đăng Hưng3
1Công ty FPT Information System
2Trường Trung học phổ thông Chuyên Sơn La
3Khoa Công nghệ Thông tin, Trường Đại học Sư phạm Hà Nội
Tóm tắt.MicroRNAs (miRNAs) là một loại non-coding RNAs có vai trò đặc biệt đối với
quá trình biểu hiện gen. miRNAs không trực tiếp sản sinh ra các protein mà ngược lại có
vai trò gây ức chế một số gen. Các nghiên cứu thực nghiệm gần đây cho thấy vai trò của
miRNAs trong một số mẫu bệnh. Vì vậy việc nghiên cứu và dự đoán mối quan hệ giữa các
miRNAs và bệnh sẽ cho chúng ta hiểu thêm về cơ chế gây bệnh của một số gen. Trong
bài báo này, chúng tôi sử dụng phương pháp RWRs để tích hợp thông tin từ mạng tương tự
chức năng của các miRNAs và mạng quan hệ miRNA và bệnh để dự đoán các mối quan hệ
...
11 trang |
Chia sẻ: quangot475 | Lượt xem: 420 | Lượt tải: 0
Bạn đang xem nội dung tài liệu Dự đoán mối quan hệ giữa mirnas và bệnh bằng phương pháp RWRS - Nguyễn Đình Hùng, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
JOURNAL OF SCIENCE OF HNUE DOI: 10.18173/2354-1075.2015-0048
Educational Sci., 2015, Vol. 60, No. 7A, pp. 10-20
This paper is available online at
DỰ ĐOÁNMỐI QUAN HỆ GIỮAMIRNAs VÀ BỆNH
BẰNG PHƯƠNG PHÁP RWRs
Nguyễn Đình Hùng1, Trương Thị Tiến2, Trần Đăng Hưng3
1Công ty FPT Information System
2Trường Trung học phổ thông Chuyên Sơn La
3Khoa Công nghệ Thông tin, Trường Đại học Sư phạm Hà Nội
Tóm tắt.MicroRNAs (miRNAs) là một loại non-coding RNAs có vai trò đặc biệt đối với
quá trình biểu hiện gen. miRNAs không trực tiếp sản sinh ra các protein mà ngược lại có
vai trò gây ức chế một số gen. Các nghiên cứu thực nghiệm gần đây cho thấy vai trò của
miRNAs trong một số mẫu bệnh. Vì vậy việc nghiên cứu và dự đoán mối quan hệ giữa các
miRNAs và bệnh sẽ cho chúng ta hiểu thêm về cơ chế gây bệnh của một số gen. Trong
bài báo này, chúng tôi sử dụng phương pháp RWRs để tích hợp thông tin từ mạng tương tự
chức năng của các miRNAs và mạng quan hệ miRNA và bệnh để dự đoán các mối quan hệ
mới giữa miRNAs và bệnh..
Từ khóa:MicroRNA, RandomWalk with Restarts.
1. Mở đầu
MicroRNA là một non-coding RNA có chiều dài khoảng 22 nucleotide, thường có chức
năng ức chế biểu hiện của của một số gen. Gần đây, nhiều nghiên cứu đã xác định miRNA là một
trong những thành phần quan trọng trong tế bào và đóng vai trò chủ chốt trong nhiều quá trình
sinh học cơ bản khác nhau [1]. Do vậy, sự thay đổi chức năng miRNA có liên quan đến nhiều loại
bệnh khác nhau [4, 5]. Việc tìm kiếm mỗi quan hệ giữa các miRNA và các bệnh trên diện rộng đã
trở thành một đích quan trọng trong nghiên cứu y sinh, qua đó thúc đẩy hiểu biết về các bệnh ở
mức phân tử và mang lại lợi ích trong việc tiên lượng, chẩn đoán, đánh giá, điều trị và ngăn ngừa
bệnh ở người [8, 10, 12]. Tuy nhiên, hiểu biết hiện tại về mối quan hệ giữa các miRNA với bệnh là
tương đối hạn chế. Việc xác định bằng thực nghiệm đối với các bệnh liên quan đến miRNA thông
qua những kĩ thuật sinh học đã có là đắt đỏ và tốn thời gian [10, 11]. Tuy nhiên, với lượng lớn
dữ liệu sinh học về các miRNA được tạo ra, chúng ta có thể xây dựng các phương pháp tính toán
mạnh mà có thể phát hiện ra những mối quan hệ tiềm năng giữa miRNA và bệnh.
Một số phương pháp tính toán để dự đoán các miRNA có liên quan đến bệnh đã được đề
xuất. Lu et al. [7] đã phân tích dữ liệu về mối quan hệ giữa miRNA và bệnh và đã đề xuất nhiều
mẫu quan hệ giữa các miRNA với các bệnh của người. Qua đó đã đặt một nền tảng mới cho các
nghiên cứu về các miRNA có liên quan tới bệnh và đã mang lại sự hỗ trợ cho các nghiên cứu về
các bệnh ở mức miRNA. Dựa trên giả định rằng các bệnh tương tự nhau về kiểu hình có xu hướng
có mối quan hệ với các miRNA có liên quan về chức năng được đề xuất bởi Lu et al., Zhang et al.
Ngày nhận bài: 20/7/2015. Ngày nhận đăng: 8/11/2015.
Liên hệ: Trần Đăng Hưng, e-mail: hungtd@hnue.edu.vn
10
Dự đoán mối quan hệ giữa MIRNAs và bệnh bằng phương pháp RWRs
đã xây dựng phương pháp dự đoán tập hợp các bệnh liên quan đến miRNA đầu tiên. Phương pháp
này xác định miRNA tiềm năng có liên quan đến bệnh tim mạch bằng cách tích hợp thông tin từ
tập miRNA đã biết và Gene Ontology. Tuy nhiên, thực tế là việc phương pháp này dựa nhiều vào
tập miRNA đã hạn chế tính ứng dụng của nó. Jiang et al. [2] đã xây dựng một phương pháp tính
toán dựa trên phân bố siêu bội (hypergeometric distribution) để xác định các miRNA liên quan
đến bệnh bằng cách tích hợp mạng tương tác chức năng miRNA, mạng bệnh tương tự và mạng
miRNA đã biết, trong đó có tập mối quan hệ giữa miRNA với bệnh đã được kiểm chứng qua thực
nghiệm lấy từ cơ sở dữ liệu miR2Disease. Mặc dù vậy mạng chức năng miRNA được xây dựng chỉ
có thông tin về các láng giềng gần của mỗi miRNA được sử dụng trong việc tính trọng số quan hệ.
Việc tận dụng đầy đủ thông tin tương tự trong mạng toàn cục sẽ cải thiện độ chính xác của thuật
toán này. Jiang et al. [3] đã đề xuất thêm một cách tiếp cận cho việc xếp hạng các miRNA ứng
viên dựa trên dữ liệu gen tích hợp bởi mô hình Naive Bayes. Cách tiếp cận này dựa nhiều vào tập
dữ liệu giữa gen và bệnh và các tương tác giữa các gen bị tác động của miRNA.
Các phương pháp đã được đề cập ở trên cho tập quan hệ giữa miRNA và bệnh có nhiều hạn
chế. Do vậy, rất cần đề xuất các phương pháp tính toán mới, có thể tích hợp được nhiều loại thông
tin và cho kết quả dự đoán cao hơn. Trong bài báo này, chúng tôi xem xét một giả thuyết sử dụng
độ đo tương tự trên mạng toàn cục trong việc xác định những quan hệ giữa các miRNA và các
bệnh. Dựa trên độ đo tương tự trên mạng toàn cục và giả định rằng các miRNA có liên quan về
mặt chức năng có xu hướng liên quan đến các bệnh tương tự về kiểu hình. Phương pháp của chúng
tôi được chia làm 3 bước, đầu tiên chúng tôi tích hợp thông tin từ các nguồn dữ liệu sinh học để
xây dựng một mạng tương tự chức năng giữa các miRNAs. Sau đó sử dụng phương pháp RWRs
(bước đi ngẫu nhiên trên mạng có quay trở lại) để tính toán sự ảnh hưởng của các nút láng giềng
lên từng nút trong mạng. Phương pháp RWRs đã được áp dụng một cách rộng rãi trong nhiều bài
toán Tin-sinh học. Sử dụng việc đánh giá bằng phương pháp thẩm tra chéo trên tập dữ liệu đã biết,
chúng tôi thấy phương pháp đề xuất cho kết quả dự đoán tốt hơn so với những phương pháp tiên
lượng trước đó dựa trên độ đo tương tự trong mạng cục bộ.
2. Nội dung nghiên cứu
Để giải quyết bài toán ở trên chúng tôi tích hợp hai mạng: là mạng quan hệ giữa miRNA và
bệnh (MDAN - miRNA Disease Association Network) và mạng tương tự về chức năng giữa các
miRNAs (MFSN – miRNA Function Similarity Network), sau đó áp dụng phương pháp RWRs để
thực hiện việc xếp hạng các miRNA có mối quan hệ đến các bệnh.
2.1. Mạng quan hệ giữa miRNA và bệnh
Dữ liệu về mối quan hệ giữa miRNA và bệnh được lấy từ cơ sở dữ liệu HMDD. Sau đó dữ
liệu trên sẽ được xử lí như gom nhóm, ví dụ, những bản sao miRNA khác nhau mà tạo ra cùng
một một miRNA trưởng thành (mature miRNA) (như hsa-let-7a-1, hsa-let-7a-2, hsa-let-7a-3) được
gom lại thành một nhóm (hsa-let-7a); xử lí đồng nhất tên của các miRNA trưởng thành thành một
gen miRNA và thống nhất tên bệnh sử dụng thuật ngữ bệnh từ cơ sở dữ liệu MeSH. Dữ liệu sau xử
lí gồm có 1395 mối quan hệ của miRNA và bệnh trong đó có 271 miRNA và 137 bệnh.
Dữ liệu trên sẽ được sử dụng để đánh giá độ chính xác của dự đoán và được dùng để xác
định các miRNA được dùng làm seed (hạt nhân) trong phương pháp RWRs. Việc sử dụng phiên
bản cũ của cơ sở dữ liệu HMDD thay vì phiên bản mới là do ta có thể đánh giá mô hình dự đoán
bằng dữ liệu về các mối quan hệ ở phiên bản mới hơn của cơ sở dữ liệu HMDD.
Từ dữ liệu về quan hệ giữa miRNA và bệnh, mạng quan hệ giữa miRNA và bệnh MDAN
được xây dựng. Mạng này gồm có tập đỉnhM = {m1,m2, ...,mn} đại diện cho tập gồm nmiRNA
và tập đỉnhD = {d1, d2, ..., dk} đại diện cho tập gồm k bệnh. Các đỉnhmi và dj được liên kết bởi
11
Nguyễn Đình Hùng, Trương Thị Tiến, Trần Đăng Hưng
một cạnh trong mạng MDAN nếu miRNA i có mối quan hệ với bệnh j trong tập dữ liệu quan hệ
với trọng số của cạnh được đặt là 1. Thực tế, mạng quan hệ giữa miRNA và bệnh MDAN là một
đồ thị hai phía chứa hai tập đỉnh tương ứng là miRNA và bệnh. Liên kết giữa hai tập đỉnh trên ở
những miRNA và bệnh có quan hệ với nhau.
2.2. Mạng tương tự về chức năng của miRNA
Mạng tương tự về chức năng MFSN (MiRNA Functional Similarity Network) của miRNA
biểu diễn độ tương tự về chức năng giữa các miRNA thông qua các trọng số (score) tương tự chức
năng giữa chúng, trong đó, các trọng số cho mỗi cặp miRNA được tính toán dựa trên quan sát rằng
các gen có độ tương tự về chức năng thường có quan hệ với các bệnh tương tự nhau.
Ma trận tương tự về chức năng được kí hiệu là S trong đó phần tử S(i, j) của ma trận ở
dòng i và cột j biểu thị tỉ số tương tự về chức năng giữa miRNA i và j. Các thức xây dựng ma trận
tương tự về chức năng sẽ được đề cập ở phần dưới.
Dựa trên ma trận tương tự về chức năng, mạng tương tự về chức năng MFSN được xây dựng
trong đó tập đỉnh M = {m1,m2, ...,mn} biểu diễn tập gồm n miRNA. Giữa hai đỉnh mi và mj
được kết nối với nhau bằng một cạnh trong mạng nếu mối tỉ số tương tự về chức năng giữa miRNA
i và j lớn hơn một ngưỡng nhất định, ở đây là lớn hơn ngưỡng 0. Trọng số về độ tương tự về chức
năng cũng được dùng làm trọng số cho cạnh trên đồ thị MFSN.
2.3. Xây dựng mạng tương tự chức năng MFSN của miRNA
Ta biết rằng các gen có chức năng tương tự thường có quan hệ với các bệnh tương tự nhau, và
mối quan hệ giữa các bệnh có thể biểu diễn bằng đồ thị có hướng không chu trình DAG (Directed
Acyclic Graph). Điều này cũng đúng cho các gen miRNA. Do đó, việc suy luận độ tương tự về
chức năng của các miRNA bằng cách đo độ tương tự của đồ thị có hướng không chu trình DAG
của các bệnh có mối quan hệ với miRNA là khả thi.
Hình 1. Các bước chính trong phương pháp
tính độ tương tự giữa hai miRNA
Dựa trên những quan sát ở trên cùng dữ
liệu về mối quan hệ giữa miRNA và bệnh được
thu thập được một cách nhanh chóng, mối quan hệ
giữa các bệnh của chúng, một phương pháp để suy
luận độ tương tự về chức năng theo cặp (pairwise).
Phương pháp này dựa trên dữ liệu về mối quan hệ
giữa miRNA và bệnh cùng với đồ thị DAG để đo
lường độ tương tự giữa chức năng của miRNA và
hơn nữa để xây dựng mạng tương tự chức năng
MFSN của miRNA dựa trên độ tương tự về chức
năng đã được tính toán. Các bước chính để đo độ
tương tự về chức năng giữa hai miRNA (ví dụ MA
và MB):
- Bước 1: Các bệnh có mối quan hệ với 2
miRNA này được xác định, kí hiệu là DA, DB.
- Bước 2: Giá trị ý nghĩa của các bệnh được
tính toán dựa trên đồ thị DAG đối với bệnh tương
ứng.
- Bước 3: Độ tương tự về ý nghĩa của cặp
bệnh DA và DB được tính toán dựa trên giá trị ý
nghĩa có được ở bước 2.
12
Dự đoán mối quan hệ giữa MIRNAs và bệnh bằng phương pháp RWRs
- Bước 4: Độ tương tự về chức năng giữa MA và MB được tính toán dựa trên dộ tương tự về
ý nghĩa của DA và DB.
Trước khi xét cụ thể các bước chính trong phương pháp tính toán độ tương tự giữa hai
miRNA, chúng ta cần tìm hiểu về cấu trúc của đồ thị DAG và dữ liệu về mối quan hệ giữa miRNA
và bệnh.
Cấu trúc đồ thị có hướng không chu trình DAG của bệnh:
Mối quan hệ giữa các bệnh mô tả dưới dạng đồ thị có hướng không chu trình DAG thể hiện
trong mô tả MeSH được tải từ cơ sở dữ liệu quốc gia Hoa Kỳ về y học (
Mô tả MeSH được sắp xếp vào 16 nhóm danh mục: Danh mục A dành cho các thuật ngữ về giải
phẫu học (Anatomy), danh mục B dành cho các thuật ngữ về vi sinh vật (Organisms), danh mục
C là các thuật ngữ về bệnh (Diseases), danh mục D là các thuật ngữ về thuốc và các hóa chất
(Chemicals and Drugs)... Ở đây ta quan tâm đến danh mục C là các thuật ngữ về bệnh.
Cơ sở dữ liệu MeSH cung cấp một hệ thống chặt chẽ cho việc phân loại bệnh và có thể có
ích cho nghiên cứu về mối quan hệ của các bệnh. Nó có thể được mô tả như là một đồ thị DAG với
các nút đại diện cho các bệnh và các liên kết biểu diễn mối quan hệ giữa các nút. Có duy nhất một
loại quan hệ là quan hệ ‘is –a’ dùng trong kết nối giữa nút con tới nút cha. Mỗi bệnh có một hoặc
nhiều hơn một địa chỉ trong đồ thị DAG dưới dạng các mã, để định nghĩa về mặt số lượng vị trí của
nó trong đồ thị MeSH. Các mã của một nút con được định nghĩa bằng mã của nút cha cộng thêm
địa chỉ của nút con. Hình 2 dưới đây minh họa mô tả MeSH cho bệnh u ngực (Breast Neoplasms).
Hình 2: Mô tả MeSH cho bệnh u ngực
Ở hình trên là một đồ thị có hướng không có chu trình DAG cho bệnh u ngực với các địa
chỉ có thể có là C04.588.180 và C17.800.090.500 xác định hai nút cha tương ứng của bệnh này là
C04.588 và C17.800.090. Dữ liệu về mối quan hệ giữa miRNA và bệnh: Dữ liệu về mối quan hệ
giữa các bệnh được lấy từ cơ sở dữ liệu HMDD.
Giá trị ý nghĩa của một bệnh:
Một bệnh A có thể được biểu diễn là một đồ thị, DAGA = (A,TA, EA), với TA là tập tất
cả các nút cha của A tính cả nút A, EA là tập các liên kết tương ứng. Gọi mức đóng góp của một
bệnh t trong đồ thị DAGA đối với ý nghĩa của bệnh A là DA (t) được tính theo công thức:
DA(t) =
{
1 if t = A
max{∆ ∗DA(t′)|t′ ∈ children of t}if t 6= A (2.1)
Với∆ là yếu tố đóng góp ý nghĩa cho các cạnh (EA) liên kết bệnh t với bệnh con t’ của nó.
Với giả sử là các nút cha càng xa nút A thì sẽ có mức đóng góp vào giá trị ý nghĩa của bệnh A
13
Nguyễn Đình Hùng, Trương Thị Tiến, Trần Đăng Hưng
càng nhỏ, giá trị ∆ được lấy trong khoảng từ 0 đến 1 để giảm mức đóng góp của các nút xa nút
A. Trong đồ thị DAG của bệnh A, bệnh A là bệnh cụ thể nhất và do vậy chúng ta định nghĩa mức
đóng góp của nó chính là giá trị ý nghĩa của nó và có giá trị là 1.
Như ở Hình 2, chúng ta có thể xác định các mức đóng góp ý nghĩa của các bệnh đối với
bệnh u ngực (Breast Neoplasms) C04.588.180;C17.800.090.500 như sau (với ∆ lấy giá trị 0.5):
- Mức đóng góp của bệnh u ngực với chính nó là: 1.
- Mức đóng góp của C17.800.090 là: 0.5 × 1 = 0.5.
- Mức đóng góp của C17.800 là: 0.5 × 0.5 = 0.25.
- Mức đóng góp của C17 là: 0.5 × 0.25 = 0.125.
- Mức đóng góp của C04.588 là: 0.5 × 1 = 0.5.
- Mức đóng góp của C04 là: 0.5 × 0.5 = 0.25.
Giá trị ý nghĩa cho bệnh A,DV (A) được tính theo công thức sau:
DV(A) =
∑
t∈TA
DA(t) (2.2)
Theo như công thức trên giá trị ý nghĩa của bệnh A là:
1.0 + 0.5 + 0.25 + 0.125 + 0.5 + 0.25 = 2.625
Độ tương tự giữa hai bệnh:
Với giả sử rằng các bệnh có lượng lớn điểm chung trên các đồ thị DAG thì có xu hướng có
độ tương tự cao hơn. Độ tương tự giữa hai bệnh được định nghĩa như sau:
S(A,B) =
∑
t∈TA∩TB
(DA(t) +DB(t))
DV(A) +DV (B)
(2.3)
Với DA(t) là giá trị ý nghĩa của bệnh t liên quan đến bệnh A và DB(t) là giá trị ý nghĩa
của bệnh t liên quan tới bệnh B.
Độ tương tự về chức năng của miRNA:
Kí hiệu ‘dt’ biểu diễn một bệnh và ‘DT’ để biểu diễn một nhóm bệnh. Độ tương tự giữa
dt và DT, kí hiệu S(dt, DT) độ tương tự tối đa giữa một bệnh và một nhóm bệnh, ví dụ DT =
{dt1, dt2, ..., dtk} được tính theo công thức:
S(dt,DT ) = max
1≤i≤k
(S(dt, dti)) (2.4)
Giả sử rằng DT1 biểu diễn các bệnh có liên quan (là một nhóm các bệnh) đến miRNA M1
và DT2 biểu diễn các bệnh có liên quan đến miRNAM2 (một nhóm các bệnh khác). DT1 chứa m
bệnh và DT2 chứa n bệnh. Để xác định độ tương tự về chức năng của hai miRNA cần phải xem
xét tất cả các bệnh DT1 và DT2. Độ tương tự của hai miRNA được định nghĩa như sau:
MISIM(M1,M2) =
∑
1≤i≤m
S(d1i,DT2) +
∑
1≤j≤n
S(dt2j ,DT1)
m+ n
(2.5)
Tập bệnh DT1 và DT2 có thể xác định dựa trên tập dữ liệu quan hệ giữa miRNA và bệnh.
Xây dựng mạng tương tự về chức năng MFSN của miRNA:
14
Dự đoán mối quan hệ giữa MIRNAs và bệnh bằng phương pháp RWRs
Với một danh sách gồm các miRNA và một ngưỡng cho trước (ví dụ, 0.7). Cặp miRNA với
hệ số tương tự về chức năng lớn hơn hoặc bằng ngưỡng này sẽ được kết nối với nhau thông qua
một liên kết trực tiếp, ngược lại, chúng không được kết nối trực tiếp. Xét quan hệ này cho mọi cặp
miRNA trong danh sách miRNA chúng ta sẽ xây dựng được một mạng chức năng MFSN.
2.4. Phương pháp RWRs (RandomWalk with Restarts)
Thông qua việc sử dụng dữ liệu mạng tương tác chức năng kế thừa từ các nguồn khác nhau
về thông tin sinh học tế bào, Matteo Re và Giorgio Valentini đã chỉ ra rằng thuật toán RWRs có
khả năng xếp hạng gen một cách chính xác. Cụ thể, thuật toán RWRs thông qua việc khai thác
topo mạng toàn cục của mạng tương tác chức năng và các kết nối cục bộ về chức năng giữa các
gen tương đối gần với các gen đã đạt được các kết quả tốt hơn so với các phương pháp khác. Điều
này cho thấy phương pháp RWRs có thể được áp dụng để khám phá các gen mới có liên quan đến
các quá trình sinh học tiềm ẩn bên trong các bệnh di truyền.
RWRs là phương pháp thực hiện việc xếp hạng các gen thông qua việc di chuyển ngẫu nhiên
trong mạng tương tự về chức năng để xếp hạng các gen có liên quan đến một bệnh cụ thể đang
được xét đến. RWRs sử dụng đồ thị trọng số vô hướng G = (V,E), trong đó các nút i, j ∈ V
tương ứng với các gen, với |V | = n, và các cạnh (i, j) ∈ E được đánh trọng số tương ứng với ma
trận trọng số W với các phần tử wij là trọng số của các cạnh (i, j) thể hiện “độ mạnh” của tương
tác về chức năng giữa gen i và j. Một Random Walk (RW ) trên đồ thị G(V,E) là chuỗi Markov
có thể khôi phục ngược với ma trận chuyển đổi trạng thái Q, với các phần tử qij thỏa mãn ràng
buộc về xác xuất ∑
j
qij = 1 : qij = wij/
∑
k
wik (2.6)
Trong ngữ cảnh xếp hạng gen liên quan đến các gen trong mô-đun gen gây ung thư, các
thuật toán RW khai thác và khám phá topo của mạng chức năng, bắt đầu và di chuyển quanh tập
gen con VM ⊂ V thuộc về mô-đun gen gây ung thư cụ thể M bằng việc sử dụng ma trận xác suất
chuyển đổi Q = D− 1W , trong đóD là ma trận đường chéo với các phần tử nằm trên đường chéo
dii =
∑
j wij . Phần tử qij thuộc Q biểu diễn xác suất của bước nhảy ngẫu nhiên từ i đến j. Xác
suất khởi tạo của những gen thuộc về mô đun M được đặt là po = 1/ |VM | đối với gen i ∈ VM và
po = 0 với những gen i thuộc V VM . Nếu p biểu diễn vec-tơ xác suất khi di chuyển đến nút i ∈ V
ở bước thứ t thì vectơ xác suất ở bước t+ 1 là:
pt+1 = (1− θ)QTpt + θpo (2.7)
Ở mỗi bước từ một nút ta có thể di chuyển đến nút láng giềng của nó hoặc có thể bắt đầu
lại từ điều kiện ban đầu của với xác suất là θ. Khi RWRs ở trạng thái ổn định chúng ta có thể xếp
hạng vectơ p để sắp xếp thứ tự ưu tiên các gen theo khả năng thuộc về mô đun gen gây bệnh ung
thư CM mà đang được nghiên cứu.
2.5. Sử dụng phương pháp RWRs vào bài toán đự đoán quan hệ
Dựa trên quan sát rằng các miRNA có liên quan với nhau về mặt chức năng thường có quan
hệ với cách bệnh tương tự về kiểu hình, phương pháp RWRs được áp dụng để xác định các mối
quan hệ tiềm năng giữa miRNA và bệnh của con người. Phương pháp này mô phỏng việc di chuyển
một cách ngẫu nhiên từ một nút tới các nút láng giềng của nó trong mạng tương tự về chức năng
MFSN. Việc di chuyển bắt đầu từ các nút nhân (seed) là các miRNA có mối quan hệ với bệnh đã
biết trước. Phương pháp RWRs thực hiện qua các bước như sau:
- Bước 1: Xác định xác suất khởi đầu cho mỗi miRNA
15
Nguyễn Đình Hùng, Trương Thị Tiến, Trần Đăng Hưng
- Bước 2: Thực hiện việc di chuyển ngẫu nhiên (random walk) trên mạng MFSN.
- Bước 3: Từ xác suất ổn định (sau khi hội tụ), thực hiện xếp hạng các miRNA.
Hình vẽ dưới đây minh họa phương pháp RWRs cho bài toán dự đoán mối quan hệ giữa
miRNAs và bệnh:
Hình 3: Phương pháp đề xuất
Tại bước 1, ta thực hiện việc xác định xác suất khởi đầu cho các miRNA thông qua véc-tơ
xác suất khởi đầu p(0). Đầu tiên, ta thực hiện xác định các miRNA có liên quan đến bệnh cụ thể
mà ta đang quan tâm, các miRNA đó sẽ được dùng làm seed. Việc này thực hiện thông qua dữ liệu
về quan hệ giữa miRNA và bệnh được đề cập tại mục 2.2. Giá trị xác suất tương ứng với các seed
trong véc-tơ p(0) có giá trị
1
n
trong đó n là tổng số miRNA dùng làm seed. Các miRNA không
phải là seed (miRNA ứng viên) sẽ có giá trị xác suất là 0 trong véc-tơ p(0).
Ở bước 2, ta thực hiện việc thuật toán RWRs với giá trị xác suất khởi động lại r (0 < r < 1).
Véc-tơ p(t) là véc-tơ xác suất trong đó phần tử thứ i của nó là xác suất của việc di chuyển ngẫu
nghiên tại nút i ở bước thứ t. Việc di chuyển ngẫu nhiên được thực hiện lặp lại bước sau:
p(t+ 1) = (1− r)Wp(t) + rp(0) (2.8)
Công thức 2.8 tương đương với công thức 2.7 trong mục 2.4. Trong đó W là ma trận đã
được chuẩn hóa cột từ ma trận ban đầu của nó là ma trận tương tự về chức năng của miRNA. Ta
giả sử ma trận tương tự về chức năng có kích thước (m x m) thì hai véc-tơ là p(0) và p(t) là véc-tơ
cột có kích thước m. Việc di chuyển ngẫu nhiên dừng lại khi sự thay đổi giữa p(t) và p(t+1) được
đo bằng chuẩn L1 (L1 norm) nhỏ hơn một giá trị tới hạn (giá trị hội tụ). Ở đây giá trị hội tụ được
chọn là 10−6. Véc-tơ hội tụ được kí hiệu là p(∞).
Bước 3, từ véc-tơ p(∞) ta thực hiện việc sắp xếp theo thứ tự giảm dần của giá trị xác suất.
Các miRNA có giá trị xác suất cao thường có khả năng cao có mối quan hệ với bệnh cụ thể mà
chúng ta đang xét. Dựa vào kết quả này ta có thể chọn ra những miRNA tiềm năng có mối quan hệ
với bệnh cụ thể cho các thực nghiệm về sinh học.
16
Dự đoán mối quan hệ giữa MIRNAs và bệnh bằng phương pháp RWRs
2.6. Thực nghiệm và đánh giá kết quả
2.6.1. Dữ liệu
Dữ liệu được sử dụng để dự đoán mối quan hệ giữa miRNA và bệnh bằng phương pháp
RWRs gồm có dữ liệu về mối quan hệ giữa miRNA và bệnh và dữ liệu về mạng tương tự chức
năng của miRNA. Trong đó, dữ liệu về mối quan hệ giữa miRNA được lấy tại nguồn cơ sở dữ
liệu HMDD. Dữ liệu dùng để đánh giá kết quả của phương pháp gồm có: Dữ liệu về mối quan
hệ giữa miRNA và bệnh tại cơ sở dữ liệu HMDD ( cơ sở dữ liệu
miR2Disease, cơ sở dữ liệu dbDMEC về mối quan hệ giữa miRNA và các bệnh ung thư.
2.6.2. Cách đánh giá phương pháp
Hiệu quả của phương pháp RWRs có thể được đánh giá thông qua việc tính toán các giá trị
cho đường cong ROC và giá trị AUC thông qua phương pháp đánh giá chéo (leave-one-out cross
validation) cho 1.395 mối quan hệ giữa miRNA và bệnh đã biết trước và đã được kiểm chứng bằng
thực nghiệm.
Với một bệnh d dựa vào dữ liệu mối quan hệ giữa miRNA và bệnh ta xác định được tập các
miRNA có quan hệ với bệnh d kí hiệu là tập S và tập các miRNA ứng viên kí hiệu là tập C là các
miRNA còn lại. Một gen u ∈ S được lấy ra khỏi tập sau đó tất cả các gen thuộc tập C ∪ {u} sẽ
được xếp hạng dựa trên véc-tơ hội tụ p(∞) với các seed thuộc tập S\{u}. Bước trên được lặp lại
cho lần lượt từng miRNA trong tập S. Sau đó ta cho ngưỡng τ thay đổi từ 1 đến số lượng miRNA
có trong 2 tập S và C , tại mỗi giá trị của ngưỡng ta tính toán được hai số là tỉ lệ dương tính thật
hay còn gọi là độ nhạy (sensitivity) và tỉ lệ dương tính giả (1-specificity) theo công thức sau:
sensitivity =
TP
TP + FN
(2.9)
1− specificity = FP
FP + TN
(2.10)
2.6.3. Cài đặt chương trình
Chương trình cài đặt thuật toán RWRs được trình bày trong phần trước. Chương trình
thực hiện việc đọc vào hai mảng: mảng 2 chiều biểu thị độ tương tự về chức năng của miRNA
(misim.in), mảng quan hệ giữa miRNA và bệnh (DMAs.in) cùng với các tham số đầu vào như
diseaseId (id của bệnh), c (điều kiện số xét hội tụ), r (xác suất khởi động lại). Sau khi chạy chương
trình thì dữ liệu đẩu ra sẽ là véc-tơ hội tụ p(∞). Thực hiện việc sắp xếp giảm dần các phần tử trong
véc-tơ này ta sẽ được danh sách các miRNA tiềm năng có liên quan tới bệnh cụ thể mà ta quan
tâm (bệnh có tham số id diseaseId). Việc đánh giá chéo cũng được thực hiện trong chương trình.
Sau khi chạy đánh giá chéo, đường cong ROC được biểu diễn và giá trị AUC tương ứng với đường
cong đó cũng được tính toán.
2.6.4. Một số kết quả
Với giá trị tham số đầu vào là c = 10−6 (xét điều kiện hội tụ), và giá trị xác suất khởi động
lại r = 0.5, chúng tôi đã thực hiện việc đánh giá chéo và có được kết quả là biểu đồ đường cong
ROC cùng với giá trị AUC như hình 4.
Tọa độ mỗi điểm trên đường cong ROC là trung bình cộng tọa độ điểm trên đường cong
ROC của 137 bệnh. Ở đây giá trị AUC tính được là 0.8049 cho thấy kết quả dự đoán bằng phương
pháp RWRs là tốt. Chúng tôi cũng thực hiện việc xác định ảnh hưởng của xác suất khởi động lại r
tới kết quả đánh giá chéo của phương pháp RWRs theo bảng 1.
17
Nguyễn Đình Hùng, Trương Thị Tiến, Trần Đăng Hưng
Hình 4: Biểu đồ biểu diễn ROC cho phương pháp RWRs
Bảng 1: Ảnh hưởng của xác suất khởi động lại r tới giá trị AUC
r 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9
AUC 0.78799 0.79688 0.80077 0.80304 0.8049 0.80607 0.80691 0.80742 0.80787
Hình 5: Ảnh hưởng của tham số r tới giá trị AUC
Ở đây khi tham số r thay đổi thì giá trị AUC thay đổi khá ít. Căn cứ vào kết quả tính toán
được chúng ta thấy với các giá trị r ≤ 0.2 thì giá trị AUC thuộc ngưỡng trung bình, với r ≥ 0.3
18
Dự đoán mối quan hệ giữa MIRNAs và bệnh bằng phương pháp RWRs
giá trị AUC thuộc ngưỡng tốt.
Chúng tôi cũng thực hiện việc dự đoán mối quan hệ giữa các miRNA với bệnh u ngực
(breast cancer) và kết quả dự đoán như sau:
Bảng 2: Kết quả dự đoán 20 miRNA tiềm năng có liên quan đến bệnh u ngực
Tên miRNA Xác minh PubmedId
hsa-let-7e dbDEMC, HMDD 21969366
hsa-let-7b dbDEMC, HMDD 22294324
hsa-let-7c dbDEMC, HMDD 22388088
hsa-let-7i dbDEMC, HMDD, mir2Disease 22388088
hsa-mir-126 dbDEMC, HMDD, mir2Disease 22524830
hsa-let-7g dbDEMC, HMDD 22821209
hsa-mir-191 dbDEMC, HMDD, mir2Disease 22898264
hsa-mir-92b dbDEMC
hsa-mir-223 dbDEMC, HMDD 19624877
hsa-mir-30e Chưa xác định
hsa-mir-101 dbDEMC, HMDD, mir2Disease 23071542
hsa-mir-520b dbDEMC, HMDD 21343296
hsa-mir-18b dbDEMC, HMDD 21755340
hsa-mir-27a dbDEMC, HMDD, mir2Disease 22407812
hsa-mir-373 dbDEMC, HMDD, mir2Disease 22524830
hsa-mir-130a dbDEMC
hsa-mir-16 dbDEMC, HMDD 19250063
hsa-mir-92a HMDD 20484043
hsa-mir-372 dbDEMC
hsa-mir-98 dbDEMC
Các miRNA tiềm năng được dự đoán có mối quan hệ với bệnh u ngực bằng phương pháp
RWRs được xác minh qua các cơ sở dữ liệu HMDD (phiên bản 2.0- cập nhật tháng 04/2014), cơ
sở dữ liệu dbDEMC, mir2Disease, cột PubmedId chứa Id tới bài báo gốc tại cơ sở dữ liệu Pubmed.
3. Kết luận
Trong bài báo này chúng tôi đã trình bày về bài toán dự đoán mối quan hệ giữa miRNA và
bệnh, đồng thời đã đưa ra phương pháp giải quyết bài toán nói trên thông qua việc trình bày cách
thức xây dựng mạng tương tự về chức năng miRNA, giới thiệu về mạng quan hệ giữa miRNA và
bệnh, áp dụng phương pháp RWRs vào bài toán nói trên để xếp hạng các miRNA ứng viên với
bệnh đang được quan tâm. Chúng tôi cũng đã thực hiện việc thực nghiệm để đánh giá hiệu quả của
phương pháp RWRs và thực hiện việc dự đoán đối với bệnh u ngực và xác minh kết quả dự đoán
thông qua các cơ sở dữ liệu sẵn có. Kết quả cho thấy phương pháp RWRs cho hiệu quả dự đoán ở
mức tốt với giá trị AUC tính toán được là 0.8049.
Lời cảm ơn. Bài báo được hoàn thành với sự tài trợ của Quỹ NAFOSTED (mã số đề tài:
102.01-2011.05).
19
Nguyễn Đình Hùng, Trương Thị Tiến, Trần Đăng Hưng
TÀI LIỆU THAM KHẢO
[1] Bartel D.P., 2004. MicroRNAs: genomics, biogenesis, mechanism, and function. Cell,
116:281–297.
[2] Jiang Q, Wang G, and Wang Y, 2010. An approach for prioritizing disease-related
microRNAs based on genomic data integration. BMEI, 2010, 6, 2270–2274.
[3] Jiang, Q., Hao, Y., Wang, G., Juan, L., Zhang, T., Teng, M., Liu, Y. and Wang, Y., 2010.
Prioritization of disease microRNAs through a human phenome-microRNAome network.
BMC Systems Biology, 4, S2.
[4] Joung JG, Fei Z, 2009. Identification of microRNA regulatory modules in Arabidopsis via a
probabilistic graphical model. Bioinformatics, 25(3):387–393.
[5] Li, Y. and Kowdley, K.V., 2012. MicroRNAs in Common Human Diseases. Genomics,
Proteomics & Bioinformatics, 10, 246-253.
[6] Li, Y. and Patra, J.C., 2010. Genome-wide inferring gene-phenotype relationship by walking
on the heterogeneous network. Bioinformatics, 26, 1219-1224.
[7] Lu M, Zhang Q, Deng M, Miao J, Guo Y, et al, 2008. An Analysis of Human MicroRNA and
Disease Associations. PloS One, 3, e3420.
[8] Nelson PT, Wang WX, Rajeev BW, 2008. MicroRNAs (miRNAs) in neurodegenerative
diseases. Brain Pathol., 18(1):130-8.
[9] Ortutay C. and Vihinen M., 2009. Identification of candidate disease genes by
integrating Gene Ontologies and protein-interaction networks: case study of primary
immunodeficiencies. Nucleic Acids Research, 37(2), 622-628.
[10] Schmitz et al., 2013.MicroRNA Cancer Regulation: Advanced Concepts, Bioinformatics and
Systems Biology Tools. Advances in Experimental Medicine and Biology, pp. 243-315.
[11] Shi et al., 2013. Walking the interactome to identify human miRNA-disease associations
through the functional link between miRNA targets and disease genes. BMC Systems
Biology, 7:101.
[12] Tran D.H., Satou K., Ho T.B., 2008. Finding MicroRNA Regulatory Modules in Human
Genome Using Rule Induction. BMC Bioinformatics, 9(S12):S5.
ABSTRACT
Prediction of microRNA-disease relationships using RandomWalk with Restarts
MicroRNA (miRNA) is one non-coding RNA that plays an important role in gene
expression. It inhibits some types of genes rather than producing proteins directly. Recent
experimental research has revealed the influence of miRNAs in several disease samples. Therefore,
predicting the relationship between miRNAs and diseases provides us with more information about
disease causing mechanisms. In this paper, we exploit RWR’s approach to integrate knowledge of
miRNAs function-corresponding network, relational network and information from diseases to
predict new relationships between them.
Keywords: MicroRNAs, Random Walk with Restarts, RWRs, Integrated Network.
20
Các file đính kèm theo tài liệu này:
- 3896_ndhung_9307_2188317.pdf