Tài liệu Một phương pháp dự đoán gen gây bệnh sử dụng dữ liệu chưa có nhãn - Lê Thu Hương: JOURNAL OF SCIENCE OF HNUE DOI: 10.18173/2354-1075.2015-0053
Educational Sci., 2015, Vol. 60, No. 7A, pp. 61-69
This paper is available online at
MỘT PHƯƠNG PHÁP DỰ ĐOÁN GEN GÂY BỆNH
SỬ DỤNG DỮ LIỆU CHƯA CÓ NHÃN
1Lê Thu Hương 2Thái Thị Thanh Vân và 3Trần Đăng Hưng
1Khoa Tự nhiên, Trường Cao đẳng Sư phạm Điện Biên
2Khoa Công nghệ Thông tin, Học viện Kỹ thuật Mật mã
3Khoa Công nghệ Thông tin, Trường Đại học Sư phạm Hà Nội
Tóm tắt. Trong bài báo này, chúng tôi trình bày một giải pháp sử dụng các dữ liệu chưa
gán nhãn cho bài toán dự đoán gen gây bệnh (gọi tắt là gen bệnh). Thông thường, bài toán
dự đoán gen bệnh có thể coi là bài toán phân lớp nhị phân. Tuy nhiên, trong bài toán này
dữ liệu âm tính (negative) thường khó xác định, nên hiệu quả của các phương pháp dự đoán
chưa cao. Chúng tôi đã đề xuất một phương án xây dựng tập âm tính bằng cách sử dụng dữ
liệu chưa có nhãn để huấn luyện các mô hình học máy nhằm tăng hiệu quả dự đoán.
Từ khóa: Dự đoán, gen gây bệnh, dữ liệu...
9 trang |
Chia sẻ: quangot475 | Lượt xem: 567 | Lượt tải: 0
Bạn đang xem nội dung tài liệu Một phương pháp dự đoán gen gây bệnh sử dụng dữ liệu chưa có nhãn - Lê Thu Hương, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
JOURNAL OF SCIENCE OF HNUE DOI: 10.18173/2354-1075.2015-0053
Educational Sci., 2015, Vol. 60, No. 7A, pp. 61-69
This paper is available online at
MỘT PHƯƠNG PHÁP DỰ ĐOÁN GEN GÂY BỆNH
SỬ DỤNG DỮ LIỆU CHƯA CÓ NHÃN
1Lê Thu Hương 2Thái Thị Thanh Vân và 3Trần Đăng Hưng
1Khoa Tự nhiên, Trường Cao đẳng Sư phạm Điện Biên
2Khoa Công nghệ Thông tin, Học viện Kỹ thuật Mật mã
3Khoa Công nghệ Thông tin, Trường Đại học Sư phạm Hà Nội
Tóm tắt. Trong bài báo này, chúng tôi trình bày một giải pháp sử dụng các dữ liệu chưa
gán nhãn cho bài toán dự đoán gen gây bệnh (gọi tắt là gen bệnh). Thông thường, bài toán
dự đoán gen bệnh có thể coi là bài toán phân lớp nhị phân. Tuy nhiên, trong bài toán này
dữ liệu âm tính (negative) thường khó xác định, nên hiệu quả của các phương pháp dự đoán
chưa cao. Chúng tôi đã đề xuất một phương án xây dựng tập âm tính bằng cách sử dụng dữ
liệu chưa có nhãn để huấn luyện các mô hình học máy nhằm tăng hiệu quả dự đoán.
Từ khóa: Dự đoán, gen gây bệnh, dữ liệu chưa có nhãn, phân lớp nhị phân.
1. Mở đầu
Từ các nghiên cứu thực nghiệm cho thấy rằng với từng loại bệnh cụ thể, có thể do một số gen
quy định gây ra. Tuy nhiên, các nhà thực nghiệm chỉ tìm ra được các gen gây bệnh một cách đơn lẻ
trên một số cá thể, hơn nữa các thực nghiệm này rất mất thời gian và chi phí lớn. Khi số lượng dữ
liệu sinh học phân tử ngày càng nhiều, các nhà sinh học tính toán có thể đưa ra các phương pháp
tính toán dựa trên những gen gây bệnh đã biết để tiên lượng các gen khác. Triết lí chung của các
phương pháp tính toán là các gen có quan hệ “gần” với nhau sẽ có khả năng có chung một số chức
năng nào đó. Giả sử rằng, ta biết được thông tin quan hệ giữa các gen trong một loài sinh vật thì
có thể dự đoán chức năng cho các gen mới.
Nhìn từ lĩnh vực khai phá dữ liệu, có thể coi bài toán dự đoán gen gây bệnh là một bài toán
phân lớp hoặc bài toán xếp hạng. Giả sử chúng ta có một tập các gen của một loài cụ thể nào đó,
trong đó đã biết (dựa trên thực nghiệm) một số gen liên quan đến một bệnh cụ thể, chúng ta cần dự
đoán xem trong số các gen còn lại, gen nào có khả năng là gen gây bệnh. Để làm được điều này,
chúng ta phải dựa vào các thông tin đã có của mỗi gen rồi tìm cách mô hình hóa các gen này trong
mối tương quan với các gen khác. Các phương pháp đã có và được ứng dụng nhiều cho bài toán
dự đoán/tiên lượng gen bệnh trong tin sinh học gồm các phương pháp: phương pháp phân tích liên
kết (linkage analysis), phương pháp dựa vào chú giải chức năng gen (functional annotation-based),
phương pháp dựa trên mạng sinh học (biological network-based) và dựa vào các kĩ thuật học máy
(machine learning-based).
Ngày nhận bài: 15/7/2015 Ngày nhận đăng: 01/11/2015
Liên hệ: Trần Đăng Hưng, e-mail: hungtd@hnue.edu.vn
61
Lê Thu Hương, Thái Thị Thanh Vân và Trần Đăng Hưng
Phương pháp phân tích liên kết: Phương pháp phân tích liên kết nhằm thiết lập mối liên kết
giữa các gen trong một hệ gen. Phương pháp này chủ yếu dựa trên thống kê để tìm ra vị trí của các
gen có một chức năng nào đó trên nhiễm sắc thể. Tuy nhiên, với số lượng gen lớn như hệ gen người
thì việc tìm kiếm vị trí chính xác của các gen là rất khó khăn [1, 3]. Cho đến hiện nay, phương
pháp này có ứng dụng khá phổ biến trong việc lập bản đồ gen với các bệnh phổ biến. Tuy nhiên,
để thực hiện thành công với phương pháp này đòi hỏi cần nhiều thời gian, tài chính và nguồn dữ
liệu lớn.
Phương pháp dựa vào chú giải chức năng: Phương pháp này tìm cách xếp hạng các gen ứng
viên dựa vào độ tương tự về chức năng của gen ứng viên với tập hợp các gen bệnh đã biết căn cứ
vào profile được xây dựng dựa trên rất nhiều cơ sở dữ liệu sinh học [2, 3, 5]. Do đó, các phương
pháp này chủ yếu tập trung vào việc tích hợp nhiều nguồn dữ liệu chú giải gen để thu được độ
chính xác cao hơn. Tuy nhiên, các phương pháp này gặp phải hạn chế khi mà nguồn dữ liệu chú
giải gen hiện nay chưa đầy đủ cho tất cả các gen [15, 20].
Gần đây các phương pháp phân hạng gen ứng viên đã được mở rộng theo các hướng tiếp
cận sử dụng các mạng sinh học [5, 11] và tỏ ra nổi trội hơn các phương pháp dựa vào chú giải
chức năng [7, 13]. Các phương pháp này chỉ dựa trên mạng tương tác và do đó không bị hạn chế
bởi sự thiếu hụt của các cơ sở dữ liệu chú giải gen. Ngoài ra, sự nổi trội của các phương pháp dựa
trên mạng là do các phương này dựa trên nguyên lí “mô đun bệnh” đã được chứng minh (đó là, các
gen/protein liên quan đến cùng một bệnh hoặc các bệnh tương tự nhau thường hình thành các mô
đun chức năng/vật lí trên các mạng tương tác gen/protein [16, 19]). Trong các phương pháp dựa
trên mạng thì phương pháp dựa trên thuật toán bước ngẫu nhiên có quay trở lại (RWRs) nổi trội
hơn so với các phương pháp khác như hàng xóm trực tiếp (nearest neighbor), khoảng cách ngắn
nhất. Do thuật toán này tính toán độ tương tự giữa gen ứng viên và gen gây bệnh đã biết một cách
toàn cục trên toàn mạng, và do đó không chỉ các gen liên kết trực tiếp với gen bệnh đã biết được
xem xét, mà cả các gen gián tiếp cũng được xem xét.
Cùng với hai phương pháp trên, gần đây các kĩ thuật học máy cũng được sử dụng nhiều
trong bài toán dự đoán gen bệnh [9, 12, 14, 15]. Bản chất của phương pháp học máy là huấn luyện
các mô hình (phân lớp/phân cụm) từ các dữ liệu đã có trong quá khứ, nhằm dự đoán cho các dữ
liệu mới. Đối với bài toán dự đoán gen bệnh, chúng ta có thể coi là một bài toán phân lớp nhị
phân (binary classification) hoặc phân lớp đơn phân (one-class classification). Vấn đề đối với các
phương pháp học máy là cần có lượng dữ liệu đủ lớn để huấn luyện các mô hình. Về cơ bản, càng
có nhiều dữ liệu thì mô hình xây dựng sẽ càng chính xác. Vì vậy, việc tích hợp được nhiều nguồn dữ
liệu khác nhau sẽ làm tăng độ chính xác của các kĩ thuật học máy trong bài toán dự đoán/tiên lượng
gen gây bệnh. Một số phương pháp theo kĩ thuật học máy đã phát triển gần đây như Endevour [19],
ProDiGe [14],... Tuy nhiên, với sự phát triển của công nghệ sinh học, lượng dữ liệu sinh học phân
tử vẫn đang được sinh ra ngày càng nhiều, việc tích hợp các nguồn dữ liệu này sẽ cho kết quả dự
đoán/tiên lượng với độ chính xác cao hơn.
Khi coi bài toán phân loại/dự đoán gen bệnh là bài toán phân lớp nhị phân, trong đó dữ liệu
positive là tập các gen đã biết là gen gây bệnh, các gen này thường được phát hiện bằng các phương
pháp thực nghiệm và số lượng gen gây bệnh của mỗi bệnh cụ thể thường rất ít. Dữ liệu negative là
tập những gen còn lại, tuy nhiên khi sử dụng tập gen này sẽ có hai vấn đề xảy ra: (1) số lượng gen
rất lớn, thường lớn hơn rất nhiều so với tập positive, từ đó dẫn đến bài toán huấn luyện dữ liệu mất
cân bằng; (2) trong số những gen còn lại đó, chưa thể nói chắc chắn những gen đó là gen không
gây bệnh, nên sẽ có nhiều false negative trong dữ liệu.
Để giải quyết vấn đề này, trong lĩnh vực học máy đã có một phương pháp được gọi là huấn
luyện mô hình dự đoán từ dữ liệu positive và dữ liệu chưa biết nhãn (unlabeled data). Nghĩa là
62
Một phương pháp dự đoán gen gây bệnh sử dụng dữ liệu chưa có nhãn
chúng ta coi phần dữ liệu còn lại là dữ liệu chưa có nhãn, và tìm cách sử dụng dữ liệu này cho quá
trình huấn luyện mô hình.
Một số nghiên cứu trước đây đã đề xuất mô hình phân lớp nhị phân cho bài toán dự đoán
gen bệnh, trong đó tập negative được chọn ngẫu nhiên [8, 9, 11], hoặc sử dụng kĩ thuật bagging để
lựa chọn tập negative [14, 15]. Tuy nhiên các cách làm này đều cho kết quả dự đoán chưa cao vì
trong số các gen còn lại, rất khó để khẳng định một gen nào đó là gen không gây bệnh [12].
Trong nghiên cứu này, chúng tôi xây dựng mô hình dự đoán gen bệnh bằng cách sử dụng
hai tập dữ liệu: tập dữ liệu positive (P) là tập gen bệnh đã biết bằng thực nghiệm; tập các gen còn
lại gọi là tập dữ liệu chưa có nhãn (U). Để huấn luyện được mô hình dự đoán, chúng tôi đề xuất
một cách phân chia tập dữ liệu U thành các tập dữ liệu N1, N2, N3, N4. Sau khi xây dựng được
các tập dữ liệu này rồi, chúng tôi sử dụng phương pháp học máy weighted support vector machine
(wSVM) để huấn luyện mô hình, trong đó phương pháp wSVM cho phép đặt các trọng số khác
nhau cho mỗi gen trong từng tập N1, N2, N3, N4 nhằm thể hiện mức độ đóng góp vào quá trình
huấn luyện của các gen trong mỗi tập là khác nhau. Cuối cùng chúng tôi thử nghiệm trên tập dữ
liệu thực tế để kiểm chứng độ chính xác của phương pháp.
2. Nội dung nghiên cứu
2.1. Biểu diễn đặc trưng gen
Trong bài toán dự đoán gen bệnh, mỗi gen gi được biểu diễn bằng các loại thông tin khác
nhau, như thông tin về cấu trúc của gen hoặc của các thành phẩm gen (protein), thông tin về chú
giải chức năng gen từ GO (gene ontology),. . . Nhìn chung, càng tích hợp được nhiều nguồn thông
tin sinh học liên quan đến gen thì mô hình dự đoán sẽ cho kết quả tốt hơn. Trong nghiên cứu này,
chúng tôi biểu diễn mỗi gen bằng một véc-tơ gồm các thông tin lấy từ 4 nguồn chính sau:
1. Miền protein (D)
2. Các chức năng phân tử (MF)
3. Các quá trình sinh học (BP)
4. Các thành phần tế bào (BP)
Trong đó (1) được lấy từ CSDL PFAM, (2)-(4) được lấy từ cây từ điển gen [4].
Như vậy, mỗi gen gi được biểu diễn như một vectơ Vgi bao gồm:
- Thành phần miền protein Dgi
- Thành phần chức năng phân tử MFgi
- Thành phần quá trình sinh học BPgi
- Thành phần thành phần tế bào CCgi
Tức là Vgi = (Dgi,MFgi, BPgi, CCgi).
* Thành phần miền Dgi của gen gi được biểu diễn :
Dgi = (di1, di2,. . . ., di|Pfam−A|)
- Trong đó:
+ dij = 1 nếu sản phẩm của gen gi chứa miền tương ứng trong Pfam-A
+ dij = 0 nếu ngược lại (với 1 ≤ j ≤ |Pfam−A|) .
(CSDL Pfam-A được lấy trong
* Đối với các thành phần chức năng phân tử MFgi, thành phần quá trình sinh học
63
Lê Thu Hương, Thái Thị Thanh Vân và Trần Đăng Hưng
BPgi, thành phần thành phần tế bào CCgi sử dụng cơ sở dữ liệu GO được lấy từ (GO,
)và chúng được biểu diễn tương tự nhau.
Thành phần chức năng phân tử MFgi của gen gi được biểu diễn :
-MFgi = (mfi1,mfi2, . . . ,mfi|SMF |),
- BPgi = (bpi1, bpi2, . . . , bpi|SBP |),
- CCgi = (cci1, cci2, . . . , cci|SCC|).
Trong đó các thành phần này bằng 1 nếu gen gi liên quan đến term GO tương ứng trong
mỗi loại từ điển, và bằng 0 trong trường hợp ngược lại.
Như vậy mỗi gen gi sẽ biểu diễn bằng 1 véc-tơ gồm nhiều thành phần, trong đó mỗi thành
phần có giá trị 0 hoặc 1.
2.2. Thuật toán xây dựng các tập dữ liệu N1, N2, N3, N4
1. Chúng tôi xây dựng tập các gen âm tính tin cậy N1 từ U bằng cách tính toán sự tương
đồng giữa các gen chưa gán nhãn trong U với các gen dương tính trong P; ý tưởng chính là chúng
tôi tìm cách nhặt lần lượt các gen trong U ở xa so với tập P vào tập N1, trong đó khái niệm ở xa
được hiện thực bằng một độ đo khoảng cách giữa 2 gen, hay nói cách khác chính là độ đo sự giống
nhau về mặt chức năng của 2 gen. Chi tiết thuật toán được cho trong đoạn giả mã dưới đây:
1. N1 = ∅;
2. Biểu diễn mỗi gen gi trong P và U bằng một vector Vgi;
3. pr =
∑|P |
i=1 V gi|P |;
4. ave_dist = 0;
5. Với mỗi giǫUthực hiện
6. ave_dist += dist(pr,Vgi)/|U|;
7. Với mỗi giǫUthực hiện
8. Nếu(dist(pr,Vgi) > ave_dist)
9. N1 = N1 ∪ {gi}
Trong đó dist(a,b) là khoảng cách Ơ-cơ-lít giữa hai vector a và b. Như vậy, sau bước này
chúng ta có 3 tập gen: tập P, tập N1, và U\N1. Tiếp theo, chúng tôi tiếp tục phân chia tập U\N1
thành các tập N2, N3, N4. Trong đó, tập N2và tập N3 là tập chứa các gen gần với ranh giới phân
loại tập positive và tập negative.Để làm được điều này, chúng tôi xây dựng 1 đồ thị biểu diễn mối
quan hệ giữa các gen trong P ∪ U (chú ý là xét toàn bộ gen trong P và U):
* Xét đồ thị GSIM = (VSIM , ESIM )
Trong đó:
+ VSIM là tập các đỉnh vbiểu diễn cho một gen trong P ∪ U.
+ ESIM là tập các cạnh (gi ,gj) biểu diễn cho một kết nối giữa hai gen khác nhau gi và gj .
Sau đó biểu diễn đồ thị GSIM bằng ma trậnWij để tìm ra độ giống nhau giữa hai gen gi và
gj bất kỳ như sau:
Wij = 1−
dist(gi, gj)−minkǫ[1,|P∪U |]dist(gi, gk)
maxkǫ[1,|P∪U |]dist(gi, gk)−minkǫ[1,|P∪U |]dist(gi, gk)
(1)
- NếuWij đạt giá trị cao chỉ ra rằng hai gengivà gjcó đặc trưng sinh học giống nhau và do
64
Một phương pháp dự đoán gen gây bệnh sử dụng dữ liệu chưa có nhãn
đó có khả năng hai gen này thuộc về cùng một loại.
- Với hệ thống có các gen mang đặc điểm gần giống nhau trong GSIM , lúc này chúng tôi áp
dụng thuật toán bước đi ngẫu nhiên để phát hiện ra những phần tử gần giống dương tính (positive)
và gần giống âm tính (negative), thuật toán được tiến hành như sau:
* Thuật toán bước đi ngẫu nhiên:
Bước 1: Khởi tạo các xác suất tiên nghiệm của mẫu dương tính và âm tính thật sự.
- Đặt P0 và N0 biểu diễn xác suất tiên nghiệm của mẫu dương tính và âm tính.
- Trong P0, xác suất tiên nghiệm của mẫu dương tính trong P được gán bằng +1(tổng xác
suất bằng |P| ).
- Trong N0, xác suất tiên nghiệm của mẫu thực sự âm tính trong N1được gán -|P| / |N1| (tổng
của xác suất bằng - |P|).
- Biểu diễn chung vector xác suất tiên nghiệm cho dữ liệu:
Go = (P0,U0,N0)
Trong đó ΣP0 = ΣN0 và xác suất trước đó của U0 bằng 0.
Bước 2: Truyền các ảnh hưởng thông tin gắn nhãn từ G0 đến các gen của U\N1.
Áp dụng thuật toán bước đi ngẫu nhiên vào đồ thị GSIM :
- Đặt G0 là vector xác suất tiên nghiệm.
- Gr là vector xác suất ở bước r có thể được tính như sau:
Gr = (1− α)WijGr − 1 + αG0, (r ≥ 2) (2)
Trong đó:
G1 = GovWij = D
−1Wij (3)
Dii = ΣkWikvα = 0.8; (chúng tôi lựa chọn giá trị của α là 0.8)
Khi Dif = |Gr −Gr−1| ⇐ 10−6 thì thuật toán dừng.
Bước 3: Gán nhãn cho những gen có khả năng dương tính (N2), những gen có khả năng âm
tính (N3) và những gen âm tính yếu (N4).
Dựa vào giá trị của vector Gr , chúng tôi phân chia các gen gi vào các tập như sau:
- N2 = N2 ∪ gi nếu Gr(gi) > 1− α
- N3 = N3 ∪ gi nếu Gr(gi)← (1− α)
- N4 = N4 ∪ gi nếu −(1− α) ≤ Gr(gi) ≤ (1− α)
Như vậy, từ dữ liệu ban đầu gồm hai tập P và U, chúng tôi đã phân chia thành 5 tập với ý
nghĩa như trên: P, N1, N2, N3, N4. Tiếp theo chúng tôi sẽ huấn luyện mô hình phân lớp với 5 tập
dữ liệu này sử dụng phương pháp wSVMs.
2.3. Huấn luyện mô hình với wSVMs
Chúng tôi xây dựng mô hình phân lớp để huấn luyện mô hình dựa trên các dữ liệu đã chuẩn
bị bằng phương pháp wSVMs. Trong đó hàm mục tiêu của phương pháp wSVMs được điều chỉnh
như sau:
minimize
1
2
|w|2 + c0ΣiǫN1ξi + c2ΣiǫN2ξi + c3ΣiǫN3ξi + c4ΣiǫN4ξi (4)
Thỏa mãn các ràng buộc:
65
Lê Thu Hương, Thái Thị Thanh Vân và Trần Đăng Hưng
yi(w
Txi +B) ≥ 1ξi(i = 1, 2, ..., n) (5)
- Trong đó ξi là một tham số cho phép sự phân loại sai của một số mẫu huấn luyện, và
c0, c1, c2, c3 và c4 là các hệ số phạt khác nhau cho từng loại dữ liệu thuộc vào các tập mà chúng
tôi đã phân loại trong mục 2.1. Chúng tôi huấn luyện và kiểm thử các mô hình dự đoán gen bệnh
sử dụng thư viện libsvm [6] trong môi trường linux. Chi tiết về thực nghiệm được trình bày trong
mục dưới đây.
2.4. Thực nghiệm
2.4.1. Dữ liệu
Như đã trình bày trong các phần trước, mỗi gen được biểu diễn bởi các thuộc tính thuộc vào
5 nhóm đặc trưng : (1) các miền protein D, (2) các chức năng phân tử MF, (3) các quá trình sinh
học mà gen đó tham gia BP, và (4) các thành phần tế bào CC.
Trong đó các dữ liệu thuộc nhóm (1) được lấy từ cơ sở dữ liệu PFAM
( các dữ liệu thuộc nhóm (2), (3), (4) được lấy từ cơ sở dữ liệu
GeneOntology (ài ra thông tin về danh sách các gen bệnh đã
biết được lấy từ cơ sở dữ liệu OMIM (
Từ các nguồn dữ liệu được download về, chúng tôi đã tiền xử lí để có được dữ liệu đầu vào
thực nghiệm thuật toán đề xuất. Thông tin cụ thể trong Bảng 1.
Bảng 1. Thông tin về dữ liệu thực nghiệm
STT Đối tượng Số lượng
1 Tổng số gen sử dụng 9720
2 Số gen bệnh 1235
3 Số lượng miền protein 100
4 Số lượng chức năng phân tử 100
5 Số lượng quá trình sinh học 100
6 Số lượng thành phần tế bào 100
7 Số lượng protein lân cận được xét (bao gồm 1N và 2N) 50
Như vậy, mỗi gen sẽ được biểu diễn bởi một vector gồm 450 đặc trưng, giá trị tại mỗi đặc
trưng là 0 hoặc 1 (0 – nếu gen đó không có đặc trưng tương ứng và 1 trong trường hợp ngược lại).
Tổng số gen trong dữ liệu thực nghiệm là 9720 gen, trong đó 1235 được gán nhãn là gen bệnh
(thuộc tập P), còn lại 8485 gen là chưa biết nhãn.
2.4.2. Công cụ tính toán
Dữ liệu khi download từ các CSDL từ các website chứa nhiều loại thông tin khác nhau,
chúng tôi đã viết các đoạn trình bằng C++ (trong môi trường linux) để xử lí các giá trị nhiễu, ghép
nối các phần dữ liệu từ nhiều nguồn thông qua tên định danh của gen. Dữ liệu cuối cùng chúng tôi
có được như đã trình bày trong Bảng 1.
Để tính toán ra các tập N1, N2, N3 và N4 theo thuật toán trong mục 2.2, chúng tôi đã viết
chương trình bằng C++. Sau khi chuẩn bị được dữ liệu dạng vector, chúng tôi đã sử dụng bộ công
cụ libsvm ( cjlin/libsvm/) để huấn luyện và kiểm thử mô hình wSVMs
cho bài toán dự đoán gen bệnh.
66
Một phương pháp dự đoán gen gây bệnh sử dụng dữ liệu chưa có nhãn
2.4.3. Một số kết quả
Chúng tôi đã thử nghiệm mô hình weighted svm với các bộ tham số huấn luyện khác nhau
trên dữ liệu đã chuẩn bị. Để đánh giá mô hình dự đoán, chúng tôi đã sử dụng 3 tiêu chuẩn quen
thuộc trong học máy là precision, recall và F1-measure.
Gọi TP là số lượng phần tử được mô hình dự đoán đúng cho lớp positive. TN là số lượng
phần tử được mô hình dự đoán đúng cho lớp negative. FP là số lượng phần tử mô hình dự đoán
sai cho lớp positive. FN là số lượng phần tử mô hình dự đoán sai cho lớp negative. Ta có TP +
FN, TN + FP lần lượt là tổng số phần tử của lớp positive và tổng số phần tử của lớp negative
thực có trong dữ liệu thử nghiệm. Từ đó các tiêu chuẩn đánh giá mô hình được tính như sau:
Precisionpositive =
TP
TP + FP
;
Precisionnegative =
TN
TN + FN
;
Recallpositive =
TP
TP + FN
;
Recallnegative =
TN
TN + FN
;
Precision =
Precisionpositive + Precisionnegative
2
;
Recall =
Recallpositive +Recallnegative
2
;
F1−measure = 2
∗(Precision ∗Recall)
(Precision +Recall)
Chúng tôi thực hiện 10-fold cross-validation trên tập dữ liệu thực nghiệm, kết quả chạy mô
hình weighted svm với các bộ tham số khác nhau được liệt kê trong bảng dưới đây, trong đó các
hệ số phạt c0, c1, c2, c3, c4 lần lượt là: 1.0, 1.5, 2.0, 2.5 và 3.0.
Bảng 2. Kết quả dự đoán trên dữ liệu thực nghiệm
Tham số Precision (%) Recall (%) F1-Measure (%)
RBF Kernel (gamma = 0.001) 86,5 86,4 86,4
RBF Kernel (gamma = 0.01) 83,2 81,4 82,3
Polynomial kernel (d = 3) 81,7 81,5 81,6
Linear kernel 79,2 80,4 79,8
Khi thực nghiệm với dữ liệu đã chuẩn bị bằng phương pháp weighted SVMs, chúng tôi đã
thực nghiệm trên 3 hàm nhân phổ biến là RBF, linear, và polynomial. Với mỗi loại hàm nhân,
chúng tôi đã thử và chọn ra được giá trị của các tham số phù hợp cho kết quả dự đoán cao nhất
(Bảng 2). Trong 3 loại hàm nhân này thì hàm nhân RBF cho kết quả cao nhất với F1 = 85.50, và
hàm nhân Linear cho kết quả thấp nhất F1 = 79.8. Đối với hàm nhân RBF, thì tham số gamma
(gamma = 1/(2*sigma2)) được chúng tôi thử nghiệm và tìm ra giá trị tốt nhất là gamma = 0.001.
Ngoài ra, để đánh giá mức độ ảnh hưởng của các nhóm đặc trưng đến kết quả phân lớp,
chúng tôi cũng đã thử nghiệm xây dựng mô hình trên từng nhóm đặc trưng riêng rẽ, và sử dụng
đồng thời các nhóm đặc trưng. Kết quả của các thử nghiệm này được cho trong Bảng 3.
Mặc dù sự sai khác khi sử dụng các nhóm đặc trưng khác nhau là không quá nhiều, tuy
nhiên, chúng tôi thấy rằng khi sử dụng từng nhóm đặc trưng riêng rẽ thì kết quả dự đoán không
67
Lê Thu Hương, Thái Thị Thanh Vân và Trần Đăng Hưng
được cao như trong trường hợp sử dụng kết hợp nhiều nhóm đặc trưng.
Bảng 3. Kết quả thực nghiệm với các nhóm đặc trưng khác nhau
Nhóm đặc trưng Precision (%) Recall (%) F1-Measure (%)
(1) 76,3 74,9 75,6
(2) 79,6 80,1 79,8
(3) 81,9 80,3 81,1
(4) 78,4 77,2 77,8
(2)+(3)+(4) 83,2 84,6 83,9
(1)+(2)+(3)+(4) 86,5 86,4 86,4
Điều này có thể lí giải khi kết hợp nhiều loại thông tin khác nhau để mô tả một gene thì khi
huấn luyện mô hình weighted svm có thể dự đoán tốt hơn. Tuy nhiên, điều này cũng còn phụ thuộc
vào việc lựa chọn các tham số mô hình và giá trị phạt c0, c1, c2, c3, c4. Trong thực nghiệm này thì
chúng tôi mới chỉ lựa chọn các giá trị tham số phạt này theo trực quan (như thực nghiệm bên trên).
Trong thời gian tới chúng tôi sẽ thực nghiệm với nhiều bộ tham số khác nhau để tìm ra bộ giá trị
tốt nhất cho từng loại nhóm đặc trưng khác nhau.
3. Kết luận
Để tìm kiếm các gen bệnh, các phương pháp học máy cổ điển thường xây dựng mô hình
phân lớp nhị phân, trong đó sử dụng các gen bệnh đã biết làm dữ liệu positive (P), và tập những
gen còn lại là dữ liệu negative (N). Tuy nhiên, tập dữ liệu N này sẽ chứa nhiều nhiễu, vì trong số
các gen còn lại này có thể sẽ chứa một số gen gây bệnh. Trong nghiên cứu này chúng tôi đã đưa ra
một phương pháp mới để xây dựng mô hình dự đoán gen bệnh từ dữ liệu gen bệnh đã biết (P) và
các gen còn lại được coi là dữ liệu chưa biết nhãn (U). Chúng tôi tìm cách phân chia tập U thành
các tập khác nhau, sau đó huấn luyện mô hình wSVMs trên các tập dữ liệu này. Thực nghiệm trên
dữ liệu thực tế cho kết quả dự đoán khá cao, điều này chứng tỏ phương pháp đề xuất phù hợp cho
bài toán dự đoán gen bệnh. Ngoài ra, chúng tôi tin rằng phương pháp này có thể áp dụng cho các
bài toán khác khi dữ liệu negative khó xác định.
Lời cảm ơn. Bài báo hoàn thành dưới sự tài trợ của Quỹ NAFOSTED (Mã số đề tài:
102.01-2011.05).
TÀI LIỆU THAM KHẢO
[1] Adie, E. et al., 2005. Speeding disease gene discovery by sequence based candidate
prioritization. BMC Bioinformatics, 6(1): 55.
[2] Adie, E.A., Adams, R.R., Evans, K.L., Porteous, D.J. and Pickard, B.S., 2006. SUSPECTS:
enabling fast and effective prioritization of positional candidates, Bioinformatics, 22, 773-774.
[3] Aerts, S., Lambrechts, D., Maity, S., Van Loo, P., Coessens, B., De Smet, F., Tranchevent,
L.-C., De Moor, B., Marynen, P., Hassan, B., Carmeliet, P. and Moreau, Y., 2006. Gene
prioritization through genomic data fusion, Nature Biotechnology, 24, 537-544.
[4] Ashburner M. et al., 2000. "Gene ontology: tool for the unification of biology. The Gene
Ontology Consortium". Nat. Genet. 25 (1): 25–29.
[5] Barabasi, A.-L., Gulbahce, N. and Loscalzo, J., 2011. Network medicine: a network-based
approach to human disease. Nat Rev Genet, 12, 56-68.
[6] Chang, C. & Lin, C., 2011. LIBSVM: a library for support vector machines. ACMTransactions
on Intelligent Systems and Technology, 27:1-27.
68
Một phương pháp dự đoán gen gây bệnh sử dụng dữ liệu chưa có nhãn
[7] Chen J., Aronow B. J. and Jegga A. G., 2009. Disease candidate gene identification and
prioritization using protein interaction networks. BMC Bioinformatics, 10:73.
[8] Chen, J., Xu, H., Aronow, B. and Jegga, A., 2007. Improved human disease candidate gene
prioritization using mouse phenotype. BMC Bioinformatics, 8, 392.
[9] De Bie, T., Tranchevent, L.-C., Van Oeffelen, L.M.M. and Moreau, Y., 2007. Kernel-based
data fusion for gene prioritization. Bioinformatics, 23, i125-i132.
[10] Ideker, T., & Sharan, R., 2008. Protein networks in disease. Geno. Res., 18: 644-652.
[11] Jonsson, P.F. and Bates, P.A., 2006. Global topological features of cancer proteins in the
human interactome. Bioinformatics, 22, 2291-2297.
[12] Kann M. G., 2010. Advances in translational bioinformatics: computational approaches for
the hunting of disease genes. Briefings In Bioinformatics, 11(1), 96-110.
[13] Kohler, S. et al., 2008. Walking the Interactome for Prioritization of Candidate Disease
Genes. The American Journal of Human Genetics, 82(4):949-958.
[14] Mordelet, F. and Vert, J.-P., 2011. ProDiGe: Prioritization Of Disease Genes with multitask
machine learning from positive and unlabeled examples. BMC Bioinformatics, 12, 389.
[15] Moreau, Y. and Tranchevent, L.-C., 2012. Computational tools for prioritizing candidate
genes: boosting disease gene discovery. Nat Rev Genet, 13, 523-536.
[16] Oti M, Snel B, et al., 2006. “Predicting disease genes using protein–protein interactions”.
JMG, 43(8):691-698.
[17] Peng Y., Xiao L.L., Jian P.M., and Chee K.K., 2012. Positive-Unlabeled Learning for Disease
Gene Identification. Bioinformatics, Vol. 28 no, pages 2640–2647.
[18] Richard Twyman, 2003. Linkage analysis: Finding the rough position of human disease genes
relative to known genetic markers.
[19] Tranchevent L. C., Barriot R., Yu S., Van Vooren S., Van Loo P., Coessens B., De Moor
B., Aerts S., Moreau Y., 2008. ENDEAVOUR update: a web resource for gene prioritization in
multiple species. Nucleic Acids Res, 36:W377-W384
[20] Wang, D., Wang, J., Lu, M., Song, F. and Cui, Q., 2010. Inferring the human
microRNA functional similarity and functional network based on microRNA-associated
diseases.Bioinformatics, 26, 1644-1650.
ABSTRACT
Predicting disease-causing genes using unlabelled data
In this paper, we present a method that uses unlabeled data to confront the disease-causing
gene prediction problem. Normally, disease-causing gene prediction does not have binary
classification problems but it is difficult to identify negative data in our problems, and that leads
to low prediction accuracy. We propose the use of unlabeled data to train machine learning model
in process of building negative set in order to improve efficiency.
Keywords: Disease-causing gene, unlabeled data, binary classification.
69
Các file đính kèm theo tài liệu này:
- 3901_lthuong_152_2188322.pdf