Tài liệu Đề tài Tìm kiếm ngữ nghĩa ứng dụng trong lĩnh vực eDOC: SV
ne
t.vn
1
LI CM N
u tiên, chúng em xin gi li cm n n Thy, Cô khoa Công ngh Thông tin
tr
ng i hc Khoa hc T
nhiên ã tn tình dy d, dìu dt chúng em sut bn nm
i hc.
Chúng em cm n Cô Phm Th Bch Hu , ng
i tn tình h
ng dn, giúp ,
ng viên chúng em hoàn thành lun vn này.
Cui cùng, chúng con cm n Ba, M và nhng ng
i thân ã khích l , h tr,
ng viên chúng con trong thi gian hc tp, nghiên cu có
c thành qu nh
ngày nay.
Tháng 7 nm 2005
Sinh viên
Phm Th M Ph
ng – T Th Ngc Thanh
SV
ne
t.vn
2
NHN XÉT CA GIÁO VIÊN HNG DN
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
...
152 trang |
Chia sẻ: haohao | Lượt xem: 1303 | Lượt tải: 0
Bạn đang xem trước 20 trang mẫu tài liệu Đề tài Tìm kiếm ngữ nghĩa ứng dụng trong lĩnh vực eDOC, để tải tài liệu gốc về máy bạn click vào nút DOWNLOAD ở trên
SV
ne
t.vn
1
LI CM N
u tiên, chúng em xin gi li cm n n Thy, Cô khoa Công ngh Thông tin
tr
ng i hc Khoa hc T
nhiên ã tn tình dy d, dìu dt chúng em sut bn nm
i hc.
Chúng em cm n Cô Phm Th Bch Hu , ng
i tn tình h
ng dn, giúp ,
ng viên chúng em hoàn thành lun vn này.
Cui cùng, chúng con cm n Ba, M và nhng ng
i thân ã khích l , h tr,
ng viên chúng con trong thi gian hc tp, nghiên cu có
c thành qu nh
ngày nay.
Tháng 7 nm 2005
Sinh viên
Phm Th M Ph
ng – T Th Ngc Thanh
SV
ne
t.vn
2
NHN XÉT CA GIÁO VIÊN HNG DN
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
…………………………………………………………………………………....
……………………………………………………………………………………
Ngày…… tháng……nm 2005
Ký tên
SV
ne
t.vn
tài: Tìm kim ng ngh a ng d!ng trên l nh v
c eDoc
0112274 – Phm Th M Ph
ng - 3 - 0112398 – T Th Ngc Thanh
NHN XÉT CA GIÁO VIÊN PHN BI N
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
…………………………………………….………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………
Ngày…… tháng……nm 2005
Ký tên
SV
ne
t.vn
tài: Tìm kim ng ngh a ng d!ng trên l nh v
c eDoc
0112274 – Phm Th M Ph
ng - 4 - 0112398 – T Th Ngc Thanh
M
C L
C
M
U.................................................................................................................................10
Chng 1 : TNG QUAN.....................................................................................................11
1.1. "t v#n ................................................................................................................ 11
1.2. Bài toán gii quyt ................................................................................................... 13
1.3. H
ng tip cn......................................................................................................... 14
Chng 2 : C S LÝ THUYT ........................................................................................17
2.1. Chin l
c tìm kim thông tin c$a các b tìm kim (Search Engine) ..................... 17
2.1.1. Mt s search engine thông d!ng: ................................................................... 17
2.1.2. Chin l
c tìm kim ........................................................................................ 32
Nguyên lý hot ng........................................................................................................ 34
2.2. Semantic Web .......................................................................................................... 34
2.2.1. Khái ni m......................................................................................................... 34
2.2.2. Kin trúc .......................................................................................................... 36
2.2.3. Các thách thc "t ra cho Semantic web ......................................................... 37
2.2.4. So sánh web và web ng ngh a........................................................................ 41
2.2.5. Các khái ni m liên quan................................................................................... 42
2.2.6. Ontology .......................................................................................................... 44
2.2.7. Rdf ................................................................................................................... 46
2.3. eDoc ......................................................................................................................... 55
2.3.1. Tìm hiu eLearning.......................................................................................... 55
2.3.2. Tìm hiu eLib................................................................................................... 61
2.3.3. Tìm hiu eDoc ................................................................................................. 68
2.4. Mt s v#n trong x% lí ngôn ng t
nhiên: ......................................................... 71
2.4.1. V#n trong vi c x% lí vn bn:...................................................................... 72
2.4.2. V#n x% lí ng ngh a: ................................................................................... 72
2.4.3. Phân loi vn bn (Text Classification)........................................................... 82
Chng 3 : MÔ HÌNH VÀ GII THUT ..........................................................................84
3.1. Công ngh tìm kim ng ngh a trên th gii hi n nay: ........................................... 84
3.2. Các b
c xây d
ng mt ng d!ng semantic search engine:.................................... 91
3.3.1. Xây d
ng kin trúc Web ng ngh a:................................................................ 92
3.3.2. Lp ch& m!c ng ngh a tim tàng: ................................................................... 93
3.3. Mô hình ngh cho ng d!ng tìm kim ng ngh a trên l nh v
c eDoc................. 96
3.4. Các gii thut s% d!ng ........................................................................................... 100
3.4.1. Gii thut x% lý tài li u: ................................................................................. 100
3.4.2. Gii thut rút trích siêu d li u: ..................................................................... 102
3.4.3. Gii thut phân loi l nh v
c cho tài li u:...................................................... 104
3.4.4. Gii thut x% lí câu truy v#n: ......................................................................... 104
Chng 4 : CHNG TRÌNH NG D
NG....................................................................105
4.1. Gii thi u ch
ng trình ng d!ng: ........................................................................ 105
4.2. Kin trúc c$a ng d!ng:......................................................................................... 105
4.3. Mô t phm vi ng d!ng........................................................................................ 107
4.3.1. Mô t bài toán: ............................................................................................... 107
SV
ne
t.vn
tài: Tìm kim ng ngh a ng d!ng trên l nh v
c eDoc
0112274 – Phm Th M Ph
ng - 5 - 0112398 – T Th Ngc Thanh
4.3.2. Xác nh yêu cu: .......................................................................................... 107
4.4. Xây d
ng ng d!ng: .............................................................................................. 108
4.4.1. Thit k d li u: ............................................................................................. 108
4.4.2. Thit k x% lý:................................................................................................ 110
4.5. Kt qu ch
ng trình ............................................................................................. 112
4.6. Th
c nghi m ch
ng trình .................................................................................... 114
Chng 5 : KT LUN ......................................................................................................118
5.1. ánh giá kt qu nghiên cu ................................................................................. 118
5.1.1. 'u im ......................................................................................................... 118
5.1.2. Khuyt im:.................................................................................................. 119
5.2. H
ng phát trin .................................................................................................... 119
TÀI LI U THAM KHO...................................................................................................120
I. Lun vn, lun án:...................................................................................................... 120
II. Sách, eBooks:............................................................................................................. 120
III. Website: ................................................................................................................. 122
PH
L
C..............................................................................................................................124
1. Cú pháp RDF: ............................................................................................................ 124
2. RDF Gateway: ........................................................................................................... 129
2.1. Kin trúc c$a RDF Gateway:............................................................................. 130
2.2. Tính nng (Features).......................................................................................... 132
3. H thng nhãn ng ngh a:.......................................................................................... 138
3.1. Nhãn ng ngh a c bn cho danh t: ................................................................. 139
3.2. Nhãn ng ngh a c bn cho ng t: ................................................................. 141
3.3. Nhãn ng ngh a c bn cho tính t:................................................................... 142
3.4. H thng nhãn ng ngh a LDOCE .................................................................... 142
4. H c s tri thc ng ngh a t v
ng WordNet .......................................................... 144
4.1. H thng nhãn ng ngh a c$a danh t: .............................................................. 144
4.2. H thng nhãn ng ngh a c$a ng t: .............................................................. 149
SV
ne
t.vn
tài: Tìm kim ng ngh a ng d!ng trên l nh v
c eDoc
0112274 – Phm Th M Ph
ng - 6 - 0112398 – T Th Ngc Thanh
DANH M
C CÁC BNG
Bng 1 : Bng hng dn nhanh v cách s dng mt s search engine ph bin ......... 28
Bng 2: S lc v các c trng c a mt s search engine thông dng trên Internet .. 32
Bng 3 : Các lp trong RDF ............................................................................................ 54
Bng 4:Các thuc tính c a RDF........................................................................................... 55
Bng 5: Danh sách các ngh!a và ràng buc c a các t" th#c trong câu............................. 77
Bng 6 Mô t c s$ d% li&u cho 'ng dng.......................................................................... 110
Bng 7 Các module c a chng trình................................................................................ 110
Bng 8 Module eDocSearch ................................................................................................ 111
Bng 9 Module eDocSearch ................................................................................................ 111
Bng 10 Các câu truy v(n th nghi&m............................................................................... 115
Bng 11 Thng kê l!nh v#c khoa h)c máy tính................................................................. 116
Bng 12 Thng kê l!nh v#c ngh& thu*t. ............................................................................. 116
Bng 13: Nhãn ng% ngh!a c bn cho danh t".................................................................. 140
Bng 14: Nhãn ng% ngh!a c bn cho ng t" .................................................................. 142
Bng 15 : Nhãn ng% ngh!a c bn cho tính t"................................................................... 142
Bng 16: H& thng nhãn ng% ngh!a LDOCE .................................................................... 144
Bng 17:S# phân lp danh t" trong WordNet.................................................................. 148
SV
ne
t.vn
tài: Tìm kim ng ngh a ng d!ng trên l nh v
c eDoc
0112274 – Phm Th M Ph
ng - 7 - 0112398 – T Th Ngc Thanh
DANH M
C CÁC HÌNH
Hình 1: Giao di&n c a Google............................................................................................... 18
Hình 2: Giao di&n c a Yahoo................................................................................................ 19
Hình 3: Giao di&n c a Ask Jeeves ........................................................................................ 20
Hình 4: Giao di&n c a AllTheWeb ....................................................................................... 21
Hình 5: Giao di&n c a Teoma ............................................................................................... 22
Hình 6: Giao di&n HotBot ..................................................................................................... 23
Hình 7: Giao di&n c a Altavista............................................................................................ 24
Hình 8: Giao di&n c a Lycos................................................................................................. 25
Hình 9: Kin trúc t+ng c a Semantic web........................................................................... 36
Hình 10: Mt Ontology n gin......................................................................................... 46
Hình 11: Mô hình d% li&u RDF............................................................................................. 51
Hình 12 : Tiêu chu,n ánh giá tính bo m*t c a eDoc ...................................................... 71
Hình 13 Các quan h& cú pháp và ràng buc ng% ngh!a ..................................................... 76
Hình 14 Cây quyt -nh trong vi&c ch)n ngh!a phù hp. .................................................. 78
Hình 15: Dòng c s$ tìm kim Web ................................................................................... 91
Hình 16: Mô hình ngh- cho 'ng dng tìm kim ng% ngh!a trên l!nh v#c eDoc .......... 97
Hình 17: Qui trình x lý c a t+ng search engine ................................................................ 99
Hình 18: Gii thu*t x lý tài li&u: ...................................................................................... 100
Hình 19: Gii thu*t rút trích siêu d% li&u.......................................................................... 103
Hình 20: S . d% li&u quan h& c a 'ng dng.................................................................. 108
Hình 21: Giao di&n chính c a 'ng dng............................................................................ 112
Hình 22: Giao di&n kt qu tìm kim c a 'ng dng......................................................... 113
Hình 23: Giao di&n qun lí tài nguyên ............................................................................... 113
Hình 24: Kin trúc c a RDF Gateway............................................................................... 130
Hình 25: Giao di&n c a RQF Query Analyzer. ................................................................. 136
SV
ne
t.vn
tài: Tìm kim ng ngh a ng d!ng trên l nh v
c eDoc
0112274 – Phm Th M Ph
ng - 8 - 0112398 – T Th Ngc Thanh
DANH M
C CÁC T/ VIT T0T
eDoc Electronic document
eLib Electronic library
eLearning Electronic learning
www World Wide Web
URI Uniform Resource Identifier
URL Uniform Resource Locator
HTTP Hypertext Transfer Protocol
RDF Resources Descriprion Framework
OIL Ontology Inference Language
OWL Ontology Web Language
XML eXtensible Markup Language
SV
ne
t.vn
tài: Tìm kim ng ngh a ng d!ng trên l nh v
c eDoc
0112274 – Phm Th M Ph
ng - 9 - 0112398 – T Th Ngc Thanh
DANH M
C CÁC THUT NG1
Class Lp
Property Thuc tính
Metadata Siêu d li u
Subject Ch$ , ch$ ng
Title Tiêu
Namespace Không gian tên
Predicate V ng
Triple B ba (subject, predicate, object)
SV
ne
t.vn
tài: Tìm kim ng ngh a ng d!ng trên l nh v
c eDoc
0112274 – Phm Th M Ph
ng - 10 - 0112398 – T Th Ngc Thanh
M( )U
Hi n nay, hu ht các h thng tìm kim trên Internet u i theo h
ng truyn
thng ó là tìm kim theo t khoá ( key word ). Theo cách tìm kim này, khi ta gõ vào
t cn tìm, các h thng tìm kim s* hin th các tài li u mà trong nó có cha t khoá
cn tìm. Do ó, kt qu tr ra là mt danh sách r#t nhiu các tài li u, mà có th các tài
li u này không liên quan gì n ni dung ta cn tìm. Và ôi khi các h thng này
không
a ra ht các tài li u cn thit, tc là tha tài li u không cn thit nh
ng li
thiu h+n nhng tài li u quan trng khác.
V#n "t ra là ta phi xây d
ng mt h thng tìm kim nh
th nào khc
ph!c hi n trng nêu trên ?
gii quyt v#n này, ta cn xây d
ng h thng tìm kim sao cho áp ng
y $ thông tin mà ng
i dùng mong mun, ngh a là phi xây d
ng h thng tìm
kim theo ng ngh a d
a trên thông tin ng
i dùng
a vào.
T nhn thc trên chúng em quyt nh chn tài: Tìm kim ng% ngh!a 'ng
dng trên l!nh v#c eDoc (nhng tài li u i n t% ting Anh) vi m!c ích tìm hiu và
xây d
ng mt công c! tìm kim theo ng ngh a có th tìm kim thông tin chính xác
và y $, có th hn ch
c phn nào v#n tìm kim theo t khoá c$a các
search engine hi n ti.
Các i t
ng nghiên cu liên quan n tài: eDoc, Semantic Web, RDF,
OWL, Metadata,….
Trong phm vi tài, vì thi gian th
c hi n ngn, nên chúng em ch& th% nghi m
ch
ng trình tìm kim trong mt s l nh v
c: Khoa hc máy tính (Computer Science),
Ngh thut (Art). Hai l nh v
c này có v, nh
không liên h vi nhau nh
ng th
c t
vn có nhng tr
ng hp cn phi phân bi t, ví d! nh
tài li u v “ngh thut lp
trình” (“Art of programming”) thì phi phân tài li u v l nh v
c khoa hc máy tính
ch không phi ngh thut …. Tóm li, ng d!ng mà chúng em xây d
ng ch& tìm kim
thông tin trong các l nh v
c nêu trên. Tuy nhiên, ng d!ng có th d- dàng m rng ra
nhiu l nh v
c còn li.
SV
ne
t.vn
tài: Tìm kim ng ngh a ng d!ng trên l nh v
c eDoc
0112274 – Phm Th M Ph
ng - 11 - 0112398 – T Th Ngc Thanh
Chng 1 : TNG QUAN
1.1. t v(n
Nhu cu tìm kim, nm bt thông tin là mt nhu cu không th thiu trong i
sng c$a mi ng
i. Khi vi c s% d!ng World Wide Web ã tr nên ph. bin rng
khp, thì công vi c c$a các search engine c/ng tr thành mt phn sng còn và có li
ích cho Web. Các công c! tìm kim tr thành nhng công c! công cng cho mi
ng
i dùng c$a Internet; Google và Yahoo, c/ng tr thành nhng cái tên quen thuc.
Các công c! tìm kim hi n nay d
a trên mt trong hai dng c$a công ngh tìm
kim Web: tìm kim do con ng
i t
ch&
ng dn và tìm kim t
ng.
Công c! tìm kim do con ng
i ch&
ng dn s% d!ng mt c s d li u c$a
các t khoá, các khái ni m, và các tham chiu. Nhng công c! tìm kim theo t khoá
tr v mt dãy các trang, nh
ng ph
ng pháp n gin này th
ng dn n hàng lot
các kt qu không liên quan và không xác th
c. Hot ng c$a mt công c! tìm kim
d
a trên ni dung là: s* m s l
ng các t truy v#n ( các t khoá) so vi các t hi n
di n trong mi trang
c cha trong ch& m!c c$a nó. Sau ó, công c! tìm kim này s*
sp xp các trang. Tip cn phc tp hn b0ng cách
a các v trí c$a t khoá vào mt
mc quan trng c! th. Ví d!, các t khoá xu#t hi n trong th, title c$a trang web thì
quan trng hn trong phn body. Các kiu khác c$a công c! tìm kim do ng
i dùng
ch&
ng dn, nh
Yahoo, s% d!ng các l
c 1 ch$ giúp ch& h
ng tìm kim và
tr v các kt qu có liên quan hn. Nhng l
c 1 ch$ này do con ng
i to ra.
Bi lí do này, chúng ta phi tn chi phí to ra và duy trì trong các t mang “ý ngh a
thi gian” (thay .i theo thi gian), và r1i thì không
c cp nht th
ng xuyên nh
các h thng t
ng.
Cách tip cn tìm theo t khoá vn còn mt s hn ch, iu này ã làm gim
i tính úng n c$a các search engine. Ví d! nh
các t 1ng âm khác ngh a (ch+ng
hn: bank (ngân hàng), bank (b sông), …) ho"c các t có các bin th khác nhau do
có các tin t và hu t nh
student và students; small, smaller, smallest; …. Ngoài ra,
các search engine không tr v các tài li u có các t 1ng ngh a vi các t trong câu
SV
ne
t.vn
tài: Tìm kim ng ngh a ng d!ng trên l nh v
c eDoc
0112274 – Phm Th M Ph
ng - 12 - 0112398 – T Th Ngc Thanh
truy v#n mà ng
i dùng nhp vào. Key word không $ biu di-n chính xác nhu
cu c$a ng
i dùng c/ng nh
ni dung các trang web, hn ch này làm cho các search
engine tr v nhng tài li u không liên quan n v#n mà ng
i dùng quan tâm. Bi
vì t*p hp các t" khóa là dng biu di-n s l
c nh#t c$a ni dung, và do ó, cách
biu di-n này là mt dng góc nhìn lun lý (logical view) c$a ni dung mang m'c
thông tin th(p nh(t, ó chính là lý do c bn khin cho các Search Engine hi n nay
có t2 l& s trang web h%u ích trên tng s trang web tr v th(p.
Google vi 400 tri u tài li u thu v mi ngày và trên 8 t& trang web
c lp ch&
m!c, và là công c! tìm kim thông d!ng nh#t
c s% d!ng ngày nay, nh
ng thm chí
vi Google vn còn có nhiu v#n . Ví d!, b0ng cách nào bn tìm kim ch& vi mt
l
ng ít d li u mà bn cn trong mt bin kt qu không liên quan
c
a ra?
Khi công ngh trí tu nhân to (Artificial Intelligence_AI) phát trin mnh, thì
v#n "t ra là làm th nào
a ra nhng ph
ng pháp tìm kim tt hn mà có th
th
c s
tin cy vào nhng kt qu tìm kim ó. ó là xu h
ng c$a nhng công c! tìm
kim d
a vào ng ngh a và các agent tìm kim theo ng ngh a. Mt công c! tìm kim
ng ngh a tìm kim các tài li u có ngh a t
ng t
nhau ch không ch& nhng t ng
t
ng t
nhau. Web tr thành mt mng ng ngh a, phi cung c#p nhiu siêu d
li u v ni dung c$a nó, thông qua vi c s% d!ng các th, RDF (Resource Description
Framework) và OWL (Ontology Web Language), các th, này s* giúp th
c hi n
a
Web vào trong mng ng ngh a. Trong mng ng ngh a, ý ngh a c$a ni dung
c
th hi n tt hn, và nhng liên kt logic
c th
c hi n gia nhng thông tin liên quan
nhau.
Công c! tìm kim ng ngh a, chúng ta cp ây, có hai
u im ln so vi
các công c! tìm kim truyn thng:
1. Nó ch#p nhn các truy v#n
c phát biu ngôn ng t
nhiên.
2. Kt qu là tìm kim mt mu thông tin; không phi là mt danh sách các tài
li u có th (ho"c không) cha thông tin yêu cu.
Tht vy công c! tìm kim ng ngh a bt u vi l
ng thông tin quá ti. Nó
tip nhn mt s các tác v! không
c ai
a thích trong vi c tìm kim thông tin hi n
SV
ne
t.vn
tài: Tìm kim ng ngh a ng d!ng trên l nh v
c eDoc
0112274 – Phm Th M Ph
ng - 13 - 0112398 – T Th Ngc Thanh
nay: m ra mi tài li u c$a danh sách kt qu và quét nó mt cách th$ công l#y
thông tin. Theo cách ó, các công c! tìm kim ng ngh a có kh nng cách mng hoá,
h
ng n vi c tìm kim thông tin i n t% mt cách t
ng: nó thay .i mô hình tìm
kim t vic thu hi tài liu n vic tr li câu hi.
1.2. Bài toán gii quyt
Theo thng kê trong nm 2001: “Các nhân viên tn trung bình 8 gi mt tun,
hay 16% gi công hàng tun c$a h, tìm kim và s% d!ng ni dung thông tin bên
ngoài. Chi phí l
ng ch& riêng cho công ty c$a M là 107 t& ôla mt nm. Vi c tìm
kim ng ngh a là mt c hi y ý ngh a cho các công ty giúp cho nhân viên c$a h
có kh nng hn và hi u qu hn trong vi c "t thông tin bên ngoài vào công vi c c$a
h.” Không cn nói nhiu thêm na. S
quá ti thông tin là mt v#n ln trong xã
hi thông tin.
Nhng khám phá t
ng t
c/ng
c tìm th#y trong nhiu nghiên cu, làm n.i
bt v#n : phi
a ra gii pháp trong vi c ci tin x% lí tìm kim thông tin. Ngoi tr
nhng ích li to ln mà các công c! tìm kim mang li cho chúng ta nhng nm gn
ây b0ng vi c làm cho có th truy cp n hàng tri u các tài li u, b#t ch#p v trí vt lí
và ngôn ng, thì chúng vn có mt s hn ch c bn. Ví d!, chúng không “hiu” các
t con ng
i gõ vào và do ó t ti mt s l
ng kh.ng l1 c$a các kt qu sai. Hn
na, chúng hot ng hi u qu khi h2i v nhng s
ki n, ch+ng hn nh
“Kerry” và
“vua c$a Tây Ban Nha”. Tuy nhiên, chúng th
c hi n nhiu kt qu không tt nu câu
truy v#n nói v s liên h gia các khái ni m ch+ng hn nh
“Nhng quc gia nào ã
tham gia trong chin tranh Iraq?” và “t.ng thng n
c Pháp theo chính ng nào?”
Có ba v#n cn
c ci tin ci thi n các kt qu c$a công c! tìm kim là:
(i) Công c! tìm kim cn cho phép nhng truy v#n phc tp hn (ví
d! trong ngôn ng t
nhiên),
(ii) Công c! tìm kim cn “hiu” nhng gì con ng
i h2i, và
(iii) Công c! tìm kim phi cung c#p câu tr li cho truy v#n (có th
sao l
u li nhng liên kt n các tài li u mà cho ra câu tr li).
SV
ne
t.vn
tài: Tìm kim ng ngh a ng d!ng trên l nh v
c eDoc
0112274 – Phm Th M Ph
ng - 14 - 0112398 – T Th Ngc Thanh
1.3. Hng tip c*n
Có hai tip cn ci thi n các kt qu tìm kim thông qua ph
ng pháp ng
ngh a:
1. Kin trúc c$a Semantic Web.
2. Lp ch& m!c cho ng ngh a tim tàng (Latent Semantic Indexing).
Tuy nhiên, hu ht các công c! tìm kim d
a trên ng ngh a phi chu nhng
v#n th
c thi bi qui mô c$a mng ng ngh a r#t ln. Nh0m m!c ích làm cho tìm
kim ng ngh a tr nên hi u qu trong vi c tìm kim các kt qu mong mun, mng
này phi cha mt l
ng ln các thông tin liên quan. Cùng lúc ó, mt mng rng ln
to ra nhng khó khn trong vi c x% lí nhiu
ng dn có th có cho mt gii pháp
liên quan.
Chúng ta s% d!ng khía cnh sc bén c$a công ngh Web ng ngh a – kt hp
ch"t ch* s
phi hp c$a các công ngh tiên tin – làm cho mô hình có th chuyn
nhanh trong vi c tìm kim thông tin.
• Công ngh& x lí ngôn ng% t# nhiên cho phép ng
i dùng h2i nhng
câu h2i mà h mun, hn là phi nêu lên nhng t khoá có liên quan
trong câu h2i c$a h.
• Các Ontology -nh ngh!a l!nh v#c quan tâm. Chúng
c xem nh
là
“b não” c$a công c! tìm kim, bi vì nó c gng hiu nhng câu truy
v#n c$a ng
i dùng trong các t c$a ontology này. Theo cách này chú ý
r0ng công c! tìm kim ng ngh a c$a chúng ta không phi là có m!c
ích thông th
ng nh
Google, mà nó có ý nh áp d!ng i vi mt
l nh v
c hay khu v
c c! th (ví d! v l nh v
c pháp lí, vn hoá, th thao
v.v…).
• Phân tích tri th'c. Công ngh này chuyn d li u không có c#u trúc
sang thông tin có c#u trúc. Nó rút trích thông tin t các vn bn t
do,
SV
ne
t.vn
tài: Tìm kim ng ngh a ng d!ng trên l nh v
c eDoc
0112274 – Phm Th M Ph
ng - 15 - 0112398 – T Th Ngc Thanh
các vn bn bán c#u trúc và c#u trúc phát sinh ra ontology vi tri thc
tht s
.
• Truy c*p tri th'c thông minh. Các câu tr li cho các truy v#n t
c do vi c truy v#n ontology
c
a ra t
ng, và
c biu di-n
trong nhng dng khác nhau:
o “D liu” c$a th
c th chính
c h2i n (ví d! trong l nh v
c
xã hi, d li u c$a mt ngh s ).
o nh hng ng ngha. Nhng t c$a các câu tr li
c t
ng siêu liên kt n các khái ni m ontology con, cho phép nh
h
ng b0ng “ý ngh a”.
o Các th thông minh và liên k t thông minh. Các câu tr li luôn
c sao l
u bi các ngu1n và các tài li u chúng d
a vào. Khi
nhng tài li u ó
c tra cu, thì phn mm gán th, và liên kt
s* t
ng nhn ra các t cha ý ngh a l nh v
c và liên kt chúng
n ontology, hay thêm vào các th, thông minh vi nhng hot
ng
c nh ngh a trong ontology.
o S
“tng tng” thông minh. Thông th
ng, các câu tr li
phát sinh ra nhiu các khái ni m liên quan và các mi quan h .
Phm mm “t
ng t
ng” thông minh cho phép mt khái ni m i
xuyên qua tri thc này.
Có mt v#n mà công c! tìm kim ng ngh a
c nh ngh a ây vn ch
a
th hoàn t#t so vi nhng công c! tìm kim vi m!c ích thông th
ng (không có ng
ngh a) nh
Google ó là: phm vi. Trong Google bn có th tìm kim vi b#t k3 t
khoá nào trong b#t k3 l nh v
c nào. Nu các t khoá xu#t hi n trong mt s tài li u
trên Web, Google s* tìm th#y nó. Mt công c! tìm kim ng ngh a cn mt s tri thc
nâng cao: nó cn bit ý ngh a,
c biu di-n trong mt ontology. Th
c t là các
ontology – trong trng thái thi hành hi n ti – vn còn làm b0ng th$ công, hn ch
chúng trong nhng m!c ích thông th
ng. Do ó, các công c! tìm kim ng ngh a là
nhng công c! quan trng cho nhng l nh v
c c! th. Trong tr
ng hp này, m!c ích
SV
ne
t.vn
tài: Tìm kim ng ngh a ng d!ng trên l nh v
c eDoc
0112274 – Phm Th M Ph
ng - 16 - 0112398 – T Th Ngc Thanh
c$a các công c! tìm kim ng ngh a là b. sung cho các công c! tìm kim thông
th
ng, hn là cnh tranh nh
nhng i th$ .
SV
ne
t.vn
tài: Tìm kim ng ngh a ng d!ng trên l nh v
c eDoc
0112274 – Phm Th M Ph
ng - 17 - 0112398 – T Th Ngc Thanh
Chng 2 : C S LÝ THUYT
2.1. Chin lc tìm kim thông tin c a các b tìm kim (Search Engine)
2.1.1. Mt s search engine thông dng:
Sau ây là danh sách mt s search engine. Ti sao chúng
c xem là nhng
search engine “ln”? ó là bi vì chúng
c bit n nhiu và s% d!ng tt. i vi
các chuyên gia web, các công c! tìm kim ln là danh sách nhng ni quan trng nh#t
bi chúng phát sinh ra mt l
ng r#t ln các trang web tim tàng. i vi nhng
ng
i tìm kim, các công c! tìm kim ph. bin th
ng tr ra các kt qu áng tin cy
hn. Nhng search engine này r#t có th
c duy trì tt và nâng c#p khi cn thit,
gi th cân b0ng vi tc phát trin c$a web.
Nhng search engine sau là t#t c nhng l
a chn tt nh#t bt u khi tìm kim
thông tin:
SV
ne
t.vn
tài: Tìm kim ng ngh a ng d!ng trên l nh v
c eDoc
0112274 – Phm Th M Ph
ng - 18 - 0112398 – T Th Ngc Thanh
2.1.1.1. Google:
Hình 1: Giao di&n c a Google
Nguyên thu4, Google là mt án c$a tr
ng i hc Stanford
c th
c hi n
bi hai sinh viên Larry Page và Sergey Brin gi là BackRub. n nm 1998, thì .i
tên thành Google, và 1 án này ã tr thành công ty riêng Google "t ti khuôn viên
tr
ng i hc. Nó vn còn
c l
u gi cho n ngày nay.
Google là công c! tìm kim n.i ting, tt nh#t trong các l
a chn tìm kim
thông tin trên web. Dch v! d
a vào crawler, spider cung c#p trang web vi thông tin
a ra toàn di n cùng vi mc liên quan tt. ây là công c! tt nh#t hi n nay trong
vi c tìm kim b#t c th gì bn mun.
Tuy nhiên, Google cung c#p chn l
a tìm kim ch$ yu v các trang web.
S% d!ng hp tìm kim trên trang ch$ Google, bn có th d- dàng nh v các nh qua
SV
ne
t.vn
tài: Tìm kim ng ngh a ng d!ng trên l nh v
c eDoc
0112274 – Phm Th M Ph
ng - 19 - 0112398 – T Th Ngc Thanh
web, nhng ngh
c "t trong các nhóm tho lun Usenet, nh v thông tin tin
tc hay th
c hi n tìm kim sn ph5m.
2.1.1.2. Yahoo:
Hình 2: Giao di&n c a Yahoo
a ra nm 1994, Yahoo là “th
m!c” c/ nh#t c$a web, mt ni mà các nhà
biên tp t. chc các trang web trong các danh m!c. Tuy nhiên, vào tháng 10 nm
2002, Yahoo chuyn sang lp danh sách d
a vào crawler cho nhng kt qu chính c$a
nó. Công c! này s% d!ng công ngh t Google cho n tháng 2 nm 2004. Hi n nay,
Yahoo s% d!ng công ngh tìm kim riêng c$a mình.
Yahoo Directory vn t1n ti. Bn s* ch& ra các liên kt “danh m!c” phía d
i
mt s các trang web li t kê trong kt qu tr v c$a mt tìm kim t khoá. Khi
c
SV
ne
t.vn
tài: Tìm kim ng ngh a ng d!ng trên l nh v
c eDoc
0112274 – Phm Th M Ph
ng - 20 - 0112398 – T Th Ngc Thanh
xu#t, nhng trang web này dn bn n mt danh sách các trang web ã
c xem
xét và phê chu5n bi mt nhà biên tp.
Công ngh AltaVista và AllTheWeb
c phi hp vi k thut Inktomi, mt
công c! tìm kim d
a trên crawler, to nên mt Yahoo crawler hi n nay.
2.1.1.3. Ask Jeeves:
Hình 3: Giao di&n c a Ask Jeeves
Ask Jeeves bt u n.i ting t nm 1998 và 1999,
c bit nh
là mt công
c! tìm kim “ngôn ng t
nhiên” cho phép ta tìm kim b0ng cách h2i nhng câu h2i
và tr v kt qu vi nhng gì có v là tr li úng v mi th.
Th
c s
, công ngh không phi là nhng gì làm cho Ask Jeeves th
c thi tt.
Bên cnh các bi cnh, công c! này ti mt thi im có khong 100 trình son tho
SV
ne
t.vn
tài: Tìm kim ng ngh a ng d!ng trên l nh v
c eDoc
0112274 – Phm Th M Ph
ng - 21 - 0112398 – T Th Ngc Thanh
giám sát các log tìm kim. Sau ó chúng vào trong web và nh v nhng site mà
chúng cho là tt nh#t t
ng xng vi các truy v#n ph. bin nh#t.
2.1.1.4. AllTheWeb:
Hình 4: Giao di&n c a AllTheWeb
c Yahoo cung c#p ngu1n, có th th#y AllTheWeb là mt “tìm kim thun
tuý” (“pure search”) nh nhàng hn, tu3 bin hn và d- chu hn là khi th
c hi n
Yahoo. Tiêu im là trong tìm kim web, ngoi tr tin tc, tìm kim hình nh, video,
MP3 và FPT c/ng
c
a ra.
SV
ne
t.vn
tài: Tìm kim ng ngh a ng d!ng trên l nh v
c eDoc
0112274 – Phm Th M Ph
ng - 22 - 0112398 – T Th Ngc Thanh
2.1.1.5. Teoma:
Hình 5: Giao di&n c a Teoma
Teoma là mt công c! tìm kim d
a trên crawler
c s hu bi Ask Jeeves.
Nó có s l
ng trang web
c ch& m!c nh2 hn Google và Yahoo. Nm 2000,
Teoma ra i cùng vi thành công c$a mình:
a ra
c nhng th liên quan. Tính
nng “Refine” c$a công c! này xu#t ra nhng ch$ kho sát sau khi bn th
c
hi n mt tìm kim.
Teoma
c Ask Jeeves mua vào tháng 9 nm 2001 và c/ng cung c#p mt s
kt qu cho web site này.
SV
ne
t.vn
tài: Tìm kim ng ngh a ng d!ng trên l nh v
c eDoc
0112274 – Phm Th M Ph
ng - 23 - 0112398 – T Th Ngc Thanh
2.1.1.6. HotBot:
Hình 6: Giao di&n HotBot
HotBot h tr truy cp d- dàng n 3 trang web search engine d
a vào crawler
ln: Yahoo, Google, và Teoma. Không nh
mt meta search engine, nó không th pha
trn các kt qu t t#t c các crawler này vi nhau. Do ó, nó là mt cách nhanh, d-
dàng l#y các “ý kin” tìm kim web khác nhau trong mt ni.
SV
ne
t.vn
tài: Tìm kim ng ngh a ng d!ng trên l nh v
c eDoc
0112274 – Phm Th M Ph
ng - 24 - 0112398 – T Th Ngc Thanh
2.1.1.7. AltaVista:
Hình 7: Giao di&n c a Altavista
AltaVista
c
a ra vào tháng 9 nm 1995 và
c xem nh
là “Google”
trong mt vài nm, nó cung c#p nhng kt qu liên quan và ã có mt nhóm ng
i
dùng yêu thích công c! tìm kim này. Nh
ng t sau nm 1998, ng
i ta không còn
a
chung AltaVista na, bi vì s
mi m, c$a các danh sách AltaVista và tin tc
c
a ra c$a crawler trong trang web này không
c cp nht th
ng xuyên.
Ngày nay, AltaVista mt ln na tp trung vào tìm kim. Các kt qu n t
Yahoo, và cho phép n các trang web tìm hình nh, MP3/Audio, Video, các danh
sách danh m!c con ng
i và các kt qu tin tc. Nu mun mt cm giác nh nhàng
hn Yahoo nh
ng vn có các kt qu c$a Yahoo, AltaVista là mt chn l
a tt.
SV
ne
t.vn
tài: Tìm kim ng ngh a ng d!ng trên l nh v
c eDoc
0112274 – Phm Th M Ph
ng - 25 - 0112398 – T Th Ngc Thanh
2.1.1.8. Lycos:
Hình 8: Giao di&n c a Lycos
Lycos là mt trong nhng công c! tìm kim c/ nh#t trên web,
c
a ra nm
1994.
c mô t nh
là nhng c.ng truy cp web ( web portal ) hay nhng trung tâm
truy cp, là ni mà ng
i dùng i vào l#y thông tin cho mi l nh v
c, k c tán gu,
gi th
i n t%,…
SV
ne
t.vn
tài: Tìm kim ng ngh a ng d!ng trên l nh v
c eDoc
0112274 – Phm Th M Ph
ng - 26 - 0112398 – T Th Ngc Thanh
Search
Engine
Google AlltheWeb AltaVista Teoma
Database google.com alltheweb.com altavista.com teoma.com
Kích th
c(#
trang )
Khong 8 t& (1
t& không ánh
ch& m!c trên
toàn vn bn)
Khong 3 t&,
ch& m!c trên
toàn vn bn.
Khong 1 t& Khong 1 t&
a ph
ng
ti n
(multimedia)
H tr H tr H tr Không h tr
Toán t%
M"c nh AND AND AND AND
Loi tr - - - -
C!m t Dùng d#u “ “ Dùng d#u “ ” Dùng d#u “ ” Dùng d#u “ “
Rút gn Không h tr
Dùng ký t
*
thay th
cho các ký t
trong d#u “ “
Không h tr Dùng ký t
* Không h tr
Boolean OR (ch& dùng
cho danh t
riêng )
AND, OR,
ANDNOT,
RANK, ()
AND, OR,
ANDNOT,
NEAR, ()
OR (ch& dùng cho tên
riêng)
SV
ne
t.vn
tài: Tìm kim ng ngh a ng d!ng trên l nh v
c eDoc
0112274 – Phm Th M Ph
ng - 27 - 0112398 – T Th Ngc Thanh
Stop words Thông th
ng
b2 qua các t
thông d!ng
+ nu mun
tìm và phi "t
trong c"p d#u
“ “
Dùng d#u “ “
trong search
c bn
B2 qua trong
search nâng
cao
Thông th
ng b2 qua
các t thông d!ng
+ nu mun tìm
Danh t
riêng
Không h tr Không h tr H tr Không h tr
Gii hn
field cn tìm
intitle:
inurl:
allintitle:
Allinurl:
filetype:
Link:site:
Trong search
nâng cao :
cache:info:
Normal.title:
url.all:
Link.all:
Link.extension
:
Title:
domain:
Link:
image:
Text:
url:
host:
Anchor:
applet:
intitle:
inurl:
site:
geoloc:
lang:
last:
afterfate:
Các "c tính
"c bi t
~ tìm t 1ng
ngh a
Gii hn bi
ngôn ng
Nhiu kiu file
: pdf, doc,…
Caches : trang
web khi ánh
ch& m!c
Duy t qua các
URL
Trong tìm
nâng cao :
gii hn bi
ngày, domain,
a ch& iP
Gii hn bi
ngày, v trí,
ngôn ng
Trong tìm
nâng cao : s%
d!ng sortby
lc và sp xp
kt qu.
Dùng refine ti
u
kt qu.
Resource có
c
các trang và liên kt
tp trung trên ch$
cn tìm.
SV
ne
t.vn
tài: Tìm kim ng ngh a ng d!ng trên l nh v
c eDoc
0112274 – Phm Th M Ph
ng - 28 - 0112398 – T Th Ngc Thanh
'u im
'u im
chính
R#t tt vi
nhng trang
có ph. bin
cao.
Các trang tin
tc gn ây
Tt nh
Google.
Không có
stopword.
Dùng nhiu
toán t%
Boolean trong
tìm kim.
Trong tìm
nâng cao h
tr hin th kt
qu theo
ph. bin c$a
t.
Tính ph. bin tt,
d
a vào s l
ng
trang web cùng ch$
vi các trang ang
xét. Th
ng t kt
qu áng khích l .
Search
Engine
Google AlltheWeb AltaVista Teoma
Bng 1 : Bng hng dn nhanh v cách s dng mt s search engine ph bin
Search
engine
C s$ d% li&u Toán t L#a ch)n tìm
kim
Linh tinh
Google
oogle.com
H tr tìm
kim nâng
cao
H thng th
m!c ch$
(Subject
Toàn vn bn
c$a các trang
web, .pdf,
.doc, .xls, .ps,
.wpd
(4.3B, + 1B
mt phn c$a
ch& m!c
URLs)
AND (m"c
nh)
OR (danh t
riêng)
+ cho các stop
word thông
d!ng, cho các
URL ho"c các
trang c! th (ví
Dùng * rút
gn.
Dùng “” tìm c!m
t.
Fields : intitle:,
inurl:, link:, site:
Tìm trên h
thng danh m!c
các ch$ trong
Kim li chính
t.
L
u tr các trang
ã lp ch& m!c.
Tt cho tìm các
trang hay b li
404.
Phiên dch n 5
ngôn ng.
SV
ne
t.vn
tài: Tìm kim ng ngh a ng d!ng trên l nh v
c eDoc
0112274 – Phm Th M Ph
ng - 29 - 0112398 – T Th Ngc Thanh
Directory)
H thng th
m!c m
(Open
Directory)
Tin tc : cp
nht th
ng
xuyên (4500
ngu1n ).
Các dng file
nh
Nhóm :
Usenet t
1981 n nay
d! +edu)
- loi tr
th
m!c web.
Tìm các trang
web t
ng t
.
~ tìm t 1ng
ngh a.
AlltheWeb
eb.com
H tr tìm
kim nâng
cao
Toàn b vn
bn các trang
web, .pdf,
Flash,
(3.1B toàn b
ch& m!c
URLs)
Tin tc : cp
nht th
ng
xuyên (3000
ngu1n)
Tranh nh
Video
Audio
FPT
AND (m"c
nh)
OR, phi "t
các t trong
d#u “ “.
ANDNOT,
RANK
- loi b2
Không rút gn.
Dùng d#u “ “ cho
c!m t.
Field intitle:inurl:
link:site:
Trong tìm nâng
cao :
gii hn theo
ngày, ngôn ng,
domain, file
format, a ch&
iP.
Kim li chính
t.
Tìm nâng cao :
tranh nh, video.
H tr s% d!ng
k thut
“clusters” ti
u câu truy v#n.
AltaVista
a.com
Toàn b vn
bn các trang
web (khong
AND (m"c
nh)
Trong tìm nâng
D#u * rút gn.
D#u “” cho c!m
t.
Kim li chính
t.
Phiên dch : 8
SV
ne
t.vn
tài: Tìm kim ng ngh a ng d!ng trên l nh v
c eDoc
0112274 – Phm Th M Ph
ng - 30 - 0112398 – T Th Ngc Thanh
H tr tìm
kim nâng
cao
H thng th
m!c ch$
(Subject
Directory )
H thng th
m!c m
(Open
Directory)
1B) và file
.pdf.
Tin tc (3000
ngu1n), nh,
MP3/Audio,
Video.
cao ho"c danh
t riêng trong
tìm c bn :
AND, OR,
ANDNOT,
NEAR, d#u ()
l1ng nhau.
- cho loi tr.
Tìm nâng cao :
gii hn ngày,
ngôn ng.
ngôn ng c$a
Châu Âu & các
ngôn ng c$a
Châu Á.
AltaVistaPrima :
ti
u câu h2i.
Teoma
om
H tr tìm
kim nâng
cao
Toàn b vn
bn trang web
(khong 1B)
AND (m"c
nh)
OR (danh t
riêng)
+ ho"c “” cho
stopword
- loi b2
Không rút gn.
Dùng d#u “ “ cho
c!m t.
Field intitle:inurl:
site:geoloc:lang:l
ast:
afterdate:befored
ate:
betweendate:
Trong tìm nâng
cao :
gii hn theo
ngày, ngôn ng,
domain, file
format, a ch&
iP.
Kim li chính
t.
Gom nhóm kt
qu Refine ti
u câu h2i.
Resource có
các trang ho"c
liên kt tp trung
vào ch$ .
SV
ne
t.vn
tài: Tìm kim ng ngh a ng d!ng trên l nh v
c eDoc
0112274 – Phm Th M Ph
ng - 31 - 0112398 – T Th Ngc Thanh
AskJeeves
www.ask.co
m
Nhn kt qu
t CSDL c$a
Teoma.
Tìm sn ph5m
:
PriceGrabber.
com,
Tìm tranh nh
:
Picsearch.co
m
Tìm tin tc :
Moreover.co
m.
Ging Teoma.
i vi nhng
câu h2i n
gin, xu#t hi n
c%a s. i
thoi.
Ging Teoma.
Click vào
Remove Frame
th#y URLs
c$a các trang.
Kim li chính
t.
AskJeeves for
Kids
www.ajkids.c
om
Tr li tt các
câu h2i n
gin.
Games cho
tr, em,
Tin tc theo
tng nhóm
tu.i.
H2i b0ng ngôn
ng t
nhiên.
Không s% d!ng
các toán t%
Boolean.
Click vào No
frames th#y
URL c$a trang
kt qu.
Dn n các
trang ph!c v!
hc tp : t
in,
vt lý, khoa hc,
bn 1, lch
s%,…
Yahoo
o.com
Xem xét các
trang web
(khong 13K)
AND (m"c
nh)
OR
C!m t : “”
Rút gn : *
Fields t: title,
u:URL
Nhiu dch v!
trong Yahoo:
Tin tc : tng
gi.
Th thao :t& s,..
Bn 1, thi tit,
SV
ne
t.vn
tài: Tìm kim ng ngh a ng d!ng trên l nh v
c eDoc
0112274 – Phm Th M Ph
ng - 32 - 0112398 – T Th Ngc Thanh
mua sm.
Bng 2: S lc v các c trng c a mt s search engine thông dng trên
Internet
2.1.2. Chin lc tìm kim
T “search engine” th
ng
c s% d!ng rng rãi mô t các công c! tìm
kim d
a trên crawler và các th
m!c do con ng
i cung c#p. ây là hai loi c$a các
search engine tp hp các danh sách c$a chúng trong nhng cách khác nhau hoàn
toàn.
Search engine d
a vào crawler g1m 3 phn:
B thu th*p thông tin – Robot
Robot là mt ch
ng trình t
ng duy t qua các c#u trúc siêu liên kt thu
thp tài li u và mt cách quy nó nhn v t#t c các tài li u có liên kt vi tài li u
này.
Robot
c bit n d
i nhiu tên gi khác nhau : spider, web wanderer ho"c
web worm, crawler… Nhng tên gi này ôi khi gây nhm ln, nh
t ‘ spider ’, ‘
wanderer ’ làm ng
i ta ngh r0ng robot t
nó di chuyn và t ‘ worm ’ làm ng
i ta
liên t
ng n virus. V bn ch#t robot ch& là mt ch
ng trình duy t và thu thp
thông tin t các site theo úng giao thc web. Nhng trình duy t thông th
ng không
c xem là robot do thiu tính ch$ ng, chúng ch& duy t web khi có s
tác ng c$a
con ng
i.
B l*p ch3 mc – Index
H thng lp ch& m!c hay còn gi là h thng phân tích và x% lý d li u, th
c
hi n vi c phân tích, trích chn nhng thông tin cn thit (th
ng là các t n , t
ghép , c!m t quan trng) t nhng d li u mà robot thu thp
c và t. chc thành
SV
ne
t.vn
tài: Tìm kim ng ngh a ng d!ng trên l nh v
c eDoc
0112274 – Phm Th M Ph
ng - 33 - 0112398 – T Th Ngc Thanh
c s d li u riêng có th tìm kim trên ó mt cách nhanh chóng, hi u qu. H
thng ch& m!c là danh sách các t khoá, ch& rõ các t khoá nào xu#t hi n trang nào,
a ch& nào.
B tìm kim thông tin – Search Engine
Search engine là c!m t dùng ch& toàn b h thng bao g1m b thu thp
thông tin, b lp ch& m!c và b tìm kim thông tin. Các b này hot ng liên t!c t
lúc khi ng h thng, chúng ph! thuc ln nhau v m"t d li u nh
ng c lp vi
nhau v m"t hot ng.
Search engine t
ng tác vi user thông qua giao di n web, có nhi m v! tip
nhn và tr v nhng tài li u tho yêu cu c$a user.
Nói nôm na, tìm kim t là tìm kim các trang mà nhng t trong câu truy v#n
(query) xu#t hi n nhiu nh#t, ngoi tr stopword (các t quá thông d!ng nh
mo t a,
an, the,…). Mt t trong câu truy v#n càng xu#t hi n nhiu trong mt trang thì trang
ó càng
c chn tr v cho ng
i dùng. Và mt trang cha t#t c các t trong câu
truy v#n thì tt hn là mt trang không cha mt ho"c mt s t. Ngày nay, hu ht
các search engine u h tr chc nng tìm c bn và nâng cao, tìm t n, t ghép,
c!m t, danh t riêng, hay gii hn phm vi tìm kim nh
trên m!c, tiêu , on
vn bn gii thi u v trang web,…..
Ngoài chin l
c tìm chính xác theo t khoá, các search engine còn c gng
‘hiu’ ý ngh a th
c s
c$a câu h2i thông qua nhng câu ch do ng
i dùng cung c#p.
iu này
c th hi n qua chc nng s%a li chính t, tìm c nhng hình thc bin
.i khác nhau c$a mt t. Ví d! : search engine s* tìm nhng t nh
speaker,
speaking, spoke khi ng
i dùng nhp vào t speak.
SV
ne
t.vn
tài: Tìm kim ng ngh a ng d!ng trên l nh v
c eDoc
0112274 – Phm Th M Ph
ng - 34 - 0112398 – T Th Ngc Thanh
Nguyên lý ho4t ng
Search engine iu khin robot i thu thp thông tin trên mng thông qua các
siêu liên kt ( hyperlink ). Khi robot phát hi n ra mt site mi, nó gi tài li u (web
page) v cho server chính to c s d li u ch& m!c ph!c v! cho nhu cu tìm kim
thông tin.
Bi vì thông tin trên mng luôn thay .i nên robot phi liên t!c cp nht các
site c/. Mt cp nht ph! thuc vào tng h thng search engine. Khi search engine
nhn câu truy v#n t user, nó s* tin hành phân tích, tìm trong c s d li u ch& m!c
và tr v nhng tài li u tho yêu cu.
2.2. Semantic Web
2.2.1. Khái ni&m
“Web ng ngh a” là mt dng m rng c$a web hi n nay, mà cho phép ta truy
tìm, chia s,, phi hp, s% d!ng li và rút trích thông tin mt cách chính xác, d- dàng.”(
Tim – Berners Lee, XML – 2000 ).
Web ng ngh a là mt mng l
i thông tin
c liên kt theo cách mà máy tính
có th d- dàng x% lý
c trên quy mô toàn cu. Chúng ta có th xem web ng ngh a
nh
là mt c s d li u toàn cu
c liên kt vi nhau.
Web ng ngh a
c phát trin bi Tim – Berners Lee, nhà phát minh c$a
WWW, URIs, HTTP, và HTML. Hi n nay có mt nhóm nghiên cu ti tp oàn
WWW ang ci tin, m rng và tiêu chu5n hoá h thng ng ngh a.
D li u trong tp tin HTML th
ng hu ích trong mt s tr
ng hp. Phn ln
d li u trên web là dng HTML nên khó s% d!ng trên quy mô ln, bi vì nó không có
mt h thng toàn cu xu#t bn d li u.
Do ó, Web ng ngh a
c xem nh
là mt gii pháp k thut.
Web ng ngh a
c xây d
ng ch$ yu trên cú pháp s% d!ng URIs biu di-n
d li u, th
ng th#y là c#u trúc d
a trên b ba (subject, predicate, object), ví d!: nhiu
b ba c$a d li u URI có th
c c#t gi trong c s d li u, ho"c thay th ln nhau
SV
ne
t.vn
tài: Tìm kim ng ngh a ng d!ng trên l nh v
c eDoc
0112274 – Phm Th M Ph
ng - 35 - 0112398 – T Th Ngc Thanh
trên word wide web b0ng cách s% d!ng mt tp các cú pháp "c bi t
c pháp trin
chuyên bi t ph!c v! cho nhi m v! ó. Cú pháp này
c gi là cú pháp RDF.
Web ng ngh a yêu cu d li u không nhng máy có th c
c mà còn
mong mun máy có th hiu
c. Trích dn câu nói c$a Tim – Berners Lee:
“The semantic web goal is to be a unifying system which will (like the web for
human communication) be as un-restraining as possible so that the complexity of
reality can be described”.
Tm dch là: “M!c ích c$a web ng ngh a là mt h thng hp nh#t (ging
nh
web dành cho s
giao tip c$a ng
i) càng không b cn tr càng tt mà
phc tp c$a th
c t có th
c mô t”.
Vi web ng ngh a, nó s* d- dàng nhn bit toàn b phm vi c$a các công c!
và ng d!ng khó gii quyt trong khuôn kh. c$a web hi n ti.
Hai công ngh quan trng cho vi c phát trin semantic web là: eXtensible
Markup Language (XML) và Resource Description Frameword (RDF). XML cho
phép mi ng
i có th to ra các tag (th, ) c$a riêng mình. Còn RDF thì trình bày ng
ngh a, RDF s% d!ng tp các triple mô t các khái ni m c s.
URI ( Uniform Resource Identifier):
Mt URI n gin dùng nhn bit mt trang web: ging nh
các chui bt
u vi “http” hay “ftp” mà bn th
ng th#y trên word wide web. B#t k3 ai c/ng có
th to ra mt URI và quyn s hu chúng
c u4 quyn mt cách rõ ràng, chính vì
vy chúng to nên c s quan ni m xây d
ng web toàn cu. Th
c ra, word wide
web có th xem nh
là: b#t k3 th gì mà có URI
c coi nh
là “on the web”.
Các URIs là các chui ký t
có th nhn bit các tài nguyên trên web. Thông
qua vi c s% d!ng URIs, chúng ta có th s% d!ng cùng cách "t tên n gin tham
chiu n các tài nguyên d
i các nghi thc (protocol) khác nhau nh
là: HTTP, FTP,
GOPHER, EMAIL, ….
URLs ( Uniform Resource Locator): là mt dng
c s% d!ng rng rãi c$a
URIs,
c s% d!ng r#t ph. bin trên web, là các a ch& c$a các tài nguyên. M"c dù
th
ng
c bit n nh
là các URLs, nh
ng URIs c/ng có th
c tham chiu n
SV
ne
t.vn
tài: Tìm kim ng ngh a ng d!ng trên l nh v
c eDoc
0112274 – Phm Th M Ph
ng - 36 - 0112398 – T Th Ngc Thanh
các khái ni m trong semantic web. Ví d!, gi s% bn có mt quyn sách có tên là
“Machine Learning”, thì URI c$a nó s* nh
sau:
L
u ý là mi th trên web u có mt URI duy nh#t.
2.2.2. Kin trúc
Web ng ngh a
c xây d
ng theo mô hình kin trúc phân tng g1m có 7
tng, các tng nh
sau:
Hình 9: Kin trúc t+ng c a Semantic web.
Tng Unicode + URI:
Nh0m bo m vi c s% d!ng tp ký t
quc t và cung c#p ph
ng ti n nh
danh các i t
ng trong Web ng ngh a.
Tng XML + NS + L
c 1 XML:
Cùng vi các nh ngh a v namespace và schema bo m r0ng ta có th tích
hp các nh ngh a web ng ngh a vi các chu5n d
a trên XML khác.
Tng RDF + L
c 1 RDF:
Dùng siêu d li u mô t tài li u trên Web máy có th hiu
c chúng.
SV
ne
t.vn
tài: Tìm kim ng ngh a ng d!ng trên l nh v
c eDoc
0112274 – Phm Th M Ph
ng - 37 - 0112398 – T Th Ngc Thanh
Tng Ontology:
L
c 1 RDF cung c#p các công c! nh ngh a nhng t v
ng, c#u trúc và
các ràng buc trong vi c mô t cho siêu d li u v các tài nguyên Web. Nh
ng l
c
1 RDF ch
a tht s
y $ cho vi c mô hình hoá và h tr suy lun trên Semantic
Web. Ngôn ng Ontology OIL
c ra là mt dng m rng c$a l
c 1 RDF. Nó
cho phép th hi n ng ngh a hình thc, giúp h tr suy di-n t
ng.
Tng Logic:
Tng logic
c xem nh
là mt c s lut trên Semantic Web. Bn ch#t c$a c
s lut này có dng nh
mt h chuyên gia. Tng này s* h tr các dch v! nh
: phân
loi vn bn, rút trích d li u.
Tng Proof:
Trong khi tng logic giúp h tr suy lun d
a vào c s lut thì tng Proof
c
dùng chng minh các suy di-n c$a h thng b0ng cách liên kt các d ki n.
Tng Trust:
Trong Web ng ngh a các thông tin
c s% d!ng chung nh
mt c s d li u
toàn cu, nên cn phi có mt cái gì ó bo mt. ó là nguyên nhân c$a s
ra i
c$a ch ký i n t%, nó giúp cho thông tin trên Web áng tin cy hn. Trust engine là
mt h thng ang
c xây d
ng d
a trên nn tng c$a ch ký i n t%. Các k thut
xây d
ng chúng còn ang trong giai on nghiên cu và th% nghi m.
2.2.3. Các thách th'c t ra cho Semantic web
2.2.3.1. Thách th'c 1: Tính s5n có c a ni dung (The availability
of content)
Ni dung c$a web ng ngh a là ni dung web
c chú thích theo các ontology
"c bi t, các ontology này nh ngh a ng ngh a c$a các t ho"c các khái ni m xu#t
hi n trong cùng mt ni dung. Mt s
m rng n gin i vi HTML là
c dùng
chú thích các trang web vi thông tin v ontology. Vi c to ni dung semantic web
là mt thách thc ln, bi vì “c s h tng” c$a semantic web vn còn ang
c xây
SV
ne
t.vn
tài: Tìm kim ng ngh a ng d!ng trên l nh v
c eDoc
0112274 – Phm Th M Ph
ng - 38 - 0112398 – T Th Ngc Thanh
d
ng (ch
a hoàn ch&nh – RDF, OIL, DAML+OIL,…), hi n ti có r#t ít ni dung web
ng ngh a có s6n.
2.2.3.2. Thách th'c 2: Các ontology s5n có, phát tri6n và tin hoá
Các ontology là chìa khóa i vi semantic web bi vì chúng là nhng b
chuyên ch ng ngh a
c cha trong semantic web, có ngh a là chúng cung c#p mt
tp t v
ng và ng ngh a chú thích. Có 3 v#n chính cn
c gii quyt i vi
thách thc này, hai v#n u có liên quan n các v#n v vi c phát trin các
ontology truyn thng mà cho n tn bây gi các v#n này vn ch
a
c gii
quyt, và v#n th ba còn li có liên quan nhiu n khung cnh mi c$a semantic
web:
V#n th nh#t là vi c xây d
ng các ontology ht nhân (kernel)
c s%
d!ng bi t#t c các domain. Nhng khi u t1n ti i vi vi c xây d
ng mt s
kernel ontology này là chúng phi
c ng d!ng trong nhng domain khác nhau.
V#n th hai là cung c#p s
h tr mang tính ch#t gii pháp và công ngh i
vi hu ht các hot ng c$a tin trình phát tri
n ontology, bao g1m:
a. S
thu thp tri thc, mô hình khái ni m và mã hoá ontology trong các
ngôn ng semantic web (RDFS, OIL, DAML+OIL), và các ngôn ng
mi – các ngôn ng mi này có th s*
c
a ra trong nhng nm sp
ti [Maedche, Staab – 2001] .
b. S
sp xp và ánh x ontology, s
tích hp ontology, các công c!
chuyn .i ontology, và các công c! xây d
ng ontology, nu các
ontology t1n ti sp
c s% d!ng li [Fensel et al, 2001], [Noy, Musen
2000].
c. Các công c! kim tra tính bn vng cho các ontology
c s% d!ng li
[Gomez-Perez 1996].
V#n th ba là s
tin hoá c$a các ontology và mi quan h c$a chúng i vi
các d li u ã
c chú thích. Các công c! qun lý c#u hình là cn thit cho s
iu
khin các phiên bn c$a mi ontology c/ng nh
s
ph! thuc ln nhau gia chúng và
SV
ne
t.vn
tài: Tìm kim ng ngh a ng d!ng trên l nh v
c eDoc
0112274 – Phm Th M Ph
ng - 39 - 0112398 – T Th Ngc Thanh
các chú thích. T#t c các v#n này có th là không quan trng lm, nh
ng cn thit
phi gii quyt tr
c khi mt semantic web th
c s
ra i.
2.2.3.3. Thách th'c 3: Scalability of semantic web content
Mt khi chúng ta ã có ni dung c$a semantic web, chúng ta s* phi quan tâm
n vi c phi qun lý nó nh
th nào, có ngh a là cách t. chc nó nh
th nào, ni l
u
tr nó và cách tìm
c ni dung úng n. Có 2 v#n chính trong thách thc
này:
a. V#n th nh#t có liên quan n vi c l
u tr và t. chc c$a các trang
web ng ngh a (semantic web pages). Semantic web “c s” bao g1m
các trang
c chú thích d
a trên ontology, c#u trúc liên kt c$a các
trang này phn ánh c#u trúc c$a WWW, có ngh a là các trang liên kt
vi nhng trang khác thông qua các hyperlink. Theo cách liên kt này
(hyperlink) thì không khai thác
c y $ ng ngh a c$a các trang
web ng ngh a. Chin l
c semantic indexes
c xu#t gom
nhóm ni dung c$a semantic web d
a trên các ch$ c! th. Semantic
indexes s*
c phát sinh t
ng b0ng cách s% d!ng thông tin c$a
ontology và các tài li u ã
c chú thích.
b. V#n th hai có liên quan n vi c d- dàng tìm kim thông tin trên
semantic web, nói cách khác là có liên quan n vi c phi hp gia các
semantic indexes.
2.2.3.4. Thách th'c 4: a ngôn ng%
Vi c hc d
a trên s
phân tán c$a ngôn ng thông qua ni dung c$a WWW ch&
ra r0ng thm chí nu ting Anh là ngôn ng
u th hn i vi các tài li u, mt s tài
nguyên
c vit b0ng ngôn ng khác c/ng r#t quan trng: Ting Anh 68,4%; Ting
Nht 5,9%; Ting c 5,8%; Ting Trung Quc 3,9%; Ting Pháp 3,0%; Ting Tây
Ban Nha 2,4%; Ting Nga 1,9%; Ting Italia 1,6%; Ting B1 ào Nha 1,4%; Ting
Hàn 1,3%; Các ngôn ng khác 4,6% [www.vilaweb.com]. Tính a dng c$a ngôn ng
còn quan trng hn nhiu i vi các tài nguyên WWW. a ngôn ng óng vai trò
SV
ne
t.vn
tài: Tìm kim ng ngh a ng d!ng trên l nh v
c eDoc
0112274 – Phm Th M Ph
ng - 40 - 0112398 – T Th Ngc Thanh
ngày càng ln i vi các c#p sau: c#p ontology, c#p chú thích, và c#p
giao di n ng
i dùng.
( c#p ontology, nhng ng
i thit k ontology có th mun s% d!ng ngôn
ng a ph
ng c$a mình cho vi c phát trin ontology mà trong ó các chú thích s*
c gn vào. Bi vì không phi t#t c ng
i s% d!ng u là nhng ng
i xây d
ng
ontology, nên c#p này có
u tiên th#p nh#t. S
t1n ti cu a ngôn ng và các tài
nguyên ngôn ng hc, nh
là WordNet [wordnet], EuroWordnet [eurowordnet],…có
th
c xem xét t& m& h tr v#n a ngôn ng c#p này.
( c#p chú thích (annotation), chú thích c$a ni dung có th
c th
c hi n
trong nhiu ngôn ng khác nhau. Bi vì nhiu ng
i dùng ("c bi t là các nhà cung
c#p ni dung) s* thích chú thích ni dung hn là phát trin các ontology, s
h tr phù
hp là cn thit phi cho các nhà cung c#p ( ni dung ) chú thích ni dung b0ng
ngôn ng a ph
ng c$a h. có th phát sinh ni dung web ng ngh a b0ng t#t c
kh nng, chúng ta không th yêu cu chú thích ni dung t ting Pháp sang ting c
c và ng
c li.
Cui cùng c#p giao di n ng
i dùng, hàng t& ng
i mun truy xu#t vào ni
dung thích hp b0ng ngôn ng a ph
ng c$a h b#t ch#p ngôn ng ngu1n – ngôn
ng mà trong ó các chú thích
c trình bày. M"c dù hi n ti, a s ni dung u
c vit b0ng ting Anh, chúng ta hy vng r0ng s* có nhiu ni dung hn
c vit
b0ng nhiu ngôn ng khác. B#t k3 h
ng tip cn nào c$a semantic web c/ng nên bao
g1m các ti n ích truy xu#t thông tin trong nhiu ngôn ng. Các công ngh quc t hoá
và a ph
ng hoá nên
c xem xét c5n thn i vi vi c truy xu#t thông tin cá nhân
d
a trên ngôn ng a ph
ng c$a ng
i dùng.
2.2.3.5. Thách th'c 5: Visualization – s# m7ng tng
Vi s
gia tng thông tin v
t bc, s
m
ng t
ng (hình dung) c$a tr
c giác
v thông tin s* tr nên r#t quan trng, bi vì ng
i dùng s* yêu cu s
d- dàng
nhn bit s
phù hp c$a ni dung cho m!c ích c$a h ngày càng gia tng. Thêm vào
ó vi c s% d!ng semantic indexes và các routers cho vi c l
u tr, t. chc và tìm kim
SV
ne
t.vn
tài: Tìm kim ng ngh a ng d!ng trên l nh v
c eDoc
0112274 – Phm Th M Ph
ng - 41 - 0112398 – T Th Ngc Thanh
thông tin, v sau này s* yêu cu mt b
c quan trng trong s
m
ng t
ng. Các
công ngh nên cho phép i vi các công ngh 3 chiu và s
m
ng t
ng mi
m
ng t
ng ra ni dung c$a semantic web trong b#t k3 mt ngôn ng web hi n ti
nào (RDFS, OIL, DAML + OIL). Thông qua công ngh hin th 1 ho thi gian th
c
3D tho áng và vi c khai thác các mi quan h ng ngh a, mt giao di n ba chiu
mi có th
c phát sinh mt cách t
ng. Theo cách này, nhiu thông tin hn có
th
c trình bày trong mt không gian nh2 hn, và ng
i dùng có th t
ng tác vi
các site mt cách th
c t và ti n li [Van Harmelen et al 2001].
2.2.3.6. Thách th'c 6: S# chu,n hoá các ngôn ng% semantic web
Semantic web là mt l nh v
c ang n.i bt và WWW Consortium s*
a ra các
gii thi u v các ngôn ng và công ngh s*
c s% d!ng. v
n lên n mc ngh
thut trong semantic web, và các công c! phn ln ph! thuc vào ngôn ng semantic
web mà chúng
c h tr, thì nhu cu chu5n hoá ngôn ng semantic web là mt òi
h2i cn thit.
2.2.4. So sánh web và web ng% ngh!a
im ging nhau gia Web và Web ng ngh a: c 2 u dùng nhng liên kt
(link) URI, nh
ng Web ng ngh a s% d!ng các link này r#t nhiu, vi c s% d!ng link
làm gia tng tính chính xác c$a thông tin.
S
khác nhau c bn gia Web và Web ng ngh a:
Web ng% ngh!a Web
Web ng ngh a là mt không gian
thông tin trong ó thông tin
c biu
di-n thông qua mt ngôn ng mà máy
và ng
i u có th hiu
c.
Web là mt không gian thông tin cha
ng thông tin ch& h
ng vào vi c biu
di-n trong mt ngôn ng t
nhiên mà
ch& có ng
i mi hiu
c.
Web ng ngh a là mt d li u liên kt
vi nhau mt cách ng ngh a và hình
thc.
Web là mt tp hp thông tin liên kt
vi nhau mt cách không hình thc.
SV
ne
t.vn
tài: Tìm kim ng ngh a ng d!ng trên l nh v
c eDoc
0112274 – Phm Th M Ph
ng - 42 - 0112398 – T Th Ngc Thanh
2.2.5. Các khái ni&m liên quan
2.2.5.1. Metadata
Metadata là thông tin có c#u trúc mô t, gii thích, nh v ho"c m"t khác
làm cho d- dàng truy v#n, s% d!ng, qun lý mt tài nguyên thông tin. Metadata th
ng
c gi là d li u v d li u (t in d li u), ho"c là thông tin v thông tin.
Metadata là thông tin v thông tin, metadata
c s% d!ng rng rãi trong
th gii th
c cho m!c ích tìm kim. Ví d!, bn mun m
n mt vài quyn sách
mt th
vi n nào ó thông qua máy tính. Th
ng thì th
vi n s* cung c#p mt h
thng tra cu, h thng này cho phép bn li t kê sách theo tên tác gi (author), theo
t
a sách (title), theo ch$ (subject), v.v…. Danh sách li t kê này cha nhiu thông
tin quan trng nh
: tên tác gi, t
a sách, ISBN, và thông tin quan trng nh#t là ni c#t
gi sách. Bn cn vài thông tin (trong tr
ng hp này là ni c#t gi sách) mà bn
mun bit và bn s% d!ng metadata (trong tr
ng hp này là: tên tác gi, t
a sách, và
ch$ ) l#y
c sách.
Có 3 kiu metadata:
a. Descriptive metadata: mô t mt tài nguyên cho nhng m!c ích nh
là
khám phá ho"c là nhn di n. Nó có th bao g1m các phn t% nh
là:
titles, astract, author, và keywords.
b. Structural metadata: ví d!: cho bit các i t
ng phc hp liên kt vi
nhau nh
th nào, các trang (pages)
c sp xp thành các ch
ng nh
th nào.
c. Administrative metadata: cung c#p thông tin giúp cho vi c qun lý mt
tài nguyên, nh
là nó
c to ra khi nào và nh
th nào, kiu file, và
các thông tin k thut khác, và nhng ai có th truy cp n nó.
2.2.5.2. Namespace
Chúng ta có th m rng tp t v
ng c$a chúng ta thông qua các
namespace – là các nhóm c$a tên các phn t% và tên các thuc tính. Gi s%, nu bn
mun gp (include) mt ký hi u (symbol)
c mã hoá trong mt ngôn ng ánh d#u
SV
ne
t.vn
tài: Tìm kim ng ngh a ng d!ng trên l nh v
c eDoc
0112274 – Phm Th M Ph
ng - 43 - 0112398 – T Th Ngc Thanh
nào ó trong mt tài li u XML, thì bn có th khai báo mt namespace ( không gian
tên) mà symbol ó thuc v. Thêm vào ó, chúng ta có th tránh
c tình hung hai
i t
ng XML trong các không gian tên khác nhau vi cùng mt tên mà có ý ngh a
khác nhau thông qua các "c tr
ng c$a các namespace. Gii pháp là gán mt tin t
nhn bit namespace mà mi phn t% ho"c các thuc tính thuc v. Cú pháp c$a
namespace nh
sau:
ns-prefix:local-name
Trong ó ns-prefix là tên c$a namespace, và local-name là tên c$a phn
t% ho"c thuc tính.
Ví d! v namespace:
Tài li u XML d
i ây là mt th
vi n sách. Chúng ta bt u b0ng phn
t% gc có tên th, là , bên trong th, gc cha các phn t% sách và t
a
sách nh
sau:
Earthquakes for lunch
Không gian tên cc b (local namespace):
Chúng ta có th "t thuc tính xmlns phn t% gc hay b#t k3 th, nào khác.
Khi thuc tính này không n0m trong th, gc thì ta gi ó là không gian tên c!c b.
Ví d!: Xem on xml d
i ây:
<minhkhai: library
xmlns: minhkhai= >
SV
ne
t.vn
tài: Tìm kim ng ngh a ng d!ng trên l nh v
c eDoc
0112274 – Phm Th M Ph
ng - 44 - 0112398 – T Th Ngc Thanh
Earthquakes for lunch.
<amazon:book
xmlns:amazon=>
Earthquakes for lunch.
Trong ví d! này thì namespace: xmlns:amazon=
c gi là không gian tên c!c b.
2.2.6. Ontology
Thut ng “ontology”
c vay m
n t trit hc. Ý ngh a u tiên c$a nó là
“the branch of metaphysics that deals with the nature of being” [The American
Heritage® Dictionary of the English Language: Fourth Edition (2000)].
Ontology là mt công ngh quan trng mang tính ch#t x
ng sng, vì nó cung
c#p mt "c tính quan trng: ontology giao tip
c gia ng ngh a hình thc mà
máy tính có th hiu
c vi ng ngh a c$a th gii th
c mà con ng
i có th hiu
c.
Nhng Ontology
c phát trin trong trí tu nhân to tri thc d- dàng chia
s, và s% d!ng li. K t u thp niên 90 c$a th k4 XX, Ontology ã tr thành mt
tài nghiên cu ph. bin i vi các t. chc nghiên cu trí tu nhân to, bao g1m
nhng k s
v tri thc (Knowledge), x% lý ngôn ng t
nhiên và trình bày tri thc.
Ontology không ch& làm cho tri thc có th s% d!ng li d- dàng hn, nó còn là
nn tng c$a vi c to ra các chu5n bi vì nó làm rõ các khái ni m bên cnh mt thut
ng ho"c mt mô hình. Yêu cu trên th
c t không phi ch& dành cho mt khái ni m
SV
ne
t.vn
tài: Tìm kim ng ngh a ng d!ng trên l nh v
c eDoc
0112274 – Phm Th M Ph
ng - 45 - 0112398 – T Th Ngc Thanh
duy nh#t, mà là i vi mt s
t
ng tác m h1 gia các khái ni m phc tp và chi tit
( có th
c trình bày trong nhiu ngôn ng khác nhau).
Gn ây, khái ni m Ontology ã tr nên ph. bin hn nhiu trong các l nh v
c
nh
s
tích hp thông minh, nhng h thng thông tin hp tác, ph!c h1i thông tin,
giao dch th
ng mi i n t%, và qun lý tri thc. M!c ích c$a Ontology là h
ng
n tri thc min, nên s
phát trin c$a nó th
ng là mt quá trình x% lý kéo theo
nhiu yu t khác.
T lúc ra i n nay, Ontology ã có r#t nhiu nh ngh a. Tuy nhiên, "c
im ct li c$a Ontology vn là: “Mt ontology là mt s
ch& nh tng minh, hình
thc và chia s v mt khái nim dùng chung”. Trong ó:
Mt khái nim tham chiu n mt mô hình tru t
ng c$a mt
vài hi n t
ng nào ó trong th gii th
c mà xác nh nhng khái
ni m có liên quan v hi n t
ng ó.
Tng minh là nhng khái ni m và nhng ràng buc trên nó
c
s% d!ng mt cách rõ ràng.
Hình thc tham chiu n công vi c mà ontology phi th
c hi n
máy tính có th hiu
c.
Chia s phn ánh r0ng mt ontology gi tri thc 1ng nh#t, ngh a
là nó không b hn ch bi mt cá nhân hay mt nhóm riêng l,
nào.
Hi n nay có nhiu ontology ln nh
: CYC, WordNet, ….
Ví d! v ontology:
SV
ne
t.vn
tài: Tìm kim ng ngh a ng d!ng trên l nh v
c eDoc
0112274 – Phm Th M Ph
ng - 46 - 0112398 – T Th Ngc Thanh
Hình 10: Mt Ontology n gin
2.2.7. Rdf
2.2.7.1 Khái ni&m :
RDF là t vit tt c$a Resource Description Framework. RDF
c c% bi
W3C cho mt mô hình và ngôn ng siêu d li u (metadata) chu5n. RDF là mt b
khung cho vi c mô t các tài nguyên trên web.
RDF cung c#p mô hình d li u và cú pháp các phn c lp nhau có th
chuyn .i cho nhau và s% d!ng
c RDF.
2.2.7.2 C(u trúc :
RDF là khung s
n (framework) cho vi c x% lý metadata, và nó mô t các mi
quan h gia các tài nguyên thông qua các thuc tính và các giá tr. RDF
c xây
d
ng d
a trên các lut nh
sau:
SV
ne
t.vn
tài: Tìm kim ng ngh a ng d!ng trên l nh v
c eDoc
0112274 – Phm Th M Ph
ng - 47 - 0112398 – T Th Ngc Thanh
Resource: Mi th
c mô t b0ng biu thc RDF
c gi là mt
resource ( tài nguyên). Mi tài nguyên có mt URI và nó có th là toàn b trang web
ho"c là mt phn c$a trang web.
Property: “Property là mt khía cnh, "c tr
ng, thuc tính ho"c quan h
riêng bi t
c dùng mô t mt tài nguyên” – trích trong W3C, Resource
Description Framework (RDF) Model and Syntax Specification. Chú ý là mt
property c/ng có th là mt resource bi vì nó có nhng tính ch#t riêng c$a nó.
Statements: Mt statements
c dùng kt hp mt resource, mt
property và mt value c$a nó. Ba phn riêng bi t này
c bit nh
là “subject”,
“predicate”, và “object”. Ví d!, “The Author of
is Peng Wang” là mt statement.
Chú ý r0ng value c$a câu này có th là mt chui ký t
mà c/ng có th là mt
resource.
Ví d v RDF:
Mt statement ( phát biu ) có th
c xem nh
là mt 1 th trong RDF.
Phát biu nh
sau:
“The Author of is
Peng Wang”
Câu trên
c phân tích thành 3 phn:
Subject ( Resource )
Predicate (Property) Author
Object (Literal) Peng Wang
c biu di-n d
i dng 1 th nh
sau:
SV
ne
t.vn
tài: Tìm kim ng ngh a ng d!ng trên l nh v
c eDoc
0112274 – Phm Th M Ph
ng - 48 - 0112398 – T Th Ngc Thanh
Chiu c$a m/i tên luôn h
ng t subject n object c$a phát biu ( statement).
Và 1 th có th c theo cách sau: “ HAS ”, ví d!:
“ has author Peng Wang”.
Nu chúng ta gán mt URI cho thuc tính author, thì s* có :
trình bày ngn gn, chúng ta
a ra mt s tin t ( prefix) tránh phi
vit li toàn b a ch& URI tham chiu n. Có mt s tin t gn lin vi các URI
c s% d!ng rng rãi sau:
Tin t rdf: là không gian tên cho URI:
Tin t rdfs: là không gian tên cho URI:
Tin t daml: là không gian tên cho URI:
Tin t xsd: là không gian tên cho URI:
Trong ví d! này, chúng ta dùng không gian tên là pwterms i di n cho a
ch& URI mà ta tham chiu n:
Khi ó cú pháp RDF cho câu phát biu: “The Author of
is Peng Wang” là:
1
2
3
4
5
6
7
<rdf:RDF xmlns:rdf=""
xmlns:pwterms=" ">
<rdf:Description
rdf:about="">
Peng Wang
SV
ne
t.vn
tài: Tìm kim ng ngh a ng d!ng trên l nh v
c eDoc
0112274 – Phm Th M Ph
ng - 49 - 0112398 – T Th Ngc Thanh
Mt câu phát biu khác: “Mt ng
i có mã s sinh viên là pw2538 có tên là
Peng Wang và có a ch& email là pw2538@bristol.ac.uk . Ng
i này là tác gi c$a tài
nguyên ”
Có 1 th nh
sau:
Có cú pháp RDF:
SV
ne
t.vn
tài: Tìm kim ng ngh a ng d!ng trên l nh v
c eDoc
0112274 – Phm Th M Ph
ng - 50 - 0112398 – T Th Ngc Thanh
Mô hình d% li&u RDF (RDF Data Model):
RDF cung c#p mt mô hình cho vi c mô t các tài nguyên. Tài nguyên có các
tính ch#t (property) – thuc tính ho"c là "c tr
ng. RDF nh ngh a tài nguyên nh
là
mt i t
ng b#t k3 có th nhn bit duy nh#t b0ng mt URI. Các property
c kt
hp vi các tài nguyên
c nhn bit bi các property – types, và các property –
types này có các values t
ng ng. Property – types mô t mi quan h c$a các values
c kt hp vi các tài nguyên. Trong RDF, các values có th
c xem nh
là
nguyên t% trong t
nhiên ( chui text, s, v.v…) ho"c là các loi tài nguyên khác.
Bn ch#t ct lõi c$a RDF là mt mô hình c lp cú pháp cho vi c trình bày các
tài nguyên và s
mô t t
ng ng c$a chúng.
SV
ne
t.vn
tài: Tìm kim ng ngh a ng d!ng trên l nh v
c eDoc
0112274 – Phm Th M Ph
ng - 51 - 0112398 – T Th Ngc Thanh
Hình 11: Mô hình d% li&u RDF
Mô hình d li u RDF là mt 1 th có gán nhãn nh h
ng, trong ó các nút là các tài
nguyên (nhng th
c th vi URI) ho"c nhng ký t
, và các cnh là nhng thuc tính. Nh
ã
gii thi u, mt phát biu RDF là mt b ba (Ch$ ng, V ng, B. ng). Trong ó, tài nguyên
là Ch$ ng c$a mt phát biu có thuc tính mà giá tr c$a nó là B. ng c$a mt phát biu.
Mt B. ng có th là tài nguyên ho"c có th là mt giá tr ký t
. Mt phát biu có th
c
i di n nh
mt 1 th, b0ng cách v* mt cung t mt nút (Ch$ ng) n nút khác (B. ng).
RDF là mt cách thành lp cho vi c x% lý siêu d li u, nó cung c#p
interoperability (thao tác gi
a các phn) gia các ng d!ng mà chuyn .i thông tin
máy có th hiu
c trên web. RDF nh#n mnh các ti n ích có th x% lý t
ng
các tài nguyên web.
2.2.7.3 RDF Schema – mt ngôn ng% mô t t" v#ng
Ngôn ng
c nh ngh a trong "c t này (specification) g1m mt tp hp
các tài nguyên mà có th
c s% d!ng mô t các thuc tính c$a các tài nguyên
RDF khác ( bao g1m c các thuc tính) – nh ngh a tp t v
ng RDF c$a ng d!ng
xác nh. Tp t v
ng này ch$ yu
c nh ngh a trong mt không gian tên
c
gi là “rdfs”, và
c nhn bit bi tham chiu URI:
SV
ne
t.vn
tài: Tìm kim ng ngh a ng d!ng trên l nh v
c eDoc
0112274 – Phm Th M Ph
ng - 52 - 0112398 – T Th Ngc Thanh
schema#. "c t này c/ng s% d!ng tin t “rdf” tham chiu n không
gian tên RDF chính:
H thng class và property trong RDF Schema c/ng t
ng t
nh
các h thng
kiu c$a các ngôn ng h
ng i t
ng nh
Java. Tuy nhiên, RDF khác vi các h
thng khác ch thay vì nh ngh a mt class trong quan h c$a các thuc tính mà th
hi n c$a nó có th có, RDF Schema s* nh ngh a các thuc tính trong quan h c$a các
lp c$a tài nguyên mà chúng ng d!ng. ây là nhi m v! c$a rdfs:domain và
rdfs:range
c mô t trong "c t này. Ví d!, chúng ta có th nh ngh a thuc tính
eg:author, có min là eg:Document và gii hn là eg:Person, nh
ng trái li mt h
thng h
ng i t
ng kinh in có th nh ngh a mt cách "c tr
ng mt class
eg:Book vi mt thuc tính
c gi là eg:author c$a kiu eg:Person.
T" v#ng Domain and Range
"c t này gii thi u tp t v
ng RDF cho vi c mô t cách s% d!ng y $ ng
ngh a c$a các property và các class trong d li u RDF. Ví d!, mt l
c 1 RDF có th
mô t gii hn trên các kiu c$a các value thích hp vi mt s thuc tính.
RDF Schema cung c#p c ch (k thut) cho vi c mô t thông tin này, nh
ng không
th nói trong tr
ng hp nào thì ng d!ng nên s% d!ng nó và s% d!ng nh
th nào.
Các ng d!ng khác nhau s* s% d!ng thông tin này theo nhiu cách khác nhau. Ví d!,
các công c! kim tra d li u có th s% d!ng thông tin này tìm ra các li trong
dataset, mt trình son tho giao tip gia ng
i và máy có th ngh nhng giá tr
thích hp, và mt ng d!ng suy lun có th s% d!ng nó suy lun r1i
a ra thông tin
mi t d li u ban u.
L
c 1 RDF (RDF Schema) có th mô t các mi quan h gia các t v
ng t
nhiu l
c 1
c phát trin c lp nhau. Bi vì tham chiu URI
c s% d!ng
nhn bit các class và property trên web, nên nó có th to ra các thuc tính (property)
mi có domain và range mà giá tr c$a nó
c nh ngh a trong mt namespace khác.
"c t này không c gng li t kê t#t c các hình thc có th có c$a vi c mô
t t v
ng mà nó
c s% d!ng trình bày ng ngh a c$a các class và property c$a
SV
ne
t.vn
tài: Tìm kim ng ngh a ng d!ng trên l nh v
c eDoc
0112274 – Phm Th M Ph
ng - 53 - 0112398 – T Th Ngc Thanh
RDF. Thay vào ó, chin l
c mô t t v
ng RDF tha nhn r0ng có nhiu k thut
mà thông qua ó ng ngh a c$a các class và property
c cho bit, và xu#t bn
mt s quy
c cho vi c s% d!ng RDF/XML mô t các "c tr
ng c$a các class và
property cu RDF.
L
c 1 tt hn ho"c là các ngôn ng “ontology” nh
là DAML+OIL, W3C,
các ngôn ng suy lun d
a trên lut, và các ch$ ngh a hình thc khác, mi loi s* góp
phn cho kh nng c$a chúng ta nm bt
c s
t.ng hp y $ ng ngh a v d
li u trên web. Các nhà thit k t v
ng RDF có th to và phát trin các ng d!ng web
ng ngh a b0ng cách s% d!ng ti n ích The basic RDF Schema 1.0, trong khi trình bày
các ngôn ng mô t t v
ng tt hn – cách này c/ng s% d!ng h
ng tip cn này.
S lc v RDF Schema
Bng này trình bày mt cách t.ng quát v tp t v
ng c s c$a RDF
Tên lp Ghi chú
rdfs:Resource The class resource, everything.
rdfs:Literal
This represents the set of atomic values, eg.
textual strings.
rdfs:XMLLiteral The class of XML literals.
rdfs:Class The concept of Class
rdf:Property The concept of a property.
rdfs:Datatype The class of datatypes.
rdf:Statement The class of RDF statements.
rdf:Bag An unordered collection.
rdf:Seq An ordered collection.
rdf:Alt A collection of alternatives.
SV
ne
t.vn
tài: Tìm kim ng ngh a ng d!ng trên l nh v
c eDoc
0112274 – Phm Th M Ph
ng - 54 - 0112398 – T Th Ngc Thanh
rdfs:Container This represents the set Containers.
rdfs:ContainerMembershipProperty
The container membership properties, rdf:1,
rdf:2, ..., all of which are sub-properties of
'member'.
rdf:List The class of RDF Lists
Bng 3 : Các lp trong RDF
Property name comment domain range
rdf:type Indicates membership of a class rdfs:Resource rdfs:Class
rdfs:subClassOf Indicates membership of a class rdfs:Class rdfs:Class
rdfs:subPropertyOf
Indicates specialization of
properties
rdf:Property
rdf:Propert
y
rdfs:domain A domain class for a property type rdf:Property rdfs:Class
rdfs:range A range class for a property type rdf:Property rdfs:Class
rdfs:label
Provides a human-readable
version of a resource name.
rdfs:Resource rdfs:Literal
rdfs:comment Use this for descriptions rdfs:Resource rdfs:Literal
rdfs:member a member of a container rdfs:Container
not
specified
rdf:first
The first item in an RDF list. Also
often called the head.
rdf:List
not
specified
rdf:rest
The rest of an RDF list after the
first item. Also often called the
tail.
rdf:List rdf:List
SV
ne
t.vn
tài: Tìm kim ng ngh a ng d!ng trên l nh v
c eDoc
0112274 – Phm Th M Ph
ng - 55 - 0112398 – T Th Ngc Thanh
rdfs:seeAlso
A resource that provides
information about the subject
resource
rdfs:Resource
rdfs:Resour
ce
rdfs:isDefinedBy
Indicates the namespace of a
resource
rdfs:Resource
rdfs:Resour
ce
rdf:value
Identifies the principal value
(usually a string) of a property
when the property value is a
structured resource
rdfs:Resource
not
specified
rdf:subject The subject of an RDF statement. rdf:Statement
rdfs:Resour
ce
rdf:predicate the predicate of an RDF statement. rdf:Statement
rdf:Propert
y
rdf:object The object of an RDF statement. rdf:Statement
not
specified
Bng 4:Các thuc tính c$a RDF
(Mô t các t v
ng c$a RDF
c trình bày trong phn Ph! l!c [1].)
2.3. eDoc
2.3.1. Tìm hi6u eLearning
2.3.1.1. Khái ni&m
eLearning hay còn gi là Online Learning, chu5n cho t#t c các hình thc c$a
vi c hc.
SV
ne
t.vn
tài: Tìm kim ng ngh a ng d!ng trên l nh v
c eDoc
0112274 – Phm Th M Ph
ng - 56 - 0112398 – T Th Ngc Thanh
Online learning liên quan n vi c s% d!ng các công ngh mng ( nh
là:
Internet hay là mng th
ng mi – bussiness network) cho vi c phân phát, h tr,
ánh giá vi c dy hc chính qui và không chính qui.
“Hc” xy ra âu và nh
th nào? (: các tài nguyên và các tài li u tr
c tuyn,
các th
vi n i n t%, các tài li u; và các khoá hc, các bu.i tho lun, chats, email, hi
ngh, và các ng d!ng chia s, tri thc. Mt chú ý quan trng là online learning không
nh#t thit phi di-n ra tr
c tuyn (online). S% d!ng công ngh cho vi c hc th
ng là
mt yu t ph! i vi lp hc và các c hi hc tr
c tip ( face – to – face ).
Mt s nguyên nhân s% d!ng online learning:
a. Vi c truy cp
c ci thi n và tính linh ng: Mi ng
i có th ng
nhp vào b#t k3 mt máy tính nào, ti nhà ho"c ni làm vi c, vào b#t
k3 lúc nào k c ngày ln êm, l#y bài hc ho"c tham kho n các
tài li u hc.
b. Phân phi nhanh hn và tit ki m chi phí: i vi các t. chc cn truyn
t thông tin quan trng mà thông tin này nhanh chóng tr nên li thi (
ví d!, phiên bn mi nh#t c$a mt sn ph5m), thì hình thc online hu
nh
là r, hn và nhanh hn nhiu so vi vi c ng
i truyn t phi bay
qua nhiu quc gia g"p g nhng hc viên lp hc vi hàng ting
1ng h1.
c. Ci tin vi c iu hành và chu5n hoá: Trong môi tr
ng th
ng mi
quc t ngày nay, nhiu t. chc m rng trên phm vi toàn cu. S
khác
nhau v kin thc và k nng c$a các cá nhân dy có th s* làm cho ch#t
l
ng hc c$a các hc viên nhng ni khác nhau s* khác nhau: ví d!
nhng ng
i hc New Delphi s* có ch#t l
ng hu#n luy n khác vi
nhng ng
i New York. Online learning cung c#p thông tin nh#t quán,
ph. bin i vi các i t
ng khp ni.
Làm n.i bt thông tin truyn t và s
cng tác: Thông qua nhng phn mm
nào ó s* cho phép nhng ng
i hc
c giao tip vi nhau, cng tác vi nhau qua
các d
án, và chia s, tài li u mà không cn phi g"p m"t tr
c tip.
SV
ne
t.vn
tài: Tìm kim ng ngh a ng d!ng trên l nh v
c eDoc
0112274 – Phm Th M Ph
ng - 57 - 0112398 – T Th Ngc Thanh
2.3.1.2. Các chu,n c a eLearning
Ngành công nghi p eLearning tip t!c
c m rng mi ngày, và các chu5n
cn thit to ni dung bài hc ngày càng tr nên phc tp.
Tr
c khi mt “qui
c” c$a eLearning tr thành “standards” (chu5n), nó
c
gi là “specification” ( "c t ). Specification
c duy t bi mt t. chc – t. chc
này
c mi ng
i công nhn, nh
là IEEE ch+ng hn.
Mt s chu5n c$a eLearning:
a. T
p phn t siêu d liu Dublin Core
Tp phn t% siêu d li u Dublin Core ( The Dublin Core metada element
set) là chu5n cho s
mô t tài nguyên thông tin xuyên domain (bng qua nhiu
domain). ( ây, tài nguyên thông tin
c nh ngh a là b#t k3 th gì mà có th
nhn bit
c. i vi các ng d!ng Dublin Core, mt tài nguyên s* là mt tài
li u i n t% (electronic document).
Siêu d li u Dublin Core
c dùng cho vi c tìm kim và ch& m!c cho
các siêu d li u d
a trên Web. Tp siêu d li u này cung c#p t v
ng ng ngh a
nh
: “Description”, “Creator” và “Date” cho vi c mô t nhng "c tr
ng thông
tin quan trng c$a các tài nguyên Internet.
Tp siêu d li u Dublin Core cung c#p 15 t v
ng:
• Title: Tên
c gán cho tài nguyên.
• Creator: Th
c th có trách nhi m to ra tài nguyên. Ví d! nh
:
cá nhân, t. chc hay mt dch v! nào ó.
• Subject: Ch$ ni dung c$a tài nguyên.
• Description: Mô t ni dung c$a tài nguyên.
• Publisher: Th
c th có nhi m v! to ra tài nguyên.
• Contributor: Th
c th có óng góp vào ni dung c$a tài nguyên.
• Date: Ngày tài nguyên
c to.
• Type: Th loi ni dung c$a tài nguyên.
• Format: Dng l
u tr vt lý c$a tài nguyên.
SV
ne
t.vn
tài: Tìm kim ng ngh a ng d!ng trên l nh v
c eDoc
0112274 – Phm Th M Ph
ng - 58 - 0112398 – T Th Ngc Thanh
• Identifier: Mt tham chiu c! th n tài nguyên trong mt ng
cnh cho phép.
• Source: Tham chiu n mt tài nguyên mà tài nguyên
c
dn xu#t.
• Language: Ngôn ng s% d!ng bi ni dung c$a tài nguyên.
• Relation: Tham chiu n mt tài nguyên liên quan
• Coverage: M rng ni dung c$a tài nguyên
• Right: Thông tin v quyn s hu tài nguyên.
b. LOM (Learning Object Metadata)
LOM là mt chu5n v eLearning hi n ti
c phát trin bi t. chc
IEEE. T. chc chu5n hoá công ngh hc (Learning Technology Standards
Committee) c$a IEEE ã phát trin chu5n LOM nh0m giúp cho vi c s% d!ng và
s% d!ng li c$a các tài nguyên hc
c h tr công ngh nh
là vi c hu#n
luy n d
a trên máy tính, và vi c hc t xa.
Trong mt h thng eLearning, i t
ng hc là nhng gì có th
c s%
d!ng, k tha hay tham kho trong vi c h tr công ngh hc. Hi n ti mt s
i t
ng ang
c tip t!c phát trin nh0m áp ng nhu cu hc thay .i
nhanh chóng. Vi c thiu thông tin hay siêu d li u v i t
ng hc to ra
nhiu cn tr, hn ch cho kh nng qun lý, khám phá và s% d!ng i t
ng
hc.
LOM gii quyt v#n trên b0ng cách nh ngh a mt c#u trúc cho vi c
mô t mt i t
ng hc. LOM ch& ra cú pháp và ng ngh a c$a các siêu d
li u i t
ng hc, nh ngh a các thuc tính nh0m mô t y $ và tho áng
các i t
ng hc.
M!c ích c$a LOM:
Cho phép ng
i hc hay ng
i h
ng dn tìm kim, ánh giá i
t
ng hc.
SV
ne
t.vn
tài: Tìm kim ng ngh a ng d!ng trên l nh v
c eDoc
0112274 – Phm Th M Ph
ng - 59 - 0112398 – T Th Ngc Thanh
Cho phép chia s, và trao .i các i t
ng hc qua b#t k3 công ngh
có h tr h thng hc.
Cho phép phát trin các i t
ng hc theo các n v có kh nng
kt hp hay phân rã theo mt ph
ng pháp phù hp.
Cho phép các agent máy tính linh ng là t
ng trong vi c t. chc
các bài hc cung c#p n ng
i hc.
Nó hoàn toàn d
a trên chu5n và quan tâm n các i t
ng hc
trong môi tr
ng m và phân tán.
Cho phép các công ngh mi kt hp vi các i t
ng hc.
Cung c#p cho các nhà nghiên cu chu5n h tr và s
u tp d li u liên
quan n hi u qu c$a các i t
ng hc.
LOM nh ngh a mt tp ti thiu các thuc tính (attributes) qun lý,
nh v, và ánh giá các i t
ng hc. Các thuc tính
c gom nhóm thành 8
phm trù:
• General: cha
ng thông tin v toàn b i t
ng.
• Lifecycle: cha
ng siêu d li u v s
tin hoá c$a các i
t
ng.
• Technical: vi s
mô t c$a các "c tr
ng và yêu cu k thut.
• Educational: cha
ng các thuc tính v giáo d!c ho"c s
phm.
• Rights: mô t quyn s hu và các iu ki n s% d!ng
• Relation: nhn bit các i t
ng có liên quan vi nhau.
• Annotation: cha
ng các chú thích và ngày, tác gi c$a các chú
thích này.
• Classification: nhn bit các b nhn di n h thng phân loi
khác cho i t
ng.
Bên trong mi phm trù là mt tp các phn t% d li u có th t
, mà giá
tr c$a chúng là các metadata. Ví d!: Các phn t% siêu d li u liên quan n
vi c hc
c tìm th#y trong phm trù Education là Typical Age Range,
Difficulty, Typical Learning Time, và Interactivity Level.
SV
ne
t.vn
tài: Tìm kim ng ngh a ng d!ng trên l nh v
c eDoc
0112274 – Phm Th M Ph
ng - 60 - 0112398 – T Th Ngc Thanh
c. vCard
vCard là chu5n
c gii thi u và phát trin bi IMC (Internet Mail
Consortium). Các thông tin cá nhân thông th
ng r#t phc tp và có nhiu loi
khác nhau. Hi n ti có mt s chu5n xu#t các c#u trúc cho vi c trao .i
thông tin cá nhân PDI (Personal Data Interchange). M!c ích c$a chu5n này là
nh0m gii quyt nhu cu s
u tp và trao .i thông tin cá nhân qua nhiu kênh
thông tin khác nhau nh
i n thoi, th
i n t% hay i thoi tr
c tip.
Chu5n vCard phù hp cho vi c trao .i d li u cá nhân gia các ng
d!ng và h thng. nh dng c$a vCard hoàn toàn c lp vi ph
ng pháp
dùng truyn ti nó. Vi c truyn ti này có th là trao .i mt h thng tp
tin, mng chuyn mch công cng, mng dây dn hay mng không dây. vCard
nhm n vi c trao .i thông tin cá nhân. Trong môi tr
ng th
ng mi ngày
nay, thông tin này th
ng
c trao .i trên các th, th
ng mi và vCard nh
ngh a nhng thông tin này d
a trên các i t
ng th, th
ng mi i n t%.
d. SCORM (Shareable Content Object Reference Model)
SCORM nh ngh a mô hình kt hp gia ni dung và môi tr
ng th
c
thi cho các i t
ng hc. ây là mt mô hình tham chiu n mt tp các k
thut liên quan vi c thit k nh0m áp ng yêu cu ni dung hc d
a trên Web,
nhng yêu cu này bao g1m kh nng tái s% d!ng, truy xu#t, kh nng t
ng
tác c$a các i t
ng hc.
e. IMS ( Instructional Management Systems)
IMS ang
c phát trin và xúc tin tr thành chu5n m cho các hot
ng eLearning nh
s% d!ng, sp xp các ni dung giáo d!c và m rng các
khái ni m t.ng quát nh
: thit k ng
i hc, theo dõi và báo cáo quá trình
ng
i hc nh0m th
c hi n vi c trao .i thông tin gia các h thng hc khác
nhau.
SV
ne
t.vn
tài: Tìm kim ng ngh a ng d!ng trên l nh v
c eDoc
0112274 – Phm Th M Ph
ng - 61 - 0112398 – T Th Ngc Thanh
M!c ích c$a IMS:
• nh ngh a các chu5n k thut nh0m nâng cao kh nng t
ng tác
gia ng d!ng và dch v! trong môi tr
ng hc phân tán hi n nay.
• H tr vi c sát nhp "c t c$a IMS vào trong các sn ph5m và dch
v! trên toàn th gii. S
ch#p nhn "c t rng rãi s* cho phép phân
phi môi tr
ng và ni dung hc t nhiu tác gi li vi nhau.
2.3.2. Tìm hi6u eLib
Elib (electronic library hay cò gi là digital library) là mt th
vi n 5n. T
‘electronic library’ ng! ý là mt s
u tp c$a các tài nguyên thông tin i n t%
c ni
mng cùng k thut liên kt và c s h tng qun tr. Bn có th truy cp nó t b#t c
máy PC hay laptop có ni mng nào t b#t c ni nào trên th gii b#t c thi im
nào.
Elib l
u tr và ch& m!c hàng vn sách, báo, tp chí v $ các ch$ trên th
gii, ch+ng hn nh
vt lí, thiên vn, sinh hoá, công ngh sinh hc, hoá hc và công
trình xây d
ng hoá ch#t, các thit b xây d
ng, công trình xây d
ng môi tr
ng, khoa
hc th
c ph5m, và an toàn sc kho, và v sinh .v.v… c/ng nh
các tài li u v thông
tin tiu s%, lí lch cá nhân, ngh nghi p, các t. chc, hi liên hi p, và du lch v.v….
Th
vi n i n t% này
c s% d!ng ph. bin nh#t trong các tr
ng i hc và nhng
trung tâm nghiên cu khoa hc. T#t nhiên, i t
ng s% d!ng nó chính là nhng sinh
viên, nghiên cu sinh và các nhà khoa hc.
Nhng ch
ng trình Electronic library
c xây d
ng d
a trên nhng chu5n
thng nh#t do các hi 1ng, t. chc ln trên th gii lp ra. Mt s t. chc nh chu5n
ln trên gii nh
W3C (World Wide Web Consortium), ISO (International
Organization for Standardization), NISO (National Information Standards
Organization ),… . Có nhiu chu5n cho nhiu khía cnh khác nhau c$a vi c l
u tr và
truy cp thông tin i n t%, bao g1m các chu5n v thu h1i thông tin (Information
Retrieval Standard), thao tác gia các phn (Interoperability), nh dng tài nguyên,
SV
ne
t.vn
tài: Tìm kim ng ngh a ng d!ng trên l nh v
c eDoc
0112274 – Phm Th M Ph
ng - 62 - 0112398 – T Th Ngc Thanh
nhn dng tài nguyên, mô t tài nguyên,… Sau ây là mt s chu5n s% d!ng trong
eLib liên quan n v#n truy cp thông tin i n t%:
Chu,n v thu h.i thông tin:
Kiu chu5n này cho phép thông tin gia các h thng khác nhau, làm cho thun
ti n trong vi c khám phá và truy cp thông tin i n t%. Ví d! nh
chu5n thu h1i thông
tin ISO 23950 (t
ng
ng vi ANSI Z39.50) nh ngh a mt h
ng chu5n cho hai
máy tính liên lc và chia s, thông tin vi nhau. Nó ã
c thit k h tr khám
phá tài nguyên và thu h1i tài nguyên c$a nhng tài li u “full-text”, d li u m!c l!c,
các hình nh và multimedia. Chu5n này d
a trên kin trúc client-server và c lp vi
các h thng c! th, hoàn toàn iu hành trên Internet.
Z39.50:
Z39.50 là mt trong mt nhóm các chu5n
c sn xu#t làm cho d- dàng kt
ni các h thng máy tính. Chu5n này ch& ra các nh dng và th$ t!c chi phi vi c
trao .i các thông i p gia client và server, cho phép ng
i dùng có th tìm kim các
c s d li u t xa, nhn di n các dòng d li u có nh rõ các chu5n, và thu h1i mt
vài hay t#t c các dòng
c nhn di n và có liên quan, c! th vi vi c tìm kim và
thu h1i thông tin trong c s d li u. Mt trong nhng thun li ln trong vi c s% d!ng
Z39.50 là nó cho phép truy cp nh
nhau n mt s l
ng ln ngu1n thông tin thay
.i khác nhau.
Z39.50 tha nhn r0ng vi c thu h1i thông tin g1m hai thành phn chính – chn
thông tin d
a trên nhng tiêu chu5n và thu h1i thông tin ó, và nó cung c#p mt ngôn
ng chung cho c hai hành ng ó. Z39.50 chu5n hoá cách x% s
mà trong ó client
và server thông tin vi nhau và hot ng ngay khi có nhng khác bi t gia các h
thng máy tính, các công c! tìm kim và các c s d li u.
EDI (Electronic Data Interchange)
EDI
c bit n nh
mt chu5n công ngh thông tin quc gia. ( EDI, d li u
mà theo truyn thng
c chuyn vào trong các tài li u gi#y thì
c truyn hay
c thông tin mt cách i n t% tùy vào các lut và các nh dng
c thit lp. D
SV
ne
t.vn
tài: Tìm kim ng ngh a ng d!ng trên l nh v
c eDoc
0112274 – Phm Th M Ph
ng - 63 - 0112398 – T Th Ngc Thanh
li u liên i vi mi kiu c$a tài li u chc nng, ví d! nh
bng mua bán hay hoá n,
c vn chuyn ln nhau nh
là mt thông i p i n t%. D li u ã nh dng có th
c vn chuyn t ng
i to ra n ng
i nhn thông qua thông tin liên lc b0ng cáp
hay vn chuyn vt lí vào trong thit b l
u tr i n t%.
EDI
a n mt chui các thông i p gia hai ni, ví d! ng
i mua và ng
i
bán, mi ng
i có th xem nh
là ng
i to ra hay ng
i nhn. Các thông i p t
ng
i mua n ng
i bán s* bao g1m, ví d! nh
d li u cn thit cho yêu cu i vi
s
trích dn (request for quotation_ RFQ), các biên lai mua bán, các thông báo vi c
vn chuyn tàu thuyn, và các hoá n. Vi c th
c thi c$a EDI yêu cu vi n s% d!ng
c$a mt h các chu5n liên kt vi nhau. H chu5n này phi bao g1m các chu5n cho
các kiu thông i p (c/ng
c gi là các “nhóm giao dch” _ “transaction set”), và
cho vi c vn chuyn th
, các yu t d li u, và các chui c$a các yu t d li u
c
sp xp gi là các segment d li u. Mt chu5n thông i p hay chu5n transaction set
nh ngh a chui các segment d li u mà to thành thông i p và transaction set ó.
Th
m!c segment d li u li t kê t#t c các segment d li u, và nh ngh a nh danh
và chui c$a các yu t d li u to nên nó. T
in yu t d li u cung c#p các chu5n
c$a t#t c các yu t d li u. Vi c vn chuyn th
cung c#p thông tin iu khin v các
thông i p thêm vào cho các h thng vn chuyn và tip nhn. Vi c chu5n hoá c$a
các nh dng thông i p, và c$a các segment d li u và yu t d li u trong các thông
i p ó, làm cho có th thu thp, tháo ri và x% lí các thông i p b0ng máy tính vi
các kt qu có th có th oán tr
c.
ILL (Internet Loan Library)
Nghi thc ILL (ISO 10160/1)
c phát trin gi nhiu giao dch
c liên
kt bao g1m các hot ng yêu cu tài li u g1m nhiu ng
i tham gia. V khái ni m
thì nó t
ng
ng vi EDI và bao g1m vi c cung c#p cho nh ngh a các data
element
c yêu cu, nh ngh a mt nhóm các thông i p và các mi quan h c$a
nó, và mt cú pháp cho vi c lp c#u trúc thông i p.
SV
ne
t.vn
tài: Tìm kim ng ngh a ng d!ng trên l nh v
c eDoc
0112274 – Phm Th M Ph
ng - 64 - 0112398 – T Th Ngc Thanh
Nghi thc ILL có v, nh
có nhiu cung c#p các dch v! yêu cu, "c bi t khi
chúng tr nên phân tán nhiu hn. S
truyn thông t h thng này sang h thng khác
c$a các thông i p có c#u trúc cho phép mt phm vi rng ln các thi hành
c t
ng, và các th$ t!c b0ng tay hay phi hp cho vi c theo vt, gi v,…
c t
ng.
Công d!ng c$a nó trong các dch v! t
ng tác i vi yêu cu các tài li u cn nghiên
cu xa hn na.
Chu,n mã hoá tài nguyên:
Nhng chu5n này nh ngh a các kiu hin th khác nhau c$a thông tin i n t%.
Bao g1m các chu5n:
o nh dng mô t trang (ví d! postscript, PDF)
o nh dng 1 ha (ví d! TIFF, GIF, JPEG)
o Thông tin c#u trúc (SGML, HTML, XML)
o nh dng hình nh ng và audio.
o Nén (ví d!: gzip, jar, tar, zip).
Chu,n nh*n d4ng tài nguyên:
G1m mt s chu5n sau:
DOI (Digital Object Identifier)
Digital Object Identifier là mt h thng
c phát trin bi Bowker và CNRI
(Corporation for National Research Initiative) US, theo mt yêu cu v các xu#t
cho công ngh nhn dng ni dung k thut s
c
a ra bi Association of
American Publishers. H thng DOI có ba thành phn: phn nh danh, th
m!c và c
s d li u. H thng này cho phép các b nh dng qui nh nhng mc khác nhau,
và cho các h thng khác (ví d! SICI, ISSN)
c thêm vào.
H thng DOI có th
c nh ngh a nh
là “mt b nhn dng duy nh#t có
th gii quyt
c và nhiu mng c$a d li u trng thái kiu kt hp trong mt c s
qun lí thông tin”. Di-n t nhng phn c$a nh ngh a nh
sau:
SV
ne
t.vn
tài: Tìm kim ng ngh a ng d!ng trên l nh v
c eDoc
0112274 – Phm Th M Ph
ng - 65 - 0112398 – T Th Ngc Thanh
a. Mt “b nhn dng duy nh#t”: nhi m v! c$a DOI là duy nh#t i vi
mt mng c$a "c tính tri thc. nh ngh a c$a mng này
c ch& rõ
bi mt s mng chính c$a thông tin v nó (siêu d li u) mà thuc vào
th loi c! th: dù th
c th là mt bài báo hay mt video clip, ví d! nh
vy. nh danh này là mt chui không rõ ràng; nó không cha b#t c tri
thc cú pháp v th
c th này.
b. “có th gii quyt
c”; vi “d li u trng thái kt hp”: i sâu vào
thông qua h thng Internet t b nhn dng ó n mt hay nhiu mng
c$a d li u kt hp. Nhng mng này biu di-u trng thái hi n ti (giá
tr) c$a mt s kiu d li u (ví d! nh
mt URL). Nhng mng này c$a
d li u có th hin th, hay dn n, các dch v! s% d!ng DOI nh
là mt
im th
c th.
c. “mt c s qun lí thông tin”: mt khi mt mng d li u thu
c do s
phân tích, thì siêu d li u v th
c th
c nh danh có th thi hành vi
siêu d li u t nhng ngu1n khác (ví d! v ng cnh) xây d
ng các
dch v! và các giao dch t
ng. Kh nng thi hành này
c hoàn t#t
thông qua vi c qun lí siêu d li u trong mt h
ng
c iu khin,
phù hp vi mt kin trúc thi hành mà làm cho DOI có th
a ra nhng
ng d!ng mt b nhn dng liên t!c n gin.
SICI
Chu5n SICI là chu5n ANSI/NISO Z39.56-1996 nh ngh a nhng lut l v mã
dùng nhn dng duy nh#t chui các item (ví d! nh
các s báo) và mi thành phn (ví
d! nh
bài báo) cha trong mt chui. SICI là t vit tt c$a Serial Item and
Contribution Identifier và
c s% d!ng trong chu5n này ch& mã c$a chính nó.
Chu5n này
c nh ngh a cho vi c s% d!ng vi chui các xu#t bn trong t#t
c các nh dng. i vi m!c ích c$a chu5n này, mt chui
c nh ngh a nh
là
mt xu#t bn phát hành trong nhng phn liên t!c nhng khong trng u "n hay
SV
ne
t.vn
tài: Tìm kim ng ngh a ng d!ng trên l nh v
c eDoc
0112274 – Phm Th M Ph
ng - 66 - 0112398 – T Th Ngc Thanh
không u "n, mang bc s và/ho"c th t
thi gian (numerical and/or chronological
designation), và có xu h
ng
c tip t!c vô hn.
SICI có xu h
ng
c to ra và s% d!ng bi các thành viên c$a cng 1ng th
m!c tham gia vào nhng chc nng kt hp vi vi c qun lí c$a các chui và các phn
mà chúng cha
ng, các chc nng nh
sp th t
, b. sung vào th
vi n, yêu cu,
thu tin nhun bút, qun lí quyn, thu h1i tr
c tuyn, liên kt c s d li u, và phân
phát tài li u.
Các file đính kèm theo tài liệu này:
- [LVIT040] - Tìm kiếm ngữ nghĩa ứng dụng trong lĩnh vực eDOC.pdf