Tài liệu Khóa luận Nghiên cứu phương pháp thêm dấu tiếng Việt vào văn bản tiếng Việt không dấu: TRɈ͜NG ĈɝI H͌C KHOA H͌C TͰ NHIÊN
KHOA CÔNG NGHʃ THÔNG TIN
%͘ MÔN CÔNG NGHʃ TRI THͨC
PHAN QUӔC LÂN
PHѬѪNG PHÁP THÊM DҨU TIӂNG VIӊT
VÀO VĂN BҦN TIӂNG VIӊT KHÔNG DҨU
KHOÁ LUҰN CӰ NHÂN TIN HӐC
TP. HCM, NĂM 2005
1
TRɈ͜NG ĈɝI H͌C KHOA H͌C TͰ NHIÊN
KHOA CÔNG NGHʃ THÔNG TIN
%͘ MÔN CÔNG NGHʃ TRI THͨC
PHAN QUӔC LÂN – 0112267
PHѬѪNG PHÁP THÊM DҨU TIӂNG VIӊT
VÀO VĂN BҦN TIӂNG VIӊT KHÔNG DҨU
KHOÁ LUҰN CӰ NHÂN TIN HӐC
GIÁO VIÊN HѬӞNG DҮN
Th.S PHҤM PHҤM TUYӂT TRINH
NIÊN KHÓA 2001 – 2005
2
/ӡi cҧm ѫn
/ӡi ÿҫu tiên, em xin chân thành cҧm ѫn cô Phҥm Phҥm TuyӃt Trinh, cô ÿã trӵc
tiӃp hѭӟng dүn và tҥo ÿLӅu kiӋn cho em nghiên cӭu và hoàn thành luұn văn này.
Em cNJng xin chân thành cҧm ѫn thҫy Ĉinh ĈLӅn, thҫy ÿã hӛ trӧ, giúp ÿӥ em rҩt
nhiӅu trong quá trình thӵc hiӋn. Và em cNJng xin cҧm ѫn tҩt cҧ các thҫy cô trong khoa
Công nghӋ thông tin ÿã tұn tình chӍ bҧo và giúp ÿӥ em trong suӕt quá trình hӑc tұp
trong trѭӡng.
Con xin chân thành cҧm ѫn ba mҽ, ông bà, anh em và ngѭӡi thân trong...
70 trang |
Chia sẻ: hunglv | Lượt xem: 984 | Lượt tải: 0
Bạn đang xem trước 20 trang mẫu tài liệu Khóa luận Nghiên cứu phương pháp thêm dấu tiếng Việt vào văn bản tiếng Việt không dấu, để tải tài liệu gốc về máy bạn click vào nút DOWNLOAD ở trên
TRɈ͜NG ĈɝI H͌C KHOA H͌C TͰ NHIÊN
KHOA CÔNG NGHʃ THÔNG TIN
%͘ MÔN CÔNG NGHʃ TRI THͨC
PHAN QUӔC LÂN
PHѬѪNG PHÁP THÊM DҨU TIӂNG VIӊT
VÀO VĂN BҦN TIӂNG VIӊT KHÔNG DҨU
KHOÁ LUҰN CӰ NHÂN TIN HӐC
TP. HCM, NĂM 2005
1
TRɈ͜NG ĈɝI H͌C KHOA H͌C TͰ NHIÊN
KHOA CÔNG NGHʃ THÔNG TIN
%͘ MÔN CÔNG NGHʃ TRI THͨC
PHAN QUӔC LÂN – 0112267
PHѬѪNG PHÁP THÊM DҨU TIӂNG VIӊT
VÀO VĂN BҦN TIӂNG VIӊT KHÔNG DҨU
KHOÁ LUҰN CӰ NHÂN TIN HӐC
GIÁO VIÊN HѬӞNG DҮN
Th.S PHҤM PHҤM TUYӂT TRINH
NIÊN KHÓA 2001 – 2005
2
/ӡi cҧm ѫn
/ӡi ÿҫu tiên, em xin chân thành cҧm ѫn cô Phҥm Phҥm TuyӃt Trinh, cô ÿã trӵc
tiӃp hѭӟng dүn và tҥo ÿLӅu kiӋn cho em nghiên cӭu và hoàn thành luұn văn này.
Em cNJng xin chân thành cҧm ѫn thҫy Ĉinh ĈLӅn, thҫy ÿã hӛ trӧ, giúp ÿӥ em rҩt
nhiӅu trong quá trình thӵc hiӋn. Và em cNJng xin cҧm ѫn tҩt cҧ các thҫy cô trong khoa
Công nghӋ thông tin ÿã tұn tình chӍ bҧo và giúp ÿӥ em trong suӕt quá trình hӑc tұp
trong trѭӡng.
Con xin chân thành cҧm ѫn ba mҽ, ông bà, anh em và ngѭӡi thân trong gia ÿình
ÿã tҥo mӑi ÿLӅu kiӋn tӕt nhҩt cho con hӑc tұp và ÿӝng viên, khích lӋ con trong quá trình
thӵc hiӋn luұn văn.
Và cuӕi cùng, tôi xin gӱi lӡi cҧm ѫn ÿӃn tҩt cҧ bҥn bè, ÿһc biӋt là anh Toàn, bҥn
Sinh, bҥn Khѭѫng …, nhӳng ngѭӡi ÿã hӛ trӧ và giúp tôi hoàn thiӋn luұn văn này.
0һc dù em ÿã cӕ gҳng hoàn thành luұn văn trong phҥm vi và khҧ năng cho phép
nhѭng chҳc chҳn sӁ không tránh khӓi nhӳng thiӃu sót. Em kính mong nhұn ÿѭӧc sӵ
Fҧm thông và tұn tình chӍ bҧo cӫa quý Thҫy Cô và các bҥn.
TP. Hӗ Chí Minh, tháng 7 năm 2005
Phan Quӕc Lân – 0112267
3
NHҰN XÉT CӪA GIÁO VIÊN HѬӞNG DҮN
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
Thành phӕ Hӗ Chí Minh, tháng 07 năm 2005
Giáo viên hѭӟng dүn
Th.S Phҥm Phҥm TuyӃt Trinh
4
NHҰN XÉT CӪA GIÁO VIÊN PHҦN BIӊN
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
Thành phӕ Hӗ Chí Minh, tháng 07 năm 2005
Giáo viên phҧn biӋn
TS. Ĉinh ĈLӅn
/ӠI NÓI ĈҪU
Chӳ viӃt tiӃng ViӋt cӫa chúng ta có 1 ÿһc ÿLӇm rҩt hay là có sӵ xuҩt hiӋn cӫa các
Gҩu thanh cNJng nhѭ dҩu cӫa các ký tӵ. ĈLӅu này giúp cho tiӃng ViӋt “thêm thanh, thêm
ÿLӋu”. Tuy nhiên, cNJng chính viӋc “thêm thanh, thêm ÿLӋu” ÿó làm cho viӋc gõ tiӃng
ViӋt trӣ nên tӕn nhiӅu thӡi gian hѫn. 1 vҩn ÿӅ khác, khi viӋc sӱ dөng Internet trӣ nên
thông dөng, 1 tiӋn ích ÿѭӧc mӑi ngѭӡi ѭa chuӝng là dӏch vө Email. Nhѭng, cho ÿӃn
hiӋn nay, hҫu hӃt các mail server vүn chѭa hӛ trӧ tӕt tiӃng ViӋt, do ÿó, tình trҥng các lá
mail trên mҥng hҫu nhѭ không có dҩu. ViӋc phát triӇn 1 công cө giúp thêm dҩu tiӃng
ViӋt vào văn bҧn không dҩu là viӋc rҩt cҫn thiӃt và thú vӏ.
ĈӅ tài này hѭӟng ÿӃn viӋc giҧi quyӃt bài toán thêm dҩu tiӃng ViӋt theo mӝt
Kѭӟng mӟi, do ÿó, chѭѫng trình không chú trӑng chuyên sâu vào lƭnh vӵc nào. ViӋc
thêm chӭc năng hӛ trӧ các lƭnh vӵc chuyên sâu khác không ҧnh hѭӣng nhiӅu ÿӃn cҩu
trúc cӫa mô hình mà chѭѫng trình áp dөng.
Luұn văn ÿѭӧc tә chӭc thành 5 chѭѫng vӟi nӝi dung nhѭ sau :
§ Chѭѫng 1 giӟi thiӋu tәng quan vӅ bài toán Thêm dҩu tiӃng ViӋt vào văn bҧn
không dҩu, và các công trình ÿã có liên quan ÿӃn ÿӅ tài.
§ Chѭѫng 2 giӟi thiӋu các cѫ sӣ lý thuyӃt _ tin hӑc cҫn sӱ dөng.
§ Chѭѫng 3 nhұn xét các mô hình ÿã có trѭӟc ÿây, và ÿѭa ra mô hình cài ÿһt
chính.
§ Chѭѫng 4 cө thӇ hóa mô hình cài ÿһt.
§ Chѭѫng 5 tәng kӃt và ÿӅ ra hѭӟng phát triӇn .
6
0ӨC LӨC
Chѭѫng 1.7ӘNG QUAN....................................................................9
1.1. Giӟi thiӋu vӅ bài toán Thêm dҩu tiӃng ViӋt vào văn bҧn không dҩu.......10
1.1.1. Phát biӇu bài toán.........................................................................................10
1.1.2. Ĉһc ÿLӇm .......................................................................................................10
1.1.3. +ѭӟng giҧi quyӃt ..........................................................................................11
1.2. Giӟi thiӋu các công trình ÿã có ..................................................................11
1.2.1. AMPad..........................................................................................................11
1.2.2. VietPad .........................................................................................................12
1.2.3. www.EasyVn.com.........................................................................................13
1.2.4. VnMark ........................................................................................................14
Chѭѫng 2.&Ѫ SӢ LÝ THUYӂT TIN HӐC....................................15
2.1. Lý thuyӃt vӅ ngôn ngӳ hӑc.........................................................................16
2.1.1. Âm tiӃt (còn gӑi là “tiӃng”) ..........................................................................16
2.1.1.1. Ĉӏnh nghƭa và ÿһc ÿLӇm âm tiӃt tiӃng ViӋt ..............................................16
2.1.1.2. Thanh là thành phҫn cӫa âm tiӃt tiӃng ViӋt .............................................16
2.1.1.3. Tҥi sao lҥi phҧi dùng dҩu thanh ? ............................................................17
2.1.2. 7ӯ ..................................................................................................................18
2.1.2.1. Các quan niӋm vӅ tӯ ...............................................................................18
2.1.2.2. Tiêu chí nhұn diӋn “tӯ” tiӃng ViӋt...........................................................18
2.1.2.2.1. Các tiêu chuҭn vӅ hình thӭc .................................................................19
2.1.2.2.2. Các tiêu chuҭn vӅ nӝi dung ..................................................................19
2.2. Tách tӯ ........................................................................................................20
2.2.1. Khӟp tӕi ÿa (LRMM – Left Right Max Matching).....................................21
2.2.2. Mô hình mҥng WFST và mҥng nѫ-ron .......................................................22
2.3. Tách câu......................................................................................................22
2.3.1. Tách câu bҵng Heristics. ..............................................................................23
2.3.1.1. Xӱ lý dҩu chҩm. .....................................................................................23
2.3.1.2. Xӱ lý dҩu chҩm trong ngoһc. ..................................................................24
Chѭѫng 3.MÔ HÌNH CÀI ĈҺT......................................................25
3.1. Các mô hình thêm dҩu ÿã ÿѭӧc sӱ dөng...................................................26
3.1.1. VietPad .........................................................................................................26
3.1.1.1. Mô hình thêm dҩu tiӃng ViӋt ..................................................................26
3.1.1.1.1. TiӅn xӱ lý ............................................................................................26
3.1.1.1.2. Tách token...........................................................................................27
3.1.1.1.3. Lҩy ra các tӯ không dҩu, chuyӇn thành tӯ có dҩu .................................27
3.1.2. VnMark ........................................................................................................28
7
3.1.2.1. Mô hình thêm dҩu tiӃng ViӋt ..................................................................28
3.1.2.1.1. TiӅn xӱ lý ............................................................................................30
3.1.2.1.2. Tách câu ..............................................................................................30
3.1.2.1.3. Tìm các khҧ năng ÿánh dҩu cӫa tӯ, câu ................................................30
3.1.2.2. Mô hình huҩn luyӋn................................................................................31
3.2. Mô hình ÿӅ xuҩt..........................................................................................32
3.2.1. Mô hình.........................................................................................................32
3.2.1.1. Tách câu .................................................................................................33
3.2.1.2. Tách tӯ bҵng phѭѫng pháp LRMM.........................................................34
3.2.1.3. Chӑn tӯ thích hӧp ...................................................................................34
3.2.2. Mô hình huҩn luyӋn .....................................................................................36
3.2.2.1. Thӕng kê tҫn suҩt xuҩt hiӋn cӫa tӯ ..........................................................36
3.2.2.1.1. Xây dӵng kho ngӳ liӋu.........................................................................36
3.2.2.1.2. Thӕng kê tҫn suҩt xuҩt hiӋn cӫa tӯ .......................................................37
3.2.2.1.3. Tҥo tӯÿLӇn chuyӇn ÿәi ........................................................................38
3.2.2.2. Trích xuҩt các cөm tӯ thѭӡng sӱ dөng ....................................................39
3.2.3. So sánh mô hình này vӟi 2 mô hình trên .....................................................41
Chѭѫng 4.CÀI ĈҺT THӰ NGHIӊM.............................................43
4.1. Thӕng kê tҫn sӕ xuҩt hiӋn cӫa tӯ...............................................................44
4.1.1. Xây dӵng kho ngӳ liӋu text tӯ báo ÿLӋn tӱ ..................................................44
4.1.2. Tách câu........................................................................................................48
4.1.3. Tách tӯ và thӕng kê......................................................................................50
4.2. 7ҥo tұp tin tӯÿLӇn chính............................................................................52
4.3. 7ҥo tұp tin tӯÿLӇn cөm tӯ .........................................................................55
4.3.1. 7ҥo kho dӳ liӋu tinh giҧn mӟi......................................................................55
4.3.2. 7ҥo tұp tin tӯÿLӇn cөm tӯ ...........................................................................58
4.4. Chѭѫng trình chính....................................................................................58
4.4.1. Chѭѫng trình VietEditor..............................................................................59
4.4.2. Chѭѫng trình thêm dҩu qua Clipboard.......................................................60
4.5. Thӱ nghiӋm ................................................................................................62
Chѭѫng 5. ӂT QUҦ, HѬӞNG PHÁT TRIӆN .............................63
5.1. +ҥn chӃ và hѭӟng phát triӇn .....................................................................64
5.2. .Ӄt luұn ......................................................................................................64
Phө lөc : Cҩu trúc kho ngӳ liӋu ......................................................67
8
DANH MӨC HÌNH
Hình 1.2.1-1 : Thêm ḓu ti͇ng Vi͏t tÿ͡ng b̹ng AMPad......................................................12
Hình 1.2.2-2 : Gõ ti͇ng Vi͏t không ḓu trên VietPad .............................................................12
Hình 1.2.2-3 : Văn b̫n sau khi thc hi͏n chͱc năng thêm ḓu ti͇ng Vi͏t cͯa VietPad ...........13
Hình 1.2.3-4 : Gõ ti͇ng Vi͏t không ḓu trên EasyVn..............................................................14
Hình 1.2.3-5 : Văn b̫n sau khi tÿ͡ng thêm ḓu trên EasyVn ..............................................14
Hình 1.2.4-6 : S˯ÿ͛ k͇t c̭u âm ti͇ng Vi͏t.............................................................................17
Hình 3.1.1-7 : L˱u ÿ͛ thc hi͏n cͯa mô hình ͱng dͭng trong VietPad...................................26
Hình 3.1.2-8 : L˱u ÿ͛ thc hi͏n cͯa mô hình n-gram ............................................................29
Hình 3.2-9: L˱u ÿ͛ thc hi͏n cͯa mô hình ÿ͉ xṷt ................................................................33
Hình 3.2-10 : T̵p tin m̳u sau khi th͙ng kê t̯n sṷt tͳ ..........................................................38
Hình 3.2-11 : Trích t̵p tin TuDienChinh.txt ..........................................................................39
Hình 3.2-12 : Trích t̵p tin CumTu.txt....................................................................................41
Hình 4.1.1-13: Giao di͏n ch˱˯ng trình HTML2TXT ..............................................................44
Hình 4.1.1-14: C̭u hình cͯa ch˱˯ng trình HTML2TXT.........................................................45
Hình 4.1.1-15 : M͡t trang báo thanh niên..............................................................................47
Hình 4.1.1-16 : 'ͷ li͏u ÿ˱ͫc tách tͳ trang báo Thanh niên...................................................48
Hình 4.1.2-17: Giao di͏n ch˱˯ng trình Tách Câu..................................................................49
Hình 4.1.2-18: Tͳ vi͇t t̷t cung c̭p cho ch˱˯ng trình Tách Câu............................................49
Hình 4.1.2-19: N͡i dung file k͇t xṷt cͯa ch˱˯ng trình Tách Câu .........................................50
Hình 4.1.3-20: Giao di͏n module tách tͳ...............................................................................51
Hình4.1.3-21: N͡i dung t̵p tin th˱ mͭc ngu͛n ......................................................................51
Hình 4.1.3-22: N͡i dung t̵p tin tͳÿL͋n .................................................................................52
Hình 4.1.3-23: N͡i dung t̵p tin k͇t qu̫.................................................................................52
Hình 4.1.3-24: Giao di͏n ch˱˯ng trình t̩o tͳÿL͋n chính.......................................................53
Hình 4.1.3-25 : Trích 1 ph̯n TuDienChinh.txt.......................................................................54
Hình 4.1.3-26 : Trích 1 ph̯n TuDienPhanLop.txt.................................................................54
Hình 4.1.3-27: Trích 1 ph̯n KhoCau.txt................................................................................55
Hình 4.3.1-28: Giao di͏n ch˱˯ng trình t̩o kho dͷ li͏u tinh gi̫n ...........................................56
Hình 4.3.1-29 : Trích 1 ph̯n th˱ mͭc k͇t xṷt .......................................................................57
Hình 4.3.1-30 : Th˱ mͭc con _a trong th˱ mͭc k͇t xṷt.........................................................57
Hình 4.3.2-31: Giao di͏n ch˱˯ng trình t̩o t̵p tin cͭm tͳ .....................................................58
Hình 4.4.1-32: Giao di͏n ch˱˯ng trình chính VietEditor .......................................................59
Hình 4.4.2-33: Giao di͏n ch˱˯ng trình chính thêm ḓu Clipboard ........................................60
Hình 4.4.2-34: Test ch˱˯ng trình thêm ḓu Clipboard...........................................................61
Hình 5.2-35 : T̵p tin kho ngͷ li͏u m̳u .................................................................................69
Chѭѫng 1. 7ӘNG QUAN
Luұn văn tӕt nghiӋp : Phѭѫng pháp thêm dҩu vào văn bҧn tiӃng ViӋt không dҩu
10
1.1. Giӟi thiӋu vӅ bài toán Thêm dҩu tiӃng ViӋt vào
Yăn bҧn không dҩu
1.1.1. Phát biӇu bài toán
Bài toán có thӇÿѭӧc phát biӇu nhѭ sau : Cho mӝt văn bҧn tiӃng ViӋt không
Gҩu. ChuyӇn văn bҧn không dҩu này thành có dҩu vӟi ÿӝ chính xác cao.
ChӍ sӱ dөng tӯÿLӇn tӯ và kho ngӳ liӋu thô làm ÿҫu vào.
Khái niӋm tӯӣÿây là “tӯ tӯÿLӇn” – tӭc là các tӯÿѫn, tӯ ghép và cөm tӯ
ÿѭӧc lѭu trong tӯÿLӇn.
ChӍ xӱ lý các văn bҧn tiӃng ViӋt có mã Unicode.
1.1.2. Ĉһc ÿLӇm
Chӳ viӃt tiӃng ViӋt có 1 ÿһc ÿLӇm rҩt hay là sӵ xuҩt hiӋn cӫa các dҩu thanh
FNJng nhѭ dҩu cӫa các ký tӵ. ViӋc có dҩu thanh và dҩu cӫa ký tӵ này làm phong
phú thêm cho ngôn tӯ tiӃng ViӋt, và cNJng góp phҫn tăng ÿӝ biӇu cҧm cӫa tiӃng
ViӋt.
'ҩu thanh là 1 thành phҫn “bҩt khҧ phân” trong âm tiӃt tiӃng ViӋt [8]. Khi
loҥi bӓ dҩu thanh, viӋc hiӇu nghƭa cӫa tӯ, gӗm 1 hay nhiӅu âm tiӃt kӃt hӧp vӟi
nhau, trӣ nên khó khăn và dӉ gây hiӇu lҫm.
ĈӇ thêm dҩu, trѭӟc tiên, ta cҫn phҧi xác ÿӏnh ranh giӟi tӯ. Bài toán xác
ÿӏnh ranh giӟi tӯÿӕi vӟi văn bҧn tiӃng ViӋt có dҩu ÿã là 1 viӋc thӱ thách, thì khi
không có dҩu, viӋc nhұn diӋn ranh giӟi tӯ càng trӣ nên khó khăn hѫn. Vҩn ÿӅ
này lҥi càng khó khăn, khi ranh giӟi tӯ trong tiӃng ViӋt cNJng nhѭ 1 sӕ ngôn ngӳ
Châu Á khác, mӝt tӯ chính tҧ có thӇ không tѭѫng ӭng vӟi mӝt “tӯ” trên văn
Eҧn. Ĉӕi vӟi các thӭ tiӃng Châu Âu, ta có thӇ dӉ dàng nhұn ra mӝt tӯ, do các tӯ
ÿѭӧc phân cách bӣi khoҧng trҳng. ĈLӅu này lҥi không ÿúng vӟi tiӃng ViӋt.
Trong tiӃng ViӋt, các tiӃng _ hay còn gӑi là âm tiӃt _ ÿѭӧc phân cách bӣi
khoҧng trҳng, chӭ không phҧi tӯ.
Luұn văn tӕt nghiӋp : Phѭѫng pháp thêm dҩu vào văn bҧn tiӃng ViӋt không dҩu
11
Sau khi ÿã nhұn diӋn ÿѭӧc ranh giӟi tӯ, ta cҫn phҧi xác ÿӏnh cho ÿúng tӯ có
Gҩu nào có dҥng thӇ hiӋn không dҩu nhѭ vұy. ViӋc xác ÿӏnh này cNJng gây nhiӅu
khó khăn, khi 1 tӯ không dҩu có thӇ có nhiӅu tӯ có dҩu tѭѫng ӭng vӟi nó.
Ví dͭ 1-1 : Tӯ không dҩu “toi” có 3 tӯ có dҩu tѭѫng ӭng là “tôi”, “tӟi” và
“tӕi”.
Do ÿó, sau khi ÿã giҧi quyӃt xong bài toán tách tӯ tiӃng ViӋt không dҩu, ta
Fҫn phҧi giҧi quyӃt thêm bài toán xác ÿӏnh tӯ có dҩu thích hӧp vӟi tӯ không dҩu
ÿó. Ĉây chính là 2 bài toán cҫn giҧi quyӃt chính cӫa mô hình.
1.1.3. +ѭӟng giҧi quyӃt
Ĉӕi vӟi tách tӯ có dҩu, có nhiӅu mô hình ÿѭӧc sӱ dөng và ÿҥt kӃt quҧ cao
nhѭ MM (Maximum Matching : forward / backward hay còn gӑi là LRMM:
Left Right); giҧi thuұt hӑc cҧi biӃn TBL; mҥng chuyӇn dӏch trҥng thái hӳu hҥn
có trӑng sӕ WFST (Weighted finite-state Transducer); giҧi thuұt dӵa trên nén
(compression) [1] …. Hѭӟng giҧi quyӃt ÿѭӧc ÿӅ xuҩt là sӱ dөng phѭѫng pháp
tách tӯ LRMM [1][7] kӃt hӧp vӟi mô hình Bigram ÿã giҧi quyӃt khá hiӋu quҧ 2
Yҩn ÿӅ cӫa bài toán này. Phѭѫng pháp chӍ mӟi ÿѭӧc áp dөng cho mô hình thêm
Gҩu offine, nhѭng có thӇÿѭӧc cài ÿһt ÿӇ gán dҩu online.
1.2. Giӟi thiӋu các công trình ÿã có
1.2.1. AMPad
AMPad [12] (tên version cNJ và thông dөng vӟi mӑi ngѭӡi là AutoMark)
Fӫa tác giҧ Trҫn TriӃt Tâm là sҧn phҭm ÿҫu tiên nghiên cӭu vӅ lƭnh vӵc này.
Chѭѫng trình ÿã ÿѭӧc nhiӅu ngѭӡi biӃt ÿӃn và ÿѭӧc sӱ dөng rӝng rãi. ĈLӅu này
cho thҩy viӋc phát triӇn ӭng dөng hoàn thiӋn hѫn nӳa vӅ thêm dҩu tiӃng ViӋt là
có nhu cҫu, và nhu cҫu này sӁ ngày càng tăng cao. Chѭѫng trình AMPad có
Luұn văn tӕt nghiӋp : Phѭѫng pháp thêm dҩu vào văn bҧn tiӃng ViӋt không dҩu
12
ÿLӇm hay là viӋc áp dөng mô hình xӱ lý thêm dҩu ӣ chӃÿӝ online, tҥo sӵ trӵc
quan, thân thiӋn cho ngѭӡi sӱ dөng.
Hình 1.2.1-1 : Thêm ḓu ti͇ng Vi͏t tÿ͡ng b̹ng AMPad
1.2.2. VietPad
Vietpad [11] là trình soҥn thҧo hӛ trӧ tiӃng ViӋt Unicode, ÿѭӧc phát triӇn
Eӣi Quân NguyӉn và nhóm phát triӇn trên Ngoài
chӭc năng thêm dҩu tӵÿӝng offline mà luұn văn ÿang nghiên cӭu, VietPad còn
là 1 trình soҥn thҧo tiӃng ViӋt hӛ trӧ rҩt tӕt Unicode và là mã nguӗn mӣ.
Hình 1.2.2-2 : Gõ ti͇ng Vi͏t không ḓu trên VietPad
Luұn văn tӕt nghiӋp : Phѭѫng pháp thêm dҩu vào văn bҧn tiӃng ViӋt không dҩu
13
Hình 1.2.2-3 : Văn b̫n sau khi thc hi͏n chͱc năng thêm ḓu ti͇ng Vi͏t cͯa VietPad
1.2.3. www.EasyVn.com
Trang web www.easyvn.com [10] cung cҩp dӏch vө email ÿLӋn tӱ miӉn phí
trên mҥng, vӟi sӵ hӛ trӧ ngѭӡi dùng rҩt tӕt vӅ ngôn ngӳ ViӋt. 1 chӭc năng nәi
Eұt cӫa www.easyvn.com là : sau khi soҥn thҧo xong bӭc mail, ngѭӡi dùng có
thӇ chӑn chӭc năng Thêm dҩu tiӃng ViӋt ÿӇ biӃn văn bҧn không dҩu thành có
Gҩu. Do ÿây là dӏch vөÿѭӧc cung cҩp và thu phí trên NET (cho sӱ dөng thӱ
trong 2 tháng), mô hình thêm dҩu tӵÿӝng cӫa www.easyvn.comÿѭӧc giӳ kín.
Luұn văn tӕt nghiӋp : Phѭѫng pháp thêm dҩu vào văn bҧn tiӃng ViӋt không dҩu
14
Hình 1.2.3-4 : Gõ ti͇ng Vi͏t không ḓu trên EasyVn
Hình 1.2.3-5 : Văn b̫n sau khi tÿ͡ng thêm ḓu trên EasyVn
1.2.4. VnMark
VnMark [2] ÿѭӧc tác giҧ NguyӉn Văn Toàn phát triӇn. Do tác giҧÿã làm
thҩt lҥc chѭѫng trình, do ÿó, không có hình ҧnh minh hoҥ chѭѫng trình.
Chѭѫng 2. &Ѫ SӢ LÝ THUYӂT
TIN HӐC
Luұn văn tӕt nghiӋp : Phѭѫng pháp thêm dҩu vào văn bҧn tiӃng ViӋt không dҩu
16
2.1. Lý thuyӃt vӅ ngôn ngӳ hӑc
2.1.1. Âm tiӃt (còn gӑi là “tiӃng”)
2.1.1.1. Ĉӏnh nghƭa và ÿһc ÿLӇm âm tiӃt tiӃng ViӋt
“TiӃng” là “ÿѫn vӏ cѫ bҧn” trong tiӃng ViӋt [1]. Mӝt “tiӃng” trong tiӃng
ViӋt ÿѭӧc nói lên là mӝt ÿѫn vӏ ngӳ âm, và cNJng là mӝt ÿѫn vӏ ngӳ pháp.
0ӝt “tiӃng” là mӝt ÿѫn vӏ phát ngôn, và là mӝt ÿѫn vӏ cӫa lӡi nói ÿӇ tҥo ra
nhӳng kӃt cҩu lӡi nói trong hoҥt ÿӝng nói năng giao tiӃp. Ĉһc tính này cӫa
tiӃng chính là mӝt tính cách loҥi hình cӫa tiӃng ViӋt, trong ÿó mӛi ÿѫn vӏ
phát âm trùng khít vӟi ÿѫn vӏ ngӳ pháp (hình vӏ, và tӯ). Khi xét trên bình
diӋn ngӳ âm, tiӃng là mӝt ÿѫn vӏ cӫa ngӳ âm, tӭc là mӝt âm tiӃt [9].
ViӋc nhұn diӋn “tiӃng” ÿӕi vӟi ngѭӡi ViӋt là ÿLӅu quá dӉ dàng, tӵ nhiên
ÿӕi vӟi mӑi ngѭӡi mà không cҫn mӝt trình ÿӝ ngôn ngӳ gì cao, vì : trong lӡi
nói (mһt ngӳ âm), mӛi “tiӃng” bao giӡ cNJng phát ra mӝt hѫi, nghe thành mӝt
tiӃng, và có mang mӝt thanh ÿLӋu nhҩt ÿLӋu; còn trong chӳ viӃt (mһt chính
Wҧ), mӛi tiӃng bao giӡ cNJng ÿѭӧc viӃt rӡi thành tӯng chӳ (ngăn cách bҵng
khoҧng trҳng hay các dҩu ngҳt). Ĉѫn vӏ “tiӃng” ÿӕi vӟi ngѭӡi ViӋt là mӝt
ÿѫn vӏ tӵ nhiên, khái niӋm “tiӃng” ÿã có tӯ lâu và ÿѭӧc ngѭӡi bҧn ngӳ sӱ
Gөng nó trѭӟc khi hiӇu và sӱ dөng khái niӋm “tӯ”.
Ví dͭ 2-1:
Câu “Cái bàn này hình bán nguyӋt” có 6 tiӃng
2.1.1.2. Thanh là thành phҫn cӫa âm tiӃt tiӃng ViӋt
Khi phát âm tiӃng ViӋt, chúng ta phát âm tӯng ÿѫn vӏ lӡi nói cҳt rӡi nhau,
Jӑi là âm tiӃt. Khi phát âm chұm mӝt âm tiӃt, có thӇ nhұn thҩy khá rõ là mӛi
âm tiӃt ÿӅu có thӇ kӃt hӧp nhiӅu nhҩt là ba ÿѫn vӏ phát âm : âm ÿҫu + âm
chính + âm cuӕi. Ba thành phҫn trên gӗm nhӳng âm vӏ xuҩt hiӋn tѭѫng ÿӕi
theo thӭ tӵ trѭӟc sau, nên gӑi là nhӳng âm vӏ tuyӃn tính.
Luұn văn tӕt nghiӋp : Phѭѫng pháp thêm dҩu vào văn bҧn tiӃng ViӋt không dҩu
17
Ngoài ra, mӛi âm tiӃt ÿѭӧc ÿӏnh mӝt bұc cao thҩp, gӑi là thanh ÿLӋu.
Trong lӡi nói, mӛi âm tiӃt tiӃng ViӋt ÿӅu mang mӝt thanh. Thanh này xuҩt
hiӋn lұp tӭc khi âm tiӃt ÿѭӧc phát ra, cho nên có thӇ nói rҵng thanh là mӝt
thành phҫn bҩt khҧ phân cӫa âm tiӃt. Thanh là thành phҫn âm vӏ phi tuyӃn
tính cӫa mӝt âm tiӃt tiӃng ViӋt. Thanh là mӝt sҳc thái cӫa âm thanh các âm
tiӃt, qua ÿó khi phát âm sӁÿӏnh bұc cao thҩp khác nhau cӫa mӛi ÿѫn vӏ cӫa
chuӛi lӡi nói. Có sáu thanh làm tiêu chuҭn ÿӏnh bұc cao thҩp khác nhau,
thѭӡng gӑi là ngang, hӓi, sҳc, huyӅn, ngã, nһng.
Nhѭ vұy thì mӛi âm tiӃt tiӃng ViӋt ÿҫy ÿӫ có tӕi ÿa bӕn ÿѫn vӏ cҩu thành.
7ӕi thiӇu thì mӛi âm tiӃt cNJng phҧi có hai thành phҫn : âm chính + thanh.
Hình 1.2.4-6 : S˯ÿ͛ k͇t c̭u âm ti͇ng Vi͏t
2.1.1.3. 7ҥi sao lҥi phҧi dùng dҩu thanh ?
Các ngôn ngӳ dùng bҧng chӳ cái Latin không dùng thêm kí hiӋu chӍ
thanh, mà chӍ ghi lҥi các âm vӏ tuyӃn tính bҵng các ÿӗ vӏ là con chӳ. HӋ
thӕng chӳ viӃt khӕi vuông nhѭ chӳ Hán và chӳ Nôm cNJng không có kí hiӋu
chӍ thanh. Nhѭng trѭӡng hӧp chӳ quӕc ngӳ có khác. Khi dùng bҧng chӳ cái
Latin, các ÿӗ vӏ con chӳ chѭa ÿӫÿӇ phân biӋt ý nghƭa mӝt tӯÿѭӧc viӃt ra, vì
có ÿӃn sáu thanh phҧi phân biӋt. Ðã ÿành thanh chӍ là yӃu tӕ ngӳ âm không
thuӝc vӅ thành phҫn âm vӏ tuyӃn tính, nhѭng thanh tiӃng ViӋt không hҷn chӍ
là mӝt yӃu tӕ ngôn ÿLӋu mang tính cách hoa mƭ cho âm tiӃt, mà là mӝt thành
phҫn không thӇ thiӃu ÿѭӧc khi phát âm mӝt âm tiӃt. Nói cách khác, âm tiӃt
tiӃng ViӋt chѭa hoàn chӍnh khi chѭa ÿѭӧc ÿӏnh thanh. Có lӁ các nhà sáng chӃ
ra chӳ viӃt theo bҧng chӳ cái Latin mà ta thѭӡng gӑi quen là "chӳ quӕc ngӳ"
Luұn văn tӕt nghiӋp : Phѭѫng pháp thêm dҩu vào văn bҧn tiӃng ViӋt không dҩu
18
ÿã hiӇu rҩt rõ tính cách bҩt khҧ phân cӫa thanh ÿӕi vӟi âm tiӃt tiӃng ViӋt, cho
nên các vӏÿã dùng ÿӃn nhӳng kí hiӋu ÿӇ chӍ thӏ các bұc thanh tѭѫng ӭng. Và
ÿây cNJng là ÿһc ÿLӇm nәi bұt cӫa tiӃng ViӋt.
2.1.2. 7ӯ
2.1.2.1. Các quan niӋm vӅ tӯ
Có 1 sӕÿӏnh nghƭa ÿLӇn hình vӅ tӯ nhѭ sau [1] :
- Theo L.Bloomfield, thì tӯ là ³P͡t hình thái t do nh͗ nh̭W´.
- Theo Solncev thì ³7ͳ là ÿ˯n v͓ ngôn ngͷ có tính hai m̿t: âm và nghƭa.
7ͳ có kh̫ năng ÿ͡c l̵p v͉ cú pháp khi s͵ dͭng trong lͥL´.
- Theo B.Golovin, thì tӯ là ³ÿ˯n v͓ nh͗ nh̭t có nghƭa cͯa ngôn ngͷ, ÿ˱ͫc
Y̵n dͭng ÿ͡c l̵p, tái hi͏n t do trong lͥi nói ÿ͋ xây dng nên câu´. Ĉây
FNJng chính là ÿӏnh nghƭa mà trong ngôn ngӳ hӑc ÿҥi cѭѫng hay sӱ dөng.
Trong nӝi dung luұn văn này, ta quan tâm tӟi 3 thuұt ngӳ trong ngôn ngӳ
ÿҥi cѭѫng ÿӇ nhұn diӋn tӯ :
1. 7ͳ ngͷ âm : ÿó là nhӳng ÿѫn vӏÿѭӧc thӕng nhҩt vӟi hiӋn tѭӧng
ngӳ âm nào ÿó. Ĉӕi vӟi tiӃng ViӋt, ÿó chính là nhӳng âm tiӃt, hay
còn gӑi là “tiӃng”, “tiӃng mӝt”.
2. 7ͳ chính t̫ : ÿó là nhӳng khoҧng cách giӳa 2 chӛ trên văn tӵ, tӭc là
nhӳng ÿѫn vӏÿѭӧc viӃt liӅn thành khӕi, ÿӕi vӟi tiӃng ViӋt, ÿó chính
là “chӳ”
3. 7ͳ tͳÿL͋n h͕c : ÿó là ÿѫn vӏ mà căn cӭ vào ÿһc ÿLӇm ý nghƭa cӫa
nó phҧi xӃp riêng trong tӯÿLӇn.
2.1.2.2. Tiêu chí nhұn diӋn “tӯ” tiӃng ViӋt
7ӯ rҩt nhiӅu quan niӋm cNJng nhѭ các ÿӏnh nghƭa vӅ “tӯ tiӃng ViӋt”, ta có
thӇ rút ra tiêu chuҭn mà các nhà ViӋt ngӳ hӑc ÿã dӵa vào ÿó khi nhұn diӋn tӯ
Luұn văn tӕt nghiӋp : Phѭѫng pháp thêm dҩu vào văn bҧn tiӃng ViӋt không dҩu
19
tiӃng ViӋt [3]. Các tiêu chuҭn này chung qui ta có thӇ phân thành : các tiêu
chuҭn vӅ hình thӭc và các tiêu chuҭn vӅ nӝi dung.
2.1.2.2.1. Các tiêu chuҭn vӅ hình thӭc
Tính c͙ÿ͓nh : tính vӳng chҳc vӅ cҩu tҥo, không thӇ chêm – xen ÿѭӧc
Tính ÿӝc lұp : các nhà ViӋt ngӳ hӑc hay dùng tiêu chuҭn tính ÿӝc lұp ÿӇ
phân biӋt tӯ (ÿѫn vӏ có nghƭa và ÿӝc lұp) vӟi hình vӏ (ÿѫn vӏ có nghƭa và
không ÿӝc lұp). Tính ÿӝc lұp còn ÿѭӧc gӑi là khҧ năng kӃt hӧp (tӵ do – hҥn
chӃ)
Tính tͳ lo̩i và quan h͏ cú pháp : trong ngӳ/câu, tӯ ÿҧm nhұn nhӳng
chӭc năng cú pháp nhҩt ÿӏnh, nên mӑi tӯÿӅu phҧi mang mӝt tӯ loҥi nào ÿó,
còn hình vӏ thì không có tính chҩt tӯ loҥi. Quan hӋ giӳa các tӯ là quan hӋ cú
pháp, còn quan hӋ giӳa các hình vӏ cӫa tӯ không phҧi là quan hӋ cú pháp.
2.1.2.2.2. Các tiêu chuҭn vӅ nӝi dung
Chͱc năng ÿ͓nh danh : chӭc năng này ÿѭӧc dùng ÿӇ xác ÿӏnh tѭ cách cӫa
Wӯ (tӯ thӵc), coi ÿó là ÿһc trѭng phân biӋt giӳa “tӯ” vӟi “hình vӏ”
Bi͋u th͓ khái ni͏m : vì tӯ vӟi khái niӋm không phҧi là mӝt: có nhӳng khái
niӋm cҫn biӇu thӏ bҵng nhiӅu tӯ, và có nhӳng tӯ không biӇu thӏ khái niӋm.
Ý nghƭa bi͋u ni͏m : vì ý nghƭa cӫa tӯ và khái niӋm không trùng nhau, vì
Yұy, ngѭӡi ta cҫn phân biӋt ý nghƭa tӯ vӵng và ý nghƭa ngӳ pháp.
Hoàn ch͑nh v͉ nghƭa : ÿây là tiêu chuҭn quan trӑng, ÿѭӧc ÿa sӕ các nhà
ViӋt ngӳ hӑc chҩp nhұn trong viӋc xác ÿӏnh tѭ cách cӫa tӯ. Tiêu chuҭn này
liên quan ÿӃn tính thành ngӳ và tính võ ÿoán.
Luұn văn tӕt nghiӋp : Phѭѫng pháp thêm dҩu vào văn bҧn tiӃng ViӋt không dҩu
20
2.2. Tách tӯ
Bài toán tách tӯ cho ngôn ngӳÿѫn lұp ÿã ÿѭӧc ÿһt ra tӯ lâu, chӫ yӃu ÿӇ giҧi quyӃt
cho tiӃng Trung Quӕc, tiӃng Nhұt. Các thuұt toán tách tӯ có thӇÿѭӧc phân loҥi nhѭ
sau:
v 'ӵa theo luұt. Bao gӗm các cách sau:
- Longest Matching, Greedy Matching Models (Yuen Poowarawan), 1986; Sampan
Rarurom, 1991).
- Mô hình khӟp tӕi ÿa. Mô hình này ÿѭӧc chia thành “Khӟp tӕi ÿa tiӃn và khӟp tӕi
ÿa lùi”. Ĉӕi vӟi phѭѫng pháp này thì mӝt tӯÿLӇn hoàn chӍnh là không thӇ thiӃu.
0ӝt tӯÿLӇn không hoàn chӍnh sӁ giҧm hiӋu suҩt cӫa thuұt toán. Tuy nhiên, dӉ
thҩy là khó có thӇ có mӝt tӯÿLӇn hoàn chӍnh (ÿһc biӋt khi các ngôn ngӳ vүn còn
ÿѭӧc tiӃp tөc phát triӇn hҵng ngày trong thӡi ÿҥi ngày nay). Mô hình này tuǤ
thuӝc nhiӅu vào tӯÿLӇn.
v Dùng thӕng kê:
Giҧi pháp này dӵa vào ngӳ cҧnh tӯ xung quanh ÿӇÿѭa ra quyӃt ÿӏnh thích hӧp.
Có hai vҩn ÿӅ cҫn ÿѭӧc giҧi quyӃt ÿӕi vӟi giҧi pháp này : ÿӝ rӝng ngӳ cҧnh, và cách áp
Gөng thӕng kê. Ngӳ cҧnh càng rӝng thì thuұt toán càng phӭc tҥp.
Cho dù ÿӝ rӝng ngӳ cҧnh thӃ nào, luôn có thӇ áp dөng mô hình first-order HMM.
Tuy nhiên giҧi pháp này phө thuӝc rҩt nhiӅu vào ngӳ liӋu huҩn luӷӋn. KӃt quҧ huҩn
luyӋn trên ngӳ liӋu chính trӏ khó có thӇ áp dөng trên các tài liӋu văn hӑc và ngѭӧc lҥi.
Thêm vào ÿó, có nhӳng tӯ có xác suҩt rҩt cao, nhung chӍ có thӇ chӭc năng vӅ mһt ngӳ
pháp, làm giҧm vai trò cӫa xác suҩt.
v Cách khác:
+ҫu hӃt các giҧi pháp khác là sӵ lai tҥo giӳa các mô hình trên và các mô hình
ngôn ngӳ hӑc nhѭ WFST, TBL. Thӡi gian xӱ lý các giҧi pháp này trӣ nên ÿáng kӇ,
nhѭng ÿӝ chính xác ÿҥt ÿѭӧc khá cao.
Luұn văn tӕt nghiӋp : Phѭѫng pháp thêm dҩu vào văn bҧn tiӃng ViӋt không dҩu
21
Tri thӭc vӅ ngôn ngӳ, thѭӡng áp dөng cho các mô hình dӵa trên luұt, hiӃm khi
ÿѭӧc áp dөng cho nhӳng mô hình trên.
'ѭӟi ÿây là mô tҧ 2 phѭѫng pháp tách tӯ thѭӡng sӱ dөng :
2.2.1. Khӟp tӕi ÿa (LRMM – Left Right Max Matching)
Thuұt toán so khӟp tӕi ÿa hoҥt ÿӝng nhѭ tên cӫa chính nó. Thuұt toán giҧi quyӃt
bài toán tách tӯ nào có nhiӅu tӯ nhҩt (so khӟp ÿѭӧc nhiӅu nhҩt). Thuұt toán ÿѭӧc áp
Gөng ÿӇ xây dӵng chѭѫng trình tách tӯ tiӃng Trung Quӕc MMSEG. Thuұt toán này có
nhiӅu biӃn thӇ khác nhau.
Ø 'ҥng ÿѫn giҧn, ÿѭӧc dung ÿӇ giҧi quyӃt vҩn ÿӅ nhұp nhҵng tӯÿѫn. Giҧ sӱ có
Pӝt chuӛi ký tӵ (tѭѫng ÿѭѫng vӟi chuӛi tiӃng ViӋt trong tiӃng ViӋt) C1, C2
,…C3. Ta bҳt ÿҫu tӯÿҫu chuӛi. Ĉҫu tiên, kiӇm tra xem C1 có phҧi là tӯ không,
sau ÿó kiӇm tra xem C1C2 có phҧi là tӯ hay không. TiӃp tөc làm cho ÿӃn khi tìm
ÿѭӧc tӯ dài nhҩt. Tӯ có vӁ hӧp lý nhҩt là tӯ dài nhҩt. Chӑn tӯÿó, sau ÿó tìm tiӃp
nhѭ trên trên nhӳng tӯ còn lҥi, cho ÿӃn khi xác ÿӏnh ÿѭӧc toàn bӝ chuӛi dӳ liӋu.
Ø 'ҥng phӭc tҥp. Quy tҳc cӫa dҥng này là phân ÿRҥn có vӁ hӧp lý nhҩt là ÿRҥn 3
Wӯ vӟi chiӅu dài tӕi ÿa. Thuұt toán bҳt ÿҫu nhѭ dҥng ÿѫn giҧn. NӃu phát hiӋn ra
nhӳng cách tách tӯ gây nhұp nhҵng (ví dө C1 là tӯ và C1C2 FNJng là tӯ), ta xem
các chӳ kӃ tiӃp ÿӇ tìm tҩt cҧ các ÿRҥn ba tӯ có thӇ có bҳt ÿҫu vӟi C1 hoһc C1C2.
Ví dͭ 2-2 : ta ÿѭӧc nhӳng ÿRҥn sau:
- C1 C2 C3C4.
- C1C2 C3C4 C5
- C1C2 C3C4 C5C6
Chuӛi dài nhҩt sӁ là chuӛi thӭ ba. Vұy tӯÿҫu tiên cӫa chuӛi thӭ ba (C1C2) sӁ
ÿѭӧc chӑn. Thӵc hiӋn lҥi các bѭӟc cho ÿӃn khi ÿѭӧc chuӛi tӯ hoàn chӍnh. Cách này ÿҥt
ÿѭӧc ÿӝ chính xác 99.69%.
Mô hình sӱ dөng phѭѫng pháp tách tӯ LRMM dҥng ÿѫn giҧn. Mô hình này vӯa
ÿѫn giҧn, nhѭng mang lҥi ÿӝ chính xác cao.
Luұn văn tӕt nghiӋp : Phѭѫng pháp thêm dҩu vào văn bҧn tiӃng ViӋt không dҩu
22
2.2.2. Mô hình mҥng WFST và mҥng nѫ-ron
WFST ÿã ÿѭӧc áp dөng ÿӇ tách tӯ tiӃng Trung Quӕc. Ý tѭӣng cѫ bҧn là áp dөng
WFST kӃt hӧp vӟi trӑng sӕ là xác suҩt xuҩt hiӋn cӫa mӛi tӯ trong ngӳ liӋu. Dùng
WFST ÿӇ duyӋt qua câu cҫn xét. Cách duyӋt có trӑng sӕ lӟn nhҩt sӁ là cách tách tӯ
ÿѭӧc chӑn. Giҧi pháp này cNJng ÿã ÿѭӧc áp dөng trong [5] kèm vӟi mҥng nѫ-ron ÿӇ
khӱ nhұp nhҵng.
Mô hình tách tӯ trong VnMark sӱ dөng chính là mô hình WFST này (Xem chi tiӃt
Kѫn trong [1] trang 99-104, hay trong [5])
2.3. Tách câu
Trong mӝt văn bҧn tiӃng Anh hay bҵng bҩt kǤ mӝt ngôn ngӳ thông dөng nào
khác, thông thѭӡng thì ta chӍ dùng dҩu chҩm (.), chҩm than (!), chҩm hӓi(?) và mӝt sӕ
Gҩu khác nӳa ÿӇ nhұn biӃt kӃt thúc câu. (Ta gӑi nhӳng dҩu này là nhӳng dҩu báo hiӋu
NӃt thúc câu hay dҩu chҩm câu). Tuy nhiên, do tính nhұp nhҵng cӫa dҩu báo hiӋu kӃt
thúc câu (chҷng hҥn nhѭ dҩu kӃt thúc câu trong tӯ viӃt tҳt,…) nên viӋc xác ÿӏnh ranh
giӟi câu không ÿѫn giҧn nhѭ chúng ta nghƭ. Ví dө nhѭ dҩu chҩm, nó có thӇ biӇu thӏ nhѭ
Pӝt dҩu chҩm thұp phân, mӝt cөm tӯ kӃt thúc, sӵ kӃt thúc câu văn hoһc ngay cҧ tӯ viӃt
Wҳt nҵm ӣ cuӕi câu. Mӝt dҩu chҩm hӓi hay dҩu chҩm than có thӇ xuҩt hiӋn trong dҩu
ngoһc ÿѫn, ngoһc kép hay cNJng nhѭӣ cuӕi câu. Sӵ mұp mӡ cӫa các dҩu câu này ÿѭӧc
thӇ hiӋn qua các ví dө sau:
Ví dͭ 2-3:
1. The group included Dr. J.M. Freeman and T. Boone Pickens Jr.
2. “This issue crosses party lines and crosses philosophical lines!” said Rep.
John Rowland (R., Conn.).
3. It was due Friday 5 p.m. Saturday would be too late.
4. She has an appointment at 5 p.m. Saturday to get her car fixed.
Luұn văn tӕt nghiӋp : Phѭѫng pháp thêm dҩu vào văn bҧn tiӃng ViӋt không dҩu
23
Trong trѭӡng hӧp 1 và 2, tӯ nҵm ngay trѭӟc hoһc nҵm ngay sau dҩu chҩm câu cho ta
nhӳng thông tin quan trӑng vӅ vai trò cӫa dҩu trong câu. Tuy nhiên, bӝ phұn tách câu
Fҫn phҧi có nhiӅu thông tin vӅ ngӳ cҧnh hѫn trong trѭӡng hӧp viӋc chҩm câu xuҩt hiӋn
ӣ mӝt câu con trong dҩu ngoһc ÿѫn hoһc ngoһc kép, nhѭ trong trѭӡng hӧp 2; hay khi
chӳ viӃt tҳt xuҩt hiӋn ӣ cuӕi câu nhѭ trong trѭӡng hӧp 3, 4. ĈӇ nhұn diӋn dҩu chҩm
câu, ngѭӡi ta có thӇ dùng các heuristics hoһc các mô hình hӑc phӭc tҥp hѫn, nhѭ :
Pҥng neural, TBL, Maximum Entropy.
2.3.1. Tách câu bҵng Heristics.
Sau khi nhұn ÿRҥn văn bҧn ÿã ÿѭӧc lӑc các ký tӵ dѭ thӯa, các ký tӵ phө, bӝ
phұn tách câu bҳt ÿҫu phân tích dӵa trên cách chҩm câu và ngӳ nghƭa mӝt sӕ tӯÿӇ tách
ra các câu riêng biӋt.
2.3.1.1. ;ӱ lý dҩu chҩm.
'ҩu chҩm “.” là dҩu có nhiӅu trѭӡng hӧp mѫ hӗ nhҩt. Sau ÿây là các trѭӡng hӧp
Gҩu chҩm xuҩt hiӋn:
1. 'ҩu chҩm kӃt thúc câu.
2. 'ҩu chҩm thұp phân trong chӳ sӕ (1,234.567)
3. 'ҩu chҩm biӇu thӏ sӵ viӃt tҳt (Mr., Dr., ...)
4. 'ҩu chҩm trong các trѭӡng hӧp khác nhѭ sӕ tài khoҧn, email
(abcd@yahoo.com), dҩu chҩm trong các ÿӏa chӍ website (www.is-
edu.hcmuns.edu.vn).
ĈӇ có thӇ phân biӋt ÿѭӧc các trѭӡng hӧp trên, ta có thӇ dӵa vào mӝt sӕÿһc trѭng
riêng trong cách trình bày cӫa tӯng trѭӡng hӧp.
1. 1Ӄu dҩu chҩm câu không thuӝc các trѭӡng hӧp còn lҥi (2,3,4) thì dҩu hiӋu ÿӇ
nhұn biӃt kӃt thúc câu sӁ là : “luôn luôn có ít nhҩt mӝt khoҧng trҳng sau dҩu
chҩm và ký tӵ tiӃp theo sӁ là chӳ cái sӁÿѭӧc viӃt hoa”.
2. Ta có thӇ nhұn biӃt dҩu chҩm thұp phân bҵng cách ÿӑc toàn bӝ phҫn liӅn trѭӟc
và phҫn liӅn sau dҩu chҩm ÿӇ phát hiӋn sӕ có dҩu chҩm thұp phân.
Luұn văn tӕt nghiӋp : Phѭѫng pháp thêm dҩu vào văn bҧn tiӃng ViӋt không dҩu
24
3. ĈӇ nhұn biӃt dҩu chҩm trong trѭӡng hӧp các tӯ viӃt tҳt, ta xây dӵng mӝt danh
sách các tӯ viӃt tҳt ÿӇ tra cӭu khi cҫn.
4. Trѭӡng hӧp này là trѭӡng hӧp có các cách trình bày ÿa dҥng nhҩt, nhѭng vүn có
tính chҩt chung là dҩu chҩm không bao giӡ nҵm cuӕi tӯ, luôn ӣ giӳa hai ký tӵ
nào ÿó (nghƭa là không có khoҧng trҳng liӅn sau) nên có thӇ dӉ dàng phân biӋt
ÿѭӧc.
Nhӳng qui luұt trên ÿây là nhӳng qui luұt chung nhҩt trong cách trình bày văn bҧn
tiӃng Anh. Ĉӕi vӟi văn bҧn tiӃng ViӋt, các trѭӡng hӧp cNJng gҫn nhѭ thӃ. Do dӵa chӫ
\Ӄu vào cách trình bày văn bҧn nên có ÿLӇm yӃu là dӉ nhҫm lүn khi văn bҧn ÿѭa vào có
cách trình bày khác chuҭn và do không hiӇu nghƭa câu nên không thӇ phân biӋt mӝt sӕ
trѭӡng hӧp mѫ hӗ nhѭ trong ví dө sau:
1. It was due Friday 5p.m. Saturday would be too late.
2. She has an appointment at 5 p.m. Saturday to get her car fixed.
ĈӇ xác ÿӏnh ÿѭӧc dҩu chҩm (in ÿұm) trong 2 trѭӡng hӧp trên có phҧi là dҩu chҩm
KӃt câu hay không cNJng là mӝt viӋc không ÿѫn giҧn ÿӕi vӟi máy. Thұm chí ÿӕi vӟi
ngѭӡi mà trình ÿӝ tiӃng Anh chѭa vӳng. Trong cҧ hai trѭӡng hӧp, tӯ ngay trѭӟc hoһc
ngay sau dҩu chҩm câu cho ta nhӳng thông tin quan trӑng vӅ vai trò cӫa dҩu trong câu.
Tuy nhiên, bӝ phұn tách câu sӁ phҧi cҫn nhiӅu thông tin vӅ ngӳ cҧnh và cú pháp hѫn
trong trѭӡng hӧp sӵ chҩm câu xuҩt hiӋn ӣ mӝt câu con nhѭ trong trѭӡng hӧp 1.
2.3.1.2. ;ӱ lý dҩu chҩm trong ngoһc.
Khi bӝ tách câu gһp dҩu mӣ ngoһc ÿѫn, hoһc ngoһc kép, thì nó sӁ quét trong
ÿRҥn văn ÿang xét ÿӇ tìm dҩu ÿóng tѭѫng ӭng. NӃu tìm thҩy, toàn bӝ phҫn trong ngoһc
VӁÿѭӧc giӳ nguyên và tìm dҩu kӃt thúc câu tiӃp theo ngoài dҩu ngoһc. NӃu không tìm
thҩy dҩu ÿóng tѭѫng ӭng, dҩu mӣ sӁ bӏ bӓ qua và xӱ lý tiӃp ký tӵ sau dҩu mӣ nhѭ bình
thѭӡng.
Chѭѫng 3. MÔ HÌNH CÀI ĈҺT
Luұn văn tӕt nghiӋp : Phѭѫng pháp thêm dҩu vào văn bҧn tiӃng ViӋt không dҩu
26
3.1. Các mô hình thêm dҩu ÿã ÿѭӧc sӱ dөng
3.1.1. VietPad
3.1.1.1. Mô hình thêm dҩu tiӃng ViӋt
Hình 3.1.1-7 : L˱u ÿ͛ thc hi͏n cͯa mô hình ͱng dͭng trong VietPad
3.1.1.1.1. TiӅn xӱ lý
Chuҭn hoá văn bҧn theo ÿӏnh dҥng mà VietPad quy ÿӏnh
Luұn văn tӕt nghiӋp : Phѭѫng pháp thêm dҩu vào văn bҧn tiӃng ViӋt không dҩu
27
3.1.1.1.2. Tách token
Vietpad không tách tӯng câu ÿӇ xӱ lý, mà vào thҵng viӋc tách ra tӯng token
Pӝt … Token có thӇ gӗm 1 chuӛi các kí tӵ không phҧi là kí tӵ (nhѭ : , . ; “ @
# $ …. ) hay 1 chuӛi các kí tӵ, hay là “chӳ” tiӃng ViӋt.
Ví dͭ 3-1:
Câu “--- Thoi gian troi qua mau ---” sӁÿѭӧc VietPad tách thành tӯng
token nhѭ sau :
Token 1: ---\b (\b kí hiӋu cho ‘ ’ _ khoҧng trҳng)
Token 2: Thoi
Token 3: \b
Token 4: gian
Token 5: \b
Token 6: troi
Token 7: \b
Token 8: qua
Token 9: \b
Token 10: mau
Token 11: \b---
3.1.1.1.3. /ҩy ra các tӯ không dҩu, chuyӇn thành tӯ có dҩu
9ӟi phѭѫng pháp tách token ÿѫn giҧn trên, và thêm phѭѫng pháp tách tӯ
LRMM (tӯ có tӕi ÿa 3 tiӃng), VietPad lҩy ra các tӯ không dҩu, sau ÿó thông
qua 1 tӯÿLӇn ánh xҥ 1-1 giӳa tӯ không dҩu và tӯ có dҩu (tӯÿLӇn chuyӇn ÿәi),
ÿӇ chuyӇn tӯ không dҩu thành có dҩu.
Luұn văn tӕt nghiӋp : Phѭѫng pháp thêm dҩu vào văn bҧn tiӃng ViӋt không dҩu
28
Ví dͭ 3-2:
Câu “Nhung van de lien quan toi nguoi dong tinh luyen ai duoc ban
bac soi noi trong buoi hop nhom toi hom qua” sӁÿѭӧc VietPad chuyӇn
thành câu có dҩu sau thông qua tӯÿLӇn (dҩu / thӇ hiӋn sӵ tách tӯ cӫa VietPad)
“Nhѭng vүn / ÿӇ / liên quan / tôi ngѭӡi / ÿӝng tƭnh / luyӃn ái / ÿѭӧc /
Eҫn bҥc / sôi nәi / trong / buәi / hӧp / nhóm / tôi / hôm qua /”
3.1.2. VnMark
3.1.2.1. Mô hình thêm dҩu tiӃng ViӋt
&ăn cӭ vào mô hình n-gram, mô hình ÿánh dҩu tӵÿӝng tiӃng ViӋt ÿѭӧc
tác giҧ thӵc hiӋn theo lѭu ÿӗ sau:
Luұn văn tӕt nghiӋp : Phѭѫng pháp thêm dҩu vào văn bҧn tiӃng ViӋt không dҩu
29
Hình 3.1.2-8 : /˱u ÿ͛ thc hi͏n cͯa mô hình n-gram
Luұn văn tӕt nghiӋp : Phѭѫng pháp thêm dҩu vào văn bҧn tiӃng ViӋt không dҩu
30
3.1.2.1.1. TiӅn xӱ lý
Xóa các khoҧng trҳng thӯa. Thӵc hiӋn các công viӋc chuҭn hóa dӳ liӋu nhұp
vào… Thay thӃ các ký tӵ tѭӧng tӵ.
Theo các thӕng kê vӅ tâm lý, tác giҧ nhұn thҩy khi ngѭӡi sӱ dөng ÿánh chӳ
ViӋt không dҩu thì ngѭӡi ta vүn ÿánh ÿѭӧc các ký tӵ viӃt hoa nhѭ các danh tӯ riêng.
Do ÿó, các tӯ viӃt hoa sӁ không “thѭӡng hóa” (lowercase) và các tӯ viӃt hoa này sӁ
ÿѭӧc căn cӭÿӇ nhұn dҥng danh tӯ riêng.
Ví dͭ 3-3:
Da NangàĈà Nҹng.
da nangàÿa năng
Do ÿó, tác giҧ lѭu ý ngѭӡi dùng vӅÿһc ÿLӇm này khi sӱ dөng chѭѫng trình.
3.1.2.1.2. Tách câu
&ăn cӭ vào các ÿһc ÿLӇm cӫa ngôn ngӳ cӫa tiӃng ViӋt : các tӯÿѭӧc cách
nhau bӣi các ký tӵ nhѭ “.”, “,”, “:”…ÿӇ tách thành các câu. Mӛi câu là mӝt ÿѫn vӏ xӱ
lý chính trong chѭѫng trình. ViӋc quyӃt ÿӏnh câu là ÿѫn vӏ cѫ bҧn là do nhiӅu khi nghƭa
Fӫa câu sӁÿѭӧc quyӃt ÿӏnh sӵ lӵa chӑn vӅ dҩu trong câu.
3.1.2.1.3. Tìm các khҧ năng ÿánh dҩu cӫa tӯ, câu
File tӯ ÿLӇn (VNMarkDic.txt) sӁ cung cҩp cho chúng ta xác suҩt cӫa các
nhóm âm tiӃt có thӇ xuҩt hiӋn trong các văn bҧn tiӃng ViӋt. File tӯÿLӇn này sӁÿѭӧc
trình bày kӻ hѫn trong phҫn sau.
&ăn cӭ vào tұp tin tӯÿLӇn VNMarkDic.txt, tác giҧ có thӇ tҥo ra các trѭӡng
Kӧp có thӇÿánh dҩu cӫa các tӯ trong câu. Tә hӧp các thành phҫn này sӁ tҥo nên các
câu trong câu ӭng viên ÿã ÿѭӧc ÿánh dҩu trong tiӃng ViӋt. Tuy nhiên, do căn cӭ vào
Wұp tin VNMarkDic.txt nên tác giҧ có thӇ tҥo ra sӕ lѭӧng các câu ӭng viên không nhiӅu
Oҳm.
Ví dͭ 3-4:
Câu cҫn gán dҩu = “Toc do truyen thong se tang cao”.
Luұn văn tӕt nghiӋp : Phѭѫng pháp thêm dҩu vào văn bҧn tiӃng ViӋt không dҩu
31
Thông qua tұp tin tӯÿLӇn VNMarkDic.txt , tác giҧ có các thông tin sau:
- toc do = “tӕc ÿӝ” 8.68
- truyen = “truyӅn” 12.31
- truyen thong = “truyӅn thӕng” 12.31
- thong tin = “thông tin” 7.24
- tin = “tin” 7.33
- se = “sӁ” 6.09
- tang = “tăng” 7.43
- cao = “cao” 6.95
Sau khi tә hӧp các tӯ ta sӁÿѭӧc 2 trѭӡng hӧp sau:
Trѭӡng hӧp 1 = “Tӕc ÿӝ truyӅn thӕng tin sӁ tăng cao.” 48,79 1
Trѭӡng hӧp 2 = “Tӕc ÿӝ truyӅn thông tin sӁ tăng cao.” 48.70 2
____________________________________________
1 8.68 + 12.31 + 7.33 + 6.09 + 7.43 + 6.95 = 48.79
2 8.68 + 12.31 + 7.24 + 6.09 + 7.43 + 6.95 = 48.70
_____________________________________________
.Ӄt quҧ = “Tӕc ÿӝ truyӅn thông tin sӁ tăng cao.” 48,70
(câu có tҫn sӕ nhӓ thì sӵ thѭӡng sӱ dөng cӫa các tӯ trong câu càng cao)
3.1.2.2. Mô hình huҩn luyӋn
Nhѭÿã trình bày ӣ phҫn trên, cӕt lõi cӫa vҩn ÿӅ là nӝi dung tұp tin tӯÿLӇn
VNMarkDic.txt. Tұp tin này sӁ chӭa xác suҩt các nhóm âm tiӃt có thӇ xuҩt hiӋn trong
Yăn bҧn tiӃng ViӋt. Xác suҩt này ÿѭӧc tính dӵa trên viӋc thӕng kê dӳ liӋu cӫa hѫn
1.5GB file HTML ÿѭӧc lҩy tӯ trang www.vnexpress.net.
Khác vӟi các mô hình gán dҩu tiӃng ViӋt trѭӟc ÿây, tұp tin tӯÿLӇn không
nhӳng lѭu các tӯ tiӃng ViӋt mà còn lѭu các dãy âm tiӃt trong tiӃng ViӋt. ĈLӅu này giúp
cho mô hình có thӇ “vét cҥn” các thông tin giúp cho viӋc gán dҩu thanh cho các âm tiӃt
Luұn văn tӕt nghiӋp : Phѭѫng pháp thêm dҩu vào văn bҧn tiӃng ViӋt không dҩu
32
trӣ nên chính xác hѫn. Ví dө : tôi cNJng lѭu thêm dãy âm tiӃt “trѭӟc viӋc”, … vào file
WӯÿLӇn này.
Tuy nhiên, viӋc lѭu thêm các dãy âm tiӃt vào tӯÿLӇn sӁ khiӃn cho tӯÿLӇn rҩt
Oӟn (xҩp xӍ 10MB). ĈLӅu này khiӃn cho viӋc tìm kiӃm sӁ rҩt chұm. ĈӇ giҧi quyӃt vҩn
ÿӅ này, tác giҧÿӅ xuҩt mӝt heuristic ÿѫn giҧn, ÿһt tên là S2T, giúp thu gӑn dӳ liӋu cӫa
WӯÿLӇn :
Heuristic này ÿѭӧc mô tҧ nhѭ sau:
*ӑi dӳ liӋu text tӯÿѭӧc lҩy tӯ trang www.vnexpress.net là C1.
*ӑi dӳ liӋu text tӯÿѭӧc lҩy tӯ trang www.vnexpress.net là bӏ bӓ hӃt dҩu
thanh là C2.
7ӯ dӳ liӋu C1, tác giҧ sӁ tҥo ra file VNMarkDicPre.txt. File này sӁ chӭa
thông tin vӅ xác suҩt cӫa các dãy âm tiӃt trong tiӃng ViӋt.
Tác giҧ sӱ dөng file VNMarkDicPre.txt ÿӇ gán dҩu thanh cho các dӳ liӋu
C2. Khi ÿó, tác giҧ sӁ so sánh vӟi các dӳ liӋu nguyên gӕc C1. Qua ÿó, tác giҧÿánh giá
các dãy âm tiӃt nào nên ÿѭӧc sӱ dөng, dãy âm tiӃt nào không nên sӱ dөng.
7ӯ thông tin trên, tác giҧ có thӇ rút trích các dãy âm tiӃt “có ích” trong file
VNMarkDicPre.txtÿӇ tҥo tұp tin VNMarkDic.txt.
3.2. Mô hình ÿӅ xuҩt
3.2.1. Mô hình
&ăn cӭ vào mô hình Bigram, và dӵa vào ý tѭӣng cӫa viӋc thӕng kê các
Fөm tӯ cӫa mô hình VnMark cӫa tác giҧ NguyӉn Văn Toàn, tôi ÿӅ xuҩt mô hình
thêm dҩu tӵÿӝng sau :
Luұn văn tӕt nghiӋp : Phѭѫng pháp thêm dҩu vào văn bҧn tiӃng ViӋt không dҩu
33
Hình 3.2-9: /˱u ÿ͛ thc hi͏n cͯa mô hình ÿ͉ xṷt
3.2.1.1. Tách câu
6ӱ dөng phѭѫng pháp tách câu heuristic ÿã nêu trong chѭѫng 2, phҫn
2.3, mөc 2.3.1. Qua phѭѫng pháp tách câu trên, ta có thӇ phân biӋt ÿѭӧc 1 sӕ
Luұn văn tӕt nghiӋp : Phѭѫng pháp thêm dҩu vào văn bҧn tiӃng ViӋt không dҩu
34
trѭӡng hӧp ÿһc biӋt cӫa dҩu chҩm câu “.” nhѭ tӯ viӃt tҳt (Mr., Mrs. …), ÿӏa
chӍ email (abc@gmail.com), ÿӏa chӍ URL ( sӕ thұp
phân (1,234.567) … Ĉҫu ra cӫa bѭӟc này sӁ cho ra 1 tұp các câu, là ÿҫu vào
Fӫa bѭӟc sau.
3.2.1.2. Tách tӯ bҵng phѭѫng pháp LRMM
Ta dùng phѭѫng pháp tách tӯ LRMM tách các tӯ không dҩu tӯng câu
Pӝt. Lý do chӑn phѭѫng pháp này là : cài ÿһt phѭѫng pháp ÿѫn giҧn, sai sӕ
khi tách sai tӯ có thӇ chҩp nhұn ÿѭӧc khi tách tӯ không dҩu.
Ví dͭ 3-5: Ta có cách tách tӯ câu có dҩu và câu không dҩu sau (các tӯ
phân cách nhau bҵng dҩu / )
o “Hӑc sinh / hӑc / sinh hӑc”
o “Hoc sinh / hoc sinh / hoc” à khi chuyӇn thành câu có dҩu, cNJng tҥo
ÿѭӧc câu “Hӑc sinh / hӑc sinh / hӑc” nhѭ trênà sai sӕ khi tách tӯ có thӇ
chҩp nhұn ÿѭӧc trong 1 phҥm vi nào ÿó.
Khi tách tӯ bҵng phѭѫng pháp LRMM, ta có chú ý ÿӃn viӋc nhұn diӋn và
tách các tӯ tên riêng ra dӵa trên 1 tӯÿLӇn tên riêng. ViӋc xác ÿӏnh các tên
riêng dӵa trên chӳ cái viӃt hoa ÿҫu cӫa tӯ, 1 cөm tên riêng, có thӇ chӍ cҫn
viӃt hoa tiӃng ÿҫu tiên là ÿѭӧc.
Ví dͭ 3-6:
Da NangàĈà Nҹng
Da nangàĈà Nҹng
da nangàÿa năng
3.2.1.3. Chӑn tӯ thích hӧp
9ӟi tӯÿLӇn chuyӇn ÿәi TuDienChinh.txt, ta có ánh xҥ 1-1 ÿӇ chuyӇn 1 tӯ
không dҩu thành có dҩu. Ngoài ra, ÿӇ tăng ÿӝ linh hoҥt và chính xác cӫa
Luұn văn tӕt nghiӋp : Phѭѫng pháp thêm dҩu vào văn bҧn tiӃng ViӋt không dҩu
35
phѭѫng pháp, ta có thêm 1 tӯÿLӇn phө, gӑi là tӯÿLӇn cөm tӯ CumTu.txt, lѭu
nhӳng cөm tӯ thѭӡng xuyên ÿѭӧc sӱ dөng.
Các cөm tӯ này ÿѭӧc lѭu có cҩu trúc. Vӟi mӛi cөm tӯ, ta có 1 Wӯ chính,
và các chuӛi tӯ còn lҥi trong cөm tӯ. Ĉi kèm vӟi chuӛi tӯ là con sӕ thӇ hiӋn
Yӏ trí cӫa Wӯ chính này vӟi chuӛi tӯ. (xem chi tiӃt cҩu trúc và cách tҥo trong
Pөc 3.2.2.2)
Ví dͭ 3-7: 1 vài cөm tӯÿѭӧc lѭu
W͙i 1|qu̯n áo m̿c bu͝i 1|bu͝i 2|hôm
à tӯ “tӕi” có 3 cөm tӯ là “quҫn áo mһc buәi tӕi”, “buәi tӕi” và “tӕi
hôm” vӟi “tӕi” là Wӯ chính trong 3 cөm tӯ trên.
Sau khi ánh xҥ 1-1 dӵa trên TuDienChinh.txt xong, chѭѫng trình sӁ làm
thêm 1 bѭӟc nӳa, là tìm trong tӯÿLӇn cөm tӯ, xem có sӵ xuҩt hiӋn cөm tӯ
nào trong văn bҧn không ? NӃu có, thì chѭѫng trình sӁ sӱa lҥi kӃt quҧ, ÿӇ
ÿѭӧc kӃt quҧ chính xác hѫn. Phѭѫng pháp xét duyӋt ÿѭӧc mô tҧ nhѭ sau:
(Sau khi ÿã ánh x̩ tͳ không ḓu thành có ḓu r͛i)
Duy͏t các tͳ không ḓu tͳ trái qua ph̫i
Vͣi tͳ không ḓu có xṷt hi͏n trong tͳ ÿL͋n CumTu.txt (là Wͳ
chính cͯa cͭm tͳ sau khi lo̩i b͗ ḓu), ta xét trong ph̩m vi [-3,+3] tͳ xung
quanh tͳÿó, ÿ͋ xét xem, có s xṷt hi͏n cͯa chu͟i còn l̩i cͯa cͭm tͳ không
? N͇u có thì có s xṷt hi͏n cͯa cͭm tͳÿó à thay ÿ͝i tͳ không ḓu ÿó
thành Wͳ chính.
Ví dͭ 3-8:
Câu “Nhung van de lien quan toi nguoi dong tinh luyen ai duoc ban
bac soi noi trong buoi hop nhom toi hom qua” sӁÿѭӧc chuyӇn thành câu
có dҩu qua các bѭӟc sau:
Luұn văn tӕt nghiӋp : Phѭѫng pháp thêm dҩu vào văn bҧn tiӃng ViӋt không dҩu
36
o Tách câu : tҥo ra 1 câu duy nhҩt là “Nhung van de lien quan toi nguoi
dong tinh luyen ai duoc ban bac soi noi trong buoi hop nhom toi hom
qua”
o Tách tͳ (các tͳ phân cách nhau b̹ng ḓu / ) : “Nhung / van de / lien
quan / toi / nguoi / dong tinh luyen ai / duoc / ban bac / soi noi / trong /
buoi / hop / nhom / toi / hom qua”
o Thêm ḓu da trên TuDienChinh.txt : ta ÿѭӧc câu sau “Nhӳng / vҩn ÿӅ /
liên quan / tôi / ngѭӡi / ÿӗng tính luyӃn ái / ÿѭӧc / bàn bҥc / sôi nәi /
trong / buәi / hӑp / nhóm / tôi / hôm qua”
o Xét duy͏t l̩i da trên CumTu.txt : ta ÿѭӧc câu hoàn chӍnh cuӕi cùng sau
“Nhӳng / vҩn ÿӅ / liên quan / Wӟi / ngѭӡi / ÿӗng tính luyӃn ái / ÿѭӧc / bàn
Eҥc / sôi nәi / trong / buәi / hӑp / nhóm / Wӕi / hôm qua”
3.2.2. Mô hình huҩn luyӋn
Phҫn quan trӑng nhҩt cӫa mô hình là các tұp tin tӯÿLӇn ÿѭӧc cung cҩp cho
mô hình, mà quan trӑng nhҩt là 2 tӯÿLӇn : TuDienChinh.txt và CumTu.txt. Sau
ÿây mô tҧ chi tiӃt các bѭӟc ÿӇ tҥo nên 2 tұp tin trên.
3.2.2.1. Thӕng kê tҫn suҩt xuҩt hiӋn cӫa tӯ
3.2.2.1.1. Xây dӵng kho ngӳ liӋu
Trích xuҩt dӳ liӋu text tӯ kho dӳ liӋu báo ÿLӋn tӱ trên Internet. Dӳ liӋu
báo ÿLӋn tӱ trên Internet sӱ dөng gӗm 700MB dӳ liӋu báo Thanh niên, 500MB
báo Ngѭӡi Lao Ĉӝng và 700MB báo Sҳc màu văn hoá.
( Xin xem thêm trong Phө lөc 1ÿӇ biӃt chi tiӃt cҩu trúc kho ngӳ liӋu)
Sau bѭӟc này, ta có ÿѭӧc 1 thѭ mөc chӭa nhiӅu tұp tin text, mӛi tұp tin
chӭa tұp các câu thuӝc cùng 1 lƭnh vӵc. Các lƭnh vӵc ÿѭӧc sӱ dөng, ÿӇ phù hӧp
Luұn văn tӕt nghiӋp : Phѭѫng pháp thêm dҩu vào văn bҧn tiӃng ViӋt không dҩu
37
Yӟi mөc ÿích tәng quát cӫa chѭѫng trình, em chӑn các bài báo vӅ tin tӭc, thӡi
Vӵ, xã hӝi, chính trӏ … và kèm thêm 1 ít vӅ các lƭnh vӵc khác nhѭ khoa hӑc,
giáo dөc …
Ĉӝ lӟn cӫa kho dӳ liӋu vào khoҧng 150MB dӳ liӋu. Lѭӧng dӳ liӋu này
ÿӫ lӟn ÿӇ mô hình hoҥt ÿӝng ÿѭӧc chính xác.
3.2.2.1.2. Thӕng kê tҫn suҩt xuҩt hiӋn cӫa tӯ
9ӟi kӃt quҧ cӫa bѭӟc trên, ta duyӋt tҩt cҧ các tұp tin trong thѭ mөc, sau
ÿó dùng phѭѫng pháp LRMM ÿӇ tách tӯ tӯng câu mӝt, thӕng kê tҫn suҩt xuҩt
hiӋn cӫa tӯ theo công thӭc sau :
7̯n sṷt tͳ = -log10(s͙ l̯n xṷt hi͏n cͯa tͳ / t͝ng s͙ tͳ)
Sau bѭӟc này, ta có ÿѭӧc 1 tұp tin text chӭa tҫn suҩt các tӯ mà ta thӕng
kê ÿѭӧc.
'ӵa trên kho ngӳ liӋu 150MB, ta thӕng kê ÿѭӧc sӕ lѭӧt tӯ sӱ dөng vào
khoҧng gҫn 18 triӋu tӯ, sӕ loҥi tӯ khác nhau sӱ dөng là trên 26400 tӯ. Các
thông sӕ thӕng kê trên ÿѭӧc ghi vào tұp tin log khi chѭѫng trình chҥy.
Luұn văn tӕt nghiӋp : Phѭѫng pháp thêm dҩu vào văn bҧn tiӃng ViӋt không dҩu
38
Hình 3.2-10 : 7̵p tin m̳u sau khi th͙ng kê t̯n sṷt tͳ
3.2.2.1.3. 7ҥo tӯÿLӇn chuyӇn ÿәi
ViӋc tҥo tұp tin tӯÿLӇn chuyӇn ÿәi TuDienChinh.txt rҩt dӉ dàng. Vӟi tұp
tin thӕng kê tҫn suҩt xuҩt hiӋn cӫa tӯӣ bѭӟc trên, ta loҥi bӓ các tӯ có tҫn suҩt
> 7. ViӋc loҥi bӓ này giúp cho phѭѫng pháp chӍ chú trӑng ÿӃn các tӯ có tҫn
suҩt nhӓ (tӭc xuҩt hiӋn nhiӅu nhҩt). Vӟi các tӯ không dҩu có nhiӅu tӯ có dҩu,
thì ta chӑn ra tӯ có dҩu có tҫn suҩt nhӓ nhҩt (tӭc xuҩt hiӋn nhiӅu nhҩt) ÿӇ tҥo
thành tӯÿLӇn TuDienChinh.txt vӟi cҩu trúc sau :
0ӛi dòng cӫa tӯÿLӇn có cҩu trúc sau : TAB
Luұn văn tӕt nghiӋp : Phѭѫng pháp thêm dҩu vào văn bҧn tiӃng ViӋt không dҩu
39
Hình 3.2-11 : Trích t̵p tin TuDienChinh.txt
3.2.2.2. Trích xuҩt các cөm tӯ thѭӡng sӱ dөng
Ĉây là 1 phѭѫng pháp tѭѫng ÿӕi ÿѫn giҧn ÿӇ rút trích ra 1 sӕ cөm tӯ
thѭӡng sӱ dөng. Ta dӵa vào tӯÿLӇn LLOCE tiӃng ViӋt ÿӇ rút ra các cөm tӯ,
chú ý là, trong quá trình rút trích, ta chӍ quan tâm ÿӃn các cөm tӯ chӍ chӭa
các tӯ tҥo nên sӵ nhұp nhҵng khi loҥi bӓ dҩu (nhѭ tӯ “tôi”, “tӟi”, “tӕi” khi
loҥi bӓ sӁ tҥo thành tӯ “toi”à nhұp nhҵng) tӯÿó, thӕng kê trên kho ngӳ liӋu
150MB ӣ bѭӟc trên, ÿӇ rút ra các cөm tӯ thѭӡng sӱ dөng. Các cөm tӯ này sӁ
ÿѭӧc lѭu nhѭ sau :
0ӛi dòng có cҩu trúc sau :
{TAB } (1,n)
Mô tҧ:
- {1,n} : lһp cҩu trúc trong {} tӯ 1 ÿӃn nhiӅu lҫn
Luұn văn tӕt nghiӋp : Phѭѫng pháp thêm dҩu vào văn bҧn tiӃng ViӋt không dҩu
40
- 7ͳ chính trong cͭm tͳ : là tӯ có dҩu. Tӯ này, sau khi bӓ dҩu, thì tӯ không dҩu này
VӁ có nhiӅu tӯ có dҩu tѭѫng ӭng (tӯ gây nhұp nhҵng). Tұp tin CumTu.txt chӍ xét
các cөm tӯ có chӭa các Wͳ chính tҥo nên sӵ nhұp nhҵng này thôi.
- Y͓ trí : chӍ vӏ trí cӫa trong cөm tӯÿó so vӟi , có
các giá trӏ sau:
o Yӏ trí = 0 : nói lên rҵng, ÿӭng giӳa 2 ,
và chuӛi trѭӟc sӁÿѭӧc ghi trѭӟc, 2 sӁ cách nhau bӣi
kí tӵ phân cách ‘|’
o Yӏ trí = 1 : nói lên rҵng, ÿӭng sau , khi
ÿó, chӍ xuҩt hiӋn 1 trong cөm tӯ
o Yӏ trí =2 : nói lên rҵng, ÿӭng trѭӟc , khi
ÿó, chӍ xuҩt hiӋn 1 trong cөm tӯ
Ví dͭ 3-9:
món 2|ăn à cөm tӯ “món ăn”, tӯ chính là “món” ÿӭng trѭӟc “ăn”
ÿҩu 0|môn|bóng à cөm tӯ “môn ÿҩu bóng”, tӯ chính là “ÿҩu” ÿӭng trѭӟc
“bóng” và ÿӭng sau “môn”
Wӕi 1|buәi à cөm tӯ “buәi tӕi”, tӯ chính là “tӕi” ÿӭng sau “buәi”
Luұn văn tӕt nghiӋp : Phѭѫng pháp thêm dҩu vào văn bҧn tiӃng ViӋt không dҩu
41
Hình 3.2-12 : Trích t̵p tin CumTu.txt
3.2.3. So sánh mô hình này vӟi 2 mô hình trên
Mô hình ÿӅ xuҩt là mô hình nâng cao cӫa mô hình VietPad sӱ dөng. Vӟi các ѭu
thӃ hѫn hҷn nhѭ có phҫn tách câu, khҧ năng ÿәi tӯ không dҩu thành có dҩu linh
hoҥt qua tӯÿLӇn CumTu.txt chӭ không là ánh xҥ 1-1 nhѭ Vietpad, khҧ năng nhұn
diӋn tӯ tên riêng ...
So vӟi mô hình mà VnMark sӱ dөng, mӛi mô hình có 1 ÿLӇm mҥnh riêng,
nhѭng phѭѫng pháp mà mô hình em ÿӅ xuҩt, có thӇ tái kӃt hӧp vӟi mô hình cӫa
VnMark ÿӇ cho ra 1 kӃt quҧ hoàn chӍnh hѫn nӳa.
Luұn văn tӕt nghiӋp : Phѭѫng pháp thêm dҩu vào văn bҧn tiӃng ViӋt không dҩu
42
ĈLӇm nәi trӝi cӫa mô hình, là khҧ năng xét duyӋt và phát hiӋn cөm tӯ 1 cách
linh hoҥt trong phҥm vi [-3,+3] mà các mô hình khác không thӵc hiӋn ÿѭӧc. ViӋc
xét duyӋt này cho phép phát hiӋn và gán dҩu chính xác, khi cөm tӯ xuҩt hiӋn không
liên tͭc.
Ví dͭ 3-10:
Chѭѫng trình có thӇ phát hiӋn và chuyӇn tӯ “toi” thành “tӕi” khi phát hiӋn ra
Fөm tӯ “tӕi ngày hôm ÿó”, “tӕi ngày hôm kia”, “tӕi ngày hôm nӑ” … khi trong tӯ
ÿLӇn CumTu.txt chӍ lѭu “tӕi 2|hôm”.
Chѭѫng 4. CÀI ĈҺT
THӰ NGHIӊM
Luұn văn tӕt nghiӋp : Phѭѫng pháp thêm dҩu vào văn bҧn tiӃng ViӋt không dҩu
44
4.1. Thӕng kê tҫn sӕ xuҩt hiӋn cӫa tӯ
Sau ÿây là các bѭӟc thӵc hiӋn ÿӇ có ÿѭӧc tӯÿLӇn tҫn sӕ xuҩt hiӋn cӫa tӯ. Ĉҫu
vào cӫa bѭӟc này là kho dӳ liӋu báo ÿLӋn tӱ online gӗm : 700MB dӳ liӋu báo Thanh
niên, 500MB dӳ liӋu báo Ngѭӡi lao ÿӝng và 700MB dӳ liӋu báo Sҳc màu văn hóa.
Ĉҫu ra sӁÿѭӧc tұp tin tӯÿLӇn tҫn sӕ xuҩt hiӋn tӯ, thӕng kê ÿѭӧc trên kho dӳ liӋu
trên.
4.1.1. Xây dӵng kho ngӳ liӋu text tӯ báo ÿLӋn tӱ
(chҥy chѭѫng trình html2txt.exe)
Chѭѫng trình Html2Txt sӁ trích xuҩt các dӳ liӋu text có nghƭa trong kho dӳ liӋu
báo online dҥng html, ÿӇ có ÿѭӧc kho dӳ liӋu hoàn toàn thuҫn text. Ĉây là bѭӟc tiӅn xӱ
lý và các tұp tin text ÿѭӧc lѭu vӟi mã hoá UTF8.
Khi chҥy chѭѫng trình này, em ÿã sӱ dөng 700MB dӳ liӋu báo Thanh niên,
500MB dӳ liӋu báo Ngѭӡi lao ÿӝng và 700MB dӳ liӋu báo Sҳc màu văn hóa. KӃt quҧ
xuҩt ra khoҧng 120 MB dӳ liӋu text thuҫn túy.
Hình 4.1.1-13: Giao di͏n ch˱˯ng trình HTML2TXT
Luұn văn tӕt nghiӋp : Phѭѫng pháp thêm dҩu vào văn bҧn tiӃng ViӋt không dҩu
45
o Ĉҫu vào: là thѭ mөc chӭa dӳ liӋu kho dӳ liӋu .html (có thӇ chӭa
thѭ mөc con nhiӅu cҩp).
o Ĉҫu ra: Nѫi lѭu toàn bӝ nӝi dung tách ÿѭӧc (các nӝi dung lѭu
trong các file .txt cùng tên file .html ÿѭa vào).
o Do dӳ liӋu web ÿѭa vào rҩt ÿa dҥng và không chuҭn nên chѭѫng
trình không thӇ tìm ÿѭӧc tag nӝi dung trong tҩt cҧ các trѭӡng hӧp.
ĈӇ chѭѫng trình hoҥt ÿӝng ÿúng thì khi tiӃn hành tách nӝi dung
cho các file .html thì ngѭӡi dùng cҫn chӍ rõ tag chӭa nӝi dung
chính trong văn bҧn .html bҵng cách cҩu hình cho chѭѫng trình.
Hình 4.1.1-14: &̭u hình cͯa ch˱˯ng trình HTML2TXT
&ҩu hình chѭѫng trình
o &ѫ bҧn: các tag chӭa phҫn nӝi dung cҫn trích ra
o Nâng cao: sӱ dөng khi có thuӝc tính class cӫa tag tѭѫng ӭng bên
phҫn cѫ bҧn
o Giҧi mã NCR cӫa html: dùng ÿӇ chuyӇn phҫn text ÿӏnh dҥng
NCR sang Unicode.
Ví dͭ 4-1: TÔI è TÔI
o Charset: charset mà trang web sӱ dөng; thông thѭӡng, mӛi trang
web ÿӏnh nghƭa charset mà nó sӱ dөng trong tag sau ӣÿҫu html.
Luұn văn tӕt nghiӋp : Phѭѫng pháp thêm dҩu vào văn bҧn tiӃng ViӋt không dҩu
46
HiӋn chѭѫng trình hӛ trӧ 2 charset hay sӱ dөng tҥi ViӋt Nam là
utf-8 và windows-1252
Ta cҫn phҧi ÿӏnh charset ÿúng ÿӇ viӋc ÿӑc dӳ liӋu tӯ html ÿúng,
chính xác (nӃu chӑn sai charset thì viӋc ÿӑc html sӁ bӏ thiӃu 1 sӕ kí tӵ)
/ѭu ý quan trӑng :
&ҩu hình cӫa 1 sӕ trang web chính nhѭ sau:
(Trong dҩu ngoһc () là phҫn nâng cao tѭѫng ӭng cӫa tag)
1. www.thanhnien.com.vn :
(ko giҧi mã NCR _ charset : utf8)
div(newslead)
div(newsbody)
2. www.tuoitre.com.vn
(ko giҧi mã NCR _ charset : utf8)
p(ptitle)
p(phead)
p(pbody)
p(pquestion)
p(panswer)
3. vnca.cand.com.vn
(có giҧi mã NCR _ charset : utf8)
span(main_title)
span(sapeau_box)
span(text_box)
4. www.nld.com.vn
(ko giҧi mã NCR _ charset : utf8)
td(td_read)->p(none)
->p(msonormal)
(-> : p là tag con cӫa td)
5. www.baobinhdinh.com.vn
(ko giҧi mã NCR _ charset : utf8)
p(msonormal)
p(msobodytext)
Luұn văn tӕt nghiӋp : Phѭѫng pháp thêm dҩu vào văn bҧn tiӃng ViӋt không dҩu
47
6. www.baocantho.com.vn
(có giҧi mã NCR _ charset : windows_1252)
td(news_title)
td(news_body)
7. sacmauvanhoa
(ko giҧi mã NCR _ charset : utf8)
p(dong)
p(msonormal)
Hình 4.1.1-15 : M͡t trang báo thanh niên
Luұn văn tӕt nghiӋp : Phѭѫng pháp thêm dҩu vào văn bҧn tiӃng ViӋt không dҩu
48
Hình 4.1.1-16 :'ͷ li͏u ÿ˱ͫc tách tͳ trang báo Thanh niên
4.1.2. Tách câu
(chҥy chѭѫng trình XDNguLieu.exe)
7ҥi bѭӟc này, ta thӵc hiӋn viӋc tҥo 1 kho dӳ liӋu chuҭn tiӋn cho viӋc xӱ
lý sau này. Kho dӳ liӋu này theo chuҭn ÿѭӧc mô tҧ chi tiӃt trong phҫn PHӨ
/ӨC. 1 cách ÿѫn giҧn, kho này gӗm nhiӅu câu thuӝc cùng 1 lƭnh vӵc, mӛi câu
ÿѭӧc gán 1 sӕ ID riêng. KӃt quҧ thu ÿѭӧc, vӟi kho text ӣ bѭӟc trên là 1 kho câu
150MB.
Luұn văn tӕt nghiӋp : Phѭѫng pháp thêm dҩu vào văn bҧn tiӃng ViӋt không dҩu
49
Hình 4.1.2-17: Giao di͏n ch˱˯ng trình Tách Câu
o 7ӯ viӃt tҳt : Dùng ÿӇÿӏnh nghƭa các tӯ viӃt tҳt thông dөng có chӭa dҩu chҩm
câu (. ! ?) ÿӇ loҥi bӓ bӟt các trѭӡng hӧp gây nhҫm lүn khi tách câu.
Hình 4.1.2-18: 7ͳ vi͇t t̷t cung c̭p cho ch˱˯ng trình Tách Câu
Lѭu ý : nên ÿӇ 2 trѭӡng hӧp nhѭ : Mr.(không có khoҧng trҳng ÿҵng sau) và Mr.
(có khoҧng trҳng ÿҵng sau) thì viӋc chҥy chѭѫng trình sӁ tӕt và chính xác hѫn
o ID : nhãn ÿӏnh danh duy nhҩt cho 1 câu trong tұp tin, gӗm các trѭӡng :
Ngày Tháng Năm Ngu͛n g͙c Ĉ͓nh danh Chͯÿ͉
o Ĉҫu vào : Thѭ mөc chӭa các file nӝi dung text ÿã tách ÿѭӧc tӯ các file .html
(thѭ mөc có thӇ có nhiӅu cҩp).
Luұn văn tӕt nghiӋp : Phѭѫng pháp thêm dҩu vào văn bҧn tiӃng ViӋt không dҩu
50
o .Ӄt xuҩt : File chӭa tҩt cҧ các câu văn bҧn ÿã ÿѭӧc tách tӯ thѭ mөc ÿҫu vào và
gán ID (hình dѭӟi)
Hình 4.1.2-19: 1͡i dung file k͇t xṷt cͯa ch˱˯ng trình Tách Câu
.
4.1.3. Tách tӯ và thӕng kê
(chҥy chѭѫng trình Tach tu.exe)
Vӟi kho dӳ liӋu chuҭng ÿѭӧc tҥo ra ӣ bѭӟc trên, ta bҳt ÿҫu dùng phѭѫng pháp
tách tӯ LRMM ÿӇ thӕng kê tҫn sӕ xuҩt hiӋn cӫa tӯ. Dùng 150 MB dӳ liӋu kho câu
trên, em thӕng kê trên khoҧng gҫn 18 triӋu lѭӧt tӯ, và hѫn 26400 tӯ khác nhau ÿã
xuҩt hiӋn.
Luұn văn tӕt nghiӋp : Phѭѫng pháp thêm dҩu vào văn bҧn tiӃng ViӋt không dҩu
51
Hình 4.1.3-20: Giao di͏n module tách tͳ
v Thѭ mөc nguӗn : Thѭ mөc chӭa các câu ÿã ÿѭӧc tách và gán nhãn, gӗm các
Wұp tin cùng lƭnh vӵc (nhѭ pháp luұt); không quan tâm kho dӳ liӋu này cùng hay
khác nguӗn gӕc
Hình4.1.3-21: 1͡i dung t̵p tin th˱ mͭc ngu͛n
v 7ұp tin tӯÿLӇn: File tӯÿLӇn ÿѭӧc thҫy cung cҩp sҹn và ÿѭӧc chӍnh sӱa theo
yêu cҫu sӱ dөng riêng cӫa nhóm.
Luұn văn tӕt nghiӋp : Phѭѫng pháp thêm dҩu vào văn bҧn tiӃng ViӋt không dҩu
52
Hình 4.1.3-22: 1͡i dung t̵p tin tͳÿL͋n
v Xuҩt tұp tin ngӳ liӋu: File lѭu các tӯ tách ÿѭӧc và tҫn suҩt xuҩt hiӋn cӫa các tӯ
ÿѭӧc tính theo công thӭc –lg(n/N)
Hình 4.1.3-23: 1͡i dung t̵p tin k͇t qu̫
4.2. 7ҥo tұp tin tӯÿLӇn chính
(chҥy chѭѫng trình RutGon.exe)
7ӯÿLӇn chính, là tӯÿLӇn ÿѭӧc dùng ÿӇ tra cӭu viӋc chuyӇn ÿәi lҫn ÿҫu,
dùng ÿӇ ánh xҥ 1-1 tӯ tӯ không dҩu sang tӯ có dҩu. Trong phҫn cài ÿһt, tӯÿLӇn
Luұn văn tӕt nghiӋp : Phѭѫng pháp thêm dҩu vào văn bҧn tiӃng ViӋt không dҩu
53
chính có tên là TuDienChinh.txt. Tұp tin tӯÿLӇn chính này, ÿѭӧc tҥo ra nhӡ vào tұp
tin thӕng kê tӯӣ bѭӟc trên.
Hình 4.1.3-24: Giao di͏n ch˱˯ng trình t̩o tͳÿL͋n chính
o 7ұp tin nguӗn : tұp tin chӭa tҫn suҩt các tӯÿã ÿѭӧc thӕng kê ӣ bѭӟc trên.
o Thѭ mөc thӕng kê : thѭ mөc chӭa kho ngӳ liӋu. Ĉây chính là Thѭ mөc nguӗn
Fӫa phҫn Tách tӯ và thӕng kê
o Thѭ mөc kӃt xuҩt : thѭ mөc sӁ chӭa kӃt quҧ cӫa chѭѫng trình. Ngoài viӋc tҥo
ra tұp tin TuDienChinh.txt, chѭѫng trình còn tҥo ra thêm 2 tұp tin phө là
TuDienPhanLop.txt và KhoCau.txt là ÿҫu vào cho bѭӟc sau.
§ TuDienPhanLop.txt : tӯÿLӇn này chӭa các tӯ không dҩu, mӛi tӯ không
Gҩu có 1 hay nhiӅu tӯ có dҩu.
§KhoCau.txt : chӭa tҩt cҧ các câu có sӵ xuҩt hiӋn cӫa các tӯ có dҩu trong
TuDienPhanLop.txt
Luұn văn tӕt nghiӋp : Phѭѫng pháp thêm dҩu vào văn bҧn tiӃng ViӋt không dҩu
54
Hình 4.1.3-25 : Trích 1 ph̯n TuDienChinh.txt
Hình 4.1.3-26 : Trích 1 ph̯n TuDienPhanLop.txt
Luұn văn tӕt nghiӋp : Phѭѫng pháp thêm dҩu vào văn bҧn tiӃng ViӋt không dҩu
55
Hình 4.1.3-27: Trích 1 ph̯n KhoCau.txt
4.3. 7ҥo tұp tin tӯÿLӇn cөm tӯ
7ӯÿLӇn cөm tӯÿѭӧc sӱ dөng ÿӇ tra cӭu và hiӋu chӍnh lҥi các tӯ không dҩu
ÿã chuyӇn sang có dҩu, dӵa trên viӋc xét sӵ xuҩt hiӋn cӫa cөm tӯ trong 1 phҥm
vi nhҩt ÿӏnh (xem chi tiӃt trong phҫn Mô hình). Trong phҫn cài ÿһt, tӯÿLӇn cөm
Wӯ có tên là CumTu.txt và ÿѭӧc tҥo ra sau 2 bѭӟc sau :
4.3.1. 7ҥo kho dӳ liӋu tinh giҧn mӟi
(chҥy chѭѫng trình KhoDuLieu.exe)
Luұn văn tӕt nghiӋp : Phѭѫng pháp thêm dҩu vào văn bҧn tiӃng ViӋt không dҩu
56
Hình 4.3.1-28: Giao di͏n ch˱˯ng trình t̩o kho dͷ li͏u tinh gi̫n
Thông qua bѭӟc trung gian này, giúp cho viӋc tҥo tұp tin CumTu.txt ÿѭӧc dӉ
dàng và nhanh chóng hѫn.
o 7ұp tin tӯÿLӇn : tұp tin tӯÿLӇn tӯ tiӃng ViӋt
o 7ӯÿLӇn phân loҥi : là TuDienPhanLop.txt ÿѭӧc tҥo ra ӣ bѭӟc trên
o Kho câu : là KhoCau.txt ÿѭӧc tҥo ra ӣ bѭӟc trên.
o Thѭ mөc kӃt xuҩt : thѭ mөc chӭa kӃt quҧ chѭѫng trình. Sau khi chҥy chѭѫng
trình này, chѭѫng trình sӁ tҥo ra 1 sӕ lѭӧng lӟn thѭ mөc (tên thѭ mөc là “_” + tӯ
không dҩu), trong thѭ mөc này sӁ chӭa các tұp tin text (tên tұp tin là “_” + tӯ có
Gҩu), mӛi tұp tin sӁ chӭa tҩt cҧ các câu mà có sӵ xuҩt hiӋn cӫa tӯÿó.
Luұn văn tӕt nghiӋp : Phѭѫng pháp thêm dҩu vào văn bҧn tiӃng ViӋt không dҩu
57
Hình 4.3.1-29 : Trích 1 ph̯n th˱ mͭc k͇t xṷt
Hình 4.3.1-30 : Th˱ mͭc con _a trong th˱ mͭc k͇t xṷt
Luұn văn tӕt nghiӋp : Phѭѫng pháp thêm dҩu vào văn bҧn tiӃng ViӋt không dҩu
58
4.3.2. 7ҥo tұp tin tӯÿLӇn cөm tӯ
(chҥy chѭѫng trình ThongKeTu.txt)
Hình 4.3.2-31: Giao di͏n ch˱˯ng trình t̩o t̵p tin cͭm tͳ
o 7ӯÿLӇn : tӯÿLӇn các tӯ tiӃng ViӋt
o 7ӯ ÿLӇn phân lӟp : là TuDienPhanLop.txt ÿѭӧc tҥo ra ӣ bѭӟc tҥo
TuDienChinh.txt
o 7ӯÿLӇn LLOCE : chӭa 1 sӕ cөm tӯ nhҩt ÿӏnh … nӃu có nguӗn dӳ liӋu cөm tӯ
Wӕt hѫn, chѭѫng trình sӁ chҥy tӕt hѫn.
o Kho dӳ liӋu : là Thѭ mөc kӃt xuҩt ӣ bѭӟc trên.
4.4. Chѭѫng trình chính
Chӭc năng thêm dҩu và xoá dҩu ÿѭӧc tích hӧp trong 1 dll, giúp viӋc triӇn khai
chѭѫng trình ÿѭӧc dӉ dàng và thuұn tiӋn hѫn. ViӋc sӱ dөng dll này rҩt ÿѫn giҧn, chӍ
Fҫn 1 dll và 1 thѭ mөc chӭa các tұp tin tӯÿLӇn cҫn thiӃt cho chѭѫng trình (\TuDien)
là chӭc năng Thêm dҩu và Xoá dҩu sҹn sàng hoҥt ÿӝng. Vӟi dll trên, em phát triӇn
Luұn văn tӕt nghiӋp : Phѭѫng pháp thêm dҩu vào văn bҧn tiӃng ViӋt không dҩu
59
1 sӕ chѭѫng trình chính sau ÿây, vӟi giao diӋn thân thiӋn, dӉ sӱ dөng, giúp ngѭӡi
dùng dӉ dàng thêm dҩu theo nhu cҫu sӱ dөng cӫa hӑ.
4.4.1. Chѭѫng trình VietEditor
Hình 4.4.1-32: Giao di͏n ch˱˯ng trình chính VietEditor
Ĉây là 1 trình soҥn thҧo văn bҧn ÿѫn giҧn, vӟi các chӭc năng tѭѫng tӵ Notepad
Fӫa Windows, nhѭng nó có thêm chӭc năng Thêm dҩu và Xoá dҩu.
Chѭѫng trình ÿѭӧc phát triӇn ÿӇ kiӇm tra mô hình ÿѭӧc ÿѭa ra. Chӭc năng
Thêm dҩu thanh (F7) và Xoá dҩu thanh (F6) trong menu Công cө giúp thêm dҩu và
xoá dҩu cho văn bҧn.
Trong chѭѫng trình, do viӋc TiӅn xӱ lý, nên ÿӏnh dҥng cӫa văn bҧn không giӳ
nhѭ cNJÿѭӧc.
Luұn văn tӕt nghiӋp : Phѭѫng pháp thêm dҩu vào văn bҧn tiӃng ViӋt không dҩu
60
4.4.2. Chѭѫng trình thêm dҩu qua Clipboard
Ĉây là 1 hѭӟng phát triӇn tiӋn lӧi cho chӭc năng thêm dҩu tiӃng ViӋt.
9ӟi viӋc sӱ dөng tӯ không dҩu nhiӅu trên Internet nhѭ chat qua Y!M, ÿӑc các lá
mail ÿLӋn tӱ … thì tiӋn ích này sӁ giúp ngѭӡi sӱ dөng ngay tӭc thì. Ngѭӡi dùng
chӍ cҫn copy ÿRҥn văn bҧn không dҩu cҫn thêm dҩu, ngay lұp tӭc, chѭѫng trình sӁ
thӵc hiӋn viӋc chuyӇn ÿRҥn văn bҧn ÿó thành có dҩu và hiӇn thӏ cho ngѭӡi dùng
xem.
Hình 4.4.2-33: Giao di͏n ch˱˯ng trình chính thêm ḓu Clipboard
Luұn văn tӕt nghiӋp : Phѭѫng pháp thêm dҩu vào văn bҧn tiӃng ViӋt không dҩu
61
Hình 4.4.2-34: Test ch˱˯ng trình thêm ḓu Clipboard
Luұn văn tӕt nghiӋp : Phѭѫng pháp thêm dҩu vào văn bҧn tiӃng ViӋt không dҩu
62
4.5. Thӱ nghiӋm
9ӟi bӝ dӳ liӋu thӱ là các văn bҧn ngүu nhiên mӟi nhҩt lҩy tӯ trang web
www.tuoitre.com.vn, ta so sánh chѭѫng trình VietEditor vӟi VietPad và AMPad, ta thu
ÿѭӧc kӃt quҧ khá khҧ quan sau (dùng chѭѫng trình test, không test bҵng tay) :
7әng sӕ tiӃng Tәng sӕ tiӃng ÿúng TӍ lӋÿúng
VietEditor 8275 7191 86,9%
VietPad 8275 7046 85,15%
AMPad 8275 7156 86,47%
Chѭѫng 5. .ӂT QUҦ, HѬӞNG
PHÁT TRIӆN
Luұn văn tӕt nghiӋp : Phѭѫng pháp thêm dҩu vào văn bҧn tiӃng ViӋt không dҩu
64
5.1. +ҥn chӃ và hѭӟng phát triӇn
Bài toán thêm dҩu tiӃng ViӋt vào văn bҧn không dҩu là bài toán mӟi, còn ÿang hoàn
thiӋn dҫn vӅ mô hình cNJng nhѭ cách thӵc hiӋn. HiӋn nay, mô hình thѭӡng dùng cho bài
toán này là thӕng kê tҫn sӕ xuҩt hiӋn cӫa tӯ, ÿӗng thӡi, tuǤ theo mӛi tác giҧ mà có thêm
nhӳng biӃn ÿәi, thuұt giҧi khác nhau giúp cho viӋc thêm dҩu ÿѭӧc chính xác hѫn.
Qua luұn văn này, mô hình thӕng kê tҫn sӕ xuҩt hiӋn cӫa tӯ, kèm theo phѭѫng pháp
tách tӯ không dҩu LRMM và sӱ dөng thêm tӯÿLӇn cөm tӯ, khҧ năng chính xác cӫa mô
hình là tѭѫng ÿӕi cao. Tuy nhiên, phҧi nói là mô hình còn nhӳng hҥn chӃ, và cNJng là
nhӳng hѭӟng mӣ mà luұn văn cҫn phҧi tiӃp tөc phát triӇn trong thӡi gian tӟi nhҵm tăng
ÿӝ chính xác lên cao hѫn nӳa.
Thӭ nhҩt, cҫn phҧi có nhӳng lƭnh vӵc chuyên môn cho mô hình. Trong thӡi ÿҥi
chuyên môn hoá nhѭ hiӋn nay, viӋc sӱ dөng chѭѫng trình trong nhӳng lƭnh vӵc chuyên
môn là cҫn thiӃt, ÿӗng thӡi, giúp cho chѭѫng trình tăng thêm ÿӝ chính xác. ViӋc thêm
chӭc năng này cNJng không ҧnh hѭӣng nhiӅu ÿӃn mô hình. Ӣÿây, do thӱ nghiӋm mô
hình mӟi nên bѭӟc này ÿѭӧc bӓ qua.
Thӭ hai, áp dөng mô hình cho phѭѫng pháp thêm dҩu online. ViӋc thêm dҩu online
ngoài viӋc tҥo trӵc quan cho ngѭӡi dùng, ngoài ra, có thӇ tҥo ra 1 phѭѫng pháp gõ mӟi,
giúp viӋc gõ tiӃng ViӋt ÿѭӧc nhanh hѫn.
Thӭ ba, mô hình có thӇ áp dөng các phѭѫng pháp tách tӯ chính xác hѫn nhѭ WFST
ÿѭӧc sӱ dөng trong mô hình cӫa VnMark … ÿӇÿҥt ÿѭӧc ÿӝ chính xác cao hѫn nӳa.
5.2. .Ӄt luұn
Tuy mô hình không có ÿLӇm gì mӟi nәi bұt, nhѭng qua viӋc lѭu trӳ tӯÿLӇn cөm tӯ
ÿӇ chuyӇn ÿәi tӯ linh hoҥt thì ÿây là hѭӟng phát triӇn rҩt có tiӅm năng. Vӟi 1 tӯÿLӇn
Fөm tӯ chính xác và ÿҫy ÿӫ hѫn, mô hình sӁ hoҥt ÿӝng tӕt hѫn nӳa. Chӭc năng Thêm
Gҩu tӵÿӝngÿѭӧc phát triӇn thành 1 DLL, cho phép tích hӧp chӭc năng này vào bҩt kǤ
trình soҥn thҧo nào 1 cách nhanh chóng.
65
TÀI LIӊU THAM KHҦO
[1]. TiӃn sƭĈinh ĈLӅn. Giáo trình Xӱ lý ngôn ngӳ tӵ nhiên, Khoa Công nghӋ
Thông tin, Ĉҥi hӑc Khoa hӑc Tӵ nhiên thành phӕ Hӗ Chí Minh, Tháng
12 – 2004.
[2]. NguyӉn Văn Toàn. TӵĈӝng Gán Dҩu Thanh TiӃng ViӋt – Trung tâm
Phát triӇn Công nghӋ Thông tin, Ĉҥi hӑc Quӕc gia Thành phӕ Hӗ Chí
Minh.
[3]. Hoàng Văn Hành – Ĉinh ĈLӅn (1999), “Tӯ tiӃng ViӋt : Khái niӋm – nhұn
diӋn – ranh giӟi”, Bài tiӇu luұn môn hӑc “Tӯ vӵng hӑc”, Lӟp Cao hӑc
Ngôn ngӳ hӑc.
[4]. Hoàng Phê (1998), TӯÿLӇn tiӃng ViӋt, Trung tâm tӯ diӇn hӑc, NXB Ĉà
1ҷng.
[5]. Dien Dinh, Kiem Hoang, Toan Nguyen Van (2001), “Vietnamese Word
Segmentation”, Proceedings of NLPRS’01 (The 6th Natural Language
Processing Pacific Rim Symposium), Tokyo, Japan, 11/2001, pg. 749-756
[6]. 9ăn Chí Nam, luұn văn cӱ nhân tin hӑc khoá 1999-2003, “Xӱ lý ngӳ
nghƭa trong hӋ dӏch tӵÿӝng Anh –ViӋt cho các tài liӋu tin hӑc”, pg. 27-
30
[7]. NguyӉn Thái Ngӑc Duy, luұn văn cӱ nhân tin hӑc khoá 2000-2004, “Xây
Gӵng chѭѫng trình bҳt lӛi chính tҧ tiӃng ViӋt và ÿӅ nghӏ tӯ thay thӃ cho
các lӛi chính tҧ thѭӡng gһp”, pg. 16-36, pg. 69-73
[8]. Ĉoàn Xuân Kiên, “Bàn vӅ chuyӋn ÿánh dҩu thanh trong tiӃng ViӋt”,
ÿăng tҥi trang
[9]. Ĉoàn Xuân Kiên, “Xem lҥi mӝt vҩn ÿӅ ngӳ âm tiӃng ViӋt : cҩu trúc âm
tiӃt”, ÿăng tҥi trang
[10].
66
[11]. Tài liӋu vӅ phҫn mӅm VietPad ÿѭӧc công bӕ tҥi trang web:
[12]. Tài liӋu vӅ phҫn mӅm AMPad ÿѭӧc công bӕ tҥi trang web:
[13]. 1 sӕ phҫn mӅm hӛ trӧ trên www.codeproject.com
67
Phө lөc : Cҩu trúc kho ngӳ liӋu
Kho ngӳ liӋu gӗm nhiӅu tұp tin text (.txt), mӛi tұp tin chӭa mӝt tұp các câu thuӝc cùng
1 chӫÿӅ. Tұp tin text ÿѭӧc lѭu vӟi cҩu trúc sau
o 7ұp tin text gӗm nhiӅu record, mӛi record gӗm :
§ ID : ÿӏnh danh
§ S : nӝi dung câu
S cách ID bҵng dҩu TAB (“\t”)
&ҩu trúc trѭӡng ID :
Thông tin ID bao gӗm nhӳng nӝi dung sau:
· Ngày (1..31) 2 ký tӵ
· Tháng (1..12) 2 ký tӵ
· 1ăm (04 = 2004) 2 ký tӵ
· Xuҩt xӭ 3 ký tӵ
o Ký tӵÿҫu tiên: nguӗn gӕc cӫa ngӳ liӋu
§ B: Báo chí
§ T: Tác phҭm văn hӑc
§ S: Sách
§ L Luұn văn
§ V: Các loҥi văn bҧn
o Ký tӵ thӭ hai và ba: ÿӏnh danh nguӗn gӕc cӫa ngӳ liӋu
§ 9Ӆ báo chí:
· TN: Thanh Niên
· TT: Tuәi Trҿ
· SG: Sài Gòn Giҧi Phóng
· ND: Nhân Dân
· LD: Ngѭӡi Lao Ĉӝng
· CT: Cҫn Thѫ
· BD: Bình Ĉӏnh
· VH: Sҳc màu văn hóa
§ 9Ӆ tác phҭm văn hӑc: nhóm làm ÿӅ tài tӵ quy ÿӏnh ÿӏnh danh
cho tên các tác phҭm Văn hӑc mà mình có, ÿӗng thӡi phҧi có
tài liӋu cho phҫn này (ý nghƭa cӫa tӯng ÿӏnh danh mà nhóm ÿó
Vӱ dөng và lѭu trong tұp tin riêng)
68
· Vd: Truy͏n Ki͉u cͯa Nguy͍n Du à TK
· Vd: Cô Gái Ĉ͛ Long cͯa Kim Dung à CG
§ 9Ӆ sách: cách qui ÿӏnh giӕng tác phҭm văn hӑc.
§ 9Ӆ luұn văn: cách qui ÿӏnh giӕng tác phҭm văn hӑc.
§ 9Ӆ văn bҧn: cách qui ÿӏnh giӕng tác phҭm văn hӑc. Mӝt kho
ngӳ liӋu ÿáng kӇ ÿó là các văn bҧn cӫa Nhà Nѭӟc, văn bҧn
Pháp Luұt (www.luatgiapham.com),…
· ChӫÿӅ 1 ký tӵ
o 9Ӆ báo chí:
§ X: Xã hӝi, tin trong nѭӟc, tin thӃ giӟi
§ T: Thѭѫng mҥi, kinh doanh, kinh tӃ
§ V: Văn hóa, thӇ thao, ÿӡi sӕng,
§ P: Pháp luұt
§ Y: Y tӃ, sӭc khӓe,
§ K: Khoa hӑc, kӻ thuұt, tin hӑc
o 9Ӆ văn hӑc:
§ T: Thѫ
§ N: TruyӋn ngҳn
§ D: TruyӋn dài
§ K: TruyӋn kiӃm hiӋp
o 9Ӆ sách:
§ (giӕng qui ÿӏnh cӫa báo chí)
o 9Ӆ luұn văn:
§ (giӕng qui ÿӏnh cӫa báo chí)
o 9Ӆ văn bҧn:
§ (giӕng qui ÿӏnh cӫa báo chí)
· 6ӕ thӭ tӵ bài viӃt4 ký tӵ (01..9999)
· 6ӕ thӭ tӵ câu 3 ký tӵ (001..999)
7әng kӃt lҥi, trѭӡng ID có chiӅu dài là: 17
69
Hình 5.2-35 : 7̵p tin kho ngͷ li͏u m̳u
Các file đính kèm theo tài liệu này:
- Unlock-0112267.pdf