Luận văn Tìm hiểu phương pháp thêm dấu tiếng Việt vào văn bản tiếng Việt không dấu

Tài liệu Luận văn Tìm hiểu phương pháp thêm dấu tiếng Việt vào văn bản tiếng Việt không dấu: TRɈ͜NG ĈɝI H͌C KHOA H͌C TͰ NHIÊN KHOA CÔNG NGHʃ THÔNG TIN %͘ MÔN CÔNG NGHʃ TRI THͨC PHAN QUӔC LÂN PHѬѪNG PHÁP THÊM DҨU TIӂNG VIӊT VÀO VĂN BҦN TIӂNG VIӊT KHÔNG DҨU KHOÁ LUҰN CӰ NHÂN TIN HӐC TP. HCM, NĂM 2005 1 TRɈ͜NG ĈɝI H͌C KHOA H͌C TͰ NHIÊN KHOA CÔNG NGHʃ THÔNG TIN %͘ MÔN CÔNG NGHʃ TRI THͨC PHAN QUӔC LÂN – 0112267 PHѬѪNG PHÁP THÊM DҨU TIӂNG VIӊT VÀO VĂN BҦN TIӂNG VIӊT KHÔNG DҨU KHOÁ LUҰN CӰ NHÂN TIN HӐC GIÁO VIÊN HѬӞNG DҮN Th.S PHҤM PHҤM TUYӂT TRINH NIÊN KHÓA 2001 – 2005 2 /ӡi cҧm ѫn /ӡi ÿҫu tiên, em xin chân thành cҧm ѫn cô Phҥm Phҥm TuyӃt Trinh, cô ÿã trӵc tiӃp hѭӟng dүn và tҥo ÿLӅu kiӋn cho em nghiên cӭu và hoàn thành luұn văn này. Em cNJng xin chân thành cҧm ѫn thҫy Ĉinh ĈLӅn, thҫy ÿã hӛ trӧ, giúp ÿӥ em rҩt nhiӅu trong quá trình thӵc hiӋn. Và em cNJng xin cҧm ѫn tҩt cҧ các thҫy cô trong khoa Công nghӋ thông tin ÿã tұn tình chӍ bҧo và giúp ÿӥ em trong suӕt quá trình hӑc tұp trong trѭӡng. Con xin chân thành cҧm ѫn ba mҽ, ông bà, anh em và ngѭӡi thân trong...

pdf70 trang | Chia sẻ: hunglv | Lượt xem: 1053 | Lượt tải: 0download
Bạn đang xem trước 20 trang mẫu tài liệu Luận văn Tìm hiểu phương pháp thêm dấu tiếng Việt vào văn bản tiếng Việt không dấu, để tải tài liệu gốc về máy bạn click vào nút DOWNLOAD ở trên
TRɈ͜NG ĈɝI H͌C KHOA H͌C TͰ NHIÊN KHOA CÔNG NGHʃ THÔNG TIN %͘ MÔN CÔNG NGHʃ TRI THͨC PHAN QUӔC LÂN PHѬѪNG PHÁP THÊM DҨU TIӂNG VIӊT VÀO VĂN BҦN TIӂNG VIӊT KHÔNG DҨU KHOÁ LUҰN CӰ NHÂN TIN HӐC TP. HCM, NĂM 2005 1 TRɈ͜NG ĈɝI H͌C KHOA H͌C TͰ NHIÊN KHOA CÔNG NGHʃ THÔNG TIN %͘ MÔN CÔNG NGHʃ TRI THͨC PHAN QUӔC LÂN – 0112267 PHѬѪNG PHÁP THÊM DҨU TIӂNG VIӊT VÀO VĂN BҦN TIӂNG VIӊT KHÔNG DҨU KHOÁ LUҰN CӰ NHÂN TIN HӐC GIÁO VIÊN HѬӞNG DҮN Th.S PHҤM PHҤM TUYӂT TRINH NIÊN KHÓA 2001 – 2005 2 /ӡi cҧm ѫn /ӡi ÿҫu tiên, em xin chân thành cҧm ѫn cô Phҥm Phҥm TuyӃt Trinh, cô ÿã trӵc tiӃp hѭӟng dүn và tҥo ÿLӅu kiӋn cho em nghiên cӭu và hoàn thành luұn văn này. Em cNJng xin chân thành cҧm ѫn thҫy Ĉinh ĈLӅn, thҫy ÿã hӛ trӧ, giúp ÿӥ em rҩt nhiӅu trong quá trình thӵc hiӋn. Và em cNJng xin cҧm ѫn tҩt cҧ các thҫy cô trong khoa Công nghӋ thông tin ÿã tұn tình chӍ bҧo và giúp ÿӥ em trong suӕt quá trình hӑc tұp trong trѭӡng. Con xin chân thành cҧm ѫn ba mҽ, ông bà, anh em và ngѭӡi thân trong gia ÿình ÿã tҥo mӑi ÿLӅu kiӋn tӕt nhҩt cho con hӑc tұp và ÿӝng viên, khích lӋ con trong quá trình thӵc hiӋn luұn văn. Và cuӕi cùng, tôi xin gӱi lӡi cҧm ѫn ÿӃn tҩt cҧ bҥn bè, ÿһc biӋt là anh Toàn, bҥn Sinh, bҥn Khѭѫng …, nhӳng ngѭӡi ÿã hӛ trӧ và giúp tôi hoàn thiӋn luұn văn này. 0һc dù em ÿã cӕ gҳng hoàn thành luұn văn trong phҥm vi và khҧ năng cho phép nhѭng chҳc chҳn sӁ không tránh khӓi nhӳng thiӃu sót. Em kính mong nhұn ÿѭӧc sӵ Fҧm thông và tұn tình chӍ bҧo cӫa quý Thҫy Cô và các bҥn. TP. Hӗ Chí Minh, tháng 7 năm 2005 Phan Quӕc Lân – 0112267 3 NHҰN XÉT CӪA GIÁO VIÊN HѬӞNG DҮN _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ Thành phӕ Hӗ Chí Minh, tháng 07 năm 2005 Giáo viên hѭӟng dүn Th.S Phҥm Phҥm TuyӃt Trinh 4 NHҰN XÉT CӪA GIÁO VIÊN PHҦN BIӊN _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ Thành phӕ Hӗ Chí Minh, tháng 07 năm 2005 Giáo viên phҧn biӋn TS. Ĉinh ĈLӅn /ӠI NÓI ĈҪU Chӳ viӃt tiӃng ViӋt cӫa chúng ta có 1 ÿһc ÿLӇm rҩt hay là có sӵ xuҩt hiӋn cӫa các Gҩu thanh cNJng nhѭ dҩu cӫa các ký tӵ. ĈLӅu này giúp cho tiӃng ViӋt “thêm thanh, thêm ÿLӋu”. Tuy nhiên, cNJng chính viӋc “thêm thanh, thêm ÿLӋu” ÿó làm cho viӋc gõ tiӃng ViӋt trӣ nên tӕn nhiӅu thӡi gian hѫn. 1 vҩn ÿӅ khác, khi viӋc sӱ dөng Internet trӣ nên thông dөng, 1 tiӋn ích ÿѭӧc mӑi ngѭӡi ѭa chuӝng là dӏch vө Email. Nhѭng, cho ÿӃn hiӋn nay, hҫu hӃt các mail server vүn chѭa hӛ trӧ tӕt tiӃng ViӋt, do ÿó, tình trҥng các lá mail trên mҥng hҫu nhѭ không có dҩu. ViӋc phát triӇn 1 công cө giúp thêm dҩu tiӃng ViӋt vào văn bҧn không dҩu là viӋc rҩt cҫn thiӃt và thú vӏ. ĈӅ tài này hѭӟng ÿӃn viӋc giҧi quyӃt bài toán thêm dҩu tiӃng ViӋt theo mӝt Kѭӟng mӟi, do ÿó, chѭѫng trình không chú trӑng chuyên sâu vào lƭnh vӵc nào. ViӋc thêm chӭc năng hӛ trӧ các lƭnh vӵc chuyên sâu khác không ҧnh hѭӣng nhiӅu ÿӃn cҩu trúc cӫa mô hình mà chѭѫng trình áp dөng. Luұn văn ÿѭӧc tә chӭc thành 5 chѭѫng vӟi nӝi dung nhѭ sau : § Chѭѫng 1 giӟi thiӋu tәng quan vӅ bài toán Thêm dҩu tiӃng ViӋt vào văn bҧn không dҩu, và các công trình ÿã có liên quan ÿӃn ÿӅ tài. § Chѭѫng 2 giӟi thiӋu các cѫ sӣ lý thuyӃt _ tin hӑc cҫn sӱ dөng. § Chѭѫng 3 nhұn xét các mô hình ÿã có trѭӟc ÿây, và ÿѭa ra mô hình cài ÿһt chính. § Chѭѫng 4 cө thӇ hóa mô hình cài ÿһt. § Chѭѫng 5 tәng kӃt và ÿӅ ra hѭӟng phát triӇn . 6 0ӨC LӨC Chѭѫng 1.7ӘNG QUAN....................................................................9 1.1. Giӟi thiӋu vӅ bài toán Thêm dҩu tiӃng ViӋt vào văn bҧn không dҩu.......10 1.1.1. Phát biӇu bài toán.........................................................................................10 1.1.2. Ĉһc ÿLӇm .......................................................................................................10 1.1.3. +ѭӟng giҧi quyӃt ..........................................................................................11 1.2. Giӟi thiӋu các công trình ÿã có ..................................................................11 1.2.1. AMPad..........................................................................................................11 1.2.2. VietPad .........................................................................................................12 1.2.3. www.EasyVn.com.........................................................................................13 1.2.4. VnMark ........................................................................................................14 Chѭѫng 2.&Ѫ SӢ LÝ THUYӂT TIN HӐC....................................15 2.1. Lý thuyӃt vӅ ngôn ngӳ hӑc.........................................................................16 2.1.1. Âm tiӃt (còn gӑi là “tiӃng”) ..........................................................................16 2.1.1.1. Ĉӏnh nghƭa và ÿһc ÿLӇm âm tiӃt tiӃng ViӋt ..............................................16 2.1.1.2. Thanh là thành phҫn cӫa âm tiӃt tiӃng ViӋt .............................................16 2.1.1.3. Tҥi sao lҥi phҧi dùng dҩu thanh ? ............................................................17 2.1.2. 7ӯ ..................................................................................................................18 2.1.2.1. Các quan niӋm vӅ tӯ ...............................................................................18 2.1.2.2. Tiêu chí nhұn diӋn “tӯ” tiӃng ViӋt...........................................................18 2.1.2.2.1. Các tiêu chuҭn vӅ hình thӭc .................................................................19 2.1.2.2.2. Các tiêu chuҭn vӅ nӝi dung ..................................................................19 2.2. Tách tӯ ........................................................................................................20 2.2.1. Khӟp tӕi ÿa (LRMM – Left Right Max Matching).....................................21 2.2.2. Mô hình mҥng WFST và mҥng nѫ-ron .......................................................22 2.3. Tách câu......................................................................................................22 2.3.1. Tách câu bҵng Heristics. ..............................................................................23 2.3.1.1. Xӱ lý dҩu chҩm. .....................................................................................23 2.3.1.2. Xӱ lý dҩu chҩm trong ngoһc. ..................................................................24 Chѭѫng 3.MÔ HÌNH CÀI ĈҺT......................................................25 3.1. Các mô hình thêm dҩu ÿã ÿѭӧc sӱ dөng...................................................26 3.1.1. VietPad .........................................................................................................26 3.1.1.1. Mô hình thêm dҩu tiӃng ViӋt ..................................................................26 3.1.1.1.1. TiӅn xӱ lý ............................................................................................26 3.1.1.1.2. Tách token...........................................................................................27 3.1.1.1.3. Lҩy ra các tӯ không dҩu, chuyӇn thành tӯ có dҩu .................................27 3.1.2. VnMark ........................................................................................................28 7 3.1.2.1. Mô hình thêm dҩu tiӃng ViӋt ..................................................................28 3.1.2.1.1. TiӅn xӱ lý ............................................................................................30 3.1.2.1.2. Tách câu ..............................................................................................30 3.1.2.1.3. Tìm các khҧ năng ÿánh dҩu cӫa tӯ, câu ................................................30 3.1.2.2. Mô hình huҩn luyӋn................................................................................31 3.2. Mô hình ÿӅ xuҩt..........................................................................................32 3.2.1. Mô hình.........................................................................................................32 3.2.1.1. Tách câu .................................................................................................33 3.2.1.2. Tách tӯ bҵng phѭѫng pháp LRMM.........................................................34 3.2.1.3. Chӑn tӯ thích hӧp ...................................................................................34 3.2.2. Mô hình huҩn luyӋn .....................................................................................36 3.2.2.1. Thӕng kê tҫn suҩt xuҩt hiӋn cӫa tӯ ..........................................................36 3.2.2.1.1. Xây dӵng kho ngӳ liӋu.........................................................................36 3.2.2.1.2. Thӕng kê tҫn suҩt xuҩt hiӋn cӫa tӯ .......................................................37 3.2.2.1.3. Tҥo tӯÿLӇn chuyӇn ÿәi ........................................................................38 3.2.2.2. Trích xuҩt các cөm tӯ thѭӡng sӱ dөng ....................................................39 3.2.3. So sánh mô hình này vӟi 2 mô hình trên .....................................................41 Chѭѫng 4.CÀI ĈҺT THӰ NGHIӊM.............................................43 4.1. Thӕng kê tҫn sӕ xuҩt hiӋn cӫa tӯ...............................................................44 4.1.1. Xây dӵng kho ngӳ liӋu text tӯ báo ÿLӋn tӱ ..................................................44 4.1.2. Tách câu........................................................................................................48 4.1.3. Tách tӯ và thӕng kê......................................................................................50 4.2. 7ҥo tұp tin tӯÿLӇn chính............................................................................52 4.3. 7ҥo tұp tin tӯÿLӇn cөm tӯ .........................................................................55 4.3.1. 7ҥo kho dӳ liӋu tinh giҧn mӟi......................................................................55 4.3.2. 7ҥo tұp tin tӯÿLӇn cөm tӯ ...........................................................................58 4.4. Chѭѫng trình chính....................................................................................58 4.4.1. Chѭѫng trình VietEditor..............................................................................59 4.4.2. Chѭѫng trình thêm dҩu qua Clipboard.......................................................60 4.5. Thӱ nghiӋm ................................................................................................62 Chѭѫng 5. ӂT QUҦ, HѬӞNG PHÁT TRIӆN .............................63 5.1. +ҥn chӃ và hѭӟng phát triӇn .....................................................................64 5.2. .Ӄt luұn ......................................................................................................64 Phө lөc : Cҩu trúc kho ngӳ liӋu ......................................................67 8 DANH MӨC HÌNH Hình 1.2.1-1 : Thêm ḓu ti͇ng Vi͏t t͹ÿ͡ng b̹ng AMPad......................................................12 Hình 1.2.2-2 : Gõ ti͇ng Vi͏t không ḓu trên VietPad .............................................................12 Hình 1.2.2-3 : Văn b̫n sau khi th͹c hi͏n chͱc năng thêm ḓu ti͇ng Vi͏t cͯa VietPad ...........13 Hình 1.2.3-4 : Gõ ti͇ng Vi͏t không ḓu trên EasyVn..............................................................14 Hình 1.2.3-5 : Văn b̫n sau khi t͹ÿ͡ng thêm ḓu trên EasyVn ..............................................14 Hình 1.2.4-6 : S˯ÿ͛ k͇t c̭u âm ti͇ng Vi͏t.............................................................................17 Hình 3.1.1-7 : L˱u ÿ͛ th͹c hi͏n cͯa mô hình ͱng dͭng trong VietPad...................................26 Hình 3.1.2-8 : L˱u ÿ͛ th͹c hi͏n cͯa mô hình n-gram ............................................................29 Hình 3.2-9: L˱u ÿ͛ th͹c hi͏n cͯa mô hình ÿ͉ xṷt ................................................................33 Hình 3.2-10 : T̵p tin m̳u sau khi th͙ng kê t̯n sṷt tͳ ..........................................................38 Hình 3.2-11 : Trích t̵p tin TuDienChinh.txt ..........................................................................39 Hình 3.2-12 : Trích t̵p tin CumTu.txt....................................................................................41 Hình 4.1.1-13: Giao di͏n ch˱˯ng trình HTML2TXT ..............................................................44 Hình 4.1.1-14: C̭u hình cͯa ch˱˯ng trình HTML2TXT.........................................................45 Hình 4.1.1-15 : M͡t trang báo thanh niên..............................................................................47 Hình 4.1.1-16 : 'ͷ li͏u ÿ˱ͫc tách tͳ trang báo Thanh niên...................................................48 Hình 4.1.2-17: Giao di͏n ch˱˯ng trình Tách Câu..................................................................49 Hình 4.1.2-18: Tͳ vi͇t t̷t cung c̭p cho ch˱˯ng trình Tách Câu............................................49 Hình 4.1.2-19: N͡i dung file k͇t xṷt cͯa ch˱˯ng trình Tách Câu .........................................50 Hình 4.1.3-20: Giao di͏n module tách tͳ...............................................................................51 Hình4.1.3-21: N͡i dung t̵p tin th˱ mͭc ngu͛n ......................................................................51 Hình 4.1.3-22: N͡i dung t̵p tin tͳÿL͋n .................................................................................52 Hình 4.1.3-23: N͡i dung t̵p tin k͇t qu̫.................................................................................52 Hình 4.1.3-24: Giao di͏n ch˱˯ng trình t̩o tͳÿL͋n chính.......................................................53 Hình 4.1.3-25 : Trích 1 ph̯n TuDienChinh.txt.......................................................................54 Hình 4.1.3-26 : Trích 1 ph̯n TuDienPhanLop.txt.................................................................54 Hình 4.1.3-27: Trích 1 ph̯n KhoCau.txt................................................................................55 Hình 4.3.1-28: Giao di͏n ch˱˯ng trình t̩o kho dͷ li͏u tinh gi̫n ...........................................56 Hình 4.3.1-29 : Trích 1 ph̯n th˱ mͭc k͇t xṷt .......................................................................57 Hình 4.3.1-30 : Th˱ mͭc con _a trong th˱ mͭc k͇t xṷt.........................................................57 Hình 4.3.2-31: Giao di͏n ch˱˯ng trình t̩o t̵p tin cͭm tͳ .....................................................58 Hình 4.4.1-32: Giao di͏n ch˱˯ng trình chính VietEditor .......................................................59 Hình 4.4.2-33: Giao di͏n ch˱˯ng trình chính thêm ḓu Clipboard ........................................60 Hình 4.4.2-34: Test ch˱˯ng trình thêm ḓu Clipboard...........................................................61 Hình 5.2-35 : T̵p tin kho ngͷ li͏u m̳u .................................................................................69 Chѭѫng 1. 7ӘNG QUAN Luұn văn tӕt nghiӋp : Phѭѫng pháp thêm dҩu vào văn bҧn tiӃng ViӋt không dҩu 10 1.1. Giӟi thiӋu vӅ bài toán Thêm dҩu tiӃng ViӋt vào Yăn bҧn không dҩu 1.1.1. Phát biӇu bài toán Bài toán có thӇÿѭӧc phát biӇu nhѭ sau : Cho mӝt văn bҧn tiӃng ViӋt không Gҩu. ChuyӇn văn bҧn không dҩu này thành có dҩu vӟi ÿӝ chính xác cao. ChӍ sӱ dөng tӯÿLӇn tӯ và kho ngӳ liӋu thô làm ÿҫu vào. Khái niӋm tӯӣÿây là “tӯ tӯÿLӇn” – tӭc là các tӯÿѫn, tӯ ghép và cөm tӯ ÿѭӧc lѭu trong tӯÿLӇn. ChӍ xӱ lý các văn bҧn tiӃng ViӋt có mã Unicode. 1.1.2. Ĉһc ÿLӇm Chӳ viӃt tiӃng ViӋt có 1 ÿһc ÿLӇm rҩt hay là sӵ xuҩt hiӋn cӫa các dҩu thanh FNJng nhѭ dҩu cӫa các ký tӵ. ViӋc có dҩu thanh và dҩu cӫa ký tӵ này làm phong phú thêm cho ngôn tӯ tiӃng ViӋt, và cNJng góp phҫn tăng ÿӝ biӇu cҧm cӫa tiӃng ViӋt. 'ҩu thanh là 1 thành phҫn “bҩt khҧ phân” trong âm tiӃt tiӃng ViӋt [8]. Khi loҥi bӓ dҩu thanh, viӋc hiӇu nghƭa cӫa tӯ, gӗm 1 hay nhiӅu âm tiӃt kӃt hӧp vӟi nhau, trӣ nên khó khăn và dӉ gây hiӇu lҫm. ĈӇ thêm dҩu, trѭӟc tiên, ta cҫn phҧi xác ÿӏnh ranh giӟi tӯ. Bài toán xác ÿӏnh ranh giӟi tӯÿӕi vӟi văn bҧn tiӃng ViӋt có dҩu ÿã là 1 viӋc thӱ thách, thì khi không có dҩu, viӋc nhұn diӋn ranh giӟi tӯ càng trӣ nên khó khăn hѫn. Vҩn ÿӅ này lҥi càng khó khăn, khi ranh giӟi tӯ trong tiӃng ViӋt cNJng nhѭ 1 sӕ ngôn ngӳ Châu Á khác, mӝt tӯ chính tҧ có thӇ không tѭѫng ӭng vӟi mӝt “tӯ” trên văn Eҧn. Ĉӕi vӟi các thӭ tiӃng Châu Âu, ta có thӇ dӉ dàng nhұn ra mӝt tӯ, do các tӯ ÿѭӧc phân cách bӣi khoҧng trҳng. ĈLӅu này lҥi không ÿúng vӟi tiӃng ViӋt. Trong tiӃng ViӋt, các tiӃng _ hay còn gӑi là âm tiӃt _ ÿѭӧc phân cách bӣi khoҧng trҳng, chӭ không phҧi tӯ. Luұn văn tӕt nghiӋp : Phѭѫng pháp thêm dҩu vào văn bҧn tiӃng ViӋt không dҩu 11 Sau khi ÿã nhұn diӋn ÿѭӧc ranh giӟi tӯ, ta cҫn phҧi xác ÿӏnh cho ÿúng tӯ có Gҩu nào có dҥng thӇ hiӋn không dҩu nhѭ vұy. ViӋc xác ÿӏnh này cNJng gây nhiӅu khó khăn, khi 1 tӯ không dҩu có thӇ có nhiӅu tӯ có dҩu tѭѫng ӭng vӟi nó. Ví dͭ 1-1 : Tӯ không dҩu “toi” có 3 tӯ có dҩu tѭѫng ӭng là “tôi”, “tӟi” và “tӕi”. Do ÿó, sau khi ÿã giҧi quyӃt xong bài toán tách tӯ tiӃng ViӋt không dҩu, ta Fҫn phҧi giҧi quyӃt thêm bài toán xác ÿӏnh tӯ có dҩu thích hӧp vӟi tӯ không dҩu ÿó. Ĉây chính là 2 bài toán cҫn giҧi quyӃt chính cӫa mô hình. 1.1.3. +ѭӟng giҧi quyӃt Ĉӕi vӟi tách tӯ có dҩu, có nhiӅu mô hình ÿѭӧc sӱ dөng và ÿҥt kӃt quҧ cao nhѭ MM (Maximum Matching : forward / backward hay còn gӑi là LRMM: Left Right); giҧi thuұt hӑc cҧi biӃn TBL; mҥng chuyӇn dӏch trҥng thái hӳu hҥn có trӑng sӕ WFST (Weighted finite-state Transducer); giҧi thuұt dӵa trên nén (compression) [1] …. Hѭӟng giҧi quyӃt ÿѭӧc ÿӅ xuҩt là sӱ dөng phѭѫng pháp tách tӯ LRMM [1][7] kӃt hӧp vӟi mô hình Bigram ÿã giҧi quyӃt khá hiӋu quҧ 2 Yҩn ÿӅ cӫa bài toán này. Phѭѫng pháp chӍ mӟi ÿѭӧc áp dөng cho mô hình thêm Gҩu offine, nhѭng có thӇÿѭӧc cài ÿһt ÿӇ gán dҩu online. 1.2. Giӟi thiӋu các công trình ÿã có 1.2.1. AMPad AMPad [12] (tên version cNJ và thông dөng vӟi mӑi ngѭӡi là AutoMark) Fӫa tác giҧ Trҫn TriӃt Tâm là sҧn phҭm ÿҫu tiên nghiên cӭu vӅ lƭnh vӵc này. Chѭѫng trình ÿã ÿѭӧc nhiӅu ngѭӡi biӃt ÿӃn và ÿѭӧc sӱ dөng rӝng rãi. ĈLӅu này cho thҩy viӋc phát triӇn ӭng dөng hoàn thiӋn hѫn nӳa vӅ thêm dҩu tiӃng ViӋt là có nhu cҫu, và nhu cҫu này sӁ ngày càng tăng cao. Chѭѫng trình AMPad có Luұn văn tӕt nghiӋp : Phѭѫng pháp thêm dҩu vào văn bҧn tiӃng ViӋt không dҩu 12 ÿLӇm hay là viӋc áp dөng mô hình xӱ lý thêm dҩu ӣ chӃÿӝ online, tҥo sӵ trӵc quan, thân thiӋn cho ngѭӡi sӱ dөng. Hình 1.2.1-1 : Thêm ḓu ti͇ng Vi͏t t͹ÿ͡ng b̹ng AMPad 1.2.2. VietPad Vietpad [11] là trình soҥn thҧo hӛ trӧ tiӃng ViӋt Unicode, ÿѭӧc phát triӇn Eӣi Quân NguyӉn và nhóm phát triӇn trên Ngoài chӭc năng thêm dҩu tӵÿӝng offline mà luұn văn ÿang nghiên cӭu, VietPad còn là 1 trình soҥn thҧo tiӃng ViӋt hӛ trӧ rҩt tӕt Unicode và là mã nguӗn mӣ. Hình 1.2.2-2 : Gõ ti͇ng Vi͏t không ḓu trên VietPad Luұn văn tӕt nghiӋp : Phѭѫng pháp thêm dҩu vào văn bҧn tiӃng ViӋt không dҩu 13 Hình 1.2.2-3 : Văn b̫n sau khi th͹c hi͏n chͱc năng thêm ḓu ti͇ng Vi͏t cͯa VietPad 1.2.3. www.EasyVn.com Trang web www.easyvn.com [10] cung cҩp dӏch vө email ÿLӋn tӱ miӉn phí trên mҥng, vӟi sӵ hӛ trӧ ngѭӡi dùng rҩt tӕt vӅ ngôn ngӳ ViӋt. 1 chӭc năng nәi Eұt cӫa www.easyvn.com là : sau khi soҥn thҧo xong bӭc mail, ngѭӡi dùng có thӇ chӑn chӭc năng Thêm dҩu tiӃng ViӋt ÿӇ biӃn văn bҧn không dҩu thành có Gҩu. Do ÿây là dӏch vөÿѭӧc cung cҩp và thu phí trên NET (cho sӱ dөng thӱ trong 2 tháng), mô hình thêm dҩu tӵÿӝng cӫa www.easyvn.comÿѭӧc giӳ kín. Luұn văn tӕt nghiӋp : Phѭѫng pháp thêm dҩu vào văn bҧn tiӃng ViӋt không dҩu 14 Hình 1.2.3-4 : Gõ ti͇ng Vi͏t không ḓu trên EasyVn Hình 1.2.3-5 : Văn b̫n sau khi t͹ÿ͡ng thêm ḓu trên EasyVn 1.2.4. VnMark VnMark [2] ÿѭӧc tác giҧ NguyӉn Văn Toàn phát triӇn. Do tác giҧÿã làm thҩt lҥc chѭѫng trình, do ÿó, không có hình ҧnh minh hoҥ chѭѫng trình. Chѭѫng 2. &Ѫ SӢ LÝ THUYӂT TIN HӐC Luұn văn tӕt nghiӋp : Phѭѫng pháp thêm dҩu vào văn bҧn tiӃng ViӋt không dҩu 16 2.1. Lý thuyӃt vӅ ngôn ngӳ hӑc 2.1.1. Âm tiӃt (còn gӑi là “tiӃng”) 2.1.1.1. Ĉӏnh nghƭa và ÿһc ÿLӇm âm tiӃt tiӃng ViӋt “TiӃng” là “ÿѫn vӏ cѫ bҧn” trong tiӃng ViӋt [1]. Mӝt “tiӃng” trong tiӃng ViӋt ÿѭӧc nói lên là mӝt ÿѫn vӏ ngӳ âm, và cNJng là mӝt ÿѫn vӏ ngӳ pháp. 0ӝt “tiӃng” là mӝt ÿѫn vӏ phát ngôn, và là mӝt ÿѫn vӏ cӫa lӡi nói ÿӇ tҥo ra nhӳng kӃt cҩu lӡi nói trong hoҥt ÿӝng nói năng giao tiӃp. Ĉһc tính này cӫa tiӃng chính là mӝt tính cách loҥi hình cӫa tiӃng ViӋt, trong ÿó mӛi ÿѫn vӏ phát âm trùng khít vӟi ÿѫn vӏ ngӳ pháp (hình vӏ, và tӯ). Khi xét trên bình diӋn ngӳ âm, tiӃng là mӝt ÿѫn vӏ cӫa ngӳ âm, tӭc là mӝt âm tiӃt [9]. ViӋc nhұn diӋn “tiӃng” ÿӕi vӟi ngѭӡi ViӋt là ÿLӅu quá dӉ dàng, tӵ nhiên ÿӕi vӟi mӑi ngѭӡi mà không cҫn mӝt trình ÿӝ ngôn ngӳ gì cao, vì : trong lӡi nói (mһt ngӳ âm), mӛi “tiӃng” bao giӡ cNJng phát ra mӝt hѫi, nghe thành mӝt tiӃng, và có mang mӝt thanh ÿLӋu nhҩt ÿLӋu; còn trong chӳ viӃt (mһt chính Wҧ), mӛi tiӃng bao giӡ cNJng ÿѭӧc viӃt rӡi thành tӯng chӳ (ngăn cách bҵng khoҧng trҳng hay các dҩu ngҳt). Ĉѫn vӏ “tiӃng” ÿӕi vӟi ngѭӡi ViӋt là mӝt ÿѫn vӏ tӵ nhiên, khái niӋm “tiӃng” ÿã có tӯ lâu và ÿѭӧc ngѭӡi bҧn ngӳ sӱ Gөng nó trѭӟc khi hiӇu và sӱ dөng khái niӋm “tӯ”. Ví dͭ 2-1: Câu “Cái bàn này hình bán nguyӋt” có 6 tiӃng 2.1.1.2. Thanh là thành phҫn cӫa âm tiӃt tiӃng ViӋt Khi phát âm tiӃng ViӋt, chúng ta phát âm tӯng ÿѫn vӏ lӡi nói cҳt rӡi nhau, Jӑi là âm tiӃt. Khi phát âm chұm mӝt âm tiӃt, có thӇ nhұn thҩy khá rõ là mӛi âm tiӃt ÿӅu có thӇ kӃt hӧp nhiӅu nhҩt là ba ÿѫn vӏ phát âm : âm ÿҫu + âm chính + âm cuӕi. Ba thành phҫn trên gӗm nhӳng âm vӏ xuҩt hiӋn tѭѫng ÿӕi theo thӭ tӵ trѭӟc sau, nên gӑi là nhӳng âm vӏ tuyӃn tính. Luұn văn tӕt nghiӋp : Phѭѫng pháp thêm dҩu vào văn bҧn tiӃng ViӋt không dҩu 17 Ngoài ra, mӛi âm tiӃt ÿѭӧc ÿӏnh mӝt bұc cao thҩp, gӑi là thanh ÿLӋu. Trong lӡi nói, mӛi âm tiӃt tiӃng ViӋt ÿӅu mang mӝt thanh. Thanh này xuҩt hiӋn lұp tӭc khi âm tiӃt ÿѭӧc phát ra, cho nên có thӇ nói rҵng thanh là mӝt thành phҫn bҩt khҧ phân cӫa âm tiӃt. Thanh là thành phҫn âm vӏ phi tuyӃn tính cӫa mӝt âm tiӃt tiӃng ViӋt. Thanh là mӝt sҳc thái cӫa âm thanh các âm tiӃt, qua ÿó khi phát âm sӁÿӏnh bұc cao thҩp khác nhau cӫa mӛi ÿѫn vӏ cӫa chuӛi lӡi nói. Có sáu thanh làm tiêu chuҭn ÿӏnh bұc cao thҩp khác nhau, thѭӡng gӑi là ngang, hӓi, sҳc, huyӅn, ngã, nһng. Nhѭ vұy thì mӛi âm tiӃt tiӃng ViӋt ÿҫy ÿӫ có tӕi ÿa bӕn ÿѫn vӏ cҩu thành. 7ӕi thiӇu thì mӛi âm tiӃt cNJng phҧi có hai thành phҫn : âm chính + thanh. Hình 1.2.4-6 : S˯ÿ͛ k͇t c̭u âm ti͇ng Vi͏t 2.1.1.3. 7ҥi sao lҥi phҧi dùng dҩu thanh ? Các ngôn ngӳ dùng bҧng chӳ cái Latin không dùng thêm kí hiӋu chӍ thanh, mà chӍ ghi lҥi các âm vӏ tuyӃn tính bҵng các ÿӗ vӏ là con chӳ. HӋ thӕng chӳ viӃt khӕi vuông nhѭ chӳ Hán và chӳ Nôm cNJng không có kí hiӋu chӍ thanh. Nhѭng trѭӡng hӧp chӳ quӕc ngӳ có khác. Khi dùng bҧng chӳ cái Latin, các ÿӗ vӏ con chӳ chѭa ÿӫÿӇ phân biӋt ý nghƭa mӝt tӯÿѭӧc viӃt ra, vì có ÿӃn sáu thanh phҧi phân biӋt. Ðã ÿành thanh chӍ là yӃu tӕ ngӳ âm không thuӝc vӅ thành phҫn âm vӏ tuyӃn tính, nhѭng thanh tiӃng ViӋt không hҷn chӍ là mӝt yӃu tӕ ngôn ÿLӋu mang tính cách hoa mƭ cho âm tiӃt, mà là mӝt thành phҫn không thӇ thiӃu ÿѭӧc khi phát âm mӝt âm tiӃt. Nói cách khác, âm tiӃt tiӃng ViӋt chѭa hoàn chӍnh khi chѭa ÿѭӧc ÿӏnh thanh. Có lӁ các nhà sáng chӃ ra chӳ viӃt theo bҧng chӳ cái Latin mà ta thѭӡng gӑi quen là "chӳ quӕc ngӳ" Luұn văn tӕt nghiӋp : Phѭѫng pháp thêm dҩu vào văn bҧn tiӃng ViӋt không dҩu 18 ÿã hiӇu rҩt rõ tính cách bҩt khҧ phân cӫa thanh ÿӕi vӟi âm tiӃt tiӃng ViӋt, cho nên các vӏÿã dùng ÿӃn nhӳng kí hiӋu ÿӇ chӍ thӏ các bұc thanh tѭѫng ӭng. Và ÿây cNJng là ÿһc ÿLӇm nәi bұt cӫa tiӃng ViӋt. 2.1.2. 7ӯ 2.1.2.1. Các quan niӋm vӅ tӯ Có 1 sӕÿӏnh nghƭa ÿLӇn hình vӅ tӯ nhѭ sau [1] : - Theo L.Bloomfield, thì tӯ là ³P͡t hình thái t͹ do nh͗ nh̭W´. - Theo Solncev thì ³7ͳ là ÿ˯n v͓ ngôn ngͷ có tính hai m̿t: âm và nghƭa. 7ͳ có kh̫ năng ÿ͡c l̵p v͉ cú pháp khi s͵ dͭng trong lͥL´. - Theo B.Golovin, thì tӯ là ³ÿ˯n v͓ nh͗ nh̭t có nghƭa cͯa ngôn ngͷ, ÿ˱ͫc Y̵n dͭng ÿ͡c l̵p, tái hi͏n t͹ do trong lͥi nói ÿ͋ xây d͹ng nên câu´. Ĉây FNJng chính là ÿӏnh nghƭa mà trong ngôn ngӳ hӑc ÿҥi cѭѫng hay sӱ dөng. Trong nӝi dung luұn văn này, ta quan tâm tӟi 3 thuұt ngӳ trong ngôn ngӳ ÿҥi cѭѫng ÿӇ nhұn diӋn tӯ : 1. 7ͳ ngͷ âm : ÿó là nhӳng ÿѫn vӏÿѭӧc thӕng nhҩt vӟi hiӋn tѭӧng ngӳ âm nào ÿó. Ĉӕi vӟi tiӃng ViӋt, ÿó chính là nhӳng âm tiӃt, hay còn gӑi là “tiӃng”, “tiӃng mӝt”. 2. 7ͳ chính t̫ : ÿó là nhӳng khoҧng cách giӳa 2 chӛ trên văn tӵ, tӭc là nhӳng ÿѫn vӏÿѭӧc viӃt liӅn thành khӕi, ÿӕi vӟi tiӃng ViӋt, ÿó chính là “chӳ” 3. 7ͳ tͳÿL͋n h͕c : ÿó là ÿѫn vӏ mà căn cӭ vào ÿһc ÿLӇm ý nghƭa cӫa nó phҧi xӃp riêng trong tӯÿLӇn. 2.1.2.2. Tiêu chí nhұn diӋn “tӯ” tiӃng ViӋt 7ӯ rҩt nhiӅu quan niӋm cNJng nhѭ các ÿӏnh nghƭa vӅ “tӯ tiӃng ViӋt”, ta có thӇ rút ra tiêu chuҭn mà các nhà ViӋt ngӳ hӑc ÿã dӵa vào ÿó khi nhұn diӋn tӯ Luұn văn tӕt nghiӋp : Phѭѫng pháp thêm dҩu vào văn bҧn tiӃng ViӋt không dҩu 19 tiӃng ViӋt [3]. Các tiêu chuҭn này chung qui ta có thӇ phân thành : các tiêu chuҭn vӅ hình thӭc và các tiêu chuҭn vӅ nӝi dung. 2.1.2.2.1. Các tiêu chuҭn vӅ hình thӭc Tính c͙ÿ͓nh : tính vӳng chҳc vӅ cҩu tҥo, không thӇ chêm – xen ÿѭӧc Tính ÿӝc lұp : các nhà ViӋt ngӳ hӑc hay dùng tiêu chuҭn tính ÿӝc lұp ÿӇ phân biӋt tӯ (ÿѫn vӏ có nghƭa và ÿӝc lұp) vӟi hình vӏ (ÿѫn vӏ có nghƭa và không ÿӝc lұp). Tính ÿӝc lұp còn ÿѭӧc gӑi là khҧ năng kӃt hӧp (tӵ do – hҥn chӃ) Tính tͳ lo̩i và quan h͏ cú pháp : trong ngӳ/câu, tӯ ÿҧm nhұn nhӳng chӭc năng cú pháp nhҩt ÿӏnh, nên mӑi tӯÿӅu phҧi mang mӝt tӯ loҥi nào ÿó, còn hình vӏ thì không có tính chҩt tӯ loҥi. Quan hӋ giӳa các tӯ là quan hӋ cú pháp, còn quan hӋ giӳa các hình vӏ cӫa tӯ không phҧi là quan hӋ cú pháp. 2.1.2.2.2. Các tiêu chuҭn vӅ nӝi dung Chͱc năng ÿ͓nh danh : chӭc năng này ÿѭӧc dùng ÿӇ xác ÿӏnh tѭ cách cӫa Wӯ (tӯ thӵc), coi ÿó là ÿһc trѭng phân biӋt giӳa “tӯ” vӟi “hình vӏ” Bi͋u th͓ khái ni͏m : vì tӯ vӟi khái niӋm không phҧi là mӝt: có nhӳng khái niӋm cҫn biӇu thӏ bҵng nhiӅu tӯ, và có nhӳng tӯ không biӇu thӏ khái niӋm. Ý nghƭa bi͋u ni͏m : vì ý nghƭa cӫa tӯ và khái niӋm không trùng nhau, vì Yұy, ngѭӡi ta cҫn phân biӋt ý nghƭa tӯ vӵng và ý nghƭa ngӳ pháp. Hoàn ch͑nh v͉ nghƭa : ÿây là tiêu chuҭn quan trӑng, ÿѭӧc ÿa sӕ các nhà ViӋt ngӳ hӑc chҩp nhұn trong viӋc xác ÿӏnh tѭ cách cӫa tӯ. Tiêu chuҭn này liên quan ÿӃn tính thành ngӳ và tính võ ÿoán. Luұn văn tӕt nghiӋp : Phѭѫng pháp thêm dҩu vào văn bҧn tiӃng ViӋt không dҩu 20 2.2. Tách tӯ Bài toán tách tӯ cho ngôn ngӳÿѫn lұp ÿã ÿѭӧc ÿһt ra tӯ lâu, chӫ yӃu ÿӇ giҧi quyӃt cho tiӃng Trung Quӕc, tiӃng Nhұt. Các thuұt toán tách tӯ có thӇÿѭӧc phân loҥi nhѭ sau: v 'ӵa theo luұt. Bao gӗm các cách sau: - Longest Matching, Greedy Matching Models (Yuen Poowarawan), 1986; Sampan Rarurom, 1991). - Mô hình khӟp tӕi ÿa. Mô hình này ÿѭӧc chia thành “Khӟp tӕi ÿa tiӃn và khӟp tӕi ÿa lùi”. Ĉӕi vӟi phѭѫng pháp này thì mӝt tӯÿLӇn hoàn chӍnh là không thӇ thiӃu. 0ӝt tӯÿLӇn không hoàn chӍnh sӁ giҧm hiӋu suҩt cӫa thuұt toán. Tuy nhiên, dӉ thҩy là khó có thӇ có mӝt tӯÿLӇn hoàn chӍnh (ÿһc biӋt khi các ngôn ngӳ vүn còn ÿѭӧc tiӃp tөc phát triӇn hҵng ngày trong thӡi ÿҥi ngày nay). Mô hình này tuǤ thuӝc nhiӅu vào tӯÿLӇn. v Dùng thӕng kê: Giҧi pháp này dӵa vào ngӳ cҧnh tӯ xung quanh ÿӇÿѭa ra quyӃt ÿӏnh thích hӧp. Có hai vҩn ÿӅ cҫn ÿѭӧc giҧi quyӃt ÿӕi vӟi giҧi pháp này : ÿӝ rӝng ngӳ cҧnh, và cách áp Gөng thӕng kê. Ngӳ cҧnh càng rӝng thì thuұt toán càng phӭc tҥp. Cho dù ÿӝ rӝng ngӳ cҧnh thӃ nào, luôn có thӇ áp dөng mô hình first-order HMM. Tuy nhiên giҧi pháp này phө thuӝc rҩt nhiӅu vào ngӳ liӋu huҩn luӷӋn. KӃt quҧ huҩn luyӋn trên ngӳ liӋu chính trӏ khó có thӇ áp dөng trên các tài liӋu văn hӑc và ngѭӧc lҥi. Thêm vào ÿó, có nhӳng tӯ có xác suҩt rҩt cao, nhung chӍ có thӇ chӭc năng vӅ mһt ngӳ pháp, làm giҧm vai trò cӫa xác suҩt. v Cách khác: +ҫu hӃt các giҧi pháp khác là sӵ lai tҥo giӳa các mô hình trên và các mô hình ngôn ngӳ hӑc nhѭ WFST, TBL. Thӡi gian xӱ lý các giҧi pháp này trӣ nên ÿáng kӇ, nhѭng ÿӝ chính xác ÿҥt ÿѭӧc khá cao. Luұn văn tӕt nghiӋp : Phѭѫng pháp thêm dҩu vào văn bҧn tiӃng ViӋt không dҩu 21 Tri thӭc vӅ ngôn ngӳ, thѭӡng áp dөng cho các mô hình dӵa trên luұt, hiӃm khi ÿѭӧc áp dөng cho nhӳng mô hình trên. 'ѭӟi ÿây là mô tҧ 2 phѭѫng pháp tách tӯ thѭӡng sӱ dөng : 2.2.1. Khӟp tӕi ÿa (LRMM – Left Right Max Matching) Thuұt toán so khӟp tӕi ÿa hoҥt ÿӝng nhѭ tên cӫa chính nó. Thuұt toán giҧi quyӃt bài toán tách tӯ nào có nhiӅu tӯ nhҩt (so khӟp ÿѭӧc nhiӅu nhҩt). Thuұt toán ÿѭӧc áp Gөng ÿӇ xây dӵng chѭѫng trình tách tӯ tiӃng Trung Quӕc MMSEG. Thuұt toán này có nhiӅu biӃn thӇ khác nhau. Ø 'ҥng ÿѫn giҧn, ÿѭӧc dung ÿӇ giҧi quyӃt vҩn ÿӅ nhұp nhҵng tӯÿѫn. Giҧ sӱ có Pӝt chuӛi ký tӵ (tѭѫng ÿѭѫng vӟi chuӛi tiӃng ViӋt trong tiӃng ViӋt) C1, C2 ,…C3. Ta bҳt ÿҫu tӯÿҫu chuӛi. Ĉҫu tiên, kiӇm tra xem C1 có phҧi là tӯ không, sau ÿó kiӇm tra xem C1C2 có phҧi là tӯ hay không. TiӃp tөc làm cho ÿӃn khi tìm ÿѭӧc tӯ dài nhҩt. Tӯ có vӁ hӧp lý nhҩt là tӯ dài nhҩt. Chӑn tӯÿó, sau ÿó tìm tiӃp nhѭ trên trên nhӳng tӯ còn lҥi, cho ÿӃn khi xác ÿӏnh ÿѭӧc toàn bӝ chuӛi dӳ liӋu. Ø 'ҥng phӭc tҥp. Quy tҳc cӫa dҥng này là phân ÿRҥn có vӁ hӧp lý nhҩt là ÿRҥn 3 Wӯ vӟi chiӅu dài tӕi ÿa. Thuұt toán bҳt ÿҫu nhѭ dҥng ÿѫn giҧn. NӃu phát hiӋn ra nhӳng cách tách tӯ gây nhұp nhҵng (ví dө C1 là tӯ và C1C2 FNJng là tӯ), ta xem các chӳ kӃ tiӃp ÿӇ tìm tҩt cҧ các ÿRҥn ba tӯ có thӇ có bҳt ÿҫu vӟi C1 hoһc C1C2. Ví dͭ 2-2 : ta ÿѭӧc nhӳng ÿRҥn sau: - C1 C2 C3C4. - C1C2 C3C4 C5 - C1C2 C3C4 C5C6 Chuӛi dài nhҩt sӁ là chuӛi thӭ ba. Vұy tӯÿҫu tiên cӫa chuӛi thӭ ba (C1C2) sӁ ÿѭӧc chӑn. Thӵc hiӋn lҥi các bѭӟc cho ÿӃn khi ÿѭӧc chuӛi tӯ hoàn chӍnh. Cách này ÿҥt ÿѭӧc ÿӝ chính xác 99.69%. Mô hình sӱ dөng phѭѫng pháp tách tӯ LRMM dҥng ÿѫn giҧn. Mô hình này vӯa ÿѫn giҧn, nhѭng mang lҥi ÿӝ chính xác cao. Luұn văn tӕt nghiӋp : Phѭѫng pháp thêm dҩu vào văn bҧn tiӃng ViӋt không dҩu 22 2.2.2. Mô hình mҥng WFST và mҥng nѫ-ron WFST ÿã ÿѭӧc áp dөng ÿӇ tách tӯ tiӃng Trung Quӕc. Ý tѭӣng cѫ bҧn là áp dөng WFST kӃt hӧp vӟi trӑng sӕ là xác suҩt xuҩt hiӋn cӫa mӛi tӯ trong ngӳ liӋu. Dùng WFST ÿӇ duyӋt qua câu cҫn xét. Cách duyӋt có trӑng sӕ lӟn nhҩt sӁ là cách tách tӯ ÿѭӧc chӑn. Giҧi pháp này cNJng ÿã ÿѭӧc áp dөng trong [5] kèm vӟi mҥng nѫ-ron ÿӇ khӱ nhұp nhҵng. Mô hình tách tӯ trong VnMark sӱ dөng chính là mô hình WFST này (Xem chi tiӃt Kѫn trong [1] trang 99-104, hay trong [5]) 2.3. Tách câu Trong mӝt văn bҧn tiӃng Anh hay bҵng bҩt kǤ mӝt ngôn ngӳ thông dөng nào khác, thông thѭӡng thì ta chӍ dùng dҩu chҩm (.), chҩm than (!), chҩm hӓi(?) và mӝt sӕ Gҩu khác nӳa ÿӇ nhұn biӃt kӃt thúc câu. (Ta gӑi nhӳng dҩu này là nhӳng dҩu báo hiӋu NӃt thúc câu hay dҩu chҩm câu). Tuy nhiên, do tính nhұp nhҵng cӫa dҩu báo hiӋu kӃt thúc câu (chҷng hҥn nhѭ dҩu kӃt thúc câu trong tӯ viӃt tҳt,…) nên viӋc xác ÿӏnh ranh giӟi câu không ÿѫn giҧn nhѭ chúng ta nghƭ. Ví dө nhѭ dҩu chҩm, nó có thӇ biӇu thӏ nhѭ Pӝt dҩu chҩm thұp phân, mӝt cөm tӯ kӃt thúc, sӵ kӃt thúc câu văn hoһc ngay cҧ tӯ viӃt Wҳt nҵm ӣ cuӕi câu. Mӝt dҩu chҩm hӓi hay dҩu chҩm than có thӇ xuҩt hiӋn trong dҩu ngoһc ÿѫn, ngoһc kép hay cNJng nhѭӣ cuӕi câu. Sӵ mұp mӡ cӫa các dҩu câu này ÿѭӧc thӇ hiӋn qua các ví dө sau: Ví dͭ 2-3: 1. The group included Dr. J.M. Freeman and T. Boone Pickens Jr. 2. “This issue crosses party lines and crosses philosophical lines!” said Rep. John Rowland (R., Conn.). 3. It was due Friday 5 p.m. Saturday would be too late. 4. She has an appointment at 5 p.m. Saturday to get her car fixed. Luұn văn tӕt nghiӋp : Phѭѫng pháp thêm dҩu vào văn bҧn tiӃng ViӋt không dҩu 23 Trong trѭӡng hӧp 1 và 2, tӯ nҵm ngay trѭӟc hoһc nҵm ngay sau dҩu chҩm câu cho ta nhӳng thông tin quan trӑng vӅ vai trò cӫa dҩu trong câu. Tuy nhiên, bӝ phұn tách câu Fҫn phҧi có nhiӅu thông tin vӅ ngӳ cҧnh hѫn trong trѭӡng hӧp viӋc chҩm câu xuҩt hiӋn ӣ mӝt câu con trong dҩu ngoһc ÿѫn hoһc ngoһc kép, nhѭ trong trѭӡng hӧp 2; hay khi chӳ viӃt tҳt xuҩt hiӋn ӣ cuӕi câu nhѭ trong trѭӡng hӧp 3, 4. ĈӇ nhұn diӋn dҩu chҩm câu, ngѭӡi ta có thӇ dùng các heuristics hoһc các mô hình hӑc phӭc tҥp hѫn, nhѭ : Pҥng neural, TBL, Maximum Entropy. 2.3.1. Tách câu bҵng Heristics. Sau khi nhұn ÿRҥn văn bҧn ÿã ÿѭӧc lӑc các ký tӵ dѭ thӯa, các ký tӵ phө, bӝ phұn tách câu bҳt ÿҫu phân tích dӵa trên cách chҩm câu và ngӳ nghƭa mӝt sӕ tӯÿӇ tách ra các câu riêng biӋt. 2.3.1.1. ;ӱ lý dҩu chҩm. 'ҩu chҩm “.” là dҩu có nhiӅu trѭӡng hӧp mѫ hӗ nhҩt. Sau ÿây là các trѭӡng hӧp Gҩu chҩm xuҩt hiӋn: 1. 'ҩu chҩm kӃt thúc câu. 2. 'ҩu chҩm thұp phân trong chӳ sӕ (1,234.567) 3. 'ҩu chҩm biӇu thӏ sӵ viӃt tҳt (Mr., Dr., ...) 4. 'ҩu chҩm trong các trѭӡng hӧp khác nhѭ sӕ tài khoҧn, email (abcd@yahoo.com), dҩu chҩm trong các ÿӏa chӍ website (www.is- edu.hcmuns.edu.vn). ĈӇ có thӇ phân biӋt ÿѭӧc các trѭӡng hӧp trên, ta có thӇ dӵa vào mӝt sӕÿһc trѭng riêng trong cách trình bày cӫa tӯng trѭӡng hӧp. 1. 1Ӄu dҩu chҩm câu không thuӝc các trѭӡng hӧp còn lҥi (2,3,4) thì dҩu hiӋu ÿӇ nhұn biӃt kӃt thúc câu sӁ là : “luôn luôn có ít nhҩt mӝt khoҧng trҳng sau dҩu chҩm và ký tӵ tiӃp theo sӁ là chӳ cái sӁÿѭӧc viӃt hoa”. 2. Ta có thӇ nhұn biӃt dҩu chҩm thұp phân bҵng cách ÿӑc toàn bӝ phҫn liӅn trѭӟc và phҫn liӅn sau dҩu chҩm ÿӇ phát hiӋn sӕ có dҩu chҩm thұp phân. Luұn văn tӕt nghiӋp : Phѭѫng pháp thêm dҩu vào văn bҧn tiӃng ViӋt không dҩu 24 3. ĈӇ nhұn biӃt dҩu chҩm trong trѭӡng hӧp các tӯ viӃt tҳt, ta xây dӵng mӝt danh sách các tӯ viӃt tҳt ÿӇ tra cӭu khi cҫn. 4. Trѭӡng hӧp này là trѭӡng hӧp có các cách trình bày ÿa dҥng nhҩt, nhѭng vүn có tính chҩt chung là dҩu chҩm không bao giӡ nҵm cuӕi tӯ, luôn ӣ giӳa hai ký tӵ nào ÿó (nghƭa là không có khoҧng trҳng liӅn sau) nên có thӇ dӉ dàng phân biӋt ÿѭӧc. Nhӳng qui luұt trên ÿây là nhӳng qui luұt chung nhҩt trong cách trình bày văn bҧn tiӃng Anh. Ĉӕi vӟi văn bҧn tiӃng ViӋt, các trѭӡng hӧp cNJng gҫn nhѭ thӃ. Do dӵa chӫ \Ӄu vào cách trình bày văn bҧn nên có ÿLӇm yӃu là dӉ nhҫm lүn khi văn bҧn ÿѭa vào có cách trình bày khác chuҭn và do không hiӇu nghƭa câu nên không thӇ phân biӋt mӝt sӕ trѭӡng hӧp mѫ hӗ nhѭ trong ví dө sau: 1. It was due Friday 5p.m. Saturday would be too late. 2. She has an appointment at 5 p.m. Saturday to get her car fixed. ĈӇ xác ÿӏnh ÿѭӧc dҩu chҩm (in ÿұm) trong 2 trѭӡng hӧp trên có phҧi là dҩu chҩm KӃt câu hay không cNJng là mӝt viӋc không ÿѫn giҧn ÿӕi vӟi máy. Thұm chí ÿӕi vӟi ngѭӡi mà trình ÿӝ tiӃng Anh chѭa vӳng. Trong cҧ hai trѭӡng hӧp, tӯ ngay trѭӟc hoһc ngay sau dҩu chҩm câu cho ta nhӳng thông tin quan trӑng vӅ vai trò cӫa dҩu trong câu. Tuy nhiên, bӝ phұn tách câu sӁ phҧi cҫn nhiӅu thông tin vӅ ngӳ cҧnh và cú pháp hѫn trong trѭӡng hӧp sӵ chҩm câu xuҩt hiӋn ӣ mӝt câu con nhѭ trong trѭӡng hӧp 1. 2.3.1.2. ;ӱ lý dҩu chҩm trong ngoһc. Khi bӝ tách câu gһp dҩu mӣ ngoһc ÿѫn, hoһc ngoһc kép, thì nó sӁ quét trong ÿRҥn văn ÿang xét ÿӇ tìm dҩu ÿóng tѭѫng ӭng. NӃu tìm thҩy, toàn bӝ phҫn trong ngoһc VӁÿѭӧc giӳ nguyên và tìm dҩu kӃt thúc câu tiӃp theo ngoài dҩu ngoһc. NӃu không tìm thҩy dҩu ÿóng tѭѫng ӭng, dҩu mӣ sӁ bӏ bӓ qua và xӱ lý tiӃp ký tӵ sau dҩu mӣ nhѭ bình thѭӡng. Chѭѫng 3. MÔ HÌNH CÀI ĈҺT Luұn văn tӕt nghiӋp : Phѭѫng pháp thêm dҩu vào văn bҧn tiӃng ViӋt không dҩu 26 3.1. Các mô hình thêm dҩu ÿã ÿѭӧc sӱ dөng 3.1.1. VietPad 3.1.1.1. Mô hình thêm dҩu tiӃng ViӋt Hình 3.1.1-7 : L˱u ÿ͛ th͹c hi͏n cͯa mô hình ͱng dͭng trong VietPad 3.1.1.1.1. TiӅn xӱ lý Chuҭn hoá văn bҧn theo ÿӏnh dҥng mà VietPad quy ÿӏnh Luұn văn tӕt nghiӋp : Phѭѫng pháp thêm dҩu vào văn bҧn tiӃng ViӋt không dҩu 27 3.1.1.1.2. Tách token Vietpad không tách tӯng câu ÿӇ xӱ lý, mà vào thҵng viӋc tách ra tӯng token Pӝt … Token có thӇ gӗm 1 chuӛi các kí tӵ không phҧi là kí tӵ (nhѭ : , . ; “ @ # $ …. ) hay 1 chuӛi các kí tӵ, hay là “chӳ” tiӃng ViӋt. Ví dͭ 3-1: Câu “--- Thoi gian troi qua mau ---” sӁÿѭӧc VietPad tách thành tӯng token nhѭ sau : Token 1: ---\b (\b kí hiӋu cho ‘ ’ _ khoҧng trҳng) Token 2: Thoi Token 3: \b Token 4: gian Token 5: \b Token 6: troi Token 7: \b Token 8: qua Token 9: \b Token 10: mau Token 11: \b--- 3.1.1.1.3. /ҩy ra các tӯ không dҩu, chuyӇn thành tӯ có dҩu 9ӟi phѭѫng pháp tách token ÿѫn giҧn trên, và thêm phѭѫng pháp tách tӯ LRMM (tӯ có tӕi ÿa 3 tiӃng), VietPad lҩy ra các tӯ không dҩu, sau ÿó thông qua 1 tӯÿLӇn ánh xҥ 1-1 giӳa tӯ không dҩu và tӯ có dҩu (tӯÿLӇn chuyӇn ÿәi), ÿӇ chuyӇn tӯ không dҩu thành có dҩu. Luұn văn tӕt nghiӋp : Phѭѫng pháp thêm dҩu vào văn bҧn tiӃng ViӋt không dҩu 28 Ví dͭ 3-2: Câu “Nhung van de lien quan toi nguoi dong tinh luyen ai duoc ban bac soi noi trong buoi hop nhom toi hom qua” sӁÿѭӧc VietPad chuyӇn thành câu có dҩu sau thông qua tӯÿLӇn (dҩu / thӇ hiӋn sӵ tách tӯ cӫa VietPad) “Nhѭng vүn / ÿӇ / liên quan / tôi ngѭӡi / ÿӝng tƭnh / luyӃn ái / ÿѭӧc / Eҫn bҥc / sôi nәi / trong / buәi / hӧp / nhóm / tôi / hôm qua /” 3.1.2. VnMark 3.1.2.1. Mô hình thêm dҩu tiӃng ViӋt &ăn cӭ vào mô hình n-gram, mô hình ÿánh dҩu tӵÿӝng tiӃng ViӋt ÿѭӧc tác giҧ thӵc hiӋn theo lѭu ÿӗ sau: Luұn văn tӕt nghiӋp : Phѭѫng pháp thêm dҩu vào văn bҧn tiӃng ViӋt không dҩu 29 Hình 3.1.2-8 : /˱u ÿ͛ th͹c hi͏n cͯa mô hình n-gram Luұn văn tӕt nghiӋp : Phѭѫng pháp thêm dҩu vào văn bҧn tiӃng ViӋt không dҩu 30 3.1.2.1.1. TiӅn xӱ lý Xóa các khoҧng trҳng thӯa. Thӵc hiӋn các công viӋc chuҭn hóa dӳ liӋu nhұp vào… Thay thӃ các ký tӵ tѭӧng tӵ. Theo các thӕng kê vӅ tâm lý, tác giҧ nhұn thҩy khi ngѭӡi sӱ dөng ÿánh chӳ ViӋt không dҩu thì ngѭӡi ta vүn ÿánh ÿѭӧc các ký tӵ viӃt hoa nhѭ các danh tӯ riêng. Do ÿó, các tӯ viӃt hoa sӁ không “thѭӡng hóa” (lowercase) và các tӯ viӃt hoa này sӁ ÿѭӧc căn cӭÿӇ nhұn dҥng danh tӯ riêng. Ví dͭ 3-3: Da NangàĈà Nҹng. da nangàÿa năng Do ÿó, tác giҧ lѭu ý ngѭӡi dùng vӅÿһc ÿLӇm này khi sӱ dөng chѭѫng trình. 3.1.2.1.2. Tách câu &ăn cӭ vào các ÿһc ÿLӇm cӫa ngôn ngӳ cӫa tiӃng ViӋt : các tӯÿѭӧc cách nhau bӣi các ký tӵ nhѭ “.”, “,”, “:”…ÿӇ tách thành các câu. Mӛi câu là mӝt ÿѫn vӏ xӱ lý chính trong chѭѫng trình. ViӋc quyӃt ÿӏnh câu là ÿѫn vӏ cѫ bҧn là do nhiӅu khi nghƭa Fӫa câu sӁÿѭӧc quyӃt ÿӏnh sӵ lӵa chӑn vӅ dҩu trong câu. 3.1.2.1.3. Tìm các khҧ năng ÿánh dҩu cӫa tӯ, câu File tӯ ÿLӇn (VNMarkDic.txt) sӁ cung cҩp cho chúng ta xác suҩt cӫa các nhóm âm tiӃt có thӇ xuҩt hiӋn trong các văn bҧn tiӃng ViӋt. File tӯÿLӇn này sӁÿѭӧc trình bày kӻ hѫn trong phҫn sau. &ăn cӭ vào tұp tin tӯÿLӇn VNMarkDic.txt, tác giҧ có thӇ tҥo ra các trѭӡng Kӧp có thӇÿánh dҩu cӫa các tӯ trong câu. Tә hӧp các thành phҫn này sӁ tҥo nên các câu trong câu ӭng viên ÿã ÿѭӧc ÿánh dҩu trong tiӃng ViӋt. Tuy nhiên, do căn cӭ vào Wұp tin VNMarkDic.txt nên tác giҧ có thӇ tҥo ra sӕ lѭӧng các câu ӭng viên không nhiӅu Oҳm. Ví dͭ 3-4: Câu cҫn gán dҩu = “Toc do truyen thong se tang cao”. Luұn văn tӕt nghiӋp : Phѭѫng pháp thêm dҩu vào văn bҧn tiӃng ViӋt không dҩu 31 Thông qua tұp tin tӯÿLӇn VNMarkDic.txt , tác giҧ có các thông tin sau: - toc do = “tӕc ÿӝ” 8.68 - truyen = “truyӅn” 12.31 - truyen thong = “truyӅn thӕng” 12.31 - thong tin = “thông tin” 7.24 - tin = “tin” 7.33 - se = “sӁ” 6.09 - tang = “tăng” 7.43 - cao = “cao” 6.95 Sau khi tә hӧp các tӯ ta sӁÿѭӧc 2 trѭӡng hӧp sau: Trѭӡng hӧp 1 = “Tӕc ÿӝ truyӅn thӕng tin sӁ tăng cao.” 48,79 1 Trѭӡng hӧp 2 = “Tӕc ÿӝ truyӅn thông tin sӁ tăng cao.” 48.70 2 ____________________________________________ 1 8.68 + 12.31 + 7.33 + 6.09 + 7.43 + 6.95 = 48.79 2 8.68 + 12.31 + 7.24 + 6.09 + 7.43 + 6.95 = 48.70 _____________________________________________ .Ӄt quҧ = “Tӕc ÿӝ truyӅn thông tin sӁ tăng cao.” 48,70 (câu có tҫn sӕ nhӓ thì sӵ thѭӡng sӱ dөng cӫa các tӯ trong câu càng cao) 3.1.2.2. Mô hình huҩn luyӋn Nhѭÿã trình bày ӣ phҫn trên, cӕt lõi cӫa vҩn ÿӅ là nӝi dung tұp tin tӯÿLӇn VNMarkDic.txt. Tұp tin này sӁ chӭa xác suҩt các nhóm âm tiӃt có thӇ xuҩt hiӋn trong Yăn bҧn tiӃng ViӋt. Xác suҩt này ÿѭӧc tính dӵa trên viӋc thӕng kê dӳ liӋu cӫa hѫn 1.5GB file HTML ÿѭӧc lҩy tӯ trang www.vnexpress.net. Khác vӟi các mô hình gán dҩu tiӃng ViӋt trѭӟc ÿây, tұp tin tӯÿLӇn không nhӳng lѭu các tӯ tiӃng ViӋt mà còn lѭu các dãy âm tiӃt trong tiӃng ViӋt. ĈLӅu này giúp cho mô hình có thӇ “vét cҥn” các thông tin giúp cho viӋc gán dҩu thanh cho các âm tiӃt Luұn văn tӕt nghiӋp : Phѭѫng pháp thêm dҩu vào văn bҧn tiӃng ViӋt không dҩu 32 trӣ nên chính xác hѫn. Ví dө : tôi cNJng lѭu thêm dãy âm tiӃt “trѭӟc viӋc”, … vào file WӯÿLӇn này. Tuy nhiên, viӋc lѭu thêm các dãy âm tiӃt vào tӯÿLӇn sӁ khiӃn cho tӯÿLӇn rҩt Oӟn (xҩp xӍ 10MB). ĈLӅu này khiӃn cho viӋc tìm kiӃm sӁ rҩt chұm. ĈӇ giҧi quyӃt vҩn ÿӅ này, tác giҧÿӅ xuҩt mӝt heuristic ÿѫn giҧn, ÿһt tên là S2T, giúp thu gӑn dӳ liӋu cӫa WӯÿLӇn : Heuristic này ÿѭӧc mô tҧ nhѭ sau: *ӑi dӳ liӋu text tӯÿѭӧc lҩy tӯ trang www.vnexpress.net là C1. *ӑi dӳ liӋu text tӯÿѭӧc lҩy tӯ trang www.vnexpress.net là bӏ bӓ hӃt dҩu thanh là C2. 7ӯ dӳ liӋu C1, tác giҧ sӁ tҥo ra file VNMarkDicPre.txt. File này sӁ chӭa thông tin vӅ xác suҩt cӫa các dãy âm tiӃt trong tiӃng ViӋt. Tác giҧ sӱ dөng file VNMarkDicPre.txt ÿӇ gán dҩu thanh cho các dӳ liӋu C2. Khi ÿó, tác giҧ sӁ so sánh vӟi các dӳ liӋu nguyên gӕc C1. Qua ÿó, tác giҧÿánh giá các dãy âm tiӃt nào nên ÿѭӧc sӱ dөng, dãy âm tiӃt nào không nên sӱ dөng. 7ӯ thông tin trên, tác giҧ có thӇ rút trích các dãy âm tiӃt “có ích” trong file VNMarkDicPre.txtÿӇ tҥo tұp tin VNMarkDic.txt. 3.2. Mô hình ÿӅ xuҩt 3.2.1. Mô hình &ăn cӭ vào mô hình Bigram, và dӵa vào ý tѭӣng cӫa viӋc thӕng kê các Fөm tӯ cӫa mô hình VnMark cӫa tác giҧ NguyӉn Văn Toàn, tôi ÿӅ xuҩt mô hình thêm dҩu tӵÿӝng sau : Luұn văn tӕt nghiӋp : Phѭѫng pháp thêm dҩu vào văn bҧn tiӃng ViӋt không dҩu 33 Hình 3.2-9: /˱u ÿ͛ th͹c hi͏n cͯa mô hình ÿ͉ xṷt 3.2.1.1. Tách câu 6ӱ dөng phѭѫng pháp tách câu heuristic ÿã nêu trong chѭѫng 2, phҫn 2.3, mөc 2.3.1. Qua phѭѫng pháp tách câu trên, ta có thӇ phân biӋt ÿѭӧc 1 sӕ Luұn văn tӕt nghiӋp : Phѭѫng pháp thêm dҩu vào văn bҧn tiӃng ViӋt không dҩu 34 trѭӡng hӧp ÿһc biӋt cӫa dҩu chҩm câu “.” nhѭ tӯ viӃt tҳt (Mr., Mrs. …), ÿӏa chӍ email (abc@gmail.com), ÿӏa chӍ URL ( sӕ thұp phân (1,234.567) … Ĉҫu ra cӫa bѭӟc này sӁ cho ra 1 tұp các câu, là ÿҫu vào Fӫa bѭӟc sau. 3.2.1.2. Tách tӯ bҵng phѭѫng pháp LRMM Ta dùng phѭѫng pháp tách tӯ LRMM tách các tӯ không dҩu tӯng câu Pӝt. Lý do chӑn phѭѫng pháp này là : cài ÿһt phѭѫng pháp ÿѫn giҧn, sai sӕ khi tách sai tӯ có thӇ chҩp nhұn ÿѭӧc khi tách tӯ không dҩu. Ví dͭ 3-5: Ta có cách tách tӯ câu có dҩu và câu không dҩu sau (các tӯ phân cách nhau bҵng dҩu / ) o “Hӑc sinh / hӑc / sinh hӑc” o “Hoc sinh / hoc sinh / hoc” à khi chuyӇn thành câu có dҩu, cNJng tҥo ÿѭӧc câu “Hӑc sinh / hӑc sinh / hӑc” nhѭ trênà sai sӕ khi tách tӯ có thӇ chҩp nhұn ÿѭӧc trong 1 phҥm vi nào ÿó. Khi tách tӯ bҵng phѭѫng pháp LRMM, ta có chú ý ÿӃn viӋc nhұn diӋn và tách các tӯ tên riêng ra dӵa trên 1 tӯÿLӇn tên riêng. ViӋc xác ÿӏnh các tên riêng dӵa trên chӳ cái viӃt hoa ÿҫu cӫa tӯ, 1 cөm tên riêng, có thӇ chӍ cҫn viӃt hoa tiӃng ÿҫu tiên là ÿѭӧc. Ví dͭ 3-6: Da NangàĈà Nҹng Da nangàĈà Nҹng da nangàÿa năng 3.2.1.3. Chӑn tӯ thích hӧp 9ӟi tӯÿLӇn chuyӇn ÿәi TuDienChinh.txt, ta có ánh xҥ 1-1 ÿӇ chuyӇn 1 tӯ không dҩu thành có dҩu. Ngoài ra, ÿӇ tăng ÿӝ linh hoҥt và chính xác cӫa Luұn văn tӕt nghiӋp : Phѭѫng pháp thêm dҩu vào văn bҧn tiӃng ViӋt không dҩu 35 phѭѫng pháp, ta có thêm 1 tӯÿLӇn phө, gӑi là tӯÿLӇn cөm tӯ CumTu.txt, lѭu nhӳng cөm tӯ thѭӡng xuyên ÿѭӧc sӱ dөng. Các cөm tӯ này ÿѭӧc lѭu có cҩu trúc. Vӟi mӛi cөm tӯ, ta có 1 Wӯ chính, và các chuӛi tӯ còn lҥi trong cөm tӯ. Ĉi kèm vӟi chuӛi tӯ là con sӕ thӇ hiӋn Yӏ trí cӫa Wӯ chính này vӟi chuӛi tӯ. (xem chi tiӃt cҩu trúc và cách tҥo trong Pөc 3.2.2.2) Ví dͭ 3-7: 1 vài cөm tӯÿѭӧc lѭu W͙i 1|qu̯n áo m̿c bu͝i 1|bu͝i 2|hôm à tӯ “tӕi” có 3 cөm tӯ là “quҫn áo mһc buәi tӕi”, “buәi tӕi” và “tӕi hôm” vӟi “tӕi” là Wӯ chính trong 3 cөm tӯ trên. Sau khi ánh xҥ 1-1 dӵa trên TuDienChinh.txt xong, chѭѫng trình sӁ làm thêm 1 bѭӟc nӳa, là tìm trong tӯÿLӇn cөm tӯ, xem có sӵ xuҩt hiӋn cөm tӯ nào trong văn bҧn không ? NӃu có, thì chѭѫng trình sӁ sӱa lҥi kӃt quҧ, ÿӇ ÿѭӧc kӃt quҧ chính xác hѫn. Phѭѫng pháp xét duyӋt ÿѭӧc mô tҧ nhѭ sau: (Sau khi ÿã ánh x̩ tͳ không ḓu thành có ḓu r͛i) Duy͏t các tͳ không ḓu tͳ trái qua ph̫i Vͣi tͳ không ḓu có xṷt hi͏n trong tͳ ÿL͋n CumTu.txt (là Wͳ chính cͯa cͭm tͳ sau khi lo̩i b͗ ḓu), ta xét trong ph̩m vi [-3,+3] tͳ xung quanh tͳÿó, ÿ͋ xét xem, có s͹ xṷt hi͏n cͯa chu͟i còn l̩i cͯa cͭm tͳ không ? N͇u có thì có s͹ xṷt hi͏n cͯa cͭm tͳÿó à thay ÿ͝i tͳ không ḓu ÿó thành Wͳ chính. Ví dͭ 3-8: Câu “Nhung van de lien quan toi nguoi dong tinh luyen ai duoc ban bac soi noi trong buoi hop nhom toi hom qua” sӁÿѭӧc chuyӇn thành câu có dҩu qua các bѭӟc sau: Luұn văn tӕt nghiӋp : Phѭѫng pháp thêm dҩu vào văn bҧn tiӃng ViӋt không dҩu 36 o Tách câu : tҥo ra 1 câu duy nhҩt là “Nhung van de lien quan toi nguoi dong tinh luyen ai duoc ban bac soi noi trong buoi hop nhom toi hom qua” o Tách tͳ (các tͳ phân cách nhau b̹ng ḓu / ) : “Nhung / van de / lien quan / toi / nguoi / dong tinh luyen ai / duoc / ban bac / soi noi / trong / buoi / hop / nhom / toi / hom qua” o Thêm ḓu d͹a trên TuDienChinh.txt : ta ÿѭӧc câu sau “Nhӳng / vҩn ÿӅ / liên quan / tôi / ngѭӡi / ÿӗng tính luyӃn ái / ÿѭӧc / bàn bҥc / sôi nәi / trong / buәi / hӑp / nhóm / tôi / hôm qua” o Xét duy͏t l̩i d͹a trên CumTu.txt : ta ÿѭӧc câu hoàn chӍnh cuӕi cùng sau “Nhӳng / vҩn ÿӅ / liên quan / Wӟi / ngѭӡi / ÿӗng tính luyӃn ái / ÿѭӧc / bàn Eҥc / sôi nәi / trong / buәi / hӑp / nhóm / Wӕi / hôm qua” 3.2.2. Mô hình huҩn luyӋn Phҫn quan trӑng nhҩt cӫa mô hình là các tұp tin tӯÿLӇn ÿѭӧc cung cҩp cho mô hình, mà quan trӑng nhҩt là 2 tӯÿLӇn : TuDienChinh.txt và CumTu.txt. Sau ÿây mô tҧ chi tiӃt các bѭӟc ÿӇ tҥo nên 2 tұp tin trên. 3.2.2.1. Thӕng kê tҫn suҩt xuҩt hiӋn cӫa tӯ 3.2.2.1.1. Xây dӵng kho ngӳ liӋu Trích xuҩt dӳ liӋu text tӯ kho dӳ liӋu báo ÿLӋn tӱ trên Internet. Dӳ liӋu báo ÿLӋn tӱ trên Internet sӱ dөng gӗm 700MB dӳ liӋu báo Thanh niên, 500MB báo Ngѭӡi Lao Ĉӝng và 700MB báo Sҳc màu văn hoá. ( Xin xem thêm trong Phө lөc 1ÿӇ biӃt chi tiӃt cҩu trúc kho ngӳ liӋu) Sau bѭӟc này, ta có ÿѭӧc 1 thѭ mөc chӭa nhiӅu tұp tin text, mӛi tұp tin chӭa tұp các câu thuӝc cùng 1 lƭnh vӵc. Các lƭnh vӵc ÿѭӧc sӱ dөng, ÿӇ phù hӧp Luұn văn tӕt nghiӋp : Phѭѫng pháp thêm dҩu vào văn bҧn tiӃng ViӋt không dҩu 37 Yӟi mөc ÿích tәng quát cӫa chѭѫng trình, em chӑn các bài báo vӅ tin tӭc, thӡi Vӵ, xã hӝi, chính trӏ … và kèm thêm 1 ít vӅ các lƭnh vӵc khác nhѭ khoa hӑc, giáo dөc … Ĉӝ lӟn cӫa kho dӳ liӋu vào khoҧng 150MB dӳ liӋu. Lѭӧng dӳ liӋu này ÿӫ lӟn ÿӇ mô hình hoҥt ÿӝng ÿѭӧc chính xác. 3.2.2.1.2. Thӕng kê tҫn suҩt xuҩt hiӋn cӫa tӯ 9ӟi kӃt quҧ cӫa bѭӟc trên, ta duyӋt tҩt cҧ các tұp tin trong thѭ mөc, sau ÿó dùng phѭѫng pháp LRMM ÿӇ tách tӯ tӯng câu mӝt, thӕng kê tҫn suҩt xuҩt hiӋn cӫa tӯ theo công thӭc sau : 7̯n sṷt tͳ = -log10(s͙ l̯n xṷt hi͏n cͯa tͳ / t͝ng s͙ tͳ) Sau bѭӟc này, ta có ÿѭӧc 1 tұp tin text chӭa tҫn suҩt các tӯ mà ta thӕng kê ÿѭӧc. 'ӵa trên kho ngӳ liӋu 150MB, ta thӕng kê ÿѭӧc sӕ lѭӧt tӯ sӱ dөng vào khoҧng gҫn 18 triӋu tӯ, sӕ loҥi tӯ khác nhau sӱ dөng là trên 26400 tӯ. Các thông sӕ thӕng kê trên ÿѭӧc ghi vào tұp tin log khi chѭѫng trình chҥy. Luұn văn tӕt nghiӋp : Phѭѫng pháp thêm dҩu vào văn bҧn tiӃng ViӋt không dҩu 38 Hình 3.2-10 : 7̵p tin m̳u sau khi th͙ng kê t̯n sṷt tͳ 3.2.2.1.3. 7ҥo tӯÿLӇn chuyӇn ÿәi ViӋc tҥo tұp tin tӯÿLӇn chuyӇn ÿәi TuDienChinh.txt rҩt dӉ dàng. Vӟi tұp tin thӕng kê tҫn suҩt xuҩt hiӋn cӫa tӯӣ bѭӟc trên, ta loҥi bӓ các tӯ có tҫn suҩt > 7. ViӋc loҥi bӓ này giúp cho phѭѫng pháp chӍ chú trӑng ÿӃn các tӯ có tҫn suҩt nhӓ (tӭc xuҩt hiӋn nhiӅu nhҩt). Vӟi các tӯ không dҩu có nhiӅu tӯ có dҩu, thì ta chӑn ra tӯ có dҩu có tҫn suҩt nhӓ nhҩt (tӭc xuҩt hiӋn nhiӅu nhҩt) ÿӇ tҥo thành tӯÿLӇn TuDienChinh.txt vӟi cҩu trúc sau : 0ӛi dòng cӫa tӯÿLӇn có cҩu trúc sau : TAB Luұn văn tӕt nghiӋp : Phѭѫng pháp thêm dҩu vào văn bҧn tiӃng ViӋt không dҩu 39 Hình 3.2-11 : Trích t̵p tin TuDienChinh.txt 3.2.2.2. Trích xuҩt các cөm tӯ thѭӡng sӱ dөng Ĉây là 1 phѭѫng pháp tѭѫng ÿӕi ÿѫn giҧn ÿӇ rút trích ra 1 sӕ cөm tӯ thѭӡng sӱ dөng. Ta dӵa vào tӯÿLӇn LLOCE tiӃng ViӋt ÿӇ rút ra các cөm tӯ, chú ý là, trong quá trình rút trích, ta chӍ quan tâm ÿӃn các cөm tӯ chӍ chӭa các tӯ tҥo nên sӵ nhұp nhҵng khi loҥi bӓ dҩu (nhѭ tӯ “tôi”, “tӟi”, “tӕi” khi loҥi bӓ sӁ tҥo thành tӯ “toi”à nhұp nhҵng) tӯÿó, thӕng kê trên kho ngӳ liӋu 150MB ӣ bѭӟc trên, ÿӇ rút ra các cөm tӯ thѭӡng sӱ dөng. Các cөm tӯ này sӁ ÿѭӧc lѭu nhѭ sau : 0ӛi dòng có cҩu trúc sau : {TAB } (1,n) Mô tҧ: - {1,n} : lһp cҩu trúc trong {} tӯ 1 ÿӃn nhiӅu lҫn Luұn văn tӕt nghiӋp : Phѭѫng pháp thêm dҩu vào văn bҧn tiӃng ViӋt không dҩu 40 - 7ͳ chính trong cͭm tͳ : là tӯ có dҩu. Tӯ này, sau khi bӓ dҩu, thì tӯ không dҩu này VӁ có nhiӅu tӯ có dҩu tѭѫng ӭng (tӯ gây nhұp nhҵng). Tұp tin CumTu.txt chӍ xét các cөm tӯ có chӭa các Wͳ chính tҥo nên sӵ nhұp nhҵng này thôi. - Y͓ trí : chӍ vӏ trí cӫa trong cөm tӯÿó so vӟi , có các giá trӏ sau: o Yӏ trí = 0 : nói lên rҵng, ÿӭng giӳa 2 , và chuӛi trѭӟc sӁÿѭӧc ghi trѭӟc, 2 sӁ cách nhau bӣi kí tӵ phân cách ‘|’ o Yӏ trí = 1 : nói lên rҵng, ÿӭng sau , khi ÿó, chӍ xuҩt hiӋn 1 trong cөm tӯ o Yӏ trí =2 : nói lên rҵng, ÿӭng trѭӟc , khi ÿó, chӍ xuҩt hiӋn 1 trong cөm tӯ Ví dͭ 3-9: món 2|ăn à cөm tӯ “món ăn”, tӯ chính là “món” ÿӭng trѭӟc “ăn” ÿҩu 0|môn|bóng à cөm tӯ “môn ÿҩu bóng”, tӯ chính là “ÿҩu” ÿӭng trѭӟc “bóng” và ÿӭng sau “môn” Wӕi 1|buәi à cөm tӯ “buәi tӕi”, tӯ chính là “tӕi” ÿӭng sau “buәi” Luұn văn tӕt nghiӋp : Phѭѫng pháp thêm dҩu vào văn bҧn tiӃng ViӋt không dҩu 41 Hình 3.2-12 : Trích t̵p tin CumTu.txt 3.2.3. So sánh mô hình này vӟi 2 mô hình trên Mô hình ÿӅ xuҩt là mô hình nâng cao cӫa mô hình VietPad sӱ dөng. Vӟi các ѭu thӃ hѫn hҷn nhѭ có phҫn tách câu, khҧ năng ÿәi tӯ không dҩu thành có dҩu linh hoҥt qua tӯÿLӇn CumTu.txt chӭ không là ánh xҥ 1-1 nhѭ Vietpad, khҧ năng nhұn diӋn tӯ tên riêng ... So vӟi mô hình mà VnMark sӱ dөng, mӛi mô hình có 1 ÿLӇm mҥnh riêng, nhѭng phѭѫng pháp mà mô hình em ÿӅ xuҩt, có thӇ tái kӃt hӧp vӟi mô hình cӫa VnMark ÿӇ cho ra 1 kӃt quҧ hoàn chӍnh hѫn nӳa. Luұn văn tӕt nghiӋp : Phѭѫng pháp thêm dҩu vào văn bҧn tiӃng ViӋt không dҩu 42 ĈLӇm nәi trӝi cӫa mô hình, là khҧ năng xét duyӋt và phát hiӋn cөm tӯ 1 cách linh hoҥt trong phҥm vi [-3,+3] mà các mô hình khác không thӵc hiӋn ÿѭӧc. ViӋc xét duyӋt này cho phép phát hiӋn và gán dҩu chính xác, khi cөm tӯ xuҩt hiӋn không liên tͭc. Ví dͭ 3-10: Chѭѫng trình có thӇ phát hiӋn và chuyӇn tӯ “toi” thành “tӕi” khi phát hiӋn ra Fөm tӯ “tӕi ngày hôm ÿó”, “tӕi ngày hôm kia”, “tӕi ngày hôm nӑ” … khi trong tӯ ÿLӇn CumTu.txt chӍ lѭu “tӕi 2|hôm”. Chѭѫng 4. CÀI ĈҺT THӰ NGHIӊM Luұn văn tӕt nghiӋp : Phѭѫng pháp thêm dҩu vào văn bҧn tiӃng ViӋt không dҩu 44 4.1. Thӕng kê tҫn sӕ xuҩt hiӋn cӫa tӯ Sau ÿây là các bѭӟc thӵc hiӋn ÿӇ có ÿѭӧc tӯÿLӇn tҫn sӕ xuҩt hiӋn cӫa tӯ. Ĉҫu vào cӫa bѭӟc này là kho dӳ liӋu báo ÿLӋn tӱ online gӗm : 700MB dӳ liӋu báo Thanh niên, 500MB dӳ liӋu báo Ngѭӡi lao ÿӝng và 700MB dӳ liӋu báo Sҳc màu văn hóa. Ĉҫu ra sӁÿѭӧc tұp tin tӯÿLӇn tҫn sӕ xuҩt hiӋn tӯ, thӕng kê ÿѭӧc trên kho dӳ liӋu trên. 4.1.1. Xây dӵng kho ngӳ liӋu text tӯ báo ÿLӋn tӱ (chҥy chѭѫng trình html2txt.exe) Chѭѫng trình Html2Txt sӁ trích xuҩt các dӳ liӋu text có nghƭa trong kho dӳ liӋu báo online dҥng html, ÿӇ có ÿѭӧc kho dӳ liӋu hoàn toàn thuҫn text. Ĉây là bѭӟc tiӅn xӱ lý và các tұp tin text ÿѭӧc lѭu vӟi mã hoá UTF8. Khi chҥy chѭѫng trình này, em ÿã sӱ dөng 700MB dӳ liӋu báo Thanh niên, 500MB dӳ liӋu báo Ngѭӡi lao ÿӝng và 700MB dӳ liӋu báo Sҳc màu văn hóa. KӃt quҧ xuҩt ra khoҧng 120 MB dӳ liӋu text thuҫn túy. Hình 4.1.1-13: Giao di͏n ch˱˯ng trình HTML2TXT Luұn văn tӕt nghiӋp : Phѭѫng pháp thêm dҩu vào văn bҧn tiӃng ViӋt không dҩu 45 o Ĉҫu vào: là thѭ mөc chӭa dӳ liӋu kho dӳ liӋu .html (có thӇ chӭa thѭ mөc con nhiӅu cҩp). o Ĉҫu ra: Nѫi lѭu toàn bӝ nӝi dung tách ÿѭӧc (các nӝi dung lѭu trong các file .txt cùng tên file .html ÿѭa vào). o Do dӳ liӋu web ÿѭa vào rҩt ÿa dҥng và không chuҭn nên chѭѫng trình không thӇ tìm ÿѭӧc tag nӝi dung trong tҩt cҧ các trѭӡng hӧp. ĈӇ chѭѫng trình hoҥt ÿӝng ÿúng thì khi tiӃn hành tách nӝi dung cho các file .html thì ngѭӡi dùng cҫn chӍ rõ tag chӭa nӝi dung chính trong văn bҧn .html bҵng cách cҩu hình cho chѭѫng trình. Hình 4.1.1-14: &̭u hình cͯa ch˱˯ng trình HTML2TXT &ҩu hình chѭѫng trình o &ѫ bҧn: các tag chӭa phҫn nӝi dung cҫn trích ra o Nâng cao: sӱ dөng khi có thuӝc tính class cӫa tag tѭѫng ӭng bên phҫn cѫ bҧn o Giҧi mã NCR cӫa html: dùng ÿӇ chuyӇn phҫn text ÿӏnh dҥng NCR sang Unicode. Ví dͭ 4-1: TÔI è TÔI o Charset: charset mà trang web sӱ dөng; thông thѭӡng, mӛi trang web ÿӏnh nghƭa charset mà nó sӱ dөng trong tag sau ӣÿҫu html. Luұn văn tӕt nghiӋp : Phѭѫng pháp thêm dҩu vào văn bҧn tiӃng ViӋt không dҩu 46 HiӋn chѭѫng trình hӛ trӧ 2 charset hay sӱ dөng tҥi ViӋt Nam là utf-8 và windows-1252 Ta cҫn phҧi ÿӏnh charset ÿúng ÿӇ viӋc ÿӑc dӳ liӋu tӯ html ÿúng, chính xác (nӃu chӑn sai charset thì viӋc ÿӑc html sӁ bӏ thiӃu 1 sӕ kí tӵ) /ѭu ý quan trӑng : &ҩu hình cӫa 1 sӕ trang web chính nhѭ sau: (Trong dҩu ngoһc () là phҫn nâng cao tѭѫng ӭng cӫa tag) 1. www.thanhnien.com.vn : (ko giҧi mã NCR _ charset : utf8) div(newslead) div(newsbody) 2. www.tuoitre.com.vn (ko giҧi mã NCR _ charset : utf8) p(ptitle) p(phead) p(pbody) p(pquestion) p(panswer) 3. vnca.cand.com.vn (có giҧi mã NCR _ charset : utf8) span(main_title) span(sapeau_box) span(text_box) 4. www.nld.com.vn (ko giҧi mã NCR _ charset : utf8) td(td_read)->p(none) ->p(msonormal) (-> : p là tag con cӫa td) 5. www.baobinhdinh.com.vn (ko giҧi mã NCR _ charset : utf8) p(msonormal) p(msobodytext) Luұn văn tӕt nghiӋp : Phѭѫng pháp thêm dҩu vào văn bҧn tiӃng ViӋt không dҩu 47 6. www.baocantho.com.vn (có giҧi mã NCR _ charset : windows_1252) td(news_title) td(news_body) 7. sacmauvanhoa (ko giҧi mã NCR _ charset : utf8) p(dong) p(msonormal) Hình 4.1.1-15 : M͡t trang báo thanh niên Luұn văn tӕt nghiӋp : Phѭѫng pháp thêm dҩu vào văn bҧn tiӃng ViӋt không dҩu 48 Hình 4.1.1-16 :'ͷ li͏u ÿ˱ͫc tách tͳ trang báo Thanh niên 4.1.2. Tách câu (chҥy chѭѫng trình XDNguLieu.exe) 7ҥi bѭӟc này, ta thӵc hiӋn viӋc tҥo 1 kho dӳ liӋu chuҭn tiӋn cho viӋc xӱ lý sau này. Kho dӳ liӋu này theo chuҭn ÿѭӧc mô tҧ chi tiӃt trong phҫn PHӨ /ӨC. 1 cách ÿѫn giҧn, kho này gӗm nhiӅu câu thuӝc cùng 1 lƭnh vӵc, mӛi câu ÿѭӧc gán 1 sӕ ID riêng. KӃt quҧ thu ÿѭӧc, vӟi kho text ӣ bѭӟc trên là 1 kho câu 150MB. Luұn văn tӕt nghiӋp : Phѭѫng pháp thêm dҩu vào văn bҧn tiӃng ViӋt không dҩu 49 Hình 4.1.2-17: Giao di͏n ch˱˯ng trình Tách Câu o 7ӯ viӃt tҳt : Dùng ÿӇÿӏnh nghƭa các tӯ viӃt tҳt thông dөng có chӭa dҩu chҩm câu (. ! ?) ÿӇ loҥi bӓ bӟt các trѭӡng hӧp gây nhҫm lүn khi tách câu. Hình 4.1.2-18: 7ͳ vi͇t t̷t cung c̭p cho ch˱˯ng trình Tách Câu Lѭu ý : nên ÿӇ 2 trѭӡng hӧp nhѭ : Mr.(không có khoҧng trҳng ÿҵng sau) và Mr. (có khoҧng trҳng ÿҵng sau) thì viӋc chҥy chѭѫng trình sӁ tӕt và chính xác hѫn o ID : nhãn ÿӏnh danh duy nhҩt cho 1 câu trong tұp tin, gӗm các trѭӡng : Ngày Tháng Năm Ngu͛n g͙c Ĉ͓nh danh Chͯÿ͉ o Ĉҫu vào : Thѭ mөc chӭa các file nӝi dung text ÿã tách ÿѭӧc tӯ các file .html (thѭ mөc có thӇ có nhiӅu cҩp). Luұn văn tӕt nghiӋp : Phѭѫng pháp thêm dҩu vào văn bҧn tiӃng ViӋt không dҩu 50 o .Ӄt xuҩt : File chӭa tҩt cҧ các câu văn bҧn ÿã ÿѭӧc tách tӯ thѭ mөc ÿҫu vào và gán ID (hình dѭӟi) Hình 4.1.2-19: 1͡i dung file k͇t xṷt cͯa ch˱˯ng trình Tách Câu . 4.1.3. Tách tӯ và thӕng kê (chҥy chѭѫng trình Tach tu.exe) Vӟi kho dӳ liӋu chuҭng ÿѭӧc tҥo ra ӣ bѭӟc trên, ta bҳt ÿҫu dùng phѭѫng pháp tách tӯ LRMM ÿӇ thӕng kê tҫn sӕ xuҩt hiӋn cӫa tӯ. Dùng 150 MB dӳ liӋu kho câu trên, em thӕng kê trên khoҧng gҫn 18 triӋu lѭӧt tӯ, và hѫn 26400 tӯ khác nhau ÿã xuҩt hiӋn. Luұn văn tӕt nghiӋp : Phѭѫng pháp thêm dҩu vào văn bҧn tiӃng ViӋt không dҩu 51 Hình 4.1.3-20: Giao di͏n module tách tͳ v Thѭ mөc nguӗn : Thѭ mөc chӭa các câu ÿã ÿѭӧc tách và gán nhãn, gӗm các Wұp tin cùng lƭnh vӵc (nhѭ pháp luұt); không quan tâm kho dӳ liӋu này cùng hay khác nguӗn gӕc Hình4.1.3-21: 1͡i dung t̵p tin th˱ mͭc ngu͛n v 7ұp tin tӯÿLӇn: File tӯÿLӇn ÿѭӧc thҫy cung cҩp sҹn và ÿѭӧc chӍnh sӱa theo yêu cҫu sӱ dөng riêng cӫa nhóm. Luұn văn tӕt nghiӋp : Phѭѫng pháp thêm dҩu vào văn bҧn tiӃng ViӋt không dҩu 52 Hình 4.1.3-22: 1͡i dung t̵p tin tͳÿL͋n v Xuҩt tұp tin ngӳ liӋu: File lѭu các tӯ tách ÿѭӧc và tҫn suҩt xuҩt hiӋn cӫa các tӯ ÿѭӧc tính theo công thӭc –lg(n/N) Hình 4.1.3-23: 1͡i dung t̵p tin k͇t qu̫ 4.2. 7ҥo tұp tin tӯÿLӇn chính (chҥy chѭѫng trình RutGon.exe) 7ӯÿLӇn chính, là tӯÿLӇn ÿѭӧc dùng ÿӇ tra cӭu viӋc chuyӇn ÿәi lҫn ÿҫu, dùng ÿӇ ánh xҥ 1-1 tӯ tӯ không dҩu sang tӯ có dҩu. Trong phҫn cài ÿһt, tӯÿLӇn Luұn văn tӕt nghiӋp : Phѭѫng pháp thêm dҩu vào văn bҧn tiӃng ViӋt không dҩu 53 chính có tên là TuDienChinh.txt. Tұp tin tӯÿLӇn chính này, ÿѭӧc tҥo ra nhӡ vào tұp tin thӕng kê tӯӣ bѭӟc trên. Hình 4.1.3-24: Giao di͏n ch˱˯ng trình t̩o tͳÿL͋n chính o 7ұp tin nguӗn : tұp tin chӭa tҫn suҩt các tӯÿã ÿѭӧc thӕng kê ӣ bѭӟc trên. o Thѭ mөc thӕng kê : thѭ mөc chӭa kho ngӳ liӋu. Ĉây chính là Thѭ mөc nguӗn Fӫa phҫn Tách tӯ và thӕng kê o Thѭ mөc kӃt xuҩt : thѭ mөc sӁ chӭa kӃt quҧ cӫa chѭѫng trình. Ngoài viӋc tҥo ra tұp tin TuDienChinh.txt, chѭѫng trình còn tҥo ra thêm 2 tұp tin phө là TuDienPhanLop.txt và KhoCau.txt là ÿҫu vào cho bѭӟc sau. § TuDienPhanLop.txt : tӯÿLӇn này chӭa các tӯ không dҩu, mӛi tӯ không Gҩu có 1 hay nhiӅu tӯ có dҩu. §KhoCau.txt : chӭa tҩt cҧ các câu có sӵ xuҩt hiӋn cӫa các tӯ có dҩu trong TuDienPhanLop.txt Luұn văn tӕt nghiӋp : Phѭѫng pháp thêm dҩu vào văn bҧn tiӃng ViӋt không dҩu 54 Hình 4.1.3-25 : Trích 1 ph̯n TuDienChinh.txt Hình 4.1.3-26 : Trích 1 ph̯n TuDienPhanLop.txt Luұn văn tӕt nghiӋp : Phѭѫng pháp thêm dҩu vào văn bҧn tiӃng ViӋt không dҩu 55 Hình 4.1.3-27: Trích 1 ph̯n KhoCau.txt 4.3. 7ҥo tұp tin tӯÿLӇn cөm tӯ 7ӯÿLӇn cөm tӯÿѭӧc sӱ dөng ÿӇ tra cӭu và hiӋu chӍnh lҥi các tӯ không dҩu ÿã chuyӇn sang có dҩu, dӵa trên viӋc xét sӵ xuҩt hiӋn cӫa cөm tӯ trong 1 phҥm vi nhҩt ÿӏnh (xem chi tiӃt trong phҫn Mô hình). Trong phҫn cài ÿһt, tӯÿLӇn cөm Wӯ có tên là CumTu.txt và ÿѭӧc tҥo ra sau 2 bѭӟc sau : 4.3.1. 7ҥo kho dӳ liӋu tinh giҧn mӟi (chҥy chѭѫng trình KhoDuLieu.exe) Luұn văn tӕt nghiӋp : Phѭѫng pháp thêm dҩu vào văn bҧn tiӃng ViӋt không dҩu 56 Hình 4.3.1-28: Giao di͏n ch˱˯ng trình t̩o kho dͷ li͏u tinh gi̫n Thông qua bѭӟc trung gian này, giúp cho viӋc tҥo tұp tin CumTu.txt ÿѭӧc dӉ dàng và nhanh chóng hѫn. o 7ұp tin tӯÿLӇn : tұp tin tӯÿLӇn tӯ tiӃng ViӋt o 7ӯÿLӇn phân loҥi : là TuDienPhanLop.txt ÿѭӧc tҥo ra ӣ bѭӟc trên o Kho câu : là KhoCau.txt ÿѭӧc tҥo ra ӣ bѭӟc trên. o Thѭ mөc kӃt xuҩt : thѭ mөc chӭa kӃt quҧ chѭѫng trình. Sau khi chҥy chѭѫng trình này, chѭѫng trình sӁ tҥo ra 1 sӕ lѭӧng lӟn thѭ mөc (tên thѭ mөc là “_” + tӯ không dҩu), trong thѭ mөc này sӁ chӭa các tұp tin text (tên tұp tin là “_” + tӯ có Gҩu), mӛi tұp tin sӁ chӭa tҩt cҧ các câu mà có sӵ xuҩt hiӋn cӫa tӯÿó. Luұn văn tӕt nghiӋp : Phѭѫng pháp thêm dҩu vào văn bҧn tiӃng ViӋt không dҩu 57 Hình 4.3.1-29 : Trích 1 ph̯n th˱ mͭc k͇t xṷt Hình 4.3.1-30 : Th˱ mͭc con _a trong th˱ mͭc k͇t xṷt Luұn văn tӕt nghiӋp : Phѭѫng pháp thêm dҩu vào văn bҧn tiӃng ViӋt không dҩu 58 4.3.2. 7ҥo tұp tin tӯÿLӇn cөm tӯ (chҥy chѭѫng trình ThongKeTu.txt) Hình 4.3.2-31: Giao di͏n ch˱˯ng trình t̩o t̵p tin cͭm tͳ o 7ӯÿLӇn : tӯÿLӇn các tӯ tiӃng ViӋt o 7ӯ ÿLӇn phân lӟp : là TuDienPhanLop.txt ÿѭӧc tҥo ra ӣ bѭӟc tҥo TuDienChinh.txt o 7ӯÿLӇn LLOCE : chӭa 1 sӕ cөm tӯ nhҩt ÿӏnh … nӃu có nguӗn dӳ liӋu cөm tӯ Wӕt hѫn, chѭѫng trình sӁ chҥy tӕt hѫn. o Kho dӳ liӋu : là Thѭ mөc kӃt xuҩt ӣ bѭӟc trên. 4.4. Chѭѫng trình chính Chӭc năng thêm dҩu và xoá dҩu ÿѭӧc tích hӧp trong 1 dll, giúp viӋc triӇn khai chѭѫng trình ÿѭӧc dӉ dàng và thuұn tiӋn hѫn. ViӋc sӱ dөng dll này rҩt ÿѫn giҧn, chӍ Fҫn 1 dll và 1 thѭ mөc chӭa các tұp tin tӯÿLӇn cҫn thiӃt cho chѭѫng trình (\TuDien) là chӭc năng Thêm dҩu và Xoá dҩu sҹn sàng hoҥt ÿӝng. Vӟi dll trên, em phát triӇn Luұn văn tӕt nghiӋp : Phѭѫng pháp thêm dҩu vào văn bҧn tiӃng ViӋt không dҩu 59 1 sӕ chѭѫng trình chính sau ÿây, vӟi giao diӋn thân thiӋn, dӉ sӱ dөng, giúp ngѭӡi dùng dӉ dàng thêm dҩu theo nhu cҫu sӱ dөng cӫa hӑ. 4.4.1. Chѭѫng trình VietEditor Hình 4.4.1-32: Giao di͏n ch˱˯ng trình chính VietEditor Ĉây là 1 trình soҥn thҧo văn bҧn ÿѫn giҧn, vӟi các chӭc năng tѭѫng tӵ Notepad Fӫa Windows, nhѭng nó có thêm chӭc năng Thêm dҩu và Xoá dҩu. Chѭѫng trình ÿѭӧc phát triӇn ÿӇ kiӇm tra mô hình ÿѭӧc ÿѭa ra. Chӭc năng Thêm dҩu thanh (F7) và Xoá dҩu thanh (F6) trong menu Công cө giúp thêm dҩu và xoá dҩu cho văn bҧn. Trong chѭѫng trình, do viӋc TiӅn xӱ lý, nên ÿӏnh dҥng cӫa văn bҧn không giӳ nhѭ cNJÿѭӧc. Luұn văn tӕt nghiӋp : Phѭѫng pháp thêm dҩu vào văn bҧn tiӃng ViӋt không dҩu 60 4.4.2. Chѭѫng trình thêm dҩu qua Clipboard Ĉây là 1 hѭӟng phát triӇn tiӋn lӧi cho chӭc năng thêm dҩu tiӃng ViӋt. 9ӟi viӋc sӱ dөng tӯ không dҩu nhiӅu trên Internet nhѭ chat qua Y!M, ÿӑc các lá mail ÿLӋn tӱ … thì tiӋn ích này sӁ giúp ngѭӡi sӱ dөng ngay tӭc thì. Ngѭӡi dùng chӍ cҫn copy ÿRҥn văn bҧn không dҩu cҫn thêm dҩu, ngay lұp tӭc, chѭѫng trình sӁ thӵc hiӋn viӋc chuyӇn ÿRҥn văn bҧn ÿó thành có dҩu và hiӇn thӏ cho ngѭӡi dùng xem. Hình 4.4.2-33: Giao di͏n ch˱˯ng trình chính thêm ḓu Clipboard Luұn văn tӕt nghiӋp : Phѭѫng pháp thêm dҩu vào văn bҧn tiӃng ViӋt không dҩu 61 Hình 4.4.2-34: Test ch˱˯ng trình thêm ḓu Clipboard Luұn văn tӕt nghiӋp : Phѭѫng pháp thêm dҩu vào văn bҧn tiӃng ViӋt không dҩu 62 4.5. Thӱ nghiӋm 9ӟi bӝ dӳ liӋu thӱ là các văn bҧn ngүu nhiên mӟi nhҩt lҩy tӯ trang web www.tuoitre.com.vn, ta so sánh chѭѫng trình VietEditor vӟi VietPad và AMPad, ta thu ÿѭӧc kӃt quҧ khá khҧ quan sau (dùng chѭѫng trình test, không test bҵng tay) : 7әng sӕ tiӃng Tәng sӕ tiӃng ÿúng TӍ lӋÿúng VietEditor 8275 7191 86,9% VietPad 8275 7046 85,15% AMPad 8275 7156 86,47% Chѭѫng 5. .ӂT QUҦ, HѬӞNG PHÁT TRIӆN Luұn văn tӕt nghiӋp : Phѭѫng pháp thêm dҩu vào văn bҧn tiӃng ViӋt không dҩu 64 5.1. +ҥn chӃ và hѭӟng phát triӇn Bài toán thêm dҩu tiӃng ViӋt vào văn bҧn không dҩu là bài toán mӟi, còn ÿang hoàn thiӋn dҫn vӅ mô hình cNJng nhѭ cách thӵc hiӋn. HiӋn nay, mô hình thѭӡng dùng cho bài toán này là thӕng kê tҫn sӕ xuҩt hiӋn cӫa tӯ, ÿӗng thӡi, tuǤ theo mӛi tác giҧ mà có thêm nhӳng biӃn ÿәi, thuұt giҧi khác nhau giúp cho viӋc thêm dҩu ÿѭӧc chính xác hѫn. Qua luұn văn này, mô hình thӕng kê tҫn sӕ xuҩt hiӋn cӫa tӯ, kèm theo phѭѫng pháp tách tӯ không dҩu LRMM và sӱ dөng thêm tӯÿLӇn cөm tӯ, khҧ năng chính xác cӫa mô hình là tѭѫng ÿӕi cao. Tuy nhiên, phҧi nói là mô hình còn nhӳng hҥn chӃ, và cNJng là nhӳng hѭӟng mӣ mà luұn văn cҫn phҧi tiӃp tөc phát triӇn trong thӡi gian tӟi nhҵm tăng ÿӝ chính xác lên cao hѫn nӳa. Thӭ nhҩt, cҫn phҧi có nhӳng lƭnh vӵc chuyên môn cho mô hình. Trong thӡi ÿҥi chuyên môn hoá nhѭ hiӋn nay, viӋc sӱ dөng chѭѫng trình trong nhӳng lƭnh vӵc chuyên môn là cҫn thiӃt, ÿӗng thӡi, giúp cho chѭѫng trình tăng thêm ÿӝ chính xác. ViӋc thêm chӭc năng này cNJng không ҧnh hѭӣng nhiӅu ÿӃn mô hình. Ӣÿây, do thӱ nghiӋm mô hình mӟi nên bѭӟc này ÿѭӧc bӓ qua. Thӭ hai, áp dөng mô hình cho phѭѫng pháp thêm dҩu online. ViӋc thêm dҩu online ngoài viӋc tҥo trӵc quan cho ngѭӡi dùng, ngoài ra, có thӇ tҥo ra 1 phѭѫng pháp gõ mӟi, giúp viӋc gõ tiӃng ViӋt ÿѭӧc nhanh hѫn. Thӭ ba, mô hình có thӇ áp dөng các phѭѫng pháp tách tӯ chính xác hѫn nhѭ WFST ÿѭӧc sӱ dөng trong mô hình cӫa VnMark … ÿӇÿҥt ÿѭӧc ÿӝ chính xác cao hѫn nӳa. 5.2. .Ӄt luұn Tuy mô hình không có ÿLӇm gì mӟi nәi bұt, nhѭng qua viӋc lѭu trӳ tӯÿLӇn cөm tӯ ÿӇ chuyӇn ÿәi tӯ linh hoҥt thì ÿây là hѭӟng phát triӇn rҩt có tiӅm năng. Vӟi 1 tӯÿLӇn Fөm tӯ chính xác và ÿҫy ÿӫ hѫn, mô hình sӁ hoҥt ÿӝng tӕt hѫn nӳa. Chӭc năng Thêm Gҩu tӵÿӝngÿѭӧc phát triӇn thành 1 DLL, cho phép tích hӧp chӭc năng này vào bҩt kǤ trình soҥn thҧo nào 1 cách nhanh chóng. 65 TÀI LIӊU THAM KHҦO [1]. TiӃn sƭĈinh ĈLӅn. Giáo trình Xӱ lý ngôn ngӳ tӵ nhiên, Khoa Công nghӋ Thông tin, Ĉҥi hӑc Khoa hӑc Tӵ nhiên thành phӕ Hӗ Chí Minh, Tháng 12 – 2004. [2]. NguyӉn Văn Toàn. TӵĈӝng Gán Dҩu Thanh TiӃng ViӋt – Trung tâm Phát triӇn Công nghӋ Thông tin, Ĉҥi hӑc Quӕc gia Thành phӕ Hӗ Chí Minh. [3]. Hoàng Văn Hành – Ĉinh ĈLӅn (1999), “Tӯ tiӃng ViӋt : Khái niӋm – nhұn diӋn – ranh giӟi”, Bài tiӇu luұn môn hӑc “Tӯ vӵng hӑc”, Lӟp Cao hӑc Ngôn ngӳ hӑc. [4]. Hoàng Phê (1998), TӯÿLӇn tiӃng ViӋt, Trung tâm tӯ diӇn hӑc, NXB Ĉà 1ҷng. [5]. Dien Dinh, Kiem Hoang, Toan Nguyen Van (2001), “Vietnamese Word Segmentation”, Proceedings of NLPRS’01 (The 6th Natural Language Processing Pacific Rim Symposium), Tokyo, Japan, 11/2001, pg. 749-756 [6]. 9ăn Chí Nam, luұn văn cӱ nhân tin hӑc khoá 1999-2003, “Xӱ lý ngӳ nghƭa trong hӋ dӏch tӵÿӝng Anh –ViӋt cho các tài liӋu tin hӑc”, pg. 27- 30 [7]. NguyӉn Thái Ngӑc Duy, luұn văn cӱ nhân tin hӑc khoá 2000-2004, “Xây Gӵng chѭѫng trình bҳt lӛi chính tҧ tiӃng ViӋt và ÿӅ nghӏ tӯ thay thӃ cho các lӛi chính tҧ thѭӡng gһp”, pg. 16-36, pg. 69-73 [8]. Ĉoàn Xuân Kiên, “Bàn vӅ chuyӋn ÿánh dҩu thanh trong tiӃng ViӋt”, ÿăng tҥi trang [9]. Ĉoàn Xuân Kiên, “Xem lҥi mӝt vҩn ÿӅ ngӳ âm tiӃng ViӋt : cҩu trúc âm tiӃt”, ÿăng tҥi trang [10]. 66 [11]. Tài liӋu vӅ phҫn mӅm VietPad ÿѭӧc công bӕ tҥi trang web: [12]. Tài liӋu vӅ phҫn mӅm AMPad ÿѭӧc công bӕ tҥi trang web: [13]. 1 sӕ phҫn mӅm hӛ trӧ trên www.codeproject.com 67 Phө lөc : Cҩu trúc kho ngӳ liӋu Kho ngӳ liӋu gӗm nhiӅu tұp tin text (.txt), mӛi tұp tin chӭa mӝt tұp các câu thuӝc cùng 1 chӫÿӅ. Tұp tin text ÿѭӧc lѭu vӟi cҩu trúc sau o 7ұp tin text gӗm nhiӅu record, mӛi record gӗm : § ID : ÿӏnh danh § S : nӝi dung câu S cách ID bҵng dҩu TAB (“\t”) &ҩu trúc trѭӡng ID : Thông tin ID bao gӗm nhӳng nӝi dung sau: · Ngày (1..31) 2 ký tӵ · Tháng (1..12) 2 ký tӵ · 1ăm (04 = 2004) 2 ký tӵ · Xuҩt xӭ 3 ký tӵ o Ký tӵÿҫu tiên: nguӗn gӕc cӫa ngӳ liӋu § B: Báo chí § T: Tác phҭm văn hӑc § S: Sách § L Luұn văn § V: Các loҥi văn bҧn o Ký tӵ thӭ hai và ba: ÿӏnh danh nguӗn gӕc cӫa ngӳ liӋu § 9Ӆ báo chí: · TN: Thanh Niên · TT: Tuәi Trҿ · SG: Sài Gòn Giҧi Phóng · ND: Nhân Dân · LD: Ngѭӡi Lao Ĉӝng · CT: Cҫn Thѫ · BD: Bình Ĉӏnh · VH: Sҳc màu văn hóa § 9Ӆ tác phҭm văn hӑc: nhóm làm ÿӅ tài tӵ quy ÿӏnh ÿӏnh danh cho tên các tác phҭm Văn hӑc mà mình có, ÿӗng thӡi phҧi có tài liӋu cho phҫn này (ý nghƭa cӫa tӯng ÿӏnh danh mà nhóm ÿó Vӱ dөng và lѭu trong tұp tin riêng) 68 · Vd: Truy͏n Ki͉u cͯa Nguy͍n Du à TK · Vd: Cô Gái Ĉ͛ Long cͯa Kim Dung à CG § 9Ӆ sách: cách qui ÿӏnh giӕng tác phҭm văn hӑc. § 9Ӆ luұn văn: cách qui ÿӏnh giӕng tác phҭm văn hӑc. § 9Ӆ văn bҧn: cách qui ÿӏnh giӕng tác phҭm văn hӑc. Mӝt kho ngӳ liӋu ÿáng kӇ ÿó là các văn bҧn cӫa Nhà Nѭӟc, văn bҧn Pháp Luұt (www.luatgiapham.com),… · ChӫÿӅ 1 ký tӵ o 9Ӆ báo chí: § X: Xã hӝi, tin trong nѭӟc, tin thӃ giӟi § T: Thѭѫng mҥi, kinh doanh, kinh tӃ § V: Văn hóa, thӇ thao, ÿӡi sӕng, § P: Pháp luұt § Y: Y tӃ, sӭc khӓe, § K: Khoa hӑc, kӻ thuұt, tin hӑc o 9Ӆ văn hӑc: § T: Thѫ § N: TruyӋn ngҳn § D: TruyӋn dài § K: TruyӋn kiӃm hiӋp o 9Ӆ sách: § (giӕng qui ÿӏnh cӫa báo chí) o 9Ӆ luұn văn: § (giӕng qui ÿӏnh cӫa báo chí) o 9Ӆ văn bҧn: § (giӕng qui ÿӏnh cӫa báo chí) · 6ӕ thӭ tӵ bài viӃt4 ký tӵ (01..9999) · 6ӕ thӭ tӵ câu 3 ký tӵ (001..999) 7әng kӃt lҥi, trѭӡng ID có chiӅu dài là: 17 69 Hình 5.2-35 : 7̵p tin kho ngͷ li͏u m̳u

Các file đính kèm theo tài liệu này:

  • pdfUnlock-Thm d7845u ti7871ng Vi7879t vo v259n b7843n ti7871ng Vi7879t kh.pdf