Tài liệu Xác định các hệ số đặc trưng bằng giải thuật di truyền cho bài toán tóm tắt văn bản Tiếng Việt - Nguyễn Nhật An: Kỹ thuật điện tử & Khoa học mỏy tớnh
N. N. An, N. Q. Bắc, N. Đ. Hiếu, T. N. Anh,“Xỏc định cỏc hệ số văn bản tiếng Việt.” 36
Xác định các hệ số đặc trưng
bằng giảI thuật di truyền cho bài toán
tóm tắt văn bản tiếng việt
NGUYỄN NHẬT AN*, NGUYỄN QUANG BẮC*,
NGUYỄN ĐỨC HIẾU**, TRẦN NGỌC ANH**
Túm tắt: Túm tắt văn bản là quỏ trỡnh rỳt gọn văn bản mà vẫn giữ được
những thụng tin quan trọng. Bài bỏo này đề xuất một tiếp cận mới trong túm tắt
văn bản tiếng Việt theo hướng trớch rỳt (Extraction Summarization) dựa trờn cỏc
đặc trưng quan trọng như vị trớ cõu, độ dài cõu, trọng số TFxISF, xỏc suất thực
từ, độ tương tự với chủ đề, cõu trung tõm... Đầu tiờn, chỳng tụi xỏc định tập đặc
trưng quan trọng trong văn bản tiếng Việt. Bước tiếp theo sử dụng giải thuật di
truyền để xỏc định hệ số cỏc đặc trưng từ kho ngữ liệu huấn luyện. Thử nghiệm
túm tắt văn bản với cỏc hệ số thu được từ giải thuật di truyền cho thấy, văn bản
túm tắt cú độ chớnh xỏc cao, cú thể ỏp dụng t...
11 trang |
Chia sẻ: quangot475 | Lượt xem: 528 | Lượt tải: 0
Bạn đang xem nội dung tài liệu Xác định các hệ số đặc trưng bằng giải thuật di truyền cho bài toán tóm tắt văn bản Tiếng Việt - Nguyễn Nhật An, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
Kỹ thuật điện tử & Khoa học máy tính
N. N. An, N. Q. Bắc, N. Đ. Hiếu, T. N. Anh,“Xác định các hệ số văn bản tiếng Việt.” 36
X¸c ®Þnh c¸c hÖ sè ®Æc trng
b»ng gi¶I thuËt di truyÒn cho bµi to¸n
tãm t¾t v¨n b¶n tiÕng viÖt
NGUYỄN NHẬT AN*, NGUYỄN QUANG BẮC*,
NGUYỄN ĐỨC HIẾU**, TRẦN NGỌC ANH**
Tóm tắt: Tóm tắt văn bản là quá trình rút gọn văn bản mà vẫn giữ được
những thông tin quan trọng. Bài báo này đề xuất một tiếp cận mới trong tóm tắt
văn bản tiếng Việt theo hướng trích rút (Extraction Summarization) dựa trên các
đặc trưng quan trọng như vị trí câu, độ dài câu, trọng số TFxISF, xác suất thực
từ, độ tương tự với chủ đề, câu trung tâm... Đầu tiên, chúng tôi xác định tập đặc
trưng quan trọng trong văn bản tiếng Việt. Bước tiếp theo sử dụng giải thuật di
truyền để xác định hệ số các đặc trưng từ kho ngữ liệu huấn luyện. Thử nghiệm
tóm tắt văn bản với các hệ số thu được từ giải thuật di truyền cho thấy, văn bản
tóm tắt có độ chính xác cao, có thể áp dụng tốt trong thực tế.
Từ khóa: Tóm tắt văn bản tiếng Việt, Đặc trưng văn bản, Hệ số đặc trưng văn bản, Giải thuật di truyền.
1. ĐẶT VẤN ĐỀ
Trong thời đại bùng nổ thông tin điện tử, nhu cầu tự động tổng hợp thông tin nổi bật từ
kho văn bản điện tử khổng lồ đó trở nên đặc biệt quan trọng và được sự quan tâm rộng rãi.
Tóm tắt văn bản là quá trình rút gọn văn bản mà vẫn giữ được những thông tin quan trọng
của văn bản. Kỹ thuật tóm tắt văn bản được các nhà nghiên cứu phân ra thành hai loại là:
tóm tắt văn bản là tóm tắt rút trích ES(Extraction Summarization) và tóm tắt tóm lược
AS(Abstraction Summarization)[17]. Đối với tóm tắt văn bản tiếng Việt, các nghiên cứu
chủ yếu dựa theo hướng tiếp cận ES là thông qua tính toán các đặc trưng tần suất từ, vị trí
câu, từ tiêu đề, độ tương tự... để chọn ra các câu quan trọng nhất theo tỉ lệ trích rút
[3,4,5,6,7,8]. Tuy nhiên, các nghiên cứu đều chưa chỉ ra được việc sử dụng hệ số các đặc
trưng như thế nào là hợp lý để cho bản tóm tắt tốt và chưa xây dựng được một phương
pháp tính toán các hệ số thông qua quá trình học.
Đối với ngôn ngữ tiếng Anh, vấn đề nêu trên đã được một số nhà nghiên cứu giải quyết
theo hướng học máy bằng giải thuật di truyền [12,13] và cho kết quả khả quan. Tuy nhiên,
khó có thể áp dụng trực tiếp cho tiếng Việt vì các đặc trưng ngôn ngữ tiếng Việt và tiếng
Anh khác nhau (do loại hình ngôn ngữ, do nền văn hóa) chẳng hạn: khác biệt về ngữ âm
học, hình vị, ranh giới từ, từ loại; trật tự từ (tính từ và danh từ), kết cấu câu (chủ đề và cụm
chủ vị), Do vậy, các đặc trưng văn bản tiếng Anh và tiếng Việt là khác nhau. Mặt khác,
do tiếng Việt chưa xây dựng được từ điển, kho ngữ liệu đầy đủ và chưa có Vietworknet
nên sử dụng các phương pháp tiếng Anh áp dụng cho tiếng Việt không mấy hiệu quả.
Nhận thấy đây là một hướng nghiên cứu mới trong tiếng Việt, do đó trong bài báo này
chúng tôi sẽ nghiên cứu, đề xuất hướng tiếp cận mới trong tóm tắt văn bản tiếng Việt bằng
giải thuật di truyền dựa trên các đặc trưng văn bản quan trọng.
Nghiên cứu giải quyết hai vấn đề chính: Một là, xác định tập đặc trưng quan trọng của
văn bản tiếng Việt; hai là, xác định bộ hệ số đặc trưng bằng giải thuật di truyền thông qua
quá trình học tập văn bản tóm tắt mẫu. Từ bộ hệ số đặc trưng đó, chúng tôi tiến hành thử
nghiệm tóm tắt văn bản và đánh giá chúng.
Nghiên cứu khoa học công nghệ
Tạp chí Nghiên cứu KH&CN quân sự, Số 32, 08 - 2014 37
Nghiên cứu được trình bày theo thứ tự sau: Phần 2 trình bày nội dung nghiên cứu; Phần
3 trình bày các kết quả thử nghiệm, và so sánh đánh giá; cuối cùng kết luận được trình bày
trong Phần 4.
2. NỘI DUNG CẦN GIẢI QUYẾT
2.1. Bài toán tóm tắt đơn văn bản tiếng Việt theo hướng trích rút
Quy trình thực hiện tóm tắt đơn văn bản tổng quát theo hướng trích rút:
Bước 1. Tiền xử lý văn bản đầu vào: tách câu, tách từ, gán nhãn, lọc bỏ các hư từ.
Bước 2. Tính trọng số các câu theo các đặc trưng văn bản như.
Bước 3. Sắp xếp các câu theo trọng số, rút trích các câu có trọng số cao theo tỉ lệ.
Bước 4. Xuất các câu đã rút trích theo thứ tự xuất hiện trong văn bản gốc.
Hình 1. Quy trình tóm tắt đơn văn bản tổng quát.
Công thức tổng quát để tính trọng số câu thông qua tập đặc trưng quan trọng được mô
tả như sau:
z
1
i ti
i
Score s k Score s
(1)
trong đó, z số đặc trưng, tiScore s là trọng số của các đặc trưng trong câu s, ti là đặc
trưng thứ i của văn bản.
Qua đây, ta có thể nhận xét rằng, bài toán tóm tắt đơn văn bản tiếng cần xác định được
2 yếu tố quan trọng là:
- Xác định tập đặc trưng quan trọng của văn bản tiếng Việt
- Xác định bộ hệ số đặc trưng như thế nào?
Phần tiếp theo chúng tôi sẽ trình bày rõ tập đặc trưng quan trọng của văn bản tiếng Việt
và cách xác định bộ hệ số đặc trưng.
2.2. Xây dựng tập đặc trưng văn bản quan trọng cho văn bản tiếng Việt
Để xây dựng tập đặc trưng văn bản tiếng Việt, chúng tôi sử dụng quan điểm phân loại
từ vựng tiếng Việt của Diệp Quang Ban[1]. Theo tác giả, từ loại tiếng Việt được chia làm
hai loại chính là thực từ và hư từ. Thực từ là những từ có ý nghĩa từ vựng (nghĩa là mang
thông tin) còn hư từ là những từ chỉ có chức năng ngữ pháp (không mang thông tin). Do
vậy, chúng tôi chỉ tiến hành tính toán các đặc trưng dựa trên thực từ, còn hư từ bị loại bỏ.
Ngoài ra, ở bước tiền xử lý, để nâng cao độ chính xác, các thực từ đồng nghĩa trong tiêu
đề, nội dung được thay thế bằng một từ duy nhất bằng cách sử dụng từ điển đồng nghĩa
của tác giả Nguyễn Văn Tu[2].
2.2.1. Ví trí câu
Định nghĩa 1: Độ quan trọng của câu của văn bản dựa theo đặc trưng vị trí được xác
định là giá trị vị trí của câu trong một đoạn văn bản.
Đối với văn bản tiếng Việt thường câu đầu tiên trong đoạn là quan trọng nhất. Giả sử s
là một câu trong văn bản gốc, k là vị trí của câu s trong đoạn văn bản chứa câu s. Độ quan
trọng của câu trong một đoạn văn bản được tính theo công sau:
1
1
fScore s
k
(2)
Văn
bản
TIỀN
XỬ LÝ:
Tách câu,
tách từ,
gán nhãn,
loại hư
TÍNH
TRỌNG
SỐ CÂU
theo
các đặc
trưng
SẮP
XẾP
theo
trọng số,
rút trích
theo tỉ lệ
XUẤT
CÂU
Theo tứ
tự xuất
hiện
trong văn
Văn bản
Tóm
tắt
Kỹ thuật điện tử & Khoa học máy tính
N. N. An, N. Q. Bắc, N. Đ. Hiếu, T. N. Anh,“Xác định các hệ số văn bản tiếng Việt.” 38
2.2.2. Trọng số TF.ISF(term frequency- inverse sentence frequency)
Định nghĩa 2: Độ quan trọng của câu trong văn bản dựa theo đặc trưng trọng số
TF.ISF được tính bằng giá trị trung bình cộng các trọng số TF.ISF của các thực từ trong
câu.
Phương pháp này bắt nguồn từ công thức nổi tiếng TFxIDF( term frequency – inverse
document frequency), được sử dụng để xác định mức độ quan trọng của từ trong một văn
bản, mà văn bản đó nằm trong một tập hợp các văn bản. Công thức này phù hợp với bài
toán tóm tắt đa văn bản. Ở đây, chúng tôi tiếp cận bài toán đơn văn bản nên tính độ quan
trọng của câu trong một câu thông qua trung bình cộng độ quan trọng của thực từ trong
câu (TFxISF: term frequency- inverse sentence frequency):
2
1
1
,
wN
f k k
kw
Score s TF w s ISF w
N
(3)
trong đó, wk là thực từ thứ k trong câu s, Nw là số các thực từ có trong câu s, ,kTF w s
là số lần xuất hiện của thực từ wk trong câu s,
s
k
k
N
ISF w log
SF w
là nghịch đảo của
tần suất từ wk , NS là là tổng số câu có trong văn bản, SF(wk) là tổng số câu trong văn bản
có chứa thực từ wk.
2.2.3. Độ dài câu
Định nghĩa 3: Độ quan trọng của câu trong văn bản dựa theo đặc trưng độ dài câu
được tính bằng giá trị phân bố độ dài câu tính theo thực từ trong kho ngữ liệu lớn.
Theo quan điểm của chúng tôi, công thức độ dài câu được xây dựng dựa theo số thực
từ mà câu đó chứa. Do vậy, khác với quan điểm của các nghiên cứu trước đây là câu quá
ngắn hoặc quá dài đều không chứa trong văn bản tóm tắt. Chúng tôi sử dụng đặc trưng độ
dài câu cho tất cả các câu trong văn bản thông qua độ đo được tính toán qua quá trình khảo
sát kho ngữ liệu tiếng Việt.
Hình 2. Sơ đồ phân bố độ dài câu tính theo thực từ của ~ 20.000 văn bản tiếng Việt
được chuẩn hoá về đoạn [0,1].
Công thức độ dài câu được xây dựng như sau:
2
2
3
2
, 0 12
, 12
22
f
ax bx c x
Score s x
exp x
(4)
trong đó, a = - 0.00529, b = 0.12174, c = 0.3; = 26.3 , = 11.5, = 10.5
2.2.4. Xác suất thực từ
Định nghĩa 4: Độ quan trọng của câu trong văn bản dựa theo đặc trưng xác xuất thực
từ được tính bằng giá trị trung bình cộng xác suất unigram của các thực từ trong câu.
Nghiên cứu khoa học công nghệ
Tạp chí Nghiên cứu KH&CN quân sự, Số 32, 08 - 2014 39
Đặc trưng này sử dụng xác suất unigram của các thực từ để làm nền tảng tính toán
trọng số câu. Câu có chứa nhiều thực từ có tần suất xuất hiện cao trong toàn văn bản thì
câu đó càng quan trọng.
4
1
1 wN
f k
w k
Score s P w
N
(5)
trong đó,
k
k
uni
C w
P w
N
xác suất unigram của từ wk, C(wk) là số lần xuất hiện của thực từ
wk trong văn bản, Nuni là tổng số các thực từ (các unigram) trong văn bản.
2.2.5. Thực thể tên
Định nghĩa 5: Độ quan trọng của câu trong văn bản dựa theo đặc trưng thực thể tên
được tính bằng thương của số thực thể tên xuất hiện trong câu và số thực từ có trong câu.
Đặc trưng này đếm số của các thực thể tên (như danh từ riêng, từ viết tắt) trong một
câu. Trong nghiên cứu này, các thực thể có tên được nhận biết thông qua nhãn Np, Ny của
công cụ gán nhãn vnTagger[11].
5
name
f
w
N s
Score s
N s
(6)
trong đó, Nname(s) là số thực thể tên xuất hiện trong câu, Nw (s) số các thực từ có trong câu s.
2.2.6. Dữ liệu số
Định nghĩa 6: Độ quan trọng của câu trong văn bản dựa theo đặc trưng dữ liệu số
được tính bằng thương của số thực từ là dữ liệu số xuất hiện trong câu và số thực từ có
trong câu.
Đặc trưng này được đưa ra dựa theo quan điểm của một số nhà nghiên cứu tóm tắt văn
bản xem rằng các thuật ngữ được viết dưới hình thức số đôi khi truyền đạt thông tin quan
trọng. Đặc trưng này đếm số thực từ dạng dữ liệu số xuất hiện trong một câu được nhận
biết thông qua nhãn M của công cụ gán nhãn vnTagger[11]:
6
num
f
w
N s
Score s
N s
(7)
trong đó, numN s là số thuật ngữ dữ liệu số xuất hiện trong câu.
2.2.7. Tương tự với tiêu đề
Định nghĩa 7: Độ quan trọng của câu trong văn bản dựa theo đặc trưng tương tự với
tiêu đề được tính bằng phép đo đồng xuất hiện thực từ giữa câu và câu tiêu đề.
Đặc trưng này xem xét độ đồng xuất hiện thực từ giữa câu và câu tiêu đề của văn bản.
Được tính dựa theo phép đo đồng xuất hiện Dice[10]:
7 , 2f Dice
S T
Score s Sim S T
S T
(8)
trong đó, 1 2 , , , NS s s s là vetor thực từ khác nhau của câu, 1 2, , , MT t t t là vetor
thực từ khác nhau của câu tiêu đề, S T là số thực từ đồng xuất hiện trong S vàT .
2.2.8. Câu trung tâm
Định nghĩa 8: Độ quan trọng của câu trong văn bản dựa theo đặc trưng câu trung
tâm được tính bằng giá trị trung bình cộng xác độ tương tự giữa câu và các câu khác
trong văn bản.
Đặc trưng này xem xét độ đồng xuất hiện của các thực từ giữa một câu và các câu
khác trong văn bản. Đặc trưng này được tính toán dựa vào phương pháp Aggregation
Similarity [13], được mô tả bằng công thức sau:
Kỹ thuật điện tử & Khoa học máy tính
N. N. An, N. Q. Bắc, N. Đ. Hiếu, T. N. Anh,“Xác định các hệ số văn bản tiếng Việt.” 40
8
1,
,
m
f Dice i j
j j i
Score s Sim S S
(9)
Trong đó: ,Dice i jSim S S là phép đo đồng xuất hiện Dice giữa câu thứ i với câu thứ j
được tính tương tự như công thức (8).
2.3. Học hệ số các đặc trưng bằng giải thuật di truyền
Trong nghiên cứu này, chúng tôi đề xuất phương pháp kết hợp tuyến tính giữa 8 đặc
trưng được trình bày ở trên để tính điểm số cho câu. Những câu có điểm số cao được lựa
chọn tạo thành bản tóm tắt theo tỉ lệ người dùng mong muốn. Điểm số của câu được tính
như sau:
8
1
i fi
i
Score s k Score s
(10)
Trong đó: fiScore s là điểm số của đặc trưng i và ik là hệ số của nó.
Giải thuật di truyền là một trong những phát triển quan trọng của những nhà nghiên
cứu về tính toán ứng dụng cuối thế kỷ trước trong việc giải xấp xỉ các bài toán tối ưu toàn
cục. Mặt khác, giải thuật di truyền giản đơn khá đơn giản và thời gian tìm nghiệm toàn cục
nhanh. Do vậy, trong nghiên cứu này chúng tôi sử dụng giải thuật di truyền để tìm bộ hệ
số k của các đặc trưng thông qua quá trình học kho ngữ liệu do con người tóm tắt. Mô hình
học hệ số được mô tả trong hình 3.
Hình 3. Mô hình học hệ số đặc trưng bằng thuật toán di truyền.
Sau đây chúng ta sẽ lần lượt hình thức hóa bài toán tìm hệ số đặc trưng trên ngôn ngữ
của giải thuật di truyền.
Bài toán tìm hệ số đặc trưng cho bài toán tóm tắt văn bản được xác định bởi các dữ
liệu sau: 1 2 1 2 1 2, , , , , , , , , , , , ,m m nm a D d d d sh sh sh sh t t t t
trong đó, m là số văn bản đầu vào để học, a là tỷ lệ tóm tắt, t là các đặc trưng được sử dụng
để tóm tắt văn bản, đối với mỗi văn bản học thứ j:
jd là văn bản toàn văn chứa tiêu đề và
các câu nội dung,
jsh là bản tóm tắt con người của văn bản đó.
Bài toán đặt ra là tìm các hệ số đặc trưng k sao cho bản tóm tắt trích rút dựa vào các
đặc trưng theo tỉ lệ tóm tắt a "gần giống" với bản tóm tắt con người nhất.
Các đặc trưng
Tập văn bản mẫu
Tóm tắt bằng tay
Đánh giá độ thích nghi Khởi tạo quần
thể ban đầu
Xây dựng quần
thể mới
Điều kiện dừng
Nhiễm sắc thể
Chọn lọc
Lai ghép
Đột biến Bộ hệ số đặc
trưng k1,...,k8
đúng
sai
Tập văn bản mẫu
Nghiên cứu khoa học công nghệ
Tạp chí Nghiên cứu KH&CN quân sự, Số 32, 08 - 2014 41
Một bản "tóm tắt vàng" của hệ thống sinh ra theo quan điểm của chúng tôi cần đạt
được tiêu chí là chứa hầu hết các từ liên quan trong văn bản tóm tắt của con người. Độ đo
được định nghĩa như sau:
Định nghĩa 9: Độ đo đánh giá văn bản tóm tắt được định nghĩa bằng độ tương tự
giữa văn bản tóm tắt của hệ thống với văn bản tóm tắt con người (ROUGE-N):
, , ,
, , , ,
ii
ii
i
Sum a d t k SH
Sim Sum a d t k SH
SH
(11)
trong đó, 1, , , , , i iriSum a d t k sm sm là vector thực từ khác nhau của văn bản tóm
tắt của hệ thống theo bộ đặc trưng t và bộ hệ số k theo tỉ lệ tóm tắt a của văn bản di
1, ,i i ilSH sh sh là vector thực từ khác nhau của văn bản tóm tắt của con người của
văn bản di
Giả sử 1 2, , ns k k k là bộ hệ số đặc trưng chấp nhận được. Khi đó mô hình bài
toán tìm hệ số đặc trưng tóm tắt văn bản được phát biểu như sau:
1
, , , ,
, , , ,
m
ii
i
Sim Sum a d t k SH
DFC m a d sh t max
m
(12)
với miền ràng buộc:
1
1; 0
n
i i
i
k k
Sau đây chúng ta sẽ lần lượt hình thức hóa bài toán xác định hệ số đặc trưng bằng giải
thuật di truyền cho bài toán tóm tắt văn bản trên ngôn ngữ của giải thuật di truyền.
Biểu diễn bài toán. Chúng ta sử dụng nhiễm sắc thể có cấu trúc mã hoá là một vetor n
chiều 1 2 i, , , knk k k
để biểu diễn các cá thể (các điểm) trong không gian tìm kiếm.
Mỗi quần thể là một tập bao gồm một số cố định các cá thể.
Độ đo thích nghi . Với mỗi cá thể 1 2, , ns k k k ta xác định mức độ thích nghi của
cá thể, f(s), bằng công thức sau:
1
, , , , m ii
i
Sim Sum a d t k SH
f s
m
(13)
Toán tử lai ghép. Giả sử 1 11 12 1, , ns k k k và 2 21 22 2, , ns k k k là 2 cá thể bất
kỳ trong quần thể. Chúng ta đưa ra một số dạng toán tử lai ghép sau đây:
Giả sử z là một số được lựa chọn ngẫu nhiên, 1 z n . Từ hai cá thể cha mẹ là 1s và
2s mô tả trên, có thể tạo ra hai cá thể con
'
1s và
'
2s với các véc tơ cột tương ứng của
chúng được xác định như sau:
' '1 1 1 2 , 1, , ; , 1, ,i i i ik k i z k k i z n (14)
' '2 2 2 1 , 1, , ; , 1, ,i i i ik k i z k k i z n (15)
Toán tử đột biến phân phối đều: Với một gen i được chọn ngẫu nhiên để đột biến từ
cá thể 1 2, , ns k k k , thành phần ik được thay thế bởi một số ngẫu nhiên trong
khoảng xác định [ il , ]iu của ik . Cá thể s sau khi đột biến với các véc tơ cột tương ứng
của chúng được xác định như sau:
' ', ; , ; 1j j jk k j i k j i j n (16)
Kỹ thuật điện tử & Khoa học máy tính
N. N. An, N. Q. Bắc, N. Đ. Hiếu, T. N. Anh,“Xác định các hệ số văn bản tiếng Việt.” 42
i
Toán tử chọn lọc. Toán tử chọn lọc được xác định theo luật tỷ lệ thuận với mức độ
thích nghi:
s
s G
f s
p
f s
(17)
Trong đó s là cá thể và G là quần thể đang xem xét có chứa s.
THUẬT TOÁN GA HỌC HỆ SỐ ĐẶC TRƯNG
Input: , , , , m a D sh t
Output: Nghiệm tối ưu của bài toán , , , ,DFC m a D sh t là tập hệ số đặc trưng
1 2, , ns k k k
Bước 0. Khởi tạo quần thể gồm X cá thể 0 00 1 , , kG s s , trong đó:
0 0 0 01 2, , ; 1 i i i ins k k k i k
Bước 1. Giải các bài toán , , , , 1, , , 1, ,ti jSum a d t k i m j k , t là số thế hệ
thứ t của quần thể. Tính độ thích nghi , 1, ,tif s i k cho từng cá thể của tG theo (13).
Áp dụng toán tử chọn lọc (17) lên Gt để chọn ra K cá thể có mức độ thích nghi lớn nhất.
Bước 2. Nếu điều kiện dừng chưa thỏa mãn đến Bước 3. Ngược lại thuật toán dừng và
cho nghiệm tối ưu là bộ hệ số đặc trưng tối ưu.
Bước 3. Lựa chọn các cha-mẹ trong tG theo mức độ thích nghi để ghép cặp theo toán
tử lai ghép (14)-(15) để tạo nên tập các hậu thế lgtG với K1 phần tử.
Bước 4. Tác động toán tử đột biến (16) vào lgt tG G để nhận được 1tG , đặt t=t+1 và
quay lại bước 1.
2.4. Mô hình tóm tắt văn bản tiếng Việt dựa trên giải thuật di truyền
Như đã trình bày ở trên, chúng ta đã định nghĩa 8 đặc trưng của văn bản tiếng Việt và
cách xác định các hệ số đặc trưng ảnh hưởng đến bài toán tóm tắt văn bản như thế nào.
Sau khi xác định được hệ số các đặc trưng, ta có mô hình tóm tắt văn bản theo từng lĩnh
vực như hình 4:
Hình 4. Mô hình tóm tắt văn bản dựa trên giải thuật toán di truyền.
Tóm tắt bằng tay Các đặc trưng
Tập văn bản mẫu
GIẢI THUẬT DI TRUYỀN
Nhiễm sắc thể: 1 2 8, ,s k k k
Hàm thích nghi
1
, , , , m ii
i
Sim Sum a d t k SH
f s
m
Bộ hệ số đặc
trưng 1 2 8, ,k k k
Văn bản
Các đặc trưng
Văn bản tóm tắt
Nghiên cứu khoa học công nghệ
Tạp chí Nghiên cứu KH&CN quân sự, Số 32, 08 - 2014 43
3. THỬ NGHIỆM, ĐÁNH GIÁ
3.1. Biểu diễn nhiễm sắc thể
Mỗi nhiễm sắc thể của quần thể là một vector hệ số đặc trưng. Trong nghiên cứu này,
chúng tôi chỉ thử nghiệm với vector hệ số đặc trưng có chiều dài 40 bit biểu diễn 8 đặc
trưng, mỗi giá trị hệ số của từng đặc trưng được đại diện bởi 5 bit. Như vậy mỗi đặc trưng
sẽ có giá trị từ 0-31.
k1 k2 k3 k4 k5 k6 k7 k8
3.2. Quá trình đào tạo để học hệ số đặc trưng
Khởi tạo quần thể ban đầu gồm 100 cá thể với các nhiễm sắc thể được tạo ra ngẫu
nhiên (ki từ 0 đến 31). Tại mỗi vòng lặp của giải thuật di truyền, ở mỗi tài liệu đào tạo
điểm số các câu được tính theo công thức (10) và một bản tóm tắt được tạo ra theo tỉ lệ (số
câu tạo ra xấp xỉ số câu do con người tóm tắt). Quá trình nay lặp đi lặp lại đến khi độ
chính xác trung bình tính theo công thức (13) đạt xấp xỉ hoặc số thế hệ xấp xỉ 1000.
Nhiễm sắc thể được lựa chọn cuối cùng chính là bộ hệ số các đặc trưng được học thông
qua quá trình đào tạo (đã được chuẩn hoá để tổng các hệ số bằng 1).
3.3. Kho ngữ liệu
Ngữ liệu sử dụng trong bài báo này do chúng tôi tự xây dựng theo quan điểm thu thập
từ những trang báo mạng chính thống được biên tập cẩn thận. Trong cấu trúc của một bài
báo mạng thường được chia làm 3 phần: Tiêu đề, tóm tắt, nội dung. Chúng tôi xem phần
tóm tắt chính là phần tóm tắt của con người thực hiện. Do vậy, chúng tôi thu thập các văn
bản thuộc các lĩnh vực khác nhau với phần tóm tắt khoảng 100 từ để làm dữ liệu thử
nghiệm.
Ở bước tiền xử lý chúng tôi sử dụng các bộ công cụ sau:
- VnSentDetector (một gói của vnTokenizer) [11] để thực hiện tách câu tiếng Việt.
- Sử dụng các kỹ thuật tách từ của nhóm tác giả [14][15][16] được dùng để tách từ
tiếng Việt.
- Sử dụng bộ công cụ vnTagger[11] để gán nhãn từ loại với bộ 18 nhãn.
Bảng 1: Bảng ngữ liệu thử nghiệm báo Hà Tĩnh điện tử (
Lĩnh vực Chính trị Xã hội Kinh tế Thể thao
Số văn bản 1000 1000 1000 1000
3.4. Kết quả
Trong phần này, chúng tôi thực hiện xác định bộ hệ số 8 đặc trưng thông qua quá trình
đào tạo 80% văn bản mẫu bằng giải thuật di truyền với hàm thích nghi (13). Trong quá
trình đào tạo, giải thuật di truyền sẽ được thực hiện với các bước như sau:
Có 100 cá thể trong một quần thể.
Xác suất lai ghép 0.8
Xác suất đột biến 0.1
Thuật toán dừng khi đạt được 1000 thế hệ.
Tỷ lệ tóm tắt là 30%.
Trong mỗi lần thử nghiệm, mỗi lĩnh vực chúng tôi dùng 80% văn bản được sử dụng để
đào tạo và 20% văn bản dùng để thử nghiệm đánh giá. Thực hiện 5 lần chạy và đánh giá
kết quả trung bình.
Kỹ thuật điện tử & Khoa học máy tính
N. N. An, N. Q. Bắc, N. Đ. Hiếu, T. N. Anh,“Xác định các hệ số văn bản tiếng Việt.” 44
Bảng 2 cho thấy hệ số trung bình của mỗi đặc trưng văn bản được tính thông qua mô
hình đào tạo bằng giải thuật di truyền thông qua 5 lần thực hiện.
Bảng 2. Bảng kết quả hệ số đặc trưng.
Đặc trưng
Hệ số trung bình
Chính trị Xã hội Kinh tế
Thể
thao
F1 – Vị trí câu 0.20 0.16 0.11 0.16
F2- Trọng số TF.ISF (term frequency-
inverse sentence frequency) 0.05 0.09 0.06 0.03
F3 – Độ dài câu 0.03 0.03 0.03 0.06
F4 – Xác suất thực từ 0.16 0.11 0.09 0.21
F5- Danh từ riêng 0.04 0.20 0.22 0.10
F6- Dữ liệu số 0.17 0.03 0.06 0.03
F7 – Độ tương đồng giữa câu với tiêu
đề 0.16 0.19 0.19 0.22
F8- Câu trung tâm 0.20 0.20 0.23 0.18
Độ chính xác trung bình ROUGE-N
theo tỉ lệ tóm tắt 30%
46% 45% 48% 42%
Qua kết quả, chúng ta có thể thấy rằng, mỗi lĩnh vực sẽ có một bộ hệ số đặc trưng
khác nhau, trong đó các hệ số đặc trưng có kết quả cao phản ảnh sự quan trọng của đặc
trưng đó. Đặc trưng vị trí câu, xác suất thực từ, độ tương đồng với tiêu đề, câu trung tâm là
các đặc trưng có tính chất quan trọng trong cả 4 lĩnh vực, đặc trưng độ dài câu có hệ số
thấp phản ảnh đặc trưng này đóng vai trò không đáng kể trong tóm tắt văn bản. Các đặc
trưng còn lại phản ảnh mức độ quan trọng tuỳ vào từng lĩnh vực cụ thể. Ví dụ như, trong
lĩnh lực chính trị, đặc trưng dữ liệu số quan trọng, danh từ riêng không quan trọng nhưng
trong lĩnh vực xã hội, kinh tế và thể thao thì lại ngược lại.
Thực hiện thử nghiệm tóm tắt trên 20% văn bản mẫu còn lại bằng các bộ hệ số đặc
trưng trên trong từng lĩnh vực (trọng số câu được tính theo công thức 10). Kết quả tóm tắt
được đánh giá dựa trên độ ROUGE-N – độ đo đồng xuất hiện giữa văn bản do con người
tóm tắt và hệ thống (công thức 11).
Bảng 3. Bảng đánh giá độ chính xác trung bình của mô hình tóm tắt sử dụng thuật
toán di truyền.
Lĩnh vực
(20 văn bản mẫu, tỉ lệ tóm tắt 30%)
Độ chính xác trung bình(%)
ROUGE-N (N=1)
Chính trị 46 %
Xã hội 43%
Kinh tế 48%
Thể thao 43%
4. KẾT LUẬN
Bài báo này đã trình bày hướng tiếp cận mới trong tóm tắt đơn văn bản tiếng Việt theo
hướng trích rút dựa trên giải thuật di truyền. Nghiên cứu tập trung giải quyết hai vấn đề
trọng tâm:
- Xác định 8 đặc trưng quan trọng của văn bản tiếng Việt.
- Xác định các hệ số đặc trưng văn bản bằng giải thuật di truyền thông qua quá trình
học kho văn bản tóm tắt mẫu.
Nghiên cứu khoa học công nghệ
Tạp chí Nghiên cứu KH&CN quân sự, Số 32, 08 - 2014 45
Qua quá trình thử nghiệm tập văn bản thuộc 4 lĩnh vực chính trị, kinh tế, xã hội, thể
thao (mỗi lĩnh vực 1000 văn bản với tóm tắt con người bao gồm hơn 100 từ) chúng tôi
nhận thấy một số đặc trưng có ảnh hưởng lớn đến kết quả tóm tắt văn bản như vị trí câu,
xác suất thực từ, độ tương tự với tiêu đề, câu trung tâm. Đặc trưng độ dài câu đóng vai trò
không đáng kể, các đặc trưng còn lại phụ thuộc vào lĩnh vực văn bản. Với hướng tiếp cận
này, chúng ta có thể xây dựng bộ hệ số đặc trưng cho từng lĩnh vực văn bản cụ thể, phục
vụ hữu ích cho bài toán tóm tắt văn bản tiếng Việt.
TÀI LIỆU THAM KHẢO
[1]. Diệp Quang Ban, “Ngữ Pháp Tiếng Việt”, Nhà xuất bản giáo dục, 2004
[2]. Nguyễn Văn Tu, “Từ điển đồng nghĩa Tiếng Việt”, Nhà xuất bản giáo dục, 2001
[3]. Thanh Le Ha, Quyet Thang Huynh, Chi Mai Luong, “A Primary Study on
Summarization of Documents in Vietnamese”, Proceeding of the First International
Congress of the International Federation for Systems Research, Kobe, Japan, Nov 15-
17, 2005. pp.234-239.
[4]. Luận án Tiến sỹ, Nguyễn Thị Thu Hà. “Phát triển một số thuật toán tóm tắt văn bản
Tiếng Việt sử dụng phương pháp học bán giám sát”. Học viện Kỹ thuật quân sự,
2012, 175 trang.
[5]. M.L. Nguyen, Shimazu, Akira, Xuan, Hieu Phan, Tu, Bao Ho, Horiguchi, Susumu,
"Sentence Extraction with Support Vector Machine Ensemble", Proceedings of the
First World Congress of the International Federation for Systems Research : The New
Roles of Systems Sciences For a Knowledge-based Society 2005.
[6]. Luận án Tiến sỹ, Nguyễn Hoàng Tú Anh. “Tiếp cận đồ thị biểu diễn, khai thác văn
bản và ứng dụng”, Trường Đại học Khoa Học Tự Nhiên, ĐHQG-HCM, 2011.
[7]. Trương Quốc Định, Nguyễn Quang Dũng. “Một giải pháp tóm tắt văn bản tiếng Việt
tự động”, Hội thảo quốc gia lần thứ XV: Một số vấn đề chọn lọc của Công nghệ
thông tin và truyền thông- Hà Nội, 03-04/12/2012.
[8]. Nguyen Quang Uy, Pham Tuan Anh, Truong Cong Doan, Nguyen Xuan Hoai, “A
Study on the Use of Genetic Programming for Automatic Text Summarization”, KSE,
2012 4th Int. Conference on Knowledge and Systems Engineering, 2012, pp.93-98.
[9]. R.K. Gupta, “Genetic Algorithms-an Overview”, impulse E, ITM Uni., Vol. 1, 2006.
[10]. Dice, L.R. (1945): “Measures of the amount of ecologic association between
species”. Ecology 26, pp.297–302.
[11]. VLSP project, Vietnamese Language Processing,
[12]. Suanmali, L., Salim, N., Salem Binwahlan, M.: “Genetic Algorithm based Sentence
Extraction for Text Summarization”. Inter. J. of Innovative Computing 1(1), 2011.
[13]. Mohamed Abdel Fattah and Fuji Ren, "Automatic Text Summarization", Proceedings
of World Academy of Science, Engineering and Technology, Vol 27,ISSN 1307-
6884, 192-195, Feb 2008.
[14]. Ngoc Anh Tran, Thanh Tinh Dao, Phuong Thai Nguyen (2002), "An Effective
Context-based Method for Vietnamese Word Segmentation", Proceedings of the First
International Workshop on Vietnamese Language and Speech Processing (VLSP
2012), pp.34-40, In Conjunction with 9th IEEE-RIVF Conference on Computing and
Communication Technologies (RIVF 2012).
[15]. Ngoc Anh Tran, Thanh Tinh Dao, Phuong Thai Nguyen (2013), "Identifying
Coordinated Compound Words for Vietnamese Word Segmentation", Proceedings of
the 5th Inter. Conference of Soft Computing and Pattern Recognition (SoCPaR 2013).
Kỹ thuật điện tử & Khoa học máy tính
N. N. An, N. Q. Bắc, N. Đ. Hiếu, T. N. Anh,“Xác định các hệ số văn bản tiếng Việt.” 46
[1] Nguyễn Nhật An, Trần Ngọc Anh, Phan Thị Nguyệt Hoa, “Kỹ thuật Voting trong bài
toán tách từ tiếng Việt”, Tạp chí Nghiên cứu Khoa học & Công nghệ Quân sự, Đặc
san CNTT 04/2014, tr.54-61.
[2] Karel Jezek and Josef Steinberger, “Automatic Text summarization”, Vaclav Snasel
(Ed.): Znalosti 2008, pp.1-12, ISBN 978-80-227-2827-0, FIIT STU Brarislava,
UstavInformatiky a softveroveho inzinierstva, 2008.
ABSTRACT
DETERMINING THE TEXT FEATURE COEFFICIENTS BY GENETIC ALGORITHM
FOR VIETNAMESE TEXT SUMMARIZATION
Text summarization is the text concise process that retains the important
information. This paper proposes a new approach in Vietnamese text
summarization (by Extraction Summarization) based on key characteristics such
as location of sentences, sentence length, weight TFxISF, probability of
substantive word, similarity between the sentence and the title, center sentence,...
The first, we identified a set of the features in Vietnamese text. The next step, we
use the genetic algorithms to determine the feature coefficients of training text
corpus. Experiments of text summarization with coefficients determined by
genetic algorithm show the summary texts are highly accurate, can be applied in
practice.
Keywords: Vietnamese text summarization, Text feature coefficients, Gennetic algorithm.
Nhận bài ngày 02 tháng 07 năm 2014
Hoàn thiện ngày 25 tháng 07 năm 2014
Chấp nhận đăng ngày 03 tháng 08 năm 2014
Địa chỉ: * Viện Công nghệ thông tin, Viện KH-CN Quân sự - nguyennhatan@gmail.com
** Khoa CNTT, Học viện Kỹ thuật Quân sự - anhtn69@gmail.com
Các file đính kèm theo tài liệu này:
- 06_nguyennhatan_5692_2149176.pdf