Tài liệu Phương pháp đánh giá độ tương tự ngữ nghĩa giữa các văn bản Tiếng Việt dựa trên mô hình WORD2VEC - Ngô Hữu Phúc: Nghiên cứu khoa học công nghệ
Tạp chí Nghiên cứu KH&CN quân sự, Số Đặc san CNTT, 11 - 2018 103
PHƯƠNG PHÁP ĐÁNH GIÁ ĐỘ TƯƠNG TỰ NGỮ NGHĨA GIỮA
CÁC VĂN BẢN TIẾNG VIỆT DỰA TRÊN MÔ HÌNH WORD2VEC
Ngô Hữu Phúc1*, Phạm Văn Lai2, Vi Bảo Ngọc1, Nguyễn Chí Công1,
Nguyễn Mạnh Trường3
Tóm tắt: Đánh giá độ tương tự ngữ nghĩa giữa các văn bản được sử dụng trong
nhiều ứng dụng như tìm kiếm thông tin, tóm tắt văn bản,và dịch máy. Với văn bản
tiếng Việt, một trong các hướng tiếp cận là dựa trên việc so khớp từ bởi vì đơn giản,
và dễ cài đặt. Gần đây, một phương pháp đánh giá mới được phát triển dựa trên
việc so khớp từ và khoảng cách Levenshtein giữa 2 xâu. Tuy nhiên, phương pháp này
chưa quan tâm đến hiện tượng từ đồng nghĩa. Trong bài báo này, chúng tôi tích hợp
mô hình Word2Vec vào phương pháp trên nhằm bổ sung việc đánh giá ngữ nghĩa
của các từ trong văn bản. Kết quả thử nghiệm cho thấy độ chính xác trung bình của
phương pháp đề xuất được nâng từ 47.37% lên 79.07%.
Từ ...
9 trang |
Chia sẻ: quangot475 | Lượt xem: 682 | Lượt tải: 0
Bạn đang xem nội dung tài liệu Phương pháp đánh giá độ tương tự ngữ nghĩa giữa các văn bản Tiếng Việt dựa trên mô hình WORD2VEC - Ngô Hữu Phúc, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
Nghiên cứu khoa học công nghệ
Tạp chí Nghiên cứu KH&CN quân sự, Số Đặc san CNTT, 11 - 2018 103
PHƯƠNG PHÁP ĐÁNH GIÁ ĐỘ TƯƠNG TỰ NGỮ NGHĨA GIỮA
CÁC VĂN BẢN TIẾNG VIỆT DỰA TRÊN MÔ HÌNH WORD2VEC
Ngô Hữu Phúc1*, Phạm Văn Lai2, Vi Bảo Ngọc1, Nguyễn Chí Công1,
Nguyễn Mạnh Trường3
Tóm tắt: Đánh giá độ tương tự ngữ nghĩa giữa các văn bản được sử dụng trong
nhiều ứng dụng như tìm kiếm thông tin, tóm tắt văn bản,và dịch máy. Với văn bản
tiếng Việt, một trong các hướng tiếp cận là dựa trên việc so khớp từ bởi vì đơn giản,
và dễ cài đặt. Gần đây, một phương pháp đánh giá mới được phát triển dựa trên
việc so khớp từ và khoảng cách Levenshtein giữa 2 xâu. Tuy nhiên, phương pháp này
chưa quan tâm đến hiện tượng từ đồng nghĩa. Trong bài báo này, chúng tôi tích hợp
mô hình Word2Vec vào phương pháp trên nhằm bổ sung việc đánh giá ngữ nghĩa
của các từ trong văn bản. Kết quả thử nghiệm cho thấy độ chính xác trung bình của
phương pháp đề xuất được nâng từ 47.37% lên 79.07%.
Từ khóa: Xử lý ngôn ngữ tự nghiên; Học sâu; Độ tương tự ngữ nghĩa; Mô hình vector từ.
1. ĐẶT VẤN ĐỀ
Đánh giá độ tương tự ngữ nghĩa giữa các văn bản đóng vai trò quan trọng trong
phát triển các ứng dụng xử lý ngôn ngữ tự nhiên như: mô hình vector trong các bài
toán tìm kiếm thông tin, phân lớp văn bản, dịch máy tự động, đánh giá tính chặt
chẽ của văn bản, Trong một số trường hợp, phương pháp đánh giá độ tương tự
giữa hai đoạn văn bản sử dụng việc so khớp từ đơn giản, dựa trên số đơn vị từ
vựng xuất hiện ở cả hai đoạn văn bản đầu vào. Một số cải tiến với phương pháp
đơn giản này đã được đề xuất để nâng cao hiệu quả đánh giá: xem xét đến gốc từ
(stemming), loại bỏ các từ dừng, gán nhãn từ loại (part-of-speech tagging), so khớp
tập con dài nhất, . Tuy nhiên, sử dụng độ tương tự từ vựng không phải lúc nào
cũng xác định được độ tương tự ngữ nghĩa văn bản.
Trong khi đó có rất nhiều phương pháp đánh giá độ tương tự ngữ nghĩa giữa từ
với từ, hoặc dựa trên cơ sở tri thức (knowledge-based), hoặc dựa trên kho ngữ liệu
(corpus-based). Các độ đo này được áp dụng thành công trong một số bài toán xử
lý ngôn ngữ như phát hiện từ dùng sai nghĩa, nhận dạng từ đồng nghĩa, . Từ đó,
một số nghiên cứu đưa ra các phương pháp đánh giá độ tương tự ngữ nghĩa văn
bản dựa trên việc khai thác các thông tin có được từ độ tương tự ngữ nghĩa của các
từ thành phần trong văn bản [6, 9, 12].
Đối với văn bản tiếng Việt, các mô hình tính độ tương tự văn bản thường dựa
trên quan hệ ngữ nghĩa giữa các từ. Một số mô hình dựa trên bộ từ điển đồng nghĩa
WordNet dành cho tiếng Anh [1], do WordNet cho tiếng Việt hiện vẫn đang được
hoàn thiện và chưa được công bố. Do đó, các phương pháp dựa trên WordNet phụ
thuộc vào việc dịch Anh – Việt. Một số phương pháp khác được đề xuất thay thế
WordNet như phương pháp phân tích ngữ nghĩa tiềm ẩn (Latent Semantic Analysis
- LSA), hay phân tích chủ đề ẩn (Latent Dirichlet Allocation – LDA), hoặc sử dụng
mạng ngữ nghĩa Wikipedia [3]. Bên cạnh đó, nhóm tác giả H. N. Phát, H. H. Hạnh
Công nghệ thông tin
N. H. Phúc, , N. M. Tường, “Phương pháp đánh giá dựa trên mô hình Word2Vec.” 104
và P. C. Vinh [2] đề xuất một phương pháp đánh giá độ tương tự giữa hai văn bản
dựa trên việc so khớp từ và khoảng cách Levenshtein giữa 2 xâu. Tuy nhiên,
phương pháp này không thể khẳng định được độ tương tự ngữ nghĩa của văn bản
do chưa quan tâm đến hiện tượng đồng nghĩa của từ.
Trong những năm gần đây, một nhóm các nhà nghiên cứu dẫn đầu bởi Tomas
Mikolov tại Google đã đưa ra mô hình Word2Vec dựa trên kỹ thuật học sâu (Deep
Learning) [7,8]. Mô hình Word2Vec cũng không đòi hỏi khối lượng tính toán
nhiều như LDA và nó giữ được mối quan hệ tuyến tính giữa các từ với nhau so với
mô hình LSA. Trong [8], Mikolov cũng chỉ ra rằng việc kết hợp mô hình Skip-
Gram với giải thuật học sâu đem lại kết quả tốt hơn mô hình LSA. Mô hình
Word2Vec biểu diễn các từ thông qua các vector thực, từ đó có thể tính độ tương
tự giữa về mặt ngữ nghĩa giữa từ và từ (từ đồng nghĩa) thông qua độ đo Cosine
giữa các vector từ tương ứng. Do vậy, trong nghiên cứu này, chúng tôi sử dụng mô
hình vector từ Word2Vec, để đánh giá độ tương từ giữa từ với từ, sau đó kết hợp
với độ đo được đề xuất ở [2] để đưa ra một phương pháp mới nhằm đánh giá độ
tương tự ngữ nghĩa giữa các văn bản tiếng Việt.
2. PHƯƠNG PHÁP TÍNH ĐỘ TƯƠNG TỰ GIỮA 2 CÂU
2.1. Khoảng Levenshtein và ứng dụng trong bài toán so khớp
Khoảng cách Levenshtein [11] thể hiện sự khác biệt giữa 2 xâu kí tự. Khoảng
cách này được sử dụng trong việc tính toán sự giống và khác nhau giữa 2 xâu, như
chương trình kiểm tra lỗi chính tả của Winword Spellchecker.
Dựa trên khoảng cách Levenshtein, một độ đo để xác định sự tương tự về từ
vựng của các câu được đề xuất như sau [2]: giả sử, muốn tính toán sự tương tự về
từ vựng giữa câu s và t, ta thực hiện các bước sau:
- Bước 1: Thực hiện thao tác tách từ với 2 câu s, t. Sau đó đưa các từ vào hai
túi từ tương ứng.
- Bước 2: Loại bỏ các cặp từ giống nhau trong hai túi từ.
- Bước 3: Nếu cả hai túi rỗng, khoảng cách giữa hai câu đầu vào sẽ là 0.
Ngược lại, các từ còn lại trong hai túi được kết nối thành hai xâu s’ và t’,
sau đó tính khoảng cách Levenshtein giữa 2 xâu s’ và t’.
- Bước 4: Độ tương tự về từ vựng giữa 2 câu s và t được xác định như sau:
Levenshtein_distance ', '
Lexical_Similarity( , ) 1
max_len ,
s t
s t
s t
(1)
Trong đó Levenshtein_distance là khoảng cách Levenshtein giữa xâu s’ và t’,
và max_len là độ dài của câu dài nhất trong 2 câu s và t.
Ví dụ: Tính độ tương tự về từ vựng của 2 câu:
s = “Tôi đồng_ý với ý_kiến trên” ; t = “Tôi nhất_trí với ý_kiến trên”
Nghiên cứu khoa học công nghệ
Tạp chí Nghiên cứu KH&CN quân sự, Số Đặc san CNTT, 11 - 2018 105
Tách 2 câu s, t thành các từ, đưa chúng vào 2 túi từ:
bag_of_words(s) = {“Tôi”, “đồng_ý”, “với”, “ý_kiến”, “trên”}
bag_of_words(t) = {“Tôi”, “nhất_trí”, “với”, “ý_kiến”, “trên”}
Loại bỏ các từ “Tôi”, “với”, “ý_kiến”, “trên” ra khỏi hai túi từ, ta thu được:
bags_of_words(s) = {“đồng_ý”}; bags_of_words(t) = {“nhất_trí”}
Nối các từ còn lại trong 2 túi từ thành 2 xâu, sau đó tính khoảng cách Levenshtein
giữa 2 xâu được kết quả như sau:
Levenshtein_distance 7"®ång_ý","nhÊt trÝ"
Như vậy, sự tương tự giữa 2 câu s và t sẽ là:
Levenshtein_distance s', t' 7
Lexical_Similarity( , ) 1 1 0.7586
max_len s, t 29
s t
Với kết quả trên, có thể thấy, mặc dù hai câu có nghĩa như nhau, tuy nhiên
khoảng cách vẫn còn quá nhỏ. Đề xuất cải tiến mới được trình bầy trong mục 3 của
phần này để khắc phục nhược điểm trên.
2.2. Mô hình vector từ Word2Vec
Trong các bài toán xử lý ngôn ngữ tự nhiên, các từ thường được mã hóa bởi
vector chỉ số (hay còn gọi là one-hot vector) có kích thước bằng kích thước của bộ
tự điển, từ này xuất hiện tại vị trí nào trong từ điển thì thành phần tương ứng trong
vector bằng 1 và ngược lại bằng 0. Cách biểu diễn này khá đơn giản, dễ hiểu tuy
nhiên có nhược điểm: thứ nhất biểu diễn thu được thưa, thứ hai với cách biểu diễn
này không thể hiện được mối quan hệ ngữ nghĩa giữa các từ. Khắc phục những
nhược điểm này, một số phương pháp học máy đã tạo ra những cách biểu diễn tốt
hơn, một trong đó là biểu diễn từ phân tán (distributed word representation) sử
dụng mô hình Word2Vec.
Có 2 mô hình Word2Vec [7,8] được đề xuất: mô hình CBOW (Contiuous Bag
of Word) và mô hình Skip – Gram. Trong cả 2 mô hình, một cửa sổ sẽ dịch chuyển
trên bộ ngữ liệu và tại mỗi bước mạng sẽ được huấn luyện với các từ nằm trong
cửa sổ đó (còn được gọi là ngữ cảnh của từ). Mô hình CBOW được huấn luyện để
dự báo từ xuất hiện ở trung tâm ngữ cảnh dựa vào các từ xung quanh, còn mô hình
Skip – Gram được huấn luyện để dự báo ngữ cảnh xung quanh của từ. Sau khi
mạng neuron được huấn luyện xong, vector thể hiện phép biến đổi tuyến tính ở lớp
ẩn sẽ là vector biểu diễn của từ trung tâm. Trong các bài toán liên quan đến ngữ
nghĩa của từ, mô hình Skip – Gram được đánh giá phù hợp hơn [12]. Do vậy, trong
nghiên cứu này, chúng tôi sử dụng mô hình Skip – Gram.
Mô hình Skip-Gram: Hình dưới thể hiện mô hình mạng Skip-Gram. Trong đó:
V là kích thước của bộ từ điển; N là kích thước lớp ẩn (đồng thời cũng là kích
thước của vector từ sẽ thu được sau khi huấn luyện); Đầu vào là từ vựng thứ k
trong từ điển, ký hiệu
k
w , được mã hóa dưới dạng one – hot vector
1V
x
;
V N
W
là
Công nghệ thông tin
N. H. Phúc, , N. M. Tường, “Phương pháp đánh giá dựa trên mô hình Word2Vec.” 106
ma trận trọng số giữa lớp đầu vào và lớp ẩn;
'
V N
W
là ma trận trọng số giữa lớp ẩn
và lớp đầu ra; C số từ trong ngữ cảnh của từ đầu vào.
Quá trình học:
• Trọng số của lớp ẩn được tính theo công thức: :W
k
T
k w
h x W v
• Đầu ra của node thứ j của từ ra thứ c ở lớp ra được tính thông qua hàm
softmax như sau:
,
, ,
1
exp
|
exp
c j
j o c k c j V
i
i
u
p w w w y
u
(2)
trong đó:
j
w là từ thứ j trong từ điển; ,o cw là từ xuất hiện tại vị trí c trong ngữ cảnh;
Do các kênh ở lớp ra có chung một trọng số nên
'
, w
j
c j j
u u v h với
'
w
j
v là hàng
thứ j của ma trận
'
V N
W
• Ký hiệu
*
c
j là vị trí của từ
,o c
w trong từ điển; và
*
, *
1
0
c
c j
c
j j
t
j j
, như
vậy
,c j
t chính là đầu ra mong muốn tại kênh c. Do vậy, hàm lỗi ở lớp ra được tính
như sau:
, , ,c j c j c j
e y t
• Cập nhật lần lượt các ma trận trọng số
V N
W
,
'
V N
W
theo công thức sau:
Nghiên cứu khoa học công nghệ
Tạp chí Nghiên cứu KH&CN quân sự, Số Đặc san CNTT, 11 - 2018 107
'(new) '( )
,
1
C
old
ij ij c j i
c
w w e h
; ( ) ( ) ',
1 1
V C
new old
ij ij c j ij j
j c
w w e w x
(3)
trong đó 0 là tham số huấn luyện.
• Quá trình huấn luyện dừng khi vượt quá số lần lặp cho trước, hoặc khi sai
số (lỗi) đủ nhỏ.
2.3. Độ tương tự giữa 2 văn bản dựa vào mô hình Word2Vec
Với mô hình Word2Vec, dựa vào độ đo Cosine giữa 2 vector, ta có thể lựa
chọn ra rất nhiều từ tương tự với từ đã cho (độ đo Cosine càng lớn, độ tương tự
càng lớn). Tuy nhiên trong nghiên cứu này, chúng tôi chỉ lấy những từ có khoảng
cách Cosine lớn hơn một ngưỡng xác định, ngưỡng này được lựa chọn thông qua
thử nghiệm được trình bày ở mục 3. Ta gọi đó là các từ gần gũi (thường là các từ
đồng nghĩa) với từ đã cho.
Khi có tập từ gần gũi, ta sẽ cải tiến thuật toán đo độ tương tự về từ vựng giữa 2
câu để thu được độ tương tự ngữ nghĩa giữa 2 câu, cụ thể như sau:
- Bước 1: Thực hiện thao tác tách từ với 2 câu s, t. Sau đó đưa các từ vào hai
túi từ tương ứng.
- Bước 2: Loại bỏ các cặp từ giống nhau trong hai túi từ.
- Bước 3: Loại bỏ các cặp từ gần gũi trong hai túi từ.
- Bước 3: Nếu cả hai túi rỗng, khoảng cách giữa hai câu đầu vào sẽ là 0.
Ngược lại, các từ còn lại trong hai túi được kết nối thành hai xâu s’ và t’ và
tính khoảng cách Levenshtein giữa 2 xâu đó.
- Bước 4: Độ tương tự về ngữ nghĩa giữa 2 câu s và t được xác định như sau:
Levenshtein_distance ', '
Semantic _Similarity( , ) 1
max_len ,
s t
s t
s t
(4)
Trong đó Levenshtein_distance là khoảng cách Levenshtein giữa xâu s’ và t’,
và max_len là độ dài của câu dài nhất trong 2 câu s và t.
Ví dụ: Tính độ tương tự về từ vựng của 2 câu:
s = “Tôi đồng_ý với ý_kiến trên”
t = “Tôi nhất_trí với ý_kiến trên”
Tách 2 câu s, t thành các từ, đưa chúng vào 2 túi từ:
bag_of_words(s) = {“Tôi”, “đồng_ý”, “với”, “ý_kiến”, “trên”}
bag_of_words(t) = {“Tôi”, “nhất_trí”, “với”, “ý_kiến”, “trên”}
Loại bỏ các cặp từ giống nhau ra khỏi túi từ. Ngoài ra, 2 cặp từ “đồng_ý”
và “nhất_trí” có khoảng cách cosine là 0.67 nên ta có thể loại thêm 2 từ đó ra khỏi
túi từ. Sau khi loại ta sẽ có các túi sau:
bags_of_words(s) = {“”}; bags_of_words(t) = {“”}
Như vậy, độ tương tự giữa câu s và t sẽ là:
Công nghệ thông tin
N. H. Phúc, , N. M. Tường, “Phương pháp đánh giá dựa trên mô hình Word2Vec.” 108
Levenshtein_distance "","" 0
Semantic_Similarity( , ) 1 1 1
max_len s, t 29
s t
Như vậy 2 câu trên tương tự với hệ số tương tự cao nhất. Kết quả cho thấy với
việc sử dụng mô hình Word2Vec để xác định các từ gần gũi, độ đo
Sematic_Simlarity đã phản ánh được độ tương tự về mặt ngữ nghĩa giữa 2 câu.
3. THỬ NGHIỆM VÀ ĐÁNH GIÁ
Các thử nghiệm của chúng tôi được tiến hành cài đặt và chạy thử nghiệm trên
máy Laptop Core i5 tốc độ 1.6 Ghz, 8 Gb Ram.
Với mô hình Word2Vec, độ tương tự giữa hai từ được dựa vào độ đo Cosine
giữa 2 vector, độ đo Cosine càng lớn, độ tương tự càng lớn. Tuy nhiên, chưa có
nghiên cứu nào chỉ ra 2 từ đồng nghĩa thì có khoảng cách Cosine bằng bao nhiêu,
do vậy chúng tôi tiến hành thử nghiệm nhằm tìm ra một giá trị ngưỡng phù hợp để
xác định 2 từ gần gũi (đồng nghĩa). Hai từ sẽ được coi là gần gũi nếu khoảng cách
Cosine giữa 2 từ này lớn hơn hoặc bằng giá trị ngưỡng.
Trong các thử nghiệm, để thu được vector từ, chúng tôi sử dụng mô hình đã
được huấn luyện và công bố tại mô hình này sử dụng thư
viện Deeplearning4j trong Java. Sau đó, chúng tôi huấn luyện bổ sung với ngữ liệu
thu được từ các văn kiện Đại hội Đảng, báo lao động, báo nhân dân, .. Dữ liệu
tiếng Việt đầu vào được xử lý tách câu và tách từ lần lượt, sử dụng 2 công cụ
vnSentDetector và vnTokenizer do nhóm của Lê Hồng Phương và đồng nghiệp xây
dựng[ 4,5].
Thử nghiệm 1. Xác định ngưỡng tương tự giữa từ với từ
Trong thử nghiệm này, chúng tôi lấy 300 từ trong từ điển, sau đó với mỗi từ, sử
dụng lần lượt các ngưỡng 0.4, 0.5, 0.6 để xác định các từ gần gũi với từ đã cho.
Kết quả được thể hiện ở Bảng 1.
Bảng 1. Thử nghiệm độ tương tự từ với từ trong Word2Vec.
Ngưỡng = 0.4 Ngưỡng = 0.5 Ngưỡng = 0.6
SL từ
gần gũi
TB thu
được
SL từ
sai
TB
Tỉ lệ
sai
SL từ
gần gũi
TB
SL
từ
sai
TB
Tỉ lệ
sai %
SL từ
gần gũi
TB
SL từ
sai
TB
Tỉ lệ
sai %
39.11 36.46
46.62
%
18.05 2.12 11.75
%
8.45 0.46 2.57
%
Từ kết quả ta nhận thấy: Với ngưỡng 0.4, với mỗi từ thu được trung bình khoảng
39 từ được xem là đồng nghĩa, tuy nhiên trong đó khi được xem xét cụ thể về mặt
ngữ nghĩa có tỉ lệ sai lên đến 46.62%. Tương tự với ngưỡng 0.5 và 0.6 tỉ lệ sai lần
lượt là 11.75% và 2.57%. Với ngưỡng 0.6, tỉ lệ sai nhỏ tuy nhiên số từ đồng nghĩa
Nghiên cứu khoa học công nghệ
Tạp chí Nghiên cứu KH&CN quân sự, Số Đặc san CNTT, 11 - 2018 109
tìm được cũng ít đi đáng kể, chỉ khoảng 8 từ, trong khi với Tiếng Việt có rất nhiều từ
đồng nghĩa. Do vậy, chúng tôi chọn ngưỡng 0.5 do có số lượng từ vừa đủ, trung bình
với mỗi từ ta tìm được 18 từ đồng nghĩa vài tỉ lệ sai vào khoảng 11.75%.
Thử nghiệm 2. Xác định ngưỡng tương tự giữa câu với câu
Cũng tương tự như việc xác định 2 từ đồng nghĩa, để xác định 2 câu đồng
nghĩa ta cũng cần xác định các ngưỡng về độ đo. Trong thử nghiệm này, để xác
định ngưỡng phù hợp với từng độ đo, chúng tôi tiến hành tính độ tương tự giữa
150 cặp câu đồng nghĩa, với 2 độ đo: Lexical_Similarity được đề xuất trong [2], và
độ đo Semantic_Similarity do chúng tôi đề xuất. Độ tương tự trung bình của 150
cặp câu tương ứng với 2 độ đo Lexical_Similarity và Semantic_Similarity là
0.4144 và 0.672. Do vậy, trong thử nghiệm tiếp theo, để xác định độ tương tự giữa
2 câu, chúng tôi sử dụng ngưỡng 0.4 cho độ đo Lexical_Similarity và ngưỡng 0.6
cho độ đo Semantic_Similarity.
Thử nghiệm 3. Tìm câu đồng nghĩa với câu cho trước trong một văn bản.
Nghiên cứu của chúng tôi được sử dụng để hỗ trợ quá trình tổng hợp ý kiến hội
nghị, do vậy sau khi xác định ngưỡng với từng độ đo, chúng tôi tiến hành thử
nghiệm tìm câu đồng nghĩa với câu cho trước trong một văn bản gồm n câu (so
khớp 1 – n).
Bài toán tổng hợp ý kiến hội nghị có thể được phát biểu ngắn gọn như sau:
trong một cuộc họp có nhiều chủ đề, với mỗi chủ đề có n ý kiến phát biểu, mỗi ý
kiến có m thư kí ghi chép lại. Người tổng hợp biên bản sẽ có văn bản được tổng
hợp từ m thư ký. Như vậy số lượng các nội dung trùng lặp là nhiều, có thể trùng
lặp toàn bộ hoặc một phần nội dung nhưng được diễn đạt theo các cách khác nhau
cả về hình thức lẫn ngữ nghĩa. Người tổng hợp biên bản muốn thực hiện công việc
một cách nhanh chóng cần phát hiện và loại bỏ các ý kiến trùng lặp về nội dung và
hình thức để đưa ra được đánh giá chung nhất.
Do vậy các văn bản thử nghiệm có thể coi là văn bản được tổng hợp từ m thư
ký, như vậy với 1 nội dung sẽ có m cách diễn đạt khác nhau, tương ứng với m câu
đồng nghĩa xuất hiện trong văn bản đó.
Bảng 2 và bảng 3 thể hiện kết quả tìm kiếm sử dụng lần lượt độ đo
Lexical_Similarity và Sematic_Similarity.
Bảng 2. Thử nghiệm so khớp 1 – n với độ đo Lexical_Similarity.
STT n m Đúng Sai Thiếu Tỉ lệ đúng Tỉ lệ sai Tỉ lệ thiếu
1 10 4 2 1 1 50.00% 25.00% 25.00%
2 50 7 3 2 2 42.86% 28.57% 28.57%
3 100 20 9 3 8 45.00% 15.00% 40.00%
4 200 45 22 8 15 48.89% 17.78% 33.33%
Tổng 360 76 36 14 26 47.37% 18.42% 34.21%
Công nghệ thông tin
N. H. Phúc, , N. M. Tường, “Phương pháp đánh giá dựa trên mô hình Word2Vec.” 110
Bảng 3. Thử nghiệm so khớp 1 – n với độ đo Semantic_Similarity 1-n.
STT n m Đúng Sai Thiếu Tỉ lệ đúng Tỉ lệ sai Tỉ lệ thiếu
1 10 4 3 1 0 75.00% 25.00% 0.00%
2 50 7 6 1 0 85.71% 14.29% 0.00%
3 100 20 16 3 1 80.00% 15.00% 5.00%
4 200 45 34 7 4 75.56% 15.56% 8.89%
Tổng 360 60 47 9 4 79.07% 17.46% 3.47%
Kết quả thu được cho thấy độ đo đề xuất Semantic_Similarity cho đã nâng độ
chính xác trung bình từ 47.37% lên 79.07%
4. KẾT LUẬN
Với việc xác định các tập từ đồng nghĩa dựa trên khoảng cách Cosine giữa 2
vector mã hóa từ xác định bởi mô hình Word2Vec, chúng tôi đã đề xuất một phương
pháp mới đo độ tương tự ngữ nghĩa giữa hai văn bản tiếng Việt. Kết quả thử nghiệm
cho thấy rằng độ đo mới thu được kết quả tốt và tỏ ra phù hợp khi áp dụng vào bài
toán tổng hợp văn bản. Trong thử nghiệm với bài toán tổng hợp văn bản tiếng Việt,
kết quả đạt được là trên 75% có thể chấp nhận được trong những điều kiện thực tế.
Phương pháp đề xuất không xét đến từ loại, do đó khi áp dụng trong các ứng dụng
xử lý ngôn ngữ tự nhiên khác cần thêm các nghiên cứu tiếp theo.
TÀI LIỆU THAM KHẢO
[1]. D. T. Long, T. T. Tùng, T. T. Dũng, Phương pháp đánh giá độ tương tự văn
bản Tiếng Việt, Tạp chí Khoa học Viện Đại học Mở Hà Nội, 2017.
[2]. H. N. Phát, H. H. Hạnh và P. C. Vinh, Thuật toán mới về so khớp Ontology,
FAIR, 2015.
[3]. Hien Nguyen, Phuc Duong, Vinh Vo, Vietnamese Sentence Similarity Based
on Concepts, 13th IFIP International Conference on Computer Information
Systems and Industrial Management (CISIM), Nov 2014.
[4]. L. H. Phuong and H. T. Vinh, A Maximum Entropy Approach to Sentence
Boundary Detection of Vietnamese Texts, IEEE International Conference on
Research, Innovation and Vision for the Future RIVF 2008, Vietnam, 2008
[5]. L. H. Phuong, N.T.M. Huyen, Roussanaly A., H. T. Vinh, A Hybrid Approach
to Word Segmentation of Vietnamese Texts. In: Martín-Vide C., Otto F., Fernau
H. (eds) Language and Automata Theory and Applications. LATA 2008.
Lecture Notes in Computer Science, vol 5196. Springer, Heidelberg, 2008.
[6]. Landauer, T. K., Foltz, P. and Laham, D., Introduction to latent semantic
analysis. Discourse Processes 25, 1998.
Nghiên cứu khoa học công nghệ
Tạp chí Nghiên cứu KH&CN quân sự, Số Đặc san CNTT, 11 - 2018 111
[7]. Mikolov, T., Chen, K., Corrado, G., and Dean, J., Efficient estimation of word
representations in vector space, arXiv preprint arXiv:1301.3781, 2013.
[8]. Mikolov, T., Sutskever, I., Chen, K., Corrado, G. S., and Dean, J., Distributed
representations of words and phrases and their compositionality, In Advances
in Neural Information Processing Systems, 2013, 3111-3119.
[9]. Rada Mihalcea, CourtneyCorley, Carlo Strapparava, Corpus-based and
Knowledge-based Measures of Text Semantic Similarity, American
Association for Artificial Intelligence, 2006, 775-780.
[10]. Voorhees, E. Using WordNet to disambiguate word senses for text retrieval.
Proceedings of the 16th international ACM SIGIR conference, 1993.
[11]. V. I. Levenshtein, Binary codes capable of correcting deletions, insertions,
and reversals, Soviet Physics Doklady10, 1966, 707–710
[12]. Xin Rong, Word2Vec Parameter Learning Explained, Journal of Computing
Research Repository, 2014.
[13]. Yuhua Li, David McLean, Zuhair A. Bandar, James D. O’Shea, and Keeley
Crockett, Sentence Similarity Based on Semantic Nets and Corpus Statistics,
IEEE transactions on knowledge and data engineering, Vol. 18, No. 8, 2006.
ABSTRACT
A NEW METHOD FOR EVALUATING SEMANTIC SIMILARITY OF
VIETNAMESE TEXTS BASED ON WORD2VEC MODEL
Evaluation of semantic similarity has been used in many applications such
as information retrieval, text summarization, and machine translation. Some
methods for evaluating semantic similarity of Vietnamese are based on word
matching because of simplify and easy implementation. Recently, there was a
proposed measure of text similarity by combining the word matching and
Levenshtein distance of two strings. However, this method does not consider
synonyms. This paper presents a novel method for measuring the semantic
similarity of Vietnamese texts by integrating Word2Vec model into the above
method. The novelty of proposed methods is the compensation of the semantic
similarity evaluation by the Word2Vec model. The results show that the
proposed measure outperforms, and it increases the average accuracy from
47.37% to 78.83%.
Keywords: Natural Language Processing; Deep Learning; Sematic Similarity; Word2Vec.
Nhận bài ngày 27 tháng 6 năm 2018
Hoàn thiện ngày 27 tháng 9 năm 2018
Chấp nhận đăng ngày 05 tháng 11 năm 2018
Địa chỉ: 1 Học viện Kỹ thuật quân sự ;
2 Viện Công nghệ Thông tin/ Viện KH – CNQS;
3 Cục 75, Tổng cục 2.
* Email: laipv1984@gmail.com.
Các file đính kèm theo tài liệu này:
- 11_phuc_5097_2150529.pdf