Tài liệu Kết hợp mô hình thừa số hóa ma trận không âm với các nhóm ràng buộc thưa để khai thác mô hình phổ tổng quát trong bài toán tách nguồn âm thanh đơn kênh: Nghiên cứu khoa học công nghệ
Tạp chí Nghiên cứu KH&CN quân sự, Số 54, 04 - 2018 83
KẾT HỢP MÔ HÌNH THỪA SỐ HÓA MA TRẬN KHÔNG ÂM
VỚI CÁC NHÓM RÀNG BUỘC THƯA ĐỂ KHAI THÁC
MÔ HÌNH PHỔ TỔNG QUÁT TRONG BÀI TOÁN
TÁCH NGUỒN ÂM THANH ĐƠN KÊNH
Dương Thị Hiền Thanh1,2, Nguyễn Công Phương1,3, Nguyễn Quốc Cường3*
Tóm tắt: Bài báo tập trung giải quyết bài toán phân tách những âm thanh mong
muốn từ tín hiệu thu âm đơn kênh gồm nhiều âm thanh khác nhau bị trộn lẫn trong
điều kiện không có dữ liệu huấn luyện cho các âm thanh cần phân tách. Đây là vấn đề
còn nhiều khó khăn thách thức trong lĩnh vực tách nguồn âm thanh (audio/acoustic
source separation). Tiếp cận theo hướng sử dụng mô hình thừa số hóa ma trận không
âm (Nonnegative Matrix Factorization - NMF) để xử lý thông tin phổ của tín hiệu, bài
báo đề xuất giải pháp xây dựng và khai thác mô hình phổ tổng quát cho các tín hiệu
nguồn cần tách. Đặc biệt, chúng tôi đề xuất kết hợp mô hình NMF với các nhóm ràng
buộc thưa (g...
12 trang |
Chia sẻ: quangot475 | Lượt xem: 408 | Lượt tải: 0
Bạn đang xem nội dung tài liệu Kết hợp mô hình thừa số hóa ma trận không âm với các nhóm ràng buộc thưa để khai thác mô hình phổ tổng quát trong bài toán tách nguồn âm thanh đơn kênh, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
Nghiên cứu khoa học công nghệ
Tạp chí Nghiên cứu KH&CN quân sự, Số 54, 04 - 2018 83
KẾT HỢP MÔ HÌNH THỪA SỐ HÓA MA TRẬN KHÔNG ÂM
VỚI CÁC NHÓM RÀNG BUỘC THƯA ĐỂ KHAI THÁC
MÔ HÌNH PHỔ TỔNG QUÁT TRONG BÀI TOÁN
TÁCH NGUỒN ÂM THANH ĐƠN KÊNH
Dương Thị Hiền Thanh1,2, Nguyễn Công Phương1,3, Nguyễn Quốc Cường3*
Tóm tắt: Bài báo tập trung giải quyết bài toán phân tách những âm thanh mong
muốn từ tín hiệu thu âm đơn kênh gồm nhiều âm thanh khác nhau bị trộn lẫn trong
điều kiện không có dữ liệu huấn luyện cho các âm thanh cần phân tách. Đây là vấn đề
còn nhiều khó khăn thách thức trong lĩnh vực tách nguồn âm thanh (audio/acoustic
source separation). Tiếp cận theo hướng sử dụng mô hình thừa số hóa ma trận không
âm (Nonnegative Matrix Factorization - NMF) để xử lý thông tin phổ của tín hiệu, bài
báo đề xuất giải pháp xây dựng và khai thác mô hình phổ tổng quát cho các tín hiệu
nguồn cần tách. Đặc biệt, chúng tôi đề xuất kết hợp mô hình NMF với các nhóm ràng
buộc thưa (group sparsity constraint) để hướng dẫn quá trình phân tách. Thí nghiệm
được thực hiện cho hai trường hợp: phân tách tiếng nói và âm thanh nhiễu môi trường
từ tín hiệu tiếng nói chứa nhiễu, phân tách giọng hát và âm thanh các loại nhạc cụ
trong bài hát đã cho thấy hiệu quả của thuật toán đề xuất.
Từ khóa: Tách nguồn âm thanh, NMF, Ràng buộc thưa, Mô hình phổ tổng quát.
1. MỞ ĐẦU
Trong lĩnh vực xử lý tín hiệu, tách nguồn âm thanh là nhiệm vụ khôi phục
những âm thanh mong muốn từ tín hiệu thu âm gồm nhiều âm thanh khác nhau bị
trộn lẫn [1, 2]. Một ví dụ điển hình về tách nguồn âm thanh là trong “bữa tiệc
cocktail”, nơi có nhiều người cùng nói chuyện, tiếng nhạc, các âm thanh khác và
người nghe đang cố gắng theo dõi một trong các cuộc thảo luận. Trong tình huống
đó, bộ não của con người cùng với khả năng thính giác bình thường có thể dễ dàng
định vị và phân tách âm thanh mong muốn để nghe, hiểu và xử lý thông tin. Nhưng
đối với học máy (machine learning) và xử lý tín hiệu số thì đó là một vấn đề vô
cùng khó khăn. Các đánh giá khoa học uy tín những năm gần đây [2–5] cũng cho
thấy các kỹ thuật tách nguồn âm thanh được tập trung nghiên cứu trên thế giới và
có vai trò quan trọng trong nhiều ứng dụng thực tế như: phân tích và xử lí âm
thanh trong an ninh quốc phòng, chăm sóc y tế, thiết bị hỗ trợ người khiếm thính;
hỗ trợ giao tiếp qua mạng viễn thông (telephone, mobile phone), internet và hội
nghị truyền hình (video/audio conferencing); hỗ trợ hệ thống nhận dạng tiếng nói
tự động (Automatic Speech Recognition - ASR),...
Có nhiều lớp thuật toán tách nguồn âm thanh đã được nghiên cứu, hầu hết các
phương pháp đều biến đổi tín hiệu âm thanh từ miền thời gian (time domain) sang
miền thời gian-tần số (time-frequency domain) qua phép biến đổi Fourier (Short
Time Fourier Transform - STFT). Sau đó, các thông tin về phổ (spatial cues)
và/hoặc các thông tin về không gian (spatial cues) được sử dụng cho quá trình xử lí
và phân tách. Tín hiệu sau khi phân tách được biến đổi ngược lại miền thời gian
qua phép biến đổi Fourier ngược (Inverse Short Time Fourier Transform - ISTFT).
Đối với bài toán phân tách tín hiệu đơn kênh, không thể khai thác được các thông
tin về không gian trong quá trình xử lý, một số nghiên cứu công bố gần đây đã phát
triển các giải thuật học có giám sát (supervised) hay giải thuật học sâu (deep
Kỹ thuật điều khiển & Điện tử
D. T. H. Thanh, N. C. Phương, N. Q. Cường, “Kết hợp mô hình thừa số hóa đơn kênh.” 84
learning) [6, 7], sử dụng dữ liệu huấn luyện để học các đặc tính phổ của tín hiệu,
sau đó dùng kết quả của bước học để hướng dẫn phân tách tín hiệu mong muốn.
Trong trường hợp không có dữ liệu huấn luyện hoặc dữ liệu huấn luyện không đầy
đủ, các công bố gần đây của Sun và Mysore [6] hay nhóm của El Badawy [8, 9] đã
đề xuất giải pháp xây dựng mô hình phổ tổng quát cho tín hiệu nguồn cần tách, sau
đó sử dụng mô hình thừa số hóa ma trận không âm (Nonnegative Matrix
Factorization – NMF) [10] kết hợp với nhóm ràng buộc thưa để ước lượng các tín
hiệu cần phân tách.
Phát triển từ các kết quả nghiên cứu chúng tôi đã công bố gần đây [11, 12],
trong bài báo này chúng tôi đề xuất thuật toán tách nguồn âm thanh đơn kênh trong
điều kiện không có dữ liệu huấn luyện. Trong đó, chúng tôi thu thập và sử dụng
một số mẫu âm thanh cùng loại với dữ liệu cần phân tách để huấn luyện mô hình
phổ tổng quát cho tín hiệu, đồng thời sử dụng kết hợp mô hình NMF với hai loại
ràng buộc thưa trong qúa trình phân tách. Chúng tôi thực hiện hai thí nghiệm là hai
trường hợp khá điển hình trong các ứng dụng thực tế để đánh giá hiệu quả của
thuật toán đề xuất, đồng thời khảo sát sự hội tụ của thuật toán và sự ảnh hưởng của
từng loại ràng buộc thưa đối với chất lượng của tín hiệu tách. Với ý tưởng đó,
chúng tôi trình bày thuật toán tách nguồn âm thanh sử dụng mô hình NMF cơ bản
đã được công bố trong phần 2. Sau đó, mô tả thuật toán tách nguồn âm thanh đề
xuất ở phần 3. Phần 4 trình bầy thí nghiệm và các kết quả đánh giá, so sánh, cuối
cùng là phần kết luận.
2. THUẬT TOÁN TÁCH NGUỒN ÂM THANH ĐƠN KÊNH
SỬ DỤNG MÔ HÌNH NMF
Mục tiêu của bài toán là phân tách các tín hiệu âm thanh thành phần từ tín hiệu
thu âm đơn kênh bị trộn lẫn bởi nhiều âm thanh khác nhau (gọi là “tín hiệu trộn”).
Gọi ∈ ℂ × và ∈ ℂ
× ( = 1, 2 , ) lần lượt là các ma trận phức biểu
diễn tín hiệu trộn và các tín hiệu thành phần sau phép biến đổi STFT. là số bin
tần số (frequency bins), là số khung thời gian (time frames), là số tín hiệu
thành phần có trong tín hiệu trộn. Tín hiệu trộn là sự kết hợp của các âm thanh
thành phần theo công thức (1).
=
, (1)
Gọi = | |. là ma trận phổ của tín hiệu trộn, với | |. là ma trận có các phần
tử là [ ]
, mô hình NMF sẽ phân tách ma trận không âm ∈ ℝ × thành hai ma
trận không âm và theo công thức:
≈ ∗ , (2)
Trong đó: ∗ là phép nhân ma trận thông thường, ∈ ℝ × là ma trận đặc trưng
phổ (spectral basis matrix) có các véc tơ cột là các đặc trưng phổ xuất hiện thường
xuyên trong , ∈ ℝ × là ma trận kích hoạt (activation matrix) có các véc tơ
hàng là thời gian xuất hiện các mẫu phổ trong , là số đặc trưng được tổng hợp.
Trong các ứng dụng, thường được chọn sao cho đủ nhỏ và đảm bảo có thể trích
chọn được những đặc trưng phổ hữu ích từ [13].
Nghiên cứu khoa học công nghệ
Tạp chí Nghiên cứu KH&CN quân sự, Số 54, 04 - 2018 85
Để ước lượng các ma trận thành phần, và được khởi tạo với các giá trị
không âm ngẫu nhiên và được cập nhật trong quá trình lặp sao cho hàm giá (3) thể
hiện sự sai khác giữa và ∗ giảm dần đến điểm hội tụ. Trong từng bước lặp,
và được cập nhật theo quy tắc cập nhật MU-rules [14] được mô tả trong công
thức (4) và (5):
( ‖ ∗ ) = ∑ ∑ ∗
, (3)
← ⨀
(( ∗ ).( )⨀ )
( ∗ ).( )
, (4)
← ⨀
( ∗ ).( )⨀
( ∗ ).( )
, (5)
Trong đó, và lần lượt là chỉ số tần số và chỉ số khung thời gian,
( ‖ ) =
−
− 1 là độ đo Itakura-Saito-divergence được sử dụng phổ
biến với dữ liệu âm thanh [14], ký hiệu là ma trận chuyển vị của ma trận ,
.( ) là lũy thừa n lần từng phẩn tử của , ⊙ là phép toán nhân từng phần tử của
hai ma trận (element-wise Hadamard), phép chia trong công thức (4) và (5) cũng là
phép chia theo từng phần tử của ma trận.
Gọi , , lần lượt là ma trận đặc trưng phổ của các tín hiệu thành
phần , , , . Chúng được ước lượng từ tập dữ liệu huấn luyện ở bước học,
sau đó ghép lại thành ma trận đặc trưng phổ theo công thức (6).
= [ , , , ]. (6)
Ở bước tách nguồn, NMF cố định ma trận và ước lượng bằng công thức
cập nhật (5), gồm các thành phần , , là ma trận kích hoạt tương
ứng của từng tín hiệu thành phần như công thức (7).
= [
,
, ,
] . (7)
Sau khi ước lượng ma trận , các tín hiệu thành phần được xác định bởi công
thức Wiener filtering (8) và được biến đổi về miền thời gian qua phép biến đổi
Fourier ngược.
=
∗
∗
⨀ , = 1, . . , . (8)
Thuật toán tách nguồn âm thanh áp dụng mô hình NMF cơ bản nêu trên cho kết
quả tương đối tốt khi có dữ liệu huấn luyện chính xác cho các tín hiệu cần tách.
Tuy nhiên, khi không có dữ liệu huấn luyện thì chất lượng của các tín hiệu tách
được là khá thấp.
3. THUẬT TOÁN ĐỀ XUẤT
Trong tình huống không có dữ liệu huấn luyện mà bài báo đề cập tới, chúng tôi
nhận định rằng sẽ dễ dàng thu thập được một số file âm thanh có ít nhiều đặc tính
phổ giống tín hiệu nguồn cần phân tách. Ví dụ, để tách tiếng nói và âm thanh nhiễu
môi trường từ tín hiệu thu âm, chúng tôi tìm kiếm và sử dụng một số file tiếng nói
(gồm cả giọng nam và giọng nữ) và một số file âm thanh nhiễu môi trường như:
tiếng ồn đường phố, tiếng gió, tiếng nước chảy, để làm tập mẫu huấn luyện. Từ
đó, chúng tôi đề xuất thuật toán tách nguồn âm gồm hai pha huấn luyện và tách
nguồn được mô tả trong hình 1. Cụ thể hơn, phần 3.1 sẽ mô tả cách xây dựng mô
hình phổ tổng quát (Generic Spectral Source Model - GSSM) cho các tín hiệu cần
86
tách
thưa đ
pha
3.1.
trưng ph
th
trưng ph
thành ph
thành ph
đị
cực tiểu h
kích ho
3.2
các đ
khác nhau
tách ngu
Xây d
G
ức (
Sau đó, m
Mô
nh
. K
Mô hình ph
D. T. H. Thanh,
trong pha hu
ể
ọi
9), v
ạ
ết hợp
ặc tr
ước l
ổ
ổ
ần theo công th
hình
ần
và
t c
ưng ph
ồn
ựng mô hình ph
là s
củ
ới
và ma tr
cập nh
óa hàm giá (3).
ủa
nên
ượng các đặc tr
.
ố
a t
(
a tr
ph
,
tín hi
hai
ổ
các đ
ấn luyện
mẫ
ừng m
)
ậ
ận ph
ổ t
=
ật
lo
tổ
ổ
N. C. Phương, N. Q. Cư
Hình
u hu
=
n kích ho
ổng quát
1
ma tr
ệu
ại
ng quát
trong mô hình GSSM
ặc tr
ấ
ẫu đư
(
ổ
ứ
. .
ràng bu
.
1.
n luy
)
( )
tổng quát
c (1
=
ận kích ho
Ma tr
theo
ưng c
Ph
ưng ph
Sơ đ
ổ t
ợc ư
.
là ma tr
ạ
min
,
0
cho các tín hi
theo
=
=
ần 3.
ồ t
ổng quát cho các ngu
ện
t củ
(
).
(
công th
công th
[
[
ộc thưa
sẽ có kích th
ủa tín hiệu c
hu
thu th
ớc lư
a m
)
)
,
ận
,
2 đ
ổ của tín hiệu dựa tr
ật toán
ậ
ẫ
,
ạt
ứ
,
ờng
ề xuất công thức kết hợp
ập đư
ợng b
n ph
u th
củ
(
ức (1
trong t
cũng
c (1
,
,
và
,
ổ
ứ
(
a tín hi
)
ệ
2
]
mô hình NMF
ư
đư
ần tách
“K
tác
ợc
ằng cách t
,
,
)
,
u ngu
1).
gồ
).
],
.
ớc lớn khi số mẫu
ợc trích chọn từ nhiều mẫu huấn luyện
ết hợp mô
h ngu
cho tín hi
(
1 ≤
(
ệu
Ở
ừng b
m
)
và
)
∗
ồn c
pha
thư
ồn âm
ồn c
ố
≤
(
đư
=
ầ
ước lặp
thành ph
ờng chỉ c
K
hình th
ầ
ệ
i ưu hóa hàm
(
)
ợ
1.
n tách
tách ngu
ỹ thuật điều khiển & Điện tử
ên mô hình
đ
n tách
u
)
lầ
.
,
c xác đ
.
trong bư
ừa số hóa đ
ề xu
ngu
n lư
.
theo công th
ần
hai
ấ
ồn
ợ
ịnh
đư
ồn
huấn luyện
hiếm
lo
t.
t là ma tr
ợ
, thu
là
ớc tách ngu
ại
GSSM
, ma tr
từ
c ghép t
ậ
các
một phần
ràng bu
theo công
các ma tr
t toán s
ức (5) để
ơn kênh.
ậ
ậ
ma tr
tăng.
trong
n đ
n đ
(1
ừ các
ẽ
(1
(1
ồ
nh
”
ộc
ặc
ặc
(9)
ận
0)
cố
ận
1)
2)
n
Vì
ỏ
Nghiên cứu khoa học công nghệ
Tạp chí Nghiên cứu KH&CN quân sự, Số 54, 04 - 2018 87
trong GSSM. Hơn nữa, các đặc trưng quan trọng đó lại có thể nằm rải rác trong các
mẫu khác nhau chứ không tập trung ở một vài mẫu cụ thể [13, 15]. Để tìm ra
những tập con của chứa đặc trưng phổ của tín hiệu cần tách, một số nghiên cứu
trước đây đã đề xuất kết hợp nhóm ràng buộc thưa (sparsity constraint) trong quá
trình ước lượng ma trận với hàm giá như sau:
min ∗ + λΩ( ). (13)
Ω( ) thể hiện sự ảnh hưởng của ràng buộc thưa, được gọi là hàm penalty [11]
với là một hằng số dương xác định mức độ ảnh hưởng. Có hai hàm penalty đã
được công bố là block sparsity [6] và component sparsity [8, 9] lần lượt theo công
thức (14) và (15) với là hằng số dương đủ nhỏ.
Ω = log ( + ( )
)
, (14)
Ω = log ( + ‖ ‖ )
. (15)
Trong đó, ( ) là ma trận kích hoạt của block thứ , mỗi block tương ứng với
một mẫu huấn luyện và = ∑
là tổng số mẫu huấn luyện được dùng, ‖. ‖
là l1-norm của ma trận hay véc tơ tương ứng. Hàm Ω sẽ kích hoạt những block
trong ma trận chứa đặc trưng phổ tương tự với tín hiệu nguồn cần tách, các block
còn lại sẽ hội tụ về giá trị 0 [6]. Hàm Ω với là véc tơ thứ của ma trận sẽ
kích hoạt những véc tơ trong chứa đặc trưng phổ giống đặc trưng phổ của tín
hiệu nguồn cần tách [8].
Nhận thấy block sparsity tác động lên từng “block” của GSSM, tức là sẽ loại
bỏ hoặc giữ lại toàn bộ các đặc trưng phổ của một mẫu huấn luyện nào đó. Như
vậy, ràng buộc thưa này sẽ có thể bỏ qua những mẫu có ít đặc tính tương đồng với
tín hiệu cần tách, hoặc cũng có thể giữ lại toàn bộ mẫu đó tùy theo độ lớn nhỏ của
tham số λ trong công thức (13). Trong khi đó, component sparsity lại xem xét từng
véc tơ trong mô hình GSSM nên có ưu thế hơn block sparsity trong việc trích chọn
được những đặc trưng giá trị từ những mẫu ít tương đồng với nguồn cần tách. Tuy
nhiên, điều đó cũng làm cho việc loại bỏ các thành phần không tương đồng với đặc
trưng của nguồn cần tách diễn ra khá chậm, dẫn đến tốc độ hội tụ của thuật toán
chậm khi có kích thước lớn. Từ những phân tích trên, chúng tôi đã đề xuất sử
dụng kết hợp hai loại ràng buộc thưa để có thể loại bỏ nhanh những block không
giá trị, đồng thời vẫn đảm bảo giữ lại được những đặc trưng quan trọng trong mô
hình GSSM theo công thức sau [11, 12]:
Ω = ∑ log ( + ( )
) + (1 − ) ∑ log ( +
1),
(16)
Với là trọng số thể hiện sự đóng góp của mỗi loại ràng buộc thưa (0 ≤ ≤
1). Công thức (16) chính là sự tổng quát hóa của (14) và (15): (16) sẽ hoạt động
như một block sparsity khi = 1 và là component sparsity khi = 0. Với
0 < < 1, trong quá trình cập nhật, một số block sẽ hội tụ về 0 do ảnh hưởng của
thành phần block sparsity, với những block còn lại, một số véc tơ cũng hội tụ về 0
do ảnh hưởng của thành phần component sparsity. Như vậy, sau quá trình cập nhật,
Kỹ thuật điều khiển & Điện tử
D. T. H. Thanh, N. C. Phương, N. Q. Cường, “Kết hợp mô hình thừa số hóa đơn kênh.” 88
những thành phần khác 0 còn lại sẽ kích hoạt những đặc trưng phổ phù hợp với tín
hiệu nguồn cần tách.
Algorithm 1 NMF – Proposed
Require: , , ,
Ensure:
Khởi tạo với các giá trị không âm ngẫu nhiên.
= ∗
Repeat
//Tính toán thành phần block sparsity
For = 1, , do
( ) ←
( )
End for
= ( )
, , ( )
//Tính toán thành phần component sparsity
For = 1, , do
←
‖ ‖
End for
= [
, ,
]
//Cập nhật
← ⨀(
∗( . ⨀ )
∗ . ( ( ) )
).
//Cập nhật
← ∗
Until Thỏa mãn điều kiện hội tụ
Thuật toán đề xuất được mô tả chi tiết trong Algorithm 1, trong đó, ( ) là ma
trận có cùng kích thước với ( ), là véc tơ có cùng kích thước với với .
4. THÍ NGHIỆM
Để đánh giá hiệu quả của thuật toán đề xuất, chúng tôi đã thực hiện hai thí
nghiệm như sau:
Thí nghiệm 1: Phân tách tiếng nói (speech) và âm thanh nhiễu môi trường
(noise) từ file thu âm tiếng nói chứa nhiễu.
Thí nghiệm 2: Phân tách giọng hát (vocals) và âm thanh các nhạc cụ
(music) từ file bài hát đã được thu âm.
4.1. Dữ liệu thí nghiệm và cách thiết lập các tham số
Các thí nghiệm được thực hiện với dữ liệu chuẩn hóa được công bố tại các
website uy tín thuộc lĩnh vực nghiên cứu. Ở mỗi thí nghiệm, dữ liệu được chia
thành hai tập riêng biệt cho hai pha huấn luyện và thử nghiệm như sau:
Thí nghiệm 1
Nghiên cứu khoa học công nghệ
Tạp chí Nghiên cứu KH&CN quân sự, Số 54, 04 - 2018 89
Tập mẫu huấn luyện cho tín hiệu speech gồm 3 file tiếng nói không chứa nhiễu
có kích thước 5 giây, 1 giọng nam và 2 giọng nữ1. Tập mẫu huấn luyện noise gồm
3 file có kích thước từ 10 đến 15 giây, là âm thanh của 3 loại nhiễu môi trường2:
kitchen sound, bird song, metro. Chúng được dùng để xây dựng mô hình phổ tổng
quát cho tín hiệu speech và noise.
Tập dữ liệu test gồm 12 file đơn kênh là tín hiệu trộn của speech và noise với tỷ
lệ tín hiệu trên nhiễu (Signal to Noise Ratio) SNR = 0 dB, các file có kích thước từ
5 đến 10 giây. Tập test chứa nhiều loại nhiễu khác nhau và khác các mẫu trong tập
huấn luyện. Một số tín hiệu trộn có sự kết hợp hai loại nhiễu như: traffic + wind
sound, ocean waves + wind sound, cafeteria + music, forest birds + car,....
Thí nghiệm 2
Tập mẫu huấn luyện vocals gồm 4 file với 2 giọng nam và 2 giọng nữ. Tập mẫu
huấn luyện cho music gồm 9 file: 3 file âm thanh bass, 3 file âm thanh drums và 3
file âm thanh các nhạc cụ khác. Kích thước mỗi file trong tập huấn luyện từ 10 đến
15 giây3.
Tập dữ liệu test gồm 5 file là trích đoạn của 5 bài hát có độ dài từ 14 đến 25
giây như mô tả trong bảng 14.
Bảng 1. Dữ liệu test của thí nghiệm 2.
TT Tên bài hát Độ dài
1 Bearlin - Roads 14 giây
2 Tamy - Que pena Tanto faz 15 giây
3 Another dreamer - The ones we love 25 giây
4 Fort Minor - Remember the name 25 giây
5 Ultimate nz tour 19 giây
Các tham số của thuật toán được thiết lập như sau: tần số lấy mẫu các file âm
thanh là 16000 Hz, kích thước cửa sổ trong phép biến đổi Fourier là 1024. Số
thành phần đặc trưng phổ của speech và noise lần lượt là 32 và 16, của bass và
drums là 15, của các loại nhạc cụ khác là 25 và vocals là 32. Số bước lặp MU là 50
cho pha huấn luyện, và được thử nghiệm với các giá trị từ 1 đến 100 trong bước
tách nguồn để khảo sát sự hội tụ của thuật toán. Hai tham số và được thử
nghiệm với tập các giá trị khác nhau để xem xét tính ổn định của thuật toán:
= {0, 1, 10, 25, 50, 100, 200, 500}, = {0, 0.2, 0.4, 0.6, 0.8, 1}.
4.2. Phương pháp đánh giá kết quả
1 Speech files are from the International Signal Separation and Evaluation Campaign (SiSEC):
2 Noise files are from the Diverse Environments Multichannel Acoustic Noise Database
(DEMAND):
3 Training data is from SiSEC: https://sisec.inria.fr/sisec-2016/2016-professionally-produced-
music-recordings.
4 Test data is from SiSEC: https://sisec.wiki.irisa.fr/tiki-index165d.html.
Kỹ thuật điều khiển & Điện tử
D. T. H. Thanh, N. C. Phương, N. Q. Cường, “Kết hợp mô hình thừa số hóa đơn kênh.” 90
Trên cùng một tập dữ liệu thử nghiệm và điều kiện thí nghiệm, chúng tôi so
sánh kết quả của thuật toán NMF cơ bản và kết quả của thuật toán đề xuất khi kết
hợp mô hình NMF với các nhóm ràng buộc thưa khác nhau như sau:
NMF non-sparsity: Thuật toán NMF cơ bản được mô tả trong phần 2, dữ
liệu huấn luyện cho từng tín hiệu là 1 file ghép từ các file trong tập mẫu
huấn luyện tương ứng với tín hiệu đó (theo mô tả trong phần 4.1).
NMF - B: Thuật toán đề xuất, sử dụng kết hợp NMF với ràng buộc thưa
block sparsity theo công thức (14) [6].
NMF - C: Thuật toán đề xuất, sử dụng kết hợp NMF với ràng buộc thưa
component sparsity theo công thức (15) [8, 9].
Proposed NMF: Thuật toán đề xuất, sử dụng kết hợp NMF với hai loại
ràng buộc thưa block sparsity và component sparsity theo công thức (16).
Mỗi tín hiệu sau khi tách được tính toán các độ đo SDR (Source to Distortion
Ratio), SIR (Source to Interference Ratio), SAR (Source to Artifacts Ratio), đơn
vị đo dB. Các độ đo càng lớn thì chất lượng của tín hiệu tách được là càng tốt. Để
tính toán các độ đo đó, chúng tôi dùng bộ công cụ được cung cấp và sử dụng phổ
biến hiện nay trong cộng đồng nghiên cứu về xử lý âm thanh là BSS-EVAL
Tools [16].
4.3. Kết quả thí nghiệm và bình luận
Bảng 2. Độ đo trung bình của các tập tín hiệu sau khi tách.
Thuật toán
Speech/Vocals Noise/Music
SDR
(dB)
SIR
(dB)
SAR
(dB)
SDR
(dB)
SIR
(dB)
SAR
(dB)
T
hí
n
gh
iệ
m
1
NMF non-
sparsity
2.7 6.9 11.7 3.6 14.3 5.2
NMF - B [6]
( = 25, = 1)
7.4 10.2 16.4 6.9 19.8 8.5
NMF - C [8, 9]
( = 50, = 0)
7.4 10.9 16.2 7.6 16.3 9.3
Proposed NMF
( = 50,
= 0.2)
7.7 10.8 17.8 7.8 18.7 9.4
T
hí
n
gh
iệ
m
2
NMF non-
sparsity
1.3 3.7 7.1 3.8 9.5 11.2
NMF - B [6]
( = 50, = 1)
2.5 4.9 8.1 6.2 7.7 13.3
NMF - C [8, 9]
( = 25, = 0)
2.7 5.6 7.3 6.2 7.7 13.5
Proposed NMF
( = 50,
= 0.4)
3.2 6.2 7.9 6.4 7.9 14.2
Nghiên c
Tạp chí Nghi
Hì
Hình
ứu khoa học công nghệ
nh
ên c
2.
3
ứu KH&CN
Sự hội tụ của thuật toán với từng tín hiệu
. Ảnh hưởng c
quân s
Noise
(
ủa
ự, Số
c) –
,
, (c)
Vocals, (
α đ
54
ối
– Vocals, (d)
, 04
với
- 20
d
k
18
) -
ết quả
Music
phân
- Music
: (a)
.
tách
.
– Speech, (b)
: (a) – Speech, (b)
–
Noise
–
91
,
Kỹ thuật điều khiển & Điện tử
D. T. H. Thanh, N. C. Phương, N. Q. Cường, “Kết hợp mô hình thừa số hóa đơn kênh.” 92
Bảng 2 là độ đo trung bình của các tín hiệu sau khi tách từ tập dữ liệu test của
hai thí nghiệm, tương ứng với các thiết lập tham số và α tối ưu cho từng thuật
toán. Sự hội tụ của thuật toán đề xuất theo từng tín hiệu được thể hiện trong hình 2.
Hình 3 cho thấy sự ảnh hưởng của các tham số và α đối với kết quả phân tách
theo độ đo SDR.
Với cả hai thí nghiệm, thuật toán đề xuất “Proposed NMF” sử dụng kết hợp
NMF với hai loại ràng buộc thưa block sparsity và component sparsity đều cho kết
quả tốt hơn ba thuật toán còn lại trên hầu hết các độ đo, đặc biệt là tốt hơn ở độ đo
quan trọng nhất SDR. Điều này đã khẳng định hiệu quả của việc sử dụng kết hợp
hai loại ràng buộc thưa mà chúng tôi đề xuất so với các công bố trước đó. Ngoài ra,
sự chênh lệch kết quả giữa thuật toán “NMF non-sparsity” và ba thuật toán còn lại
cũng cho thấy trong trường hợp dữ liệu huấn luyện không chính xác thì việc sử
dụng kết hợp các nhóm loại buộc thưa trong mô hình NMF đã giúp nâng cao đáng
kể chất lượng các nguồn âm thanh tách được.
Khảo sát kỹ hơn về sự hội tụ và ổn định của thuật toán đề xuất, hình 2 cho thấy
thuật toán hội tụ nhanh sau khoảng 20 bước lặp và hội tụ khá đồng đều đối với các
loại tín hiệu tách khác nhau. Tính ổn định của thuật toán được thể hiện trong hình 3
khi giá trị của các tham số và α thay đổi, có thể quan sát thấy thuật toán đạt kết
quả tốt và ổn định với giá trị 10 ≤ ≤ 50 và 0 ≤ ≤ 0.4. Ngoài ra, thuật toán
cũng ổn định hơn với giá trị α nhỏ.
5. KẾT LUẬN
Trong bài báo, chúng tôi đã trình bầy thuật toán tách nguồn âm thanh có hướng
dẫn sử dụng mô hình NMF cơ bản. Từ đó, để giải quyết bài toán tách nguồn âm
thanh đơn kênh và không có dữ liệu huấn luyện, chúng tôi đã đề xuất giải pháp xây
dựng mô hình phổ tổng quát cho các tín hiệu cần tách bằng một số file âm thanh
cùng loại thu thập được. Trong quá trình phân tách, chúng tôi đề xuất công thức
kết hợp mô hình NMF với hai loại ràng buộc thưa để nâng cao hiệu quả ước lượng
tín hiệu cần tách dựa trên mô hình phổ tổng quát đã xây dựng. Kết quả của hai thí
nghiệm thực hiện với hai loại dữ liệu khác nhau đã cho thấy hiệu quả của thuật
toán đề xuất. Ngoài ra, thí nghiệm cũng cho thấy tốc độ hội tụ của thuật toán là khá
tốt và chỉ ra miền giá trị của các tham số để đảm bảo sự ổn định của thuật toán.
Những đánh giá này rất hữu ích cho việc thiết lập tham số khi sử dụng thuật toán
trong các ứng dụng thực tế.
Chúng tôi mong muốn sẽ tiếp tục phát triển thuật toán cho bài toán tách nguồn
âm thanh đa kênh theo hướng kết hợp mô hình NMF với mô hình xử lý thông tin
không gian (spatial model). Đồng thời, chúng tôi dự định sẽ tiến hành thử nghiệm
hiệu quả của thuật toán đối với hệ thống nhận dạng tiếng nói tự động (Automatic
Speech Recognition - ASR) trong thời gian gần đây.
TÀI LIỆU THAM KHẢO
[1]. "Source Separation and Speech Dereverberation", in Acoustic MIMO Signal
Processing, Boston, MA: Springer US, 2006, pp. 319–351.
[2]. S. Makino, T.-W. Lee, and H. Sawada, "Blind speech separation". Dordrecht,
the Netherlands: Springer, 2007.
Nghiên cứu khoa học công nghệ
Tạp chí Nghiên cứu KH&CN quân sự, Số 54, 04 - 2018 93
[3]. E. Vincent et al., "The signal separation evaluation campaign (2007–2010):
Achievements and remaining challenges", Signal Process., vol. 92, no. 8, pp.
1928–1936, Aug. 2012.
[4]. E. Vincent, J. Barker, S. Watanabe, J. Le Roux, F. Nesta, and M. Matassoni,
"The second 'chime' speech separation and recognition challenge: Datasets,
tasks and baselines", in IEEE Int. Conf. on Acoustics, Speech and Signal
Processing (ICASSP), 2013, pp. 126–130.
[5]. K. Kinoshita et al., "The reverb challenge: A common evaluation framework
for dereverberation and recognition of reverberant speech", in IEEE
Workshop on Applications of Signal Processing to Audio and Acoustics
(WASPAA), 2013, pp. 1–4.
[6]. D. L. Sun and G. J. Mysore, "Universal speech models for speaker
independent single channel source separation", in IEEE International
Conference on Acoustics, Speech and Signal Processing (ICASSP), 2013, pp.
141–145.
[7]. L. Chen, X. Ma, and S. Ding, "Single Channel Speech Separation Using Deep
Neural Network", in Advances in Neural Networks - ISNN 2017, vol. 10261,
F. Cong, A. Leung, and Q. Wei, Eds. Cham: Springer International
Publishing, 2017, pp. 285–292.
[8]. D. El Badawy, N. Q. K. Duong, and A. Ozerov, "On-the-fly audio source
separation", in IEEE International Workshop on Machine Learning for Signal
Processing (MLSP 2014), 2014, pp. 1–6.
[9]. D. E. Badawy, N. Q. K. Duong, and A. Ozerov, "On-the-Fly Audio Source
Separation—A Novel User-Friendly Framework", IEEEACM Trans. Audio
Speech Lang. Process., vol. 25, no. 2, pp. 261–272, Feb. 2017.
[10]. D. D. Lee and H. S. Seung, "Algorithms for non-negative matrix
factorization", in Advances in neural information processing systems, 2001,
pp. 556–562.
[11]. H.-T. T. Duong, Q.-C. Nguyen, C.-P. Nguyen, T.-H. Tran, and N. Q. K.
Duong, "Speech enhancement based on nonnegative matrix factorization
with mixed group sparsity constraint", in Proceedings of the Sixth
International Symposium on Information and Communication Technology,
2015, pp. 247–251.
[12]. H.-T. T. Duong, Q.-C. Nguyen, C.-P. Nguyen, and N. Q. K. Duong, "Single-
channel speaker-dependent speech enhancement exploiting generic noise
model learned by non-negative matrix factorization", in International
Conference on Electronics, Information, and Communications (ICEIC), 2016,
pp. 1–4.
[13]. A. Lefevre, F. Bach, and C. Févotte, "Itakura-Saito nonnegative matrix
factorization with group sparsity", in Acoustics, Speech and Signal Processing
(ICASSP), 2011 IEEE International Conference on, 2011, pp. 21–24.
[14]. C. Févotte, N. Bertin, and J.-L. Durrieu, "Nonnegative Matrix Factorization
with the Itakura-Saito Divergence: With Application to Music Analysis",
Neural Comput., vol. 21, no. 3, pp. 793–830, Mar. 2009.
Kỹ thuật điều khiển & Điện tử
D. T. H. Thanh, N. C. Phương, N. Q. Cường, “Kết hợp mô hình thừa số hóa đơn kênh.” 94
[15]. T. Virtanen, "Monaural Sound Source Separation by Nonnegative Matrix
Factorization With Temporal Continuity and Sparseness Criteria", IEEE
Trans. Audio Speech Lang. Process., vol. 15, no. 3, pp. 1066–1074, Mar. 2007.
[16]. E. Vincent, R. Gribonval, and C. Fevotte, "Performance measurement in
blind audio source separation", IEEE Trans. Audio Speech Lang. Process.,
vol. 14, no. 4, pp. 1462–1469, Jul. 2006.
ABSTRACT
COMBINATION OF NONNEGATIVE MATRIX FACTORIZATION
AND MIXED GROUP SPARSITY CONSTRAINT
TO EXPLOIT GENERIC SOURCE SPECTRAL MODEL
IN SINGLE-CHANNEL AUDIO SOURCE SEPARATION ALGORITHM
This paper considers the audio source separation problem given a
single-channel mixture in the absence of exact training data. Based on non-
negative matrix factorization framework, a generic spectral source model
for each source from using several examples of them in training process is
proposed to learn. In source separation process, two existing group
sparsity-inducing penalties in the optimization function and derive the
corresponding algorithm for parameter estimation based on multiplicative
update (MU) rule. Experiment in two cases: speech and environmental
noise separation, and vocal and music separation confirms the effectiveness
of our approach.
Keywords: Audio source separation, Nonnegative matrix factorizarion (NMF), Sparsity constraint, Universal
model.
Nhận bài ngày 26 tháng 12 năm 2017
Hoàn thiện ngày 16 tháng 02 năm 2018
Chấp nhận đăng ngày 10 tháng 4 năm 2018
Địa chỉ: 1 Viện nghiên cứu quốc tế MICA, Trường Đại học Bách khoa Hà Nội, Việt Nam;
2 Khoa Công nghệ thông tin, Trường Đại học Mỏ-Địa chất, Hà Nội, Việt Nam;
3 Bộ môn Kỹ thuật đo và Tin học công nghiệp, Trường Đại học Bách khoa Hà Nội.
*Email: cuong.nguyenquoc@hust.edu.vn.
Các file đính kèm theo tài liệu này:
- 9_cuong_0658_2151647.pdf