Tài liệu Bài giảng Máy thu dùng mạng neural: Tách sóng đa truy nhập dùng mạng Hopfield Mạng neural
GVHD: TS. Phạm Hồng Liên Trang 110
MÁY THU DÙNG MẠNG NEURAL
1. Dẫn nhập
Mô hình hoá thống kê truyền thống và mạng neural là các lĩnh vực có liên
quan mật thiết với nhau, khác nhau ở chỗ là mô hình thống kê thực hiện giải quyết
các bài toán tuyến tính còn mạng neural thực hiện giải quyết cho các bài toán phi
tuyến. Trong hai lĩnh vực này có sử dụng chung một kỹ thuật gọi là lan truyền
ngược (backpropogation). Lan truyền ngược là một kỹ thuật trọng tâm của mạng
neural nhưng thực ra nó lại là một công cụ mô hình hoá thống kê.
1.1. Mô hình hoá thống kê
Xét một tập mẫu bao gồm các dữ liệu đã thu thập được. Từ tập mẫu, để có
được phương trình ta cần phải xác định được giá trị của các biến độc lập và biến
phụ thuộc. Để sử dụng mô hình, ta cũng phải biết được biến độc lập của một mẫu
mới để có thể lượng giá cho biến phụ thuộc. Hồi quy tuyến tính là phương pháp cơ
bản nhất của mô hình hoá thống kê. Phương trình ...
30 trang |
Chia sẻ: hunglv | Lượt xem: 1247 | Lượt tải: 0
Bạn đang xem trước 20 trang mẫu tài liệu Bài giảng Máy thu dùng mạng neural, để tải tài liệu gốc về máy bạn click vào nút DOWNLOAD ở trên
Tách sóng đa truy nhập dùng mạng Hopfield Mạng neural
GVHD: TS. Phạm Hồng Liên Trang 110
MÁY THU DÙNG MẠNG NEURAL
1. Dẫn nhập
Mô hình hoá thống kê truyền thống và mạng neural là các lĩnh vực có liên
quan mật thiết với nhau, khác nhau ở chỗ là mô hình thống kê thực hiện giải quyết
các bài toán tuyến tính còn mạng neural thực hiện giải quyết cho các bài toán phi
tuyến. Trong hai lĩnh vực này có sử dụng chung một kỹ thuật gọi là lan truyền
ngược (backpropogation). Lan truyền ngược là một kỹ thuật trọng tâm của mạng
neural nhưng thực ra nó lại là một công cụ mô hình hoá thống kê.
1.1. Mô hình hoá thống kê
Xét một tập mẫu bao gồm các dữ liệu đã thu thập được. Từ tập mẫu, để có
được phương trình ta cần phải xác định được giá trị của các biến độc lập và biến
phụ thuộc. Để sử dụng mô hình, ta cũng phải biết được biến độc lập của một mẫu
mới để có thể lượng giá cho biến phụ thuộc. Hồi quy tuyến tính là phương pháp cơ
bản nhất của mô hình hoá thống kê. Phương trình hồi quy tuyến tính có dạng:
y = ∑
=
+
L
1i
ii0 xaa (4.1)
trong đó y là biến phụ thuộc cần phải lượng giá, L là số biến độc lập và các
hệ số ai là các tham số xác định bằng phương pháp hồi quy. Phương trình xây dựng
theo phương pháp mô hình hoá có thể xem là một ánh xạ, nó cho phép ánh xạ một
điểm từ miền xác định của các biến độc lập vào một điểm trong miền xác định của
các biến phụ thuộc. Nếu phương trình hồi quy có L biến độc lập thì hàm ánh xạ sẽ
định nghĩa một siêu phẳng (hyper-plane) L chiều. Các giá trị của L biến sẽ xác định
một điểm trên siêu phẳng đó.
Hồi quy tuyến tính sử dụng một dạng tuyến tính trên ánh xạ sẽ dẫn đến sai
số. Để có mô hình hồi quy tuyến tính tốt thì cần phải biến đổi các biến số trước khi
xây dựng mô hình. Quá trình này gọi là tuyến tính hoá dữ liệu. Như vậy, vấn đề đặt
ra trong bài toán xây dựng mô hình hồi quy tuyến tính không phải là xác định các
hệ số của ánh xạ tuyến tính mà là tuyến tính hoá dữ liệu. Tuy nhiên hiện nay chưa
có phương pháp tổng quát nào để cho phép tuyến tính hoá dữ liệu. Từ đó, mạng
neural với thuật toán lan truyền ngược là một giải pháp cho phép xây dựng một mô
hình phi tuyến trên tập mẫu cho trước.
1.2. Lan truyền ngược
Mạng lan truyền ngược là một hàm phi tuyến xấp xỉ thành một hàm dựa trên
tập mẫu cho trước. Một mạng neural tiêu biểu gồm có 3 lớp: lớp ngõ vào (input),
lớp ẩn (hidden) và lớp ngõ ra (output). Mỗi neuron trong lớp ngõ vào nhận giá trị
của một biến độc lập và chuyển vào mạng. Dữ liệu từ các neuron trong lớp ngõ vào
được tổng trọng hoá và chuyển vào các neuron trong lớp ẩn. Các neuron trong lớp
ẩn chỉ liên kết với các neuron trong lớp ngõ vào và ngõ ra nên chỉ người thiết kế
mạng mới biết được các lớp này (người sử dụng sẽ không biết). Tương tự, các
neuron trong lớp ngõ ra cũng nhận giá trị từ các neuron ẩn.
Tách sóng đa truy nhập dùng mạng Hopfield Mạng neural
GVHD: TS. Phạm Hồng Liên Trang 111
Một mạng lan truyền tổng quát có n lớp: 1 lớp ngõ vào, 1 lớp ngõ ra và n – 2
lớp ẩn. Số neuron của lớp ngõ vào và ngõ ra phụ thuộc vào số biến độc lập và phụ
thuộc của bài toán cần giải quyết còn số neuron của các lớp ẩn thì tuỳ thuộc vào
người thiết kế mạng. Mạng lan truyền ngược chỉ có thể có một trong hai trạng thái:
trạng thái ánh xạ và trạng thái huấn luyện.
Hình 4.1: Mạng neural tiêu biểu
Trong trạng thái ánh xạ, thông tin lan truyền từ lớp ngõ vào đến lớp ngõ ra
và mạng thực hiện ánh xạ để tính giá trị các biến phụ thuộc dựa vào các biến độc
lập cho trước. Quá trình ánh xạ có thể mô tả như sau:
9 Giá trị của các biến độc lập được chuyển vào lớp ngõ vào của mạng.
Lớp ngõ vào sẽ không thực hiện tính toán gì cả mà chỉ chuyển giá trị
cho các lớp ẩn.
9 Mỗi neuron ở các lớp ẩn tính tổng trọng hoá của tất cả các dữ liệu
nhập thông qua các trọng số liên kết.
9 Giá trị tổng trọng hoá sẽ đưa qua một hàm truyền để cho ra giá trị
thực của neuron ẩn bằng cách nén giá trị vào một miền giới hạn ứng
với ngưỡng của từng neuron.
9 Các neuron ẩn sẽ gởi kết quả đến neuron ngõ ra. Các neuron ngõ ra
cũng thực hiện quá trình tương tự như các neuron ở các lớp ẩn để đưa
ra giá trị ngõ ra.
Bản chất ánh xạ do mạng thực hiện tuỳ thuộc vào giá trị các trọng số trong
mạng. Việc áp dụng phương pháp lan truyền ngược là quá trình lặp đi lặp lại nhiều
lần 2 công việc: ánh xạ và lan truyền ngược sai số. Hai công việc này được áp dụng
trên cùng một tập mẫu và được gọi chung là huấn luyện mạng hay trạng thái học.
Trong trạng thái huấn luyện, thông tin lan truyền theo hai chiều nhiều lần để
học các trọng số liên kết. Quá trình huấn luyện mạng bắt đầu với các giá trị trọng số
tuỳ ý và tiến hành lặp đi lặp lại. Mỗi lần lặp là một thế hệ. Trong mỗi thế hệ, mạng
hiệu chỉnh trọng số liên kết sao cho sai số giảm dần. Tiến trình điều chỉnh nhiều lần
Output
Input
Tách sóng đa truy nhập dùng mạng Hopfield Mạng neural
GVHD: TS. Phạm Hồng Liên Trang 112
giúp cho trọng số dần dần tiến đến giá trị tối ưu. Để cập nhật trọng số, mạng phải xử
lý tất cả các mẫu trong tập mẫu. Đối với từng mẫu, mạng thực hiện quá trình sau:
Ánh xạ các biến ngõ vào của quá trình hiện hành thành các giá trị ngõ
ra: quá trình lan truyền tiến.
Tính sai số dựa trên giá trị ngõ ra và giá trị thực. Trên cơ sở sai số tính
được, mạng sẽ cập nhật lại các trọng số theo nguyên tắc lan truyền
ngược sai số. Kỹ thuật cơ bản trong lan truyền ngược là cập nhật trọng
số theo hướng giảm gradient.
2. Ánh xạ
Ta biết rằng giá trị các neuron trong lớp ẩn và lớp ngõ ra là giá trị của hàm
truyền với tham số là tổng trọng hoá. Về mặt hình học, đồ thị hàm truyền có dạng
chữ S nên còn gọi là hàm dạng S. Một hàm s(u) gọi là hàm dạng S nếu thoả mãn:
s(u) bị chặn
s(u) đơn điệu tăng
s(u) liên tục và trơn
Tất cả các hàm có 3 tính chất trên đều có thể dùng làm hàm truyền trong
mạng. Trong thực tế thường sử dụng nhất là hàm logistic:
g(u) = ue1
1
−+ (4.2)
Trong trường hợp nếu cần thiết ngõ ra có giá trị trong khoảng [-1,1], ta có
thể dùng một trong hai hàm sau:
Hàm hyperbol: h(u) = u
u
e1
e1
−
−
+
− (4.3)
Hàm tang hyperbol: tanh(u) = uu
uu
ee
ee
−
−
+
− (4.4)
Phương trình tính giá trị của các neuron ẩn có dạng như sau:
yi =
+∑
=
L
1j
ijii0 xaag (4.5)
3. Phân loại mô hình
Trong phần này, chúng ta bàn về kỹ thuật phân loại mô hình sử dụng trong
thông tin DS-CDMA. Để thực hiện việc này, ta sử dụng lại vector tín hiệu thu để
biểu diễn dưới dạng hình học. Những vector thu thuộc không gian tín hiệu. Khi có
sắp xếp bên trong không gian vector, ta dùng những kỹ thuật phân loại chuẩn để
giải quyết những thông tin chứa đựng trong tín hiệu.
3.1. Biểu diễn hình học của tín hiệu
Trong các hệ thống thông tin cổ điển, máy thu có ngõ ra một vector có chiều
dài n và được sắp xếp xen kẽ với các bit kiểm tra chẵn lẻ. Nếu xem mỗi phần tử của
Tách sóng đa truy nhập dùng mạng Hopfield Mạng neural
GVHD: TS. Phạm Hồng Liên Trang 113
vector là một chiều thì một điểm trong siêu phẳng n chiều có thể biểu diễn một
vector. Bất kỳ vector x = (x1, x2, x3, …, xn) nào đều có thể biểu diễn bằng chuỗi n
vector đơn vị tuyến tính (theo Arfkin) như sau :
∑
=
Φ=
Φ++Φ+Φ+Φ=
n
1k
kk
nn332211
x
xxx x x …
(4.6)
trong đó Φ là vector cơ bản (xem như là tín hiệu cơ bản và được ký hiệu là
Φ(t)). Tín hiệu này có thể viết lại dưới dạng tổng sau :
∑ Φ=
i
ii )t(x )t(y (4.7)
Theo không gian Euclide, với mỗi tín hiệu cơ bản có chiều dài đơn vị, ta có
thể viết lại phương trình (4.7) như sau :
∑=
i
x(t) )t(y (4.8)
Khi đưa một tín hiệu vào không gian tín hiệu thì có thể xác định được quan
hệ giữa những tín hiệu thu. Những quan hệ này được xác định bằng cách dùng phép
đo đồng dạng giữa các tín hiệu với nhau. Nói chung, những tín hiệu tương đương
nhau sẽ thuộc một lớp giống nhau và ngược lại. Hai vấn đề chung nhất của không
gian metric là khoảng Euclide và phép nhân điểm (dot product).
Khoảng Euclide giữa 2 vector x, y là :
∑
=
==
n
1i
2
ii )y-(x y-x )y,x(d (4.9)
Phép nhân điểm giữa 2 vector x, y được biểu diễn như sau :
∑
=
==
n
1
i
T x y x ,
i
iyyx (4.10)
và đó cũng là phép chiếu của x lên y (hình 4.2).
yx −
xTy
x
y
Hình 4.2 : Quan hệ giữa khoảng Euclide và phép nhân
Tách sóng đa truy nhập dùng mạng Hopfield Mạng neural
GVHD: TS. Phạm Hồng Liên Trang 114
Quan hệ giữa khoảng Euclide và phép nhân điểm giữa vector x và y như hình
4.2. Hình này còn cho thấy phép nhân trở thành giá trị cực đại là 1 khi khoảng
Euclide tiến đến 0. Vậy quá trình cực đại hoá phép nhân điểm tương đương với cực
tiểu hoá khoảng Euclide.
Khi cả 2 vector thu có trị trung bình (µ) và phân bố giống nhau, phương trình
(4.9) đưa ra ước lượng chính xác về khoảng Euclide giữa các tín hiệu. Tuy nhiên,
trong trường hợp CDMA thì các tín hiệu thu có những bit dương đã mã hoá sẽ có độ
trung bình khác hơn so với những bit âm đã mã hoá. Trong trường hợp này, phương
trình (4.10) phải thay đổi. Đối với những tín hiệu có độ trung bình khác nhau thì ta
sử dụng khoảng Mahalanobis. Ta có thể định nghĩa khoảng Mahalanobis như sau :
)-(x )-(x d jj1Tii2ij µΞµ= − (4.11)
với 1−Ξ là ma trận nghịch đảo của ma trận hiệp phương sai Ξ . Khoảng
Mahalanobis sẽ giữ vai trò nổi bật trong việc hiệu chỉnh sự ảnh hưởng của MAI
(gây ra do sự tương quan giữa các mã trải phổ) trong thiết kế bộ thu.
3.2. Phân loại mô hình
Xét 2 lớp mô hình rời rạc ),( 21 ΩΩ , một lớp có trị dương và lớp kia có giá trị
âm. Sự phân đôi những điểm trong mẫu rời rạc Ω1 và Ω2 như hình 4.3 (theo
Haykin). Phân chia ),( 21 ΩΩ gọi là hàm chia φ nếu ở đó tồn tại một vector w kích
thước n:
2
T
1
T
x0, )x(w
x0, )x(w
Ω∈<φ
Ω∈>φ
(4.12)
trong đó x là mô hình ngõ vào. Ta có thể phân chia ranh giới cho 2 lớp khi
phương trình (4.13) bằng 0.
0 )x(x T =φ (4.13)
Dạng φ(⋅) xác định siêu phẳng sẽ phân loại những ngõ vào đã cho như thế
nào. Mục đích của φ(⋅) là để tạo ra một ánh xạ từ không gian tín hiệu tới không gian
đặc trưng, là không gian chiều cao hơn để thực hiện phân chia dễ dàng hơn. Những
(a) (b) (c)
Hình 4.3 : Những cách chia để phân loại.
(a) : tuyến tính; (b) : tuyến tính từng phần; (c) : phi tuyến
Tách sóng đa truy nhập dùng mạng Hopfield Mạng neural
GVHD: TS. Phạm Hồng Liên Trang 115
hàm ẩn tuyến tính thường có những ánh xạ tuyến tính, ví dụ như là φ(a) → αa, ở
đây α là số thực bất kỳ và a là vector tín hiệu thu. Những hàm ẩn phi tuyến tạo ra
một ánh xạ phi tuyến có đặc trưng 'a'. Ví dụ φ(a) → tanh(a), xem tanh(⋅) như là hàm
mẫu.
3.3. Chùm sao tín hiệu CDMA (CDMA signal Constellation)
Tín hiệu thu đối với user thứ k trong hệ thống CDMA:
∑
=
δ+=
K
1k
nkkk s),t(n)t(sbA bˆ (4.14)
Đối với hệ thống 2 user, đối với user 1:
)t(nbAbA bˆ 22111 +ρ+= (4.15)
và tương tự với user thứ 2 là:
)t(nbAbA bˆ 11222 +ρ+= (4.16)
Giả sử biên độ có giá trị đơn vị thì từ phương trình (4.15) và ( 4.16), ta dễ
dàng xây dựng tín hiệu trong không gian ngõ vào. Hình 4.4 cho thấy miền thu riêng
của 2 (hình 4.4a) và 3 user (hình 4.4b). Những bit dương là màu trắng, trong khi đó
những bit âm là màu sẫm. Ma trận tương quan cho trong (hình 4.4a) là:
=
13.0
3.01
R (4.17)
Nếu những mã trải phổ là trực giao thì ma trận tương quan sẽ là ma trận đơn
vị, và các tín hiệu thu tạo thành hình vuông trong trường hợp hai chiều, hình lập
phương trong trường hợp 3 chiều, và một siêu khối (hypercube) trong trường hợp số
chiều cao hơn. Mã trải phổ sẽ không trực giao hoàn toàn mà sẽ xáy ra tương quan.
Như vậy, sự tương quan này làm siêu khối bị lệch đi một giá trị tỷ lệ thuận với giá
trị tương quan.
User 2
User 1
(a) (b)
Hình 4.4 : Những chùm sao tín hiệu thu CDMA với hình (a) là 2, và (b) là 3
Tách sóng đa truy nhập dùng mạng Hopfield Mạng neural
GVHD: TS. Phạm Hồng Liên Trang 116
Từ phương trình (4.15) và (4.16), khi biên độ của user thay đổi thì chùm sao
tín hiệu di chuyển theo hướng của sự thay đổi đó. Đối với trường hợp 2 user (hình
4.4a), khi biên độ của user 1 tăng thì những tín hiệu sẽ di chuyển theo hướng từ trục
đứng làm cho việc phân loại bit 1 dễ dàng hơn.
Hình 4.4 đưa ra kết quả của MAI trong môi trường không nhiễu. Khi tín hiệu
thu có nhiễu cộng, những điểm tạo ra góc của siêu khối sẽ trở thành những phân bố
Gaussian, với giá trị trung bình bằng với giá trị không nhiễu và phương sai σ2 tỷ lệ
với SNR của tín hiệu thu.
Hình 4.5: Các điểm dữ liệu thu trong không gian đặc trưng
Ví dụ trong hình 4.5, SNR là 7dB. Ở những nơi đỉnh đồi cao và thung lũng
dốc hơn sẽ cho kết quả SNR lớn hơn. Rõ ràng, khi SNR giảm thì những đỉnh đồi và
thung lũng sẽ rộng hơn khó xác định tín hiệu là +1 bit (đồi) hay -1 bit (thung lũng).
Hình 4.6 cho thấy tương đương hai chiều của hình 4.5. Biên quyết định của
bộ lọc thích hợp là trục đứng. Biên quyết định của máy thu khử tương quan là tối ưu
khi cực đại hoá khoảng giữa mỗi trung tâm và biên. Quyết định MMSE tối ưu theo
hướng cực tiểu hoá MSE giữa các điểm. Từ đó, ta thấy là tại sao bộ lọc thích hợp
thực hiện kém khi MAI gia tăng. Trong hình 4.4, các tâm có K mức tự do (K là số
user).
Tách sóng đa truy nhập dùng mạng Hopfield Mạng neural
GVHD: TS. Phạm Hồng Liên Trang 117
Hình 4.6: Biên quyết định của các máy thu với SNR = 7dB
4. Huấn luyện mạng
Mạng neural có khả năng mã hoá lượng lớn dữ liệu ở không gian thích hợp
nào đó và có độ thích nghi cao. Điều này, tạo ra sự lựa chọn có logic cho việc xác
định biên quyết định (decision boundary) gần tối ưu có độ phức tạp kém hơn bộ thu
tối ưu. Trong phần này, ta xem xét máy thu tối ưu sử dụng mạng RBF (radial basis
function network – còn gọi là mạng Gauss do sử dụng hàm truyền có dạng hàm
Gauss) để thực hiện việc phân loại tín hiệu.
Thuật toán sử dụng để huấn luyện mạng gọi là SVM (Support Vector
Machine). Không giống như hầu hết các thuật toán huấn luyện mạng neural khác,
mạng này chỉ hoạt động đối với dữ liệu huấn luyện, SVM kết hợp phương pháp
kinh nghiệm và phần lý thuyết thống kê. Sử dụng thuật toán SVM cho ta kết quả là
một mạng có khả năng tổng quát hơn và độ phức tạp thấp hơn đối với phương pháp
huấn luyện cổ điển.
4.1. Một số khái niệm
Mặt lỗi:
Huấn luyện mạng là quá trình tìm các trọng số của mạng sao cho ánh xạ là
gần đúng nhất với tập mẫu. Thông số thường dùng để đo lường tính gần đúng của
hàm ánh xạ là phương sai.
Cho tập mẫu Ω ={(Xk,Zk) = (xk1,xk2,…,xkM;zk1,zk2,…,zkN); xki,zkj ∈ ℜ;
i=1,..M; j=1…N}, gọi Tk = NN(Xk) = (tk1,tk2,…,tkN) là phương sai là:
Tách sóng đa truy nhập dùng mạng Hopfield Mạng neural
GVHD: TS. Phạm Hồng Liên Trang 118
E =
( )
NK
tz
2
1
N
1n
K
1k
2
knkn∑∑
= =
−
(4.18)
Về mặt hình học, ta có thể xem E như là một mặt lỗi. Mặt lỗi là một siêu
phẳng trong đó mỗi điểm của nó tương ứng với một điểm trong không gian trọng
số. Chiều cao trên không gian trọng số của mỗi điểm trong mặt lỗi tương ứng với
sai số của mô hình ứng với các trọng số tương ứng đó. Điểm thấp nhất trên mặt lỗi
cho ta mô hình có sai số nhỏ nhất.
Phương pháp giảm gradient:
Hồi quy tuyến tính là một phương pháp cho phép xác định tập các hệ số của
một mô hình tuyến tính của tập mẫu cho trước sao cho sai số là nhỏ nhất nghĩa là
xác định điểm trong không gian trọng số sao cho sai số E tương ứng với điểm thấp
nhất trong mặt lỗi.
Đối với trường hợp mô hình phi tuyến, phương pháp giảm gradient sử dụng
để xác định sai số thấp nhất, phương pháp này bao gồm các bước chính sau:
- Chọn ngẫu nhiên điểm x0 trong không gian trọng số.
- Tính độ dốc mặt lỗi tại x0.
- Cập nhật trọng số theo hướng dốc nhất của mặt lỗi.
- Xem điểm này như là điểm x0 mới.
Quá trình này sẽ lặp lại cho đến khi các giá trị trọng số sẽ tiệm cận với điểm
thấp nhất trong mặt lỗi.
Cực tiểu địa phương:
Trong quá trình thực hiện phương pháp giảm gradient nói trên, có thể sẽ có
trường hợp quá trình lặp tiến tới một điểm cực tiểu địa phương trên mặt lỗi, nghĩa là
lúc này khi cập nhật trọng số theo bất kỳ một phương nào thì cũng làm cho sai số
tăng lên nhưng nó lại không phải là điểm thấp nhất.
Bài toán tìm cách tránh không rơi vào điểm cực tiểu địa phương là bài toán
nan giải. Tuy nhiên đối với mạng neuron, ta có thể thêm một neuron ẩn vào mạng
khi tiến trình rơi vào một cực tiểu địa phương. Hornik đã chứng minh rằng một
mạng với số neuron thích hợp có thể xấp xỉ một hàm bất kỳ với sai số bất kỳ.
4.2. Quy tắc huấn luyện
Huấn luyện mạng là quá trình cập nhật các trọng số của mạng sao cho sai số
giảm dần. Bất cứ phương pháp nào thực hiện công việc này đều được gọi là quy tắc
huấn luyện.
Quy tắc giảm dốc nhất (quy tắc delta):
Quy tắc delta là quy tắc huấn luyện nguyên thủy nhất của mạng lan truyền
ngược. Khi thực hiện một bước lặp, tất cả các trọng số của mạng sẽ được cập nhật
dựa vào các thông tin đạo hàm riêng theo từng trọng số tích lũy được, theo hướng
mà hàm lỗi E giảm xuống nhiểu nhất.
Tách sóng đa truy nhập dùng mạng Hopfield Mạng neural
GVHD: TS. Phạm Hồng Liên Trang 119
Gọi Wm là trọng số cập nhật tại bước m. Ta có phương trình cập nhật như
sau:
Wm = Wm-1 + cm (4.19)
cm = -εdm (4.20)
dm = ∑
=
∂
∂N
1n nm
W
E (4.21)
Giá trị của tham số ε ∈ [0,1] do người thiết kế quyết định, không có phương
pháp tổng quát nào để chọn giá trị chính xác cho ε. Thông thường ε được chọn theo
phương pháp thử và sai, đây chính là hạn chế của quy tắc huấn luyện delta.
Các tiến trình thực hiện theo các giá trị của ε có thể mô tả như hình vẽ:
Hình 4.7: Giá trị ε tốt
Hình 4.8: Giá trị ε lớn
Hình 4.9: Giá trị ε quá lớn
Lỗ
i
Giá trị trọng số
Lỗ
i
Giá trị trọng số
Lỗ
i
Giá trị trọng số
Tách sóng đa truy nhập dùng mạng Hopfield Mạng neural
GVHD: TS. Phạm Hồng Liên Trang 120
Quy tắc moment:
Đối với phương pháp delta ở trên, hệ số ε được chọn một lần và cố định
trong suốt quá trình huấn luyện mạng. Việc chọn giá trị như thế sẽ ảnh hưởng rất
lớn đến tốc độ hội tụ của mạng. Phương pháp moment là phương pháp cải tiến từ
phương pháp delta theo hướng thay đổi giá trị của hệ số huấn luyện cho thích hợp
với từng bước huấn luyện.
Quy tắc này được mô tả như sau: nếu các bước học trước đang giảm mạnh
thì bước kế tiếp cũng sẽ giảm mạn theo, tức là tăng hệ số huấn luyện để độ biến
thiên trọng số tăng lên. Ngược lại thì giảm hệ số huấn luyện. Do đó quy tắc moment
còn được gọi là quy tắc quán tính.
Đối với phương pháp này, hệ số huấn luyện không chỉ đơn giản là ε và còn
cần thêm các hệ số khác để giữ lại thông tin của bước huấn luyện phía trước. Ta mở
rộng công thức (4.20) tính độ biến thiên trọng số của phương pháp moment thành
công thức sau:
cm = µcm-1 – (1 - µ)εdm, 0 ≤ µ <1 (4.22)
Ta thấy rằng nếu µ = 0 thì công thức này trở thành công thức của quy tắc
delta. Trong thực tế, giá trị µ thường chọn là 0.9.
Quy tắc huấn luyện thích nghi:
Phương pháp huấn luyện thích nghi, còn được gọi là phương pháp delta-bar-
delta, là một phương pháp cải tiến được xem là hiệu quả nhất của phương pháp
delta do Robert Jacobs giới thiệu. Phương pháp này thực hiện cập nhật cho mỗi
trọng số với hệ số huấn luyện e khác nhau và quá trình thay đổi hệ số huấn luyện
tùy thuộc vào hướng giảm lỗi hiện hành, nếu hướng này cùng hướng với bước trước
thì e lớn, ngược là thì e sẽ nhỏ.
Hướng giảm lỗi được xác định bằng dấu của dm, là đạo hàm riêng của hàm
lỗi theo trọng số ở bước m, tính theo công thức (4.21). Nếu dm > 0: lỗi giảm khi
trọng số giảm và ngược lại. Phương pháp học thích nghi vận dụng khái niệm hướng
lỗi vừa mới giảm. Ta định nghĩa hướng này như một hàm theo d như sau:
fm+1 = θfm + (1-θ)dm (4.23)
Hệ số huấn luyện thích nghi được tính theo công thức sau:
em =
≤φ
>κ+
−
−
0fdxe
0fde
mm1m
mm1m (4.24)
Thực tế, hệ thống không thay đổi nhiều lắm đối với việc lựa chọn các giá trị
của κ, φ và θ. Thông thường các giá trị sau được sử dụng:
κ = 0.1
φ = 0.5 (4.25)
θ = 0.7
Tách sóng đa truy nhập dùng mạng Hopfield Mạng neural
GVHD: TS. Phạm Hồng Liên Trang 121
Khi đã xác định được e, độ biến thiên trọng số được xác định theo phương
pháp delta:
cm = -emdm (4.26)
hay phương pháp moment:
cm = µcm-1 – (1 - µ)emdm, 0 ≤ µ <1 (4.27)
Phương pháp sử dụng hệ số huấn luyện thích nghi cho mỗi trọng số làm tăng
tốc đ6ọ huấn luyện. Để đạt cùng sai số như phương pháp delta thì nó chỉ cần
khoảng 1/10 số bước lặp mà phương pháp delta sử dụng.
4.3. Một số kỹ thuật khác
Quickprop:
Quickprop (Quick propagation) là một dạng cải tiến của mạng lan truyền
ngược về tốc độ huấn luyện. Quy tắc huấn luyện mạng quickprop cũng tương tự với
quy tắc huấn luyện với hệ số thích nghi. Ý tưởng chính của phương pháp này là xấp
xỉ mặt lỗi bằng một chuỗi các parabol hướng lên. Tại mỗi bước, trọng số sẽ được
cập nhật sao cho sai số nằm tại giá trị cực tiểu của parabol hiện hành.
Phương trình tổng quát thực hiện tính biến thiên trọng số là:
cm = 1m
m1m
m c
dd
d
−
− −
(4.28)
Đối với phương pháp này ta lưu ý rằng chỉ thực hiện được cho bước thứ 2 trở
đi và nếu như cm = 0 hay dm = dm-1 thì công thức này sẽ không sử dụng được nữa.
Lúc này ta có thể sử dụng quy tắc biến thiên trọng số của phương pháp delta.
Phương pháp bậc hai:
Phương pháp bậc hai thực hiện tính toán xấp xỉ đạo hàm bậc hai hàm lỗi và
kết hợp với đạo hàm bậc nhất để quyết định độ biến thiên trọng số. Phương trình
thực hiện tính biến thiên trọng số là:
c =
2
2
W
E
W
E
∂
∂
∂
∂
− (4.29)
Phương pháp này còn gọi là kỹ thuật gradient liên hợp (conjugate gradient).
Tuy nhiên phương pháp này chỉ dùng khi đạo hàm bậc hai là số dương. Do đó, nếu
đạo hàm bậc hai tại một số điểm nào đó là số âm thì phải thực hiện bằng phương
pháp khác.
Mạng tương quan theo tầng:
Mạng tương quan tầng tăng tốc độ huấn luyện bằng cách thêm vào mỗi lần
một neuron ẩn được thiết kế đặc biệt thích hợp sao cho mạng giảm lỗi, mạng này do
Scott Fahlman và Christian Lebiere phát triển.
Tách sóng đa truy nhập dùng mạng Hopfield Mạng neural
GVHD: TS. Phạm Hồng Liên Trang 122
Về cấu trúc, mạng tương quan tầng gồm có các lớp ngõ vào và ngõ ra giống
như mạng thông thường. Các neuron ngõ vào được nối trực tiếp với các neuron ngõ
ra. Các neuron ẩn không sắp xếp trong cùng một lớp nhưng theo tầng, mỗi neuron
ẩn nhận tất cả các tín hiệu từ các neuron ẩn có trước và từ neuron ngõ vào.
Hình 4.10: Mạng tương quan theo tầng
Đầu tiên mạng chỉ có các neuron ngõ vào và ngõ ra. Ta dùng một quy tắc
huấn luyện bất kỳ để tìm trọng số cho các cung vào – ra. Khi thêm một neuron ẩn
vào, mạng sẽ được huấn luyện lại. Quá trình huấn luyện thực hiện theo hai giai
đoạn:
9 Huấn luyện các neuron ẩn mới: thủ tục huấn luyện neuron ẩn được
thiết kế sao cho khi thêm neuron vào mạng thì phương sai của
mạng sẽ không bị thay đổi.
9 Sau khi neuron ẩn mới được nối vào mạng thì sẽ giữ nguyên trọng
số của nó và thực hiện câp nhật lại các trọng số của các neuron
khác trong mạng để làm giảm thiểu sai số của mạng. Hai quá trình
này sẽ lặp đi lặp lại cho đến khi sai số không giảm nữa.
Như vậy, vấn đề chính ở đây là huấn luyện các neuron ẩn mới sao cho cùng
phương sai với mạng. Đồng phương sai của neuron ẩn:
V = ( )( )∑∑
= =
−−−
K
1k
N
1n
knkn EztYy (4.30)
Kế tiếp, ta tìm cực đại hóa đồng phương sai này bằng phương pháp tăng
gradient để tìm trọng số các neuron ẩn tối ưu dựa vào:
( )∑∑
= =
−−−±=∂
∂ K
1k
N
1n
knk x)y1(yEztW
V (4.31)
Output
Input
Tách sóng đa truy nhập dùng mạng Hopfield Mạng neural
GVHD: TS. Phạm Hồng Liên Trang 123
Để tránh trường hợp cực trị địa phương thì ta có thể dùng thêm các neuron
dự bị, mỗi neuron dự bị được khởi đầu bằng các trọng số khác nhau. Vào cuối quá
trình huấn luyện, neuron dự bị nào có đồng phương sai lớn nhất sẽ được kết nối vào
mạng.
4.4. Mạng RBF
Khi biết biên quyết định của máy thu tối ưu, bất kỳ máy thu gần tối ưu
(suboptimal) nào cũng sẽ cố gắng chọn miền quyết định tốt nhất cỏ thể. Mạng RBF
giống như bộ xấp xỉ chung (Broomhead and Lowe), và phù hợp với bài toán xấp xỉ
đường cong (Haykin). Mitra và Poor đưa ra một mạng RBF đồng bộ có đầy đủ
những thông số hệ thống đã biết để nhận biết siêu phẳng. Vấn đề của bài toán xấp xỉ
này là phép biến đổi vector ngõ vào tới một không gian kích thước lớn (high
dimensional space).
Một mạng RBF ba tầng mô tả như hình 4.11. Lớp ngõ vào (input layer) có
kích thước K, với K là số user trong hệ thống (ngõ vào bộ lọc thích hợp). Lớp ẩn
(hidden layer) gồm N trung tâm RBF. Mỗi trung tâm tạo ra ánh xạ phi tuyến từ
không gian ngõ vào của tín hiệu đối với không gian đặc tính kích thước lớn. Ở bước
cuối cùng, ngõ ra của mạng là tổng ngõ ra từ những lớp ẩn.
Mục tiêu của mạng BRF là huấn luyện để kết hợp vector ngõ vào với đáp
ứng mong muốn. Để thực hiện điều này, ta phải huấn luyện biên quyết định nhằm
chia cắt các lớp tín hiệu trong không gian đặc trưng. Trong CDMA, mạng được
huấn luyện cách kết hợp giữa vector ngõ vào ym (là ngõ ra của các bộ lọc thích hợp)
và đáp ứng mong muốn dm. Do tín hiệu của mỗi user tương ứng có giá trị là +1 hay
-1 nên có tổng cộng 2K tín hiệu tạo thành tập tín hiệu D. Vậy máy thu là hàm ánh xạ
như sau:
F(ym) = dm m = 1,2, … , k (4.32)
C1
Ci
Cn
y1
Y2
yk-1
yk
S
b
w1
wi
wn
Lớp vào lớp ẩn lớp ra
Hình 4.11 : Mạng RBF
Tách sóng đa truy nhập dùng mạng Hopfield Mạng neural
GVHD: TS. Phạm Hồng Liên Trang 124
Phương pháp RBF đối với CDMA lthực hiện chọn hàm ánh xạ dạng:
∑
=
−=
K
i
imm cyyF
1
i )(w )( φ (4.33)
với )(⋅φ là hàm phi tuyến cơ sở. Những trung tâm RBF (ci) là những tín hiệu
đã hiệu chỉnh không nhiễu lý tưởng thuộc tập tín hiệu D. Vậy đáp ứng của mạng
RBF là dựa vào khoảng Euclide giữa tín hiệu thu y với mỗi trung tâm ci: ym - ci.
Giảm nhiễu
Trong phần trên, ta có được ánh xạ phi tuyến là dựa vào khoảng Euclide.
Như đã biết, thành phần nhiễu trong mô hình CDMA có phân bố đơn lệch
(univariate) và xem như là nhiễu AWGN. Tín hiệu thu trung bình sẽ có trị trung
bình phù hợp với trung tâm và gộp về trung tâm đó theo phương sai nhiễu σ2. Tuy
nhiên, khi mã trải phổ không trực giao, siêu khối bị lệch (hình 4.4) và nhiễu tương
quan với mã trải phổ. Như vậy, kết quả cho thấy phân bố nhiễu không còn là đơn
lệch mà là đa lệch (multivariate).
Kết quả này cho thấy trong hình 4.12. Vector n là một vector nhiễu ngẫu
nhiên, và ni là bậc tương quan n với ci, (ni = ). Như trong (hình 4.12a), các mã
là trực giao ( = 0), vậy không có thành phần nhiễu thuộc c1 có thể tác động
lên c2. Nhiễu tác động (n') là do được cộng với n1 và n2, ở đây n1 và n2 là thành phần
nhiễu thuộc mỗi trục. Đối với mã trực giao thì nhiễu tác động có thể là bằng với
nhiễu gốc. Tuy nhiên, khi mã không trực giao, (hình 4.12b) cho thấy thành phần
nhiễu phụ thuộc vào c1 có tác động thành phần nhiễu c2. Kết quả này cho thấy là
nhiễu tác động n' khác với thành phần nhiễu gốc.
Về mặt toán học, việc thay đổi phân bố nhiễu từ đơn lệch đến đa lệch có thể
mô tả như sau :
µ−µ−−
−
π
= 2
)y(C)y(
k
1T
e
C)(2
1 )y(p (4.34)
Giá trị trung bình:
[ ]yE =µ (4.35)
c2
c1
n
n1
n2
(a)
c2
c1
n'
n1
n2 n
(b)
Hình 4.12 : Kết quả của mã trải phổ đối với phân bố nhiễu
Tách sóng đa truy nhập dùng mạng Hopfield Mạng neural
GVHD: TS. Phạm Hồng Liên Trang 125
Ma trận hiệp phương sai là :
[ ])y()-(yE C T µ−µ= (4.36)
Sử dụng khoảng Mahalanobis:
[ ])-(x(C)-(x d i1Ti αα= − (4.37)
với x là mô hình ngõ vào và trung tâm là αi. Trong CDMA, ma trận hiệp
phương sai C-1 là ma trận tương quan nghịch đảo R-1 của mã trải phổ. Với tương
quan này, phương trình mạng RBF được sửa đổi như sau :
∑
=
σ
−−−
−
ω=
k
1i
2
)cy(C)cy(
1m
2
im
1
im
e )y(F (4.38)
Hình 4.13: Biên quyết định Euclide (đườngchấm) và Mahalanobis (đường liên tục)
Hình 4.13 cho kết quả tương quan của nhiễu do mã trải phổ. Các hình ellipse
đại diện cho phân bố của tín hiệu thu và đường cong tại trung tâm đại diện cho mặt
quyết định. Dữ liệu thu tạo ra một mô hình ellipse quanh mỗi trung tâm. Vậy thì,
một hàm Gaussian đối xứng sẽ không hoạt động hiệu quả bằng một hàm khoảng
Mahalanobis.
4.5. Thuật toán SVM (Support Vector Machine)
SVM là thuật toán huấn luyện làm giảm kích thước mạng và cho hiệu suất
cải tiến trong kỹ thuật huấn luyện RBF cổ điển. Phương pháp vector hỗ trợ xác định
phép gần đúng hàm phi tuyến theo phương trình (4.32) bằng cách xây dựng siêu
phẳng trong không gian đặc trưng kích thước lớn (có thể vô hạn). Biên quyết định
được xây dựng bằng cách giải bài toán lập trình phương trình bậc 2 trong không
Tách sóng đa truy nhập dùng mạng Hopfield Mạng neural
GVHD: TS. Phạm Hồng Liên Trang 126
gian đặc trưng. Không giống như những thuật toán huấn luyện mạng khác sẽ huấn
luyện dữ liệu theo kinh nghiệm, SVM sử dụng những khái niệm giảm thiểu rủi ro có
cấu trúc (structural risk minimization). Thuận lợi của việc sử dụng phương pháp này
là bảo đảm tìm thấy siêu phẳng tối ưu, và không gây ra cực tiểu địa phương.
4.5.1. Bài toán nhận dạng mô hình
Bài toán nhận dạng mô hình có thể hiểu như là dạng huấn luyện thông qua
liên kết. Theo công thức, mục đích là đánh giá hàm f : ℜN → ±1 sử dụng dữ liệu
huấn luyện:
(x1, y1), …, (xl, yl) ∈ ℜN (4.39)
để f(⋅) sẽ phân loại chính xác dữ liệu mới lạ (xl, yl). Hàm ánh xạ tốt khi giảm
thiểu lỗi huấn luyện:
[ ] ∑= −= 1 )(21l1
li
iiem dxffR (4.40)
Tuy nhiên, dù giảm thiểu rủi ro kinh nghiệm nhưng không bảo đảm sẽ giảm
thiểu rủi ro trung bình hay lỗi kiểm tra. Điều này cũng đúng ngay cả khi dữ liệu
huấn luyện và kiểm tra lấy từ phân bố xác suất giống nhau P(x, y).
Hình 4.14: Mặt quyết định của SVM. Các điểm hình vuông là vector hỗ trợ,
caác đường đứt nét là biên của lớp và đường liên tục là siêu phẳng tối ưu
Tách sóng đa truy nhập dùng mạng Hopfield Mạng neural
GVHD: TS. Phạm Hồng Liên Trang 127
Lý thuyết huấn luyện thống kê cho thấy là cần thiết giảm thiểu rủi ro kinh
nghiệm, nhưng cũng cần hạn chế số lớp mà hàm f(⋅) chọn. Dung lượng một hàm sẽ
quyết định hàm đó có thể tạo ra một tập dữ liệu mới tốt như thế nào. Tuy nhiên, các
hàm trong cùng một lớp có thể có dung lượng khác nhau. Lý thuyết huấn luyện
thống kê cung cấp các biên có độ chính xác lỗi kiểm tra phụ thuộc vào rủi ro kinh
nghiệm và dung lượng của hàm.
Để sử dụng nguyên lý giảm thiểu rủi ro có cấu trúc thì phải tìm một hàm có
dung lượng đã được tính. Lớp hàm này là:
( ) 1k Rb ,R w; 0 )( ∈∈=+Φ⋅ bxw (4.41)
Hàm quyết định:
( )bxwxF +Φ⋅= )(sgn )( (4.42)
với w là vector trọng số, )(xΦ là vector ngõ vào và b là độ xiên.
Mục đích của SVM là xây dựng siêu phẳng tối ưu sao cho khoảng phân chia
giữa các lớp là cực đại. Trong hình 4.14, các mô hình nằm bên trong biên quyết
định (dạng hình vuông) thoả 1 )( =+Φ⋅ bxw , trong khi siêu phẳng tối ưu có
0 )( =+Φ⋅ bxw .
Công thức hoá bài toán tối ưu
SVM có siêu phẳng tối ưu bằng cách giảm thiểu chuẩn của vector trọng số:
2
2
1 )( ww =τ (4.43)
với giả thiết:
( ) 1)( ≥+Φ⋅⋅ bxwdi (4.44)
Để có thể giải bài toán tối ưu hoá này, ta sử dụng phương pháp thừa số
Lagrange. Ta định nghĩa các thừa số Lagrange với αi > 0 như sau :
( ) ( )( )∑ −+⋅Φ⋅−= 1)(21 ,, 2 bwxywbwL iiiαα (4.45)
Mục đích là tăng tối đa biến cơ sở w, b và đồng thời giảm thiểu biến đối
ngẫu α, nghĩa là ta phải tìm thấy một điểm có dạng yên ngựa (saddle). Tại điểm
này, vi phân bậc một vế trái của biến cơ sở phải triệt tiêu:
∑
=
=→=∂
∂ l
1i
i 0 , 0 ),,( iybwLb
αα (4.46)
và ∑
=
=Φ→=∂
∂ l
1i
ii w)(x , 0 ),,( iybwLw
αα (4.47)
Từ phương trình (4.47), ta thấy các thừa số Lagrange khác không phân bố
theo vector trọng số là nghiệm phương trình. Những điểm dữ liệu có gán nhãn liên
Tách sóng đa truy nhập dùng mạng Hopfield Mạng neural
GVHD: TS. Phạm Hồng Liên Trang 128
kết với các thừa số gọi là vector hỗ trợ. Nó là các điểm dữ liệu nằm ở rìa của biên
phân cách.
Bài toán tối ưu hoá đối ngẫu
Thay phương trình (4.46) và (4.47) vào (4.35), ta có kết quả bài toán tối ưu
đối ngẫu. Ta tìm thừa số Lagrange αi để:
( )∑ ∑
= =
Φ⋅Φαα−α=α
l
1i
l
1j,i
jijiji )x()x(yy2
1)(W i (4.48)
cực đại với giả thiết:
l ..., 1,2, i =≥α ,0i và ∑
=
=α
l
1i
ii y 0 (4.49)
Hạt nhân Mercer
Trong bài toán tối ưu đối ngẫu (4.48), thành phần thứ 2 có chứa tích của
những mô hình xi và xj. Tích này cho thấy ánh xạ vector xi và xj từ không gian ngõ
vào đến không gian đặc trưng.
Xét phương trình (4.48), chỉ có giá trị tích điểm )()( ji xx Φ⋅Φ là cần thiết.
Định lý Mercer cho thấy tích nội của các hạt nhân có thể được dùng để đánh giá tích
điểm của phương trình (4.48). Bảng (4.1) cho thấy việc sử dụng các hạt nhân thoả
định lý Mercer:
Bảng 4.1: Các dạng tích nội của các hạt nhân thường dùng cho SVM
Loại mạng Lớp hạt nhân Thông số
Hạt nhân đa thức
d
ji xx )( ⋅
với số nguyên d > 0
Hạt nhân RBF
)
)2(
exp( 2
2
σ
ji xx −−
độ rộng σ định bởi user
Hạt nhân sigmoid ))(tanh( γβ +⋅ ji xx giá trị phù hợp β và α
Nghiên cứu theo qui tắc (Regularization Considerations)
Trong thực tế không tránh khỏi mỗi tập dữ liệu chứa kết quả giả. Điều này có
thể tạo ra những vector hỗ trợ không cần thiết và ảnh hưởng đến mặt quyết định. Để
tình đến vấn đề này, phương pháp vector hỗ trợ dùng đến những biến thừa:
Tách sóng đa truy nhập dùng mạng Hopfield Mạng neural
GVHD: TS. Phạm Hồng Liên Trang 129
γ ≥ 0, i = 1, 2, …, l (4.50)
Ta có thể triển khai phương trình (4.50) như sau,
di .(w⋅yi) + b ≥ 1- γ, i = 1, 2, …, l (4.51)
cho dữ liệu nhiễu cao hay dữ liệu giả.
Khi đó, bộ phân lớp không chỉ cực đại dung lượng hàm ( w ) mà còn giảm
thiểu những lỗi huấn luyện quá mức (thừa). Phương trình (4.49) trở thành :
∑
=
+=
l
i
icww
1
2
2
1 ),( γγτ (4.52)
4.5.2. Giảm độ phức tạp thời gian thực thi
Khi số lượng ngõ vào lớn hơn ( >10000), thông thường xảy ra trong các bài
toán thực tế, quá trình tối ưu trở nên khó khăn. Dạng bậc 2 cho ở phương trình
(4.48) có số phần tử bằng với bình phương số lượng mô hình ngõ vào.
Một phương pháp tính toán cho bài toán tối ưu với số lượng tập hợp lớn
(>50000) là dùng thuật toán phân tách chung. Thuật toán này chia ma trận trong
phương trình (4.48) thành một tập tích cực (B) chứa các biến tự do, và tập còn lại là
không tích cực (N) chứa các biến tĩnh. Quá trình tối ưu chỉ thực hiện trên tập B. Đối
với tập N dùng làm để kiểm tra điều kiện tối ưu cho trong phương trình (4.49). Nếu
có điểm nào lỗi thì điểm dữ liệu trong tập B sẽ trao đổi với điểm dữ liệu trong tập N
và sẽ tiếp tục quá trình tối ưu. Quá trình này lặp đi lặp lại đến khi tập N tuân theo
điều kiện tối ưu trong phương trình (4.49). Thuận lợi chính đối với thuật toán này là
đòi hỏi bộ nhớ tăng lên một cách tuyến tính với mô hình ngõ vào chứ không phải
tăng theo hàm bậc hai.
Để thự hiện quá trình tối ưu, ta viết lại phương trình (4.48) dưới dạng ma
trận Q: Qij = yiyjK(xi, xj). Như vậy, mục tiêu là cực tiểu giá trị:
αααα QW T
2
11- )( T += (4.53)
với giả thiết:
1C 0 0, ≤≤= αα y (4.54)
Hàm đối tượng W sẽ bị tách thành tập làm việc B và tập tĩnh N:
NN
BN
NB Q
Q
Q
BB
N
B
N
B QQ ,
y
y
y , === α
αα (4.55)
với TBNQ =NBQ . Do mục tiêu là tối ưu tập B nên cần cực tiểu giá trị:
1
2
1
2
1)1(- )( TB
T
NNNN
T
NBBB
T
BNBN QQQW αααααααα −++−= (4.56)
với giả thiết:
Tách sóng đa truy nhập dùng mạng Hopfield Mạng neural
GVHD: TS. Phạm Hồng Liên Trang 130
1TB C0 ,0 ≤≤=+ αααα NTNB yy (4.57)
Sử dụng phương pháp phân tách này thì thuật toán được bảo đảm là hội tụ
khi lặp đi lặp lại với số bước lặp hữu hạn.
5. Mạng neural hồi quy
Mạng neural hồi quy (Recurrent neural network) được thiết kế dùng cho các
mô hình thay đổi theo thời gian, nó chính là mạng neural với liên kết hồi quy (vòng
kín) như mạng BAM, Boltzmann, Hopfield và mạng lan truyền ngược hồi quy
(recurrent backpropogation network). Kỹ thuật mạng neural hồi quy có thể dùng để
giải quyết nhiều bài toán trong các lĩnh vực khác nhau.
5.1. Kiến trúc mạng neural hồi quy
Mạng hồi quy gồm có dạng liên kết đầy đủ hay từng phần, bao gồm các
mạng lan truyền tiến đa lớp (multilayer feedforward) với các lớp ngõ vào và ngõ ra
tách biệt nhau. Đối với mạng liên kết đầy đủ thì sẽ không có sự tách biệt ngõ vào,
mỗi nút có ngõ vào từ các nút khác.
Hình 4.15: Mạng hồi quy liên kết đầy đủ
Hình 4.16: Mạng hồi quy đơn giản
Tách sóng đa truy nhập dùng mạng Hopfield Mạng neural
GVHD: TS. Phạm Hồng Liên Trang 131
Một ví dụ của mạng hồi quy đơn giản cho như hình vẽ, trong đó một số nút
sẽ có cấu trúc lan truyền tiến, một số nút sẽ nhận giá trị hồi tiếp từ các nút khác.
Trọng số từ các nút này được xử lý như các nút ngõ vào (như dùng cơ chế lan
truyền ngược). Chúng sẽ nhận hồi tiếp từ lớp thứ hai, chuỗi huấn luyện gồm ngõ
vào và cả ngõ ra của các nút hồi tiếp.
5.2. Mạng Hopfield
Mạng Hopfield là mạng neural đơn lớp theo dạng lan truyền ngược. Mỗi
neural nhận tổng các hoạt động từ các neural khác trong mạng và cập nhật theo quy
luật sau:
Vi = g(Ui) =
+∑
≠ij
jiji VTJg (4.58)
Trong đó Tij là trọng số liên kết giữa neural thứ j và thứ i, Ji là trạng thái hiện
tại của neural thứ i. Hàm g(Ui) có thể là một hàm nhị phân hay lưỡng cực như sau
(dạng neural McCulloch – Pitts):
Vi = g(Ui) = sign(Ui) (4.59)
hay bất kỳ hàm hàm phi tuyến tăng đều nào. Một ví dụ của hàm phi tuyến
thường dụng là tang hyperbolic:
Vi = g(Ui) = tanh(αUi) =
i
i
U
U
e1
e1
α−
α−
+
− (4.60)
Trong đó α là hằng số dương xác định độ dốc của tính phi tuyến. Ta thấy
rằng nếu α → ∞ thì g(Ui) → sign(Ui).
Nếu kết nối giữa các neural là đối xứng (nghĩa là Tij = Tji) thì phương trình
cập nhật của hệ thống sẽ hội tụ về trạng thái ổn định (giá trị tại ngõ ra sẽ là hằng
số). Còn trong trường hợp các phần tử trên đường chéo Tii = 0 thì trạng thái ổn định
của mạng gồm N neural sẽ hội tụ về giá trị cực tiểu địa phương (gọi là hàm năng
lượng):
E = ∑∑∑
== =
−−
N
1i
ii
N
1i
N
1j
jiij JVVVT2
1 (4.61)
Phương trình cập nhật của neural thứ i có thể biểu diễn như sau:
τ−+=∂
∂−= ∑
≠
i
i
ji
jij
i
i UJVT
V
E
dt
dU (4.62)
5.3. Máy thu HNN (Hopfield neural network)
5.3.1. Sơ đồ tách sóng đa truy nhập
Tín hiệu thu được trong hệ thống CDMA là:
r(t) = )t(n)iTi(sb
M
Mi
K
1k
kk
)i(
k +τ−−∑ ∑
−= =
(4.63)
Tách sóng đa truy nhập dùng mạng Hopfield Mạng neural
GVHD: TS. Phạm Hồng Liên Trang 132
Máy thu cổ điển (CD – Conventional Detector) sử dụng một bank các bộ lọc
thích hợp (matched filter) để nhận dạng từng user và ước lượng các bit thông tin chỉ
dựa vào ngõ ra của các bộ lọc này:
∫
τ−+
τ−
τ−−=
k
k
T)1i(
iT
kk
)i(
k dt)iTt(s)t(ry (4.64)
)y(signbˆ )i(k)i(CD = (4.65)
Một phương pháp là dùng máy thu đa truy nhập tối ưu (OMD – Optimum
Multiuser Detector). Phương pháp này thực hiện ước lượng các bit thông tin bằng
cách cực đại hoá logarit hàm khả năng (likelihood function). Trong trường hợp
đồng bộ:
{ }Rbbby2maxargb T)i(
}1,1{b
)i(
OMD
T
K
−=
−+∈
(4.66)
Tuy nhiên khi sử dụng phương pháp này thì độ phức tạp của quá trình tính
toán sẽ thay đổi theo hàm mũ của số user. Như vậy, khi số lượng user lớn thì quá
trình thực hiện là không khả thi. Do đó, ta chỉ dùng các sơ đồ tối ưu phụ, đó là máy
thu đa tầng (MSD – Multistage Detector). MSD gồm có một tập hợp các tầng. mỗi
tầng dùng để ước lượng các bit thông tin như sau:
)i(MSDb (m+1) = sign(y
(i)
– (R – I) )i(MSDb (m)) (4.67)
Ngõ vào của tầng thứ nhất chính là ngõ ra của một bộ tách sóng cổ điển.
MSD có số tầng vô hạn và có thể hội tụ tới cực tiểu địa phương của hàm đối tượng
OMD.
Đối với trường hợp bất đồng bộ thì bài toán máy thu tối ưu giải quyết bằng
cách biểu diễn giống như phương trình (4.66) nhưng ma trận tương quan chéo R lúc
này có dạng:
−
−
−
=
)0(R)1(R00
)1(R
0)0(R)1(R0
)1(R)0(R)1(R
00)1(R)0(R
R~
…
%%#
%
#…
…
(4.68)
Các bit thông tin nhận được lúc này dùng ước lượng có dạng như sau:
{ }b~R~b~b~y~2maxargb~ T)i(
}1,1{b~
)i(
OMD
T
K)1M2(
−= +−+∈ (4.69)
Như vậy, độ phức tạp tính toán trong trường hợp này sẽ lớn hơn rất nhiều so
với trường hợp đồng bộ.
5.3.2. Máy thu HNN
Từ (4.66), ta thấy rằng hàm đối tượng OMD tương tự như hàm năng lượng
của HNN. Mà (4.66) có thể viết ở dạng như sau:
Tách sóng đa truy nhập dùng mạng Hopfield Mạng neural
GVHD: TS. Phạm Hồng Liên Trang 133
{ }
{ }
{ }b)IR(bbyminarg
Ibbb)IR(bbyminarg
Rbbbyminargb
T
2
1)i(
}1,1{b
T
2
1T
2
1)i(
}1,1{b
T
2
1)i(
}1,1{b
)i(
OMD
T
K
T
K
T
K
−+−=
+−+−=
=+−=
−+∈
−+∈
−+∈
(4.70)
(do bTIb luôn là số dương). Như vậy, ta có thể chuyển trực tiếp thành hàm
năng lượng của mạng Hopfield với ma trận trọng số T = –(R – I) và trạng thái ban
đầu của mạng J = y(i).
Xét trường hợp rời rạc trên miền thời gian:
ρ−=+ ∑
≠ij
jijii )m(Vysign)1m(V (4.71)
hay có thể viết ở dạng ma trận như sau:
V(m+1) = sign(y – (R – I)V(m)) (4.72)
Mạng Hopfield dừng:
Để tránh trường hợp cực tiểu địa phương, chúng ta có thể thay thế HNN
bằng mạng Hopfield dừng (SHN – Stochastic Hopfield Network). Phương trình
(4.33) của mạng Hopfield có thể thay đổi bằng phương trình:
ν+ρ−=+ ∑
≠
)m()m(Vysign)1m(V
ij
jijii (4.73)
trong đó ν(m) là biến ngẫu nhiên độc lập với trung bình bằng 0 và hàm phân
phối F(x,m).
Định lý 1: Nếu hàm phân phối F(x,m) có các tính chất:
- F(x,m) = 1 – F(-x,m): đối xứng
- 0)m(lim
m
=σ∞→ với σ2 là phương sai của biến ngẫu nhiên ν(m)
thì quá trình của SHN sẽ tiệm cận về trạng thái tĩnh của mạng Hopfield.
Levendovzky đã xác định được một dạng hàm F cho biến ngẫu nhiên ν như
sau:
F(x) = xe1
1
α−+ (4.74)
Đối với dạng hàm F như trên, phương sai của biến ngẫu nhiên phụ thuộc vào
giá trị của α (giá trị của α càng lớn thì phương sai càng nhỏ).
Tách sóng đa truy nhập dùng mạng Hopfield Mạng neural
GVHD: TS. Phạm Hồng Liên Trang 134
Cấu trúc của máy thu như sau:
Hình 4.17: Cấu trúc máy thu SHN
Xét trường hợp bất đồng bộ:
Theo (2.6):
y(t) = )t(n)iTt(s]i[bA
K
1k
M
Mi
kkkk σ+τ−−∑ ∑
= −=
(4.75)
Đặt:
S(t) = ∑∑
= −=
τ−−
K
1k
M
Mi
kkkk )iTt(s]i[bA (4.76)
Xét máy thu đa truy nhập tối ưu cho PK bit (chứa dữ liệu từ bit thứ p đến bit
thứ P – 1 + p) trong đó P là chiều dài chuỗi dữ liệu. Bộ tách sóng sẽ thực hiện chọn
chuỗi dữ liệu [ ] +−== Pp,1pi,bˆ,,bˆbˆ T)i(K)i(1)i( " sao cho giá trị:
[ ]∫ τ++
τ+
−
Kb
1b
T)Pp(
pT
2
dt)t(Sˆ)t(r (4.77)
là nhỏ nhất, trong đó:
Tách sóng đa truy nhập dùng mạng Hopfield Mạng neural
GVHD: TS. Phạm Hồng Liên Trang 135
∑∑
= −=
τ−−=
K
1k
M
Mi
kkkk )iTt(s]i[bˆA)t(Sˆ (4.78)
Quá trình cực tiểu hóa hàm (4.71) tương đương với quá trình cực đại hàm:
L = { } { }∑−+
=
−−−− −−+−
1Pp
pi
)1i()i()i(T)i()1p()1p(T)1p( bˆ)1(R2bˆ)0(Ry2bˆbˆ'R'y2bˆ
{ })1Pp()Pp()Pp(T)Pp( bˆ)1(R2bˆ''R''y2bˆ −++++ −−+ (4.79)
trong đó y'(p-1), y(i), y''(p+P) là vector tương quan Kx1 có phần tử thứ k có dạng:
∫τ+
τ+
− τ−−−=
Kb
1b
pT
pT
kbk
)1p(
k dt)t(r)T)1p(t(s'y (4.80)
∫ τ++
τ+
τ−−=
Kb
kb
T)1i(
iT
kbk
)i(
k dt)t(r)iTt(sy (4.81)
∫ τ++
τ++
+ τ−+−=
Kb
kb
T)Pp(
T)Pp(
kbk
)Pp(
k dt)t(r)T)Pp(t(s''y (4.82)
và R', R(i), R'' là ma trận tương quan chéo có phần tử thứ (k,l) như sau:
r'kl = ∫τ
τ
τ−+τ−+
k
l
dt)Tt(s)Tt(s lblkbk (4.83)
rkl(p) = ∫τ+
τ
τ−+τ−
kb
k
T
lblkk dt)pTt(s)t(s (4.84)
r''kl = ∫τ
τ
τ−τ−
K
k
dt)t(s)t(s llkk (4.85)
Từ (4.73), số neural ngõ ra là (P+2)K cho bộ giải điều chế PK bit. Ta có thể
chia nhỏ mạng thành P+2 mạng con, mỗi mạng con gồm có K neural. Nghĩa là
neural thứ k của mạng con thứ p tương ứng với bit thứ p của user k. Ngõ ra của
neural thứ k của mạng con thứ p là:
)p(k
1P
0q
K
1l
)q(
l
)q(
l
)p(
k
)p(
k
)p(
k JVT
u
dt
du ++τ−= ∑∑+
= =
(4.86)
Tách sóng đa truy nhập dùng mạng Hopfield Mạng neural
GVHD: TS. Phạm Hồng Liên Trang 136
)p(kV = g(Ui) = tanh(α )p(ku ) (4.87)
trong đó )p(kV và
)p(
kJ là ngõ ra và ngõ vào của neural thứ k trong mạng con
thứ p và )q(l
)p(
kT là trọng số liên kết giữa neural thứ l của mạng con thứ q với neural
thứ k của mạng con thứ p. Hàm năng lượng của mạng như sau:
E = ∑∑∑ +
=
+
=
+
=
−−
1P
0p
1P
0q
)q()q)(p(T)p(
1P
0p
)p()p( VTV
2
1JV (4.88)
Trong đó: V(p) = [ )p(1V ,
)p(
2V ,…,
)p(
KV ]: vector ngõ ra của mạng con p
J(p) = [ )p(1J ,
)p(
2J ,…,
)p(
KJ ]: vector ngõ vào của mạng con p
)q)(p(T : ma trận trọng số liên kết giữa mạng con thứ p và thứ q
Các thông số của mạng Hopfield được xác định bằng cách so sánh hàm
(4.79) với hàm năng lượng (4.86). Từ đó, ta được:
J(i) =
+=
<≤
=
+
−+
−
1Pi''y2
Pi1y2
0i'y2
)Pp(
)1pi(
)1p(
(4.89)
T(p)(q) =
=
+=
+==
≤≤=−
==−
khác0
1-qp2R(-1)-
1qp2R(1)-
1Pqp'2R'-
Pp1 vàqp)0(R2
0qp'R2
(4.90)
Theo (4.83), (4.84) và (4.85), ta có: r'kl = r'lk, r''kl = r''lk và rkl(i) = rlk(-i) nên
trọng số liên kết trong mạng neural sẽ đối xứng. Như vậy, hàm năng lượng sẽ luôn
luôn giảm khi trạng thái của mạng thay đổi.
Mỗi user sẽ bị tác động bởi tất cả K bộ tương quan. Ngõ ra các bộ tương
quan { }K,1k,'y )1i(k =− , { }1Pi,ip,K,1k,y )p(k −+== , { }K,1k,''y )Pi(k =+ được lưu trữ
trong bộ nhớ để thực hiện giải điều chế cho PK bit và sau đó được đưa vào mạng
Hopfield. Mạng Hopfield thay đổi trạng thái theo (4.86), (4.87) cho đến khi mạng
hội tụ. Sau khi mạng hội tụ thì dữ liệu ước lượng cho hệ thống là:
( ))p(k)1pi(k Vsgnb~ =−+ (4.91)
Tách sóng đa truy nhập dùng mạng Hopfield Mạng neural
GVHD: TS. Phạm Hồng Liên Trang 137
Cấu trúc của máy thu dùng mạng Hopfield có thể mô tả như sau:
Hình 4.18: Cấu trúc máy thu
Liên kết bên trong mạng có thể miêu tả như sau:
Hình 4.19: Liên kết giữa các neuron (unit)
Mạng gồm có P+2 mạng con, mỗi mạng con có K neuron và mỗi neuron
trong một mạng con liên kết với các neuron trong cùng một mạng con và các neuron
ở các mạng con kế cận nó.
Tách sóng đa truy nhập dùng mạng Hopfield Mạng neural
GVHD: TS. Phạm Hồng Liên Trang 138
Mạng thích nghi:
Đối với các trường hợp đã xét ở trên, ta cần phải biết trước biên độ tín hiệu
của các user nhưng trong thực tế không phải lúc nào cũng có thể xác định được hệ
số này. Giả sử máy thu không biết trước biên độ tín hiệu, lúc này ngõ ra của
matched filter sẽ được lấy mẫu với tần số Tc-1. Mẫu thứ l của bit thứ p được biểu
diễn như sau:
rl(p) = ∫
+
−+
cb
cb
lTpT
T)1l(pT
dt)t(r (4.92)
Từ đó, ta xây dựng ma trận c(p) bằng cách cực tiểu hoá hàm lỗi sau:
J(p) = ∑ ∑ ∑
= = =
−
−λ
p
1i
L
1l
2K
1k
kklcl
ip )i(b)p(cT)i(r (4.93)
Trong đó λ là một hệ số với 0 < λ ≤ 1 và bk(i) là chuỗi dữ liệu huấn luyện đã
biết tương ứng với bit thông tin của user k. Phương trình cập nhật như sau:
k(p) =
)p(b)1p(P)p(b
)p(b)1p(P
T −+λ
− (4.94)
c(p) = c(p-1) + k(p)(
cT
1 r(p) – bT(p)c(p-1)) (4.95)
P(p) = λ
1 {P(p-1) – k(p)bT(p)P(p-1)} (4.96)
Trong đó k(p) và vector kích thước Kx1, P(p) là ma trận tương quan KxK,
b(p) là dữ liệu huấn luyện Kx1, r(p) là ngõ ra của matched filter Kx1 và c(p) có
kích thước KxL với ckl(p) là một phần tử của nó.
Ma trận c(p) sẽ hội tụ tới kết quả Wiener tối ưu (bằng Aa) trong đó A là ma
trận đường chéo với các phần tử trên đường chéo là biên độ tín hiệu của các user, a
là ma trận KxL chứa các chuỗi trải phổ. Hệ số ckl(p) sẽ hội tụ tới giá trị Akakl (là tích
biên độ của user k và chip thứ l của chuỗi trải phổ ứng với user k).
Sau khi ma trận c(p) hội tụ, ngõ vào và ma trận trọng số của mạng Hopfield
có dạng như sau:
Ji = ∑
=
L
1l
ill )p(c)p(r2 (4.97)
Tij = ∑
=
−
L
1l
cjlil T)p(c)p(c2 (4.98)
5.4. Đặc tính hội tụ của mạng Hopfield rời rạc
Mạng Hopfield rời rạc gồm có n neuron, mỗi neuron có trạng thái là giá trị
nhị phân {-1,1} và tồn tại giá trị ngưỡng hi. Trọng số liên kết giữa hai neuron i, j là
wij và đối với mạng neural thích hợp thì ma trận trọng số W đối xứng, nghĩa là wij =
Tách sóng đa truy nhập dùng mạng Hopfield Mạng neural
GVHD: TS. Phạm Hồng Liên Trang 139
wji. Tại thời điểm m bất kỳ, neuron thứ i có trạng thái vi ∈ {-1,1} và trạng thái tại
thời điểm m+1 là:
−= ∑
=
+
i
n
1j
)m(
jij
)1m(
i hvwsgnv (4.99)
Đối với cơ chế song song, các bước cập nhật thực hiện đồng thời cho tất cả
các neuron. Do đó quy luật cập nhật tổng quát có thể biểu diễn như sau:
V = sgn(WV + h) (4.100)
Quá trình cập nhật bắt đầu với vector trạng thái bầt kỳ và sẽ thực hiện cho
đến khi kết quả cập nhật hội tụ, nghĩa là: V = U với U là vector thoả mãn điều kiện:
U = sgn(WU + h)) (4.101)
hay tạo thành vòng - tồn tại hai vector U, V sao cho:
V = sgn(WU + h) và U = sgn(WV + h)) (4.102)
Đối với cơ chế nối tiếp, các bước cập nhật chỉ thực hiện cho một neuron tại
một thời điểm. Theo Hopfield, mạng neural với ma trận trọng số W có các giá trị
trọng số wii > 0 (gọi là mạng bán đơn - semisimple) thì quá trình cập nhật hội tụ
đến vector ổn định. Một quá trình nối tiếp gọi là hữu dụng (productive) nếu trạng
thái của mạng thay đổi sau khi cập nhật.
Quá trình tính toán mạng Hopfield chính là quá trình tìm giá trị cực tiểu hàm
năng lượng (còn gọi là hàm Lyapunov).
Định lý 4.1: Cho:
ei =
−∑
kh0
hw1 j
j
ij (4.103)
Bất kỳ quá trình tính toán hữu dụng nào của mạng Hopfield bán đơn với
trọng số nguyên sẽ hội tụ với số lần lặp tối đa là:
kkk
i
ii
i ij
ij
wmin1
ehw
2
1
+
−+∑∑∑
≠ (4.104)
Chú ý là nếu mạng không phải là bán đơn thì có thể sẽ không hội tụ.
Định lý 4.2: Cho ei tính như (4.103) thì bất kỳ một quá trình cập nhật song
song nào với trọng số nguyên cũng hội tụ (ở dạng vector ổn định (4.101) hay dạng
vòng (4.102)) với số lần lặp tối đa là:
−−+ ∑∑ neh3w21 i iij,i ij (4.105)
Các file đính kèm theo tài liệu này:
- CDMA - Chapter 4 - Mang neural (30 pages).pdf