Tài liệu Luận văn Nén ảnh động dùng wavelet: 0
Bộ giáo dục và đào tạo
TR−ờNG ĐạI Học BáCH KHOA Hà Nội
------------------------------------------------
Luận văn thạc sĩ khoa học
nén ảnh động dùng wavelet
Ngành: Điện tử viễn thông
Nguyễn Hữu phát
Ng−ời h−ớng dẫn khoa học: PGS TS. Hồ Anh Tuý
Hà nội 2005
1
Mục lục
Trang
Lời nói đầu .................................................................................................. 4
Ch−ơng 1 TổNG QUAN Về NéN ảNH Video THEO CHUẩN MPEG
......................................................................................................................... 6
1.1. Khái niệm về Video và ph−ơng pháp nén Video ........................................ 5
1.1.1. Khái niệm Video ..................................................................................... 5
1.1.1.1. Không gian mầu (Color Space)............................................................ 5
1.1.1.2. Các cơ cấu số hoá tín hiệu Video ........................................................
124 trang |
Chia sẻ: hunglv | Lượt xem: 1283 | Lượt tải: 0
Bạn đang xem trước 20 trang mẫu tài liệu Luận văn Nén ảnh động dùng wavelet, để tải tài liệu gốc về máy bạn click vào nút DOWNLOAD ở trên
0
Bộ giáo dục và đào tạo
TR−ờNG ĐạI Học BáCH KHOA Hà Nội
------------------------------------------------
Luận văn thạc sĩ khoa học
nén ảnh động dùng wavelet
Ngành: Điện tử viễn thông
Nguyễn Hữu phát
Ng−ời h−ớng dẫn khoa học: PGS TS. Hồ Anh Tuý
Hà nội 2005
1
Mục lục
Trang
Lời nói đầu .................................................................................................. 4
Ch−ơng 1 TổNG QUAN Về NéN ảNH Video THEO CHUẩN MPEG
......................................................................................................................... 6
1.1. Khái niệm về Video và ph−ơng pháp nén Video ........................................ 5
1.1.1. Khái niệm Video ..................................................................................... 5
1.1.1.1. Không gian mầu (Color Space)............................................................ 5
1.1.1.2. Các cơ cấu số hoá tín hiệu Video ........................................................ 6
1.1.2. Các ph−ơng pháp nén Video ................................................................... 8
1.1.2.1. Giảm tốc độ dòng bit............................................................................ 9
1.1.2.2. Nén dòng tín hiệu Video số theo không gian ..................................... 10
1.1.2.3. Nén dòng tín hiệu theo thời gian........................................................ 11
1.1.2.4. Nén hỗn hợp sử dụng tổ hợp các ph−ơng pháp trên .......................... 11
1.1.3. Tham số nén Video. .............................................................................. 11
1.2. Giới thiệu chung về chuẩn MPEG ........................................................... 12
1.3. Các khái niệm cơ bản trong nén Video theo chuẩn MPEG...................... 14
1.3.1. Cấu trúc phân cấp Video theo chuẩn MPEG. ...................................... 14
1.3.2. Phân loại frame Video. ......................................................................... 17
1.3.3. Nhóm ảnh (GOP: Group Of Picture).................................................... 19
1.4. Ph−ơng pháp nén ảnh Video theo chuẩn MPEG. ..................................... 21
1.4.1. Mô hình tổng quát bộ mã hoá Video theo chuẩn MPEG...................... 21
1.4.2. Lấy mẫu thông tin về màu. .................................................................... 22
1.4.3. L−ợng tử hoá. ........................................................................................ 23
1.4.4. Nội suy ảnh. .......................................................................................... 23
1.4.5. Dự đoán bù chuyển động. ..................................................................... 24
1.4.5.1. Đánh giá chuyển động (motion estimation)....................................... 24
1.4.5.2. Bù chuyển động (Motion Compensation). ......................................... 24
1.4.6. Biến đổi Cosine rời rạc. ........................................................................ 26
1.4.7. Mã VLC................................................................................................. 27
1.5. Quá trình nén Video theo chuẩn MPEG-1. .............................................. 27
1.5.1. Tham số đặc tr−ng. ............................................................................... 27
1.5.2. Quá trình mã hoá. ................................................................................ 28
1.5.3.Quá trình giải mã.................................................................................. 32
1.6. Quá trình nén Video theo chuẩn MPEG-2. .............................................. 33
2
1.6.1. Tham số đặc tr−ng. .............................................................................. 36
1.6.2. Mô hình mã hoá Non-scalable theo MPEG-2. .................................... 37
1.6.3. Mô hình mã hoá scalable theo MPEG-2. ............................................ 38
Ch−ơng 2 M∙ hoá SCALABLE VIDEO .............................................. 42
2.1. Băng lọc 1/2 pixel biến đổi ng−ợc theo thời gian - tính toán bù chuyển
động................................................................................................................ 42
2.1.1. Giới thiệu............................................................................................... 44
2.1.2. Thuật toán ............................................................................................. 46
2.1.2.1 Mô hình Video phổ biến...................................................................... 46
2.1.2.2. Quét luỹ tiến Video với véctơ chuyển động chính xác 1/2 điểm ảnh . 49
2.1.2.3. Di chuyển cục bộ mở rộng ................................................................. 51
2.1.3. Ba tham số mã hoá băng con sử dụng IMCTF ..................................... 54
2.1.4. Kết quả thực nghiệm ............................................................................. 55
2.1.5. Tóm tắt và kết luận................................................................................ 59
2.2. Mã hoá scalable video.............................................................................. 61
2.2.1. Khái quát............................................................................................... 62
2.2.1.1. Mã hoá lai truyền thống..................................................................... 63
2.2.1.1.1.Mã hoá Scalable SNR ..................................................................... 63
2.2.1.1.2 Phân giải mã Scalable ..................................................................... 66
2.2.1.2. Embedded Coding and Fine Granularity Scalability ........................ 66
2.2.1.3. Mã hoá sử dụng băng con 3 chiều và mã hoá Wavelet ........................... 69
2.2.2. Hệ thống tổng quan.................................................................................. 70
2.2.3. Băng con mã hoá 3 chiều ...................................................................... 71
2.2.4. Tỷ lệ dòng bít mã hoá............................................................................... 74
2.2.4.1.Hệ thống dòng bít................................................................................ 74
2.2.4.2. Lựa chọn dòng bít mã hoá và truyền dẫn ......................................... 78
2.2.5. Kết quả thực nghiệm ............................................................................. 81
2.2.5.1. So sánh với mã hoá Nonscalable....................................................... 81
2.2.5.2. So sánh mã hoá LZC và 3D-SPIHT........................................................ 83
2.2.5.3. Mã hoá tốc độ đa phân giải ................................................................... 86
2.2.6. Tóm tắt và kết luận................................................................................ 91
Ch−ơng 3 Đối t−ợng-cơ sở m∙ hoá SCALABLE ............... 95
3.1. Đối t−ợng cơ bản - Cơ sở mã hoá............................................................. 97
3.1.1 Mặt phẳng đối t−ợng Video.................................................................... 97
3.1.2. Công cụ mã hoá cho đối t−ợng Video ................................................... 98
3.1.2.1. Định dạng mã hoá.............................................................................. 98
3.1.2.2. Cấu trúc mã hoá ................................................................................ 99
3.2. Đối t−ợng-Cơ sở mã hoá sử dụng EZBC................................................ 100
3
3.2.1. Tổng quan ........................................................................................... 101
3.2.2. Miền – Cơ sở biến đổi Wavelet rời rạc .............................................. 102
3.2.3. Đối t−ợng-Cơ sở mã hoá mặt phẳng bít EZBC .................................. 103
3.3. Kết quả thực nghiệm .............................................................................. 104
3.4. Tóm tắt và kết luận................................................................................. 106
Ch−ơng 4: Ch−ơng trình thử nghiệm và đánh giá kết
quả .............................................................................................................. 111
4.1. Xây dựng ch−ơng trình .......................................................................... 111
4.1.1. Khái quát chung .................................................................................... 111
4.1.2. Cấu trúc ch−ơng trình ............................................................................ 111
4.2. Đánh giá kết quả thử nghiệm ................................................................. 112
4.2.1 Dữ liệu thử nghiệm.................................................................................. 112
4.2.2. Kết quả thử nghiệm ................................................................................ 112
4.2.3. Nhận xét về tỷ số nén,chất l−ợng nén....................................................... 115
Kết luận .................................................................................................. 118
1. ứng dụng luận văn .................................................................................... 118
2. H−ớng phát triển cho t−ơng lai ................................................................. 119
TàI LIệU THAM KHảO ............................................................................. 120
PHụ LụC...................................................................................................... 122
THUậT NGữ tiếng anh ......................................................................... 122
4
Lời nói đầu
Trong những năm gần đây do sự phát triển mạnh mẽ của Internet nên vấn
đề truyền dữ liệu trên mạng đặc biệt là truyền ảnh và âm thanh đ−ợc quan
tâm. Do đó việc nén dữ liệu đặc biệt dữ liệu phim ảnh là cần thiết hơn bao giờ
hết. Trong phạm vi luận văn này tôi tập trung vào việc nén dữ liệu video.
Đối với nén ảnh động, chuẩn MPEG(Moving Photographic Experts
Group) đã đ−ợc xác lập bởi ISO và IEC. Đây là một kỹ thuật nén ảnh động đã
mang lại nhiều thành công. Nó có thể đạt tỷ lệ nén khá cao 10:1 mà mắt
th−ờng khó phân biệt đ−ợc. Tuy nhiên đây vẫn ch−a phải là tỷ lệ cao tối −u.
Sự ra đời của Wavelet đã mở ra một công nghệ mới. Đó là chuẩn
MJPEG2000. Sự ra đời của MJPEG2000 mở ra một t−ơng lai mới cho kỹ
thuật nén ảnh với những tính năng cao. Kỹ thuật Wavelet cũng đ−ợc nghiên
cứu trong nhiều phần mềm nh− Matlap...
Mục đích của luận văn này nhằm nghiên cứu một số ph−ơng pháp nén
ảnh động đang đ−ợc quan tâm. Luận văn này đ−ợc trình bày thành bốn
ch−ơng và một phụ lục. Ch−ơng Một là tổng quan về nén ảnh động. Ch−ơng
này giới thiệu một số chuẩn nén ảnh động là MPEG1,MPEG2,MPEG4 và
MPEG7. Đồng thời cũng trình bày cấu trúc của video. Ch−ơng Hai trình bày
ph−ơng pháp nén Scalable video. Ch−ơng này đề cập đến thuật toán LZC và
3D-SPIHT. Ch−ơng Ba đi sâu vào nghiên cứu đối t−ợng mã hoá của video dựa
trên biến đổi Wavelet. Ch−ơng Bốn nêu khái quát cách thiết kế và cài đặt
ch−ơng trình. Ch−ơng này mang tính chất minh hoạ cho những gì đã đ−ợc
trình bày ở các ch−ơng tr−ớc. Phần phụ lục nêu một số ch−ơng trình nguồn
thông dụng viết trên Visual C + + 6. 0.
Do thời gian có hạn nên tôi chỉ mới nghiên cứu đ−ợc phần nào trong kỹ
thuật nén ảnh động do vậy chắc chắn không tránh khỏi thiếu sót. Cuối cùng
tôi xin chân thành cảm ơn sự giúp đỡ nhiệt tình và hiệu quả của PGS TS Hồ
Anh Tuý đã giúp đỡ tôi hoàn thành luận văn này.
Hà nội ngày 20/10/2005
Đồ án cao học ĐTVT 2003
Nguyễn Hữu Phát 5
Ch−ơng 1
TổNG QUAN Về NéN ảNH Video THEO CHUẩN MPEG
1.1. Khái niệm về Video và ph−ơng pháp nén Video
1.1.1. Khái niệm Video
Video là sự biểu diễn điện tử của một chuỗi các ảnh liên tiếp. Những
ảnh này là những ảnh tĩnh và đ−ợc gọi là các frame. Chuỗi các frame xuất
hiện với tốc độ rất nhanh sẽ cho ta cảm giác chuyển động liên tục (tối thiểu là
25frame/giây). Mặc dù mỗi frame có sự khác nhau, cần thiết phải có tốc độ
frame cao để đạt đ−ợc cảm giác chuyển động thực sự. Tốc độ frame và độ
phân giải của mỗi frame là các nhân tố quan trọng ảnh h−ởng trực tiếp đến
chất l−ợng Video. Trong truyền hình, độ phân giải của truyền hình là 720x576
và tốc độ frame là 25 hoặc 30 Hz.
1.1.1.1. Không gian mầu (Color Space)
Dựa theo lý thuyết về ảnh màu, cảm thụ về màu của mắt trên cơ sở 3
màu cơ bản: màu đỏ (Red), màu lục (Green) và màu lam (Blue).
Trong hệ màu RGB, các màu có thể đ−ợc mô tả là các điểm bên trong
hình lập ph−ơng đơn vị, với gốc toạ độ (0, 0, 0) là màu đen; 3 thành phần R
(đỏ), G (lục), B (lam) biểu diễn cho 3 trục.
Một hệ thống biểu diễn màu khác đ−ợc sử dụng chính trong lĩnh vực
truyền hình nhằm giúp việc số hóa đ−ợc thuận lợi hơn là hệ màu YUV, miêu
tả mỗi ảnh trong Video gồm các thành phần độ chói (Y) và sắc màu (UV). Hệ
màu này nhằm đạt đ−ợc hiệu suất truyền cao hơn, và giữ nguyên tính t−ơng
thích với hệ số truyền hình màu đen trắng. Thành phần chói (luminance) cung
cấp giá trị mức xám của ảnh, hai thành phần còn lại mang thông tin về màu
sắc (chrominance) để chuyển đổi từ ảnh xám sang ảnh màu.
Đồ án cao học ĐTVT 2003
Nguyễn Hữu Phát 6
Chuyển đổi RGB sang YUV đ−ợc thực hiện theo chuẩn CCIR 601 nh−
sau:
Y = 0.299R + 0.587G + 0.114B
U = 0.493 (B - Y)
V = 0.877 (R - Y)
trong đó: Y là thành phần chói và U, V là hai thành phần màu.
Đặc biệt: khi R = G = B thì Y = R = G = B và U = V = 0.
Một định dạng màu khác là, t−ơng tự YUV là Y, CB, CR với Y t−ơng tự
nh− trên và hai thành phần nh− sau:
CB = U/2 + 0.5
CR = V/1.6 + 0.5
Do đó, màu CB, CR luôn nằm trong khoảng [0, 1].
Với −u điểm trên hệ YCBCR đ−ợc áp dụng rộng rãi trong việc số hoá
Video.
1.1.1.2. Các cơ cấu số hoá tín hiệu Video
Hình 1.1. Cấu trúc lấy mẫu
Đồ án cao học ĐTVT 2003
Nguyễn Hữu Phát 7
Trong truyền hình, các frame trong chuỗi Video có độ phân giải là 720
x 576 điểm và có tốc độ frame là 25 hoặc 30Hz. Mỗi ảnh trong chuỗi Video
đ−ợc lấy số hoá nh− hình 1.1.
Cấu trúc 4: 2: 2
Giả sử một dòng ngang của TV gồm 720 điểm ảnh.
Hình 1.2. Cấu trúc lấy mẫu 4: 2: 2
Việc lấy mẫu sẽ tuần tự diễn ra nh− sau:
- Điểm đầu lấy mẫu tín hiệu chói (Y) và lấy mẫu 2 màu (CB, CR).
- Điểm tiếp theo chỉ lấy mẫu tín hiệu chói (Y) và không lấy mẫu 2 tín
hiệu. Khi giải mã, màu suy ra từ điểm ảnh tr−ớc.
Tuần tự nh− vậy, cứ 4 lần lấy mẫu Y, có 2 lần lấy mẫu CR, 2 lần lấy mẫu CB.
Cấu trúc 4: 1: 1
Hình 1.3. Cấu trúc lấy mẫu 4: 1: 1
Điểm ảnh đầu tiên lấy mẫu đủ Y, CR, CB, 3 điểm kế tiếp chỉ lấy mẫu Y,
không lấy mẫu tín hiệu màu. Khi giải mã, mầu của 3 điểm ảnh phải suy ra từ
điểm ảnh đầu. Tuần tự nh− vậy, cứ 4 lần lấy mẫu Y, có 1 lần lấy mẫu CR, 1 lần
lấy mẫu CB.
Cấu trúc lấy mẫu 4: 2: 0
Đồ án cao học ĐTVT 2003
Nguyễn Hữu Phát 8
Lấy mẫu tín hiệu Y tại tất cả các điểm ảnh của dòng, còn tín hiệu màu thì
cứ 4 Y, có 2 màu CR và CB cách nhau theo từng hàng.
Hình 1.4. Cấu trúc lấy mẫu 4: 2: 0
Cấu trúc lấy mẫu 4: 4: 4
Lấy mẫu tín hiệu Y, CR, CB tại tất cả các điểm ảnh của dòng.
Hình 1.5. Cấu trúc lấy mẫu 4: 4: 4
1.1.2. Các ph−ơng pháp nén Video
Mục tiêu chính của việc nén tín hiệu Video là biểu diễn một nguồn tín
hiệu Video bằng một số bit ít nhất có thể đ−ợc mà vẫn đảm bảo yêu cầu chất
l−ợng cảm thụ. Với tín hiệu Video, giới hạn dải thông của tín hiệu t−ơng tự
khoảng 6MHz, trong khi tín hiệu Video số hoá theo tiểu chuẩn CCIR 601 với
tốc độ bit là 270Mbit/s chiếm dải thông không d−ới 189MHz, tức là lớn hơn
31,5 lần so với dải thông của tín hiệu t−ơng tự. Chính vì vậy, giảm dải thông là
vấn đề quan trọng với công nghệ Video số.
Về cơ bản giảm dải thông đ−ợc thực hiện bằng 4 cách:
- Giảm tốc độ dòng bit (bit Rate Reduction - BRR).
Đồ án cao học ĐTVT 2003
Nguyễn Hữu Phát 9
- Nén dòng tín hiệu Video số theo không gian, tức giảm độ d− thừa
trong một số frame (spatial redundancy).
- Nén dòng tín hiệu theo thời gian, tức giảm độ d− thừa theo thời
gian (temporal redundancy).
- Nén hỗn hợp sử dụng tổ hợp các ph−ơng pháp trên.
1.1.2.1. Giảm tốc độ dòng bit.
Có hai ph−ơng pháp giảm tốc độ dòng bit.
Cách thứ nhất dựa trên đặc điểm sinh lý của mắt ng−ời. Mắt ng−ời
không nhạy cảm với các tín hiệu màu nên trong ph−ơng pháp này, ng−ời ta
giảm bớt độ phân giải các tín hiệu màu.
Cách thứ hai dựa trên ý nghĩa của các bit l−ợng tử hoá các điểm ảnh.
Với 8 bit l−ợng tử hoá, các bit của byte này đ−ợc chia làm hai nhóm: nhóm có
ý nghĩa hơn (MMB-More Meaning Bit) và nhóm ít ý nghĩa hơn (LMB-Less
Meaning Bit). Việc ta cắt giảm các bit của nhóm LMB sẽ không ảnh h−ởng
nhiều tới chất l−ợng của ảnh. Tuy nhiên, ph−ơng pháp này không đ−ợc chấp
nhận trong các giải pháp giảm dải thông hiện tại, nên cũng sẽ không đ−ợc đề
cập đến.
Phần lớn các định dạng số thành phần hiện nay đều sử dụng tần số lấy
mẫu 13.5MHz đối với tín hiệu chói. Theo chuẩn CCIR 601, nếu 2 tín hiệu màu
đ−ợc lấy màu đ−ợc lấy mẫu với tần số nh− tín hiệu chói, chúng ta sẽ có định
dạng 4: 4: 4.Định dạng này đ−ợc sử dụng trong các thiết bị dựng phim phi
tuyến và trong đồ hoạ vi tính liên quan đến phim nhựa. Tốc độ bit của định
dạng này cho hệ PAL là:
Với l−ợng tử hoá 8 bit: (720 + 720 +720) x 576 x 8 x 25 = 249 Mbit/s
Với l−ợng tử hóa 10 bit: (720 + 720 +720) x 576 x 10 x 25 = 311
Mbit/s.
Trong đó: 720 x 576 là độ phân giải màn hình (576 là số dòng /frame).
25 là tốc độ chuyển ảnh (25 frames/s).
Đồ án cao học ĐTVT 2003
Nguyễn Hữu Phát 10
Hiện nay, các thiết bị sử dụng kỹ thuật số ở thị tr−ờng thiết bị Video
chuyên dụng th−ờng sử dụng chuẩn CCIR 601 4: 2: 2. Theo định dạng số hoá
này, tín hiệu Video thành phần đ−ợc lấy mẫu với tần số 13.5 MHz đối với tín
hiệu chói, và 6,75 MHz đối với hai tín hiệu màu.
Tốc độ dòng dữ liệu của định dạng này đ−ợc tính nh− sau:
Khi lấy mẫu 8 bit: (720 +360 +360) x 576 x 8 x 25 = 166 Mbit/s.
10 bit: (720 +360 +360) x 576 x 10 x 25 = 207 Mbit/s.
Nh− vậy, so với ph−ơng pháp lẫy mẫu không cắt giảm (4: 4: 4), ph−ơng
pháp này cho phép cắt giảm đ−ợc 33% tốc độ dòng bit.
Với định dạng 4: 1: 1 và 4: 2: 0, tốc độ dòng bit còn đ−ợc cắt giảm
nhiều hơn. Với 8 bit lấy mẫu, tốc độ dòng bit tính cho PAL là:
(720 +180 +180) x 576 x 8 x 25 = 124.4 Mbit/s.
tức là giảm đ−ợc 50% so với nguyên mẫu 4: 4: 4.
1.1.2.2. Nén dòng tín hiệu Video số theo không gian
Gần nh− tất cả các ảnh đều chứa một số l−ợng lớn các giá trị dữ liệu
thông tin giống nhau. Trong các hệ thống không giảm dữ liệu, các dữ liệu
giống nhau này đ−ợc lặp lại để tạo lại các vùng đều nhau trong một ảnh (ví dụ,
bầu trời xanh), và do đó có thông tin d− thừa trong dòng dữ liệu.
Để giảm độ d− thừa trong một frame, ta sử dụng các ph−ơng pháp nén
ảnh. Các ph−ơng pháp nén ảnh có thể chia làm 2 loại:
• Nén không tổn hao (lossless compression): là ph−ơng pháp nén mà tín hiệu
gốc đối chiếu với tín hiệu đ−ợc nén (mã hoá), sau đó giải nén (giải mã) thì
không có sự phân biệt.
• Nén có tổn hao (lossy compression): là ph−ơng pháp nén mà tín hiệu gốc
có sự khác biệt với tín hiệu đ−ợc khôi phục sau khi nén và giải nén.
• Chất l−ợng hình ảnh của các thiết bị dùng ph−ơng pháp nén không tổn hao
là rất tốt, có thể so sánh đ−ợc với chất l−ợng ảnh không nén. Tuy nhiên, tỉ
số nén của ph−ơng pháp này rất thấp. Chính vì vậy, các −u điểm của việc
Đồ án cao học ĐTVT 2003
Nguyễn Hữu Phát 11
nén tín hiệu không đ−ợc phát huy một cách tối đa, giá thành thiết bị vẫn
còn rất cao.
Để nâng tỉ số nén, phát huy tối đa −u điểm của việc nén tín hiệu,
ph−ơng pháp nén có tổn hao đ−ợc sử dụng trong hầu hết các thiết bị hiện nay.
Có hai định dạng nén đ−ợc áp dụng rộng rãi trong các thiết bị truyền hình, nén
Video là JPEG và MPEG, cùng các phiên bản của nó.
1.1.2.3. Nén dòng tín hiệu theo thời gian.
Các frame trong Video có quan hệ mật thiết với nhau, thậm chí các
frame hiện tại chỉ thay đổi chút ít so với các frame tr−ớc và sau đó. Để giảm
bớt thông tin truyền tải, ng−ời ta chỉ truyền những phần thông tin sai lệch và
kết hợp với thông tin cũ. Có nhiều ph−ơng pháp khác nhau để xác định sự thay
đổi giữa các frame, đó là các ph−ơng pháp xác định véctơ chuyển động. Ngoài
ra còn nhiều ph−ơng pháp khác, những giải thuật này có chất l−ợng cao,
nh−ng mức độ tính toán phức tạp và còn đang trong giai đoạn nghiên cứu.
1.1.2.4. Nén hỗn hợp sử dụng tổ hợp các ph−ơng pháp trên
Để đạt đ−ợc hiệu quả nén cao mà vẫn đảm bảo chất l−ợng hình ảnh,
ng−ời ta sử dụng tổ hợp các ph−ơng pháp trên. Ph−ơng pháp nén Video theo
chuẩn MPEG là một ph−ơng pháp nén tổ hợp của các ph−ơng pháp trên.
1.1.3. Tham số nén Video.
Tham số nén Video đ−ợc đề cập đến ở đây là định dạng ảnh và tỉ số
nén, tỉ số nén cho phép đánh giá hiệu quả của hệ thống nén. Khi so sánh tỉ số
nén của các hệ thống nén khác nhau, thì định dạng ảnh của các hệ thống nén
trên phải giống nhau.
Định dạng bao gồm:
• Số dòng/ảnh và số pixel/dòng.
Đồ án cao học ĐTVT 2003
Nguyễn Hữu Phát 12
• Số frame/s.
Và cấu trúc lấy mẫu bao gồm: 4: 4: 4, 4: 2: 2, 4: 2: 0, 4: 1: 1, độ phân
giải của mẫu là 8/10 bit (hoặc 12 bit).
Tốc độ bit của ảnh gốc (tr−ớc khi nén) có thể rút ra từ công thức:
Ví dụ: với tốc độ bit dữ liệu ảnh gốc 166 Mbit/s ở trên áp dụng vào máy
ghi hình đĩa PDR-100 (Tektronix), và giả sử chất l−ợng nén t−ơng đ−ơng
24Mbit/s, thì tỉ số nén là 166/24 = 6.92.
1.2. Giới thiệu chung về chuẩn MPEG
Chuẩn MPEG (Moving Picture Expert Group) đ−ợc xây dựng và phát
triển bởi các tổ chức ISO và IEC (International Electrotechnical Commission)
với mục đích mã hoá tín hiệu hình ảnh và âm thanh cho DSM (Digital Storage
Media), DSS (Digital Satellite System), HDTV (High Definition Television),
VideoConferencing, Internet Video, và các ứng dụng Video số. Chuẩn MPEG
ngày càng đ−ợc sử dụng rộng rãi trong nhiều ứng dụng l−u trữ, truyền thông
đa ph−ơng tiện, và đ−ợc biết đến với các chuẩn MPEG-1, MPEG-2, MPEG-4,
MPEG-7.
• MPEG-1 (~1992): mã ISO/IEC 11172, là chuẩn đầu tiên của MPEG nhằm
mục đích nén Video có kích th−ớc khuôn hình 320x240 cho dòng dữ liệu
có tốc độ từ 1 đến 1.5 Mb/s trong các ứng dụng DSM (nh− công nghệ ghi
VCD), vô tuyến truyền hình.
• MPEG-2 (~1995): mã ISO/IEC 13818, là chuẩn dành cho giải pháp cao
hơn dùng trong studio số, DVD, truyền hình số và HDTV. Khác với
MPEG-1 tín hiệu Video luôn là quét liên tục (progressive), MPEG-2 áp
dụng cho cả quét liên tục và quét xen kẽ (interlace). Tốc độ dòng dữ liệu
lên tới 15 Mb/s.
Tốc độ dữ liệu ảnh gốc
Tỉ số nén =
Tốc độ dữ liệu ảnh nén
Đồ án cao học ĐTVT 2003
Nguyễn Hữu Phát 13
• MPEG-4 (~1998): mã ISO/IEC 14496, là chuẩn chủ yếu dành cho các ứng
dụng đa ph−ơng tiện t−ơng tác, phân loại khung cảnh đa ph−ơng tiện thành
các đối t−ợng nội dung media, tập trung vào dồn kênh, đồng bộ dữ liệu với
các đối t−ợng media để truyền qua mạng. MPEG-4 sử dụng tốc độ bit
(Video) rất thấp: 5ữ64 Kb/s. Vai trò nén ít đ−ợc đề cập trong phiên bản
này.
• MPEG-7 (~2001): MPEG-7 là chuẩn mô tả thông tin của rất nhiều loại
ph−ơng tiện. Mô tả này cho khả năng tìm kiếm nhanh và hiệu quả theo yêu
cầu ng−ời dùng. Tuy nhiên, chuẩn MPEG-7 đ−ợc mô tả về phần nội dung
giống nh− MPEG-4, và đ−ợc gọi chính thức là “Giao thức mô tả nội dung
đa ph−ơng tiện” (Multimedia Content Description Interface). MPEG-7 đặc
tr−ng cho một tập tiêu chuẩn biểu diễn nhiều loại thông tin multimedia
khác nhau. MPEG-7 không phải là chuẩn nén.
Sơ đồ giới thiệu các chuẩn nén và các công nghệ nén xem hình 1.6:
Hình 1.6. Các chuẩn, các công nghệ nén, truyền thông đa ph−ơng tiện
Đồ án cao học ĐTVT 2003
Nguyễn Hữu Phát 14
1.3. Các khái niệm cơ bản trong nén Video theo chuẩn MPEG.
1.3.1. Cấu trúc phân cấp Video theo chuẩn MPEG.
Cấu trúc dòng bit Video đ−ợc chia thành phân cấp các lớp (layer) để hỗ
trợ quản lý lỗi, truy cập ngẫu nhiên, dựng hình (editting) và đồng bộ với dòng
bit audio.
• Block: Là các khối kích th−ớc 8x8 điểm ảnh của tín hiệu chói và màu đ−ợc
dùng để biến đổi DCT.
• Macroblock: Một Macroblock là một nhóm các khối DCT (theo nội dung
thông tin) trong ảnh gốc. Header của Marcroblock chứa thông tin về các
khối độ chói và độ màu, và thông tin bù chuyển động. Có ba loại
Macroblock (phân loại theo ph−ơng pháp mã hoá Macroblock):
u Skipped MB: sử dụng dự đoán từ frame giải mã tr−ớc đó với véctơ
chuyển động bằng 0. Không có thông tin về Macroblock đ−ợc giải
mã cũng nh− đ−ợc truyền đến nơi nhận.
u Inter MB: sử dụng dự đoán bù chuyển động từ frame tr−ớc đó. Do
đó, cần truyền đi kiểu MB, địa chỉ MB, vectơ chuyển động, các hệ
số DCT và kích th−ớc b−ớc l−ợng tử.
u Intra MB: không dùng dự đoán từ frame tr−ớc đó. Nên chỉ cần
truyền kiểu MB, địa chỉ MB, các hệ số DCT và kích th−ớc b−ớc
l−ợng tử đến nơi nhận.
• Slice: Slice cung cấp khả năng phòng ngừa sự sai lệch dữ liệu. Khi gặp lỗi
trong dòng bit của một ảnh, bộ giải mã có thể khôi phục bằng cách đợi
Slice tiếp theo mà không phải huỷ bỏ toàn bộ ảnh. Slice chứa header và một
hoặc nhiều Macroblock liên tiếp. Kích th−ớc Slice cực đại có thể là toàn
cảnh, kích th−ớc cực tiểu có thể là một Macroblock. Header của Slice chứa
thông tin về vị trí của nó trong ảnh và hệ số thang độ của bộ l−ợng tử hoá.
Đồ án cao học ĐTVT 2003
Nguyễn Hữu Phát 15
• Picture (frame): Một ảnh t−ơng ứng với một frame của Video. Có ba kiểu
ảnh chính là: ảnh I, P và B. Các ảnh này không độc lập nhau, nên thứ tự
dòng bit (tức là thứ tự các cảnh đ−ợc truyền, l−u trữ và khôi phục) không
theo thứ tự hiển thị, mà là thứ tự cho phép bộ giải mã có thể giải mã dòng
bit. Lớp ảnh bao gồm phần header và một hoặc nhiều Slice. Header chỉ thị
sự sắp xếp để truyền frame, cho phép bộ giải mã hiển thị frame đúng theo
bậc, kiểu ảnh và thông tin mã hoá.
• GOP (Group Of Picture): Một nhóm ảnh là một điểm truy nhập ngẫu
nhiên (random access point), là đơn vị mã hoá nhỏ nhất mà có thể đ−ợc
giải mã độc lập, bao gồm phần header và các ảnh. Header chứa thông tin
thời gian và dựng hình (editting). Một nhóm ảnh GOP hình thành từ liên
kết một hoặc nhiều frame I, và các frame P, và/hoặc frame B. Cấu trúc
GOP đ−ợc biểu diễn thông qua hai tham số: n (số frame trong GOP) và m
(khoảng cách dự đoán), thông th−ờng n=15, m = 3. Mỗi GOP bắt đầu bằng
một frame I. Thứ tự các ảnh dòng mã là thứ tự mà qua quá trình giải mã
đ−a chúng trở lại bình th−ờng. Đặc biệt, ảnh B trong dòng giải mã đ−ợc
đ−a ngay ra màn hình; ảnh mã cuối cùng của nhóm ảnh (trong thứ tự trình
diễn) là ảnh I hoặc P.
• Chuỗi Video (Video sequence): Là lớp cao nhất của phân cấp mã hoá.
Chuỗi chứa một header, một hoặc nhiều GOP và một mã kết thúc chuỗi.
Thông tin quan trọng nhất chứa trong header là kích th−ớc theo chiều
ngang và đứng của mỗi ảnh, tỉ lệ pixel, tốc độ bit của ảnh trong chuỗi, tốc
độ ảnh và các kích th−ớc tối thiểu của bộ nhớ cho bộ giải mã, . . . . để khởi
gán trạng thái của bộ giải mã. Chuỗi Video và thông tin header tạo thành
dòng bit mã hoá, đ−ợc gọi là dòng sơ cấp Video ES (elementary stream).
Đồ án cao học ĐTVT 2003
Nguyễn Hữu Phát 16
Hình 1.7. Các lớp video theo chuẩn MPEG
Hình 1.8. Cấu trúc dòng dữ liệu MPEG
Đồ án cao học ĐTVT 2003
Nguyễn Hữu Phát 17
1.3.2. Phân loại frame Video.
Căn cứ vào đặc tính của Video có sự d− thừa không gian và d− thừa thời
gian để đ−a ra hai ph−ơng pháp nén giảm độ d− thừa không gian (mã hoá
“intraframe”) và nén giảm độ d− thừa thời gian t−ơng ứng (mã hoá
“intrerframe”), và do đó chia các frame Video thành 3 loại là: frame I, frame
P, frame B.
• Frame I (Intra Coded Picture):
Frame I là frame đầu tiên trong mỗi nhóm ảnh của chuỗi Video,
frame này đ−ợc mã hoá t−ơng tự nh− mã hoá ảnh tĩnh theo chuẩn JPEG.
Các frame I đ−ợc mã hoá độc lập, không cần tham chiếu đến các frame
khác trong chuỗi Video. Mã hoá các frame I chỉ làm giảm độ d− thừa
không gian và cho một tỉ lệ nén vừa phải. Frame I có thể dùng làm
điểm truy cập ngẫu nhiên trong chuỗi cho bộ giải mã, và có thể dùng
nh− nh− là frame tham chiếu (reference frame) để dự đoán các frame
khác.
• Frame P (Predictive Code Picture):
Qua frame I, bộ mã hoá có thể dự đoán thuận (forward
predection) frame tiếp theo. Frame đ−ợc dự đoán gọi là frame P
(predicted frame), và frame P cũng có thể đ−ợc dự đoán từ các frame
tr−ớc đó. Nh− vậy, mỗi frame P đ−ợc dự đoán từ frame I hoặc P tr−ớc
đó. Việc mã hoá ảnh P có sử dụng bù chuyển động. Thông tin −ớc
l−ợng chuyển động của các khối nằm trong véctơ chuyển động. véctơ
này xác định một Macroblock (MB) nào đó đ−ợc sử dụng từ ảnh gốc.
Frame P cho hệ số nén cao hơn, và có thể sử dụng làm một frame so
sánh, tham chiếu cho việc bù chuyển động cho các frame P và B khác.
Đồ án cao học ĐTVT 2003
Nguyễn Hữu Phát 18
Hình 1.9. Nội suy bù chuyển động
• Frame B (Bidirectionally Predicted 0icture):
Bộ mã hoá cũng có thể sử dụng đồng thời dự đoán thuận và ng−ợc. Những
frame này gọi là frame dự đoán nội suy 2 chiều (Bi-directional
Interpolated Prediction), hay frame B. Không nh− frame I (đ−ợc dự đoán
độc lập) và frame P (đ−ợc dự đoán dựa vào frame I hoặc P tr−ớc đó), frame
B đ−ợc dự đoán 2 chiều dựa vào cặp frame I và P, hoặc P và P, hoặc P và I
(với frame I của nhóm ảnh tiếp theo). Việc sử dụng thông tin lấy từ ảnh
trong t−ơng lai hoàn toàn có thể thực hiện đ−ợc vì tại thời điểm mã hoá thì
bộ mã hoá đã sẵn sàng truy cập tới ảnh phía sau. Frame B cho tỉ lệ nén cao
nhất, và không đ−ợc dùng làm frame tham chiếu.
Theo ph−ơng pháp nén này, frame I gọi là frame intra (sử dụng kỹ thuật
mã hoá intraframe), frame P và B gọi là các frame Inter (sử dụng kỹ thuật mã
hoá interframe).
Đồ án cao học ĐTVT 2003
Nguyễn Hữu Phát 19
Một thuận lợi khi sử dụng nhiều loại frame là để theo dõi dữ liệu trong
quá trình truyền, nếu có frame bị mất (th−ờng là frame P hoặc frame B) thì
chất l−ợng Video cũng không bị ảnh h−ởng nhiều.
Kích th−ớc các frame đ−ợc minh hoạ trong hình vẽ sau:
Hình 1.10. Kích th−ớc các loại frame
1.3.3. Nhóm ảnh (GOP: Group Of Picture).
Công nghệ MPEG sử dụng 3 loại ảnh I, P và B, trong đó P, B không
phải là một ảnh hoàn chỉnh mà chỉ chứa sự khác biệt giữa ảnh đó và ảnh xuất
hiện tr−ớc đó (đối với P), hay sự khác biệt đối với cả ảnh xuất hiện tr−ớc và
sau nó (đối với B). Để có một khuôn hình hoàn chỉnh ảnh P và B cần có dữ
liệu từ các ảnh lân cận, chính vì vậy đối với MPEG có một khái niêm là GOP
(nhóm ảnh). Mỗi nhóm phải bắt đầu bằng một ảnh hoàn chỉnh I và tiếp theo là
một loạt các ảnh B, P. Có hai loại nhóm là mở và đóng. Nhóm mở bắt đầu
bằng một ảnh I và kết thúc bằng một ảnh I, việc dự đoán ảnh phụ thuộc cả vào
thông tin của các GOP khác. Nhóm đóng có cấu trúc khép kín, việc dự đoán
ảnh không phụ thuộc vào thông tin của nhóm khác và ảnh cuối cùng của một
nhóm bao giờ cũng là một ảnh P.
Đồ án cao học ĐTVT 2003
Nguyễn Hữu Phát 20
Chuỗi ảnh MPEG th−ờng có cấu trúc IBBPBBPBBI nh−ng thứ tự truyền
dẫn và thứ tự hiển thị ảnh là khác nhau do khi tạo ảnh B cần thông tin từ cả
khung quá khứ và t−ơng lai. ảnh t−ơng lai cần phải đ−ợc truyền dẫn tr−ớc, khi
hiển thị phải theo đúng thứ tự nguồn. Để thực hiện điều này, lớp ảnh (Picture
layer) của dòng dữ liệu MPEG có thông tin về số thứ tự ảnh để trợ giúp hiển
thị. Hình d−ới trình bày thứ tự truyền dẫn và thứ tự hiển thị ảnh.
Hình 1.11. Thứ tự truyền dẫn và thứ tự hiển thị ảnh
Chuẩn MPEG không định nghĩa số l−ợng giới hạn các frame B liên tiếp
trong nhóm ảnh, nên số l−ợng frame B liên tiếp phụ thuộc vào từng ứng dụng.
Thông th−ờng, số l−ợng này là 2 (I, B, B, P, B, B, P) để đảm bảo hiệu quả nén
và chất l−ợng Video.
Một cấu trúc nhóm ảnh thông th−ờng đ−ợc mô tả bởi hai tham số: n - số
ảnh trong một nhóm và m - số khoảng cách cho ảnh B. Nh− ví dụ trên n=9 và
m=3.
Đồ án cao học ĐTVT 2003
Nguyễn Hữu Phát 21
1.4. Ph−ơng pháp nén ảnh Video theo chuẩn MPEG.
1.4.1. Mô hình tổng quát bộ mã hoá Video theo chuẩn MPEG.
Nén Video số nhằm mục đích loại bỏ d− thừa không gian và d− thừa
thời gian trong chuỗi Video mà không ảnh h−ởng đến mức độ cảm thụ của mắt
ng−ời.
Trong ph−ơng pháp nén Video theo chuẩn MPEG có hai kỹ thuật nén
đ−ợc sử dụng là:
• Kỹ thuật mã hoá “Intra frame”: Kỹ thuật mã hoá “Intra frame” nhằm giảm
độ d− thừa không gian trong một frame. Kỹ thuật này xuất phát từ mối
t−ơng quan không gian giữa các điểm ảnh trong một ảnh, từ đó để nén ảnh
hiệu quả. Ph−ơng pháp đ−ợc sử dụng để giảm d− thừa không gian là kỹ
thuật mã hoá biến đổi Cosine rời rạc (DCT) trên các khối 8x8 điểm ảnh.
Kỹ thuật này đã đ−ợc sử dụng trong ph−ơng pháp nén ảnh tĩnh trình bày ở
Ch−ơng 2.
• Kỹ thuật mã hoá “Inter frame”: nhằm giảm độ d− thừa thời gian giữa các
frame ảnh: Kỹ thuật mã hoá “Inter frame” tính giá trị của một điểm ảnh
riêng biệt bằng cách dự đoán từ các điểm ảnh trong ảnh lân cận. Kỹ thuật
này xuất phát từ mối t−ơng quan thời gian giữa các điểm ảnh trong các ảnh
lân cận. Ph−ơng pháp để giảm độ d− thừa thời gian là kỹ thuật mã hoá
DPCM dựa trên dự đoán bù chuyển động giữa các frame.
• Trong mô hình nén Video theo chuẩn MPEG, để đạt đ−ợc hiệu quả nén cao
cần kết hợp cả hai kỹ thuật nén ở trên để giảm d− thừa không gian và thời
gian. Mô hình nén Video Hybrid DPCM/DCT là sự kết hợp của hai kỹ
thuật trên (xem hình 1.12).
Mô hình Hybrid DPCM/DCT gồm có các kỹ thuật:
• Lấy mẫu (subsampling) thông tin về màu để thích hợp với độ nhậy cảm của
mắt ng−ời.
Đồ án cao học ĐTVT 2003
Nguyễn Hữu Phát 22
• L−ợng tử hoá (Quantization-Q)
• Nội suy ảnh (picture interpolation).
• Dự đoán bù chuyển động bao gồm: đánh giá chuyển động (motion
estimation) và bù chuyển động (motion compensation-MC)
• Biến đổi Cosine rời rạc (DCT) để khai thác tính d− thừa không gian.
• Mã hoá chiều dài thày đổi (VLC-Variable length coding).
Hình 1.12. Nguyên lý mã hoá Hybrid DCT/DPCM
1.4.2. Lấy mẫu thông tin về màu.
Lấy mẫu với tần số lấy mẫu thấp hơn là để giảm kích th−ớc của Video
đầu vào và nh− thế sẽ giảm số l−ợng các điểm tr−ớc khi mã hoá.
Lấy mẫu màu nghĩa là lấy mẫu màu ở tần số thấp hơn tần số lấy mẫu
theo lý thuyết Nyquist hoặc Shannon.
Mắt ng−ời nhạy cảm nhất với độ phân giải thành phần độ chói của ảnh
và ít nhạy cảm với thông tin về màu. Lấy mẫu là một ph−ơng pháp giảm dữ
Đồ án cao học ĐTVT 2003
Nguyễn Hữu Phát 23
liệu rất có hiệu quả, nh−ng sự tổn thất độ phân giải ảnh và các thành phần
chồng phổ sẽ làm giảm chất l−ợng nội dung ảnh gốc. Vì lý do này, nên không
dùng lấy mẫu thấp cho tín hiệu chói. Cấu trúc lấy mẫu th−ờng dùng là 4: 2: 2
và 4: 2: 0. MPEG dùng cấu trúc 4: 2: 0.
1.4.3. L−ợng tử hoá.
L−ợng tử hoá đ−ợc thực hiện bằng cách chia mỗi hệ số DCT cho các giá trị
kích th−ớc b−ớc l−ợng tử t−ơng ứng trong bảng l−ợng tử, sau đó làm tròn về số
nguyên gần nhất.
( , )( , )
( , )q
S u vS u v
Q u v
⎡ ⎤= ⎢ ⎥⎣ ⎦
trong đó:
- [] là làm tròn về số nguyên gần nhất.
- Q(u,v): hệ số l−ợng tử hoá xác định bởi bảng l−ợng tử hoá. Q(u,v) có
giá trị từ 1 đến 255 xác định b−ớc của kích th−ớc l−ợng tử hoá t−ơng
ứng.
Giải l−ợng tử hoá đ−ợc thực hiện bởi:
'( , ) ( , ) * ( , )qS u v S u v Q u v=
1.4.4. Nội suy ảnh.
Bộ giải mã có thể khôi phục ảnh hiện tại từ ảnh tr−ớc và ảnh sau, thì kỹ
thuật khôi phục đó gọi là kỹ thuật nội suy ảnh. Các khối trong ảnh hiện tại có
thể đ−ợc dự đoán thuận hoặc ng−ợc và đ−ợc dịch theo các véctơ chuyển động.
Bộ giải mã có thể tái tạo các giá trị điểm ảnh theo một khối cho tr−ớc là trung
bình của các giá trị của khối tr−ớc và khối sau.
Đồ án cao học ĐTVT 2003
Nguyễn Hữu Phát 24
1.4.5. Dự đoán bù chuyển động.
1.4.5.1. Đánh giá chuyển động (motion estimation).
Đánh giá chuyển động là quá trình đánh giá xấp xỉ các điểm của frame
hiện tại từ frame tham chiếu.
Đánh giá chuyển động phải xác định các véctơ chuyển động, và đ−ợc
thực hiện tại bộ mã hoá với nhiều sự tính toán phức tạp. Có nhiều chiến l−ợc
tìm kiếm để xác định véctơ chuyển động. Với mỗi chiến l−ợc tìm kiếm, bộ mã
hoá cố gắng đối sánh các điểm trong một Macroblock với các điểm trong ảnh
đ−ợc mã hoá tr−ớc hoặc sau đó (theo thứ tự hiển thị). Khi quá trình tìm kiếm
kết thúc, sẽ tạo ra véctơ chuyển động (motion véctơ) thích hợp nhất (xem hình
1.13).
Hình 1.13. Xác định vectơ chuyển động mv (motion vector)
1.4.5.2. Bù chuyển động (Motion Compensation).
Trong thực tế thì không phải khối t−ơng thích lúc nào cũng giữ nguyên
trạng thái cân bằng sau khi dịch chuyển mà trong quá trình dịch chuyển nó bị
Đồ án cao học ĐTVT 2003
Nguyễn Hữu Phát 25
quay đi một góc nào đó. Với góc quay nh− vậy sẽ làm cho ảnh sau khi xây
dựng lại sẽ bị lệch đi một góc nào đó (lệch hình). Để khắc phục tình trạng đó
ng−ời ta đ−a vào khái niệm ảnh lỗi dự đoán. ảnh sai số dự đoán là phần khác
nhau nhỏ nhất giữa ảnh hiện tại đ−ợc truyền và ảnh dự đoán tốt nhất có thể đạt
đ−ợc. ảnh đó đ−ợc xác định bằng cách lấy ảnh hiện tại trừ đi đi ảnh sau khi dự
đoán. Quá trình xây dựng lại ảnh đ−ợc thực hiện bằng cách lấy ảnh dự đoán
thông qua véctơ chuyển động cộng với sai số dự đoán. Khi mã hoá thay vì
phải mã hoá toàn bộ ảnh ng−ời ta chỉ cần mã hoá véctơ chuyển động và ảnh
sai số dự đoán. ảnh sai số dự đoán có kích cỡ nhỏ hơn rất nhiều so với toàn bộ
ảnh vì phần ảnh giống nhau sẽ bị triệt tiêu (có giá trị bằng 0) khi xác định ảnh
sai số dự đoán, do đó việc mã hoá sẽ đòi hỏi ít byte hơn.
Quá trình khôi phục một ảnh bằng cách dùng các phần ảnh từ ảnh tr−ớc
cùng với thông tin về chuyển động (véctơ chuyển động) nh− ở trên gọi là bù
chuyển động (Motion Compensation).
Trong nhóm ảnh trên (hình 1.11), ảnh I1 đ−ợc giải mã mà không cần xét
đến véctơ chuyển động, nh−ng ảnh P4 đ−ợc giải mã phải sử dụng véctơ chuyển
động từ ảnh I1. Bù chuyển động này gọi là bù chuyển động thuận vì xuôi theo
trình tự thời gian. Các ảnh P luôn dùng bù chuyển động thuận từ ảnh I hoặc P
đ−ợc truyền tr−ớc đó. Các ảnh B đ−ợc giải mã sử dụng bù chuyển động từ ảnh
I hoặc ảnh P tr−ớc hoặc sau đó (theo thứ tự hiển thị).
Dự đoán đ−ợc gọi là thuận nếu ảnh tham chiếu (ảnh I hoặc ảnh P) là
ảnh tr−ớc ảnh đang xét; và đ−ợc gọi là ng−ợc nếu ảnh tham chiếu là ảnh sau
đang xét (theo thứ tự hiển thị).
Ví dụ trong hình 1.11 ảnh B2 dùng bù chuyển động thuận từ ảnh I1 và bù
chuyển động ng−ợc từ ảnh P4. .Do đó, ảnh B2 dùng bù chuyển động hai chiều
và kết quả lấy trung bình, nên đ−ợc gọi là bù chuyển động nội suy.
Bù chuyển động đ−ợc thực hiện tại bộ mã hoá và giải mã.
Đồ án cao học ĐTVT 2003
Nguyễn Hữu Phát 26
Quá trình khôi phục frame (với loại frame inter) sử dụng bù chuyển
động gồm hai b−ớc:
+ Cộng véctơ chuyển động vào frame tham chiếu.
+ Cộng sai số dự đoán và kết quả trên.
Hình 1.14 minh hoạ quá trình khôi phục frame.
Giữa những điểm kế tiếp nhau có liên quan lẫn nhau dẫn đến sự d−
thừa. Mã dự đoán đ−ợc dùng để loại bỏ sự d− thừa đó. Dựa trên quá trình tạo
các điểm tuần tự và luật dự đoán, mỗi giá trị của điểm có thể đ−ợc dự đoán để
thay thế điểm hiện tại. Phần chênh lệch giữa điểm dự đoán và điểm hiện tại
đ−ợc mã hoá. Thành công trong mã hoá ít bit hơn so với mã hoá trực tiếp điểm
hiện tại.
Mã hoá dự đoán đóng vai trò quan trọng trong các chuẩn nén ảnh nh−
JPEG và MPEG để có hiệu suất nén và đơn giản hơn.
Hình 1.14. Minh hoạ quá trình khôi phục frame
1.4.6. Biến đổi Cosine rời rạc.
T−ơng tự nh− biến đổi DCT.
Đồ án cao học ĐTVT 2003
Nguyễn Hữu Phát 27
1.4.7. Mã VLC.
Mã hoá VLC là ph−ơng pháp mã hoá thống kê, gán các từ mã cho các
giá trị đ−ợc mã hoá. Các giá trị có tần số xuất xuất hiện cao đ−ợc gán từ mã
ngắn, các từ mã có tần xuất xuất hiện thấp đ−ợc gán từ mã dài hơn sao cho
xâu biểu diễn mã ngắn hơn so với dữ liệu gốc. Với cách gán trên, mã hoá đ−ợc
gọi là mã hoá có độ dài thay đổi nhằm tối −u việc mã hoá với số l−ợng bit ít
nhất.
1.5. Quá trình nén Video theo chuẩn MPEG-1.
Kỹ thuật nén Video theo chuẩn MPEG -1 chủ yếu ứng dụng cho việc
l−u trữ trên CD-ROM và truyền trên mạng. Đầu vào Video theo chuẩn bao
gồm một định dạng ảnh Video liên tục (non-interlaced)
1.5.1. Tham số đặc tr−ng.
Tham số đặc tr−ng đề cập đến ở đây là định dạng ảnh đầu vào và cấu
trúc lấy mẫu. Định dạng đầu vào là: 720 điểm mỗi dòng, 576 dòng mỗi ảnh và
30 ảnh mỗi giây.
Tỉ lệ bit lớn nhất là 1.86 Mbit/s.
Cấu trúc lấy mẫu là 4: 2: 0.
Đồ án cao học ĐTVT 2003
Nguyễn Hữu Phát 28
1.5.2. Quá trình m∙ hoá.
Hình 1.15. Sơ đồ khối bộ mã hoá video theo chuẩn MPEG-1
Quy trình hoạt động của bộ đánh giá xấp xỉ chuyển động và bù chuyển
động theo chuẩn MPEG-1 gồm:
1.5.2.1. Bộ đánh giá chuyển động.
• Thao tác cho từng khối tại mỗi thời điểm.
• Với mỗi khối của frame hiện tại:
• Tìm kiếm khối giống nhất trong frame tr−ớc.
• Tính toán vectơ chuyển động từ khối giống nhất đó.
• Xác định sai lệch giữa khối thuộc frame hiện tại và khối thuộc frame
tr−ớc đó.
• Mã hóa véctơ chuyển động.
• Mã hoá khối sai lệch.
• Phép tìm kiếm thực hiện trên một vùng giới hạn, gọi là vùng tìm kiếm.
Đồ án cao học ĐTVT 2003
Nguyễn Hữu Phát 29
1.5.2.2. Bộ bù chuyển động.
• Bộ mã hoá dùng véctơ chuyển động và frame tham chiếu để tạo ra
frame dự đoán bù chuyển động của frame hiện tại.
• Mỗi khối của frame hiện tại (tức mỗi Macroblock 16x16 điểm) đ−ợc dự
đoán dựa vào thông tin về chuyển động (tức vectơ chuyển động) và
frame tham chiếu.
• Khối hiện tại trừ đi khối dự đoán để tạo ra khối sai lệch bù chuyển
động.
• Khối sai lệch này đ−ợc biến đổi DCT, l−ợng tử hoá và mã hoá.
• Sau khi mã hoá, khối sai lệch này cùng với véctơ chuyển động đ−ợc
truyền đi.
1.5.2.3. Quá trình mã hoá.
• Một bản sao khôi phục từ frame đã mã hoá đ−ợc l−u trữ trong vùng đệm
frame (frame store), để frame này đ−ợc dùng nh− frame tham chiếu cho
đánh giá chuyển động. Thứ tự l−u trữ trong FS của bộ mã hoá phải đồng
nhất với thứ tự này trong bộ giải mã.
• Bộ đánh giá chuyển động tính toán véctơ chuyển động cho mỗi khối
bằng cách đối sánh frame đầu vào hiện tại với frame tham chiếu gần
nhất.
• Bộ bù chuyển động tạo ra frame dự đoán bù chuyển động (là frame
giống frame hiện tại nhất).
• Frame hiện tại trừ đi frame bù chuyển động để tạo ra frame sai lệch bù
chuyển động.
• Các hệ số sau khi l−ợng tử hoá và các véctơ chuyển động đ−ợc mã hoá
và truyền đi.
Đồ án cao học ĐTVT 2003
Nguyễn Hữu Phát 30
• Đồng thời, các hệ số l−ợng tử hoá đ−ợc l−ợng tử hoá ng−ợc, biến đổi
ng−ợc, và cùng với frame dự đoán bù chuyển động để tạo ra frame tham
chiếu mới.
Cách hoạt động của bộ mã hoá phụ thuộc vào từng loại frame.
• Frame I đ−ợc xử lý theo cách thức t−ơng tự nh− ph−ơng pháp nén ảnh
tĩnh theo chuẩn JPEG. Frame I đ−ợc l−u trữ trong bộ đệm frame để làm
frame tham chiếu dùng cho đánh giá chuyển động và tạo ra các frame P
và B.
• Frame P không đ−ợc mã hoá trực tiếp nh− frame I, mà mã hoá frame
sai lệch giữa frame P hiện tại và frame dự đoán (thuận) của nó. Frame
dự đoán đ−ợc tạo ra nhờ sử dụng véctơ chuyển động và frame I, hoặc P
đ−ợc tham chiếu gần nhất.
• T−ơng tự nh− frame P, frame B không đ−ợc mã hoá trực tiếp mà mã hoá
frame sai lệch giữa frame B hiện tại và frame dự đoán (hai chiều) của
nó. Frame dự đoán đ−ợc tạo ra nhờ sử dụng véctơ chuyển động hai
chiều và cặp frame I và P, hoặc P và P, hoặc P và I đ−ợc tham chiếu gần
nhất.
Quá trình mã hoá frame I:
Đồ án cao học ĐTVT 2003
Nguyễn Hữu Phát 31
Hình 1.16. Quá trình mã hoá frame I
Quá trình mã hoá frame sai lệch:
Hình 1.17. Quá trình bù chuyển động và mã hoá frame sai lệch
Tốc độ bit của tín hiệu Video đ−ợc nén không cố định, phụ thuộc vào
nội dung ảnh đang xét. Ng−ợc lại, tại đầu ra bộ mã hoá, dòng bit phải cố định
Đồ án cao học ĐTVT 2003
Nguyễn Hữu Phát 32
để xác định tốc độ cho dung l−ợng kênh truyền. Do đó, tr−ớc khi truyền đi, tại
đầu ra bộ mã hoá phải có bộ nhớ đệm đủ lớn. Bộ mã hoá phải kiểm tra trạng
thái đầy (overflow) của bộ nhớ đệm. Khi số liệu trong bộ nhớ đệm gần bằng
dung l−ợng cực đại, thì các hệ số biến đổi DCT đ−ợc l−ợng tử hoá ít chính xác
hơn. Trong tr−ờng hợp ng−ợc lại, có nghĩa là bộ đệm chứa số liệu quá ít
(underflow), thì độ chính xác của việc l−ợng tử hoá các hệ số sẽ tăng lên. Bộ
nhớ đệm đ−ợc thiết kế theo kiểu FIFO (First In First Out) và có kích th−ớc
khai báo trong dòng dữ liệu ra để giải mã.
1.5.3.Quá trình giải m∙.
Sơ đồ giải mã:
Hình 1.18. Sơ đồ khỗi bộ giải mã video MPEG-1
Giải mã là phép biến đổi ng−ợc của mã hoá, nh−ng đơn giản hơn do
không cần thực hiện đánh giá chuyển động, và cũng ít lựa chọn hơn.
Bộ giải mã thực hiện nh− sau:
- Giải mã các véctơ chuyển động và các hệ số.
- Các hệ số đ−ợc l−ợng tử hoá ng−ợc và biến đổi ng−ợc để tạo ra frame
sai lệch.
- Frame đ−ợc khôi phục tr−ớc đó (l−u trữ trong vùng đệm frame) kết hợp
với các véctơ chuyển động để tạo ra frame bù chuyển động.
Đồ án cao học ĐTVT 2003
Nguyễn Hữu Phát 33
- Khôi phục frame hiện tại bằng cách cộng frame sai lệch với frame bù
chuyển động.
- Frame hiện tại lại đ−ợc l−u trữ trong vùng đệm frame để xây dựng
frame tham chiếu mới.
Tr−ớc khi các cảnh đ−ợc trình diễn, chúng cần phải đ−ợc sắp xếp lại
theo thứ tự trình diễn tự nhiên của nó. Sau khi sắp xếp, các ảnh đ−ợc trình diễn
theo ph−ơng pháp mà mỗi ứng dụng lựa chọn.
Hình 1.19. Sắp xếp thứ tự hiển thị
Chú ý: Bộ mã hoá và bộ giải mã phải sử dụng thứ tự frame tham chiếu
giống nhau trong vùng đệm frame để tránh tr−ờng hợp bị lệch hình (drift), do
các frame tham chiếu bị sai trật tự trong bù chuyển động.
Hình 1.18 và 1.15 là sơ đồ khối đơn giản (không xét tr−ờng hợp mã hoá
và giải mã frame B). Trong tr−ờng hợp đối với frame B, cần có 2 vùng đệm
frame và 2 mạch xác định véctơ chuyển động và bù chuyển động.
1.6. Quá trình nén Video theo chuẩn MPEG-2.
Kỹ thuật nén Video theo chuẩn MPEG-2 là siêu tập hợp (superset) các
kỹ thuật của chuẩn MPEG-1 và nó đ−ợc thiết kế trên cơ sở kế thừa MPEG-
1.Rất nhiều giải thuật mã hoá Video đã đ−ợc tích hợp và một cú pháp đơn
nhằm thoả mãn yêu cầu của các ứng dụng.
Đồ án cao học ĐTVT 2003
Nguyễn Hữu Phát 34
Điểm đặc tr−ng mới của ph−ơng pháp nén Video theo chuẩn MPEG-2 là
mã hoá đ−ợc Video xen kẽ (interlaced Video). Hơn nữa những mở rộng của
mã hoá Video scalable đã đ−ợc thực hiện để cung cấp thêm các chức năng nh−
là mã hoá nhúng của TV và HDTV số, và sự giảm chất l−ợng ít (graceful
degradation) khi xuất hiện các lỗi truyền dẫn.
Tuy nhiên trên thực tế không thể thực hiện đ−ợc cú pháp đầy đủ cho
hầu hết các ứng dụng. MPEG-2 đ−a ra hai khái niệm “Profiles” và “Level” qui
định sự phù hợp giữa thiết bị không hỗ trợ khả năng thực hiện đầy đủ. Các
Profile và Level cung cấp một ph−ơng tiện cho việc định nghĩa các tập con cú
pháp và nh− vậy bộ giải mã có khả năng giải mã một luồng bit cá biệt. Khái
niệm này đ−ợc minh hoạ bằng bảng 1.1 và 1.2.
Theo nguyên tắc chung, mỗi Profile định nghĩa một tập mới các giải
thuật đ−ợc thêm nh− là một siêu tập hợp vào các giải thuật trong Profile ở
d−ới. Một Level xác định dải các tham số đ−ợc cung cấp khi thực hiện nh−
kích th−ớc ảnh, tốc độ frame và tốc độ bit. Nòng cốt hạt nhân của MPEG-2 tại
MAIN Profile mô tả những nét nổi bật mã hoá Non-scalable của cả nguồn
ảnh Video liên tục (progressive) và xen kẽ (interlaced). Ng−ời ta mong đợi
rằng hầu hết các thực hiện MPEG-2 sẽ phù hợp với MAIN Profile tại MAIN
Level. MAIN Profile cung cấp khả năng mã hoá Non-scalable cho ảnh Video
số với các tham số gần giống TV đó là mật độ lấy mẫu cực đại là 720 mẫu với
mỗi dòng và 576 dòng cho mỗi frame, tốc độ frame cực đại là 30 frame mỗi
giây và tốc độ bit tối đa là 15 Mbit/s.
Đồ án cao học ĐTVT 2003
Nguyễn Hữu Phát 35
Profile Thuật toán
HIGH
Hỗ trợ tất cả các tính năng đ−ợc cung cấp bởi Spatial
Scalable Profile cộng với sự cung cấp các hỗ trợ sau:
• 3 lớp với các chế độ mã hoá SNR và Spatial
scalable.
• Biểu diễn YUV với cấu trúc 4: 2: 2 cho cải thiện
các yêu cầu chất l−ợng.
SPATIAL
Scalable
Hỗ trợ tất cả các tính năng cung cấp bởi SNR Scalable
Profile cộng với một thuật toán cho:
• Mã hoá Spatial Profile (cho phép 2 lớp).
• Biểu diễn YUV với cấu trúc 4: 0: 0.
Hỗ trợ tất cả các tính năng cung cấp bởi MAIN Profile
cộng với một thuật toán cho:
• Mã hoá SNR Scalable (cho phép 2 lớp).
• Biểu diễn YUV với cấu trúc 4: 2: 0.
MAIN
Thuật toán mã hoá Non-scalable hỗ trợ các tính năng cho:
• Mã hoá ảnh Video xen kẽ.
• Truy cập ngẫu nhiên.
• Các chế độ dự đoán ảnh B.
• Biểu diễn YUV với cấu trúc 4: 2: 0.
SIMPLE
Bao gồm tất cả các tính năng cung cấp bởi MAIN Profile
nh−ng:
• Không cung cấp các chế độ dự đoán ảnh B.
• Biểu diễn YUV với cấu trúc 4: 2: 0.
Bảng 1.1. Các thuật toán và các tính năng hỗ trợ với mỗi Profile
Đồ án cao học ĐTVT 2003
Nguyễn Hữu Phát 36
Level Các tham số
HIGH
• 1920 mẫu/dòng.
• 1152 dòng/frame.
• 60 frames/giây.
• 80 Mbit/s/
HIGH 1440
• 1440 mẫu/dòng
• 1152 dòng/frame.
• 60 frames/giây.
• 60 Mbit/s.
MAIN
• 720 mẫu/dòng
• 576 dòng/frame.
• 30 frames/giây.
• 15 Mbit/s.
LOW
• 352 mẫu/dòng
• 288 dòng/frame.
• 30 frames/giây.
• 4 Mbit/s.
Bảng 1.2. Các giới hạn trên của các tham số tại mỗi Level của một Profile.
1.6.1. Tham số đặc tr−ng.
Tham số đặc tr−ng đề cập đến ở đây là định dạng ảnh đầu vào và cấu
trúc lấy mẫu. Định dạng đầu vào là: 720 điểm ảnh cho mỗi dòng, 576 dòng
Đồ án cao học ĐTVT 2003
Nguyễn Hữu Phát 37
cho mỗi frame và 30 frame (ảnh) mỗi giây cho Main Profile và Main Level. Tỉ
lệ bit lớn nhất là 15 Mbit/s. Cấu trúc lấy mẫu là 4: 2: 2.
1.6.2. Mô hình m∙ hoá Non-scalable theo MPEG-2.
Đối với MAIN Profile: Nguyên tắc mã hoá ở đây là sự mở rộng trực
tiếp của nguyên lý mã hoá trong MPEG-1 để điều chỉnh mã hoá Video xen kẽ,
trong khi vẫn duy trì phạm vi đầy đủ của các chức năng cung cấp bởi MPEG-
1.
Cũng giống nh− chuẩn MPEG-1, thuật toán mã hoá MPEG-2 dựa trên nguyên
lý mã hoá Hybrid DCT/DPCM nh− hình 1.12.
Đối với SIMPLE Profile: Nguyên lý mã hoá cũng t−ơng tự nh− MAIN
Profile, nh−ng nó không sử dụng các mô hình dự đoán cho frame B ở bộ mã
hoá. Nh− vậy, độ phức tạp khi thực hiện và khối l−u trữ các frame tham chiếu
cho việc giải mã ảnh B không cần cho bộ giải mã của chuẩn MPEG-2 (chỉ đối
vơi SIMPLE Profile).
Để thoả mãn cho việc mã hoá cả Video liên tục và xen kẽ, MPEG-2 đ−a
vào khái niệm frame picture và field picture t−ơng ứng với hai chế độ dự đoán
là frame prediction và field prediction để điều tiết mã hoá ảnh Video liên tục
và xen kẽ. Đối với chuỗi xen kẽ (interlaced sequence), một frame gồm hai
tr−ờng: một tr−ờng chẵn (even field-bottom field) và một tr−ờng lẻ (odd field-
top field). Cả hai tr−ờng này có thể đ−ợc mã hoá độc lập. Khi đó một tr−ờng
đ−ợc chia thành các Macroblock và áp dụng mã hoá nh− một frame trong
MPEG-1. Hai tr−ờng cũng có thể đ−ợc mã hoá đồng thời, khi đó việc mã hoá
trở thành mã hoá truyền thống của chuỗi Video liên tiếp.
Đồ án cao học ĐTVT 2003
Nguyễn Hữu Phát 38
Hình 1.20. Khái niệm frame picture, field picture và dự đoán tr−ờng
(field prediction).
Các nguyên lý dự đoán tr−ờng bù chuyển động (motion compensated
field prediction) để dự đoán chuyển động của field picture t−ơng ứng (xem
hình 1.20). Trong field prediction, dự đoán đ−ợc tạo ra một cách độc lập cho
mỗi tr−ờng dựa trên một hoặc nhiều tr−ờng tham chiếu. Trong đó tr−ờng top
đ−ợc dự đoán từ tr−ờng top tr−ớc đó hoặc từ một tr−ờng bottom tr−ớc đó thuộc
cùng một ảnh. Trong một field picture tất cả các dự đoán là dự đoán tr−ờng
(field prediction). Dự đoán frame có thể sử dụng nh− trong MPEG-1 hoặc có
thể sử dụng nh− hai dự đoán field kết hợp. Nh− vậy trong frame picture có thể
sử dụng dự đoán frame hoặc field.
1.6.3. Mô hình m∙ hoá scalable theo MPEG-2.
Mục đích của mã hoá scalable là cung cấp sự thao tác giữa các dịch vụ
khác nhau và hỗ trợ các dịch vụ một cách linh hoạt với các khả năng biểu diễn
khác nhau.
Các bộ thu nhận hoặc không có khả năng hoặc sẵn sàng xây dựng lại
Video với độ phân giải đầy đủ có thể giải mã các tập con của dòng bit đã phân
lớp để biểu diễn Video trong độ phân giải không gian hoặc thời gian thấp hơn
hoặc với chất l−ợng thấp hơn.
Đồ án cao học ĐTVT 2003
Nguyễn Hữu Phát 39
Một ứng dụng quan trọng cho mã hoá scalable gồm có việc liệt kê cơ sở
dữ liệu Video và biểu diễn lại đa phân giải của Video trong các môi tr−ờng đa
ph−ơng tiện. Chuẩn MPEG-2 chuẩn hoá 3 nguyên lý mã hoá scalable là: SNR
scalability, Spatial scalability và temporal scalability. Mỗi nguyên lý có một
chức năng riêng nhằm hỗ trợ cho các ứng dụng có yêu cầu riêng biệt. Có thể
kết hợp các công cụ scalability khác nhau thành một sơ đồ mã hoá hybrid, có
nghĩa là sự t−ơng tác giữa các dịch vụ kể cả độ phân giải không gian và tỉ lệ
frame khác nhau có thể đ−ợc hỗ trợ bằng cách kết hợp Spatial scalability và
Temporal scalability. Ngoài ra sự t−ơng tác giữa các dịch vụ HDTV và SDTV
có thể đ−ợc cung cấp kèm theo khả năng hiệu chỉnh các lỗi kênh truyền bằng
cách kết hợp sự mở rộng Spatial scalability với công cụ SNR scalability.
Spatial scalability:
u Đ−ợc phát triển để hỗ trợ hiển thị các độ phân giải khác nhau tại bộ thu
nhận. Nghĩa là ảnh Video có độ phân giải không gian thấp có thể đ−ợc khôi
phục từ lớp cơ sở. Tính năng này rất hữu hiệu cho rất nhiều ứng dụng bao
gồm mã hoá nhúng cho các hệ thống HDTV/TV, cho phép chuyển các dịch
vụ TV số đến các dịch vụ HDTV với độ phân giải không gian cao hơn.
u Thuật toán dựa trên ph−ơng pháp tiếp cận hình chóp truyền thống cho mã
hoá ảnh liên tục.
u Có khả năng hỗ trợ một cách linh hoạt cho một phạm vi rộng độ phân giải
nh−ng khi đó độ phức tạp tính toán trong MAIN Profile cũng sẽ tăng.
SNR scalability:
u Công cụ này đ−ợc phát triển để cung cấp sự suy giảm chất l−ợng uyển
chuyển (graceful degradation) của chất l−ợng Video trong môi tr−ờng
truyền −u tiên.
Đồ án cao học ĐTVT 2003
Nguyễn Hữu Phát 40
u Thuật toán th−ờng sử dụng để có đ−ợc sự suy giảm uyển chuyển (graceful
degradation) dựa trên kỹ thuật scalability tuần tự (DCT-domain).
u Tại lớp cơ sở, các hệ số DCT đ−ợc l−ợng tử hoá và truyền thô để đạt đ−ợc
chất l−ợng vừa phải và giảm tỉ số bit (xem hình 1.21).
u Lớp nâng cao mã hoá và truyền sự khác nhau giữa các hệ số DCT không
đ−ợc l−ợng tử và hệ số DCT đã đ−ợc l−ợng tử từ lớp cơ sở với kích cỡ b−ớc
l−ợng tử tốt (xem hình 1.21).
u Tại bộ giải mã, tín hiệu Video chất l−ợng cao nhất đ−ợc xây dựng lại bằng
cách giải mã dòng bit ở cả lớp cơ sở và lớp nâng cao (xem hình 1.22).
Temporal scalability:
u Công cụ đ−ợc phát triển với mục đích t−ơng tự nh− Spatial scalability.
Phân vùng dữ liệu:
u Công cụ này nhằm trợ giúp huỷ bỏ lỗi có mặt trong khi truyền đạt hoặc lỗi
kênh truyền trong ATM, truyền thông hoặc các môi tr−ờng thu âm hấp
dẫn.
u Thuật toán là t−ơng tự nh− công cụ SNR scalability, dựa trên sự phân chia
các hệ số và đ−ợc thực hiện với độ phức tạp thấp so với các sơ đồ scalable
mã hoá khác.
u Cung cấp sự bảo vệ lỗi, các hệ số DCT mã hoá trong dòng bit đ−ợc chia và
truyền một cách đơn giản trong hai lớp với khả năng xảy ra lỗi khác nhau.
Đồ án cao học ĐTVT 2003
Nguyễn Hữu Phát 41
Hình 1.21. Bộ mã hoá hai lớp cho mã hoá SNR scalable của video
Hình 1.22. Bộ giải mã cho mã hoá SNR scalable của video
Đồ án cao học ĐTVT 2003
Nguyễn Hữu Phát 42
Ch−ơng 2 Mã hoá SCALABLE VIDEO
2.1. Băng lọc 1/2 pixel biến đổi ng−ợc theo thời gian - tính toán bù chuyển
động
Để đạt hiệu quả cao trong nén tín hiệu Video ng−ời ta phải tìm cách loại
bỏ d− thừa về mặt thời gian bởi do các khung sát nhau có sự t−ơng quan rất
lớn. Trong các hệ thống mã hoá Video (ví dụ MPEG-1, 2 [7, 8] và H.261/263)
sự d− thừa về mặt thời gian đ−ợc loại bỏ nhờ kỹ thuật mã hoá lai (hybrid
coding technique), bù chuyển động điều xung mã vi phân (DPCM) và biến đổi
mã hoá. Trong kỹ thuật này cấu trúc xung tr−ớc đ−ợc sử dụng để dự đoán
xung hiện thời sau khi bù chuyển động nh− hình 2.1. Kết quả là khung sai
khác thay thế có năng l−ợng thấp hơn tín hiệu nguồn sẽ đ−ợc truyền đi và
đ−ợc mã hoá. Theo cách này sự d− thừa của các khung liên tiếp nhau sẽ đ−ợc
sử dụng tốt.
Tuy vậy vẫn có một số vấn đề xảy ra, đó là: Thứ nhất, khi giảm sự d−
thừa thời gian thì tốc độ bit mã hoá cũng giảm. Kết quả là hiệu quả nén giảm
khi tốc độ bit thấp. Thứ 2, việc mã hoá dùng DPCM chỉ đ−ợc thực hiện khi có
xung tiếp theo. Thứ 3, việc xác định vị trí bit tối −u phức tạp phụ thuộc vào
khung đ−ợc l−ợng tử hoá.
Biến đổi mã hoá 3 chiều (3-D) là một ph−ơng pháp tiếp cận có hiệu quả
trong nén Video. Hình 2.2 cung cấp sơ đồ khối tổng quát của hệ thống mã hoá
Video 3 chiều. Trong hình 2.1, ta thấy bộ biến đổi 3 chiều không chứa mạch
vòng DPCM trong bộ mã hoá lai. Do đó nó thể tránh đ−ợc những nh−ợc điểm
của ph−ơng pháp mã hoá truyền thống. Tuy nhiên việc biến đổi trực tiếp
th−ờng gặp khó khăn với bộ nhớ cao và mã hoá có trễ.
Đồ án cao học ĐTVT 2003
Nguyễn Hữu Phát 43
Ch−ơng này xin giới thiệu một hệ thống mã hoá Video 3 chiều mới, kết
hợp giữa băng lọc MC-3D và thuật toán mã hoá mặt phẳng bit EZBC sẽ đ−ợc
trình bày trong ch−ơng tiếp theo. Phần sau chúng ta sẽ nghiên cứu các công
việc liên quan đến việc hình thành mã hoá băng con 3-D. Mục 2.1.2 miêu tả
toàn bộ l−ợc đồ phân tích tổng hợp băng con. Mục 2.1.3 miêu tả hệ thống
băng con 3-D với cấu trúc MC3D-FSSQ. Mục 2.1.4 trình bày những kết quả
thực nghiệm.
Hình 2.1. Sơ đồ bộ mã hoá
Hình 2.2. Sơ đồ bộ giải mã
Đồ án cao học ĐTVT 2003
Nguyễn Hữu Phát 44
2.1.1. Giới thiệu
Mã hoá wavelet băng con 3-D cho Video đã đ−ợc tăng c−ờng nghiên
cứu trong những năm gần đây bởi những −u điểm quan trọng của nó so với
ph−ơng pháp biến đổi truyền thống DCT.
Karlsson và Vetterli là ng−ời đầu tiên khái quát việc phát triển từ mô
hình hai chiều lên ba chiều. Một cặp băng lọc Haar 2 chiều, kết hợp với khung
thông th−ờng và sai khác, đ−ợc chọn cho băng lọc thời gian để tránh trễ mã
hoá và bộ nhớ lớn. Do sự thực hiện không quá phức tạp l−ợc đồ này vẫn đ−ợc
sử dụng rộng rãi trong hệ thống mã hoá băng lọc 3 chiều. Tuy nhiên khi tín
hiệu Video đầu vào yêu cầu tốc độ nhanh không thể dùng đ−ợc ph−ơng pháp
này.
Ba tham số cho mã hoá wavelet/băng con bù chuyển động cục bộ sẽ
đ−ợc trình bày ở phần sau. Thay vì thực hiện trực tiếp ảnh đầu vào, thuật toán
băng lọc theo thời gian sẽ đ−ợc tiến hành theo đ−ờng chuyển động của ảnh.
Nhờ đó sẽ giảm đ−ợc sự d− thừa năng l−ợng của băng lọc thông cao. Trong
ph−ơng pháp Kronander dựa trên 3-DDCT và mã hoá băng con 3-D, tín hiệu
d− thừa thêm vào đ−ợc mã hoá với pixel chứ không theo vectơ chuyển động.
Trong ph−ơng pháp TRI-ZTR cho tốc độ Video thấp, các điểm ảnh đ−ợc sắp
xếp theo vết chuyển động cho băng lọc thời gian bù chuyển động. Tuy nhiên,
ảnh h−ởng của đa kết nối và không kết nối trong bộ mã hoá bù chuyển động
đ−ợc bỏ qua trong phần này. Kết quả hệ thống phân tích và tổng hợp không
thể khôi phục hoàn hảo không thích hợp cho ứng dụng mã hoá Video ở tốc độ
cao. Hình 2.3 minh hoạ thuật toán mã hoá của bộ lọc bù chuyển động theo
thời gian. Tính chính xác của băng lọc sẽ đạt đ−ợc khi bộ bù chuyển động
thực hiện với điểm ảnh đầy đủ.
Điều đó nói lên rằng bù chuyển động với một nửa điểm ảnh là cần thiết
để tăng hiệu quả trong việc làm giảm năng l−ợng của khung sai khác. Do đầu
Đồ án cao học ĐTVT 2003
Nguyễn Hữu Phát 45
ra của băng lọc thông cao, Haar chỉ kết dính giữa khung hiện tại và tr−ớc đó,
băng lọc thời gian bù chuyển động với một nửa điểm ảnh đ−ợc lựa chọn để
làm giảm tần số năng l−ợng băng con.
Phép nội suy đ−ợc sử dụng cho điểm ảnh để trong l−ới con cả tr−ờng
hợp phân tích và tổng hợp. Trong quá trình nội suy kết quả là khả năng khôi
phục của băng lọc là không cao. Để giảm méo cho hệ thống trong quá trình
phân tích và tổng hợp, một số trạng thái phân tích bị hạn chế. Ví dụ 2 trạng
thái phân tích trong MC3D-FSSQ cho phân giải mã hoá SIF. Chỉ một trạng
thái đ−ợc sử dụng trong ứng dụng HDTV.
Hình 2.3. L−ợc đồ phân tích bù chuyển động với điểm ảnh chính xác.
(a) Một cặp khung liền kề (b) Phân tích tín hiệu Video
(A: khung tr−ớc đó. B: khung hiện thời.
Lt: Đồ thị thời gian của đầu ra thông thấp.
Ht: Đồ thị thời gian của đầu ra thông cao.)
Đồ án cao học ĐTVT 2003
Nguyễn Hữu Phát 46
Mặc dù, bộ mã hoá bù chuyển động MC-DPCM đ−ợc lựa chọn cho
băng lọc thông thấp theo thời gian trong MC3D-FSSQ, vị trí bit vẫn không thể
tối −u hoá đầy đủ cho mã hoá nhóm GOP. Trong hệ thống mới không quan
tâm đến việc khôi phục lỗi, chuỗi ảnh đầu vào đ−ợc phân tách thành 4 trạng
thái theo thời gian sử dụng cho biến đổi ng−ợc băng lọc 3 chiều.
Nhóm ảnh gồm 16 khung hoàn toàn không chứa bất kỳ cấu trúc mã hoá
nào. Do đó khi thông tin thô, ng−ời ta có thể tối −u hoá trong việc phân chia
bit trong đơn vị dữ liệu của mỗi nhóm ảnh trong tr−ờng hợp méo ảnh.
2.1.2. Thuật toán
Mục đích chính của biển đổi ng−ợc băng lọc bù chuyển động (IMCTF)
là khai thác l−ới nhị tố phân giải điểm ảnh trong nguồn Video. Đó là chúng ta
có thể lấy mẫu với mật độ dày đặc ảnh đầu vào liên tục ngay khi véctơ tr−ờng
chuyển động ch−a đáp ứng đ−ợc véc tơ liên quan đến chuyển động trong l−ới
lấy mẫu. Nó dựa trên sự quan sát l−ới nhị tố của 2 khung đan xen sát cạnh
nhau và ghép 2 khung phân giải về không gian sau khi bù điểm ảnh chính xác
trong đặc tính quét Video bởi véctơ bù chuyển động 1/2 điểm ảnh.
Phần này bắt đầu với mô hình phổ biến cho 2 định dạng: quét xen kẽ và
quét luỹ tiến. Thuật toán sẽ thực hiện quét luỹ tiến với 1/2 điểm ảnh trên véctơ
đầu vào. Thuật toán thích nghi cho mã hoá Video thực sẽ đ−ợc trình bày cuối
cùng.
2.1.2.1 Mô hình Video phổ biến
Mô hình phổ biến trong mặt phẳng Video đ−ợc giới thiệu bởi véctơ
chuyển động toàn cục (vx, vy).
C−ờng độ tín hiệu Video đ−ợc biểu diễn theo công thức:
0( , , ) ( . , . )c c x yS x y t S x v t y v t= − − (2.1)
( . , . ,0)c x yS x v t y v t∆ = − (2.2)
Và tín hiệu lấy mẫu Video đ−ợc biểu diễn:
Đồ án cao học ĐTVT 2003
Nguyễn Hữu Phát 47
S[m, n, k] = Sc (VN) (2.3)
ở đây V ma trận lấy mẫu vuông 3x3 và N = [m, n, k]T.
Nếu tất cả các khung của tín hiệu Video lấy mẫu đ−ợc sắp xếp theo
khung tham chiếu, điểm ảnh trong l−ới con của khung tham chiếu có thể đ−ợc
lấp đầy trong khung lấy mẫu từ vị trí l−ới giống nhau của các khung khác sau
khi bù chuyển động. Chính vì vậy, khả năng phân giải ảnh cao từ đa khung
phụ thuộc vào l−ới lấy mẫu và véctơ chuyển động toàn cục.
Hình 2.4. L−ới lấy mẫu cho tín hiệu Video xen kẽ
(a) Lấy mẫu của tín hiệu Video theo 2 chiều (y, t)
(b) Không gian lấy mẫu của 2 tr−ờng sát cạnh nhau.
Ví dụ, xem xét tín hiệu Video đan xen trong mô hình (2.1) với véctơ
chuyển động toàn cục v = (0, 0), mô tả trong hình 2.4 theo 2 chiều thời gian và
trục thẳng đứng. Do không gian của l−ới lấy mẫu gồm 2 tr−ờng chẵn và lẻ đan
Đồ án cao học ĐTVT 2003
Nguyễn Hữu Phát 48
xen nhau nh− hình 2.4 (b), một khung ghép lai với sự phân giải không gian
đầy đủ có thể đ−ợc cấu trúc bởi việc kết hợp hài hoà 1 cặp cạnh nhau nh− sau:
[ ] [ ][ ]
, ,
,
, ,
A m n n chan
C m n
B m n n le
⎧⎪= ⎨⎪⎩
(2.4)
ở đây A và B là giá trị chẵn và lẻ của 1 cặp sát nhau và C ký hiệu là xung kết
hợp.
Kỹ thuật lấy mẫu đan xen này đ−ợc hình thành trong ứng dụng TV
nhằm làm giảm tốc độ lấy mẫu của tín hiệu Video.
Tiếp theo chúng ta sẽ xem xét tín hiệu Video việc quét luỹ tiến. Nh−
minh hoạ hình 2.5 (a), khi sự hiệu chỉnh về phía sau dọc theo vết chuyển
động, mỗi điểm ảnh trong chuỗi ảnh đ−ợc kết nối tới mẫu đang tồn tại trong
khung tham khảo.
Hình 2.5. Minh hoạ vận tốc tới hạn trong tín hiệu Video
theo định dạng quét luỹ tiến.
(a) L−ới lấy mẫu của tín hiệu Video với véctơ chuyển động cục bộ v = (0, 1).
(b) L−ới lấy mẫu của 2 khung liên tiếp sau khi bù chuyển động.
Đồ án cao học ĐTVT 2003
Nguyễn Hữu Phát 49
2.1.2.2. Quét luỹ tiến Video với véctơ chuyển động chính xác 1/2 điểm ảnh
Xem xét quá trình quét luỹ tiến tín hiệu Video với 1/2 điểm ảnh vận tốc
không đổi, với bốn mẫu tồn tại trong l−ới lattices (mắt cáo) của 2 khung liên
tiếp sau khi bù chuyển động của toàn bộ điểm ảnh nh− hình 2.6. Những mẫu
này gồm các lớp:
• Lớp EO: 2dm chẵn, 2dn lẻ;
• Lớp OE: 2dm lẻ, 2dn chẵn;
• Lớp OO: 2dm lẻ, 2dn lẻ;
• Lớp EE: 2dm chẵn, 2dn chẵn;
ở đây ( )( , ) . , .m n x yd d v t v t= ∆ ∆ là véctơ chuyển động giữa khung tr−ớc đó và
khung hiện tại và t∆ là chu kỳ lấy mẫu.
So sánh lớp EO trên hình 2.6 (a) với Video đan xen hình 2.4, chúng ta
có thể thấy rằng l−ới mắt cáo lấy mẫu trên hình 2.6 (a) giống nh− l−ới lấy mẫu
trên hình 2.4 (b) co lại 0.5 theo chiều dọc. Do đó việc lấy mẫu l−ới của 2
khung cạnh nhau đ−ợc trộn lẫn sau khi bù chuyển động. Mở rộng biểu thức
(2.4), chúng ta có thể xác định khung C với sự phân giải gấp đôi theo chiều
dọc:
[ ] [ ][ ]
, / 2 ,
,
, / 2 ,m n
A m n n chan
C m n
B m d n d n le
⎧⎪= ⎨ + +⎪⎩
(2.5)
ở đây A và B ký hiệu xung tr−ớc đó và khung hiện tại. Do đó điểm ảnh bị mấy
sẽ đ−ợc lấp đầy bởi thời gian 0 - để giữ cho bộ lọc nội suy trong quá trình
chuyển động.
Để giảm sai số trong quá trình phân giải ảnh, chúng ta có thể mở rộng
thuật toán dùng cho quá trình quét từ đan xen đến luỹ tiến. Khung ghép này
đ−ợc phân thành 2 kênh phân tích băng lọc con theo chiều dọc (Băng lọc
Đồ án cao học ĐTVT 2003
Nguyễn Hữu Phát 50
Daubechies’ 9/7). Đầu ra thông thấp và thông cao của băng lọc có thể xác
định bởi:
[ ] [ ] [ ]
[ ] [ ] [ ]
0
1
, ,2. ,
, ,2.( ) .
t
k
t m n
k
L m n C m n k h k
H m n C m d n d k h k
= −
= − − −
∑
∑ (2.6)
ở đây h0 và h1 là đáp ứng xung thông thấp và thông cao của biến đổi
Daubechies’ 9/7.
Khung ghép C có thể hình thành thông qua Lt và Ht. Khung A và B có
thể biến đổi đảo ng−ợc nhờ biểu thức:
A[m, n] = C[m, 2n] (2.7)
B[m, n] = C[m - dm, 2 (n - dn)]
Hình 2.6. L−ới lấy mẫu của 2 khung liên tiếp
sau khi bù chuyển động của cả điểm ảnh.
Hình tròn đen là pixel đang đ−ợc xử lý. Pixel xám và mũi tên
chỉ rõ h−ớng bộ lọc, (a) lớp EO, (b) lớp OE, (c) lớp OO, (d) lớp EE.
Đồ án cao học ĐTVT 2003
Nguyễn Hữu Phát 51
Tín hiệu Video với véctơ chuyển động của lớp OE và OO (hình 2.6 (b)
và (c)), cặp l−ới lấy mẫu của 2 khung sát cạnh nhau đ−ợc biến đổi đan xen sau
khi bù chuyển động, nh− lớp EO hình 2.6 (a).
Khung ghép lai phân giải 2 mức có thể dựng lại thông qua việc trộn lẫn
1 cặp khung sát nhau sau khi bù chuyển động. Biểu thức (2.5) – (2.7) dùng
cho việc phân tích và tổng hợp tín hiệu Video theo đ−ờng ngang và chéo.
ở l−ới lấy mẫu nh− hình 2.5, khung ghép lai có độ phân giải cao hơn
trong miền không gian không thể xây dựng với lớp véctơ chuyển động này.
Trong tr−ờng hợp này chúng ta sử dụng Lt và Ht tính toán tỷ lệ bù chuyển
động và sai khác của khung A và B:
Lt[m, n] = (B[m + dm, n + dn] + A[m, n])/ 2 (2.8)
Và
Ht[m, n] = (B[m, n] - A[m - dm, n - dn])/ 2
Khung A và B có thể xác 0định nhờ biểu thức:
A[m, n] = (Lt[m, n] - Ht[m + dm, n + dn])/ 2 (2.9)
Và
B[m, n] = (Lt[m - dm, n - dn] + Ht[m, n])/ 2
Chú ý rằng (2.5) và (2.6) là 1 cặp phân tích và tổng hợp Haar.
2.1.2.3. Di chuyển cục bộ mở rộng
Mặc dù mô hình véctơ chuyển động không đổi thực sự có hiệu quả
trong việc bắt hình ảnh của chuỗi Video ảnh thực, nó cũng có thể chứng minh
tính hợp lý trong rất nhiều ứng dụng Video. Trong thuật toán của chúng ta,
kích th−ớc bậc của khối thích hợp thay đổi (HVSBM) đ−ợc thiết lập để đánh
giá bù chuyển động. Kết quả của tr−ờng chuyển động th−ờng không thay đổi
với mọi điểm ảnh từ khối chuyển động giống nhau. Do đó nếu véctơ chuyển
động cho khối hiện thời nằm giữa các lớp EO, OE, và OO, thì sau khi bù
Đồ án cao học ĐTVT 2003
Nguyễn Hữu Phát 52
chuyển động khối ghép lai có thể dựng lại thông qua việc ghép 1 cặp khối kết
nối của khung tr−ớc đó và khung hiện thời. Sau đó với các điểm ảnh kết nối
connected pixels, l−ợc đồ phân tích tổng hợp (2.5) – (2.7) có thể hình thành
từng khối theo không gian đ−ợc quyết định bởi lớp chuyển động theo mô hình
2.6. Tại khối biên, tín hiệu đ−ợc mở rộng đối xứng ra cả 2 bên băng lọc. Đầu
ra của băng lọc thông thấp và thông cao đ−ợc l−u trữ tại vị trí Lt và Ht t−ơng
đ−ơng trên l−ới khi có đầu vào là khung tr−ớc đó và khung hiện thời A và B.
Trong hình 2.7, chúng ta có thể minh hoạ biểu đồ phân tích theo thời gian của
1 cặp khối chuyển động kết nối. Véctơ chuyển động của lớp EO với kích
th−ớc khối bù chuyển động 3x3 đ−ợc sử dụng. Đối với véctơ chuyển động của
lớp EE, biểu thức (2.8) và (2.9) đ−ợc sử dụng để phân tích và tổng hợp 1 cặp
khối chuyển động. Hệ thống phân tích và tổng hợp mới sẽ làm giảm cho lớp
hệ thống cũ. Với các điểm ảnh không kết nối (Hình 2.3), ph−ơng pháp t−ơng
tự đ−ợc ứng dụng nh− sau:
Với phân tích:
Lt[m, n] = 2 A[m, n] (2.10)
[ ] [ ] ( ), , , / 2t m nH m n B m n A m d n d⎡ ⎤= − − −⎣ ⎦
Với quá trình tổng hợp:
A[m, n] = Lt[m, n]/ 2 (2.11)
[ ] [ ], , 2 ,t m n tB m n L m d n d H m n⎡ ⎤= − − −⎣ ⎦
Với ( ),m nd d là một phần của véctơ chuyển động bên trong.
Đồ án cao học ĐTVT 2003
Nguyễn Hữu Phát 53
Hình 2.7. Khối mã hoá Video của IMC3D-FSSQ.
Hình 2.8. Ví dụ về l−ợc đồ chuyển động của khối ảnh theo thời gian.
Véctơ chuyển động của khối ảnh t−ơng đ−ơng EO với kích th−ớc 3 x 3.
(a) Một cặp khối kết nối (b) Khối phân tích ghép (c) Khung kết quả Lt và Ht.
Đồ án cao học ĐTVT 2003
Nguyễn Hữu Phát 54
2.1.3. Ba tham số mã hoá băng con sử dụng IMCTF
Để đánh giá l−ợc đồ băng lọc theo thời gian cho mã hoá Video, đề xuất
hợp lý nhất băng lọc trong hệ thống mã hoá Video 3 chiều IMC3D-FSSQ với
khối giống nhau tới bộ mã hoá 3 chiều MC3D-FSSQ. L−ợc đồ khối cho hệ
thống mã hoá đ−ợc thể hiện trên hình 2.3. Đầu tiên ng−ời ta phân tích tín hiệu
Video về mặt thời gian bởi hệ thống phân tích 2 kênh bù chuyển động. Bốn
trạng thái đ−ợc hình thành trên cơ sở tần số băng con thấp để phát ra nhhóm 8
trạng thái trên cơ sở 5 băng phân tích nh− hình 2.4. Ba không gian trạng thái
đ−ợc phân tích theo l−ợc đồ thời gian để hoàn thành sự phân tích băng con 3
chiều.
Băng lọc đ−ợc sử dụng ở đây là băng lọc phân tích tổng hợp
Daubechies’ 9/7. Kích th−ớc khối của hệ thống thay đổi (HVSBM) đ−ợc dùng
cho đánh giá bù chuyển động. Các khối này đ−ợc chia làm 1/8 khối để tăng độ
mịn trong vectơ chuyển động. Khối chuyển động có kích th−ớc trong phạm vi
từ 4x4 tới 64x64. Khối phân chia đó đ−ợc dùng làm đại diện cho phân tích/mã
hoá cây 1/4. Tốc độ bit của vectơ chuyển động điều khiển bởi hệ số nhân
Lagrange l mv thực hiện trong trạng thái đã đ−ợc chỉnh sửa. Véctơ chuyển
động đ−ợc mã hoá bởi DPCM và mã hoá số học; véctơ mã hoá lân cận đ−ợc
dùng cho dự đoán.
Hệ thống mã hoá đ−ợc phân chia thành các khung liên tiếp trong 1
nhóm ảnh (GOP), giống nh− MPEG. Mỗi nhóm ảnh chứa 16 khung-1 là
khung t-LLLL, 1 là khung t-LLLH, 2 là khung t-LLH, bốn là khung t-LH, và
tám là khung t-H. Cấu trúc băng con 3-D trong 1 nhóm GOP mô tả trên hình
2.5. Tốc độ điều khiển cho mỗi nhóm GOP với bit dự trữ đ−ợc biểu diễn bởi:
Rg = Ngr / F (bits) (2.12)
Với Ng: số khung trong 1 nhóm ảnh GOP;
r: tổng số tốc độ bit (bits/sec);
Đồ án cao học ĐTVT 2003
Nguyễn Hữu Phát 55
F: tốc độ của khung (frames/sec).
Băng con/lấy mẫu wavelet/các hệ số đ−ợc l−ợng tử hoá và mã hoá bởi
trạng thái l−ợng tử hoá xác định (FSSQ) của bản dịch 3 chiều. Trong thuật
toán l−ợng tử hoá thích nghi, mỗi mẫu trong băng con đ−ợc phân loại thành 1
vài lớp kích hoạt dựa trên việc giải mã hệ số của băng cha.
Các mẫu riêng lẻ đ−ợc l−ợng tử hoá bởi việc hình thành các ng−ỡng
(UTQ) với miền chết trung tâm, và sử dụng mô hình hàm Laplacian. Bit cấp
phát nằm trong lớp 3-D đ−ợc tối −u hoá bởi thuật toán BFOS, miêu tả trong
bảng 2.1 so sánh giữa chuẩn IMC3D-FSSQ và MC3D-FSSQ. Sự khác nhau cơ
bản giữa 2 hệ thống mã hoá đạt đ−ợc trên cơ sở l−ợc đồ lọc băng con. Tuy
nhiên nh− đã đề cập trong mục 2.1, khung từ băng thấp nhất đ−ợc mã hoá liên
tiếp bởi bộ điều xung mã DPCM trong MC3D-FSSQ. Nói một cách khác,
chúng ta có thể hoàn toàn loại trừ d− thừa thời gian DPCM trong hệ thống mới
IMC3D-FSSQ với chi phí và bộ nhớ vừa phải.
2.1.4. Kết quả thực nghiệm
Hình 2.9. Nhóm 8 trên cơ sở phân tích 5 băng con theo thời gian
Đồ án cao học ĐTVT 2003
Nguyễn Hữu Phát 56
Hình 2.10: Cấu trúc băng con 3 chiều trong GOP
IMC-3DFSSQ
MC-3D
FSSQ
Băng lọc theo thời gian IMCTF MCTF
Cờu trúc lai No Yes
Số khung trong một nhóm ảnh 16 16
Số trạng thái phân giải thời gian 4 2
Tốc độ khung tối đa tr−ớc khi phân tích theo
thời gian
5 3
Kích th−ớc bộ nhớ đệm 16 frs 4 frs
Khả năng tối −u hoá tốc độ bit cho nhóm
ảnh
Yes No
Bảng 2.1. So sánh giữa IMC3D-FSSQ và MC3D-FSSQ
Trong mục này, chúng ta sẽ đánh giá việc mã hoá l−ợc đồ phân tích
tổng hợp IMCTF. Phần mềm này đ−ợc ứng dụng bởi hệ thống mã hoá băng
con mới IMC3D-FSSQ. Kết quả đ−ợc so sánh tới bộ mã hoá băng con MC3D-
Đồ án cao học ĐTVT 2003
Nguyễn Hữu Phát 57
FSSQ. Hệ thống mã hoá mới bao gồm các thành phần giống nhau MC3D-
FSSQ đ−ợc so sánh hợp lý. Kết quả mã hoá sử dụng chuẩn lai MPEG-2 cũng
đ−ợc tham khảo. Kích th−ớc nhóm ảnh cho MPEG-2 đ−ợc chọn là 15 khung
IBBPBBPBBPBBI. Phạm vi đánh giá đề xuất cho khoảng cách của khung thời
gian là 7 pixels trên 1 khung. Video dùng để thử nghiệm là Mobile Calendar,
Flower Garden và Football trong phân giải SIF (quét luỹ tiến, 352 x 240 điểm
ảnh, 4: 2: 0, 30 khung/s) đ−ợc dùng để đánh giá. Mỗi Video chứa 96 khung.
Giới hạn đ−ợc xác định với bộ lọc MCTF việc phân tích tổng hợp không
có khả năng biến đổi ng−ợc, khi bộ lọc bù chuyển động thực hiện với độ chính
xác 1/2 điểm ảnh. Trong quá trình thực hiện, giá trị của điểm ảnh tại vị trí l−ới
đ−ợc nội suy sử dụng 8 nấc bộ lọc FIR. Bảng 2.2 cung cấp kết quả đánh giá
trung bình PSNR cho cấu trúc Video sau khi phân tích sai khác trạng thái sử
dụng chính xác 1/2 b−ớc sóng MCTF mà không mã hoá.
Bảng 2.2. Méo trung bình PSNR (dB) giới thiệu bởi chính xác 1/2 điểm ảnh
MCTF với mức phân tích tổng hợp khác nhau (ch−a mã hoá)
Đồ án cao học ĐTVT 2003
Nguyễn Hữu Phát 58
Hình 2.11. Đánh giá khung Y-PSNR cho cấu trúc liên tiếp
Mobile Calendar sử dụng bù chính xác 1 nửa điểm ảnh
của mức phân tích theo thời gian (ch−a mã hoá)
Hai thuật toán lọc băng con đều có thể tránh nhiễu. Băng lọc thời gian
Haar không bù chuyển động đ−ợc sử dụng trong ứng dụng mã hoá Video. Bộ
lọc bù MCTF có thể biến đổi ng−ợc khi băng lọc bù chuyển động đ−ợc thực
hiện với toàn bộ điểm ảnh. Bảng 2.3 cho biết kết quả so sánh hệ số mã hoá 3
chiều của băng lọc 3 chiều sử dụng 2 l−ợc đồ băng lọc phân tích tổng hợp
wavelet trong IMCTF.
Tốc độ mã hoá đ−ợc tính toán theo tỷ lệ của ph−ơng pháp đại số và hình
học của hệ số 3 chiều đơn vị dB.
Đồ án cao học ĐTVT 2003
Nguyễn Hữu Phát 59
Video IMCTF TF MCTF-F
Mobile Calendar 11.98/0.0 7.69/-4.29 10.74/-1.23
Flower Garden 13.04/0.0 7.64/-5.40 12.16/-0.88
Bảng 2.3. So sánh lý thuyết mã hoá 3 chiều (dB) giữa 3 l−ợc đồ băng lọc
có thể biến đổi ng−ợc: lọc bù chuyển động mới (IMCTF),
lọc không có bù chuyển động (TF),
và lọc bù chuyển động với toàn bộ điểm ảnh (MCTF-F)
2.1.5. Tóm tắt và kết luận
Trong ch−ơng này một hệ thống phân tích tổng hợp mới với độ chính
xác 1/2 điểm ảnh bù chuyển động đ−ợc phát triển cho ứng dụng mã hoá
Video. Kết quả cho thấy hệ thống mã hoá băng con IMC3D-FSSQ chó
hiệuquả hơn và có thể chuẩn mã hoá lai MPEG-2.
Hình 2.12. So sánh giá trị trung bình Y-PSNR cho IMC3D-FSSQ,
MC3DFSSQ, và MPEG-2
Đồ án cao học ĐTVT 2003
Nguyễn Hữu Phát 60
Hình2.13. So sánh Frame-by-frame Y-PSNR cho mã hoá
Mobile Calendar at 1.0 Mbps. (Average Y-PSNR: IMC3D-FSSQ, 26.74
dB;MC3D-FSSQ, 26.09 dB; MPEG-2, 23.71 dB.)
Bảng 2.4. So sánh giá trị trung bình PSNR
cho IMC3D-FSSQ,MC3D-FSSQ, và MPEG-2 (dB).
Đồ án cao học ĐTVT 2003
Nguyễn Hữu Phát 61
2.2. Mã hoá scalable video
Chúng ta đã biết, nén ảnh là kỹ thuật dựa trên cơ sở mã hoá băng
con/wavelet với việc bù chuyển động cục bộ đ−ợc trình bày trong ch−ơng
tr−ớc cho ứng dụng mã hoá Video nonscalable. Chúng ta có thể thấy đ−ợc −u
điểm của mã hoá băng con 3-D là chứng minh khả năng loại trừ cấu trúc
khung đệ qui của bộ mã hoá lai. Vì thế mà những hàm −u việt nh− là phân giải
đ−ợc cung cấp dễ dàng. ở đây băng lọc bù chuyển động MC 3-D đ−ợc kết hợp
với thuật toán mã hoá mặt phẳng bit 3-D EZBC. Đó là sự mở rộng của thuật
toán 2-D EZBC đối với mã hoá scalable Video. Ta sẽ gọi hệ thống mã hoá
này là IMC3D-EZBC. −u điểm của bộ mã hoá Video gồm:
• Khác với bộ mã hoá DCT thông th−ờng, băng con phân tích đ−ợc thực hiện
với toàn bộ ảnh. Kết quả cho thấy việc khôi phục ảnh trong IMC3D-EZBC
không có lỗi d− thừa nh− mã hoá DCT.
• Khả năng khôi phục lỗi khi thực hiện cấu trúc băng con 3-D rất cao, trong
đó lỗi phát ra do IMC3D-EZBC đ−ợc giới hạn bởi chiều dài của bộ lọc
tổng hợp. Đây là −u điểm v−ợt trội của bộ mã hoá này.
• Tính toán đơn giản: Băng con 3 chiều đ−ợc mã hoá nhanh trong hệ thống
sử dụng mã hoá mặt phẳng bit EZBC. So với ph−ơng pháp truyền thống,
việc tiết kiệm trong tính toán có thể đạt đ−ợc với bộ mã hoá bù chuyển
động IMC3D-EZBC mà không cần khôi phục lại khung tham khảo nh− mã
hoá DPCM. Độ phức tạp của hệ thống mã hoá không có tính đối xứng do
yêu cầu về chi phí tính toán cho việc đánh giá chuyển động của bộ mã hoá.
Điều này hoàn toàn hợp lý với mục đích giải mã luồng bit nhiều lần với
nhiều mức khác nhau.
• Hiệu quả nén: Với hệ thống băng lọc 3-D có bù chuyển động, sự d− thừa
trong Video giảm đ−ợc đáng kể. Sự t−ơng quan đó sẽ đ−ợc khai thác một
cách hiệu quả khi mã hoá mặt phẳng bit 3-D EZBC. Kết quả thực nghiệm
Đồ án cao học ĐTVT 2003
Nguyễn Hữu Phát 62
chỉ ra tỷ số PSNR của hệ thống mã hoá theo chuẩn MPEG-2 và bộ mã hoá
nonscalable 3-D.
• Tính mềm dẻo và khả năng chuyên sâu của luồng bit đ−ợc đánh giá đ−ơng
đ−ơng với mã hoá ảnh EZBC. Đó là hệ thống mã hoá scalable Video điều
chỉnh với hàm có độ rộng thay đổi rất rộng với đặc tính bẩm sinh trong đa
phân giải và dự đoán 3-D. Đây là những đặc tính nổi bật đ−ợc cung cấp mà
không xảy ra tổn thất th−ờng thấy trong các ứng dụng mã hoá truyền
thống.
Ch−ơng này đ−ợc tổ chức nh− sau:
• Tổng quát về các công việc liên quan đến mã hoá scalable Video.
• Tiếp cận đa mạch vòngtrong hệ thống lai thông th−ờng
• Một vài thuật toán băng con và tính chất rõ nét (FGS) của kỹ thuật mã
hoá.
• Thuật toán mã hoá.
• Hệ thống mã hoá và các kết quả mã hoá
• Kết luận
2.2.1. Khái quát
Mã hoá scalable đã đ−ợc đề cập đến trong các thập kỷ tr−ớc. Ng−ời ta
đã sớm quan tâm tập trung vào tính t−ơng thích mã hoá và mã hoá cho ứng
dụng thấp. Đây là lớp cơ sở của Video, bao gồm các luồng bit con cho ứng
dụng đầu cuối cao, giông nh− chuẩn TV (STV) trong tín hiệu HDTV. Mã hoá
scalable đã đ−ợc dùng trong truyền Video thô thông qua kênh có lỗi. Để độ tin
cậy truyền dẫn càng cao thì chiến l−ợc bảo vệ càng phải cải thiện trong luồng
bit cơ sở mà chứa thông tin có ý nghĩa. Một vài hàm scalable đ−ợc dùng trong
chuẩn MPEG-2 và phiên bản 2 của H.263. Chúng ta sẽ khái quát lại l−ợc đồ
mã hoá scalable thực hiện trong hệ thống mã hoá lai.
Ta đã biết intnet hình thành và phát triển rất nhanh từ những thập kỷ
tr−ớc. Một đặc tr−ng của Internet là có băng thông thay đổi theo thời gian và
Đồ án cao học ĐTVT 2003
Nguyễn Hữu Phát 63
ng−òi sử dụng. Ph−ơng pháp tiếp cận đa lớp thông th−ờng chỉ có thể ứng dụng
cho luồng bit rời rạc. Hơn nữa, số lớp và mức của tốc độ bit đ−ợc mã hoá đồng
thời trong 1 thời gian. Và nh− vậy, giới hạn băng thông thay đổi cho luồng
Video không thể thoả mãn trong tr−ờng hợp này. Để giải quyết vấn đề này, kỹ
thuật mã hoá mới SNR đ−ợc đ−a vào sử dụng trong chuẩn MPEG-4, chúng ta
sẽ phải xem xét lại l−ợc đồ mã hoá FGS trong khung mã hoá lai truyền thống.
Do đặc tính cơ bản của hệ thống mã hoá lai truyền thống, các chức năng
thêm vào hầu nh− đềy đạt hiệu quả với lỗi cơ bản trong việc nén. Đây là trở
ngại chung trong hệ thống mã hoá lai.
2.2.1.1. Mã hoá lai truyền thống
2.2.1.1.1.Mã hoá Scalable SNR
Khung mã hoá truyền thống nói chung không thích hợp trong ứng dụng
tốc độ mã hoá mặc dù nó rất gần với mạch vòng DPCM. Hình 2.14 minh hoạ
l−ợc đồ khối SNR cho hệ thống mã hoá lai. Khi luồng Video đ−ợc giải mã tại
lớp cơ sở, tập trung các tín hiệu đầu vào trái ng−ợc nhau hoặc các sai khác
giữa mã hoá và giải mã theo kết quả của các khung tham chiếu sử dụng cho dự
đoán, giống nh− kết quả của DPCM với dự đoán mạch vòng hở. Cấu trúc bộ
giải mã A set of decoding đ−ợc xác định trong chuẩn MPEG-2 cho mã hoá
SNR scalable. Chất l−ợng kém trong MPEG-2 chủ yếu do sai số.
Để giảm sai số giữ bộ mã hoá và giải mã, chúng ta có thể dùng nhiều
mạch vòng dự đoán phân chia cho các lớp riêng lẻ. Cấu trúc bộ giải mã mới
dựa trên ph−ơng pháp này đ−ợc thêm vào cho phiên bản 2 của H.263. Trong
l−ợc đồ đa mạch vòng, ảnh của lớp cơ bản đ−ợc tiên đoán dựa trên việc sử
dụng ảnh của lớp tr−ớc đó. ảnh của lớp hiện thời trong lớp tăng c−ờng đ−ợc dự
đoán bởi ảnh của lớp thấp hơn ngay tại thời điểm đó hoặc kết hợp cả hai nh−
hình 2.15. Chúng ta có thể đảm bảo rằng cả bộ mã hoá và giải mã đều có thể
sử dụng dữ liệu cho lớp hiện thời. Nhiều lớp tăng c−ờng thêm vào mục đích
Đồ án cao học ĐTVT 2003
Nguyễn Hữu Phát 64
cung cấp cho mức và lựa chọn bit. Ng−ợc lại giá của biến đổi/l−ợng tử hoá
ng−ợc và đánh giá/bù chuyển động cung cấp với mỗi mã hoá mạch vòng thêm
vào không có hiệu quả. Tr−ớc hết do nhiều thông tin tiêu đề và không hiệu
quả của hệ số l−ợng tử hoá và mã hoá lại, lỗi trong việc thực hiện nén đ−ợc
quan tâm chủ yếu cho cả 2 lớp của hệ thống mã hoá. Vấn đề nay đ−ợc phân
tích trong chuẩn MPEG-2 và H.263. Mất mát nên từ 1.0 – 1.5 dB trên 1 lớp.
Hình 2.14. L−ợc đồ khối chung của hệ thống mã hoá lai Video SNR
sử dụng cho dự đoán mạch vòng.
Đồ án cao học ĐTVT 2003
Nguyễn Hữu Phát 65
Lớp giải mã tăng c−ờng (nét đứt) là tuỳ chọn thêm vào tuỳ từng phiên bản.
Sai số xuất hiện khi lớp tăng c−ờng bị loại bỏ.
Hình 2.15. L−ợc đồ khối chung cho hệ thống mã hoá lai Video SNR
sử dụng nhiều mạch vòng dự đoán
Đồ án cao học ĐTVT 2003
Nguyễn Hữu Phát 66
Lớp giải mã tăng cừơng (nét đứt)là tuỳ chọn.
2.2.1.1.2 Phân giải mã Scalable
Phân giải mã hoá scalable Video điển hình th−ờng dùng biểu đồ hình
kim tự tháp: Lớp cơ sở đầu tiên đạt đ−ợc nhờ mã hoá 1/10 nguồn Video. Khôi
phục lại lớp Video thấp hơn nhờ nội suy dự đoán dựa trên việc phân giải Video
cao hơn tiếp theo. Lớp tăng c−ờng chỉ chứa tín hiệu mã hoá dự đoán lỗi. Ví dụ,
chúng ta có thể minh hoạ không gian và thời gian mã hoá trong chuẩn H.263
hình 2.16. L−ợc đồ phân giải này có hiệu quả và độ phức tạp cho mã hoá đa
mạch vòng SNR. Trong tr−ờng hợp này, giá trị PSNR là 1.34 dB và trong
t−ơng lai có thể loại bớt 0.47–1.38 dB.
Hình 2.16. Minh hoạ mã hoá phân giải scalable trong H.263.I, P, và B
đại diện cho ảnh I, P và B trong chuẩn H.263.ảnh đứt nét
liên quan tới lớp mã hoá tăng c−ờng.
2.2.1.2. Embedded Coding and Fine Granularity Scalability
Nhờ những thành công trong việc nén ảnh trong những năm gần đây đã
đem lại những đề xuất về thực hiện mã hoá ảnh cho mã hoá DFD trong hệ
thống mã hoá thông th−ờng. Ng−ợc lại do những mạch vòng DPCM tr−ớc kia,
Đồ án cao học ĐTVT 2003
Nguyễn Hữu Phát 67
luồng bit Video không thể giải mã tại tốc độ bit thấp hơn do tổn hao. Chính vì
vậy mặc dù bộ mã hoá vẫn thừa kế một vài đặc tính −u việt nh− đơn giản, điều
khiển tốc độ bit chính xác từ việc xây dựng hình ảnh mã hoá khả năng SNR
trong việc thực hiện mã hoá vẫn phải loại bỏ.
Để thoả mãn yêu cầu phát triển cho Video đa tốc độ với tính chất kết
dính cao và không bị ảnh −ởng do sai số, một vài thuật toán sát nhập mã hoá
mặt phẳng bit trong khung mã hoá lai truyền thống đã đ−ợc giới thiệu. Trong
chuẩn MPEG-4 FGS, khung tham khảo trong mạch vòng DPCM đ−ợc giải mã
từ lớp bit cơ sở, t−ơng ứng với biên d−ới của phạm vi mã hoá Video. Phần còn
lại sau khi biến đổi DCT đ−ợc mã hoá bởi mặt phẳng bit DCT, nh− Hình 2.17.
Do lớp bit cơ sở luôn có khả năng giải mã (giả thiết không có tổn hao), sự sai
khác giữa bộ mã hoá và giải mã hầu nh− không xảy ra.
Quá trình giải mã có thể dừng tại bất kỳ điểm nà khi luồng bit đ−ợc giải
mã thành công. L−ợc đồ mạch vòng đơn cũng đ−ợc chấp nhận bởi 1 vài bộ mã
hoá đa lớp SNR để làm giảm độ phức tạp với mạch vòng vi phân đ−ợc thêm
vào.
Tuy vậy so sánh với l−ợc đồ đa mạch vòng hình 2.15, ph−ơng pháp tiếp
cận bên ngoài không phải là việc sử dụng thông tin tối −u nhất cho giải mã,
cần thấy một thực tế rằng bộ giải mã luôn sử dụng hình ảnh chất l−ợng kém
nhất trong mạch vòng DPCM trong toàn bộ phạm vi mã hoá.
Nh− chúng ta đã biết dự đoán lỗi khác nhau gia tăng với sự suy giảm
tốc độ bit. Do đó PSNR th−ờng mất 2 dB khi so sánh với với ph−ơng pháp
nonscalable t−ơng tự. Kết quả chỉ ra rằng mạch vòng sẽ có thể tồi hơn ch−ơng
trình đó tại tốc độ bit cao. Chính vì thế phạm vi bit bị giới hạn. Khung mạch
vòng đơn cũng đ−ợc thiết lập bởi Shen và Delp trong việc kết hợp với bộ mã
hoá EZW.
Đồ án cao học ĐTVT 2003
Nguyễn Hữu Phát 68
Một vài đề xuất nhằm cải thiện hiệu quả nén ảnh trong chế độ FGS của
MPEG-4. Tuy nhiên do giới hạn của việc mã hoá lai, việc cải thiện thuật toán
còn nhiều giới hạn.
Hình 2.17. L−ợc đồ khối chung của hệ thống mã hoá lai Video
cho việc cung cấp chức năng FGS
Đồ án cao học ĐTVT 2003
Nguyễn Hữu Phát 69
Lớp mã hoá tăng c−ờng (nét đứt) là tuỳ chọn.
2.2.1.3. Mã hoá sử dụng băng con 3 chiều và mã hoá Wavelet
Mặc dù không có ý kiến phản hồi của mạch vòng DPCM, cấu trúc mã
hoá băng con 3 chiều hoàn toàn phù hợp cho mã hoá SNR scalable. Với việc
quan tâm trong ứng dụng đa tốc độ, một vài thuật toánthực hiện mã hoá băng
con 3-D đã đ−ợc đề xuất trong các tài liệu gần đây. Không giống nh− bộ mã
hoá thông th−ờng, SNR trong hệ thống mã hoá nàyđạt đ−ợc với sự mất mát mã
hoá không đáng kể. LZC (Layer Zero Coding) và 3D-SPIHT (Set Partitioning
In Hierarchical Tree) là 2 ph−ơng pháp mã hoá điển hình trong mã hoá 3-D.
LZC do Tubman và Zakhor thiết lập giá trị đầu tiên trong máy tính dùng cho
mã hoá Video đa tốc độ 3 chiều. Với hiệu quả lớn trong việc khai thác sự
t−ơng quan giữa giá trị các băng con, LZC đã chỉ rõ 1 trong những −u điểm
nổi bật của PSNR cho ảnh nén. ứng dụng trong mã hoá Video, chúng ta sẽ
xem xét ảnh h−ởng chuyển động của toàn bộ camera. Chuỗi ảnh đ−ợc tiền làm
méo, hoặc sắp thẳng hàng, tr−ớc khi phân tích băng lọc nhằm tránh cho ảnh bị
blurring. Ba tham số SPIHT này là sự mở rộng trong mã hoá ảnh SPIHT. Biến
đổi băng lọc Daubechies 9/7 phổ biến đ−ợc thực hiện trong mỗi tham số để
phát sinh cấu trúc băng con 3-D. Thuật toán này đ−ợc thực hiện nhằm mục
đích khai thác 1 nhóm hệ số băng con 3-D/wavelet. Cấu trúc cây trong hệ
thống 3 chiều đ−ợc dùng cho việc đánh giá hệ số không quan trọng. Đặc tính
đơn giản của SPIHT đ−ợc giữ lại. Luồng bit mã hoá là tốc độ bit mã hoá và
đ−ợc thực hiện đầy đủ. Mặc dù có rất nhiều công việc công bố trong miền nén
ảnh Video, hầu hết các thuật toán đều dựa trên băng lọc 3-D cổ điển (không có
bù chuyển động). Thậm chí cả chuyển động toàn cục. Không nh− các ph−ơng
pháp mã hoá lai truyền thống, thông tin về chuyển động cục bộ sẽ đ−ợc sát
nhập trong hệ thông mã hoá băng con 3 chiều. Tuy nhiên nh− chúng ta nhấn
Đồ án cao học ĐTVT 2003
Nguyễn Hữu Phát 70
mạnh tr−ớc đó, hiệu quả chất l−ợng nén Video dựa vào việc khai thác thông tin
về chuyển động. Do đó các thuật toán này không thể cạnh tranh với bộ mã hoá
lai truyền thốngtrong nén ảnh cho tốc độ bit đơn (nonscalable) ứng dụng khi
chuyển động tốc độ cao tồn tại trong nguồn Video. Điều này đ−ợc chứng minh
trong kết quả thực nghiệm sẽ thảo luận sau. Một tr−ờng hợp ngoại lệ đáng chú
ý là đề xuất cây Tri-Zerotree đ−a ra bởi Th cho mã hoá tốc độ bit thấp. Tuy
nhiên băng lọc đề xuất này không có khả năng biến đổi ng−ợc và không là
chuẩn cho ứng dụng mã hoá Video.
2.2.2. Hệ thống tổng quan
Hình 2.18. L−ợc đồ khối của hệ thống scalable Video.
Mục đích thực hiện của hệ thống mã hoá Video đ−ợc thể hiện trên Hình
2.18. Tín hiệu Video đầu vào đầu tiên đ−ợc biến đổi nhờ 3 tham số bù chuyển
động biến đổi ng−ợc giứoi thiệu trong ch−ơng tr−ớc. So sánh với không gian
và thời gian băng lọc truyền thống (không có bù chuyển động), biến đổi 3-D
có thể loại bỏ d− thừa về không gian trong tín hiệu Video trong trạng thái
chuyển động cao. Kết quả là không gian thời gian băng lọc 3- D và cấu trúc
nhóm ảnh chỉ ra trên hình 2.9 và 2.5. Bit dự trữ chonhóm ảnh riêng đ−ợc đ−a
ra bởi hình (2.12) cho tốc độ mã hoá bit không đổi (CBR).
Hệ số của băng lọc 3-D rồi sau đó đ−ợc mã hoá bởi thuật toán mã hoá
mặt phẳng bit EZBC (3D-EZBC). T−ơng tự nh− bản sao 2-D, 3D-EZBC mã
Đồ án cao học ĐTVT 2003
Nguyễn Hữu Phát 71
hoá các hệ số riêng lẻ thông qua l−ợng tử hoá và mã hoá. Chính vì vậy hệ số
đ−ợc biến đổi cho phép giải mã trong phạm vi dự đoán rộng với kích th−ớc
b−ớc của miền chết 2 .nτ = ∆ với n=nmax. . .0 là chỉ số mặt phẳng bit và ∆ là
kích th−ớc b−ớc tiền l−ợng tử hoá. Hệ số biến đổi trong băng con riêngcó thể
sắp xếp lại, tỷ lệ, hoặc khai thác l−ợng tử tr−ớc khi mã hoá mặt phẳng bit cho
mục đích điều khiển tốc độ... Thuật toán mã hoá mặt phẳng bit 3D-EZBC sẽ
đ−ợc giới thiệu trong ch−ơng sau.
Luồng bit mã hoá dùng cho ứng dụng phụ thuộc trạng thái định dạng
nén. Do tất cả các khung trong cùng 1 nhóm ảnh đ−ợc xử lý và mã hoá đồng
thời, nên cần bộ đệm khung Ng, ở đây Ng là số khung của nhóm ảnh nhân
đ−ợc. Trễ lớn nhất quan hệ giữa 2 khung đầu cuối 2Ng - 1 chu kỳ khung.
Trong hệ thống giải mã, hoạt động biến đổi ng−ợc đ−ợc thực hiện ng−ợc lại để
mã hoá mà không cần bù chuyển động. Mẫu của băng con giải mã đ−ợc cấu
trúc bởi mẫu t−ơng tự - phụ thuộc vào việc thực hiện thuật toán l−ợng tử hoá
trong bộ giải mã ảnh EZBC.
Điều đáng nói là không giống nh− hệ thống mã hoá lai truyền thống, bù
và đánh giá chuyển động trong hình 2.18 đ−ợc hình thành trên cả hai tín hiệu
đầu vào gốc. Mạch vòng phản hồi DPCM và các quan hệ khác không đ−ợc
giới thiệu trong hệ thống mã hoá Video này.
2.2.3. Băng con mã hoá 3 chiều
Thuật toán mã hoá mặt phẳng bit 3D-EZBC đ−ợc mở rộng trực tiếp của
thuật toán 2 chiều 2-D EZBC tới các khung riêng lẻ trong hệ thống băng con 3
chiều mô tả trên hình 2.5. Cây 1/4 đầu tiên đ−ợc thiết lập cho băng con riêng
lẻ từ khung nhận đ−ợc. Giá trị của nút cây 1/4 Qk (i, j, t) tại vị trí (i, j, t), mức
cây 1/4 là l và băng con k đ−ợc xác định nh− sau:
Đồ án cao học ĐTVT 2003
Nguyễn Hữu Phát 72
( ) ( )
( ) ( )
⎡ ⎤⎣ ⎦
⎧ ⎫⎡ ⎤ ⎡ ⎤⎣ ⎦ ⎣ ⎦⎪ ⎪⎡ ⎤ ⎨ ⎬⎣ ⎦ ⎡ ⎤ ⎡ ⎤⎪ ⎪⎣ ⎦ ⎣ ⎦⎩ ⎭
Q 0 (i, j,t) ∆ c (i, j,t)k k
Q l -1 2i,2j,t ,Q l -1 2i,2j+1,t ,k kQ l (i, j,t) ∆maxk Q l -1 2i+1,2j,t ,Q l -1 2i+1,2j+1,tk k
(2.13)
với ck (i, j, t) là giá trị băng con tại vị trí (i, j, t), với băng con thứ k. Với việc
xây dựng đệ quy cây 1/4, nút đỉnh của cây có giá trị biên độ lớn nhẩt trong tất
cả các mẫutừ băng con giống nhau trong khung nhận đ−ợc. Nút đỉnh của cây
bao gồm LIN tại quá trình bắt đầu của mặt phẳng bit.
Dữ liệu trên mặt phẳng đ−ợc mã hoá từ mẫu có nghĩa lớn nhất MSB đến
mẫu ít có nghĩa nhât LSB nhờ kiểm tra các nút từ LIN và tinh chỉnh hệ số từ
LSP. Chúng ta có thể thực hiện giống nh− trong mã hoá 2-D EZBC cho
việcmã hoá entropy của mặt phẳng lấy mẫu. Thủ tục hoàn chỉnh có thể tóm tắt
nh− sau:
Định nghĩa
• m (i, j, t): bit có nghĩa nhất (MSB) của nút (i, j, t).
• Dk: độ sâu của cây 1/4 cho băng lọc k.
• Dmax: max{k}{Dk}.
• K: tổng số băng con.
• n: chỉ số của mặt phẳng bit thông qua hiện thời, t−ơng ứng với
ng−ỡng l−ợng tử hoá 2n.
• Sn (i, j, t): nút kiểm tra có nghĩa (i, j, t) đối diện với ng−ỡng 2n,
( ) ⎧⎨⎩
<∆ nếu
còn lại
1 n m(i, j, t)
S i, j, tn 0
Nút (hay điểm ảnh) (i, j, t) là có ý nghĩa nếu Sn (i, j, t) = 1, và không có
ý nghĩa trong tr−ờng hợp còn lại.
• LINk[l]: danh sách các nút không có nghĩa từ mức l của băng con k.
• LSPk: danh sách các điểm ảnh có nghĩa từ băng con k.
• CodeLIN (k, l): hàm xử lý nút khô trong LINk[l].
Đồ án cao học ĐTVT 2003
Nguyễn Hữu Phát 73
• CodeLSP (k): hàm định nghĩa lại các hệ số.
• CodeDescendants (k, l, i, j, t): hàm cho mã hoá có nghĩa của tất cả
các nút Qk[l] (i, j, t), dùng cho kiểm tra mức ng−õng hiện thời.
Các b−ớc mã hoá
1. Khởi tạo
( ) ( ){ }0,0, t t k , l DkLIN lk còn lại
subbank⎧⎪⎨⎪⎩
∀ ∈ =∆ Φ
LSPk = φ
( ) ( ){ }n n log max c i, j, tmax 2 k⎡ ⎤⎢ ⎥⎣ ⎦= ∆
2. for l = 0: Dmax
for k = 0: K - 1
- CodeLIN (k, l)
3. for k = 0: K - 1
- CodeLSP (k)
Nếu (n > 0), giảm n quay lại b−ớc 2.
Mã giả:
CodeLIN (k, l)
{
for mỗi nút (i, j, t) trong LINk[l]
- Mã hoá Sn (i, j, t)
- Nếu (Sn (i, j, t) = 0)
* Duy trì phần còn lại (i, j, t) trong LINk[l]
- ng−ợc lại
* Nếu (l = 0), mã hoá bit dấu của ck (i, j, t) và thêm nút (i,
j, t) tới LSPk
* ng−ợc lại CodeDescendants (k, l, i, j, t)
}
Đồ án cao học ĐTVT 2003
Nguyễn Hữu Phát 74
CodeDescendants (k, l, i, j, t)
{
for mỗi nút (x, y, t) trong { (2i, 2j, t), (2i, 2j+1, t), (2i+1, 2j, t), (2i+1,
2j+1, t)} của mức l-1 trong cây 1/4, băng k
- Mã hoá Sn (x, y, t)
- Nếu (Sn (x, y, t) = 0), thêm nút (x, y, t) vào LINk[l - 1]
ng−ợc lại
-Nếu (l = 1), mã hoá bit dấu của ck (x, y, t) và thêm nút (x,
y, t) vào LSPk
ng−ợc lại CodeDescendants (k, l - 1, x, y, t)
}
CodeLSP (k)
{
for mỗi điểm ảnh (i, j, t) trong LSPk
- mã hoá bit n của |ck (i, j, t)|
}
2.2.4. Tỷ lệ dòng bít mã hoá
Tiếp theo chúng ta sẽ xem xét cách nén luồng bit mã hoá từ bộ mã hoá
để có thể đạt hiệu quả chu các ứng dụng mã hoá Video thay đổi.
2.2.4.1.Hệ thống dòng bít
Giống nh− cơ cấu của mặt phẳng mã hoá băng con 3 chiều/wavelet của
tín hiệu Video với tốc độ chuyển động của khung. Trong tr−ờng hợp này băng
Đồ án cao học ĐTVT 2003
Nguyễn Hữu Phát 75
con lọc 3 chiềuchỉ ra trên hình 2.10, thời gian phân tích Rt = 4 với không gian
phân tích Rs = 2, kết quả là tín hiệu Video đ−ợc phân thành 5 băng l−ới mắt
cáo theo thời gian và 3 băng l−ới theo không gian minh hoạ trên hình 2.19.
Băng con mã hoá đ−ợc tiền l−ợng tử hoá với b−ớc l−ợng tử τ đ−ợc giải mã với
phạm vi l−ợng tử hoá hiệu quả n2 . ,n n ,...,0maxτ = ∆ = , bởi mặt phẳng giải
mã bit n.
Hình 2.19. Tần số phân giải băng con biến đổi tín hiệu Video 3-D
trong hệ thống mã hoá Vieo
Nhóm ảnh riêng phục vụ cho đơn vị mã hoá cơ bản cho việc hình thành
điều khiển của luồng bit tỷ lệ. Thứ bậc của lớp bit mã hoá trong nhóm ảnh
đ−ợc mô tả trên hình 2.20.
Trên cùng của hệ thống mã hoá, chỉ ra trên Hình 2.20 (a), mỗi nhóm
ảnh mã hoá gồm 1 đơn vị luồng bit độc lập {PMV, PY, PU, PV}, ở đây PMV
ký hiệu luồng bit cho tr−ờng chuyển động, và PY, PU, PV là hệ số băng con
đáp ứng với thành phần màu Y, U, V của tín hiệu nguồn Video.
Luồng bit chuyển động PMV gồm luồng bit nhỏ hơn {PMV rt |rt =1, . .
., Rt} liên quan tới vectơ mã hoá bù chuyển động cho băng lọc bù chuyển động
trong biểu đồ tỷ lệ thời gian rt, minh hoạ trên Hình 2.20 (b). Hệ số luồng bit
Đồ án cao học ĐTVT 2003
Nguyễn Hữu Phát 76
PV đ−ợc tạo ra từ sự lựa chọn băng con { 0, . . ., Rs } liên quan tới hệ số mã hoá
băng con từ không gian tỷ lệ (rt, rs) và thành phần màu v ∈ {Y, U, V }, minh
hoạ trên Hình 2.19 và 2.20 (c). Trong tất cả các luồng bit con ,t s
v
r rP đ−ợc mã
hoá từ MSB đến LSB và mỗi mặt phẳng bit n thông qua sẽ đ−ợc phân chia
thành các mặt phẳng bit con l. Lớp hệ thống cho hệ số luồng bit băng con
,t s
v
r rP đ−ợc cung cấp trên Hình 2.20 (d), ở đây ,t sr rK là số băng con tỷ lệ (rt, rs)
và Dmax và nmax định nghĩa trong mục 2.2.3. Dmax = 9; nmax = 12 (với ∆ =
Đồ án cao học ĐTVT 2003
Nguyễn Hữu Phát 77
1) là tham số điển hình cho phân giải SIF (mục 2.5).
Hình 2.20. Lớp hệ thống file luồng bit phát sinh trong hệ thống
mã hoá Video scalable EZBC.
(a) Đỉnh hệ thống. (b) Lựa chọn luồng bit con chuyển động (c) Lựa
chọn hệ số luồng bit con cho thành phần màu v. (d) Lớp hệ thống cho luồng
bit con quan hệ đến không gian tỷ lệ (rt, rs).
Đồ án cao học ĐTVT 2003
Nguyễn Hữu Phát 78
2.2.4.2. Lựa chọn dòng bít mã hoá và truyền dẫn
Giống nh− thuật toán mã hoá mặt phẳng bit 2 chiều 2-D EZBC, chú ý
đặc biệt nhận đ−ợc cho mô hình hệ số băng con 3 chiều trong hệ thống mã
hoá Video vì thế luồng bit phân giải thấp hơn có thể giải mã mà không cần
phân giải băng con ở mức cao hơn. Luồng bit băng con trên Hình 2.20 đ−ợc
mã hoá theo từ mã sô học độc lập và đ−ợc đ−a vào địa chỉ hoá trong 1 file. Kết
quả là chúng ta có thể chọn bất kỳ thành phần v màu nào của tín hiệu Video
mã hoá khôi phục lại trong sự phân giải không gian khác nhau, tốc độ khung
và mức chất l−ợng, (R’t, R’s, Qn’), nhờ sự lựa chọn đơn vị mã hoá
{ },, max, 0 ' ,0 ' , 't t sMV v nr r r t t s sP P r R r R n n n≤ ≤ ≤ ≤ ≤ ≤ .
Với nhóm 8 tần số phân chia trong cả không gian và thời gian, việc
phân giải tín hiệu Video giải mã (tốc độ khung và kích th−ớc ảnh) cho phép
chia tỷ lệ bởi luỹ thừa 2 trong khuôn dạng các tham số. Cung cấp với luồng bit
mã hoá nhờ khả năng dự đoán hội tụ tốt, tốc độ mã hoá đ−ợc thực hiện liên
tục. Ba thành phần màu có thể nén lại lại hoặc bị loại bỏ khi kho dự trữ bit rất
thấp.
Với khả năng mềm dẻo của luồng bit, hệ thống mã hoá của chúng ta là
lý t−ởng cho môi tr−ờng ứng dụng hỗn hợp, nơi mà mạng bao gồm các băng
thông khác nhau và hệ thống đầu cuối với độ phức tạp khác nhau.
Với ứng dụng server-client nh− mã hoá Video trên Internet, luồng bit
đơn trong hệ thống có thể co dãn theo sự thay đổi băng thông khác nhau của
kênh và giới hạn của thiết bị đầu cuối.
Truyền hình quảng bá và hội nghị đa điểm có −u điểm khi sử dụng hệ
thống này. Thay vì gửi rất nhiều luồng bit từ cùng 1 nguồn Video với bộ gải
mã chuyên dụng (gọi là simulcast), chúng ta chỉ cần truyền luồng bit mã hoá
đơn thông qua toàn mạng (gọi là multicast). Mất mát do d− thừa giữa các
luồng bit có thể giảm thiểu. Trong tr−ờng hợp này, luồng bit mã hoá nén có
Đồ án cao học ĐTVT 2003
Nguyễn Hữu Phát 79
khả năng thích nghi với việc tiếp cận đa lớp nh− hình 2.21, ở đây bộ nhận có 3
mức độ phức tạp khác nhau.
Thông tin sai khác giữa lớp cơ sở (ký hiệu là BL trong hình 2.21) và
nguồn Video ban đầu đ−ợc chứa trong lớp tăng c−ờng (ký hiệu là EL0 và EL1
trong hình 2.8) và luồng bit mã hoá lớp thấp hơn đ−ợc chia sẻ cao với ng−ời sử
dụng đầu cuối. Trong chiến l−ợc phát thanh truyền thống, truyền thông trên
mạng đ−ợc giảm bớt cho hết nối A trên hình 2.16.
Hình 2.21. Minh hoạ việc tiếp cận đa truyền thanh đa lớp trong Video
Một ví dụ khác, luồng bit mã hoá Video có thể ứng dụng cho quảng bá
Video sử dụng bộ nhận - điều khiển đa lớp (RLM) nghiên cứu bởi McCanne
minh hoạ trên hình 2.17. Trong l−ợc đồ này, lớp bit mã hoá tăng c−ờng cho
phân giải đ−ợc truyền thông qua kênh phân chia. Ng−ời sử dụng cuối cùng có
thể lựa chon gia nhập hoặc rời bỏ nhóm.
Trong ví dụ minh hoạ hình 2.22, 5 luồng bit phát thanh quảng bá từ
nguồn Video đ−ợc cung cấp cho giải mã trong 2 không gian phân giải, hai tốc
độ khung, và 2 mức l−ợng tử. Nh− đã chứng minh, luồng bit mã hoá đơn trong
Đồ án cao học ĐTVT 2003
Nguyễn Hữu Phát 80
tr−ờng hợp này có thể phục vụ cho 4 ng−ời sử dụng đầu cuối với định dạng
nén khác nhau sử dụng nguồn Video.
Hình 2.22. Minh hoạ scalable Video cho đa truyền thanh
Trái với việc hình thành băng con/hình kim tự tháp – cơ sở của thuật
toán đa phân giải trong tài liệu này, hệ thống trong t−ơng lai cung cấp chất
l−ợng/tốc độ mong muốn cho ứng dụng mạng. Bên cạnh đó chất l−ợng giải mã
cho phân giải không gian thời gian không yêu cầu bắt buộc về thời gian mã
hoá ngay khi yêu cầu chất l−ợng Video d−ới mức cao nhất cung cấp bởi luòng
bit l−u trữ.
Đồ án cao học ĐTVT 2003
Nguyễn Hữu Phát 81
2
Các file đính kèm theo tài liệu này:
- Luan_van_cao_hoc_MPEG.pdf