Đề tài Phương pháp mã hóa video theo đối tượng ứng dụng trong hệ thống thông tin video nén

Tài liệu Đề tài Phương pháp mã hóa video theo đối tượng ứng dụng trong hệ thống thông tin video nén: TRƯỜNG ĐẠI HỌC GIAO THÔNG VẬN TẢI BỘ MÔN KỸ THUẬT THÔNG TIN ************ PHƯƠNG PHÁP MÃ HÓA VIDEO THEO ĐỐI TƯỢNG ỨNG DỤNG TRONG HỆ THỐNG THÔNG TIN VIDEO NÉN Giáo viên hướng dẫn: SV thực hiện: Hà Nội 2009 Lời nói đầu Với sự phát triển của công nghệ thông tin , và cùng với đó là sự phát triển ngày càng mạnh mẽ của các ứng dụng truyền thông đa phương tiện , đòi hỏi con người không ngừng tìm tòi sáng tạo để đáp ứng kịp với xu thế phát triển ấy. Nhờ vào sự phát triển của các ứng dụng truyền thông đa phương tiện mà chúng ta có thể đưa âm thanh, hình ảnh, hay các đoạn video đi xa một cách nhanh chóng và thuận tiện. Song với việc truyền tải một đoạn video có dung lượng lớn đi xa gặp khá nhiều khó khăn bởi khả năng có hạn của kênh dẫn.Vì vậy các nhà sản xuất đã áp dụng một số kỹ thuật nén để giúp tối ưu hóa các đoạn video trên, làm giảm dung lượng phải truyền đi mà chất lượng hình ảnh tương đương với hình ảnh gốc. Một trong các kỹ thuật nén được sử dụng rộng rãi đó là kỹ thuật n...

doc50 trang | Chia sẻ: hunglv | Lượt xem: 1729 | Lượt tải: 2download
Bạn đang xem trước 20 trang mẫu tài liệu Đề tài Phương pháp mã hóa video theo đối tượng ứng dụng trong hệ thống thông tin video nén, để tải tài liệu gốc về máy bạn click vào nút DOWNLOAD ở trên
TRƯỜNG ĐẠI HỌC GIAO THÔNG VẬN TẢI BỘ MÔN KỸ THUẬT THÔNG TIN ************ PHƯƠNG PHÁP MÃ HÓA VIDEO THEO ĐỐI TƯỢNG ỨNG DỤNG TRONG HỆ THỐNG THÔNG TIN VIDEO NÉN Giáo viên hướng dẫn: SV thực hiện: Hà Nội 2009 Lời nói đầu Với sự phát triển của công nghệ thông tin , và cùng với đó là sự phát triển ngày càng mạnh mẽ của các ứng dụng truyền thông đa phương tiện , đòi hỏi con người không ngừng tìm tòi sáng tạo để đáp ứng kịp với xu thế phát triển ấy. Nhờ vào sự phát triển của các ứng dụng truyền thông đa phương tiện mà chúng ta có thể đưa âm thanh, hình ảnh, hay các đoạn video đi xa một cách nhanh chóng và thuận tiện. Song với việc truyền tải một đoạn video có dung lượng lớn đi xa gặp khá nhiều khó khăn bởi khả năng có hạn của kênh dẫn.Vì vậy các nhà sản xuất đã áp dụng một số kỹ thuật nén để giúp tối ưu hóa các đoạn video trên, làm giảm dung lượng phải truyền đi mà chất lượng hình ảnh tương đương với hình ảnh gốc. Một trong các kỹ thuật nén được sử dụng rộng rãi đó là kỹ thuật nén chuyển động mà tiêu biểu là chuẩn nén MPEG. Qua quá trình nghiên cứu các chuyên gia đã cho ra đời chuẩn nén MPEG-4 với nhiều tính năng ưu việt và nó đã nhanh chóng được ứng dụng rộng rãi trong hệ thống thông tin video nén.MPEG-4 sử dụng một phương pháp mã hóa video theo từng đối tượng thay vì mã hóa toàn bộ cả một đoạn video, vì vậy dung lượng video được giảm đi đáng kể mà chất lượng lại không có nhiều thay đổi . Vì vậy chúng tôi đã chọn đề tài nghiên cứu “ phương pháp mã hóa video theo đối tượng ứng dụng trong các hệ thống thông tin video nén” để đi sâu tìm hiểu kỹ thuật mã hóa trong chuẩn nén MPEG-4 này. Đề tài nghiên cứu được chia làm 3 phần Chương 1 : tổng quan về video Chương 2 : công nghệ mã hóa video trong MPEG-4 Chương 3 : các ứng dụng Chúng tôi xin gửi lời cảm ơn tới thầy giáo Đặng Văn Hiếu đã hướng dẫn và giúp đỡ chúng tôi thực hiện đề tài này. Và chúng tôi cũng xin gửi lời cảm ơn tới thầy cô giáo trong bộ môn Kỹ Thuật Thông Tin và các bạn cùng lớp đã giúp đỡ chúng tôi trong việc tìm kiếm thông tin, tài liệu , và các giáo trình tham khảo trong suốt quá trình thực hiện đề tài này. Chúng tôi rất mong nhận được ý kiến đóng góp của thầy cô giáo và các bạn sinh viên để cho đề tài nghiên cứu được hoàn thiện hơn Hà Nội, ngày 3 tháng 4 năm 2009 Nhóm nghiên cứu Phương pháp mã hóa video theo đối tượng ứng dụng trong các hệ thống thông tin video nén MỤC LỤC Chương 1 : Tổng quan về mã hóa video 1.1 Mục đích nghiên cứu video nén theo hướng đối tượng……………………………..6 1.2 Tổng quan về các chuẩn nén…………………………………………………… ….6 1.3 Kĩ thuật mã hóa video nén theo hướng đối tượng MPEG-4 và ưu điểm……… …..7 Chương 2 : Công nghệ mã hóa video trong MPEG-4………………………………… …12 2.1 Mã hoá hình dạng ngoài (Shape Coder ).……………………………………………….15 2.1.1 Biến đổi Cosin rời rạc ( DCT )………………………………………...…………...16 2.1.2 Lượng tử hoá……………………………………………………………...….….....18 2.1.3 Mã hóa……………………...………………………………………………………20 2.2 Dự đoán và tổng hợp động………..…………………………………………………………21 2.2.1 Ước lượng chuyển động……………………………………...…..……………..….21 2.2.2 Kỹ thuật đệm…………………………….…………………………………….......22 2.2.3 Kỹ thuật chuyển động cơ bản……………………..……………………….…...….22 2.2.3.1 Kỹ thuật thay đổi từng khối thích ứng với cấu trúc đa cạnh của VOP.….….....22 2.2.3.2 ước lượng chuyển động của điểm ảnh…………………….………..……..…...23 2.2.3.3 chế độ INTRA / INTER………………………………….…….………..…..…24 2.2.3.4 Tìm kiếm nửa điểm ảnh………………………………….…..….…….….……25 2.2.3.5 Dự đoán MV………………………………………….………………....….….26 2.2.3.6 Chế độ vector chuyển động không giới hạn…………….………..…………….26 2.2.3.7 Chế độ nâng cao chất lượng dự đoán………………….………….……...….…27 2.3 Mã hóa cấu trúc………………………………………………………….……….……...27 2.4 Giải mã MPEG-4 VOP………………………………………………….….…................28 2.5 Mã hóa theo lớp video …………………………………………...………....…………..28 2.6 Đánh giá hiệu quả…………………………………………….……………....................29 2.7 Điều khiển tốc độ………………………………………………………………………..31 Chương 3 : Ứng dụng………………………………………………………………….………37 3.1 IP TV………………………………………………………………..…………..….....…37 3.2Video yêu cầu………………………………………………………..………….…..…....39 3.3 Mobile TV………………………………………………………..……………….....…..40 3.4 Truyền hình hội nghị …………………………………………….……………...…..…..41 Mục lục các hình vẽ Hình 1.1: công cụ nén mới của MPEG-4 so với MPEG 2………………………….…………….9 Hình 1.2 :DCT của MPEG…………………………………………………………………………...9 Hình 1.3.a : Đầu vào của bộ mã hóa MPEG-2……………………………………………….….10 Hình 1.3.b : Bộ mã hóa MPEG-4………………………………………………………………..…11 Hình 1.4: Các đối tượng lưới của MPEG4…………………………………………..…………...11 Hình 2.1: Cấu trúc của bộ mã hoá và giải mã video MPEG-4………………………………..13 Hình 2.2: Sơ đồ cấu trúc giải mã video MPEG-4………………………………………............14 Hình 2.3: Sơ đồ thuật toán nén ảnh(a)…………………………………………………….……...16 Hình 2.4: Sơ đồ thuật toán nén ảnh(b)……………….………………………………..................17 Hình 2.5 : Quá trình giải lượng tử và thứ tự sắp xếp zigzag…………….…………….….…….19 Hình 2.6: Cấu trúc mã hóa một VOP………………………………………………………….…...21 Hình 2.7 : Kỹ thuật thay đổi từng khối thích ứng với cấu trúc đa cạnh của VOP…………….23 Hình 2.8 : cửa sổ mở rộng cho việc tìm kiếm sự thay đổi theo phương Y……………….........23 Hình 2.9 : Tìm kiếm giá trị nửa điểm ảnh bằng phép nội suy………………………….…….….25 Hình 2.10 : Dự đoán thành phần MV trong chế độ dự đoán nâng cao………………....……..26 Hinh 2.11 : Mã hóa khung hình trong MPEG-4…………………………………………..………27 Hình 2.12 : Cấu trúc giải mã VOP…………………………………………………………….…...28 Hình 2.13 : Chất lượng đạt được của mã hóa video MPEG-4………………………………….30 Hình 2.14: Chất lượng đạt được của cả hai H.263 và MPEG-4 tại tốc độ 128 kbit / s……...30 Hình 2.15 : Cận cảnh đối tượng……………………………………………………………….……31 Hình 2.16 : Sự biến đổi tốc độ truyền theo bit của Frolife đơn giản của MPEG-4……….….32 Hình 2.17 : Đầu ra của bộ giải mã và đầu vào của bộ đệm mã hóa……………………..…….32 Hình 2.18 : Ví dụ của 1 bộ đệm (mã hóa, kênh dẫn bit 100kbps)……………………….….…..33 Hình 2.19 : Hình 2.20 : giải mã nội dung bộ đệm cho kênh 100kbit/s ………………….….….34 Hình 2.20 : Ví dụ của 1 bộ đệm (giải mã, kênh dẫn bit 1000kbps)……………………………..34 CÁC THUẬT NGỮ VIẾT TẮT MV : Motion vector (vector chuyển động ) VOP : Video object planes (đối tượng video) DCT: Discrete cosine transform ( biến đổi cosin rời rạc) MSE : Mean square error (sai số bình phương trung bình) BM : Block Matchinh ( khối phù hợp) SAD : Sum of Absolute Difference ( tổng sự khác nhau tuyệt đối) MB : Macro Block ( Khối vĩ mô) GOB : Groups Of Block ( nhóm các khối) OBMC: Overlapped block motion compensation (sự bù chuyển động khối) MPEG: Motion Picture Experts Group (Nhóm các chuyên gia điện ảnh) ITU: International Telecommunication Union (hiệp hội viễn thông quốc tế) ISO: International Standard Organisation (tổ chức tiêu chuẩn quốc tế) IEC: International Electrotechnical Commission (ủy ban kỹ thuật điện tử quốc tế) EOB: End Of Block (khối kết thúc) MRG: Management Research Group(nhóm quản lý nghiên cứu) IPTV: Internet Protocol Television (Truyền hình Giao thức Internet) MSE : mean square error (sai số bình phương trung bình) VOD: video on demand (video theo yêu cầu) ISDN Integrated Services Digital Network (là công nghệ băng hẹp) BM : Block Matchinh ( khối phù hợp) FTTH: Fiber-To-The-Home (mạng viễn thông bằng cáp quang được nối đến tận nhà) ISDN : Integrated Services Digital Network (mạng đa dịch vụ số) NGN: Dịch vụ truyền hình hội nghị  LAN: Local Area Network (mạng máy tính cục bộ) WAN: Wide Area Network (Mạng diện rộng) Chương 1 : Tổng quan về mã hóa video 1.1 Mục đích nghiên cứu video nén theo hướng đối tượng Tại sao chúng ta cần phải nén video ? Để xem được 1 đoạn video có chất lượng cao mà dung lượng không quá lớn là 1 điều rất quan trọng và cần thiết. Đó chính là lí do cần phải sử dụng 1 công cụ nén video nhằm giảm tối đa dung lượng của đoạn video mà chất lượng vẫn đáp ứng được yêu cầu. Nhu cầu truyền phát các dịch vụ Multimedia mới trên hạ tầng kỹ thuật mạng Internet đã làm nảy sinh các yêu cầu chức năng không có trong các chuẩn MPEG-1, MPEG-2,H.26X và các chuẩn nén video trước đó. Sự xuất hiện của chuẩn MPEG-4 (10/1998) và H264 đã tạo ra một phương thức thiết lập và tương tác mới với truyền thông nghe nhìn trên mạng internet, tạo ra một phương thức sản xuất, cung cấp và ứng dụng mới các nội dung video trên cơ sở nội dung và hướng đối tượng (content/object-based). Đây chính là một công nghệ trình diễn truyền thông đa phương tiện phức hợp, có khả năng truyền thông trong các môi trường băng thông rất khác nhau nhờ kết hợp tốt 3 môi trường: Truyền hình số, đồ hoạ tương tác và World Wide Web 1.2 Tổng quan về các chuẩn nén Hiệp hội viễn thông quốc tế (ITU) và tổ chức tiêu chuẩn quốc tế/ Uỷ ban kỹ thuật điện tử quốc tế (ISO/IEC) là hai tổ chức phát triển các tiêu chuẩn mã hoá Video. Theo ITU-T, các tiêu chuẩn mã hoá Video được coi là các khuyến nghị gọi tắt là chuẩn H.26x (H.261, H.262, H.263 và H.264). Với tiêu chuẩn ISO/IEC, chúng được gọi là MPEG-x (như MPEG-1, MPEG-2 và MPEG-4). MPEG hay gọn hơn là MPG có xuất xứ từ Moving Picture Experts Group (Nhóm các chuyên gia điện ảnh). Tổ chức ra đời hồi năm 1988 này chuyện phát triển các tiêu chuẩn về cái vụ nén phim số (digital video) và âm thanh số (digital audio). Nó hoạt động dưới sự “đỡ đầu” của Tổ chức Quốc tế về Tiêu chuẩn hóa (ISO). Mpeg-4 là chuẩn cho các ứng dụng MultiMedia. Mpeg-4 trở thành một tiêu chuẩn cho nén ảnh kỹ thuật truyền hình số, các ứng dụng về đồ hoạ và Video tương tác haichiều(Games,Videoconferencing) và các ứng dụng Multimedia tương tác hai chiều (World Wide Web hoặc các ứng dụng nhằm phân phát dữ liệu Video như truyền hình cáp, Internet Video...). Mpeg-4 đã trở thành một tiêu chuẩn công nghệ trong quá trình sản xuất, phân phối và truy cập vào các hệ thống Video. Nó đã góp phần giải quyết vấn đề về dung lượng cho các thiết bị lưu trữ, giải quyết vấn đề về băng thông của đường truyền tín hiệu Video hoặc kết hợp cả hai vấn đề trên. Với MPEG-4, các đối tượng khác nhau trong một khung hình có thể được mô tả, mã hoá và truyền đi một cách riêng biệt đến bộ giải mã trong các dòng cơ bản ES (Elementary Stream) khác nhau. Cũng nhờ xác định, tách và xử lý riêng các đối tượng (như nhạc nền, âm thanh xa gần, đồ vật, đối tượng ảnh video như con người hay động vật, nền khung hình …), nên người sử dụng có thể loại bỏ riêng từng đối tượng khỏi khuôn hình. Sự tổ hợp lại thành khung hình chỉ được thực hiện sau khi giải mã các đối tượng này. H.264 ( MPEG-4 AVC hay MPEG-4 part 10), hiện đang là phương thức tiên tiến nhất trong lĩnh vực nén video. H.264 cho chất lượng hình ảnh tốt nhất khi có cùng dung lượng so với các chuẩn nén khác. H.264 cũng được ứng dụng như thuật nén chính trong video độ phân giải cao (HD) Mục tiêu chính của chuẩn nén H.264 đang phát triển nhằm cung cấp Video có chất lượng tốt hơn nhiều so với những chuẩn nén Video trước đây. Điều này có thể đạt được nhờ sự kế thừa các lợi điểm của các chuẩn nén Video trước đây. Không chỉ thế, chuẩn nén H.264 còn kế thừa phần lớn lợi điểm của các tiêu chuẩn trước đó là H.263 và MPEG-4. Trong đề tài này chúng tôi xin phép được trình bày kĩ thuật mã hóa video nén theo hướng đối tượng MPEG-4 mà hiện nay đang đuợc sử dụng rất nhiều như 1 công cụ mã hóa với nhiều tính năng ưu việt. 1.3 Kĩ thuật mã hóa video nén theo hướng đối tượng MPEG-4 và ưu điểm của nó. MPEG-4 được coi là một cuộc cách mạng mới trong media số. Nó là chuẩn multimedia toàn cầu thế hệ kế tiếp. Nó được thiết kế để truyền tải video với chất lượng DVD (MPEG-2) qua mạng. MPEG-4 có khả năng nén cao và tối ưu hóa được dung lượng băng thông cũng như dung lượng file lưu trữ mà lại đưa ra chất lượng video chập nhận được. MPEG-4 có phương thức mã hóa và nén video hoàn toàn tối ưu hơn các chuẩn khác trước nó đó là việc chia nhỏ mỗi lớp video thành các đối tượng riêng biệt,Thay vì thực hiện truyền tải tất cả các lớp video như ở MPEG-2 thì MPEG-4 chỉ truyền đi sự thay đổi trong mỗi đối tượng đã được tách ra.MPEG-4 ra đời với khá nhiều tính năng ưu việt: 1.3.1 Tính mềm dẻo và có khả năng nâng cấp. Các nhà thiết kế bộ mã hoá MPEG phải đối mặt với rất nhiều vấn đề, nhưng vấn đề quan trọng nhất là làm sao thiết kế được một thuật toán nén mềm dẻo và có khả năng nâng cấp được trong tương lai. Họ thường mong muốn có được các bộ mã hoá MPEG thích hợp cho nhiều ứng dụng, từ TV màn ảnh rộng, chất lượng cao tới các hệ thống nhỏ, tín hiệu video đen trắng cho các hệ thống camera an ninh. Hiển nhiên là một hệ thống nén thiết kế dành cho các phim màn ảnh rộng phải có phần cứng mạnh, bộ nhớ lớn hơn là một hệ thống được thiết kế cho hệ thống camera dành cho mục đích an ninh.Các nhà thiết kế giải quyết vấn đề này bằng cách định nghĩa "Level" và "Profile" cho hệ thống. Các "Level" xác định giới hạn năng lực xử lý của phần cứng và bộ nhớ cần thiết để mã hoá tín hiệu. Các "Profile" xác định độ phức tạp của quá trình mã hoá và giải mã.Đối với MPEG-4 thì có 19 profile (nhưng đối với H.264 chỉ có 3 profile). Về khả năng nâng cấp của bộ mã hoá MPEG, họ thiết kế theo hai bước. Bước thứ nhất là thay cho xác định chỉ tiêu của bộ mã hoá và giải mã, họ xác định loại tín hiệu nằm giữa hai thiết bị này. Bước thứ hai là thực hiện các cải tiến trong bộ mã hoá và giải mã mới sao cho nó tương thích với các chuẩn cũ (backward compatible).Chuẩn MPEG có các qui tắc và giao thức cho tín hiệu truyền giữa bộ mã hoá và giải mã. Các quy tắc này, thực chất giống như là một loại ngôn ngữ dành riêng cho bộ mã hoá và giải mã. Các bộ mã hoá tương thích phải có khả năng “nói” được ngôn ngữ này. Các bộ giải mã tương thích phải có khả năng hiểu được toàn bộ các "từ vựng" mà bộ mã hoá đã phát ra trong một ngữ cảnh nhất định.MPEG-4 thực hiện điều này bằng cách tạo ra một bộ các công cụ dùng để nén tín hiệu trong các trường hợp khác nhau. Một trong các công cụ này, chuyển đổi cosine rời rạc (DCT - discrete cosine transform), có nhiệm vụ chuyển đổi một khối 8x8 pixel thành một tập các hệ số 1.3.2 MPEG-4 đem lại công cụ nén mới. Ta hãy xem xét các cộng cụ nén mới mà chuẩn MPEG-4 mang tới lĩnh vực nén ảnh. Hình 1 so sánh các công cụ của chuẩn MPEG-2 và MPEG-4. Hình 1.1: công cụ nén mới của MPEG-4 so với MPEG-2. Chuẩn MPEG-4 đi xa hơn, theo hình 2, nó có thể dự đoán hệ số của toàn bộ các khối trên một hàng hay hệ số của các khối ở cột bên trái từ một khối đầu tiên. Hình 1.2: MPEG4 có thể dự đoán các tham số trên 1 hàng, hay các thông số của cột bên trái từ một khối đầu tiên. Việc dự đoán các hệ số của hàng hay của cột dựa trên nội dung của hình ảnh. Ví dụ, một ảnh chứa một vật thể theo chiều đứng như cái cọc chẳng hạn. Khi đó quét ảnh này theo chiều ngang sẽ tạo ra sự thay đổi lớn trong các hệ số sau DCT khi gặp hình ảnh cái cọc này. Trái lại, khi quét theo chiều đứng thì các khối nằm trong một cột có các hệ số DCT gần giống nhau, từ đó có thể nén với tỉ lệ nén cao hơn. MPEG-4 mở rộng cách dự đoán vector chuyển động. MPEG-4 có thể dự đoán vector cho một macroblock từ các macroblock ở trên hay ở bên trái, và nó chỉ gửi đi sự sai khác so với các vector cũ mà thôi. Do đó giảm đi dữ liệu cần thiết dùng để mã hoá một vector, cho phép có thể dùng một vector cho mỗi khối DCT. Việc dự đoán chuyển động sẽ tốt hơn với 4 vector, giảm nhỏ lỗi khi dự đoán. Chất lượng hình ảnh có thể được cải thiện đáng kể bằng cách dùng tỉ lệ nén dữ liệu lớn hơn mà không cần thay đổi độ phân giải. Mpeg không phải là một công cụ nén đơn lẻ mà ưu điểm của nén Mpeg chính là ở chỗ nó có một tập hợp các công cụ mã hoá chuẩn, chúng có thể được kết hợp với nhau một cách linh động để phục vụ cho một loạt các ứng dụng khác nhau, khả năng truyền dẫn tốt trong môi trường truyền dẫn khắc nhiệt. 1.3.3 Tiềm năng của chuẩn MPEG-4. Trong khi các chuẩn MPEG-1 và MPEG-2 thao tác với một ảnh toàn vẹn, thì chuẩn MPEG-4 có thể làm việc được với các hình ảnh được tạo ra, hay đã được máy tính xử lý và đó là một thế mạnh của chuẩn MPEG-4.So với chuẩn MPEG-2 thì MPEG-4 có những ưu thế hơn về xử lý đồ họa trực tiếp. Hình 1.3.a : Đầu vào của bộ mã hóa MPEG-2 là một ảnh hoàn chỉnh được lặp lại theo tần số ảnh (frame rate) Hình 1.3.b : Bộ mã hóa MPEG-4 có thể xử lý các lệnh đồ họa một cách trực tiếp , do đó công cụ biểu diễn hình ảnh thực sự nằm trong bộ giảimã MPEG-4 Hình 1.3 : so sánh giữa chuẩn MPEG-2 và MPEG-4 về xử lý đồ họa Chuẩn MPEG-4 có thể làm việc được với 4 loại đối tượng, như trên hình 4.Hình 4 cho thấy chuẩn MPEG-4 đã chuẩn hoá phương pháp truyền các đối tượng 3 chiều nhờ các đối tượng lưới (mesh object), cùng với các phương tiện ánh xạ bề mặt vật thể lên các đối tượng này, chuẩn này có thể xử lý các đối tượng có hình dạng bất kỳ Hình 1.4: MPEG4 đã chuẩn hóa phương pháp truyền các đối tượng 3 chiều nhờ các đối tượng lưới. 1.3.4 Audio, video và tất cả các đối tượng khác có thể được đồng bộ chặt chẽ với độ chính xác cao và có khả năng tương tác. Truyền thông multimedia theo dòng (Multimedia stream), trong đó dòng audio và video sẽ được biến đổi thích nghi với yêu cầu băng thông và chất lượng hình nhờ loại bỏ những đối tượng (hình ảnh, âm thanh) không cần thiết khỏi dòng dữ liệu và đồng bộ các thông tin được nhúng trong dòng dữ liệu đó. Thêm vào đó, MPEG-4 sẽ cho phép người sử dụng khả năng tương tác trực tiếp với dòng dữ liệu (dừng tiến hay lùi nhanh, kích chuột để kích hoạt các tuỳ chọn video và audio…) Lưu giữ và phục hồi dữ liệu audio và video: do MPEG-4 phân chia các khung hình thành các đối tượng, việc trình duyệt Browser trên cơ sở nội dung (đối tượng) mong muốn sẽ được thực hiện một cách dễ dàng và nhờ vậy, các ứng dụng lưu giữ hay phục hồi thông tin trên cơ sở nội dung MPEG-4 sẽ được thuận lợi hơn. Truyền thông báo đa phương tiện: các thông báo dưới dạng text, audio và video MPEG-4 sẽ được truyền đi với yêu cầu băng thông ít hơn, và có khả năng tự điều chỉnh chất lượng cho phù hợp với khả năng băng thông của thiết bị giải mã. Thông tin giải trí: những sự trình diễn nghe nhìn tương tác (thế giới ảo, trò chơi tương tác …) có thể được triển khai trên cơ sở chuẩn MPEG-4 sẽ làm giảm yêu cầu về băng thông và làm cho thế giới ảo trở nên sinh động và giống như thực tế trên các trang web Chương 2 : Công nghệ mã hóa video trong MPEG-4 MPEG-4 là sản phẩm của nhóm MPEG (Moving Picture Expert Group) được thành lập tháng 1/1988 với nhiệm vụ phát triển các chuẩn xử lý, mã hoá và hiển thị các ảnh động, audio và các tổ hợp của chúng. Sản phẩm đầu tiên của nhóm này là MPEG-1 được sử dụng cho việc mã hoá các dữ liệu nghe nhìn với tốc độ 1,5 Mbps. Sản phẩm thứ hai của nhóm là chuẩn MPEG-2 nổi tiếng hiện nay, mang tính tổng quát hơn và đang được áp dụng cho một loạt các ứng dụng nghe nhìn trong phạm vi tốc độ từ 3-40 Mbps. Không giống các chuẩn MPEG trước đó, ví dụ như trong MPEG-2, nơi mà nội dung được tạo ra từ nhiều nguồn như video ảnh động, đồ họa, văn bản… và được tổ hợp thành chuỗi các khung hình phẳng, mỗi khung hình (bao gồm các đối tượng như người, đồ vật, âm thanh, nền khung hình…) được chia thành các phần tử ảnh pixels và xử lý đồng thời, giống như cảm nhận của con người thông qua các giác quan trong thực tế. Các pixels này được mã hoá như thể tất cả chúng đều là các phần tử ảnh video ảnh động. Tại phía thu của người sử dụng, quá trình giải mã diễn ra ngược với quá trình mã hoá không khó khăn. Vì vậy có thể coi MPEG-2 là một công cụ hiển thị tĩnh, và nếu một nhà truyền thông truyền phát lại chương trình của một nhà truyền thông khác về một sự kiện, thì logo của nhà sản xuất chương trình này không thể loại bỏ được. Với MPEG-2, bạn có thể bổ xung thêm các phần tử đồ hoạ và văn bản vào chương trình hiển thị cuối cùng (theo phương thức chồng lớp), nhưng không thể xoá bớt các đồ hoạ và văn bản có trong chương trình gốc. Chuẩn MPEG-4 khắc phục được hạn chế này và là một chuẩn động dễ thay đổi. Với MPEG-4, các đối tượng khác nhau trong một khung hình có thể được mô tả, mã hoá và truyền đi một cách riêng biệt đến bộ giải mã trong các dòng cơ bản ES (Elementary Stream) khác nhau. Cũng nhờ xác định, tách và xử lý riêng các đối tượng (như nhạc nền, âm thanh xa gần, đồ vật, đối tượng ảnh video như con người hay động vật, nền khung hình …), nên người sử dụng có thể loại bỏ riêng từng đối tượng khỏi khuôn hình. Sự tổ hợp lại thành khung hình chỉ được thực hiện sau khi giải mã các đối tượng này. Hình 2.1. Cấu trúc của bộ mã hoá và giải mã video MPEG-4 Các bộ phận chức năng chính trong các thiết bị MPEG-4 bao gồm: - Bộ mã hoá hình dạng ngoài Shape Coder dùng để nén đoạn thông tin, giúp xác định khu vực và đường viền bao quanh đối tượng trong khung hình scene. - Bộ dự đoán và tổng hợp động để giảm thông tin dư thừa theo thời gian. - Bộ mã kết cấu mặt ngoài Texture coder dùng để xử lý dữ liệu bên trong và các dữ liệu còn lại sau khi đã bù chuyển động. Hình 2.2. Sơ đồ cấu trúc giải mã video MPEG-4 Hình 2 là một ví dụ về tổng hợp khung hình video sử dụng trong MPEG-4. Nhiều đối tượng được tách ra khỏi video đầu vào. Mỗi đối tượng video sau đó được mã hóa bởi bộ mã hoá đối tượng video VO (Video Object) và sau đó được truyền đi trên mạng. Tại vị trí thu, những đối tượng này được giải mã riêng rẽ nhờ bộ giải mã riêng VO và gửi tới bộ compositor. Người sử dụng có thể tương tác với thiết bị để cấu trúc lại khung hình gốc, hay để xử lý các đối tượng tạo ra một khung hình khác. Ngoài ra, người sử dụng có thể download các đối tượng khác từ các thư viện cơ sở dữ liệu (có sẵn trên thiết bị hay từ xa thông qua mạng LAN, WAN hay Internet) để chèn thêm vào hay thay thế các đối tượng có trong khuôn hình gốc. Để có thể thực hiện việc tổ hợp khung hình, MPEG-4 sử dụng một ngôn ngữ mô tả khung hình riêng, được gọi là định dạng nhị phân cho khung hình BiFS (Binary Format for Scenes). BiFS không chỉ mô tả ở đâu và khi nào các đối tượng xuất hiện trong khung hình, nó cũng mô tả cách thức hoạt động của đối tượng (làm cho một đối tượng xoay tròn hay chồng mờ hai đối tượng lên nhau) và cả điều kiện hoạt động đối tượng và tạo cho MPEG-4 có khả năng tương tác. Trong MPEG-4 tất cả các đối tượng có thể được mã hoá với sơ đồ mã hoá riêng của nó - video được mã hoá theo kiểu video, text được mã hoá theo kiểu text, các đồ hoạ được mã hoá theo kiểu đồ hoạ - thay vì việc xử lý tất cả các phần tử ảnh pixels như là mã hoá video ảnh động. Do các quá trình mã hoá đã được tối ưu hoá cho từng loại dữ liệu thích hợp, nên chuẩn MPEG-4 sẽ cho phép mã hoá với hiệu quả cao tín hiệu ảnh video, audio và cả các nội dung tổng hợp như các bộ mặt và cơ thể hoạt hình. 2.1 Mã hoá hình dạng ngoài (Shape Coder ) -Khung hình : là thành phần mã hoá chính. Thường thường chúng ta có thể phân biệt sự thay đổi về độ sáng của ảnh tốt hơn so với sự thay đổi về màu. Do đó trước hết các sơ đồ nén Mpeg sẽ tiến hành chia khung hình thành các thành phần độ sáng Y và thành phần độ màu Cb, Cr (một thành phần về độ sáng và hai thành phần về độ màu). Một khung hình sẽ gồm có 3 ma trận ứng với các thành phần về độ sáng (Y) và hai thành phần về độ màu Cb và Cr. Ma trận Y có số hàng và cột bằng nhau (ma trận vuông). Ma trận Cb và Cr có số hàng và cột bằng nửa ma trận Y. Hình 3 cho thấy quan hệ và vị trí của Y và các thành phần Cb và Cr. Lưu ý rằng cứ 4 giá trị Y lại có 2 giá trị kết hợp một của Cb và một của Cr (Vị trí của giá trị Cb và Cr là tương đương). Các bộ lọc tiền xử lý sẽ lọc ra những thông tin không cần thiết từ tín hiệu Video và những thông tin khó mã hoá nhưng không quan trọng cho sự cảm thụ của mắt người. Kỹ thuật đoán chuyển động dựa trên nguyên tắc là các khung hình trong một cảnh Video dường như có liên quan mật thiết với nhau theo thời gian: Mỗi khung hình tại một thời điểm nhất định sẽ có nhiều khả năng giống với các khung hình đứng ngay phía trước và ngay phía sau nó. Do vậy ở phía bộ mã hoá, chỉ cần gửi những khung hình có thay đổi so với những khung hình trước, sau đó dùng phương pháp nén về không gian để loại bỏ sự dư thừa về không gian trong chính khung hình sai khác này. Trong MPEG-4 là yếu tố ít có sự thay đổi nhất, các bước mã hóa khung hình cũng tương tư như mã hóa ảnh. Thuật toán mã hoá biến đổi gồm các bước: +Biến đổi Cosine rời rạc (DCT). +Lượng tử hoá. +Mã hóa 2.1.1 Biến đổi Cosin rời rạc ( DCT ) Sơ đồ thuật toán nén và giải nén được mô tả dưới đây: Hình 2.3 sơ đồ thuật toán nén ảnh (a) Quá trình giải nén sẽ được làm ngược lại, người ta giải mã từng phần ảnh nén tương ứngvới phương pháp nén đã sử dụng trong phần nén nhờ các thông tin liên quan ghi trong phần header của file nén. Kết quả thu được là hệ số đã lượng tử. Các hệ số này được khôi phục về giá trị trước khi lượng tử hóa bằng bộ tương tự hóa. Tiếp đó đem biến đổi Cosin ngược ta được ảnh ban đầu với độ trung thực nhất định. Bảng mã và bảng lượng tử trong sơ đồ giải nén được dựng lên nhờ những thông tin ghi trong phần cấu trúc đầu tệp ( Header) của tệp ảnh nén. Quá trình nén chịu trách nhiệm tạo ra và ghi lại những thông tin này. Phần tiếp theo sẽ phân tích tác dụng của từng khối trong sơ đồ 2.3 + Phần khối Vì ảnh gốc có kích thước rất lớn cho nên trước khi đưa vào biến đổi DCT, ảnh được phân chia thành các khối vuông, mỗi khối này thường có kích thước 8 x 8 pixel và biểu diễn các mức xám của 64 điểm ảnh, các mức xám này là các số nguyên dương có giá trị từ 0 đến 255. Việc phân khối này sẽ làm giảm được một phần thời gian tính toán các hệ số chung, mặt khác biến đổi cosin đối với các khối nhỏ sẽ làm tăng độ chính xác khi tính toán với dấu phẩy tĩnh, giảm thiểu sai số do làm tròn sinh ra. Hình 2.4 sơ đồ thuật toán nén ảnh (b) Biến đổi DCT là một công đoạn chính trong các phương pháp nén sử dụng biến đổi. 2 công thức ở đây minh hoạ cho 2 phép biến đổi DCT thuận nghịch đối với mỗi khối ảnh có kích thước 8 x 8. Giá trị x(n1, n2) biểu diễn các mức xám của ảnh trong miền không gian, X(k1, k2) là các hệ số sau biến đổi DCT trong miền tần số. + Biến đổi Biến đổi là một trong những công đoạn lớn trong các phương pháp nén sử dụng phép biến đổi. Nhiệm vụ của công đoạn biến đổi là tập trung năng lượng vào một số ít các hệ số biến đổi. Công thức biến đổi cho mỗi khối là: và Thuật toán biến đổi DCT cho mỗi khối trong trường hợp này sẽ bao gồm 16 phép biến đổi DCT. Đầu tiên, người ta biến đổi nhanh Cosin một chiều cho các dãy điểm ảnh trên mỗi hàng. Lần lượt thực hiện cho 8 hàng. Sau đó đem biến đổi nhanh Cosin một chiều theo từng cột của ma trận vừa thu được sau 8 phép biến đổi trên. Cũng lần lượt thực hiện cho 8 cột. Ma trận cuối cùng sẽ là ma trận hệ số biến đổi của khối tương ứng.Trong sơ đồ giải nén ta phải dùng phép biến đổi Cosin ngược. Công thức biến đổi ngượccho khối 8x8: và 2.1.2 Lượng tử hoá Khối lượng tử hóa trong sơ đồ nén đóng vai trò quan trong và quyết định tỉ lệ nén củachuẩn nén. Đầu vào của khối lượng tử hóa là các ma trận hệ số biến đổi Cosin của các khối điểm ảnh.Sau khi thực hiện biến đối DCT, 64 hệ số sẽ được lượng tử hoá dựa trên một bảng lượng tử gồm 64 phần tử Q(u,v) với 0≤u, v≤7. Bảng này được định nghĩa bởi từng ứng dụng cụ thể. Các phần tử trong bảng lượng tử có giá trị từ 1 đến 255 được gọi là các bước nhảy cho các hệ số DCT. Quá trình lượng tử được coi như là việc chia các hệ số DCT cho bước nhảy lượng tử tương ứng, kết quả này sau đó sẽ được làm tròn xuống số nguyên gần nhất. Công thức (3) thể hiện việc lượng tử với F(u,v) là các hệ số DCT, FQ(u,v) là các hệ số sau lượng tử, các hệ số này sẽ được đưa vào bộ mã hoá Entropy.     (3) Mục đích của việc lượng tử hoá là giảm số lượng bit cần để lưu trữ các hệ số biến đổi bằng việc giảm độ chính xác của các hệ số này cho nên lượng tử là quá trình xử lý có mất thông tin. Quá trình giải lượng tử ở phía bộ giải mã được thực hiên ngược lại. Các hệ số sau bộ giải mã entropy sẽ nhân với các bước nhảy trong bảng lượng tử (bảng lượng tử được đặt trong phần header của ảnh JPEG). Kết quả này sau đó sẽ được đưa vào biến đổi DCT ngược. Để nâng cao hiệu quả nén cho mỗi bộ hệ số trong một khối, người ta xếp chúng lại theo thứ tự ZigZag. Tác dụng của sắp xếp lại theo thứ tự ZigZag là tạo ra nhiều loại hệ số giống nhau. Chúng ta biết rằng năng lượng của khối hệ số giảm dần từ góc trên bên trái xuống góc dưới bên phải nên việc sắp xếp lại các hệ số theo thứ tự ZigZag sẽ tạo điều kiện cho các hệ số xấp xỉ nhau (cùng mức lượng tử) nằm trên một dòng Hình 2.5 : Quá trình giải lượng tử và thứ tự sắp xếp zigzag Mỗi khối ZigZag này được mã hóa theo phương pháp RLE. Cuối mỗi khối đầu ra của RLE, ta đặt dấu kết thúc khối EOB (End Of Block). Sau đó, các khối được dồn lại và mã hóa một lần bằng phương pháp mã Huffman. Nhờ có dấu kết thúc khối nên có thể phân biệt được hai khối cạnh nhau khi giải mã Huffman. Hai bảng mã Huffman cho hai thành phần hệ số tất nhiên sẽ khác nhau. Để có thể giải nén được, chúng ta phải ghi lại thông tin như: kích thước ảnh, kích thước khối, ma trận Y, độ lệch tiêu chuẩn, các mức tạo lại, hai bảng mã Huffman, kích thước khối nén một chiều, kích thước khối nén xoay chiều… và ghi nối tiếp vào hai file nén của thành phần hệ số. Cài đặt giải thuật cho nén thực sự phức tạp. Chúng ta phải nắm được các kiến thức về nén RLE, Huffman, biến đổi Cosin, xây dựng bộ lượng tử hóa Lloyd-Max…Nén và giải nén hơi chậm nhưng bù lại, thời gian truyền trên mạng nhanh hơn do kích thước tệp nén nhỏ. Với những ưu điểm của mình được ISO chấp nhận là chuẩn ảnh quốc tế và được biết đến dưới mã số ISO 10918-1. 2.1.3 Mã hóa Mã hoá là bước cuối cùng trong hệ thống nén ảnh dựa trên biến đổi DCT. Chuẩn nén ảnh JPEG hiện nay dùng phương pháp mã hoá Huffman, đây là phép mã hoá không làm mất thông tin. Phương pháp này dựa trên mô hình thống kê. Dựa vào dữ liệu gốc, người ta tính tần suất xuất hiện các hệ số. Việc tính tần suất được thực hiện bằng cách duyệt tuần tự từ đầu khối đến cuối khối, sau đó, những hệ số có tần suất cao được gắn cho một từ mã ngắn, các hệ số có tần suất thấp được gán một từ mã dài. Với cách thức này chiều dài trung bình của từ mã đã giảm xuống. Đường ZicZig Các hệ số thu được sau khi lượng tử hoá sẽ được sắp xếp thành một chuỗi các ký hiệu theo kiểu “zig-zag” (theo đường zig-zag) để đặt các hệ số có tần số thấp lên trước các hệ số tần số cao. Các hệ số này sẽ được mã hoá dựa trên bảng mã Huffman sao cho chiều dài trung bình của từ mã là nhỏ nhất. Bảng mã này cũng sẽ được đặt trong phần mào đầu của ảnh để thực hiện giải nén ảnh 2.2 Dự đoán và tổng hợp động Mỗi lớp video bao gồm các đối tượng riêng rẽ . Mỗi đối tượng riêng rẽ ấy gọi là VOP. Khi 1 VOP được tách ra,VOP đó sẽ được đưa vào bộ mã hóa và được thực hiện mã hóa như sau : Hình 2.6 Cấu trúc mã hóa một VOP 2.2.1 Ước lượng chuyển động Nén Mpeg là sự kết hợp hài hoà của bốn kỹ thuật cơ bản: Tiền xử lý (Preprocessing), đoán trước sự chuyển động của các khung hình (Picture) ở bộ mã hoá (Temporal Prediction), bù chuyển động ở bộ giải mã (Motion Compensation) và mã lượng tử hoá (Quatization Coding).Các bộ lọc tiền xử lý sẽ lọc ra những thông tin không cần thiết từ tín hiệu Video và những thông tin khó mã hoá nhưng không quan trọng cho sự cảm nhận của mắt người. Kỹ thuật đoán chuyển động dựa trên nguyên tắc là các khung hình trong một cảnh Video (Video Sequence) dường như có liên quan mật thiết với nhau theo thời gian: Mỗi khung hình tại một thời điểm nhất định sẽ có nhiều khả năng giống với các khung hình đứng ngay phía trước và ngay phía sau nó. Các bộ mã hoá sẽ tiến hành quét lần lượt từng phần nhỏ trong mỗi khung hình gọi là MB, sau đó nó sẽ phát hiện MB nào không thay đổi từ khung hình này tới khung hình khác. Bộ mã hoá sẽ dự đoán trước sự xuất hiện của các MB khi biết vị trí và hướng chuyển động của nó. Do đó chỉ những sự thay đổi giữa các MB trong khung hình hiện tại và các MB được dự đoán mới được truyền tới bên phía thu. Phía bên thu tức bộ giải mã đã lưu trữ sẵn những thông tin mà không thay đổi từ khung hình này tới khung hình khác trong bộ nhớ đệm của nó và chúng được dùng để điền thêm một cách đều đặn vào các vị trí trống trong ảnh được khôi phục. Nén tín hiệu Video được thực hiện nhờ việc loại bỏ cả sự dư thừa về không gian (Spatial Coding) và thời gian (Temporal Coding). Trong Mpeg, việc loại bỏ dư thừa về thời gian (nén liên khung hình) được thực hiện trước hết nhờ sử dụng các tính chất giống nhau giữa các khung hình liên tiếp (Inter-Picture). Chúng ta có thể sử dụng tính chất này để tạo ra các khung hình mới nhờ vào những thông tin từ những khung hình đã gửi trước nó. Do vậy ở phía bộ mã hoá, chỉ cần gửi những khung hình có thay đổi so với những khung hình trước, sau đó dùng phương pháp nén về không gian (Spatial Coding) để loại bỏ sự dư thừa về không gian trong chính khung hình sai khác này. Nén về không gian dựa trên nguyên tắc là phát hiện sự giống nhau của các điểm ảnh (pixel) lân cận nhau (Intra-Picture). 2.2.2 Kỹ thuật đệm Kỹ thuật đệm một hình ảnh sẽ được thực hiện lặp đi lặp lại trên VOP để thực hiện việc dự đoán chuyển động và bù chuyển động. Mục đích của kỹ thuật này là để điều chỉnh tốc độ của luồng video mã hóa hay điều chỉnh tốc độ nén video. 2.2.3 Kỹ thuật chuyển động cơ bản MPEG-4 sử dụng một số kỹ thuật tượng tự như ITU-T.263 để mã hóa dữ liệu chuyển động. Các khái niệm về kỹ thuật chuyển động cơ bản sẽ được trình bày ở các mục dưới đây: 2.2.3.1 Kỹ thuật thay đổi từng khối thích ứng với cấu trúc đa cạnh của VOP Các hình chữ nhật có chứa các VOP được mở rộng về bên phải và phía dưới cùng theo bội số của kích thước MB. Kích cỡ của hình chữ nhật cho độ chói VOP là bội số của 16x16, và kích thước cho màu là bội số của 8x8. Các giá trị alpha của các điểm ảnh mở rộng (ví dụ như bên ngoài ranh giới của VOP) được thiết lập là rỗng. Các MB được hình thành bởi các phân vùng mở rộng ranh giới của khối hình chữ nhật 16 x 16. Trong quá trình dự đoán chuyển động, giá trị SAD (tổng sự khác nhau tuyệt đối của các điểm ảnh) được sử dụng như 1 công cụ để tìm ra độ sai lệch .Việc xây dựng lại các anpha Plane của VOP có sử dụng cả các điểm ảnh của các MB mà chúng nằm ngoài VOP.Giá trị. SAD chỉ được tính cho các điểm ảnh có giá trị khác 0 . Công thức này được áp dụng cả với các MB thuộc đường biên của VOP. Kỹ thuật này được áp dụng như trong hình 2.7 Hình 2.7 : Kỹ thuật thay đổi từng khối thích ứng với cấu trúc đa cạnh của VOP 2.2.3.2 Ước lượng chuyển động của điểm ảnh Việc tìm kiếm sự thay đổi về thành phần độ sáng ( theo phương Y ) được thực hiện hiệu quả khi ta tìm kiếm trên 1 số nguyên điểm ảnh.Việc so sánh được diễn ra giữa MB hiện tại với MB đã bị thay thế trước đó.Việc tìm kiếm được thực hiện trong một cửa sổ có độ rộng lên tới ± 31,5 pixel theo cả phương ngang và phương thẳng đứng quanh vị trí MB ban đầu. Hình 2.8 : cửa sổ mở rộng cho việc tìm kiếm sự thay đổi theo phương Y Từ đó ta tính được SAD như sau: Trong đó SADN(x,y) là giá trị SAD của MB tại tọa độ (x , y) Original: là giá trị điểm ảnh ij hiện tại Previous: là giá trị điểm ảnh ij trước đó đã bị thay thế !(Alphaoriginal=0) : là một hệ số khác 0 Trong miền không gian mở rộng tìm kiếm,những nơi mà (x,y) lên tới lên ± 31,5 pixel với N =16 hoặc 8 . để ưu tiên cho vector rỗng khi không có sự khác biệt thì véc tơ rỗng SAD (0, 0) được sử dụng theo công thức với NB là số chỉ số của MB bên trong các VOP. Cặp kết quả (x,y) thấp nhất trong SAD16 được chọn như 16x16 điểm ảnh nguyên của MV , V0. Trong chế độ nâng cao chất lượng dự đoán chuyển động . 4 MVs 8x8 đại diện cho mỗi 16x16 MB. Các SAD 8x8 cho MB sẽ được tính như sau : Với 0 < k < 4 là số khối 8 x 8 của mỗi MB nằm bên trong các VOP 2.2.3.3 chế độ INTRA / INTER Khi dự đoán chuyển động của các điểm ảnh được hoàn thành . những người làm nhiệm vụ mã hóa sẽ quyết định sẽ sử dụng chế độ INTRA hoặc chế độ INTER . Ta có: Nếu A< (SADinter – 2NB) thì sẽ sử dụng chế độ INTRA Nếu chế độ INTRA được chọn , thì tìm kiếm chuyển động sẽ được thực hiện với một nửa điểm ảnh xung quanh vị trí V0. 2.2.3.4 Tìm kiếm nửa điểm ảnh Tìm kiếm nửa điểm ảnh được thực hiện bằng cách dựng lại các VOP cho 16x16 vectors hoặc 8x8 vectors. Việc tìm kiếm được thực hiện các phần của MB trong phạm vi ±1 pixel xung quanh các ma trận có số điểm là V0, V1, V2, V3, V4. giá trị của nửa pixel tìm được bằng cách sử dụng phép nội suy được diễn tả trong hình sau : Hình 2.9 : Tìm kiếm giá trị nửa điểm ảnh bằng phép nội suy Kết quả tìm kiếm vector từ nửa điểm ảnh bao gồm các thành phần theo chiều ngang và chiều dọc ( MVx,MVy) , cả 2 thành phần ngang và dọc đều được đo trong đơn vị nửa pixel. 2.2.3.5 Dự đoán MV Khi chế độ INTER được chọn , các MVs sẽ được truyền , các thành phần ngang và dọc của MV sẽ được mã hóa khác nhau bằng cách sử dụng một không gian lân cận của 3 MV dự đoán được đề cử . Tại biên của các VOP hiện tại sẽ được áp dụng một số quy tắc sau : 1- nếu MB của một và chỉ một bộ dự báo được đặt ở bên ngoài VOP, thì sẽ được đặt là 0 2- nếu MBs của hai và chỉ hai bộ dự báo được đặt ở bên ngoài VOP thì chúng sẽ được đặt tới bộ dự báo thứ 3 3- nếu MBs của cả 3 bộ dự báo được đặt ở bên ngoài VOP thì chúng sẽ được đặt là 0 2.2.3.6 Chế độ vector chuyển động không giới hạn Chế độ vector chuyển động không giới hạn cho phép các MVs đặt ở bên ngoài VOP để nâng cao chất lượng dự đoán chuyển động. trong kỹ thuật này VOP được mở rộng thêm 32 pixel về 4 phía và kĩ thuật đệm cũng được sử dụng lặp đi lặp lại trên các VOP. Hình 2.10 : Dự đoán thành phần MV trong chế độ dự đoán nâng cao Chế độ vecto chuyển động không giới hạn được thực hiện theo 3 bước sau Bước 1 : các khung hình của VOP được mở rộng them 32pixel trong cả 4 hướng và giá trị của những điểm mở rộng được đặt là 0 Bước 2 : việc mở rộng thêm được thực hiện bằng cách sử dụng lặp đi lặp lại kĩ thuật đệm Bước 3 : việc sửa đổi từng khối để phù hợp với cấu trúc đa cạnh của VOP được diễn tả trong phần 2.3.1 được áp dụng để tính những vector chuyển động. 2.2.3.7 Chế độ nâng cao chất lượng dự đoán Chế độ này cho phép 4MVs mã hóa cho mỗi MB trong một VOP. Khi 4 MVs được thực hiện , vector cho mỗi khối 8x8 của độ chói sẽ được truyền đi. Bộ dự báo cho mỗi MB được diễn tả trong hình 2.10 như trên. 2.3 Mã hóa cấu trúc . Hinh 2.11 : Mã hóa khung hình trong MPEG-4 Các VOP được chia thành các khối macroblock (MBs) có 3 cách thức xuất hiện MBs như hình trên. MBs nằm bên trong VOP,MBs nằm trên biên của VOP,và MBs nằm hoàn toàn bên ngoài VOP nhưng ở trong khung hình chữ nhật giới hạn. MBs nằm hoàn toàn bên trong VOP được thực hiện mã hóa với kỹ thuật sử dụng biến đổi DTC và lượng tử hóa như trên. MBs mà nằm trên ranh giới của VOP việc đầu tiên là xác định các điểm ảnh nằm bên ngoài VOP nhưng bên trong hình chữ nhật giới hạn, tất cả các thiết lập về 0, và sau đó mã hóa một cách chính xác giống như các MBs nằm bên trong các VOP. MBs mà nằm ngoài VOP nhưng nằm bên trong hình chữ nhật giới hạn được bỏ qua sự mã hóa 2.4 Giải mã MPEG-4 VOP Một khối biểu đồ giải mã thông thường của các VOP được thể hiện trong hình 2.13. Các mạch giải mã bao gồm chủ yếu hai phần chính: giải mã hình ảnh , và giải mã chuyển động. Các VOP được khôi phục thu được bởi sự kết hợp về hình dáng, kết cấu và thông tin di động. Sự giống nhau của kỹ thuật giải mã là áp dụng khi tất cả các VOPs là của một phiên bản. Các VOPs khôi phục trộn lẫn với nhau sau đó được sắp xếp lại theo trình tự quy định của VOP, các thành phần được tổng hợp lại để xây dựng lên video khung tổng hợp của các chuỗi. Hình 2.12 : Cấu trúc giải mã VOP 2.5 Mã hóa theo lớp video MPEG-4 cho phép mã hóa nhiều lớp của video. Những bit nén của VOP trong chuỗi video bao gồm một số lớp, bao gồm các lớp cơ sở và một số (1 hoặc nhiều hơn) về lớp tăng cường. Các lớp cơ sở là rất cần thiết cho tái tạo lại các đoạn video, trong khi lớp tăng cường đóng góp vào nâng cao chất lượng tại các bít bổ xung. Các tỉ lệ nén của lớp tăng cường là sự kết hợp giữa hiệu quả mã hóa và chất lượng video. Tính hữu dụng của mã hóa đa lớp được sản xuất trong một đoạn video mở rộng. Nếu các kênh có thể xử lý theo tốc độ cao, nhiều lớp tăng cường được sử dụng để cải thiện chất lượng dịch vụ. Ngược lại, trong tình huống như nghẽn mạng lưới liên kết, chỉ có các cơ sở là lớp truyền để tránh nghẽn mạng và đảm bảo tối đa chất lượng của video có thể thực hiện được. Các lớp nâng cao được hình thành bởi các dự đoán bỏ qua các khung của chuỗi từ các mã lớp cơ sở, thông thường người ta sử dụng lượng tử hóa Tuy nhiên, chỉ có mã hóa lớp cơ sở thì sự giảm bit với một tỷ lệ không đáng kể. Điều này nghĩa là đối với giới hạn băng thông của các kênh hoặc sự nghẽn mạng khi quá trình truyền bit thấp, các lớp tăng cường có thể bỏ qua mà không gây thiệt hại nghiêm trọng đến khôi phục chất lượng hình ảnh. 2.6 Đánh giá hiệu quả Như ta đã biết , MPEG-4 mã hóa video theo định hướng đối tượng, mỗi VOP được phát hiện trong một khung xem như là một tổ chức được mã hóa riêng biệt. MPEG-4 sử dụng kỹ thuật chất lượng nâng cao như dự đoán 1/2 điểm ảnh chuyển động, những dự đoán cao cấp và các chế độ véc tơ chuyển động không bị giới hạn. Vì vậy,chúng ta sẽ kết luận rằng các cơ sở mã hóa video MPEG-4 cho kết quả dự đoán tương tự chất lượng có được cung cấp bởi H.263. Lượng tử hóa theo mức được giữ cố định trong suốt quá trình mã hóa để sản xuất một video chất lượng. Tuy nhiên, nếu quá trình mã hóa là cần thiết để đạt được một tốc độ bit nhất định, các nhà giải thuật áp dụng các quy định để đáp ứng các thuật toán trước khi xác định tốc độ bit. Số lượng tham số cao (Qp) khung bỏ qua và chuyển động được dự đoán chỉ có một số kỹ thuật được sử dụng để mã hóa chuỗi video theo một tỷ lệ cố định. Hình 2.14 cho thấy chất lượng đạt được của bộ mã hóa video MPEG-4 cở sở khi mã hóa các chuỗi ở 3 tốc độ bit khác nhau. Nâng cao chất lượng dự báo và không bị giới hạn véc tơ chuyển động, cả hai chế độ này đều được sử dụng. Chất lượng có thể so sánh được với ITU-T H.263 .Hình 2.15 mô tả các chất lượng đạt được của cả hai chuẩn H.263 và MPEG-4 tại tốc độ 64 kbit / s. Mặt khác,sử dụng đối tượng theo định hướng khả năng của MPEG-4 yêu cầu mã hóa các đường viền của mỗi VOP. Hình 2.16 cho thấy mặt trước hình dạng đối tượng (tàu) của tàu. Bằng cách sử dụng các alpha plane của VOP này, con tàu tách từng đoạn ra khỏi chuỗi và hình dạng của nó bằng cách sử dụng mã nhị phân mã hóa hình dạng và các kỹ thuật tương ứng. Phía sau là mã hóa VOP độc lập bằng cách sử dụng các alpha plane khác nhau (phân chia tập tin) và cả hai đối tượng sau đó được giải mã và để sản xuất các chuỗi khôi phục tại bộ giải mã. Hình 2.13 : Chất lượng đạt được của mã hóa video MPEG-4 cở sở khi mã hóa các Suzie chuỗi ở 3 tốc độ bit khác nhau (a) 128 kbit/s (b) 64kbit/s (c) 32kbit/s Hình 2.14: Chất lượng đạt được của cả hai H.263 và MPEG-4 tại tốc độ 128 kbit / s (a )baseline MPEG-4 (b) H263 Hình 2.15 : Cận cảnh đối tượng (a) ban đầu (b) mã hóa với bộ mã MPEG-4 ở tốc độ 20kbit/s và 25 VOP/s 2.7 Điều khiển tốc độ Các MPEG-4 Visual H.264 standards phụ thuộc vào mỗi khung video hoặc đối tượng để được xử lý trong các đơn vị của một macroblock. Nếu việc điều khiển các thông số của một video mã hóa được giữ nguyên (ví dụ, dự đoán khu vực tìm kiếm chuyển động , kích thước không gian lượng tử hóa, vv), sau đó số lượng các bít mã hóa cho mỗi macroblock sẽ thay đổi tùy thuộc vào nội dung của các khung video , gây ra tốc độ bit ở đầu ra của bộ mã hóa ( bit / giây). Thông thường, một bộ mã với các thông số cố định sẽ đưa ra nhiều bit hơn, khi đó là chuyển động ở mức cao / hoặc các chi tiết ở đầu vào là chuỗi bít ngắn., khi đó là chuyển động chậm. Hình 2.17 cho thấy một ví dụ về những biến đổi ở đầu ra , tốc độ bít được đưa ra bởi một chuỗi mã hóa (25 khung / giây) bằng cách sử dụng một bộ mã hóa MPEG-4 đơn giản, với một bộ lượng tử hóa. Đầu tiên khung được mã hóa là một I-VOP và các khung tiếp theo được mã hóa như P-VOPs. Số lượng các bít mã hóa cho P-VOP khác nhau giữa 1300 và 9000 (tương đương một tốc độ bit từ 32-225 kbits / giây). Hình 2.16 : Giá trị tỷ lệ bit ( profile MPEG-4 đơn) Hình 2.17 : Đầu ra của bộ giải mã và đầu vào của bộ đệm mã hóa Sự thay đổi tốc độ bit này có thể là một vấn đề đối với việc tiến hành phân phối và lưu trữ. Ví dụ, một kênh Bitrate (chẳng hạn như là một mạch phân kênh) có thể không truyền được sự thay đổi của tốc độ bit của dòng dữ liệu. Một gói-chuyển mạng có thể hỗ trợ thông qua các tốc khác nhau nhưng có nghĩa là thông qua tại bất kỳ điểm nào trong thời gian bị giới hản bởi các yếu tố như tốc độ liên kết và tắc nghẽn. Trong những trường hợp này là cần thiết để điều chỉnh tốc độ của bít được đưa ra bởi một bộ mã hóa video để phù hợp với tốc độ bit của các chế độ truyền tải. Đĩa CD-ROM và DVD có một phương tiện truyền thông cố định và khả năng lưu trữ là cần thiết để điều khiển tốc độ của một chuỗi video mã hóa (ví dụ, một bộ phim được lưu trữ trong đĩa DVD-Video) để phù hợp với khả năng của các phương tiện truyền thông. Tốc độ của các dữ liệu khác nhau được đưa ra bởi một bộ mã có thể được sắp xếp bởi bộ đệm để mã hóa dữ liệu trước khi truyền. Hình 2.18 cho thấy một cách sắp xếp, trong đó sự thay đổi của bitrate ở đầu ra của bộ mã hóa là để thông qua một 'đầu vào / đầu ra "(FIFO) của bộ đệm. bộ đệm này rỗng tại một bitrate cố định đó là phù hợp với công suất kênh. FIFO khác được đặt ở đầu vào bộ giải mã và được điền vào kênh Bitrate bởi bộ giải mã tại một biến Bitrate (từ khi bộ giải mã lấy ra P bit để giải mã cho mỗi khung và P thay đổi). Một biến mã Bitrate có thể được điều chỉnh phù hợp cho một Bitrate trung bình không đổi bằng cách sử dụng bộ mã hóa và bộ giải mã đệm. Tuy nhiên, điều này được sửa đổi phù hợp với bộ đệm không gian lưu trữ và sự chậm trễ và sự rộng lớn các biến Bitrate,. Hơn nữa, không thể để đối phó với một sự thay đổi bất kì trong Bitrate bằng cách sử dụng phương pháp này, trừ khi kích thước bộ đệm và sự trễ giải mã được đặt tại một mức cao ( không thực tế). Nó thường cần thiết để triển khai thực hiện kỹ thuật điều khiển bộ mã hóa đầu ra Bitrate để ngăn không cho bộ đệm từ trên hay dưới. Hình 2.18 : Ví dụ của 1 bộ đệm (mã hóa, kênh dẫn bit 100kbps) Thông qua các tốc độ khác nhau từ các kênh cũng có thể được xử lý bằng cách sử dụng một bộ đệm giải mã. Ví dụ, một kỹ thuật được sử dụng rộng rãi-cho hình ảnh truyền qua mạng IP là giải mã cho bộ đệm vào một vài giây của dữ liệu được mã hóa trước khi bắt đầu giải mã. Nếu lưu lượng dữ liệu bị giảm tạm thời (ví dụ do mạng bị tắc nghẽn) sau đó có thể tiếp tục giải mã miễn là dữ liệu vẫn còn trong bộ đệm. Hình 2.19 : giải mã nội dung bộ đệm cho kênh 100kbit/s Hình 2.20 : Ví dụ của 1 bộ đệm (giải mã, kênh dẫn bit 1000kbps Điều khiển tốc độ liên quan đến việc sửa đổi các tham số mã hóa để duy trì mục tiêu tốc độ bit ở đầu ra. Nhất là tham số để thay đổi các tham số lượng tử hóa hoặc kích thước từ khi (QP) tăng dần, và giảm mã Bitrate (ở sự tiêu hao của bộ giải mã chất lượng thấp hơn) và ngược lại. Một phương pháp gần như để điều khiển tốc độ để sửa đổi trong thời gian mã hóa để QP (a) duy trì một mục tiêu Bitrate (hoặc có nghĩa là Bitrate) và (b) giảm thiểu bóp méo trong chuỗi giải mã. Tối ưu hóa các tradeoff giữa các Bitrate và chất lượng là một công việc đầy thử thách và nhiều phương pháp tiếp cận khác nhau và các thuật toán được đưa ra và thực hiện. Sự lựa chọn của thuật toán điều khiển tốc độ phụ thuộc vào bản chất của các ứng dụng của video, ví dụ: Bộ mã của đoạn video cho việc lưu trữ trên một đĩa DVD. Thời gian xử lý không phải là sự nén đặc biệt và đó là một thuật toán phức tạp có thể được sử dụng. Mục đích là để "phù hợp với 'một chuỗi video nén vào một dung lượng có sẵn trong khi tăng chất lượng hình ảnh và đảm bảo rằng các bộ giải mã đệm của một đầu DVD overflow hay underflow trong giải mã. Hai bộ mã hóa (trong đó có bộ mã thu thập số liệu thống kê về những đoạn video đầu tiên trong một chuỗi và sau đó thực hiện mã hóa trong một lần thứ hai ) là một lựa chọn tốt trong trường hợp này. Mã hóa các video trực tiếp cho các chương trình có trong một chương trình phát thanh .một quá trình phát thanh có một bộ mã hóa và nhiều bộ giải mã; bộ giải mã chế biến và bộ đệm được giới hạn trong khi mã hóa có thể được thực hiện tốn kém,. Sự trễ trong một vài giây thường là có thể chấp nhận và do đó có phạm vi cho một thuật toán điều khiển tốc độ khá phức tạp, có thể kết hợp hai bộ mã của mỗi khung. Mã hóa cho video hội nghị 2 chiều. Mỗi đầu thực hiện cả hai loại mã hóa trong đó mã hóa và điều chế năng lượng có thể được hạn chế. Sự chậm trễ phải được giữ đến mức tối thiểu (lý tưởng thường ít hơn khoảng 0,5 giây từ khung chụp tại bộ mã hóa để hiển thị ở bộ giải mã). Trong kịch bản một thuật toán điều khiển tốc độ là thích hợp. mã hóa và giải mã đệm nên được giảm thiểu (để giữ cho sự chậm trễ nhỏ) và vì vậy bộ mã hóa phải điều khiển chặt chẽ tốc độ ở đầu ra. Điều này lần lượt có thể gây ra chất lượng giải mã video thay đổi đáng kể, ví dụ như nó có thể giảm đáng kể khi có một sự tăng thêm trong chi tiết trong video cảnh. Lưu ý: H.264 (hiện nay) không chỉ rõ hoặc đề nghị một thuật toán điều khiển tốc độ (tuy nhiên, một đề xuất H.264 cho điều khiển chuyển động được diễn tả trong). MPEG-4 Visual mô tả một thuật toán có thể điều khiển chuyển động (tức là sử dụng các thuật toán không phải là bắt buộc). Thuật toán này, được gọi là điều khiển tốc độ mở rộng (SRC) chương trình, phù hợp cho một đối tượng của video và một loạt các bit chuyển động,. sự cố gắng điều khiển tốc độ mở rộng để đạt được một mục tiêu bít chuyển động trên một số khung hình nhất định (một phân đoạn của các khung, thường bắt đầu với một I-VOP) và giả sử công thức sau đây cho bộ mã hóa tốc độ R: Q là bước lượng tử hóa kích thước, S là sự khác biệt tuyệt đối của khung sau khi dự đoán chuyển động (một biện pháp cho khung hình phức tạp) và X1, X2 là các tham số. Điều khiển tốc độ bao gồm các bước sau được thực hiện sau khi dự đoán chuyển động và trước khi mã hóa của mỗi khung i: Tính toán một mục tiêu bit chuyển động Ri, dựa trên số khung trong phân đoạn, số lượng bit sẵn có để dùng cho phần còn lại của các phân đoạn, tối đa có thể chấp nhận bộ đệm nội dung và các ước tính phức tạp của khung i. (Kích cỡ tối đa bộ đệm ảnh hưởng đến sự trễ ở đầu vào mã hóa và đầu vào bộ giải mã. Nếu khung hình phía trước phức tạp , nó là giả định rằng các khung hình tiếp theo sẽ phức tạp và do đó được cấp một số lượng bit phù hợp: các thuật toán cố gắng để cân bằng yêu cầu này so với tổng số giới hạn về số lượng bit dành cho 1 phân đoạn.) Tính toán của các bước lượng tử hóa kích thước Qi (sẽ được áp dụng cho toàn bộ khung hình). Tính toán S cho hoàn thành dư khung và giải quyết chương trình (7,10) để tìm Q. Mã hóa khung Cập nhật những tham số X1, X2 dựa trên thực tế số lượng bit để tạo ra khung i. Các thuật toán SRC nhằm mục đích đạt được một mục tiêu trên một tốc độ bit, một phân đoạn của khung hình (chứ không phải là một chuỗi của chiều dài bất kì) và không kéo dài các bước lượng tử hóa trong một khung mã hóa, đưa ra một hình thức trực quan thống nhất trong mỗi khung, nhưng làm cho nó khó giữ được bộ đệm có kích thước nhỏ và qua đó là một sự chậm trễ thấp. mở rộng cho một SRC hỗ trợ sự kéo dài của các bước lượng tử hóa các kích thước macroblock và phù hợp cho sự chậm trễ thấp cho các ứng dụng đòi hỏi điều khiển tốc độ chặt chẽ. Các cấp độ thuật toán maccroblock được dựa trên một mô hình cho số lượng bit Bi yêu cầu để mã hoá macroblock i, Công thức Trong đó A là số các điểm ảnh trong một maccroblock , σi là sai số tiêu chuẩn của độ chói và độ màu sắc trong phần còn lại của maccroblock . Qi là bước lượng tử hóa kích thước , và K, C là các tham số cố định của công thức . các bước sau đây được thực hiện cho maccroblock thứ I : 1) đo σi 2) tính toán Qi dựa trên B, K, C, σi và maccroblock αi 3) mã hóa các macroblock 4) cập nhật các thông số K , C dựa trên số mã bít thực tế được đưa ra cho macroblock Chương 3 : Ứng dụng 3.1 IP TV - Internet Protocol TV là cuộc cách mạng về truyền thông truyền hình, được coi là công nghệ truyền hình thế hệ thứ 3 (sau truyền hình analog và truyền hình số),là dịch vụ truyền hình số được truyền theo giao thức internet (IP) qua các mạng dữ liệu (data networks) thường là internet băng thông rộng. Nói rộng hơn IPTV là dịch vụ giá trị gia tăng sử dụng mạng băng rộng IP phục vụ cho nhiều người dùng (user). Các user có thể thông qua máy vi tính PC hoặc máy thu hình phổ thông cộng với hộp phối ghép set topbox để sử dụng dịch vụ IPTV. Người sử dụng (user hoặc viewer) có thể tự do lựa chọn chương trình TV của mạng IP băng rộng. Với ý nghĩa đúng của phương tiện truyền thông (media) giữa server và user. - IP TV có các ưu điểm : + Sử dùng dễ dàng, hiển thị trên tivi hiệu quả cao hơn màn máy vi tính thao tác trên hộp ghép nối và bàn phím đơn giản, thực hiện chuyển đổi nhanh luồng cao tốc/chương trình + Dễ quản lý, dễ khống chế, sử dụng hộp kết nối làm đầu cuối nhà cung cấp dịch vụ để tiến hành định chế đối với hộp kết nối không cần đến nghiệp vụ an toàn và kiểm tra chất lượng. Đây cũng là cơ sở kỹ thuật để dễ thu phí Với những ưu điểm nổi bật trên tốc độ phát triển của IP TV ngày càng mở rộng với tỉ lệ người sử dụng được thống kê trong năm 2007 như sau : Ngày 20/4/2007 New MRG dự báo có 63,5 triệu người đăng ký sử dụng IPTV vào năm 2011 ở Châu Âu, Châu Á và Nam Mỹ. Tháng 3/2007 dịch vụ IPTV được truyền trên cáp quang đến tận nhà (FTTH - Fible to the Home) ở Switzerland. Ngày 27/3/2007: IPTV được triển khai ở Demark và có khoảng 35.000 người đăng ký sử dụng. Ngày 16/4/2007 Kosenna, HP và Intel có 1 triệu người đăngký sử dụng IPTV và VoD. Ngày 4/5/2007: Nokia, Simens network ký hợp đồng phát triển IPTV ở Ba Lan; Bồ Đào Nha và Croatia chọn công nghệ của Copper Gate Communication cho dịch vụ IPTV. V.v… Tình hình phát triển dịch vụ IPTV tại Việt Nam: Tại Việt Nam, hiện có nhiều nhà khai thác dịch vụ viễn thông lớn đang cạnh tranh nhau nhằm cung cấp cho khách hàng các dịch vụ băng rộng với chất lượng cao và giá rẻ. Họ cũng đã nhận ra xu hướng phát triển của truyền hình trực tuyến và video theo yêu cầu, và đang có những bước đi mạnh mẽ. Một số Website cung cấp thử nghiệm các chuơng trình truyền hình trực tuyến của VietNamNet, Công ty VTC, Đài truyền hình thành phố Hồ Chí Minh đã ghi nhận số lượng truy cập rất lớn, cho thấy sức hấp dẫn của dịch vụ này đối với công chúng. Tuy nhiên, cho đến nay tại Việt Nam mới chỉ có FPT Telecom là doanh nghiệp viễn thông đầu tiên chính thức khai thác và cung cấp dịch vụ IPTV trên hệ thống mạng băng rộng ADSL/ADSL2+ từ ngày 03/03/2006 sau một năm thử nghiệm và hiện tại đã có 500 khách hàng thử nghiệm đầu tiên. FPT Telecom đã mua các thiết bị nhận sóng từ vệ tinh để truyền trên mạng và cũng đã ký kết bản quyền từ VTV và HTV để phát sóng 32 kênh truyền hình trên Internet để phục vụ cho các khách hàng của FPT. Hiện FPT đang tìm kiếm các phương thức hợp tác tương tự như với VTC để có thêm một số kênh phim truyện của đài này. Với  một thuê bao ADSL 2+ của FPT, khách hàng có thể xem một lúc 3 kênh truyền hình đồng thời. Hiện FPT đang có gần 100.000 thuê bao ADSL, FPT sẽ cung cấp dịch vụ giá trị gia tăng IPTV cho các khách hàng này. Ngoài FPT, các doanh nghiệp khác như VNPT, Viettel cũng đang chuẩn bị cho quá trình triển khai dịch vụ IPTV trên mạng băng rộng. 3.2 Video yêu cầu Video yêu cầu là 1 dịch vụ của IP TV. Phát triển trên công nghệ mới nhất IPTV, EOD khai thác hiệu quả mạng truyền thông băng rộng và mang lại lợi ích cao nhất cho nhà cung cấp dịch vụ bằng cách cung cấp các dịch vụ giải trí đa phương tiện. Giải pháp tổng thể cho cả ba loại hình dịch vụ: Giải trí, Điện thoại, truy cập Internet qua TV. Dễ dàng và linh hoạt tùy biến, thêm bớt, bổ sung các dịch vụ khác theo nhu cầu và mô hình kinh doanh của khách hàng. Các công cụ, chức năng và giao diện quản lý chuyên nghiệp giúp đơn giản hóa các hoạt động vận hành hệ thống. Công nghệ nén MPEG kết hợp công nghệ lưu trữ Raid, Network tạo ra khả năng cung cấp hàng nghìn giờ phim chất lượng cao tương đương DVD. Hoạt động tốt trên nhiều giải pháp mạng khác nhau: Ethernet, Cable TV, ATM, ISDN, xDSL, Fiber. Lợi ích của video yêu cầu : • Mở ra những tiềm năng kinh doanh và lợi tức mới cho nhà cung cấp dịch vụ. • Thay thế các công nghệ truyền hình giải trí cũ đã và đang dần lỗi. • Khai thác và tận dụng triệt để tiềm năng của các mạng truyền thông băng rộng (Cable TV, ISDN, xDSL, Fiber...). • Tối ưu hóa lợi ích cho từng mô hình kinh doanh khác nhau giúp tạo ra giá trị lớn nhất, với chi phí nhỏ nhất cho nhà cung cấp dịch vụ • Chi phí đầu tư thấp hơn nhiều so với mua các hệ thống tương tự trên thế giới. • Nhà cung cấp nội dung (Content Provider) hưởng lợi rất lớn từ việc bán contents cho nhà cung cấp dịch vụ. • Các nhà cung cấp dịch vụ truyền thông, internet và sản phẩm đầu cuối được hưởng lợi ích từ các giá trị gia tăng trên dịch vụ của mình. • Các dịch vụ phát triển trên nền EOD Dịch vụ VOD: Truyền hình theo yêu cầu • Dịch vụ BroadcastTV: Kết nối các kênh truyền hình số, cáp, vệ tinh. • Dịch vụ Web/MailTV: Duyệt Web, check Mail qua TV. • Dịch vụ Home Shopping, Home Banking: Giao dịch Thương mại điện tử, thanh toán qua TV. • Dịch vụ E-Learning, D-Learning: Tham gia các chương trình đào tạo, huấn luyện trực tuyến và từ xa qua TV. • Dịch vụ truyền thông: IP Phone,Video Conferencing, Chatting, SMS,... Gọi điện thoại, tham gia hội thảo, chatting hay gửi tin nhắn qua TV. 3.3 Mobile TV Mobile TV là giải pháp tổng thể cho cả ba loại hình dịch vụ: Giải trí, Điện thoại, truy cập Internet qua TV. Bằng cách sử dụng công nghệ nén MPEG kết hợp công nghệ lưu trữ Raid, Network tạo ra khả năng cung cấp hàng nghìn giờ phim chất lượng cao tương đương DVD. Mobile ra đời đã thay thế cho các công nghệ truyền hình giải trí cũ đã và đang dần lỗi với các lơi ích như : • Khai thác và tận dụng triệt để tiềm năng của các mạng truyền thông băng rộng (Cable TV, ISDN, xDSL, Fiber...). • Tối ưu hóa lợi ích cho từng mô hình kinh doanh khác nhau giúp tạo ra giá trị lớn nhất, với chi phí nhỏ nhất cho nhà cung cấp dịch vụ • Chi phí đầu tư thấp hơn nhiều so với mua các hệ thống tương tự trên thế giới. • Nhà cung cấp nội dung (Content Provider) hưởng lợi rất lớn từ việc bán contents cho nhà cung cấp dịch vụ. • Các nhà cung cấp dịch vụ truyền thông, internet và sản phẩm đầu cuối được hưởng lợi ích từ các giá trị gia tăng trên dịch vụ của mình. • Các dịch vụ phát triển trên nền EOD • Dịch vụ VOD: Truyền hình theo yêu cầu • Dịch vụ BroadcastTV: Kết nối các kênh truyền hình số, cáp, vệ tinh. • Dịch vụ Web/MailTV: Duyệt Web, check Mail qua TV. • Dịch vụ Home Shopping, Home Banking: Giao dịch Thương mại điện tử, thanh toán qua TV. • Dịch vụ E-Learning, D-Learning: Tham gia các chương trình đào tạo, huấn luyện trực tuyến và từ xa qua TV • Dịch vụ truyền thông: IP Phone,Video Conferencing, Chatting, SMS,... Gọi điện thoại, tham gia hội thảo, chatting hay gửi tin nhắn qua TV. Ericsson là nhà sản xuất thiết bị viễn thông đi tiên phong trong lĩnh vực Mobile TV, hãng này cung cấp những giải pháp toàn diện từ đầu tới cuối (end to end) như: khởi tạo dịch vụ, tích hợp, hệ thống nội dung cho khách hàng và sản xuất thiết bị đầu cuối. S-Fone – mạng ĐTDĐ CDMA đầu tiên của Việt Nam đã triển khai dịch vụ TV trên ĐTDĐ vào quí 4/2006. Sự kiện đã thu hút sự chú ý của đông đảo người dùng bởi những lợi ích cũng như tính di động của dịch vụ. Tuy nhiên tính đến thời điểm này, rất ít người sử dụng dịch vụ này. Những nguyên nhân khiến Mobile TV của S-Fone chưa phổ dụng tại Việt Nam có thể dễ dàng nhận thấy: chính sách cước chưa hợp lý với người dùng Việt Nam và cách tính cước quá phức tạp; chỉ có 1 model ĐTDĐ sử dụng được dịch vụ này; chất lượng đường truyền đôi khi không được tốt... Nhưng nguyên nhân chính có lẽ vẫn là giá cước, nhiều người dùng cho rằng với mức cước khoảng 5.000 đồng/phút như hiện nay thì Mobile TV sẽ còn quá xa vời. Thậm chí ngay cả việc S-Fone đã “cải thiện” mức cước này bằng cách phát hành gói cước dữ liệu (chỉ dùng cho dữ liệu không cho thoại) thì cước mobile TV của S-Fone là 1.200 đồng vẫn bị nhiều người cho là quá cao. Nhìn sang Hàn Quốc, một trong những quốc gia mà Mobile TV phổ dụng nhất toàn cầu (dùng công nghệ DMB), người dùng dịch vụ này của SK Telecom (một chủ sở hữu quan trọng của S-Fone) chỉ phải trả cước thuê bao 13 USD (khoảng 200.000 đồng) để xem truyền hình trong 1 tháng mà không phải trả bất cứ khoản tiền nào khác. Nếu so với kết quả 1 cuộc khảo sát được tiến hành bởi Nokia đối với người dùng châu Âu thì kết quả cho thấy 4,90 Euro (cũng khoảng 200.000 đồng) là mức giá mà đa số người được hỏi cho là hợp lý. 3.4 Truyền hình hội nghị Dịch vụ truyền hình hội nghị  (NGN) là dịch vụ truyền dẫn tín hiệu hình ảnh và âm thanh giữa hai hoặc nhiều điểm khác nhau. Dịch vụ cho phép nhiều người tham dự tại các địa điểm có thể trao đổi trực tiếp bằng âm thanh, hình ảnh qua màn hình và loa. Hệ thống Truyền hình Hội nghị NGN còn cung cấp nhiều tiện ích khác cho người sử dụng như: kết nối với máy tính để trình chiếu văn bản, kết nối với hệ thống âm thanh ngoài, các thiết bị lưu trữ (đầu ghi băng từ, đĩa quang VCD, DVD hoặc ổ cứng) để lưu những phiên hội thảo quan trọng. Truyền hình hội nghị có thể được triển khai trên nhiều nền tảng mạng khác nhau như mạng LAN, mạng WAN, mạng chuyển mạch, mạng IP, ATM hay ISDN. Lợi ích của dịch vụ : Với việc sử dụng tiết kiệm băng thông, truyền hình hội nghị NGN mang lại cho khách hàng nhiều loại hình dịch vụ đa dạng với chi phí thấp. Dịch vụ có thể giúp các tổ chức, doanh nghiệp thực hiện các cuộc hội thảo giữa các chi nhánh, văn phòng tại các tỉnh, thành phố khác nhau thông qua màn hình Tivi. Dịch vụ truyền hình hội nghị NGN là công cụ hiệu quả, hữu ích trong công tác đào tạo, giảng dạy hoặc trợ giúp y tế từ xa….như : -Giảm thiểu thời gian đi lại. - Giảm thiểu chi phí đi lại và sinh hoạt. tại một mức cao ( không thực tế). Nó thường cần thiết để triển khai thực hiện kỹ thuật điều khiển bộ mã hóa đầu ra Bitrate để ngăn không cho bộ đệm từ trên hay dưới chảy. - Lưu lại toàn bộ nội dung cuộc họp. - Tận dụng được các cơ sở hạ tầng mạng khác nhau. - Thông tin trong suốt, liên tục và toàn cầu. - Mang lại khả năng ứng biến tức thời và quyết định nhanh chóng, kịp thời. Tại Việt Nam, trong điều kiện nền kinh tế nước ta còn khó khăn, chưa theo kịp các nước phát triển trên thế giới, nguồn ngân sách Nhà nước còn có hạn thì việc sử dụng hội nghị truyền hình sẽ tiết kiệm được một khoản chi phí không nhỏ. Hiện nay, hạ tầng kỹ thuật mạng viễn thông của nước ta đã hoàn toàn cho phép triển khai sử dụng các phương thức hội nghị truyền hình qua ISDN và IP. Tính đến thời điểm hiện nay, ở nước ta đã có một số công ty tham gia khai thác loại dịch vụ đầy tiềm năng này như: Công ty Viễn thông liên tỉnh (VTN), Công ty Viễn thông quốc tế(VTI), Công ty Viễn thông Sài Gòn (Saigon Postel), Công ty Viễn Thông Quân đội(Viettel), Công ty Viễn thông Điện lực (EVN)… Kết luận Đề tài nghiên cứu “phương pháp mã hoá video theo hướng đối tượng trong hệ thống thông tin video nén” đã đạt được một số kết quả sau: Tổng quan về mã hoá video,mục đích của nghiên cứu nén video theo đối tượng là nhằm giảm tối đa dung lượng của đoạn video giúp cho quá trình lưu trữ và truyền dẫn thông tin một cách hiệu quả nhất. Tìm hiểu một cách tổng quan về các chuẩn nén hiện nay,MPEG-4 mã hoá các đối tượng khác nhau trong một khung hình và được truyền đi một cách riêng biệt đến bộ giải mã và sau đó chúng được tổ hợp lại. H.264 cho chất lượng hình ảnh tốt hơn khi có cùng dung lượng với các chuẩn nén khác,H.264 cũng được ứng dụng như thuật nén chính trong video độ phân giải cao. Ưu điểm của kỹ thuật mã hoá video nén theo hướng đối tượng MPEG-4 thể hiện ở tính mềm dẻo,có khả năng nâng cấp, độ chính xác cao ( dự đoán chính xác đến ½ điểm ảnh) và có khả năng tương tác cao,chuẩn nén này có khả năng sử lý các đối tượng có hình dạng bất kỳ. Tìm hiểu công nghệ mã hoá video trong MPEG-4,công việc mã hoá được chia ra mã hoá khung hình,mã hoá các đối tượng (VOP) kèm theo các thông tin chuyển động và mã hoá kết cấu để xử lý dữ liệu bên trong và các dữ liệu còn lại sau khi đã bù chuyển động. Mã hoá khung hình được thực hiện theo trình tự: biến đổi cosin rời rạc (DCT),lượng tử hoá và mã hoá. Mã hoá theo đối tượng (VOP) tập trung đi sâu vào mã hoá VOP, ước lượng chuyển động,bù chuyển động và các kỹ thuật chuyển động cơ bản. Việc tìm kiếm và dự đoán được thực hiện chính xác đến ½ điểm ảnh. Và kỹ thuật điều khiển tốc độ được đưa ra để đảm bảo tỉ lệ nén và tốc độ truyền video. Tìm hiểu về các ứng dụng của MPEG-4 trong IP TV,video theo yêu cầu,mobile TV và ứng dụng trong truyền hình hội nghị Với nhiều tính ưu việt như trên, một hướng đặt ra là: liệu MPEG -4 có thể sử dụng cho việc lưu trữ như MPEG -1 hay dùng trong công nghệ truyền hình số như MPEG -2. Thực tế cho thấy, ngoài các ứng dụng trên môi trường mạng nói chung và truyền hình tương tác nói riêng – theo APB(04/2004)- các Đài Truyền hình Nhật Bản như NHK, TBS, NTV TV Asahi và TV Tokyo đã chính thức chấp nhận đưa chuẩnH264/MPEG Part 10 cho phát sóng số mặt đất, cho thu di động, đây cũng là một khả năng trong những khả năng còn tiềm ẩn trong chuẩn mã hoá và trình diễn video của H264/MPEG Part 10. Do vậy, đề tài này có thể nghiên cứu bước tiếp theo là nghiên cứu ứng dụng H264/MPEG Part 10 cho truyền hình số và cho thu di động hay có thể cải tạo chất lượng truyền hình Internet để đạt được chất lượng hình ảnh tốt như truyền hình số hiện nay. TÀI LIỆU THAM KHẢO [1] Xử lý ảnh Biên soạn : PGS.TS Nguyễn Quang Hoan. Học Viện Công Nghệ Bưu Chính Viễn Thông 2006 [2] Compressed Video Communications Biên soạn : Abdul H. Sadka. Trường đại học Surrey, Guildford UK năm 2002 [3] H.264 and MPEG-4 Iain E.G.Richardson Trường đại học Robert Gordon Aberdeen ,UK năm 2003 [4] Audio & Video số T.S Đỗ Hoàng Tiến, Nhà xuất bản khoa học và kỹ thuật năm 2002 Các trang web tìm và tham khảo tài liệu : ( truyền hình hội nghị) ( IP TV ) ( mobile TV )s

Các file đính kèm theo tài liệu này:

  • docBC1881.doc