Tài liệu Khóa luận Quảng cáo trực tuyến hướng câu truy vấn với sự giúp đỡ của phân tích chủ đề và kỹ thuật tính hạng: Sn d
KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY
Ngành: Công nghệ thông tin
HÀ NỘI - 2009
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Nguyễn Hữu Phương
QUẢNG CÁO TRỰC TUYẾN HƯỚNG CÂU TRUY
VẤN VỚI SỰ GIÚP ĐỠ CỦA PHÂN TÍCH CHỦ ĐỀ
VÀ KỸ THUẬT TÍNH HẠNG
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Nguyễn Hữu Phương
QUẢNG CÁO TRỰC TUYẾN HƯỚNG CÂU TRUY
VẤN VỚI SỰ GIÚP ĐỠ CỦA PHÂN TÍCH CHỦ ĐỀ
VÀ KỸ THUẬT TÍNH HẠNG
KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY
Ngành: Công nghệ thông tin
Cán bộ hướng dẫn: PGS. TS. Hà Quang Thụy
Cán bộ đồng hướng dẫn: CN. Nguyễn Minh Tuấn
HÀ NỘI - 2009
Lời cảm ơn
Trước tiên, tôi xin gửi lời cảm ơn và lòng biết ơn sâu sắc nhất tới Phó Giáo sư Tiến sĩ Hà
Quang Thụy và Cử nhân Nguyễn Minh Tuấn, người đã tận tình chỉ bảo và hướng dẫn tôi
trong suốt quá trình thực hiện khoá luận tốt nghiệp.
Tôi chân thành cảm ơn các thầy, cô đã tạo cho tôi những điều kiện thuận lợi để học tập và
nghiên cứu tại trường Đại Học C...
65 trang |
Chia sẻ: haohao | Lượt xem: 1471 | Lượt tải: 0
Bạn đang xem trước 20 trang mẫu tài liệu Khóa luận Quảng cáo trực tuyến hướng câu truy vấn với sự giúp đỡ của phân tích chủ đề và kỹ thuật tính hạng, để tải tài liệu gốc về máy bạn click vào nút DOWNLOAD ở trên
Sn d
KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY
Ngành: Công nghệ thông tin
HÀ NỘI - 2009
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Nguyễn Hữu Phương
QUẢNG CÁO TRỰC TUYẾN HƯỚNG CÂU TRUY
VẤN VỚI SỰ GIÚP ĐỠ CỦA PHÂN TÍCH CHỦ ĐỀ
VÀ KỸ THUẬT TÍNH HẠNG
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Nguyễn Hữu Phương
QUẢNG CÁO TRỰC TUYẾN HƯỚNG CÂU TRUY
VẤN VỚI SỰ GIÚP ĐỠ CỦA PHÂN TÍCH CHỦ ĐỀ
VÀ KỸ THUẬT TÍNH HẠNG
KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY
Ngành: Công nghệ thông tin
Cán bộ hướng dẫn: PGS. TS. Hà Quang Thụy
Cán bộ đồng hướng dẫn: CN. Nguyễn Minh Tuấn
HÀ NỘI - 2009
Lời cảm ơn
Trước tiên, tôi xin gửi lời cảm ơn và lòng biết ơn sâu sắc nhất tới Phó Giáo sư Tiến sĩ Hà
Quang Thụy và Cử nhân Nguyễn Minh Tuấn, người đã tận tình chỉ bảo và hướng dẫn tôi
trong suốt quá trình thực hiện khoá luận tốt nghiệp.
Tôi chân thành cảm ơn các thầy, cô đã tạo cho tôi những điều kiện thuận lợi để học tập và
nghiên cứu tại trường Đại Học Công Nghệ.
Tôi cũng xin gửi lời cảm ơn tới các anh chị và các bạn sinh viên trong nhóm “Khai phá dữ
liệu” đã giúp đỡ và hỗ trợ tôi rất nhiều về kiến thức chuyên môn và trong việc thu thập dữ
liệu.
Cuối cùng, tôi muốn gửi lời cảm vô hạn tới gia đình và bạn bè, những người thân yêu
luôn bên cạnh và động viên tôi trong suốt quá trình thực hiện khóa luận tốt nghiệp.
Tôi xin chân thành cảm ơn !
Sinh viên
Nguyễn Hữu Phương
Tóm tắt
Quảng cáo trên máy tìm kiếm hiện đang là hình thức quảng cáo thu hút được nhiều
sự chú ý nhất ngày nay, trong đó các quảng cáo được hiển thị bên cạnh kết quả tìm kiếm
theo truy vấn của người dùng. Điều này dẫn đến một bài toán là làm thế nào để hiển thị
những quảng cáo phù hợp nhất với truy vấn.
Khóa luận này tập trung nghiên cứu các phương pháp xếp hạng quảng cáo trên máy
tìm kiếm theo độ phù hợp với truy vấn, đề xuất mô hình quảng cáo sử dụng phân tích chủ
đề ẩn và kĩ thuật tính hạng. Đồng thời đưa ra phương pháp biểu diễn các quảng cáo theo
những đặc trưng mới, đặc trưng về chủ đề ẩn. Tiến hành thực nghiệm dựa trên việc sử
dụng query logs trong xây dựng tập dữ liệu học, mô hình đã khai thác được các thông tin
hữu ích từ hành vi người dùng và đem lại kết quả khá khả quan. Độ chính xác trung bình
của kết quả xếp hạng vào khoảng 82%-84%.
Mục lục
Lời mở đầu....................................................................................................................................... 1
Chương 1. Khái quát về quảng cáo trực tuyến ................................................................................ 3
1.1. Giới thiệu về quảng cáo .................................................................................................... 3
1.2. Quảng cáo trực tuyến ........................................................................................................ 4
1.2.1. Tốc độ tăng trưởng và thị phần .................................................................................. 4
1.2.2. Các hình thức quảng cáo trực tuyến .......................................................................... 5
1.3. Quảng cáo trực tuyến ở Việt Nam .................................................................................... 6
1.3.1. Tổng quan về quảng cáo trực tuyến ở Việt Nam ....................................................... 7
1.3.2. Những tài nguyên chưa được khai thác và thị trường quảng cáo trực tuyến ........... 10
1.4. Quảng cáo thông qua tìm kiếm ....................................................................................... 13
Chương 2. Các phương pháp quảng cáo thông qua tìm kiếm ....................................................... 16
2.1. Mô hình trích xuất từ khóa trong nội dung trang web .................................................... 16
2.2. Mô hình so khớp với tập từ vựng mở rộng (impedance coupling) ................................. 17
2.3. Mô hình tối ưu xếp hạng với thuật toán di truyền (Genetic Programming) ................... 18
2.4. Mô hình quảng cáo sử dụng phản hồi liên quan ............................................................. 19
2.5. Mô hình ước lượng CTR (Click Through Rate) ............................................................. 21
2.6. Mô hình tìm kiếm và xếp hạng sử dụng chủ đề ẩn trong quảng cáo theo ngữ cảnh ....... 22
Chương 3. Hệ thống quảng cáo trực tuyến sử dụng xếp hạng và chủ đề ẩn ................................. 25
3.1 Xếp hạng ......................................................................................................................... 25
3.1.1 Xếp hạng trong máy tìm kiếm ................................................................................. 25
3.1.2 Học xếp hạng và SVM Rank ................................................................................... 26
3.1.3 Các phương pháp đánh giá xếp hạng ....................................................................... 30
3.2 Chủ đề ẩn ........................................................................................................................ 33
3.2.1 Latent Dirichlet Allocation (LDA) .......................................................................... 34
3.2.2 Mô hình sinh trong LDA ......................................................................................... 35
3.2.3 Ước lượng tham số và suy luận ............................................................................... 36
3.3 Mô hình quảng cáo trực tuyến hướng câu truy vấn với sự giúp đỡ của phân tích chủ đề
và kỹ thuật tính hạng ................................................................................................................. 39
3.3.1 Mô tả bài toán .......................................................................................................... 39
3.3.2 Mô hình tổng quan ................................................................................................... 40
3.3.3 Xác định đặc trưng cho mô hình ............................................................................. 41
Chương 4. Thực nghiệm và đánh giá ............................................................................................ 43
4.1. Dữ liệu ............................................................................................................................ 43
4.2. Môi trường thực nghiệm ................................................................................................. 43
4.2.1 Cấu hình phần cứng ..................................................................................................... 43
4.2.2 Các công cụ được sử dụng ........................................................................................... 44
4.3. Quá trình thực nghiệm .................................................................................................... 45
4.3.1. Tiền xử lý dữ liệu ........................................................................................................ 45
4.3.2. Thu thập thông tin từ các URL có được ...................................................................... 46
4.3.3. Véc tơ hóa dữ liệu ........................................................................................................ 47
4.3.4. Thiết kế thực nghiệm ................................................................................................... 47
4.4. Kết quả thực nghiệm ....................................................................................................... 48
4.5. Đánh giá kết quả thực nghiệm ........................................................................................ 50
Kết luận .......................................................................................................................................... 52
Tài liệu tham khảo ......................................................................................................................... 53
Danh sách các bảng
Bảng 1. Một số website lớn cung cấp dịch vụ quảng cáo trực tuyến ở Việt Nam .......................... 9
Bảng 2 Cấu hình phần cứng sử dụng trong thực nghiệm .............................................................. 44
Bảng 3. Danh sách các phần mềm mã nguồn mở được sử dụng ................................................... 44
Bảng 4. Giá trị các độ đo tại một số truy vấn khác nhau. .............................................................. 50
Danh sách các hình
Hình 1. Doanh thu quảng cáo trực tuyến nửa đầu và cuối những năm từ 1999 đến 2008 ở Mĩ ..... 5
Hình 2. Phân loại doanh thu quảng cáo trực tuyến trong 6 tháng đầu năm 2007 và 2008 ở Mĩ ..... 6
Hình 3. Quảng cáo trực tuyến tại một trang báo điện tử Việt Nam ................................................. 8
Hình 4. Doanh thu từ quảng cáo trực tuyến của VnExpress và VietnamNet trong 3 năm 2004,
2005, 2006. .................................................................................................................................... 12
Hình 5. Mô tả nội dung một quảng cáo ......................................................................................... 14
Hình 6. Kiến trúc cơ bản của hệ thống quảng cáo thông qua tìm kiếm ......................................... 14
Hình 7. Kiến trúc hệ thống quảng cáo sử dụng phản hồi liên quan ............................................... 20
Hình 8. Thuật toán ước lượng tham biến τ .................................................................................... 30
Hình 9. Mô hình biểu diễn của LDA ............................................................................................. 35
Hình 10. Mô hình sinh đầy đủ cho LDA. ...................................................................................... 36
Hình 11. Mô hình tổng quan hệ thống quảng cáo sử dụng chủ đề ẩn ........................................... 40
Hình 12. Trung bình các độ đo trên tất cả các truy vấn ................................................................. 49
Hình 13. Trung bình độ đo NDCG@5 tại các sô lượng truy vấn khác nhau ................................ 49
Hình 14. Trung bình độ đo MAP tại các số lượng truy vấn khác nhau ......................................... 50
Bảng các từ viết tắt
CPA Cost Per Action/Acquisition
CPC Cost Per Click
CPM Cost Per Mille/Thousand
CTR Cost Through Rate
IDF Inverse Document Frequencies
LDA Latent Dirichlet Allocation
LSA Latent Semantic Analysis
LSI Latent Semantic Indexing
PLSA Probabilistic Latent Semantic Analysis
PLSI Probabilistic Latent Semantic Indexing
PPC Pay Per Click
TF Term Frequencies
Lời mở đầu
Quảng cáo trực tuyến đang ngày càng phát triển và đem lại những khoản lợi nhuận
khổng lồ trong các năm gần đây, lên đến 47.5 tỉ đô la [33]. Quảng cáo trên máy tìm kiếm
là hình thức quảng cáo trực tuyến phổ biến nhất, trong đó các quảng cáo được hiển thị bên
cạnh kết quả tìm kiếm trả về cho người dùng. Trong 5 năm gần đây, nhằm tìm kiếm và
đưa ra một thứ tự quảng cáo phù hợp nhất, rất nhiều công trình trong nước cũng như trên
thế giới đã được công bố [11], [22], [24], [25], [27], [30].
Lê Diệu Thu [27] đã đi theo một hướng tiếp cận mới trong quảng cáo theo ngữ cảnh
bằng việc mở rộng tập từ khóa quảng cáo sử dụng kỹ thuật phân tích chủ đề ẩn. Tác giả
đã chỉ ra những ảnh hưởng tích cực của chủ đề ẩn trong việc tìm kiếm và xếp hạng quảng
cáo.
Khóa luận này tiếp tục xem xét bài toán xếp hạng quảng cáo trên máy tìm kiếm và
đề xuất mô hình xếp hạng quảng cáo sử dụng kỹ thuật phân tích chủ đề ẩn theo hướng
tiếp cận mới. Khác với cách tiếp cận ở [27], mô hình của khóa luận này biểu diễn quảng
cáo theo những đặc trưng về chủ đề ẩn và khai thác sự giúp đỡ của query logs trong việc
xây dựng tập dữ liệu học và đã thu được những kết quả khả quan. Khóa luận gồm bốn
chương được mô tả sơ bộ dưới đây:
Chương 1. Khái quát về quảng cáo trực tuyến trình bày về tình hình quảng cáo
trực tuyến trên thế giới cũng như ở Việt Nam, đồng thời giới thiệu về hình thức quảng cáo
trên máy tìm kiếm và bài toán xếp hạng quảng cáo trên máy tìm kiếm.
Chương 2. Các phương pháp quảng cáo thông qua tìm kiếm trình bày những
công trình đã được đưa ra trong những năm gần đây nhằm giải quyết bài toán xếp hạng
quảng cáo, chỉ ra ưu, nhược điểm của mỗi phương pháp.
Chương 3. Hệ thống quảng cáo trực tuyến sử dụng kĩ thuật xếp hạng và phân
tích chủ đề ẩn. Chương này trình bày về kĩ thuật xếp hạng, phương pháp học xếp hạng
SVM Rank, kĩ thuật phân tích chủ đề ẩn và đề xuất mô hình xếp hạng quảng cáo sử dụng
chủ đề ẩn.
Chương 4. Thực nghiệm và đánh giá mô hình trình bày về dữ liệu được sử dụng,
các giai đoạn xử lý dữ liệu và thực nghiệm, đưa ra kết quả của mô hình, nhận xét và phân
tích kết quả thu được.
1
Phần kết luận. Tổng kết và tóm lược nội dung chính của khóa luận.
2
Chương 1. Khái quát về quảng cáo trực tuyến
1.1. Giới thiệu về quảng cáo
Quảng cáo là hình thức tuyên truyền, giới thiệu hàng hoá, dịch vụ nhằm tạo sự hấp
dẫn và kích thích người mua để đẩy mạnh việc bán hàng cũng như thực hiện dịch vụ.
Trong chừng mực nhất định, quảng cáo cũng có tác dụng tích cực, tuy nhiên nó làm tăng
giá cả của hàng hoá. Trong nền kinh tế hàng hoá, chi phí về quảng cáo thường rất lớn.
Hình thức quảng cáo rất phong phú: áp phích đặc biệt, đăng báo, phát thanh, vô tuyến
truyền hình, điện ảnh, triển lãm chế phẩm, nhãn hiệu sản xuất, tủ kính bày hàng ở các cửa
hàng hay các xí nghiệp, thư tín, quà biếu [6].
Theo một tài liệu khác, quảng cáo là một hiện tượng phức tạp, gắn bó mật thiết với
xã hội, văn hóa, lịch sử và kinh tế, nó không tuân theo bất cứ một định nghĩa đơn giản hay
riêng biệt nào. Một vài khía cạnh của quảng cáo rất phổ dụng trong khi một vài khía cạnh
khác lại mang đặc trưng cụ thể về văn hóa. Quảng cáo biến đổi từ nghệ thuật bán hàng cá
nhân tới truyền thông gián tiếp, cung cấp những thông tin mới nhằm thuyết phục con
người. Bên cạnh những thông báo nhằm mục đích bán hàng nó còn ẩn chứa những giá trị
văn hóa và các ý kiến xã hội. Tùy thuộc vào từng quan điểm khác nhau, quảng cáo có thể
có tác dụng tích cực hay tiêu cực tới xã hội và kinh tế [8].
Cũng theo [39] thì cha đẻ của hình thức quảng cáo là một người Ai Cập cổ. Ông ta
đã dán tờ thông báo đầu tiên trên tường thành Thebes vào khoảng năm 3000 trước Công
nguyên. Vài thế kỷ sau đó, ở Hy Lạp hình thức thông báo này trở nên rất phổ biến khi các
thông tin dành cho công chúng được vẽ lên các tấm bảng gỗ trưng bày ở quảng trường
thành phố. Nếu như các bảng quảng cáo đã phát triển nhanh sau sự ra đời của phương
pháp in (bức áp phích đầu tiên do Caxton, người Anh, in từ năm 1477), thì họa sĩ Pháp
J.Chéret (1835-1932) lại là người phát minh ra hình thức quảng cáo hiện đại. Đó là tờ
quảng cáo một buổi biểu diễn năm 1867, gồm một câu ngắn và một hình ảnh màu mè gây
ấn tượng mạnh. Tuy nhiên, chính họa sĩ Italy L.Cappiello (1875-1942) mới là người đầu
tiên thực sự đề cập tới áp phích quảng cáo với tấm biển quảng cáo kẹo chocolate "Klaus"
của ông năm 1903.
3
Ngày nay quảng cáo đã có những bước phát triển mới và được tiến hành thông qua
các phương tiện thông tin đại chúng như: truyền hình, báo chí, phát thanh, quảng cáo qua
bưu điện và đặc biệt, là quảng cáo trực tuyến qua Internet.
1.2. Quảng cáo trực tuyến
Quảng cáo trực tuyến là một loại hình quảng cáo được thể hiện trên Internet và đặc
biệt là các trang web [8]. Việc sử dụng Internet và World Wide Web ngày càng trở nên
phổ biến, do vậy Internet đã trở thành một trong những phương tiện quảng cáo quan trọng
nhất ngày nay.
Một trong các lợi ích của việc quảng cáo trực tuyến là cho phép công bố thông tin và
nội dung ngay lập tức mà không bị giới hạn bởi vị trí địa lý hay thời gian. Nó cho phép
truyền đạt thông tin quảng cáo ở mức độ toàn cầu, tới một lượng lớn người dùng với một
chi phí rất thấp.
Quảng cáo trực tuyến đem lại hiệu quả đầu tư lớn cho khách hàng quảng cáo, nó cho
phép tuỳ chỉnh các quảng cáo, bao gồm nội dung và các trang web mà quảng cáo sẽ được
đăng lên. Một ví dụ đó là, AdWords và AdSense của Google cho phép quảng cáo được
hiển thị trên các trang web có liên quan hoặc hiển thị bên cạnh kết quả tìm kiếm trên máy
tìm kiếm đối với một số từ khóa được định nghĩa trước.
Một trong các ưu điểm của quảng cáo trực tuyến là cách thức thanh toán, việc thanh
toán được thực hiện với nhiều cách thức khác nhau, dựa vào phản ứng của người dùng đối
với quảng cáo. Một số cách thức thanh toán như: CPM (Cost Per Mile/Thousand), CPV
(Cost Per Visitor), CPC (Cost Per Click), CPA (Cost Per Action), CTR(Click Through
Rate) [27].
1.2.1. Tốc độ tăng trưởng và thị phần
Năm 1994, quảng cáo trực tuyến bắt đầu xuất hiện trên trình duyệt web thương mại
đầu tiên, Netscape Navigator 1.0, dưới hình thức là các banner quảng cáo [32]. Những
quảng cáo đầu tiên trên web là những nội dung tĩnh hay logo của các công ty. Chúng
thường xuất hiện ở đầu mỗi trang web vì đó thường là nơi dễ được quan sát nhất.
Khi công nghệ ngày càng phát triển, mở ra nhiều cơ hội mới, rất nhiều hình thức
quảng cáo trực tuyến đã xuất hiện. Một vài công ty tiến hành quảng cáo thông qua web
site bởi những pop-up, như DoubleClick, AdForce và Windwire. Họ cung cấp một vài
4
thông tin hình ảnh và trình duyệt web sẽ thực thi một số công việc khi người dùng click
vào một quảng cáo [32].
Một thập niên sau khi xuất hiện, những người quảng cáo trên thị trường Mĩ đã chi
9.6 tỉ đô la cho quảng cáo trực tuyến, năm 2004 tăng hơn 31.5% so với năm 2003; so sánh
với 10% cho quảng cáo trên truyền hình, 7.4 % cho những dịch vụ quảng cáo khác nói
chung và 6.6% cho GDP của nền kinh tế Mĩ (Hình 1). Theo báo cáo của IAB [33] vào
năm 2008, doanh thu từ quảng cáo trực tuyến đã đạt tới hơn 23 tỉ đô la vào cuối năm
2008.
Hình 1. Doanh thu quảng cáo trực tuyến nửa đầu và cuối những năm từ 1999 đến 2008 ở
Mĩ [33].
Theo báo cáo mới nhất của Strategy Analytics [38], tổng chi phí cho quảng cáo trực
tuyến trên toàn thế giới đã lên tới gần 47.5 tỉ đô la vào năm 2007 và có thể vượt 100 tỉ đô
la vào năm 2012.
Những thông tin trên cho thấy tốc độ phát triển nhanh chóng của quảng cáo trực
tuyến trong những năm qua và còn hứa hẹn những mức doanh thu khổng lồ trong các năm
tới.
1.2.2. Các hình thức quảng cáo trực tuyến
Quảng cáo trực tuyến có thể được phân loại thành hai loại: hợp pháp (các mạng
quảng cáo) và không hợp pháp (spamming).
5
Quảng cáo spam thường xâm nhập vào hệ thống và được gọi là Spyware, Adware
hay quảng cáo Pop-up. Ví dụ, khi một trình duyệt mới được mở, pop-up quảng cáo xuất
hiện và chuyển hướng người dùng tới website quảng cáo. Điều này gây nhiều bức xúc cho
người dùng, vì vậy nhiều trình duyệt hỗ trợ chức năng chặn pop-up để giới hạn các pop-
up không hợp pháp. Spyware và Adware thường là những ứng dụng mở rộng, một vài
trong số chúng có thể gây hại, ví dụ như Trojan.
Những quảng cáo hợp pháp có thể được phân loại thành: Quảng cáo trưng bày,
email, phân loại và đấu giá, Lead Generation, đa phương tiện và tìm kiếm. Chi tiết về các
hình thức quảng cáo này có thể tìm thấy tại [27]. Dưới đây là biểu đồ mô tả thu nhập của
các loại này trong 6 tháng đầu của năm 2007 và năm 2008 tại Mĩ [33].
Hình 2. Phân loại doanh thu quảng cáo trực tuyến trong 6 tháng đầu năm 2007 và 2008 ở
Mĩ [33]
Như chúng ta thấy trên (Hình 2), search advertising, mà trong nội dung khóa luận
này ta gọi là quảng cáo thông qua tìm kiếm, là loại hình quảng cáo phổ biến nhất và có
doanh thu lớn nhất tại thị trường Mĩ từ năm 2007 đến năm 2008. Nó chiếm 41% tổng thu
nhập từ quảng cáo trực tuyến trong 6 tháng đầu năm 2007 và 46% trong 6 tháng đầu năm
2008.
1.3. Quảng cáo trực tuyến ở Việt Nam
Cùng với sự phát triển của quảng cáo trực tuyến trên thế giới, quảng cáo trực tuyến
tại Việt Nam cũng từng bước phát triển và đã đạt được những thành công bước đầu.
6
1.3.1. Tổng quan về quảng cáo trực tuyến ở Việt Nam
1.3.1.1. Thị phần
Theo số liệu của Trung tâm Internet Việt Nam (VNNIC), hiện có xấp xỉ 19 triệu
người - chiếm 22,47% dân số Việt Nam - thường xuyên tiếp cận với lnternet. Số lượng
người sử dụng Internet đông đảo và tăng trưởng nhanh (năm 2007 có thêm 4 triệu người
sử dụng so với 2006) là một môi trường tiềm tàng để khai thác quảng cáo trực tuyến.
Tuy nhiên, quảng cáo trực tuyến ở Việt Nam vẫn đang ở thời kỳ mới khai phá và
hình thành. Theo số liệu của Hiệp hội quảng cáo Việt Nam (VAA), trên 80% thị phần
quảng cáo trong nước thuộc về các đài truyền hình, sau đó là quảng cáo trên ấn phẩm báo
chí.
Quảng cáo trực tuyến ở Việt Nam có doanh thu vào khoảng 64 tỉ VNĐ năm 2006,
160 tỉ VNĐ vào năm 2007 và trong những năm tới sẽ tăng trưởng 100% để đạt tới con số
500 tỉ VND vào năm 2010. Tuy nhiên doanh thu của quảng cáo trực tuyến trên tổng
ngành quảng cáo tại VN ở mức khoảng 1,5% (2007) [4].
1.3.1.2. Các hình thức quảng cáo trực tuyến ở Việt Nam
Về hình thức, quảng cáo trực tuyến ở Việt Nam chủ yếu hướng tới việc quảng cáo
thương hiệu với hình thức logo/banner (Hình 3). Tại các website lớn, logo/banner chi chít
bất chấp các tiêu chuẩn về hiệu quả gây ấn tượng (nhiều nhất 4 quảng cáo/một màn hình).
Các dạng quảng cáo như qua từ khóa, quảng cáo theo ngữ cảnh, theo hành vi ... còn là
những khái niệm mới mẻ. Và hiện nay, cũng chưa có một chuẩn nào đối với các mẫu thiết
kế cho quảng cáo trực tuyến (kích thước, vị trí ...). Điều này khiến khách hàng mất thêm
nhiều thời gian và chi phí khi tiến hành quảng cáo tại các website khác nhau [4].
Khách hàng của quảng cáo trực tuyến mới chỉ tập trung ở một vài ngành. Khảo sát
tại những website có đông quảng cáo nhất, những doanh nghiệp đứng ở những vị trí đắt
nhất thường là các doanh nghiệp viễn thông, ngân hàng, kế đến là các doanh nghiệp, cơ
sở trong ngành điện máy, giáo dục, ẩm thực.
7
Hình 3. Quảng cáo trực tuyến tại một trang báo điện tử Việt Nam
Ngoài ra, chưa có một tổ chức đủ uy tín đóng vai trò trung gian để đánh giá một
cách khách quan về số lượng người dùng của các website cũng như hiệu quả khi tiến hành
quảng cáo trực tuyến. Không ít các website đưa ra thông tin về số lượng người dùng với
những con số khổng lồ. Điều này khiến doanh thu của quảng cáo trực tuyến ở Việt Nam
tập trung tại một vài trang web có lượng truy cập cao nhất (chủ yếu là các báo điện tử,
trang tin tức như VnExpress, Dân Trí, Vietnamnet, 24h.com.vn...) thay vì có thể phân bổ
ở các website đặc thù (du lịch, giải trí, thương mại...).
Về hình thức thanh toán, vẫn sử dụng những hình thức thanh toán truyền thống như
quảng cáo trên báo chí, số tiền người quảng cáo trả cho công ty quảng cáo được tính theo
kích thước của banner, số lần hiển thị quảng cáo trên trang web cùng thứ hạng của trang
web quảng cáo (phương pháp CPM). Thứ hạng của các trang web thường được xác định
bởi một vài công cụ trên Internet, ví dụ alexa.com. Giá thành quảng cáo được quyết định
bởi số lượt người dùng truy cập vào website và vị trí của banner.
Những hình thức thanh toán khác như CPC hay CPA vẫn còn rất hiếm, cần phải có
một mạng quảng cáo đáng tin cậy để cung cấp những thông tin cho các hình thức thanh
toán này. Đây là một vấn đề quan trọng, nó giải thích nguyên nhân vì sao quảng cáo theo
ngữ cảnh, theo hành vi, quảng cáo trên máy tìm kiếm ở Việt Nam chưa phát triển. Tuy
8
nhiên, một vài công ty đã nắm bắt được điều này và họ đã đưa ra những mô hình thử
nghiệm làm việc với phương pháp CPC, ví dụ như Hura Ad1, daugia 247 – ECOM JSC2
và VietAd3, các hệ thống này đã từng được đưa ra thử nghiệm ở Việt Nam (tuy nhiên
chúng đã bị loại bỏ để cải tiến, theo VietnamNet ).
Bảng 1. Một số website lớn cung cấp dịch vụ quảng cáo trực tuyến ở Việt Nam
STT Tên Địa chỉ
1 Báo điện từ Vnexpress
2 Báo điện tử VietnamNet
3 Báo điện tử Thanh Niên www.thanhnien.com.vn
4 Báo điện tử Dân Trí www.dantri.com
5 Báo điện tử Lao động www.laodong.com.vn
6 Báo điện tử VnMedia www.vnmedia.com.vn
7 Ngôi sao
8 Công ty Cổ phần Quảng cáo dịch vụ trực tuyến www.24h.com.vn
9 Công ty Truyền thông đa phương tiện (VTC) www.vtc.com.vn
Tóm lại, quảng cáo trực tuyến ở Việt Nam hiện nay mới có số lượng người tham gia
ít ỏi và chưa phong phú về hình thức. Các hình thức quảng cáo chủ yếu là banner và được
thanh toán dựa vào kich thước, vị trí banner và thứ hạng của trang web.
1
2
3
9
1.3.2. Những tài nguyên chưa được khai thác và thị trường quảng cáo trực tuyến
Ở phần trước khóa luận đã giới thiệu một cái nhìn tổng quan về quảng cáo trực tuyến
ở Việt Nam, tuy còn mới mẻ nhưng đang được mở rộng và có nhiều tiềm năng. Trong
phần này, khóa luận sẽ trình bày kĩ hơn về những tài nguyên chưa được khai thác và thị
trường quảng cáo trực tuyến, từ đó chỉ ra tiềm lực và những vấn đề nổi trội của quảng cáo
trực tuyến tại Việt Nam trong các năm tới.
1.3.2.1. Tốc độ phát triển nhanh chóng của thương mại điện tử ở Việt Nam
Thương mại điện tử là một nhân tố quan trọng của quảng cáo trực tuyến, đặc biệt
cho việc thanh toán của các hệ thống quảng cáo theo ngữ cảnh, hành vi hay quảng cáo
qua máy tìm kiếm. Khi thương mại điện tử phát triển, nhiều ngành thương mại khác có
thể dễ dàng thực hiện trao đổi thông qua internet tạo điều kiện cho các công ty giới thiệu
sản phẩm của họ tới khách hàng, hỗ trợ cho sự phát triển của quảng cáo trực tuyến.
Vào đầu năm 2006, thương mại điện tử đã bắt đầu phát triển, nhiều bộ luật mới đã
được ban hành. Cùng sự hỗ trợ của chính phủ, thương mại điện tử ở Việt Nam ngày càng
phát triển và có những bước tiến rõ rệt.
Đến cuối năm 2008, kết quả điều tra với 1600 doanh nghiệp trên cả nước của Bộ
Công Thương cho thấy, hầu hết các doanh nghiệp đã triển khai ứng dụng thương mại điện
tử ở những mức độ khác nhau. Đầu tư cho thương mại điện tử đã được chú trọng và mang
lại hiệu quả rõ ràng cho doanh nghiệp [1].
Các doanh nghiệp đã quan tâm tới việc trang bị máy tính, đến nay hầu như 100%
doanh nghiệp đều có máy tính. Tỷ lệ doanh nghiệp có từ 11–20 máy tính tăng dần qua các
năm và đến năm 2008 đã đạt trên 20%. Tỷ lệ doanh nghiệp đã xây dựng mạng nội bộ năm
2008 đạt trên 88% so với 84% của năm 2007. Đến nay, có tới 99% số doanh nghiệp đã
kết nối Internet, trong đó kết nối băng thông rộng chiếm 98%. Tỷ lệ doanh nghiệp có
website năm 2008 đạt 45%, tăng 7% so với năm 2007. Tỷ lệ website được cập nhật
thường xuyên và có chức năng đặt hàng trực tuyến đều tăng nhanh.
Một trong những điểm sáng nhất về ứng dụng thương mại điện tử của doanh nghiệp
là tỷ lệ đầu tư cho phần mềm tăng trưởng nhanh, chiếm 46% trong tổng đầu tư cho công
nghệ thông tin của doanh nghiệp năm 2008, tăng gấp 2 lần so với năm 2007. Trong khi
đó, đầu tư cho phần cứng giảm từ 55,5% năm 2007 xuống còn 39% vào năm 2008. Sự
10
dịch chuyển cơ cấu đầu tư này cho thấy doanh nghiệp đã bắt đầu chú trọng đầu tư cho các
phần mềm ứng dụng để triển khai thương mại điện tử sau khi ổn định hạ tầng công nghệ
thông tin. Doanh thu từ thương mại điện tử đã rõ ràng và có xu hướng tăng đều qua các
năm, 75% doanh nghiệp có tỷ trọng doanh thu từ thương mại điện tử chiếm trên 5% tổng
doanh thu trong năm 2008. Nhiều doanh nghiệp đã quan tâm bố trí cán bộ chuyên trách về
thương mại điện tử.
1.3.2.2. Sự bùng nổ của xã hội trực tuyến và các mạng xã hội
Thời gian gần đây, việc sử dụng công nghệ World Wide Web và thiết kế web cho
phép người dùng chia sẽ thông tin một cách dễ dàng hơn ví dụ như những trang web
mạng xã hội, các trang wiki, blog và diễn đàn. Cùng với đó, số lượng người Việt Nam sử
dụng Internet cũng ngày càng tăng lên, tạo thành một cộng đồng trực tuyến rộng lớn giữa
những người Việt Nam. Theo VNNIC (VietNam Internet Association), vào tháng 3 năm
2008, số lượng người Việt Nam sử dụng Internet đã lên tới trên 19 triệu người (chiếm
19.41% dân số) và con số này đang ngày càng tăng lên [4]. Thị trường này lớn hơn so với
ở Thái Lan, Philippines và Indonesia. Trong một vài năm qua, các cộng đồng trực tuyến
đã được chứng kiến sự phát triển và cạnh tranh của các trang web mạng xã hội, ví dụ như:
Yahoo! 360 blog, Tamtay, Yobanbe, Cyworld, Zoomban,...
Tuy nhiên, có một khoảng cách lớn về sự phát triển của thương mại điện tử giữa ở
Việt Nam và các nước phát triển trên thế giới mà phần lớn là ở thói quen người dùng và
thu nhập.
1.3.2.3. Thị trường quảng cáo trực tuyến, cái nhìn lâu dài
Tốc độ phát triển nhanh chóng của thương mại điện tử, sự bùng nổ của cộng đồng
trực tuyến và các cổng thông tin web ở Việt Nam đã tạo nền tảng vững chắc cho sự phát
triển của quảng cáo trực tuyến. Trong thời gian gần đây, các nhà quảng cáo lớn như
Yahoo và Google đã bắt đầu quan tâm tới thị trường quảng cáo trực tuyến tại Việt Nam,
họ bắt đầu xây dựng những chiến lược tiếp thị và các dịch vụ khác nhau cho người dùng
Việt Nam. Theo VietnamNet, Google đã tiến hành dịch các dịch vụ của họ sang tiếng
Việt, ví dụ như dịch vụ quảng cáo AdWords4. Yahoo đang nắm giữ số lượng người dùng
4
11
5Việt Nam lớn nhất (theo xếp hạng từ alexa). Họ đã ra mắt phiên bản yahoo tiếng Việt và
phiên bản blog 360 plus nhằm thu hút người dùng Việt Nam vào thị trường này. Những
quảng cáo về các dịch vụ mới của họ được phát đi trên hệ thống truyền hình Việt Nam từ
tháng 5 năm 2008 [27].
Tuy nhiên, thị trường quảng cáo trực tuyến đã thu hút không chỉ các công ty nước
ngoài mà còn cả các công ty trong nước. Một vài công ty mới đã bắt đầu mở rộng thị
trường và nhắm tới quảng cáo trực tuyến. Một số báo điện tử được biết đến nhiều nhất ở
Việt Nam như VnExpress và VietnamNet, thu nhập của họ từ quảng cáo trực tuyến có tốc
độ tăng trưởng khá cao và VnExpress vẫn giữ vị trí số một trong lĩnh vực quảng cáo trực
tuyến ở Việt Nam (Hình 4).
Hình 4. Doanh thu từ quảng cáo trực tuyến của VnExpress và VietnamNet trong 3
năm 2004, 2005, 2006 [1].
Tóm lại, thị trường quảng cáo trưc tuyến ở Việt Nam tuy vẫn còn ở giai đoạn mới
phát triển, nhưng đã thu hút được rất nhiều sự chú ý của cả các công ty trong nước cũng
như ngoài nước. Điều này dẫn đến nhu cầu về một mạng quảng cáo trực tuyến ở Việt
Nam, nhằm hỗ trợ các hình thức quảng cáo mới phát triển, ví dụ như quảng cáo trên máy
tìm kiếm hay quảng cáo theo hành vi, ngữ cảnh....
Google và Yahoo đã đạt được những thành công lớn trên thị trường thế giới, tuy
nhiên rào cản về ngôn ngữ và văn hóa vẫn còn là một hạn chế để họ có thể tiếp cận với thị
5
12
trường Việt Nam. Một bài học từ sự thành công của Baidu (máy tìm kiếm hàng đầu của
Trung Quốc) đã chứng tỏ rằng những công ty quảng cáo lớn như Google và Yahoo không
phải luôn luôn thành công ở thị trường khu vực, đặc biệt là ở Châu Á [32]. Người dùng
Việt Nam vẫn luôn chờ đợi một mạng tiếng Việt từ các công ty trong nước. Việc xây
dựng và phát triển quảng cáo trực tuyến ở Việt Nam đã trở thành một yêu cầu thiết yếu
trong sự phát triển lâu dài, và người Việt Nam sẽ sớm được chứng kiến những bước phát
triển mới trong thị trường quảng cáo những năm tiếp theo.
1.4. Quảng cáo thông qua tìm kiếm
Quảng cáo thông qua tìm kiếm là hình thức quảng cáo mà các quảng cáo được hiển
thị dựa vào các từ khóa hay các cụm từ được xác định từ trước [22]. Quảng cáo thông qua
tìm kiếm bao gồm các nhân tố chính sau:
- Nội dung quảng cáo: nội dung quảng cáo được người quảng cáo cung cấp cho các
công ty quảng cáo, nội dung quảng cáo thường gồm: tiêu đề, mô tả, url, và các từ khóa
tương ứng với quảng cáo.
- Chi phí cho mỗi từ khóa: là chi phí mà người quảng cáo phải trả cho công ty
quảng cáo đối với từng từ khóa hay cụm từ cụ thể.
- Các quá trình kiểm tra tự động hoặc bằng tay nhằm đảm bảo nội dung quảng cáo
phù hợp với các từ khóa.
- Tìm kiếm các quảng cáo phù hợp với truy vấn người dùng (quảng cáo trên máy
tìm kiếm) hay phù hợp với nội dung trang web (quảng cáo theo ngữ cảnh).
- Hiển thị các nội dung quảng cáo theo thứ tự phù hợp.
- Thu thập thông tin, đo số lần click của người dùng, xác định các hành động của
người dùng và yêu cầu người quảng cáo trả tiền theo các thông tin đó.
Hình 5 là một ví dụ về quảng cáo trên máy tìm kiếm MSN, khi người dùng tìm kiếm
với từ khóa “hotel”, một danh sách các quảng cáo có liên quan tới khách sạn sẽ được hiển
thị.
13
Hình 5. Mô tả nội dung một quảng cáo [36]
Hình 6 dưới đây mô tả kiến trúc cơ bản của một hệ thống quảng cáo thông qua tìm
kiếm.
Hình 6. Kiến trúc cơ bản của hệ thống quảng cáo thông qua tìm kiếm [27]
Thông qua mạng quảng cáo (Advertising network) các quảng cáo được hiển thị tới
người dùng tùy thuộc vào nội dung trang web họ đang xem (với quảng cáo ngữ cảnh) hay
tùy thuộc vào truy vấn họ đang tìm kiếm (quảng cáo trên máy tìm kiếm). Khi người dùng
click vào quảng cáo hay thực hiện một vài hành động như đăng ký, thanh toán… mạng
14
quảng cáo sẽ ghi nhận các hành động của người dùng. Người quảng cáo sẽ phải trả tiền
cho mạng quảng cáo tùy thuộc vào các hành động đã được ghi nhận đó. Hiện nay có rất
nhiều mạng quảng cáo nổi tiếng như: Google, Yahoo, MSN, Publisher Network (YPN),
Amazon.com...
Quảng cáo thông qua tìm kiếm có hai loại chính: quảng cáo trên máy tìm kiếm và
quảng cáo theo ngữ cảnh.
Quảng cáo trên máy tìm kiếm là quảng cáo được thực hiện trên máy tìm kiếm, khi
người dùng tìm kiếm theo một truy vấn, bên cạnh kết quả tìm kiếm, một danh sách các
quảng cáo được hiển thị tương ứng với truy vấn của người dùng. Các quảng cáo được sắp
xếp theo hai tiêu chí: độ phù hợp với truy vấn và số tiền người quảng cáo sẽ trả cho công
ty quảng cáo cho việc hiển thị quảng cáo của họ. Quảng cáo trên máy tím kiếm là hình
thức quảng cáo trực tuyến phổ biến nhất hiện nay.
Quảng cáo theo ngữ cảnh khác với quảng cáo trên máy tìm kiếm, danh sách quảng
cáo thu được từ việc so sánh các cụm từ, từ khóa của quảng cáo với nội dung trang web
và được trả về dựa theo độ phù hợp của nội dung trang web với các quảng cáo.
Trong cả hai loại quảng cáo nói trên, số lượng các quảng cáo được đưa ra cho mỗi
lần hiển thị thường rất ít, từ 4 đến 5 quảng cáo, người dùng thông thường chỉ chú ý đến
một vài quảng cáo đầu tiên, do vậy yêu cầu đối với hệ thống quảng cáo là: phải tìm ra
những quảng cáo phù hợp nhất với truy vấn của người dùng và đưa chúng lên đầu danh
sách. Một bài toán được đặt ra là xếp hạng các quảng cáo trả về theo mức độ phù hợp với
truy vấn của người dùng.
Xếp hạng quảng cáo là một bài toán nhận được rất nhiều sự quan tâm hiện nay. Có
rất nhiều phương pháp và mô hình đã được đưa ra, ví dụ như “mô hình quảng cáo sử dụng
phản hồi liên quan” [11], “mô hình ước lượng CTR(Click Through Rate)” [25] hay cách
tiếp cận “trích xuất từ khóa quảng cáo từ nội dung trang web” [30], “impedance coupling”
[24] và “ranking optimization” [22]. Các phương pháp này sẽ được trình bày kĩ ở chương
sau.
15
Chương 2. Các phương pháp quảng cáo thông qua tìm
kiếm
Nhiệm vụ chính của một hệ thống quảng cáo thông qua tìm kiếm là quyết định các
quảng cáo nào sẽ được hiển thị và thứ tự hiển thị của chúng theo mức độ phù hợp với truy
vấn của người dùng hay nội dung trang web (ngữ cảnh). Khi người dùng tìm kiếm, mục
đích chính của họ là tìm kiếm những tài liệu liên quan đến từ khóa chứ không phải tìm
kiếm các quảng cáo, do vậy người dùng sẽ chỉ thực sự chú ý đến quảng cáo khi những
quảng cáo được đưa ra có tính phù hợp cao với điều mà họ quan tâm. Mặt khác, việc hiển
thị các quảng cáo phù hợp có thể giúp người dùng có thêm những thông tin hữu ích, tiếp
cận những dịch vụ mong muốn, ngược lại nếu các quảng cáo được đưa ra không phù hợp
có thể làm người dùng cảm thấy khó chịu và giảm mức độ hài lòng với máy tìm kiếm.
Trong 5 năm gần đây, có rất nhiều phương pháp trên thế giới và một số phương
pháp ở Việt Nam đã được công bố nhằm giải quyết vấn đề này, dưới đây là một số
phương pháp nổi bật.
2.1. Mô hình trích xuất từ khóa trong nội dung trang web
Đây là một mô hình của quảng cáo theo ngữ cảnh. Dựa trên tư tưởng của quảng cáo
trên máy tìm kiếm, ta có thể coi trang web hiện tại như một truy vấn dài bao gồm nhiều từ
khóa. Yih và các cộng sự [30] đã đề xuất một mô hình học giám sát cho phép trích xuất
các từ khóa trong nội dung trang web. Tiến hành học từ một tập các trang web đã được
định nghĩa các từ khóa từ trước, họ xây dựng một bộ phân lớp sử dụng học máy với thuật
toán hồi quy logic (logistic regression).
Để xác định những từ khóa và cụm từ mô tả chính xác nhất về trang web họ sử dụng
một vài phương pháp và tiến hành thực nghiệm để tìm ra phương pháp đem lại kết quả tốt
nhất. Ba phương pháp được đưa ra đó là: MoS, MoC và DeS. M (Monolithic) nghĩa là sử
dụng toàn bộ cụm từ trong trích chọn. D (Decomposed) xem mỗi từ trong cụm như một
cá thể riêng biệt. S (Separate) là coi mỗi từ hay cụm từ bất kể giống nhau hay khác nhau
như các cá thể riêng biệt, và C (Combined) kết hợp các từ, cụm từ giống nhau làm một.
Một điểm quan trọng trong công trình của họ đó là việc sử dụng 7.5 triệu truy vấn từ
query logs của MSN [36] như một đặc trưng cho quá trình trích chọn, cùng với đó là 11
16
đặc trưng khác như tần suất xuất hiện của từ khóa, đặc trưng thuộc về ngôn ngữ học (pos
tagging), đặc trưng kiểm tra từ có được viết hoa hay không, đặc trưng về siêu văn bản (từ
có nằm trong một liên kết hay không), tiêu đề trang, đặc trưng về độ dài các cụm từ, các
câu,…
Trong thực nghiệm, họ sử dụng 828 trang web được lấy từ Internet Archive [34] để
sử dụng cho quá trình học và kiểm thử hệ thống. Kết quả cho thấy hệ thống MoC (các
cụm từ tương đương được kết hợp làm một) đem lại kết quả tốt nhất, trong khi đó MoS
đem lại kết quả thấp nhất. Ngoài ra, hệ thống DeS (xem mỗi từ như một cá thể riêng biệt)
đem lại kết quả thấp hơn so với hệ thống Monolothic(xem mỗi cụm từ như một cá thể
riêng biệt). Độ chính xác của hệ thống tốt nhất là 30.06% và của hệ thống tồi nhất là
13.01% .
Để xác định sự đóng góp của mỗi đặc trưng, họ tiến hành thực nghiệm trên cùng
một hệ thống với các đặc trưng được thêm vào lần lượt. Kết quả chỉ ra rằng, đặc trưng
query log và tần xuất xuất hiện của từ khóa đóng vai trò quan trọng nhất.
Nghiên cứu của Yih và các cộng sự [30] cho thấy một hướng tiếp cận khác của
quảng cáo theo ngữ cảnh. Hệ thống của họ cho phép xếp hạng các quảng cáo dựa trên
những từ khóa trích xuất ra được từ trang web. Tuy nhiên độ phù hợp của các quảng cáo
dựa trên các từ khóa này vẫn chưa được kiểm chứng qua thực nghiệm.
2.2. Mô hình so khớp với tập từ vựng mở rộng (impedance coupling)
Một vấn đề của quảng cáo theo ngữ cảnh, đó là sự khác biệt về từ vựng giữa trang
web và các quảng cáo. Ribeiro Neto và các cộng sự [24] đã tập trung vào việc giải quyết
vấn đề này bằng cách mở rộng tập từ vựng của các trang web.
Nhìn chung, một quảng cáo thường ngắn, cô đọng và tập trung vào một chủ đề
chính. Tuy nhiên, một trang web lại có nội dung lớn hơn và thuộc một không gian ngữ
cảnh lớn hơn. Một trang web có thể nói về rất nhiều chủ đề và với các từ khóa khác nhau.
Vấn đề tìm kiếm những quảng cáo phù hợp với một trang web sử dụng những chủ đề có
trong nội dung trang đang là một vấn đề cần được quan tâm.
Ribeiro và các cộng sự [24] đã khảo sát 10 phương pháp so khớp các quảng cáo và
trang web. Họ tiến hành thực nghiệm với một cơ sở dữ liệu lớn trên 93 nghìn quảng cáo
và 100 trang web.
17
Với 5 phương pháp đầu tiên, họ so sánh các trang web và quảng cáo dựa vào mô
hình véc tơ. Hạng của mỗi quảng cáo được tính dựa trên độ tương đồng cosin giữa quảng
cáo và trang web. Các đặc trưng được sử dụng là tiêu đề, mô tả và các từ khóa quảng cáo.
Phương pháp tốt nhất trong những phương pháp này là AAK, “so khớp sử dụng các từ
khóa quảng cáo xuất hiện trong nội dung trang web”, kết quả của phương pháp này được
sử dụng để so sánh với các phương pháp “impedance coupling”.
Như đã giới thiệu ở trên, có một sự khác biệt lớn giữa tập từ vựng của trang web và
quảng cáo. Để giải quyết vấn đề này, Ribeiro và các cộng sự [24] mở rộng tập từ vựng
của trang web với những từ khóa lấy từ các trang web có nội dung tương tự sử dụng mô
hình Bayes. Những từ khóa mở rộng này có thể xuất hiện trong tập từ khóa của quảng cáo
và làm tăng hiệu quả của hệ thống. Họ sử dụng 5 phương pháp so khớp khác nhau gọi là
các phương pháp “impedance coupling”.
Trong thực nghiệm, họ sử dụng một cơ sở dữ liệu với 6 triệu trang web để phục vụ
cho việc mở rộng tập từ vựng. Kết quả thu được khi sử dụng các nội dung đã được mở
rộng tốt hơn so với phương pháp AAK ở trên. Phương pháp tốt nhất được đưa ra đó là so
khớp sử dụng nội dung trang web mở rộng và nội dung của trang web được quảng cáo trỏ
tới. Thực nghiệm của Ribeiro-Neto và các cộng sự đã chứng tỏ rằng, việc giảm sự khác
biệt về tập từ vựng giữa trang web và quảng cáo có thể hỗ trợ tốt cho việc tìm kiếm quảng
cáo phù hợp với ngữ cảnh.
2.3. Mô hình tối ưu xếp hạng với thuật toán di truyền (Genetic Programming)
Từ những nghiên cứu đã có được [24], Lacerda và các cộng sự [22] đã đưa ra một
hướng tiếp cận dựa trên thuật toán di truyền để tối ưu hàm xếp hạng. Sử dụng các đặc
trưng khác nhau như từ khóa, tần suất xuất hiện của từ, độ dài văn bản và kích thước tập
dữ liệu, bằng phương pháp học máy, họ xây dựng một hàm so khớp nhằm tối ưu độ phù
hợp giữa trang web và các quảng cáo. Hàm này được thể hiện dưới dạng cây với nút là
các phép toán và các đặc trưng là các lá. Sử dụng tập dữ liệu học và đánh giá tương tự
như ở [24], mô hình này đem lại kết quả tốt hơn so với phương pháp tốt nhất được mô tả
ở đó là 61.7%.
18
2.4. Mô hình quảng cáo sử dụng phản hồi liên quan
Dựa trên những nghiên cứu về xử lý truy vấn và mở rộng câu truy vấn, Andrei
Z.Broder và các cộng sự [11] đã đưa ra mô hình quảng cáo trên máy tìm kiếm sử dụng
phản hồi liên quan. Với một truy vấn đầu vào gọi là truy vấn gốc, Andrei Z.Broder tiến
hành tìm kiếm trên các máy tìm kiếm và thu thập một số kết quả trong danh sách các kết
quả đầu tiên. Từ truy vấn gốc và những kết quả đó, xây dựng một truy vấn mới gọi là truy
vấn quảng cáo - và tiến hành tìm kiếm trên tập quảng cáo đã có bằng truy vấn này. Cách
tiếp cận này cho phép khai thác những thông tin mở rộng thu được từ máy tìm kiếm nhằm
tạo ra những đặc trưng giàu thông tin hơn cho việc tìm kiếm. Hơn nữa, việc sử dụng
những đặc trưng mô tả toàn bộ quảng cáo tốt hơn so với việc chỉ sử dụng những từ khóa
riêng biệt của nó, điều này còn giúp cho người quảng cáo không phải xác định trước các
từ khóa của quảng cáo.
Truy vấn quảng cáo và các quảng cáo được họ biểu diễn thông quang 3 loại đặc
trưng chính: từ khóa, phân lớp và các cụm từ Prisma.
- Từ khóa: họ tập hợp tất cả các từ khóa riêng biệt có trong tập quảng cáo, lựa chọn
số từ khóa phù hợp, sử dụng mỗi từ khóa này như một đặc trưng sau đó tiến hành tính
trọng số cho các đặc trưng theo TF-IDF.
- Phân lớp: để tránh trường hợp một quảng cáo và một truy vấn có sự liên quan
lớn, nhưng chúng sử dụng các từ khác nhau để biểu diễn, ngoài các từ khóa, họ sử dụng
một đặc trưng ở mức cao hơn đó là phân lớp của truy vấn. Sử dụng một taxonomy lớn về
những chủ đề liên quan tới thương mại, xây dựng bộ phân lớp cho phép ánh xạ một đoạn
văn bản với một số lớp liên quan. Từ tập kết quả tìm được với truy vấn gốc, họ tiến hành
phân lớp với từng kết quả, sau đó chọn ra những lớp phù hợp nhất với truy vấn gốc. Các
lớp này sẽ được sử dụng như các đặc trưng của truy vấn quảng cáo, trọng số tại các đặc
trưng sẽ được xác định bằng độ tin cậy trả về từ bộ phân lớp.
- Cụm từ Prisma: sử dụng công cụ của Altavista’s Prisma, đây là một công cụ cho
phép trích chọn các cụm từ thường được sử dụng trên web, và một tập các cụm từ Prisma
cho tiếng anh gồm 10 triệu cụm từ, họ xác định các cụm từ Prisma xuất hiện trong tập kết
quả của truy vấn gốc, lựa chọn những cụm từ phù hợp nhất với truy vấn gốc và sử dụng
chúng như các đặc trưng cho truy vấn quảng cáo. Trọng số tại các đặc trưng được tính
theo TF-IDF.
19
Trong thực nghiệm Andrei Z.Broder và các cộng sự [11] thiết lập 4 hệ thống khác
nhau, với các tham số trộn giữa các loại đặc trưng là khác nhau trên mỗi hệ thống. Sử
dụng một tập 700 truy vấn, mỗi truy vấn được xây dựng như sau. Bắt đầu với tập tất cả
các truy vấn của Yahoo trong tuần từ 23-29, 2007. Chia 10 triệu truy vấn được tìm kiếm
nhiều nhất thành các nhóm theo tần suất tìm kiếm, lựa chọn ngẫu nhiên 50 truy vấn từ
mỗi nhóm. Ngoài ra, lấy ngẫu nhiên 200 truy vấn trong số những truy vấn còn lại (không
thuộc 10 triệu truy vấn nói trên). Với một truy vấn, tìm 3 quảng cáo đối với mỗi hệ thống
ở trên, tiến hành 9000 cặp truy vấn-quảng cáo như vậy. Một nhóm gồm 6 nhà phân tích,
tất cả đều có khả năng tốt về tiếng Anh, tiến hành đánh giá và phân chia mỗi kết quả vào
một trong các nhóm: Perfect, Certainly Attractive, Probably Attractive, Somewhat
Attractive, Probably Not Attractive, and Certainly Not Attractive. Để tính toán độ chính
xác và độ hồi tưởng, họ coi 4 nhóm đầu tiên là phù hợp, và hai nhóm cuối là không phù
hợp.
Kết quả thực nghiệm thu được được so sánh với mô hình không sử dụng truy vấn
mở rộng (chỉ sử dụng truy vấn ban đầu) và có độ chính xác vượt trội. Độ chính xác của
mô hình ở 4 hệ thống lần lượt là 35%, 40%, 42% và 45 % so với 16% của mô hình không
sử dụng việc mở rộng truy vấn. Hình 7 mô tả kiến trúc hệ thống của họ.
Hình 7. Kiến trúc hệ thống quảng cáo sử dụng phản hồi liên quan [11]
20
Mô hình quảng cáo sử dụng phản hồi liên quan của Andrei Z.Broder và các cộng sự
đã đưa ra được một phương pháp mở rộng câu truy vấn sử dụng các kết quả tìm kiếm. Họ
đã đề xuất một phương pháp xây dựng các đặc trưng dựa trên những tri thức mở rộng, mô
hình này giúp những người quảng cáo không nhất thiết phải định nghĩa rõ ràng những từ
khóa tương ứng với quảng cáo của họ.
2.5. Mô hình ước lượng CTR (Click Through Rate)
Dựa trên việc sử dụng CTR để xếp hạng các quảng cáo, Matthew Richardson và các
cộng sự [25] đã đưa ra một mô hình ước lượng CTR đối với những quảng cáo mới dựa
trên những thông tin đã có từ trước. Những quảng cáo với CTR cao sẽ được xếp hạng cao
hơn so với những quảng cáo có CTR thấp.
Matthew Richardson xem xét vấn đề ước lượng CTR với một tập các đặc trưng cho
trước như một bài toán hồi quy và sử dụng hồi quy logic (logistic regression) với đầu ra là
các xác suất tương ứng với các giá trị ước lượng nằm trong khoảng [0, 1]. Các đặc trưng
được sử dụng:
• Diện mạo quảng cáo: có bao nhiêu từ trong tiêu đề, trong nội dung, nội dung có
gồm nhiều kí hiệu, dấu câu hay không, sử dụng các từ ngắn hay dài….
• Mức độ thu hút: tiêu đề, nội dung quảng cáo có chứa những từ mô tả hành động
như “mua”, “tham gia”, “đăng ký” hay không…
• Danh tiếng: URL có kết thúc bởi .com, .net, .org… hay không, độ dài URL ra sao,
URL gồm nhiều đoạn hay ít đoạn, ví dụ: books.com sẽ tốt hơn so với
books.something.com. URL có chứa nhiều dấu sổ hay các con số hay không…
• Chất lượng trang web quảng cáo trỏ tới: liệu trang web có chứa flash hay không,
những phần nào được bao bởi ảnh, có sử dụng stylesheet hay không, có nhiều
quảng cáo trên trang web hay không.
• Độ phù hợp: liệu từ khóa (bid-term) có xuất hiện trong tiêu đề, trong nội dung hay
không, trong phần nào của nội dung…
Với 5 loại đặc trưng nói trên, họ sử dụng 81 đặc trưng. Ngoài ra còn sử dụng các đặc
trưng sau:
21
• Các từ xuất hiện trong tập quảng cáo: lấy ra 10000 từ phổ biến nhất trong tập
quảng cáo, thêm một đặc trưng với giá trị 1 nếu từ xuất hiện trong quảng cáo đang
xét, ngược lại là giá trị 0.
• CTR: sử dụng CTR của những quảng cáo khác có chung từ khóa (keywords, bid
term). Ngoài ra, số lượng các quảng cáo có cùng từ khóa với quảng cáo đang xét
cũng được sử dụng như một đặc trưng.
• Bên cạnh những quảng cáo có từ khóa chung, CTR của những quảng cáo có từ
khóa liên quan cũng được sử dụng. Ví dụ từ khóa “red shoes” và “buy red shoes”
là những từ khóa có liên quan và CTR của quảng cáo ứng với “buy red shoes” có
thể được sử dụng trong việc ước lượng CTR của quảng cáo ứng với “red shoes”.
Về dữ liệu, họ sử dụng một tập các quảng cáo của máy tìm kiếm MSN, mỗi quảng
cáo có các thông tin như: URL, các từ khóa tương ứng với quảng cáo, tiêu đề, nội dung và
đặc biệt là tổng số lần quảng cáo đã được click và tổng số lần quảng cáo đc xem kể từ khi
được đưa vào hệ thống. Tập dữ liệu được chia làm ba phần: 70% cho việc training, 10%
cho việc kiểm định và 20% cho việc test.
Trong thực nghiệm, họ sử dụng độ trung bình KL-divergence [20] được tính bởi kết
quả ước lượng CTR của mô hình và CTR thực sự của quảng cáo trong tập test. Xây dựng
1 số hệ thống với các đặc trưng khác nhau, tiến hành so sánh với mô hình ước lượng CTR
chỉ sử dụng tập train một cách đơn giản (sử dụng một đặc trưng duy nhất CTR của chính
quảng cáo), được gọi là baseline. Kết quả thu được là khá tốt, mức độ cải tiến so với
baseline từ 13.28% tới 19.67%.
2.6. Mô hình tìm kiếm và xếp hạng sử dụng chủ đề ẩn trong quảng cáo theo
ngữ cảnh
Dựa trên ý tưởng mở rộng nội dung trang web và quảng cáo sẽ hỗ trợ tốt hơn cho
việc tìm kiếm và xếp hạng quảng cáo. Lê Diệu Thu [27] đã đề xuất một hướng tiếp cận
trong quảng cáo theo ngữ cảnh, tập trung vào phân tích chủ đề ẩn nhằm làm giàu nội dung
trang web cũng như quảng cáo bằng những từ khóa mở rộng. Để khái quát hóa ngữ cảnh
của các trang web và quảng cáo, tác giả tiến hành xây dựng một mô hình phân tích chủ đề
ẩn trên một tập dữ liệu lớn, từ đó phát hiện những chủ đề và các mối quan hệ giữa chủ đề
với từ hay giữa từ với từ. Mô hình này còn cho phép xác định phân bố xác suất của các
22
chủ đề trên từng trang web hay quảng cáo, từ đó làm giàu nội dung của chúng với những
từ khóa của các chủ đề có liên quan.
Lê Diệu Thu xây dựng một bộ dữ liệu với kích thước lớn, gọi là Universal Dataset,
và sử dụng bộ dữ liệu này cho quá trình phân tích chủ đề ẩn. Bộ dữ liệu được thu thập từ
VnExpress [7], một trong những trang báo điện tử lớn nhất của Việt Nam, bao gồm các
chủ đề khác nhau như: xã hội, tin tức thế giới, đời sống, văn hóa, thể thao, khoa học…
Hơn 220 Megabyte dữ liệu gồm khoảng 40 nghìn trang web được thu thập sử dụng Nutch
[37] và được tiền xử lý bằng cách loại bỏ các thẻ HTML, phân tách câu, tách từ, loại bỏ
những từ không thích hợp. Sau khi xử lý, thu được bộ dữ liệu 53 Megabyte với 40,268 tài
liệu.Tiến hành phân tích chủ đề ẩn trên bộ dữ liệu thu được sử dụng GibbsLDA [16], một
ứng dụng của mô hình LDA và Gibb Sampling.
Để tiến hành thực nghiệm, tác giả sử dụng một tập 100 trang web và 2607 quảng cáo
khác nhau. Các trang web được lựa chọn ngẫu nhiên từ tập 27,763 trang web thu thập
được từ báo điện tử VnExpress, các trang web được chọn từ các chủ đề: ẩm thực, mua
bán, dược phẩm, nhà đất, thị trường chứng khoán, việc làm… Các quảng cáo được thu
thập bằng cách sử dụng các tiêu đề, mô tả và từ khóa của các trang web trên danh bạ
website Việt Nam [5].
Để đánh giá ảnh hưởng của các từ khóa trong tìm kiếm theo ngữ cảnh, Lê Diệu Thu
cài đặt hai phương pháp tìm kiếm theo hướng tiếp cận của Ribeiro-Neto [24]. Phương
pháp thứ nhất gọi là AD, chỉ sử dụng tiêu đề và mô tả của quảng cáo trong tìm kiếm.
Phương pháp thứ hai là AD_KW, tìm kiếm quảng cáo sử dụng cả tiêu đề, mô tả của
quảng cáo lẫn các từ khóa.
Để đánh giá ảnh hưởng của chủ đề ẩn, tác giả tiến hành 6 thực nghiệm khác nhau.
Trong mỗi thực nghiệm, sử dụng một mô hình chủ đề ẩn khác nhau với các tham số khác
nhau. Các mô hình chủ đề ẩn được sử dụng lần lượt là mô hình với 60, 120 và 200 chủ đề.
Sau khi suy luận chủ đề ẩn cho tất cả các trang web và quảng cáo, tiến hành mở rộng tập
từ vựng của chúng theo các chủ đề liên quan. Kết quả thực nghiệm cho thấy, việc sử dụng
chủ đề ẩn làm tăng độ chính xác của mô hình từ 64% lên 72%.
Nghiên cứu của Lê Diệu Thu [27] đã đưa ra một mô hình nhằm giải quyết bài toán
tìm kiếm và xếp hạng quảng cáo trong quảng cáo theo ngữ cảnh. Chỉ ra những ảnh hưởng
tích cực của việc sử dụng chủ đề ẩn nhằm mở rộng tập từ khóa của trang web cũng như
23
quảng cáo. Kết quả đạt được rất khả quan, mô hình khắc phục được vấn đề so khớp giữa
quảng cáo và trang web có tập từ vựng khác nhau bằng việc khai thác mối quang hệ ngữ
nghĩa ẩn trong nội dung của chúng. Cách tiếp cận này có thể được mở rộng và sử dụng
một cách hiệu quả trong quảng cáo trên máy tìm kiếm.
24
Chương 3. Hệ thống quảng cáo trực tuyến sử dụng xếp
hạng và chủ đề ẩn
3.1 Xếp hạng
Trong nhiều ứng dụng cần sắp xếp các đối tượng theo một tiêu chí nào đó, ví dụ sắp
xếp danh sách các nhân viên trong công ty theo tên, tuổi,... hay sắp xếp danh sách học
sinh trong một lớp theo điểm trung bình. Công việc như vậy gọi là xếp hạng. Kết quả xếp
hạng là một danh sách các đối tượng được sắp thứ tự mà ở đó một đối tượng được xếp
trên một đối tượng khác khi nó thỏa mãn một yêu cầu nào đó [2]. Ta nói, đối tượng A có
hạng cao hơn đối tượng B khi A có độ phù hợp với tiêu chí đặt ra lớn hơn so với B. Việc
xếp hạng có thể được tiến hành theo các tiêu chí khác nhau, ta cần tính độ phù hợp của
các đối tượng với tiêu chí đặt ra, hàm tính độ phù hợp được gọi là hàm tính hạng (ranking
function). Mỗi khi nói tới xếp hạng đối tượng, chúng ta quan tâm tới hàm tính hạng.
Một số vấn đề nổi trội về xếp hạng đó là: xếp hạng các trang web theo thứ tự độ
quan trọng, xếp hạng các trường đại học theo quy mô và đặc biệt là xếp hạng các kết quả
trong máy tìm kiếm theo mức độ phù hợp với truy vấn. Trên thực tế, xếp hạng được thực
hiện ở rất nhiều lĩnh vực. Việc xếp hạng giúp ta có một cái nhìn tổng quan, tiếp cận được
những đối tượng phù hợp nhất với yêu cầu đưa ra một cách nhanh nhất, có thể so sánh các
đối tượng với nhau một cách dễ dàng. Điều đó cho thấy, xếp hạng là một bài toán rất quan
trọng và có ý nghĩa.
3.1.1 Xếp hạng trong máy tìm kiếm
Tốc độ phát triển nhanh chóng của World Wide Web (www) dẫn đến nhu cầu tìm
kiếm các tài liệu trên internet trở nên rất lớn, máy tìm kiếm được sử dụng để phục vụ cho
nhu cầu này của con người. Từ yêu cầu của người dùng, thường là một truy vấn, máy tìm
kiếm sẽ tìm kiếm và đưa ra các tài liệu phù hợp với yêu cầu đó. Tuy nhiên số lượng kết
quả phù hợp với truy vấn có thể là rất lớn, lên tới hàng trăm hay hàng nghìn, người dùng
không thể lần lượt duyệt từng kết quả này để xác định đâu là tài liệu mình muốn tìm. Do
vậy, bài toán đặt ra là phải tiến hành xếp hạng các tài liệu trả về từ máy tìm kiếm theo thứ
tự giảm dần về độ phù hợp với truy vấn đầu vào. Việc xếp hạng sẽ giúp người dùng nhanh
chóng tiếp cận với kết quả mong muốn, tiết kiệm được rất nhiều thời gian.
25
Bài toán xếp hạng có ý nghĩa rất quan trọng trong máy tìm kiếm. Khác với những
xếp hạng đơn giản như xếp hạng học sinh theo điểm trung bình, xếp hạng nhân viên theo
số lượng công việc hoàn thành… có một tiêu chí xếp hàng rõ ràng và hàm tính dạng có
thể dễ xác định. Việc xếp hạng các kết quả trả về từ máy tìm kiếm là rất phức tạp, mỗi tài
liệu có nhiều đặc trưng khác nhau, cần tìm ra mối quan hệ giữa các đặc trưng đó.Và từ đó
kết hợp các đặc trưng lại để xây dựng hàm tính hạng phù hợp. Có rất nhiều thuật toán
được đưa ra như: HITS, PageRank, TrustRank… mỗi thuật toán đều có những ưu, nhược
điểm riêng.
[21]Học xếp hạng được Joachims đánh giá là lĩnh vực nổi lên với sự phát triển lớn
mạnh trong các nghiên cứu về tìm kiếm thông tin (information retrieval) và học máy
(machine learning). Nói một cách khác, học hàm tính hạng hiện đang là vấn đề được quan
tâm trong lĩnh vực học máy và có nhiều ứng dụng trong tìm kiếm thông tin. Học xếp hạng
là học hàm của các đặc trưng để sắp xếp các đối tượng theo độ phù hợp, ưu tiên hay độ
quan trọng…tùy vào từng ứng dụng cụ thể. Hiện nay nghiên cứu các phương pháp học
tính hạng đang được nhiều nhà khoa học trên thế giới quan tâm. Dưới đây là thuật toán
SVM-Rank, một trong những thuật toán học tính hạng phổ biến.
3.1.2 Học xếp hạng và SVM Rank
3.1.2.1 Học xếp hạng
Các nghiên cứu về học xếp hạng chủ yếu tập trung vào ứng dụng xếp hạng các tài
liệu trả về từ máy tìm kiếm dựa theo truy vấn. Có các tập tài liệu D = {d1, d2, …, dn} và
với truy vấn q, cần xác định hàm xếp hạng h(x): D → R để sắp xếp các tài liệu D theo độ
phù hợp với truy vấn [2].
Dữ liệu học S là xếp hạng đúng của một tập các tài liệu D’ Є D được đưa ra để học
hàm h(x). Tùy từng ứng dụng mà có các mức yêu cầu khác nhau về sắp xếp thứ hạng
đúng của dữ liệu:
1. Xác định giá trị độ phù hợp y cụ thể của từng đối tượng trong S, Do trong ứng
dụng xếp hạng, người dùng quan tâm nhiều tới thứ tự thay vì giá trị xếp hạng nên y
thường được xác định:
26
• Hai giá trị tương ứng với xếp hạng phù hợp (relevant) hay không phù hợp
(irrelevant). Người dùng chỉ quan tâm các đối tượng có phù hợp tiêu chí đặt
ra hay không.
• N giá trị xác định tương ứng N hạng nhất định.Ví dụ: rất phù hợp, phù hợp,
có thể phù hợp, không phù hợp.
2. Đưa ra các so sánh độ phù hợp của từng cặp đối tượng.
3. Danh sách sắp thứ tự đúng của “tất cả” các đối tượng theo độ phù hợp.
Các phương pháp học xếp hạng theo Sounmen Chakrabarti [13] và Tie-Yan Liu [23]
là:
- Hồi quy (Regression): Có S = {(xi, hi)} mỗi đối tượng xi xác định giá trị yi tương
ứng về độ phù hợp. Học hàm h(x) thỏa mãn:
h(xi) = y(i) với mọi x Є X’
Trong học xếp hạng, khi giá trị yi xác định thứ hạng của đối tượng xi thì phương
pháp gọi là hồi quy có thứ tự (Ordinal Regression).
- Cặp thứ tự (Pairwise): Có S = {(xi, xj)} là tập các cặp đối tượng được sắp thứ
tự, với mỗi cặp (xi, xj) có nghĩa xi có hạng cao hơn xj (xi phù hợp với điều kiện hơn xj)
Tìm h(x):
(xi, xj) א S có xi > xj thì h(xi) > h(xj)
SVM-Rank là một trong những thuật toán thuộc phương pháp này.
- Danh sách sắp xếp (Listwise): Một thứ tự sắp xếp của tất cả các đối tượng được
xác định. Tuy nhiên, điều này không khả thi trong một vài ứng dụng, ví dụ máy tìm kiếm.
Ta có S = {x1, x2, ..., xm với xi Є X’ là một sắp thứ tự (x1 > x2 > ... > xm) Cần tìm
hàm h(x) sao cho h(x1) > h(x2) > ... > h(xm)
3.1.2.2 SVM-Rank
SVM-Rank là một thuật toán được xây dựng nhằm giải quyết vấn đề xếp hạng các
tài liệu bằng việc sử dụng thuật toán học giám sát SVM.
Giả sử dữ liệu đầu vào là tập tài liệu nằm trong không gian n chiều X € Rn với n là
số đặc trưng của tài liệu. Tồn tại một kết quả xếp hạng Y = {r1 , r2 ,..., rq } với q là số
27
lượng các hạng có thể. Giả sử tồn tại một thứ tự giữa các hạng rq › rq-1 › ... › r1 trong đó "›"
thể hiện quan hệ ưu tiên giữa các tài liệu [29]. Tồn tại một tập các hàm xếp hạng f € F mà
mỗi hàm f có thể quyết định quan hệ ưu tiên giữa các tài liệu:
xi › xj ↔ f(xi) > f(xj) (1)
Giả sử ta có một tập các tài liệu đã được xếp hạng: S = {( xi , yi )} i =1,t từ không
gian X × Y. Nhiệm vụ đặt ra là phải lựa chọn hàm f* tốt nhất từ F sao cho cực tiểu hóa độ
sai lệch (loss value) với một hàm tính độ sai lệch cho trước (lost function) trên tập dữ liệu
đã cho.
[14]Herbrich đã chuẩn hóa vấn đề học ở trên thành việc học cho phân lớp trên các
cặp tài liệu.
Giả sử f là một hàm tuyến tính:
Fw(x) = (2)
Trong đó w là véc tơ trọng số và là ký hiệu của tích trong.
Từ (1) và (2) ta có:
xi › xj ↔ > 0 (3)
Khi này, quan hệ giữa xi và xj: xi › xj được thể hiện bởi véc tơ xi - xj. Tiếp đó, ta lấy
tất cả các cặp tài liệu và quan hệ giữa chúng để tạo nên một véc tơ mới và một nhãn mới.
Kí hiệu x(1) và x(2) lần lượt là tài liệu thứ nhất và tài liệu thứ 2, y(1) và y(2) là hạng của
chúng. Ta có:
ݔԦሺଵሻ െ ݔԦሺଶሻ, ݖ ൌ ቊ
1 ݕሺଵሻ ݕሺଶሻ
െ1 ݕሺଶሻ ݕሺଵሻ
(4)
Từ tập dữ liệu train S ta tạo ra một tập dữ liệu train khác S' với l véc tơ đã được gán
nhãn:
S’ = {xi(1) – xi(2), zi} i = 1,n (5)
Sử dụng S' làm dữ liệu cho phân lớp và xây dựng một mô hình SVM cho phép xác
định nhãn z là âm hay dương z = +1 hay z = -1 với mỗi véc tơ x(1) - x(2)
Việc xây dựng mô hình SVM tương đương với việc giải bài toán:
28
min௪ሬሬԦ ܯሺݓሬሬԦሻ ൌ
ଵ
ଶ
ԡݓሬሬԦԡ ܥ ∑ ߦୀଵ
ݏݑܾ݆݁ܿݐ ݐ ߦ 0, ݖ ۃݓሬ
ଶ
ሬԦ, ݔపሬሬሬԦ
ሺଵሻ െ ݔపሬሬሬԦ
ሺଶሻۄ 1 െ ߦ ݅ ൌ 1,… , ݈
(6)
Việc tối ưu (6 n ơ ớ) tươ g đư ng v i tối ưu (7) khi λ = 1/2C:
min௪ሬሬԦ ∑ ቂ1 െ ݖ ۃݓሬሬԦ, ݔపሬሬሬԦ
ሺଵሻ െ ݔపሬሬሬԦ
ሺଶሻۄቃ
ା
ୀଵ ߣԡݓሬሬԦԡଶ (7)
Giả sủ w* là véc tơ trọng số của mô hình SVM. Về mặt hình học, w* sẽ vuông góc
với siêu phẳng của Ranking SVM. Ta sử dụng w* để xây dựng hàm ranking fw* cho việc
xếp hạng các tài liệu:
fw*(x) = (8)
Khi áp dụng SVM, mỗi vectơ đặc trưng được tạo ra từ một cặp tài liệu. Mỗi đặc
trưng được định nghĩa như một hàm của truy vấn và tài liệu.Ví dụ đặc trưng tần suất xuất
hiện của từ khóa được tính bằng số lần xuất hiện của các từ khóa trong câu truy vấn trên
tài liệu. Tất cả các kết quả từ tất cả các truy vấn được sử dụng trong quá trình training.
Không có sự khác biệt giữa các tài liệu từ các truy vấn khác nhau. Hơn nữa, không có sự
khác biệt giữa các cặp tài liệu thuộc các hạng khác nhau, trong khi trên thực tế, ảnh hưởng
của việc xếp hạng sai giữa những tài liệu có hạng cao với tài liệu có hạng thấp là lớn hơn
so với việc xếp hạng sai giữa những tài liệu có hạng thấp với nhau . Đây chính là hai vấn
đề có thể gây ra sự thiếu chính xác của Ranking SVM.
Để giải quyết hai vấn đề được nêu ở trên, ta có thể định nghĩa một hàm loss mới
dựa trên cơ sở của Hinge Loss [29].
Loss function
Trong loss function ở (9) ta thêm một tham số hạng τ để điều chỉnh độ lệch giữa các
cặp hạng, thêm tham số μ để điều chỉnh độ lệch giữa các truy vấn. Ta phát biểu lại bài
toán của Ranking SVM với mục tiêu là cực tiểu hóa loss function sau:
min
௪ሬሬԦ
ܮሺݓሬሬԦሻ ൌ߬ሺሻߤሺሻ ቂ1 െ ݖ ۃݓሬሬԦ, ݔపሬሬሬԦ
ሺଵሻ െ ݔపሬሬሬԦ
ሺଶሻۄቃ
ା
ୀଵ
ߣԡݓሬሬԦԡଶ (9)
Trong đó k(i) là hạng của cặp tài liệu i, τk(i) là tham số hạng của k(i), q(i) ứng với truy
vấn của cặp tài liệu i, μq(i) là tham số của truy vấn q(i). Độ vi phạm nhận được từ cặp thứ i
được quyết định bởi tích của τk(i) và μq(i): τk(i) μq(i)
29
Xác định giá trị các tham số
Ta phải xác định làm thế nào để tính giá trị của τ và μ.
Với τ, ta sử dụng một phương pháp Heuristic để ước lượng các tham biến dựa trên
mô hình cơ sở. Giả sử NDCG được sử dụng để đánh giá (có thể sử dụng các độ đo khác).
Thuật toán được mô tả như sau:
Hình 8. Thuật toán ước lượng tham biến τ [29]
Với μ ta tính như s :au
ߤሺሻ ൌ
௫ೕஷሼ୬୦ữ୬ ୡặ୮ ୲à୧ ୪୧ệ୳ ứ୬ ୴ớ୧ ୯ሺ୨ሻሽ
ஷሼ୬୦ữ୬ ୡặ୮ ୲à୧ ୪୧ệ୳ ứ୬ ୴ớ୧ ୯ሺ୧ሻሽ
(10)
3.1.3 Các phương pháp đánh giá xếp hạng
Để đánh giá chất lượng một xếp hạng, các độ đo thông dụng trong học máy như độ
chính xác (precision), độ hồi tưởng (recall), độ đo F không được sử dụng. Xếp hạng yêu
cầu các đối tượng “đúng” (phù hợp với tiêu chí) được xếp ở các vị trí đầu tiên của bảng
xếp hạng càng tốt.
Dưới đây là một số độ đo đánh giá mức hiệu quả của xếp hạng:
30
3.1.3.1 MAP
Độ chính xác mức K: P@K – Precision@K là độ chính xác của K đối tượng đầu
bảng xếp hạng. Xác định số đối tượng đúng ở K vị trí đầu tiên của xếp hạng và gọi là
Match@K
ܲ@ܭ ൌ
ܯܽݐ݄ܿ@ܭ
ܭ
[19]. Ta có:
Độ chính xác trung bình (AP): là giá trị trung bình của các P@K tại các mức K có
đối tượng đúng. Gọi I(K) là hàm xác định đối tượng ở vị trí hạng K nếu đúng I(K) = 1 và
ngược lại I(K) = 0. Độ chính xác h: trung bìn
ܣܲ ൌ
∑ ܲ@ܭ ݔ ܫሺܭሻୀଵ
∑ ܫሺ݆ሻୀଵ
Giá trị trung bình trên tất cả các truy vấ Average Precision): n (Mean
ܯܣܲ ൌ
∑ ܣ ܲ
ୀଵ
݉
Trong đó m là tổng số truy vấn.
Ví dụ:
Giả sử có 6 đối tượng tương ứng là: a, b, c, d, e.
Trong đó a, b, c là các đối tượng phù hợp và d, e là các đối tượng không phù hợp.
Một xếp hạng của các đối tượng cần đánh giá là: c, a, d, b, e. Khi đó ta có:
p@1 = 1; P@2 =1; P@3 = 2/3; P@4 = 3/4; P@5 = 3/5.
AP(1) = 1; AP(2) = 1; AP(3) = 1; AP(4) = (1 + 1 + 3/4) / 3
3.1.3.2 NDCG (Normalized Discounted cumulative gain)
DCG (Discounted cumulative gain) là một độ đo mức hiệu quả của các thuật toán
trên hệ thống máy tìm kiếm hay những ứng dụng tương tự, và thường được sử dụng trong
tìm kiếm thông tin (Information Retrieval). Sử dụng một độ đo tính phù hợp của các tài
liệu trong tập kết quả trả về bởi máy tìm kiếm, DCG đo sự hiệu quả của một tài liệu dựa
trên vị trí của nó trong danh sách. Con số này được tính tính lũy từ đầu tới cuối danh sách
kết quả và giảm dần ở những vị trí thấp hơn[19].
31
Hai giả thiết được đưa ra trong việc sử dụng DCG và những phép đo có liên quan:
o Sẽ tốt hơn nếu những tài liệu có độ phù hợp cao xuất hiện sớm trong danh
sách kết quả của máy tìm kiếm (có rank cao hơn)
o Những tài liệu có độ phù hợp cao thường hữu ích hơn so với những tài liệu có
độ phù hợp thấp, và những tài liệu này lại hữu ích hơn so với những tài liệu
không phù hợp.
DCG được hình thành từ một độ đo nguyên thủy hơn, đó là CG (Cumulative Gain).
Cumulative Gain: độ đo CG không quan tâm tới vị trí của kết quả trong tính toán, nó
tính tổng độ phù hợp của tất cả các tài liệu trong danh sách kết quả. Độ đo CG tại một vị
trí p được tính như sau:
ܥܩ ൌݎ݈݁
ୀଵ
Trong đó reli là mức độ phù hợp của kết quả tại vị trí thứ i.
Độ đo CG không bị ảnh hưởng bởi thứ tự sắp xếp các kết quả trong danh sách. Việc
chuyển tài liệu có độ phù hợp cao xuống vị trí thấp không làm thay đổi giá trị CG. Dựa
vào hai giả thiết ở trên về mức hiệu quả của kết quả tìm kiếm, DCG được sử dụng để đem
lại hiệu quả cao hơn.
Discounted cumulative gain: tiền đề của DCG là những tài liệu có độ phù hợp cao
hơn nhưng lại xuất hiện ở những vị trí thấp hơn sẽ dẫn tới một mức “phạt” (penalty) bằng
cách giảm độ phù hợp của tài liệu đi một lượng bằng logarit của vị trí trong kết quả. DCG
tại vị trí p được tính như sau:
ܦܥܩ ൌ ݎ݈݁ଵ
ݎ݈݁
logଶ ݅
ୀଶ
Ngoài ra DCG còn được tính theo công th c: ứ
ܦܥܩ ൌ
2 െ 1
logଶሺ1 ݅ሻ
ୀଶ
32
݊ܦܥܩ ൌ
ܦܥܩ
ܫܦܥܩ
Normalized DCG:
Trong đó: IDCGp (Ideal Discounted cumulative gain) là giá trị DCG trong trường
hợp kết quả đưa ra là hoàn hảo, nhận được khi tất cả các tài liệu đều được xếp đúng vị trí
tương ứng với độ phù hợp của chúng.
Ví dụ: Giả sử có 6 tài liêu a, b, c, d, e, f với các độ phù hợp lần lượt là: 3, 3, 2, 2, 1,
0. Một kết quả xếp hạng được đưa ra như sau: b, c, a, f, e, d.
Ta có: CG6 = 3 + 2 + 3 + 0 + 1 + 2 = 11
DCG6 = 3 + (2 + 1.887 + 0 + 0.431 + 0.772) = 8.09
IDCG = 3 + (3 + 2/1.59 + 2/2 + 1/2.32 + 0) = 8.693
nDCG6 = DCG6/IDCG6 = 8.09/8.693 = 0.9306
Ngoài hai độ đo trên, một số độ đo khác cũng được sử dụng như: trung bình nghịch
đảo thứ hạng (MRR), số đối tượng đúng ở mức k (Match@K), trung bình tổng nghịch đảo
thứ hạng của các đối tượng đúng (MTRR) [2]. Tuy nhiên NDCG và MAP là hai độ đo
khá phổ biến và được sử dụng trong rất nhiều công trình như [11], [19], [29].
3.2 Chủ đề ẩn
Vấn đề biểu diễn dữ liệu một cách hiệu quả để khai thác mối quan hệ giữa các dữ
liệu ngày càng trở nên tinh vi và phức tạp hơn. Đã có rất nhiều nghiên cứu nhằm giải
quyết về vấn đề này. Các mô hình chủ đề ẩn [10] là một bước tiến quan trọng trong việc
i reli log2i reli/log2i
1 3 N/A N/A
2 2 1 2
3 3 1.59 1.887
4 0 2.0 0
5 1 2.32 0.431
6 2 2.59 0.772
33
mô hình quá dữ liệu văn bản. Chúng được dựa trên ý tưởng rằng mỗi tài liệu có một xác
suất phân phối vào các chủ đề, và mỗi chủ đề là sự phân phối kết hợp giữa các từ. Biểu
diễn các từ và tài liệu dưới dạng phân phối xác suất có lợi ích rất lớn so với mô hình
không gian véc tơ thông thường.
Một ý tưởng của các mô hình chủ đề ẩn là xây dựng những tài liệu mới dựa theo
phân phối xác suất. Trước hết, để tạo ra một tài liệu mới, ta cần chọn ra một phân phối
những chủ đề cho tài liệu đó, điều này có nghĩa tài liệu được tạo nên từ những chủ đề
khác nhau, với những phân phối khác nhau. Tiếp đó, để sinh các từ cho tài liệu ta có thể
lựa chọn ngẫu nhiên các từ dựa vào phân phối xác suất của các từ trên các chủ đề.
Một cách hoàn toàn ngược lại, cho một tập các tài liệu, ta có thể xác định một tập
các chủ đề ẩn cho mỗi tài liệu và phân phối xác suất của các từ trên từng chủ đề.
Hai ví dụ về phân tích chủ đề sử dụng mô hình ẩn là Probabilistic Latent Semantic
Analysis (pLSA) and Latent Dirichlet Allocation (LDA).
PLSA là một kĩ thuật thống kê nhằm phân tích những dữ liệu xuất hiện đồng thời
[17]. Nó được phát triển dựa trên LSA kết hợp với một mô hình xác suất. Tuy nhiên, theo
phân tích của Blei và các cộng sự (2003) [10], mặc dù LPSA là một bước quan trọng
trong việc mô hình hóa dữ liệu văn bản, tuy nhiên nó vẫn còn chưa hoàn thiện ở chỗ chưa
xây dựng được một mô hình xác suất tốt ở mức độ tài liệu. Điều đó dẫn đến vấn đề gặp
phải khi phân phối xác suất cho một tài liệu nằm ngoài tập dữ liệu học, ngoài ra số lượng
các tham số có thể tăng lên một cách tuyến tính khi kích thước của tập dữ liệu tăng.
LDA, là một mô hình hoàn thiện hơn so với PLSA và có thể khắc phục được những
nhược điểm ở trên. Mô hình chủ đề ẩn này sẽ được sử dụng trong việc xây dựng hệ thống
của chúng tôi.
3.2.1 Latent Dirichlet Allocation (LDA)
Latent Dirichlet Allocation (LDA) là một mô hình sinh xác suất cho tập dữ liệu rời
rạc như text corpora. LDA dựa trên ý tưởng: mỗi tài liệu là sự trộn lẫn của nhiều chủ đề
(topic). Về bản chất, LDA là một mô hình Bayesian 3 cấp (three-level hierarchical Bayes
model: corpus level, document level, word level) trong đó mỗi phần của mô hình được coi
như một mô hình trộn hữu hạn trên cơ sở tập các xác suất chủ đề [27].
34
3.2.2 Mô hình sinh trong LDA
Cho một corpus của M tài liệu biểu diễn bởi D={d1,d2, …, dM}, trong đó, mỗi tài liệu
m trong corpus bao gồm Nm từ wi rút từ một tập từ vựng của các mục từ {t1, …, tv}, V là
số lượng các mục từ t trong tập từ vựng. LDA cung cấp một mô hình sinh đầy đủ chỉ ra
kết quả tốt hơn các phương pháp trước. Quá trình sinh ra văn bản như sau:
Hình 9. Mô hình biểu diễn của LDA[15]
Các khối vuông trong (Hình 9) biểu diễn các quá trình lặp.
Tham số đầu vào: α và β (corpus-level parameter)
α: Dirichlet prior on (theta) mϑ
r
β: Dirichlet prior on kϕr
r
r
mϑ (theta): phân phối của topic trong document thứ m (document-level parameter).
biểu diễn tham số cho p(z|d=m), thành phần trộn topic cho tài liệu m. Một tỷ lệ cho
mỗi tài liệu,
mϑ { } matrix) K(M Mmm ×=Θ =1ϑr
zm,n: topic index (word n của văn bản m)
wm,n: word n của văn bản m chỉ bởi zm,n (word-level variable, observed word)
kϕr : Phân phối của các từ được sinh từ topic zm,n . kϕr biểu diễn tham số cho p(t|z=k),
thành phần trộn của topic k. Một tỷ lệ cho mỗi topic, { } matrix) V(K Kkk ×=Φ =1ϕr
M: số lượng các tài liệu.
35
Nm: số lượng các từ trong tài liệu thứ m (hay còn gọi là độ dài của văn bản)
K: số lượng các topic ẩn.
LDA sinh một tập các từ wm,n cho các văn bản md
r
bằng cách:
• Với mỗi văn bản m, sinh ra phân phối topic mϑ
r
cho văn bản.
• Với mỗi từ, zm,n được lấy mẫu dựa vào phân phối topic trên.
• Với mỗi topic index zm,n, dựa vào phân phối từ kϕr , được sinh ra. nmw ,
• kϕr được lấy mẫu một lần cho toàn bộ corpus.
Mô hình sinh đầy đủ (đã chú giải) được biểu diễn trong Hình 10.
Hình 10. Mô hình sinh đầy đủ cho LDA [28].
Ở đây, Dir, Poiss and Mult lần lượt là các phân phối Dirichlet, Poisson,
Multinomial. (Lấy mẫu theo phân phối Dirichlet, Poisson, Multinomial).
3.2.3 Ước lượng tham số và suy luận
Cho trước một tập các văn bản, yêu cầu của quá trình này là tìm xem topic model (
, ) nào đã sinh ra tập các văn bản trên. Quá trình ước lượng tham số cho LDA với kỹ
thuật Gibbs Sampling gồm các bước:
kϕr mϑ
r
36
Khởi tạo: lấy mẫu lần đầu. Dưới đây là mã giả của quá trình khởi tạo lấy mẫu lần
đầu:
( )t
zn
( )z
mnzero all count variables, , ,mn , zn
[ ]Mm ,1∈for all documents do
[ ]mNn ,1∈ for all words in document do m
sample topic index ~Mult(1/K) nmz ,
( ) 1+smn increment document-topic count:
1+mn increment document-topic sum:
( ) 1+tsn increment topic-term count:
1+zn increment topic-term sum:
end for
end for
Trong đó: : số topic z trong văn bản m ( )zmn
: tổng số topic trong văn bản m mn
: số term t trong topic z ( )tzn
: tổng số term trong topic z zn
Mỗi lần lấy mẫu cho một từ, các tham số đối với từng term và topic trên lần lượt
được tăng lên.
Giai đoạn burn-in: quá trình lấy mẫu lại cho đến khi đạt được một độ chính xác
nhất định. Mã giả của quá trình này:
while not finished do
[ ]Mm ,1∈ for all documents do
for all words in document do [ mNn ,1∈ ] m
- for the current assignment of to a term t for word : z nmw ,
37
( ) 1−tzn( ) 1−zmn decrement counts and sums: ; 1−mn ; ; 1−zn
- multinomial sampling acc. (decrements from previous step):
( )wzzpz ii rr ,|~~ − sample topic index
- use the new assignment of to the term t for word to: z nmw ,
( ) 1+zm
r
; ; n 1+znr1+tzn r increment counts and sums:
end for
end for
Trong mỗi lần lấy mẫu lại: các tham số tương ứng với các topic và term cũ giảm đi
1, các tham số tương ứng với các topic và term mới tăng lên 1.
Kiểm tra sự hội tụ và đọc ra các tham số: Quá trình kết thúc, đọc các tham số đầu
ra Φvà . Mã giả của quá trình đọc các tham số đầu ra: Θ
if converged and L sampling iterations since last read out then
- the different parameters read outs are averaged
read out parameter set Φacc. to Eq. kϕr
read out parameter set Θ acc. to Eq. mϑ
r
end if
end while
2 phân phối ẩn kϕr và được tính như sau: mϑ
r
( )
( )
v
V
v
v
k
t
t
k
tk
n
n
β
βϕ
+
+=
∑
=1
,
( )
( )
z
K
z
z
m
k
k
m
km
n
n
α
αϑ
+
+=
∑
=1
,
Với mô hình ước lượng LDA đã cho, có thể suy luận chủ đề cho các tài liệu mới
bằng các thủ tục lấy mẫu tương tự.
38
3.3 Mô hình quảng cáo trực tuyến hướng câu truy vấn với sự giúp đỡ của
phân tích chủ đề và kỹ thuật tính hạng
Như đã trình bày ở những chương trước, một bài toán quan trọng của quảng cáo trên
máy tìm kiếm đó là việc xếp hạng các quảng cáo theo độ phù hợp với truy vấn của người
dùng. Từ những phương pháp được trình bày ở Chương II, cho thấy việc lựa chọn các đặc
trưng cho việc biểu diễn quảng cáo là hết sức quan trọng. Có những trường hợp giữa
quảng cáo và từ khóa có sự phù hợp lớn, tuy nhiên tập từ vựng sử dụng trong quảng cáo
và truy vấn là khác nhau. Do vậy, bên cạnh các đặc trưng về từ khóa, việc sử dụng một số
đặc trưng ở mức trừu tượng cao hơn là rất cần thiết. Những nghiên cứu của Andrei và các
cộng sự [11] đã cho thấy, việc sử dụng các đặc trưng mở rộng như phân lớp truy vấn, cụm
từ Prisma đem lại những kết quả khả quan. Đặc biệt là nghiên cứu của Lê Diệu Thu [27]
đã chỉ ra rằng, việc sử dụng chủ đề ẩn trong quảng cáo theo ngữ cảnh nhằm mở rộng tập
từ vựng của quảng cáo cũng như trang web đem lại kết quả rất khả quan.
Trong phần này, ta sẽ trình bày một mô hình quảng cáo trực tuyến trên máy tìm
kiếm sử dụng kĩ thuật phân tích chủ đề ẩn và tính hạng. Khác với mô hình đã được xây
dựng bởi Lê Diệu Thu [27], mô hình của chúng ta được xây dựng nhằm mục đích xếp
hạng quảng cáo trên máy tìm kiếm theo truy vấn của người dùng. Kĩ thuật chủ đề ẩn được
sử dụng trong việc xây dựng những đặc trưng mới để biểu diễn quảng cáo. Ngoài ra, mô
hình còn khai thác một lượng lớn các query logs nhằm xây dựng tập dữ liệu học.
3.3.1 Mô tả bài toán
Bài toán được mô tả như sau: Từ truy vấn của người dùng và một tập các quảng cáo
đã có sẵn, yêu cầu đưa ra K quảng cáo phù hợp nhất với truy vấn.
Input:
- Truy vấn q
- Tập quảng cáo A = {a1, a2, ..., an}
Output:
- K quảng cáo R = {ar1, ar2, ..., ark}
Để giải quyết bài toán, chúng ta xây dựng hàm ranking F như sau:
F: {Q}x{A} Æ [0,1]
39
Với F(q, a) trả về độ phù hợp của quảng cáo a đối với truy vấn q, độ phù hợp càng
lớn quảng cáo sẽ được xếp hạng càng cao.
Zeng [29] và Xu [29] đã chỉ ra rằng, sử dụng thuật toán SVM ranking đem lại kết
quả tốt trong việc xếp hạng cũng như phân cụm kết quả tìm kiếm, khi sử dụng cả truy
vấn, title và snippet (nội dung tóm tắt) trong quá trình học. Trong mô hình này, SVM rank
sẽ được sử dụng để xây dựng hàm xếp hạng F như trên.
3.3.2 Mô hình tổng quan
Từ những nghiên cứu đã được đề cập ở trên, chúng tôi đề xuất hệ thống quảng cáo
trên máy tìm kiếm sử dụng phân tích chủ đề ẩn và kĩ thuật tính hạng. Hệ thống được mô
tả một cách tổng quan như sau.
Model
estimation
(2)
Estimated Model
Topic inference
(6)
Key word
Matching (5)
Ads
Relevant
Ads
New
Training
data (3)
Learn to
rank
model (4)
Ranking
function
(7)
Relevant
Ads
Ranking
Training
data
(1)
Hình 11. Mô hình tổng quan hệ thống quảng cáo sử dụng chủ đề ẩn
Mô hình gồm các bước chính sau:
1) Xây dựng tập dữ liệu học. Tập dữ liệu học được xây dựng bằng cách phân tích
các query logs, thu thập các tiêu đề, mô tả của trang web và coi chúng như một
quảng cáo (tài liệu).
40
2) Xây dựng mô hình chủ đề ẩn, xác định các chủ đề và phân phối xác suất của
các chủ đề trên từng tài liệu.
3) Xây dựng tập dữ liệu học với đặc trưng mới, các đặc trưng ở đây gồm có tần
suất xuất hiện của từ khóa và xác suất để mỗi tài liệu thuộc vào một chủ đề.
4) Xây dựng hàm xếp hạng từ tập dữ liệu học thu được. Hàm xếp hạng được xây
dựng sử dụng thuật toán SVM-Rank.
5) Tìm kiếm các quảng cáo phù hợp với truy vấn.
6) Xác định chủ đề ẩn của quảng cáo và biểu diễn quảng cáo theo đặc trưng mới.
7) Xếp hạng các quảng cáo sử dụng hàm xếp hạng đã được xây dựng từ tập dữ
liệu học.
3.3.3 Xác định đặc trưng cho mô hình
Trong mô hình này, chúng ta coi mỗi quảng cáo (bao gồm nội dung, tiêu đề) là một
tài liệu. Coi các snippet (tiêu đề và mô tả) của trang web là một tài liệu. Giả sử tập tài liệu
của chúng ta là D = {d1, d2, …, dm}. Chúng ta sử dụng các đặc trưng sau trong quá trình
xây dựng hàm ranking nhờ thuật toán SVM-Rank:
Term Frequency / Inverse Document Frequency:
ݐ ݂, ൌ
݊,
∑ ݊,
Term Frequency (TF):
Trong đó: ni,j là tần suất xuất hiện của từ khóa ti trong tài liệu j
Inverse Document F u IDFreq ency ( ):
݅݀ ݂ ൌ log
|ܦ|
|ሼ݀: ݐ א ݀ሽ|
Trong đó: |D| là số lượng tài liệu trong tập D
|{d: ti Є d}| là số lượng tài liệu mà từ khóa ti xuất hiện.
ሺݐ݂ െ ݂݅݀ሻ, ൌ ݐ ݂, ݔ ݅݀ ݂
Chúng ta có:
41
Hidden Topic:
Giả sử chúng ta xác định được K topic từ tập dữ liệu học. Với mỗi tài liệu d, chúng
ta tính các xác suất để tài liệu d thuộc vào topic i là pd(i), với i = 1,k.
Từ đó xác định được véc tơ topic của tài liệu d:
T(d) = [pd1, pd2, …, pdk]
Từ hai đặc trưng trên, chúng ta xây dựng được véc tơ đại diện tài liệu V(d):
V(d) = [tfidf(t1, d), tfidf(t2, d),…,tfidf(tm, d), pd1, pd2, …, pdk]
42
Chương 4. Thực nghiệm và đánh giá
4.1. Dữ liệu
Mô hình sử dụng query log để xây dựng bộ dữ liệu trong quá trình học. Query log là
một phần quan trọng của máy tìm kiếm. Nó ghi lại các hành vi của người dùng trong khi
tìm kiếm, cũng như những mối quan tâm của người dùng đối với mỗi truy vấn. Query log
không chứa các quảng cáo hiển thị ra với người dùng, tuy nhiên nó chứa các truy vấn
được nhập vào, cũng như những kết quả tìm kiếm được người dùng click. Quảng cáo,
thực chất là những tài liệu với tựa đề và phần mô tả cho trang web mà quảng cáo trỏ tới.
Do vậy, chúng ta có thể xem tựa đề và những tóm tắt của trang web (thường được đặt
trong các thẻ meta) như một nội dung quảng cáo và sử dụng trong quá trình học. Việc sử
dụng query log sẽ giúp khai thác rất nhiều thông tin hữu ích từ những hành vi của người
dùng trong khi tìm kiếm.
Chúng tôi sử dụng 1Gb query logs được lấy từ máy tìm kiếm MSN [36] với14 triệu
query & url được click. Các query đều bằng tiếng Anh. Mỗi query log gồm các thông tin
như sau:
- QueryID: số hiệu của query, những query log có cùng số hiệu thì cùng thuộc một
phiên làm việc.
- Query: nội dung query, đây là nội dung query được người dùng nhập vào.
- Time: thời điểm người dùng click vào URL.
- URL: URL được người dùng click.
- Position: vị trí của url được click trong danh sách kết quả trả về.
4.2. Môi trường thực nghiệm
4.2.1 Cấu hình phần cứng
Quá trình thực nghiệm được tiến hành trên máy tính có cấu hình phần cứng như sau:
43
Bảng 2 Cấu hình phần cứng sử dụng trong thực nghiệm
Thành phần Chỉ số
CPU 1 Pentium IV 3.06 GHz
RAM 1.5 GB
OS WindowsXP Service Pack 2
Bộ nhớ ngoài 240GB
4.2.2 Các công cụ được sử dụng
Dưới đây là các công cụ mã nguồn mở được sử dụng trong quá trình thực nghiệm:
Bảng 3. Danh sách các phần mềm mã nguồn mở được sử dụng
STT Tên phần mềm Tác giả Nguồn
1 SVM-Rank Joachims
2 GibbsLDA++ Phan Xuân Hiếu
Ngoài các cộng cụ kể trên, chúng tôi xây dựng các module xử lý bằng ngôn ngữ
Python như sau:
• Module filter: lọc trong 14 triệu query logs, lấy ra 1 triệu query log đầu tiên.
Gom nhóm tất cả các url được trả về bởi cùng một query, tính điểm cho mỗi
URL trên từng phiên làm việc và tổng hợp điểm cho mỗi URL trên tất cả các
phiên làm việc. Sắp xếp các URL theo thứ tự giảm dần về điểm.
• Module crawl: từ các URL thu được bởi module filter, tiến hành crawl nội
dung trang web, phân tích và lấy ra tiêu đề, mô tả của trang web. Chúng ta coi
mô tả và tiêu đề của một trang web là một tài liệu trong bộ dữ liệu học.
• Module normalize: Chuẩn hóa các nội dung thu được bởi module crawl như
loại bỏ từ dừng, các kí hiệu vô nghĩa, các nội dung trống.
44
• Module tfidf: Véc tơ hóa các tài liệu đã thu được theo đặc trưng về tần suất
xuất hiện của từ khóa, TF-IDF.
• Module tfidf_lda: Véc tơ hóa các tài liệu thu được theo đặc trưng về tần suất
xuất hiện của từ khóa, TF-IDF và đặc trưng về xác suất xuất hiện của tài liệu
trong từng chủ đề ẩn.
• Module test: Từ các quảng cáo đã được sắp xếp theo ý kiến người dùng, tiến
hành véc tơ hóa các quảng cáo theo đặc trưng về tần suất xuất hiện các từ
khóa, sau đó xếp hạng các kết quả này bằng hàm xếp hạng. Kết quả trả về sẽ
được so sánh với kết quả người dùng đưa ra và tính toán các độ đo NDCG,
MAP.
• Module test_lda: Từ các quảng cáo đã được sắp xếp theo ý kiến người dùng,
tiến hành suy luận các chủ đề ẩn mà mỗi quảng cáo có thể thuộc vào. Véc tơ
hóa mỗi quảng cáo theo đặc trưng tần suất xuất hiện của từ hóa và đặc trưng
xác suất mỗi quảng cáo thuộc vào các chủ đề ẩn. Xếp hạng các kết quả này
bằng hàm xếp hạng. Kết quả trả về sẽ được so sánh với kết quả người dùng
đưa ra và tính toán các độ đo NDCG, MAP.
4.3. Quá trình thực nghiệm
Quá trình thực nghiệm gồm các bước chính sau đây
• Xử lý dữ liệu: tiền xử lý dữ liệu, xây dựng tập tài liệu học cho mô hình, véc tơ
hóa dữ liệu.
• Xây dựng hàm xếp hạng: tiến hành training trên tập dữ liệu đã có bằng thuật
toán SVM-Rank.
• Xây dựng tập test: thu thập các quảng cáo trên máy tìm kiếm MSN.
• Đánh giá kết quả mô hình: thu thập ý kiến người dùng và so sánh với kết quả
mô hình đưa ra.
4.3.1. Tiền xử lý dữ liệu
Lấy về một triệu query log đầu tiên, trong số query log này, chọn ra tất cả các query
có số click của người dùng lớn hơn 4. Kết quả thu được gồm 30,372 query. Một query có
45
thể được nhiều người dùng nhập vào tại các thời điểm khác nhau. Chúng ta tiến hành tính
điểm cho mỗi URL đối với một query như sau:
o Trong một phiên làm việc, liệt kê các URL được người dùng click vào.
o Gán điểm cho mỗi URL giảm dần từ 100 theo thứ tự click của người dùng. Ví
dụ: với từ khóa yahoo, có 4 url trả về và lần lượt được click theo thứ tự:
Khi đó điểm lần lượt cho 4 URL trong phiên làm việc
đó là 100, 90, 80, 70.
o Tính tổng điểm cho tất cả các URL đối với một query trên các phiên làm việc
khác nhau.
o Với mỗi query, sắp xếp các URL được người dùng click theo thứ tự giảm dần về
điểm. Nếu hai URL có điểm bằng nhau, chúng ta xét đến vị trí (position) của
URL trong số các URL trả về. Kết quả này sẽ được sử dụng trong bước xử lý
tiếp theo.
Cách tính điểm như trên có các đặc điểm sau:
o Những URL được click nhiều sẽ có điểm cao hơn những URL được click ít.
o Những URL trong một phiên làm việc được click trước sẽ có điểm cao hơn
những URL được click sau.
Với cách tính điểm đó, chúng ta khai thác được mối quan tâm của người dùng đối
với một truy vấn.
4.3.2. Thu thập thông tin từ các URL có được
Từ danh sách các URL đã được sắp xếp theo điểm thu được ở trên. Chúng ta tiến
hành lấy về tiêu đề và mô tả của các trang web tương ứng với mỗi URL. Tại bước này, có
thể gặp những trang web đã chết hoặc URL bị hỏng và cần được loại bỏ. Kết hợp nội
dung tiêu đề và mô tả của trang web lại, chúng ta có dữ liệu cho quá trình học. Tiến hành
loại bỏ những URL mà nội dung thu được là rỗng, từ đó chỉ giữ lại những query có từ 4
nội dung kết quả trở lên. Kết thúc bước này thu được danh sách gồm 16,534 query và
83,312 nội dung (tóm tắt) các trang web tương ứng với query đó.
46
Việc sử dụng tiêu đề và mô tả (description) của trang web không hẳn là phương
pháp tối ưu để xây dựng tập dữ liệu học, tuy nhiên nó có thể tốt hơn việc sử dụng toàn bộ
nội dung trang web, điều mà có thể gây nhiễu lớn trong quá trình học.
4.3.3. Véc tơ hóa dữ liệu
Việc véc tơ hóa dữ liệu sẽ được thực hiện trong quá trình trích chọn các đặc trưng
sau:
a) TF-IDF
Tiến hành loại bỏ từ dừng, các kí hiệu, kí tự không có nghĩa, chúng ta thu được
danh sách các từ khóa trong tập dữ liệu. Mỗi từ khóa sẽ được xem như một đặc trưng của
dữ liệu.
Tính toán trọng số cho các dữ liệu tại các đặc trưng theo TF-IDF chúng ta thu được
véc tơ trọng số tf-idf:
D(d) = (tfidf(d, 1), tfidf(d,2), ..., tfidf(d, n))
Với n là số lượng các từ khóa riêng biệt.
b) Chủ đề ẩn
Từ tập dữ liệu đã có, sử dụng công cụ GibbsLDA++ [16] chúng ta thu được danh
sách các chủ đề ẩn và xác suất để một dữ liệu thuộc vào một chủ đề. Chọn số chủ đề là
100. Chúng ta xác định được véc tơ đặc trưng cho chủ đề ẩn đối với mỗi dữ liệu .
H(d) = (pd1, pd2, ..., pd50)
Kết hợp hai véc tơ H(d) và D(d) ở trên, chúng ta thu được véc tơ đại diện dữ liệu
V(d).
4.3.4. Thiết kế thực nghiệm
Để đánh giá sự ảnh hưởng của chủ đề ẩn đối với kết quả xếp hạng chúng ta tiến hành
cài đặt 2 hệ thống xếp hạng như sau:
• Hệ thống thứ nhất sử dụng SVM-Rank chỉ với các đặc trưng về tần suất xuất hiện
của từ khóa trong tài liệu (TF-IDF). Hệ thống này được gọi là RTF.
47
• Hê thống thứ hai sử dụng SVM-Rank với các đặc trưng về tần suất xuất hiện của
từ khóa và các xác suất để tài liệu thuộc vào các chủ đề ẩn. Hệ thống này gọi là
RHT.
Chọn môt số truy vấn, tiến hành tìm kiếm bằng tay trên một vài máy tím kiếm như
MSN, Yahoo, Google. Tổng số truy vấn được sử dụng là 40 truy vấn, về các lĩnh vực
khác nhau như: computer, sport, medicine… Từ các trang kết quả, lấy về 5 quảng cáo cho
mỗi truy vấn. Việc đánh giá mô hình được tiến hành theo hai bước:
• Từ các quảng cáo thu được, tiến hành loại bỏ từ dừng, các kí tự, kí hiệu không có
ý nghĩa. Xác định chủ đề ẩn cho mỗi quảng cáo, tính phân phối xác suất của mỗi
chủ đề trên quảng cáo. Xây dựng véc tơ quảng cáo từ các xác suất thu được và
tần suất xuất hiện của từ khóa trong quảng cáo. Sử dụng công cụ SVM-Rank với
mô hình thu được trong quá trình học để xếp hạng các kết quả.
• Lấy ý kiến đánh giá của người dùng đối với danh sách kết quả thu được theo truy
vấn. Tiến hành lấy ý kiến 5 người dùng, đưa ra cho họ một yêu cầu như: “với
truy vấn như trên, bạn hãy lần lượt click vào các link sau theo thứ tự phù hợp”. Ý
kiến của mỗi người dùng sẽ được sử dụng để xác định một số độ đo cho mô hình,
cuối cùng chúng ta tính kết quả cuối cùng bằng cách lấy trung bình các độ đo.
4.4. Kết quả thực nghiệm
Trước hết chúng ta so sánh trung bình các độ đo trên toàn bộ các truy vấn. Kết quả
cho thấy hệ thống RHT với việc sử dụng chủ đề ẩn đem lại kết quả trung bình cao hơn so
với RTF. Tại các độ đo MAP và NDCG@5 kết quả của RHT lần lượt là 0.75 và 0.84
(Hình 12).
48
0.5
0.55
0.6
0.65
0.7
0.75
0.8
0.85
RTF
RHT
MAP NDCG@1 NDCG@3 NDCG@5
T
vấn kh
H
thống
là 0.84
Hình 12. Trung bình các độ đo trên tất cả các truy vấn
iến hành s
ác nhau.
o sánh trung bình các độ đo NDCG@5 và MAP trên từng số lượng truy
0.805
0.81
0.815
0.82
0.825
0.83
0.835
0.84
0.845
0.85
0.855
Hình 13. T
ình 13 ch
RTF. Giá
tại số truy
rung bình
o thấy trun
trị cực đại đ
vấn 40.
10
độ đo NDC
g bình độ đ
ạt được là
20
49
G@5 tại
o NDCG@
0.85 tại số
30
các sô lượn
5 của hệ t
truy vấn 1
4
g truy vấn
hống RHT
0 và giá trị
0
RTF
RHT
khác nhau
cao hơn so
cựu tiểu đ
với hệ
ạt được
0.7
0.71
0.72
0.73
0.74
0.75
0.76
0.77
0.78
0.79
0.8
10 20 30 40
RTF
RHT
Hình 14. Trung bình độ đo MAP tại các số lượng truy vấn khác nhau
Hình 14 cho thấy trung bình độ đo MAP của RHT cao hơn so với hệ thống RTF. Giá
trị cực đại đạt được là 0.79 tại số truy vấn 10 và cực tiểu là 0.75 tại số truy vấn 40.
Dưới đây là bảng giá trị các độ đo tại một số truy vấn khác nhau trên hệ thống RHT.
Bảng 4. Giá trị các độ đo tại một số truy vấn khác nhau.
Truy vấn MAP NDCG@1 NDCG@3 NDCG@5
paint colors for
bedrooms
0.91 0.93 0.82 0.91
tennis equipment 0.77 0.79 0.68 0.85
baseball bats 0.86 1.0 0.77 0.88
shirt deign 0.75 0.87 0.68 0.87
4.5. Đánh giá kết quả thực nghiệm
Thực nghiệm cho thấy mô hình xếp hạng quảng cáo đã được xây dựng đem lại kết
quả khá tốt. Giá trị trung bình các độ đo NDCG@5 vào khoảng 0.82-0.84 và độ đo MAP
vào khoảng 0.73-0.75.
50
Một số nguyên nhân có thể ảnh hưởng tới kết quả này:
• Việc sử dụng ý kiến người dùng để đánh giá kết quả: mỗi người dùng, đối
với mỗi truy vấn có thể có những mục đích tìm kiếm cũng như mối quan
tâm khác nhau. Điều này dẫn tới việc các kết quả có sự khác biệt lớn giữa
đánh giá của các người dùng.
• Việc sử dụng tiêu đề và mô tả trang web làm dữ liệu học: nội dung tiêu đề
và mô tả của trang web thường có tác dụng cho chúng ta một cái nhìn tổng
quan về trang web đó. Tuy nhiên, với một số trang web được xây dựng
không tốt, không theo tiêu chuẩn, tiêu đề và mô tả của trang web đó có thể
không có hoặc nội dung không liên quan tới nội dung trang web.
Mặt khác, thực nghiệm cũng đưa ra sự so sánh giữa việc sử dụng và không sử dụng
chủ đề ẩn trong việc xếp hạng quảng cáo. Việc sử dụng chủ đề ẩn đem lại kết quả khá khả
quan, trung bình độ đo NDCG@5 tăng 0.2 và MAP tăng 0.2 so với việc không sử dụng
chủ đề ẩn.
Từ những kết quả trên, ta thấy việc sử dụng mô hình chủ đề ẩn nhằm xây dựng các
đặc trưng mới để biểu diễn quảng cáo có tác dụng tốt trong việc xếp hạng quảng cáo theo
truy vấn của người dùng. Ngoài ra, việc khai thác các query logs để xây dựng tập dữ liệu
học giúp mô hình khai thác được mối quan tâm của người dùng đối với từng truy vấn tìm
kiếm.
51
Kết luận
Với tốc độ phát triển nhanh chóng của internet và máy tìm kiếm, việc giải quyết các
vấn đề được đặt ra trong quảng cáo trực tuyến ngày càng trở nên cấp thiết. Bài toán xếp
hạng quảng cáo trên máy tìm kiếm theo truy vấn của người dùng là một vấn đề đang nhận
được nhiều sự quan tâm ngày nay. Mục đích chính của khóa luận này nhằm đưa ra một
phương pháp giải quyết cho bài toán nếu trên theo hướng tiếp cận sử dụng mô hình chủ
đề ẩn.
Khóa luận đã đạt được những kết quả:
• Giới thiệu khái quát về quảng cáo trực tuyến, tình hình quảng cáo trực tuyến
trên thế giới cũng như ở Việt Nam.
• Phân tích một số phương pháp và mô hình đã được sử dụng trong quảng cáo
trực tuyến.
• Đưa ra mô hình quảng cáo trực tuyến hướng câu truy vấn với sự giúp đỡ
của chủ đề ẩn và kỹ thuật xếp hạng. Phương pháp khai thác query logs
nhằm mục đích xây dựng tập dữ liệu học.
• Thực nghiệm và đánh giá kết quả của mô hình được đưa ra. Kết quả cho
thấy trong một số trường hợp mô hình cải tiến độ chính xác tới 0.2.
Do giới hạn về thời gian cũng như kiến thức của tác giả nên khóa luận còn có một số
điểm hạn chế, đó là chưa xây dựng được tập dữ liệu quảng cáo và module tìm kiếm quảng
cáo theo truy vấn của người dùng. Những hạn chế này cần được tiếp tục nghiên cứu để
xây dựng một hệ thống hoàn thiện hơn, có thể áp dụng cho các máy tìm kiếm ở Việt Nam.
52
Tài liệu tham khảo
Tiếng Việt
[1] Bộ Công Thương, Báo cáo thương mại điện tử Việt Nam năm 2008,
[2] Nguyễn Thu Trang. “Học xếp hạng trong tính hạng đối tượng và tạo nhãn cụm tài
liệu”. Luận văn thạc sĩ, Đại học công nghệ, ĐHQGHN, 2008.
[3] Dân Trí, Báo điện tử Dân Trí
[4] Hiệp hội quảng cáo Việt Nam VAA,
[5] Thư viện thông tin Zing Directory, 2008.
[6] Từ điển Bách khoa toàn thư Việt Nam
[7] VnExpress. Báo điện tử trực tuyến Việt Nam,
Tiếng Anh
[8] Advertising Educational Foundation. Advertising & Society Review, Volume 6,
Issue 1. E-ISSN 1154-7311, 2005.
[9] Kevin Amos, director-product development at search-engine marketing firm
Impaqt Oser, 2004.
[10] D. Blei, A. Ng, and M. Jordan. Latent Dirichlet Allocation. Journal of Machine
Learning Research, 3:993-1022, January 2003.
[11] Andrei Z. Broder; Ciccolo, P.; Fontoura, M.; Gabrilovich, E.; Josifovski, V.;
Riedel, L. Search advertising using web relevance feedback. In Proceeding of the
17th ACM conference on Information and knowledge management, 2008. Pages
1013-1022 .
[12] Yunbo Cao, Jun Xu, Tie-yan Liu, Hang Li, Yalou Huang, Hsiao-wuen Hon.
Adapting ranking SVM to document retrieval. In Proceedings of the 29th Annual
International ACM SIGIR Conference on Research and Development in
Information Retrieval, 2006.
53
[13] Chakrabarti, S. “Learning to rank in vector spaces and social networks”. Tutorial -
16th international conference on World Wide Web(2007).
[14] R. Herbrich, T. Graepel, and K. Obermayer. Large Margin Rank Boundaries for
Ordinal Regression. Advances in Large Margin Classifiers, pages 115-132, 2000.
[15] Phan Xuan Hieu, Susumu Horiguchi, Nguyen Le Minh (2008). Learning to
Classify Short and Sparse Text & Web with Hidden Topics from Large-scale Data
Collections, In Proc. of The 17th International World Wide Web Conference,
2008.
[16] Phan Xuan Hieu, “GibbsLDA++: A C/C++ and Gibbs Sampling based
Implementation of Latent Dirichlet Allocation (LDA)”,
2007.
[17] T. Hofmann. Probabilistic LSA. Proc. UAI, 1999.
[18] Ms. Duong Thu Huong, Public Relations & Operations Manager at IDG Ventures
Vietnam based in Ho Chi Minh City, VietnamNet e-newspaper,
[19] K. Jarvelin and J. Kekalainen. IR evaluation methods for retrieving highly relevant
documents. Proceedings of the 23rd annual international ACM SIGIR conference
on Research and development in information retrieval, pages 41-48, 2000.
[20] Kalervo Järvelin & Jaana Kekäläinen University of Tampere Department of
Information Studies Finland. IR evaluation methods for retrieving highly relevant
documents.. 2000.
[21] Joachims, T., Li, H., Liu, T.-Y., and Zhai, C. Learning to rank for information
retrieval (lr4ir 2007). SIGIR Forum 41, 2 (2007), 58- 62.
[22] A. Lacerda, M.Cristo, M.Andre; G., W.Fan, N.Ziviani, and B.Ribeiro-Neto.
Learning to Advertise. In SIGIR06, ACM: Proc.of the 29th annual intl.
ACMSIGIRconf., pages 8. CONCLUSION 549556, NewYork, NY, 2006.
[23] Liu, T.-Y. “Learning to rank in information retrieval”. In WWW '08: Tutorial -
17th international conference on World Wide Web (2008).
54
[24] B.Ribeiro-Neto, M.Cristo,P.B.Golgher, and E.S. de Moura. Impedance Coupling in
Content-targeted Advertising. In SIGIR05, ACM: Proc. Of the 28th annual intl.
ACMSIGIR conf., pages 496503, New York, NY, 2005.
[25] M.Richardson, E. Dominowska, R. Ragno. Predicting Clicks: Estimating the
Click-Through Rate for New Ads. January 2007 In Proceedings of the 16th
International World Wide Web Conference Pages: 521 - 530.
[26] G. Salton, A. Wong, C.S. Yang. A Vector Space Model for Automatic Indexing,
Communication of the ACM, Volum 18, Number 11, 1975.
[27] Le Dieu Thu, On the analysis of large-scale datasets towards online contextual
advertising, thesis in Coltech of Technology, Viet Nam National University, Ha
Noi, Viet Nam, 2008.
[28] Nguyen Cam Tu, (2008). Hidden Topic Discovery Toward Classification And
Clustering In Vietnamese Web Documents. MSc. thesis in Coltech of Technology,
Viet Nam National University, Ha Noi, Viet Nam, 2008.
[29] Jun Xu, Yunbo Cao, Hang Li, Yalou Huang. Cost-sensitive learning of SVM for
ranking. In ECML , 2006.
[30] W.Yih, J.Goodman, andV.R.Carvalho. Finding advertising keywords on web
pages. In WWW06, ACM: Proc. Of the 15th intl. conf. on World Wide Web, pages
213222, NewYork, NY, 2006.
[31] H. J. Zeng, Q. C. He, Z. Chen, W. Y. Ma, J. Ma.Learning to Cluster Web Search
Results.. In Proceedings of the ACM SIGIR Conference, 2004.
[32] CIA Advertising, www.ciaadvertising.org.
[33] Interactive Advertising Bureau (IAB) and Price Water House Coopers (PWC),
Internet Advertising Revenue Report,
[34] Internet Archive,
[35] Joachims SVM-Rank toolkit
[36] Microsoft Social Network MSN,
[37] Nutch: an open-source search engine,
55
56
[38] Online Advertising, news and quality online advertising information,
[39] Wikipedia, The Free Encyclopedia
Các file đính kèm theo tài liệu này:
- LUẬN VĂN-QUẢNG CÁO TRỰC TUYẾN HƯỚNG CÂU TRUY VẤN VỚI SỰ GIÚP ĐỠ CỦA PHÂN TÍCH CHỦ ĐỀ VÀ KỸ THUẬT TÍNH HẠNG.pdf