Đề tài Đánh giá năng lực nghiên cứu của cá nhân, tổ chức dựa trên phân tích, tính toán các chỉ số khoa học

Tài liệu Đề tài Đánh giá năng lực nghiên cứu của cá nhân, tổ chức dựa trên phân tích, tính toán các chỉ số khoa học: ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH ĐẠI HỌC CÔNG NGHỆ THÔNG TIN KHOA HỆ THỐNG THÔNG TIN ------------ KHOÁ LUẬN TỐT NGHIỆP Đề tài: ĐÁNH GIÁ NĂNG LỰC NGHIÊN CỨU CỦA CÁ NHÂN, TỔ CHỨC DỰA TRÊN PHÂN TÍCH, TÍNH TOÁN CÁC CHỈ SỐ KHOA HỌC Giảng viên hướng dẫn: TH.S HUỲNH NGỌC TÍN Cơ quan công tác: ĐẠI HỌC CÔNG NGHỆ THÔNG TIN T.S LƯƠNG PHÚC HIỆP Cơ quan công tác: ĐẠI HỌC ARKANSAS, HOA KỲ Sinh viên thực hiện: TRẦN HƯNG NGHIỆP MSSV: 07520245 Lớp: HTTT02 Khóa: 2007 – 2012 Tp. HCM, tháng 12 năm 2011 ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH ĐẠI HỌC CÔNG NGHỆ THÔNG TIN KHOA HỆ THỐNG THÔNG TIN ------------ KHOÁ LUẬN TỐT NGHIỆP Đề tài: ĐÁNH GIÁ NĂNG LỰC NGHIÊN CỨU CỦA CÁ NHÂN, TỔ CHỨC DỰA TRÊN PHÂN TÍCH, TÍNH TOÁN CÁC CHỈ SỐ KHOA HỌC Giảng viên hướng dẫn: TH.S HUỲNH NGỌC TÍN Cơ quan công tác: ĐẠI HỌC CÔNG NGHỆ THÔNG TIN T.S LƯƠNG PHÚC HIỆP Cơ quan công tác: ĐẠI HỌC ARKANSAS, HOA KỲ Sinh viên thực hiện: TRẦN HƯNG NG...

167 trang | Chia sẻ: haohao | Lượt xem: 1310 | Lượt tải: 0

Bạn đang xem trước 20 trang mẫu tài liệu Đề tài Đánh giá năng lực nghiên cứu của cá nhân, tổ chức dựa trên phân tích, tính toán các chỉ số khoa học, để tải tài liệu gốc về máy bạn click vào nút DOWNLOAD ở trên

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH ĐẠI HỌC CÔNG NGHỆ THÔNG TIN KHOA HỆ THỐNG THÔNG TIN ------------ KHOÁ LUẬN TỐT NGHIỆP Đề tài: ĐÁNH GIÁ NĂNG LỰC NGHIÊN CỨU CỦA CÁ NHÂN, TỔ CHỨC DỰA TRÊN PHÂN TÍCH, TÍNH TOÁN CÁC CHỈ SỐ KHOA HỌC Giảng viên hướng dẫn: TH.S HUỲNH NGỌC TÍN Cơ quan công tác: ĐẠI HỌC CÔNG NGHỆ THÔNG TIN T.S LƯƠNG PHÚC HIỆP Cơ quan công tác: ĐẠI HỌC ARKANSAS, HOA KỲ Sinh viên thực hiện: TRẦN HƯNG NGHIỆP MSSV: 07520245 Lớp: HTTT02 Khóa: 2007 – 2012 Tp. HCM, tháng 12 năm 2011 ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH ĐẠI HỌC CÔNG NGHỆ THÔNG TIN KHOA HỆ THỐNG THÔNG TIN ------------ KHOÁ LUẬN TỐT NGHIỆP Đề tài: ĐÁNH GIÁ NĂNG LỰC NGHIÊN CỨU CỦA CÁ NHÂN, TỔ CHỨC DỰA TRÊN PHÂN TÍCH, TÍNH TOÁN CÁC CHỈ SỐ KHOA HỌC Giảng viên hướng dẫn: TH.S HUỲNH NGỌC TÍN Cơ quan công tác: ĐẠI HỌC CÔNG NGHỆ THÔNG TIN T.S LƯƠNG PHÚC HIỆP Cơ quan công tác: ĐẠI HỌC ARKANSAS, HOA KỲ Sinh viên thực hiện: TRẦN HƯNG NGHIỆP MSSV: 07520245 Lớp: HTTT02 Khóa: 2007 – 2012 Tp. HCM, tháng 12 năm 2011 MỞ ĐẦU Khoa học hiện nay đang phát triển rất mạnh, cùng với đó là số lượng bài báo khoa học ngày càng tăng lên. Việc quản lý và khai thác các bài báo khoa học này một cách hiệu quả là một nhu cầu tất yếu cho sự phát triển bền vững của khoa học với tinh thần “đứng trên vai những người khổng lồ”. Hiện nay trên thế giới đã có nhiều hệ thống được xây dựng để thực hiện việc này, chức năng chính của chúng là lưu trữ và tìm kiếm các bài báo phù hợp với các tiêu chí nhất định. Ở đề tài này chúng tôi khảo sát các hệ thống có sẵn này ở khía cạnh nội dung, tính năng, cùng với các giải thuật tìm kiếm, xếp hạng của chúng, sau đó xây dựng mô hình ứng dụng các chỉ số xếp hạng trong việc đánh giá các cá nhân, tổ chức và bước đầu tiến hành thử nghiệm trên các cá nhân, tổ chức làm việc trong lĩnh vực công nghệ thông tin ở Tp. Hồ Chí Minh. Từ đó đề xuất xây dựng một hệ thống thư viện điện tử thực tế có các đặc trưng cần thiết để ứng dụng các chỉ số này phục vụ người dùng ở Việt Nam. LỜI CẢM ƠN Lời đầu tiên em xin gửi lòng biết ơn chân thành đến thầy Huỳnh Ngọc Tín và thầy đồng hướng dẫn Lương Phúc Hiệp. Hai thầy đã tận tình hướng dẫn, góp ý, động viên em rất nhiều trong quá trình làm luận văn. Qua đó, em đã thật sự học hỏi được rất nhiều và trưởng thành hơn trong tư duy và nhận thức. Em xin gửi lời cảm ơn tất cả các thầy cô đã giảng dạy, truyền đạt kiến thức và những kinh nghiệm quý báu cho em suốt những năm học vừa qua. Em cảm ơn khoa Hệ thống Thông tin trường Đại học Công nghệ Thông tin đã tạo điều kiện cho em thực hiện đề tài này. Em cũng xin cảm ơn các bạn đã nhiệt tình giúp đỡ em trong suốt quá trình thực hiện đề tài này. Cuối cùng, em xin gửi lời cảm ơn đến gia đình đã tạo mọi điều kiện thuận lợi về vật chất và tinh thần, giúp em hoàn thành luận văn một cách tốt nhất. Mặc dù em đã cố gắng để hoàn thành tốt đề tài, nhưng chắc chắn không tránh khỏi những thiếu sót, em rất mong được sự tận tình chỉ bảo của quý thầy cô. Tp. Hồ Chí Minh, tháng 12 năm 2011 Sinh viên thực hiện Trần Hưng Nghiệp NHẬN XÉT (Của giảng viên hướng dẫn) ........................................................................................................... ........................................................................................................... ........................................................................................................... ........................................................................................................... ........................................................................................................... ........................................................................................................... ........................................................................................................... ........................................................................................................... ........................................................................................................... ........................................................................................................... ........................................................................................................... ........................................................................................................... ........................................................................................................... ........................................................................................................... ........................................................................................................... ........................................................................................................... ........................................................................................................... ........................................................................................................... ........................................................................................................... ........................................................................................................... ........................................................................................................... NHẬN XÉT (Của giảng viên phản biện) ........................................................................................................... ........................................................................................................... ........................................................................................................... ........................................................................................................... ........................................................................................................... ........................................................................................................... ........................................................................................................... ........................................................................................................... ........................................................................................................... ........................................................................................................... ........................................................................................................... ........................................................................................................... ........................................................................................................... ........................................................................................................... ........................................................................................................... ........................................................................................................... ........................................................................................................... ........................................................................................................... ........................................................................................................... ........................................................................................................... ........................................................................................................... NHẬN XÉT (Của hội đồng) ........................................................................................................... ........................................................................................................... ........................................................................................................... ........................................................................................................... ........................................................................................................... ........................................................................................................... ........................................................................................................... ........................................................................................................... ........................................................................................................... ........................................................................................................... ........................................................................................................... ........................................................................................................... ........................................................................................................... ........................................................................................................... ........................................................................................................... ........................................................................................................... ........................................................................................................... ........................................................................................................... ........................................................................................................... ........................................................................................................... ........................................................................................................... MỤC LỤC MỞ ĐẦU ......................................................................................................i LỜI CẢM ƠN ............................................................................................... ii MỤC LỤC .................................................................................................... vi DANH MỤC CÁC BẢNG ............................................................................ix DANH MỤC CÁC BIỂU ĐỒ ......................................................................xi DANH MỤC CÁC HÌNH .......................................................................... xii DANH MỤC CÁC SƠ ĐỒ ......................................................................... xiv Chương 1: TỔNG QUAN VỀ ĐỀ TÀI ......................................................... 1 1.1 Đánh giá hiện trạng ............................................................................... 1 1.2 Phát biểu bài toán .................................................................................. 2 1.3 Mục tiêu đề tài ....................................................................................... 3 1.4 Cấu trúc báo cáo .................................................................................... 3 Chương 2: CÁC NGHIÊN CỨU VÀ ỨNG DỤNG LIÊN QUAN............... 4 2.1 Giới thiệu ................................................................................................ 4 2.2 Web crawler ........................................................................................... 4 2.3 Các phương pháp xếp hạng phổ biến .................................................. 5 2.3.1 Giới thiệu ......................................................................................... 5 2.3.2 PageRank ......................................................................................... 6 2.3.3 PopRank ........................................................................................ 13 2.4 Các chỉ số xếp hạng phổ biến ............................................................. 19 2.4.1 Giới thiệu ....................................................................................... 19 2.4.2 Các chỉ số phân tích tài liệu chuẩn (Standard bibliometric indicators) 19 2.4.3 H-type indexes ............................................................................... 22 2.4.4 A-type indexes ............................................................................... 29 2.5 Các hệ thống liên quan ........................................................................ 33 2.5.1 Giới thiệu ....................................................................................... 33 2.5.2 IEEEXplore ................................................................................... 33 2.5.3 Association for Computing Machinery (ACM) ............................ 36 2.5.4 SpringerLink .................................................................................. 40 2.5.5 Microsoft Academic Search (MAS) .............................................. 43 2.5.6 Google Scholar .............................................................................. 49 2.5.7 CiteSeerX ...................................................................................... 52 Chương 3: CÁCH TIẾP CẬN CỦA ĐỀ TÀI ............................................. 56 3.1 Mở đầu .................................................................................................. 56 3.2 Thảo luận về các chỉ số xếp hạng ....................................................... 56 3.3 Thảo luận về các phương pháp xếp hạng .......................................... 57 3.4 Phân tích cải tiến các hệ thống thư viện điện tử ............................... 58 3.5 Cách tiếp cận của đề tài ...................................................................... 60 Chương 4: HIỆN THỰC HỆ THỐNG ...................................................... 62 4.1 Mở đầu .................................................................................................. 62 4.2 Chương trình thu thập dữ liệu ........................................................... 62 4.2.1 Khảo sát hiện trạng ........................................................................ 62 4.2.2 Phân tích thiết kế ........................................................................... 63 4.2.3 Cài đặt ............................................................................................ 82 4.2.4 Kết quả........................................................................................... 86 4.3 Chương trình tính toán các chỉ số xếp hạng ..................................... 87 4.3.1 Khảo sát hiện trạng ........................................................................ 87 4.3.2 Phân tích thiết kế ........................................................................... 87 4.3.3 Cài đặt ............................................................................................ 96 4.3.4 Kết quả........................................................................................... 97 4.4 Hệ thống thư viện điện tử ................................................................. 102 4.4.1 Khảo sát hiện trạng ...................................................................... 102 4.4.2 Phân tích thiết kế ......................................................................... 102 4.4.3 Cài đặt .......................................................................................... 104 4.4.4 Kết quả......................................................................................... 107 Chương 5: THỰC NGHIỆM VÀ ĐÁNH GIÁ ......................................... 110 5.1 Mở đầu ................................................................................................ 110 5.2 Thu thập danh sách giảng viên ........................................................ 110 5.3 Chuẩn hóa dữ liệu giảng viên và nhập liệu ..................................... 113 5.4 Chương trình thu thập dữ liệu chỉ mục .......................................... 114 5.4.1 Khảo sát hiện trạng ...................................................................... 114 5.4.2 Phân tích thiết kế ......................................................................... 115 5.4.3 Cài đặt .......................................................................................... 122 5.4.4 Kết quả......................................................................................... 124 5.5 Kiểm tra dữ liệu ................................................................................. 125 5.6 Tính toán các chỉ số xếp hạng ........................................................... 127 5.6.1 Mở đầu ......................................................................................... 127 5.6.2 Phân tích thiết kế ......................................................................... 127 5.6.3 Cài đặt .......................................................................................... 131 5.7 Đánh giá kết quả ................................................................................ 131 5.7.1 Kết quả tính toán ......................................................................... 131 5.7.2 Nhận xét và đề xuất một số cải tiến ............................................ 143 Chương 6: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN .............................. 146 6.1 Kết quả đạt được ............................................................................... 146 6.2 Hạn chế và hướng phát triển ............................................................ 146 6.2.1 Hạn chế ........................................................................................ 146 6.2.2 Hướng phát triển .......................................................................... 147 DANH MỤC TÀI LIỆU THAM KHẢO .................................................. 148 DANH MỤC CÁC BẢNG Bảng 2.1 – Thông tin chi tiết IEEEXplore. ..................................................... 34 Bảng 2.2 – Thông tin chi tiết ACM. ................................................................ 36 Bảng 2.3 – Thông tin chi tiết về SpringerLink. ............................................... 40 Bảng 2.4 – Thông tin chi tiết về MAS. ............................................................ 43 Bảng 2.5 – Thông tin chi tiết về Google Scholar. ........................................... 50 Bảng 2.6 – Thông tin chi tiết về CiteSeerX. .................................................... 53 Bảng 3.1 – So sánh các hệ thống thư viện điện tử. ......................................... 58 Bảng 4.1 – Các mẫu url được dùng trong crawler........................................... 66 Bảng 4.2 – Các mẫu dùng trong phân tích html để lấy dữ liệu. ...................... 67 Bảng 4.3 – Mã giả thuật giải của crawler cho trang MAS. ............................. 70 Bảng 4.4 – Mô tả các bảng trong cơ sở dữ liệu của crawler. .......................... 74 Bảng 4.5 – Kết quả thu thập dữ liệu đến ngày 27 tháng 01 năm 2012. .......... 86 Bảng 4.6 – Các chỉ số được cài đặt cho các loại đối tượng. ............................ 87 Bảng 4.7 – Mô tả chi tiết các bảng lưu dữ liệu tính toán các chỉ số. ............... 91 Bảng 4.8 – Dữ liệu mẫu 1 dùng để tính toán các chỉ số đánh giá. .................. 97 Bảng 4.9 – Dữ liệu mẫu 2 dùng để tính toán các chỉ số đánh giá. .................. 98 Bảng 4.10 – Cấu hình phần cứng 1 ................................................................. 98 Bảng 4.11 – Cấu hình phần cứng 2 ................................................................. 99 Bảng 4.12 – Kết quả thử nghiệm cài đặt các chỉ số. ....................................... 99 Bảng 5.1 – Các tổ chức và nguồn dữ liệu danh sách giảng viên tương ứng. .............................................................................................. 111 Bảng 5.2 – Thuật giải của quy trình thu thập dữ liệu. ................................... 117 Bảng 5.3 – Các mẫu url được dùng trong crawler......................................... 119 Bảng 5.4 – Các mẫu dùng trong phân tích html để lấy dữ liệu. .................... 120 Bảng 5.5 – Kết quả thu thập dữ liệu chỉ mục. ............................................... 125 Bảng 5.6 – Các chỉ số được cài đặt cho các loại đối tượng. .......................... 127 Bảng 5.7 – Kết quả tính toán số lượng giảng viên. ....................................... 131 Bảng 5.8 – Kết quả tính toán số lượng bài báo. ............................................ 132 Bảng 5.9 – Kết quả tính toán số lượng trích dẫn. .......................................... 134 Bảng 5.10 – Kết quả tính toán số trích dẫn trung bình của một bài báo. ...... 135 Bảng 5.11 – Kết quả tính toán chỉ số H-index. ............................................. 137 Bảng 5.12 – Kết quả tính toán chỉ số G-index. ............................................. 138 Bảng 5.13 – Tổng hợp kết quả tính toán. ...................................................... 140 Bảng 5.14 – Tổng hợp kết quả xếp hạng. ...................................................... 142 DANH MỤC CÁC BIỂU ĐỒ Biểu đồ 4.1 – Biểu đồ thời gian tính toán các chỉ số. .................................... 101 Biểu đồ 5.1 – Biểu đồ số lượng giảng viên các tổ chức. ............................... 132 Biểu đồ 5.2 – Biểu đồ số lượng bài báo của các tổ chức............................... 133 Biểu đồ 5.3 – Biểu đồ số lượng số lượng trích dẫn của các tổ chức. ............ 135 Biểu đồ 5.4 – Biểu đồ số trích dẫn trung bình của một bài báo của các tổ chức. ............................................................................................. 136 Biểu đồ 5.5 – Biểu đồ H-index các tổ chức. .................................................. 138 Biểu đồ 5.6 – Biểu đồ G-index các tổ chức. .................................................. 139 Biểu đồ 5.7 – Biểu đồ tổng hợp kết quả tính toán các tổ chức. ..................... 141 Biểu đồ 5.8 – Biểu đồ tổng hợp kết quả xếp hạng các tổ chức. .................... 143 DANH MỤC CÁC HÌNH Hình 2.1 – Kiến trúc cấp cao của một web crawler chuẩn. ............................... 5 Hình 2.2 – Mô phỏng nguyên lý PageRank. ..................................................... 7 Hình 2.3 – Các loại liên kết với bài báo khoa học. ......................................... 14 Hình 2.4 – Giải thuật SAFA. ........................................................................... 17 Hình 2.5 – Giải thuật xác định khoảng cách k. ............................................... 18 Hình 2.6 – Mô phỏng định nghĩa h-index. ...................................................... 23 Hình 2.7 – Trang chủ thư viện số IEEEXplore. .............................................. 35 Hình 2.8 – Kết quả tìm kiếm IEEEXplore với từ khóa “data”. ....................... 36 Hình 2.9 – Trang chủ của thư viện số ACM. .................................................. 38 Hình 2.10 – Tìm kiếm chi tiết của ACM. ........................................................ 39 Hình 2.11 – Kết quả trả về khi tìm kiếm ACM với từ khóa “data”. ............... 40 Hình 2.12 – Trang chủ thư viện số SpringerLink. ........................................... 42 Hình 2.13 – Chức năng tìm kiếm nâng cao SpringerLink. .............................. 42 Hình 2.14 – Kết quả tìm kiếm thư viện SpringerLink với từ khóa “data”. ..... 43 Hình 2.15 – Khung tìm kiếm cơ bản của MAS. .............................................. 45 Hình 2.16 – Tìm kiếm theo lĩnh vực ở MAS. .................................................. 45 Hình 2.17 – Khung tìm kiếm nâng cao MAS. ................................................. 45 Hình 2.18 – Chức năng cho người dùng chỉnh sửa thông tin MAS. ............... 46 Hình 2.19 – Chức năng quản lý các “call for paper” MAS. ............................ 46 Hình 2.20 – Chức năng biểu diễn mối quan hệ các tác giả theo đồ thị MAS. .............................................................................................. 47 Hình 2.21 – Xem nội dung trích dẫn MAS. .................................................... 48 Hình 2.22 – Xem xu hướng nghiên cứu khoa học trong các lĩnh vực MAS. .............................................................................................. 49 Hình 2.23 – Xem thông tin bổ sung về tổ chức của tác giả MAS. .................. 49 Hình 2.24 – Khung tìm kiếm cơ bản của Google Scholar............................... 51 Hình 2.25 – Khung tìm kiếm nâng cao của Google Scholar. .......................... 52 Hình 2.26 – Kết quả tìm kiếm các bài báo và bằng sáng chế với từ khóa “data”. ............................................................................................ 52 Hình 2.27 – Khung tìm kiếm cơ bản của CiteSeerX. ...................................... 54 Hình 2.28 – Khung tìm kiếm nâng cao của CiteSeerX. .................................. 55 Hình 2.29 – Kết quả tìm kiếm CiteSeerX với từ khóa “data”. ........................ 55 Hình 4.1 – Duyệt danh sách các đối tượng trên trang MAS. .......................... 63 Hình 4.2 – Màn hình chính của hệ thống PubGuru. ...................................... 108 Hình 4.3 – Màn hình tìm kiếm nâng cao của hệ thống PubGuru. ................. 108 Hình 4.4 – Kết quả tìm kiếm PubGuru với từ khóa “data”. .......................... 109 Hình 5.1 – Tìm kiếm tác giả trên MAS với từ khóa “Hoang Van Kiem”. .... 115 Hình 5.2 – Mô hình hoạt động của chương trình ở bước một. ...................... 118 Hình 5.3 – Mô hình hoạt động của chương trình ở bước ba. ........................ 118 DANH MỤC CÁC SƠ ĐỒ Sơ đồ 4.1 – Mô hình hoạt động của crawler. ................................................... 64 Sơ đồ 4.2 – Mô hình ERD cơ sở dữ liệu của chương trình. ............................ 73 Sơ đồ 4.3 – Kiến trúc phân tầng của hệ thống thu thập dữ liệu. ..................... 83 Sơ đồ 4.4 – Mô hình các bảng lưu dữ liệu tính toán các chỉ số. ..................... 90 Sơ đồ 4.5 – Sơ đồ cấu trúc hệ thống PubGuru. ............................................. 103 Sơ đồ 4.6 – Kiến trúc MVC Model 2 của hệ thống. ...................................... 105 Sơ đồ 5.1 – Mô hình ERD cơ sở dữ liệu của chương trình. .......................... 121 Sơ đồ 5.2 – Kiến trúc phân tầng của hệ thống thu thập dữ liệu. ................... 123 Sơ đồ 5.3 – Mô hình các bảng lưu dữ liệu tính toán các chỉ số. ................... 130 Khóa luận tốt nghiệp Th.S Huỳnh Ngọc Tín Trang 1 Trần Hưng Nghiệp T.S Lương Phúc Hiệp CHƯƠNG 1: TỔNG QUAN VỀ ĐỀ TÀI 1.1 Đánh giá hiện trạng Theo một nghiên cứu của tác giả Arif Jinha [Jin2010], tổng số lượng bài báo khoa học đã xuất bản trên thế giới trong tất cả các lĩnh vực đến thời điểm đầu năm 2010 là vào khoảng hơn 50 triệu, và ước lượng hiện nay vào tháng 12 năm 2011 là vào khoảng 54 triệu. Số lượng bài báo khoa học đang ngày càng tăng, và tốc độ tăng cũng ngày càng nhanh. Vào năm 2008, có khoảng 1434352 bài báo khoa học được xuất bản, con số này vào năm 2009 là 1477383 bài. Tỉ lệ tăng hằng năm số lượng công trình nghiên cứu trên toàn thế giới vào khoảng 3%. Scopus 1 , một cơ sở dữ liệu chứa các bài báo khoa học trên mọi lĩnh vực, cho biết mình có khoảng 46 triệu chỉ mục (7/2011). ISI - Web of Knowledge2, một cơ sở dữ liệu khác, chứa khoảng 49,4 triệu bài báo khoa học (2011). Microsoft Academic Research (MAS) 3 chứa khoảng 36,7 triệu bài báo khoa học với hơn 18,8 triệu tác giả (12/2011). Trước sự tăng trưởng đáng kể về số lượng, việc lưu trữ và hỗ trợ tìm kiếm bài báo khoa học trở thành một nhu cầu thiết yếu. Nhiều thư viện điện tử đã được phát triển để phục vụ nhu cầu này. Một số thư viện lớn thương mại hóa có thể kể đến như Institute of Electrical and Electronics Engineers (IEEE)4, Association for Computing Machinery (ACM) 5 , SpringerLink 6… Những thư viện miễn phí gồm có Microsoft Academic Research (MAS), Google Scholar7, 1 2 3 4 5 6 7 Khóa luận tốt nghiệp Th.S Huỳnh Ngọc Tín Trang 2 Trần Hưng Nghiệp T.S Lương Phúc Hiệp CiteSeer 8… Mỗi thư viện này có các đặc trưng khác nhau về nội dung cũng như các tính năng và sự hiệu quả khi sử dụng. Sự đa dạng của các thư viện điện tử cung cấp nhiều khả năng lựa chọn cho người dùng. Tuy nhiên, khi có quá nhiều lựa chọn, người dùng có thể bối rối và khó đưa ra quyết định [Sch2003]. Quyết định lựa chọn thư viện điện tử nào quan trọng vì nó ảnh hưởng đến thói quen làm việc của người dùng, cũng như chất lượng công việc của họ. Việc sử dụng nhiều thư viện điện tử một lúc có thể là một ý kiến hay, tuy nhiên nó sẽ khiến người dùng phải lặp lại các thao tác với kết quả phần lớn giống nhau, và phải tự tổng hợp các kết quả này. Sự lựa chọn còn có ý nghĩa kinh tế khi người dùng sử dụng các thư viện có trả phí. 1.2 Phát biểu bài toán Sự lựa chọn thư viện điện tử nào phù hợp nhất phải dựa trên cơ sở so sánh về nội dung và tính năng của chúng, một hệ thống thư viện điện tử muốn được đánh giá cao còn phải đáp ứng được các yêu cầu đặc trưng cho một nhóm người dùng nhất định. Mục đích của đề tài là thiết kế các tính năng cho một hệ thống thư viện điện tử phục vụ người dùng Việt Nam. Mỗi hệ thống đều xây dựng tính năng của nó dựa trên các nền tảng khác nhau về dữ liệu, các thuật toán, các tiêu chí đánh giá và các chỉ số xếp hạng. Vì vậy, việc lựa chọn hay cao hơn là xây dựng, hiệu chỉnh các chỉ số xếp hạng này là một vấn đề hay và vẫn đang được quan tâm nghiên cứu. Ở đề tài này chúng tôi sẽ khảo sát các hệ thống có sẵn này ở khía cạnh nội dung, tính năng, cùng với các giải thuật tìm kiếm, xếp hạng của chúng. Sau đó chúng tôi sẽ thu thập một lượng lớn dữ liệu chỉ mục trong lĩnh vực công nghệ thông tin, đồng thời xây dựng mô hình ứng dụng và tính toán các chỉ số xếp hạng trong việc đánh giá các cá nhân, tổ chức và bước đầu tiến hành thử nghiệm trên các cá nhân, tổ chức làm việc trong lĩnh vực công nghệ thông tin ở 8 Khóa luận tốt nghiệp Th.S Huỳnh Ngọc Tín Trang 3 Trần Hưng Nghiệp T.S Lương Phúc Hiệp Tp. Hồ Chí Minh. Từ đó đề xuất xây dựng một hệ thống thư viện điện tử thực tế có các đặc trưng cần thiết để ứng dụng các chỉ số này phục vụ người dùng ở Việt Nam. 1.3 Mục tiêu đề tài Dựa trên ngữ cảnh bài toán, mục tiêu chính đề tài của chúng tôi là thu thập và tổ chức một lượng lớn dữ liệu chỉ mục trong lĩnh vực công nghệ thông tin. Đồng thời xây dựng mô hình ứng dụng và tính toán các chỉ số đánh giá xếp hạng. Sau đó đề xuất xây dựng một hệ thống thư viện điện tử thực tế có các đặc trưng cần thiết để phục vụ môi trường nghiên cứu ở Việt Nam. Đề tài cũng sẽ tiến hành thực nghiệm các chỉ số trên dữ liệu chỉ mục về các tổ chức làm việc trong lĩnh vực công nghệ thông tin ở Tp. Hồ Chí Minh. 1.4 Cấu trúc báo cáo Cấu trúc báo cáo được mô tả theo trình tự sau. Ở chương I, chúng tôi giới thiệu tổng quan về ngữ cảnh bài toán cũng như mục tiêu đề tài. Chương II, chúng tôi khảo sát các nghiên cứu liên quan. Chương III nêu cách tiếp cận của đề tài. Chương IV, chúng tôi trình bày về các chương trình được hiện thực và đề xuất xây dựng hệ thống thư viện điện tử. Chương V sẽ trình bày một case study về việc thực nghiệm đánh giá các tổ chức làm việc trong lĩnh vực công nghệ thông tin ở Tp. Hồ Chí Minh và nêu một số đánh giá, đề xuất cải tiến. Phần kết luận và một số hướng phát triển được trình bày trong chương V. Khóa luận tốt nghiệp Th.S Huỳnh Ngọc Tín Trang 4 Trần Hưng Nghiệp T.S Lương Phúc Hiệp CHƯƠNG 2: CÁC NGHIÊN CỨU VÀ ỨNG DỤNG LIÊN QUAN 2.1 Giới thiệu Trên thế giới hiện nay có khá nhiều thư viện điện tử phục vụ người dùng. Nền tảng của việc tìm kiếm hiệu quả ở các thư viện điện tử này chính là các chỉ số xếp hạng và các phương pháp xếp hạng. Các chỉ số này có thể là thô sơ như số lượng các bài báo của một tác giả, số trích dẫn của một bài báo. Nó cũng có thể phức tạp hơn một chút như H-Index, G-Index khi nó tính toán tổng thể các số liệu thành phần của một tác giả hay một tổ chức để có một chỉ số đánh giá tổng hợp. Các phương pháp xếp hạng phổ biến có thể kể đến như PageRank, PopRank. Chương này tiến hành khảo sát đánh giá các phương pháp xếp hạng và các chỉ số từ đơn giản đến phức tạp. Chương này cũng sẽ khảo sát một số thư viện điện tử cụ thể trên các khía cạnh nội dung, tính năng, công nghệ, nền tảng thuật toán, tiêu chí xếp hạng tìm kiếm bài báo khoa học. Để phục vụ cho việc xây dựng dữ liệu chỉ mục, web crawler cũng sẽ được giới thiệu. 2.2 Web crawler Theo định nghĩa trên Wikipedia [WikiWC] thì Web Crawler hay ant, automatic indexer, bot, Web spider, Web robot, Web scutter, là một chương trình hoặc đoạn mã có khả năng tự động duyệt các trang Web theo một phương thức tự động được cài đặt trước. Web Crawler thường được sử dụng để thu thập tài nguyên (như tin tức, hình ảnh, video …) trên Internet một cách cập nhật [TC2011]. Quá trình thực hiện của Web Crawler là Web Crawling hay Web Spidering. Hầu hết các công cụ tìm kiếm online hiện nay đều sử dụng quá trình này để thu thập và cập nhập kho dữ liệu phục vụ nhu cầu tìm kiếm của người dùng. Web Crawler bắt đầu từ danh sách các địa chỉ URL được cung cấp trước gọi là hạt giống (seeds), đây là những địa chỉ Web mà người dùng muốn thu thập thông tin. Hệ thống sẽ vào địa chỉ này, lọc thông tin rồi tìm ra các địa chỉ URL khác theo một phương thức nhất định nào đó (dựa vào những liên kết có bên trong các seeds). Sau đó thêm chúng vào danh sách các địa chỉ đã được duyệt qua gọi Khóa luận tốt nghiệp Th.S Huỳnh Ngọc Tín Trang 5 Trần Hưng Nghiệp T.S Lương Phúc Hiệp là Crawl frontier. Hệ thống sẽ lặp lại quá trình trước đó để duyệt qua những URL mới. Quá trình Crawling trên internet có thể sẽ qua rất nhiều địa chỉ Website và thu thập rất nhiều nội dung khác nhau từ các địa chỉ đó. Hình sau mô tả kiến trúc của một web crawler chuẩn [WikiWC]: Hình 2.1 – Kiến trúc cấp cao của một web crawler chuẩn. Trong đề tài này, Web Crawler được xây dựng để thu thập dữ liệu các bài báo từ thư viện số Microsoft Academic Search (MAS), sau đó xây dựng cơ sở dữ liệu để xây dựng hệ thống thử nghiệm. Hệ thống crawler sẽ rút trích thông tin chỉ mục của bài báo bằng cách sử dụng các trình phân tích kết hợp với các luật đã được định nghĩa trước. 2.3 Các phương pháp xếp hạng phổ biến 2.3.1 Giới thiệu Trong số các phương pháp xếp hạng dựa trên việc phân tích mạng thì nổi tiếng nhất có lẽ là thuật toán PageRank của Google với ứng dụng trong máy Khóa luận tốt nghiệp Th.S Huỳnh Ngọc Tín Trang 6 Trần Hưng Nghiệp T.S Lương Phúc Hiệp tìm kiếm Google Search. Chính PageRank đã giúp Google Search đánh bại các đối thủ của nó trên thị trường tìm kiếm trên internet ngay khi mới ra đời và giúp Google lớn mạnh như ngày nay. Sau này có một số thuật toán khác tương tự PageRank được đề xuất và cũng khá thành công khi ứng dụng thực tế. Tuy nhiên các thuật toán thuộc nhóm PageRank có một số nhược điểm nhất định khi xếp hạng các đối tượng, sau này nhiều thuật toán khác đã ra đời để khắc phục các điểm yếu này, nổi bật trong đó có PopRank. Phần này sẽ khảo sát hai thuật toán là PageRank và PopRank. 2.3.2 PageRank a) Giới thiệu thuật toán PageRank PageRank là một phương pháp rất nổi tiếng để xếp hạng các đối tượng trong một đồ thị các đối tượng liên kết với nhau. PageRank là một thuật toán phân tích liên kết (link) được Lary Page và cộng sự phát triển tại trường đại học Stanford (Mỹ) và được sử dụng lần đầu cho máy tìm kiếm Google để xếp hạng các trang web. PageRank cũng có thể dùng để xếp hạng các đối tượng khác như các bài báo khoa học (sẽ trình bày rõ hơn ở phần c) mục 2.2.1 này). Một cách trực giác, chúng ta có thể thấy rằng trang chủ của Yahoo! thì quan trọng hơn trang chủ của một cá nhân A nào đó. Điều này được phản ánh qua số lượng các trang có liên kết đến trang chủ của Yahoo! nhiều hơn số trang có liên kết tới trang chủ của cá nhân A. Do đó, ta có thể dùng số lượng các liên kết đến một trang để tính độ quan trọng của trang đó. Tuy nhiên, cách này sẽ không hoạt động tốt khi người ta có thể dễ dàng tạo ra các trang Web có liên kết đến một trang Web nào đó và như vậy hạng của trang này sẽ trở nên cao hơn. PageRank phát triển thêm vào ý tưởng cũ bằng cách chú ý đến độ quan trọng của các trang Web liên kết đến trang Web mà ta đang xét. Phương pháp này thừa nhận nếu có liên kết từ trang A tới trang B thì độ quan trọng của trang A cũng ảnh hưởng tới độ quan trọng của trang B hay độ quan trọng của trang A được san sẻ cho các trang mà nó liên kết tới. Theo đó, một trang có hạng cao nếu tổng hạng của các liên kết tới nó cao [BP+1998]. Khóa luận tốt nghiệp Th.S Huỳnh Ngọc Tín Trang 7 Trần Hưng Nghiệp T.S Lương Phúc Hiệp Hình sau mô tả nguyên lý của thuật toán PageRank, các trang web “bỏ phiếu” cho các trang khác thông qua các siêu liên kết [WikiPR]. Hình 2.2 – Mô phỏng nguyên lý PageRank. b) Định nghĩa a. PageRank đơn giản Gọi là một đồ thị các trang Web. Đặt với là tập đỉnh của đồ thị (mỗi đỉnh là một trang Web cần tính hạng trang) còn là tập các cạnh, . Để đơn giản hóa vấn đề, chúng ta giả thiết rằng đồ thị trang Web là liên thông, nghĩa là từ một trang bất kì có thể có đường liên kết tới một trang Web khác trong đồ thị đó. Cho một đồ thị trang Web như trên. Với mỗi trang Web , ký hiệu là số liên kết đi ra từ trang Web thứ và là số các trang Web có liên kết đến trang . Khi đó hạng trang của trang Web được định nghĩa như sau: ∑ (1) Hạng trang của một trang web là con số tương đối để so sánh độ quan trọng của nó với các trang web khác. Tổng hạng trang của tất cả các trang Khóa luận tốt nghiệp Th.S Huỳnh Ngọc Tín Trang 8 Trần Hưng Nghiệp T.S Lương Phúc Hiệp web trong đồ thị G bằng một. Với việc chia hạng của trang cho , ta phân phối hạng của nó cho các trang mà nó chỉ tới, thông qua các link đi ra từ nó. Phương trình trên có tính đệ quy, để thuận tiện cho việc tính toán PageRank, phương trình này có thể được viết lại dưới dạng: (2) Với:  [ ] là vector PageRank, với là hạng của trang web trong đồ thị G.  [ ] là ma trận kề với giá trị các phần tử được xác định như sau: o nếu không có liên kết từ trang đến trang . o Và được chuẩn hóa để với mỗi thì ∑ Trong đồ thị G đang xét, ta có thể chọn giá trị sau: { Lưu ý rằng ma trận P có các phần tử đều không âm và tổng các phần tử thuộc cùng một cột của ma trận P bằng một, do đó P là một ma trận ngẫu nhiên. Vì vậy, thuật toán PageRank cũng chính là một biến thể của phương pháp độ đo tính trung tâm với vector riêng (eigenvector centrality measure) được dùng phổ biến trong phân tích mạng. Phương trình trên cho thấy vector PageRank chính là vector riêng của ma trận tương ứng với trị riêng [Aus2006]. Ta thấy phương trình trên có tính đệ quy, tuy nhiên nó có thể được tính với vector hạng trang bất kì, và lặp lại cho đến khi hội tụ, Page và các cộng sự đã chỉ ra việc hội tụ này là khá nhanh trong khoảng dưới 100 vòng lặp [BP+1998]. b. Tính toán vector PageRank đơn giản Có nhiều phương pháp để tìm vector riêng của ma trận như phương pháp lặp, phương pháp đại số, phương pháp lũy thừa… [WikiPR]. Tuy nhiên do kích Khóa luận tốt nghiệp Th.S Huỳnh Ngọc Tín Trang 9 Trần Hưng Nghiệp T.S Lương Phúc Hiệp thước quá lớn của đồ thị web, ma trận cũng có kích thước rất lớn, hàng chục tỉ dòng [Aus2006], vì vậy việc tính toán có thể rất khó khăn. Tuy nhiên, ta cũng lưu ý rằng hầu hết các phần tử của ma trận P bằng không, vì mỗi trang web trung bình thường chỉ liên kết đến 10 trang khác. Vì vậy ta chọn phương pháp lũy thừa để tìm vector . Phương pháp lũy thừa Ta bắt đầu bằng việc chọn vector là ứng viên cho vector hạng trang , sau đó ta tạo ra chuỗi vector với: (3) Chuỗi vector sẽ hội tụ về vector riêng . Thuật toán tính theo phương pháp lũy thừa 1. Chọn vector . 2. . 3. Nếu ‖ ‖ , dừng lại, là vector riêng cần tính. 4. Nếu không, , quay lại bước 2. c. PageRank trong thực tế PageRank đơn giản không thể dùng trong đồ thị web thực tế, vì khi đó chuỗi vector có thể không hội tụ, có thể phụ thuộc vào , và có thể không phản ánh được hạng trang web thực tế. Ta sẽ xét cụ thể từng trường hợp và chỉnh sửa lại PageRank cho phù hợp. Để thuận tiện, ta định nghĩa mô hình người duyệt web ngẫu nhiên: Quá trình tính toán PageRank có thể được xem như hành động của một người đang duyệt Web ngẫu nhiên. Ta tưởng tượng rằng có một người dùng duyệt Web bằng cách đi theo các liên kết trên các trang Web mà họ viếng thăm một cách ngẫu nhiên. Cách duyệt ngẫu nhiên này tương đương với việc di chuyển ngẫu nhiên trên một đồ thị có hướng. Nó thể hiện rằng vector PageRank tỉ lệ với phân phối xác suất dừng của một quá trình ngẫu nhiên. Nó Khóa luận tốt nghiệp Th.S Huỳnh Ngọc Tín Trang 10 Trần Hưng Nghiệp T.S Lương Phúc Hiệp có thể hiểu là một xích Markov, trong đó những trạng thái là những trang web, những bước biến đổi trạng thái là những liên kết giữa các trang web. PageRank của một trang Web chính là xác suất để một người ngẫu nhiên duyệt trang Web đó [BP+1998]. Bây giờ ta xét từng trường hợp: Trường hợp 1 Trên thực tế có nhiều trang Web không có liên kết đi ra. Các trang Web này có thể là các trang chỉ chứa một bức ảnh, một file pdf, một bảng dữ liệu… hay có thể là một trang mà các trang liên kết của nó chưa được kéo về. Các trang độc lập như vậy được gọi là các “dangling nodes” hay “dangling links” [BP+1998]. Những “dangling node” nhận hạng trang từ hệ thống các trang web nhưng không trả hạng trang lại cho hệ thống. Vì vậy tổng hạng trang của hệ thống bị tiêu hao. Vector hạng trang tính được trong trường hợp này sẽ không phản ánh đúng hạng trang. Để giải quyết trường hợp này, ta xét khi người duyệt web ngẫu nhiên gặp “dangling node”, người đó sẽ chọn một trang bất kì để tiếp tục. Như vậy ta coi như “dangling node” có liên kết đến tất cả các trang web khác [Aus2006]. Ta sẽ chỉnh sửa P bằng cách thay cột ứng với “dangling node” bằng cột gồm toàn các phần tử có giá trị . Để đơn giản tính toán, ta có thể sử dụng ma trận: (4) Với là ma trận vuông cấp , các phần tử có giá trị bằng không ngoại trừ các phần tử nằm trên các cột ứng với các “dangling node” sẽ có giá trị bằng . Trường hợp 2 Ta có hai trường hợp nhỏ: Có những nhóm các trang web chỉ có liên kết đến nhau mà không có liên kết ra ngoài nhóm, cũng không có liên kết vào nhóm từ bên ngoài. Chuỗi vector hạng trang trong trường hợp này sẽ không hội tụ [Aus2006]. Cũng có những nhóm các trang web khác chỉ có liên kết đến nhau mà không có liên kết ra ngoài nhóm, trong khi đó vẫn có liên kết vào trong nhóm. Các nhóm trang này tạo thành một bẫy vòng lặp các liên kết nội Khóa luận tốt nghiệp Th.S Huỳnh Ngọc Tín Trang 11 Trần Hưng Nghiệp T.S Lương Phúc Hiệp bộ và được gọi là “rank sink” [BP+1998] [Aus2006]. “Rank sink” nhận chia sẻ hạng từ hệ thống nhưng không cung cấp hạng cho hệ thống (bởi vì chúng không có liên kết ra ngoài), vì vậy sau một số bước lặp tính toán, hạng trang sẽ được tập trung vào “rank sink” và làm giảm PageRank của phần còn lại của hệ thống. Để giải quyết trường hợp này, ta xét khi người duyệt web ngẫu nhiên có thể gặp một “rank sink”, hay người đó có thể chán và ngưng không tiếp tục duyệt nữa. Khi đó ta coi như người đó sẽ bắt đầu duyệt lại với một trang bất kì. Xác suất để người đó tiếp tục duyệt là một hệ số gọi là hệ số suy giảm. Hệ số ứng với trị riêng thứ hai của ma trận kề, thỏa . Hệ số có ảnh hưởng [HK2003] [HK+2003] đến độ chính xác của PageRank và tốc độ hội tụ của chuỗi . Nhiều nghiên cứu khác nhau [BP1998] [Aus2006] đã thử nghiệm nhiều giá trị của . Tuy nhiên hầu hết đều cho rằng sẽ có giá trị quanh . Lúc này ta thay ma trận bằng ma trận: (5) Với là ma trận vuông cấp , được gọi là nguồn hạng trang [BP+1998]. Trường hợp tổng quát, các phần tử của thường có giá trị . Ta có thể viết: (6) Với là ma trận vuông cấp gồm toàn phần tử có giá trị bằng một. Lưu ý rằng, là một ma trận ngẫu nhiên thể hiện xác suất một người sẽ chọn ngẫu nhiên trang nào để tiếp tục duyệt mới sau khi chán việc duyệt theo liên kết đi ra. Vì vậy có thể được sử dụng để cá nhân hóa hạng trang, chỉnh sửa hạng trang theo chủ đề… [BP+1998] [HK+2003]. Sau khi giải quyết hai trường hợp trên ta có thể viết lại ma trận kề là: (7) Và phương trình tính vector PageRank sẽ được viết lại thành: (8) Khóa luận tốt nghiệp Th.S Huỳnh Ngọc Tín Trang 12 Trần Hưng Nghiệp T.S Lương Phúc Hiệp Việc tính PageRank thực tế tương tự như PageRank đơn giản, ta cũng áp dụng phương pháp lũy thừa với phương trình: (9) Trở lại dạng đại số của công thức tính PageRank, ta có giá trị PageRank của trang web là: ∑ (10) Qua công thức trên ta thấy, PageRank của một trang web phần lớn được dẫn xuất từ các trang liên kết đến nó, hệ số suy giảm sẽ điều chỉnh PageRank dẫn xuất này giảm xuống. Trong bài viết đầu tiên về PageRank, Page và cộng sự đã đưa ra công thức tính PageRank như sau, và hơi gây khó hiểu: ∑ (11) Sự khác biệt giữa hai công thức (3) và (4) là ở công thức đầu, tổng các giá trị PageRank bằng một. Ở công thức sau, giá trị PageRank của mỗi trang bị nhân và do đó tổng các giá trị PageRank bằng . Page và cộng sự thừa nhận tổng các giá trị PageRank mà họ sử dụng bằng một [BP1998]. Tuy nhiên hai công thức trên có ý nghĩa tương đương nhau. c) Nhận xét về PageRank Thuật toán PageRank khai thác lợi thế của cấu trúc siêu liên kết của các trang web. PageRank là một ví dụ điển hình về thuật toán phân tích liên kết xếp hạng dạng “eigenvector centrality measure”. Nó là biểu diễn toán học của mô hình người duyệt web ngẫu nhiên, do đó có thể dựa trên PageRank để đánh giá trang web một cách khách quan và đáp ứng nhu cầu của người dùng tìm kiếm. Có một số vấn đề cần giải quyết để hiện thực một máy tìm kiếm hiệu quả trong thực tế. Đó là vấn đề gian lận liên kết hay “spam link”, và việc kết hợp giữa hạng PageRank và mức độ phù hợp với truy vấn của người dùng. Google Khóa luận tốt nghiệp Th.S Huỳnh Ngọc Tín Trang 13 Trần Hưng Nghiệp T.S Lương Phúc Hiệp Search cho thấy họ đã làm khá tốt điều này trong những năm qua và đã rất thành công. Trước khi PageRank ra đời đã có một số nghiên cứu theo hướng phân tích liên kết mà hầu hết là trong lĩnh vực phân tích trích dẫn các văn bản khoa học. Tuy nhiên, văn bản khoa học có một số khác biệt quan trọng:  Nội dung văn bản khoa học được kiểm duyệt, thường có cấu trúc hay bán cấu trúc.  Việc trích dẫn thường là có ý nghĩa, ít khi được thực hiện một cách gian lận để qua mặt hệ thống xếp hạng. Để áp dụng thuật toán PageRank cho việc xếp hạng, ta cần định nghĩa một đồ thị các đối tượng có liên kết đến nhau. Xét trường hợp xếp hạng các bài báo khoa học, ta xây dựng đồ thị trích dẫn bài báo khoa học. Đồ thị này có các đỉnh là các bài báo khoa học, mỗi cạnh biểu thị cho một trích dẫn từ bài báo này tới bài báo khác. Sau khi đã có đồ thị này, ta tính toán PageRank hoàn toàn tương tự như khi làm với đồ thị web. Khác với đồ thị web ở chỗ các cạnh trong đồ thị trích dẫn hầu hết đều đáng tin cậy. Tuy nhiên, PageRank có nhược điểm là đồ thị mà nó sử dụng chỉ có một loại đối tượng và một loại cạnh. Trong thực tế, các bài báo khoa học phải được đánh giá trong một tổng thể bao gồm nhiều đối tượng khác như tác giả, hội nghị khoa học, tờ báo khoa học… vì vậy có nhiều mối liên hệ phải xét đến hơn là chỉ có liên hệ trích dẫn, khi đó áp dụng PageRank sẽ không thật sự hiệu quả. Sau này có nhiều thuật toán được đề xuất theo hướng tính đến nhiều loại đối tượng và nhiều loại cạnh trong đồ thị, nổi bật trong số đó là thuật toán PopRank. 2.3.3 PopRank a) Giới thiệu thuật toán PopRank Như đã nói ở trên, mô hình PageRank ban đầu được xây dựng để xếp hạng các trang web, đây là dạng xếp hạng ở mức tài liệu, với chỉ một loại liên kết Khóa luận tốt nghiệp Th.S Huỳnh Ngọc Tín Trang 14 Trần Hưng Nghiệp T.S Lương Phúc Hiệp duy nhất. PageRank không hợp lệ để xếp hạng các đối tượng nằm trong các tài liệu, vì các đối tượng này có nhiều loại mối quan hệ khác nhau. Xét trường hợp xếp hạng đối tượng bài báo khoa học, một bài báo có thể được trích dẫn bởi một số bài báo khác, được viết bởi một số tác giả, được xuất bản trong một tờ báo khoa học hay một hội nghị nào đó. Như vậy, trường hợp này có ba loại liên kết: “được trích dẫn bởi” ký hiệu , “được viết bởi” ký hiệu , “được xuất bản bởi” ký hiệu . Hình sau minh họa các loại liên kết này [NZ+2005]: Hình 2.3 – Các loại liên kết với bài báo khoa học. Thuật toán PopRank được xây dựng nhằm khắc phục các điểm yếu của PageRank để xếp hạng các đối tượng hiệu quả hơn. Thuật toán PopRank được phát triển bởi Nie và các cộng sự tại phòng nghiên cứu Châu Á của Microsoft. Nó được sử dụng đầu tiên cho mục đích xếp hạng các bài báo khoa học trong dự án Libra, tuy nhiên nó có thể sử dụng để xếp hạng nhiều đối tượng khác nhau như hình ảnh, bản nhạc, bộ phim… [NZ+2005] PopRank là một thuật toán phân tích liên kết độc lập lĩnh vực ở cấp độ đối tượng. Nó quan tâm tới nhiều loại liên kết khác nhau bằng cách gán tự động các hệ số truyền khác nhau cho mỗi loại liên kết. Việc gán các hệ số này được thực hiện nhờ áp dụng thuật toán “simulated annealing” với một tập mẫu là các đối tượng đã được xếp hạng sẵn bởi các chuyên gia trong lĩnh vực. Để giảm thiểu thời gian học các hệ số, chỉ một phần các đối tượng được sử dụng trong quá trình học. Những vấn đề này sẽ được trình bày chi tiết ở phần tiếp theo. b) Định nghĩa a. Mô hình PopRank Ta xét một mô hình các đối tượng thuộc nhiều loại khác nhau nằm trên nhiều trang web. Người dùng các thể đi đến một đối tượng nào đó thông qua Khóa luận tốt nghiệp Th.S Huỳnh Ngọc Tín Trang 15 Trần Hưng Nghiệp T.S Lương Phúc Hiệp việc vào trang web chứa đối tượng đó, hoặc đi trực tiếp đến đối tượng đó từ liên kết ở những đối tượng khác. Giả sử có một người duyệt qua các đối tượng một cách ngẫu nhiên. Bắt đầu quá trình duyệt, người này vào một trang web bất kỳ và theo các đường siêu liên kết đi đến các trang web khác. Khi tìm được một đối tượng thích hợp, người này có thể sẽ đi theo các đường liên kết của đối tượng này để đến các đối tượng khác. Quá trình duyệt này không quay ngược lại, nhưng người duyệt có thể cảm thấy chán và dừng việc duyệt này lại để bắt đầu lại với một việc duyệt mới. Ta thấy quá trình duyệt này có thể chia ra hai giai đoạn. Ở giai đoạn đầu, người dùng duyệt ở cấp độ các trang web, liên kết giữa các trang này đều đồng nhất là các siêu liên kết nên ta có thể áp dụng thuật toán PageRank để biểu diễn cho giai đoạn này và tính toán hạng các trang. Ở giai đoạn sau, người dùng duyệt ở cấp độ đối tượng, các loại liên kết giữa các đối tượng này hỗn tạp nên không thể dùng PageRank. Khi đó, hạng của một đối tượng sẽ được tổng hợp từ hạng của trang web chứa nó và hạng có được do các mối liên kết giữa các đối tượng. Để tính hạng tổng hợp này ta sẽ áp dụng công thức PopRank sau: ∑ (12) Với:  , là tập các đối tượng loại và loại  , là các vector hạng tổng hợp của các đối tượng loại X và loại Y.  là vector hạng trang web chứa các đối tượng loại tính theo PageRank dựa vào siêu liên kết.  [ ] là ma trận kề của đồ thị các đối tượng với các phần tử có giá trị như sau: o , nếu có liên kết cấp đối tượng từ đối tượng tới đối tượng ; là số lượng liên kết từ đối tượng y tới mọi đối tượng loại . Khóa luận tốt nghiệp Th.S Huỳnh Ngọc Tín Trang 16 Trần Hưng Nghiệp T.S Lương Phúc Hiệp o , trong các trường hợp khác.  là hệ số truyền của một kiểu liên kết từ một đối tượng loại tới một đối tượng loại , và ∑ .  là hệ số suy giảm, biểu thị xác suất người dùng chán việc lần theo các liên kết giữa các đối tượng và bắt đầu duyệt lại từ các trang web. Việc tính toán có thể thực hiện hoàn toàn giống như tính toán PageRank. có thể tính toán khá đơn giản bằng phương pháp. Điều cần quan tâm ở đây chính là việc gán tự động các hệ số truyền . b. Tính toán hệ số truyền Các hệ số truyền đóng một vai trò quan trọng trong tính toán PopRank, giá trị các hệ số truyền có ảnh hưởng lớn tới giá trị hạng của các đối tượng. Việc gán giá trị cho các hệ số truyền bằng tay là không thể được khi giá trị này cần có độ chính xác cao và số lượng loại đối tượng tăng lên. Để gán tự động các hệ số truyền, Nie và các cộng sự đề ra mô hình học như sau [NZ+2005]: sử dụng chuyên gia để tạo ba danh sách nhỏ các đối tượng đã xếp hạng, sau đó tìm một tổ hợp các giá trị hệ số truyền làm cho thứ tự nhận được khi xếp hạng bằng PopRank giống nhất với thứ tự nhận được từ các chuyên gia. Lúc này bài toán trở thành bài toán ước lượng tham số, thời gian để ước lượng tất cả các khả năng có thể rất lâu. Để giảm thời gian này, Nie và các cộng sự đề xuất sử dụng một giải thuật heuristic để tăng tốc độ tìm kiếm bộ giá trị hệ số truyền tối ưu, đồng thời chỉ tiến hành chọn một tập con các đối tượng trong các trang web để kiểm tra ước lượng thay vì toàn bộ. Tuy độ chính xác có thể giảm đi một chút nhưng có thể chấp nhận được, và tốc độ được cải thiện rất nhiều. Giải thuật tìm kiếm bộ giá trị tối ưu gọi là SAFA (Simulated Annealing for FactorAssignment), được cho dưới đây: Khóa luận tốt nghiệp Th.S Huỳnh Ngọc Tín Trang 17 Trần Hưng Nghiệp T.S Lương Phúc Hiệp Hình 2.4 – Giải thuật SAFA. Ý tưởng cơ bản của giải thuật này là chúng so sánh các bộ giá trị liền kề với bộ giá trị tốt nhất hiện tại, nếu nó tốt hơn thì nó sẽ được gán là bộ giá trị tốt nhất. Thỉnh thoảng chúng ta sẽ chọn một bộ giá trị xấu hơn có chủ ý để tránh rơi vào bẫy cực trị địa phương. Những bộ giá trị liền kề có được bằng cách thay đổi chỉ một giá trị hệ số truyền trong bộ đang có. Hàm là chi phí của bộ giá trị mới, nó là khoảng cách của thứ tự tính được bằng PopRank với bộ giá trị mới và thứ tự do chuyên gia xếp hạng, khoảng cách này được tính theo công thức trong [NZ+2005]. Khóa luận tốt nghiệp Th.S Huỳnh Ngọc Tín Trang 18 Trần Hưng Nghiệp T.S Lương Phúc Hiệp Tập con các đối tượng (hay đồ thị con) để ước lượng được Nie và các cộng sự xây dựng dựa trên tập huấn luyện bằng cách mở rộng ra một khoảng cách nhất định liên kết [NZ+2005]. Đồ thị con này gọi là k-diameter subgraph, nó bao gồm tập huấn luyện và các đối tượng có khoảng cách đến một đối tượng bất kì nào trong tập huấn luyện nhỏ hơn hay bằng k liên kết. Giải thuật xác định được cho dưới đây: Hình 2.5 – Giải thuật xác định khoảng cách k. c) Nhận xét Có nhiều thuật toán đã được đề xuất để khắc phục các hạn chế của PageRank trong việc xếp hạng các đối tượng trong đồ thị có nhiều loại mối quan hệ khác nhau. Trong đó PopRank là nổi bật nhất. PopRank bao gồm trong nó PageRank và nó cũng tính đến hệ số truyền dẫn khác nhau cho các loại liên kết giữa các loại đối tượng khác nhau. PopRank ban đầu đã được áp dụng để xếp hạng các đối tượng trong lĩnh vực thư viện điện tử như bài báo khoa học, tác giả,… Khóa luận tốt nghiệp Th.S Huỳnh Ngọc Tín Trang 19 Trần Hưng Nghiệp T.S Lương Phúc Hiệp 2.4 Các chỉ số xếp hạng phổ biến 2.4.1 Giới thiệu Việc xếp hạng, đánh giá chất lượng làm việc của các nhà khoa học, các tổ chức hay các tờ báo khoa học là một trong số những công việc chính của ngành phân tích các tài liệu. Để làm việc này, các nhà khoa học đã xây dựng nhiều phương pháp cùng với nhiều độ đo của các chỉ số xếp hạng khác nhau. Các chỉ số đó ban đầu đơn giản chỉ là số lượng tác phẩm khoa học, số lượng trích dẫn, số trích dẫn trung bình trên một tác phẩm. Đến vài năm gần đây, hàng loạt chỉ số mới đã được đề xuất và được ứng dụng rộng rãi. Mở đầu với h-index, sau đó các chỉ số ra đời trong nỗ lực cải tiến h-index như g-index, m-quotient, h(2)- index, đây là nhóm các chỉ số thiên về tính số lượng tác phẩm cốt lõi nhận được nhiều trích dẫn, gọi chung là h-type indexes. Còn có các chỉ số khác cũng được phát triển dựa trên ý tưởng h-index nhưng thiên về tính mức độ ảnh hưởng của nhóm các tác phẩm cốt lõi như a-index, m-index, r-index, ar-index, hw-index, chúng được gọi chung là a-type indexes [BM+2008]. Ngoài ra còn có nhiều chỉ số khác đã và đang được xây dựng, ở đây luận văn chỉ khảo sát các chỉ số quan trọng và phổ biến nhất đề cập ở trên. 2.4.2 Các chỉ số phân tích tài liệu chuẩn (Standard bibliometric indicators) a) Tổng số bài báo khoa học Đây là chỉ số đơn giản nhất trong số ba chỉ số phân tích tài liệu chuẩn. Tổng số bài báo khoa học thể hiện năng suất lao động khoa học của tác giả, nếu xét cho tổ chức hay quốc gia thì nó thể hiện năng suất lao động khoa học của tổ chức hay quốc gia đang xét. b) Tổng số trích dẫn Số lượng trích dẫn của một bài báo khoa học phản ánh tầm ảnh hưởng của bài báo khoa học đó, nó thể hiện bài báo đó phổ biến tới mức nào trong cộng đồng khoa học. Tổng số lượng trích dẫn của các bài báo của một tác giả nào đó thể hiện tầm ảnh hưởng của tác giả đó, tổng số lượng trích dẫn cao hơn thường Khóa luận tốt nghiệp Th.S Huỳnh Ngọc Tín Trang 20 Trần Hưng Nghiệp T.S Lương Phúc Hiệp đồng nghĩa với việc tác giả đó có tầm ảnh hưởng lớn hơn, có uy tín lớn hơn. Tổng số lượng trích dẫn của một tổ chức cũng thể hiện tầm ảnh hưởng của tổ chức đó. c) Hệ số ảnh hưởng (Impact factor) a. Giới thiệu Độ đo impact factor, thường được gọi là IF, là một độ đo phản ánh số lượng tham khảo trung bình đến những bài báo trong một tờ báo khoa học nào đó. Impact factor thể hiện một độ quan trọng tương đối của một tờ báo so với những tờ báo khác trong cùng lĩnh vực, tờ báo có impact factor cao hơn được coi như quan trọng hơn tờ báo có impact factor thấp hơn. Impact factor được đề xuất bởi Eugene Garfield, người sáng lập viện khoa học thông tin (Institute for Scientific Information – ISI) bây giờ là một phần của Thomson Reuters. Độ đo impact factor được tính mỗi năm cho các tờ báo nằm trong danh sách báo cáo trích dẫn các tờ báo của Thomson Reuters [WikiIF]. b. Định nghĩa Impact factor của một tờ báo trong một năm được tính bằng cách lấy số lần trích dẫn trung bình trong năm đó của các bài báo được xuất bản trong hai năm trước đó thuộc tờ báo đang xét. Ví dụ ta tính impact factor cho tờ báo X trong năm 2011, đặt: A = số lần tham khảo tới các bài báo thuộc tờ báo X xuất bản năm 2009, 2010 bởi các bài báo trong các tờ báo được lập chỉ mục trong năm 2011. B = số bài báo thuộc tờ báo X xuất bản năm 2009, 2010. Khi đó, impact factor của tờ báo X năm 2011 = A / B. Lưu ý rằng một tờ báo mới lập chỉ mục sẽ được tính impact factor sau năm thứ ba, kết quả sẽ có được vào đầu năm thứ tư sau khi tất cả các bài báo năm thứ ba đã được xuất bản. c. Nhận xét Khóa luận tốt nghiệp Th.S Huỳnh Ngọc Tín Trang 21 Trần Hưng Nghiệp T.S Lương Phúc Hiệp Impact factor là một chỉ số khá đơn giản dùng để so sánh độ quan trọng giữa các tờ báo trong cùng một lĩnh vực nhất định. Impact factor được tính toán bởi Thomson Reuters cho hơn 11000 tờ báo trong cơ sở dữ liệu của họ. Impact factor là chỉ số tốt nhất trong ba chỉ số phân tích tài liệu chuẩn, nó kết hợp cả số lượng bài báo lẫn số lượng trích dẫn để tạo ra một chỉ số trung bình trích dẫn của các bài báo khoa học trong tờ báo khoa học từ đó có thể đánh giá tổng hợp cả hiệu suất làm việc và tầm ảnh hưởng ở từng tờ báo. Tuy nhiên, impact factor cũng còn tồn tại nhiều thiếu sót, có thể chia chúng ra ba loại là tính hợp lệ, những chính sách khiến impact factor thay đổi, và việc sử dụng impact factor sai mục đích. Tính hợp lệ của impact factor yếu vì nó là trung bình số học của các trích dẫn trên một bài báo, tuy nhiên theo lý thuyết thì đó là phân phối Bradford, sự không phù hợp giữa lý thuyết và thực nghiệm làm cho impact factor không chính xác để đánh giá các trích dẫn. Thực tế danh sách xếp hạng các tờ báo được tính bởi impact factor cũng không hoàn toàn trùng khớp với danh sách có được do các chuyên gia xếp hạng. Một tờ báo có thể có chính sách đặc biệt để làm tăng impact factor của nó, ví dụ như xuất bản nhiều những bài báo có khả năng được trích dẫn cao, và hạn chế xuất bản những bài báo ít có khả năng được trích dẫn. Ngoài ra, một tờ báo có thể có một số chính sách yêu cầu tác giả phải trích dẫn các bài báo xuất bản trong tờ báo đó. Những chính sách này làm cho impact factor không phản ánh đúng mức độ quan trọng của tờ báo. Impact factor là chỉ số được tạo ra để đánh giá các đối tượng là các tờ báo khoa học, nó không phù hợp để đánh giá một bài báo hay một tác giả đơn lẻ, mọi sự đánh giá này đều có thể sai vì impact factor là giá trị trung bình cho cả tờ báo, trong đó có những bài báo được trích dẫn rất nhiều, có những bài báo ít được trích dẫn, tượng tự có những tác giả được trích dẫn rất nhiều, có những tác giả rất ít được trích dẫn [WikiIF]. Khóa luận tốt nghiệp Th.S Huỳnh Ngọc Tín Trang 22 Trần Hưng Nghiệp T.S Lương Phúc Hiệp 2.4.3 H-type indexes a) H-Index a. Giới thiệu H-index được đề xuất bởi Jorge E. Hirsch, một nhà vật lý tại UCSD, như một chỉ số so sánh tương đối các nhà vật lý với nhau. H-index được tạo ra nhằm mục đích đo lường cả số lượng các bài báo của một tác giả và hiệu quả ảnh hưởng của các bài báo đó trong cộng đồng khoa học. Chỉ số này được tính toán dựa trên một tập các bài báo được trích dẫn cao nhất của một tác giả và số lượng tham khảo đến chúng. H-index có thể dùng để so sánh chất lượng nghiên cứu khoa học của hai nhà khoa học thuộc cùng một lĩnh vực bất kì, nó còn có thể dùng để so sánh giữa hai nhóm các nhà khoa học, như giữa các trường đại học hay giữa các quốc gia theo một lĩnh vực nào đó [WikiHI]. b. Định nghĩa Chỉ số h-index dựa trên phân phối của các trích dẫn đến các bài bài của tác giả đang xét. Theo Hirsch thì: “Một tác giả có h-index = h khi có h bài báo khoa học của người đấy có ít nhất h trích dẫn mỗi bài báo, và các bài báo còn lại có ít hơn h trích dẫn mỗi bài.” [Hir2005]. H-index được xây dựng dựa trên một mô hình quen thuộc trong lý thuyết số là hình vuông Durfee [WikiDS]. Hình sau mô tả định nghĩa này của h-index: Khóa luận tốt nghiệp Th.S Huỳnh Ngọc Tín Trang 23 Trần Hưng Nghiệp T.S Lương Phúc Hiệp Hình 2.6 – Mô phỏng định nghĩa h-index. Định nghĩa trên của Hirsch không hoàn toàn chính xác, vì nó không bao quát hết các trường hợp. Ta xét ví dụ sau: Tác phẩm Số trích dẫn A 5 B 3 C 3 D 3 E 1 Theo định nghĩa ban đầu của Hirsch, ta không tìm được giá trị h-index nào cho tập các bài viết này. H-index không phải là ba, vì có ba tác phẩm có lớn hơn hay bằng ba trích dẫn, nhưng các tác phẩm còn lại không phải đều có ít hơn 3 trích dẫn. Một định nghĩa chính xác hơn cho h-index được cho như sau: “Một tác giả có h-index = h khi các tác phẩm của người đó được sắp xếp theo danh sách thứ tự giảm dần số trích dẫn, và có h tác phẩm ở đầu có ít nhất h trích dẫn mỗi tác phẩm, và bài báo thứ (h+1) có ít hơn (h+1) trích dẫn.” [Rou2006]. Nói cách khác, tác giả có h-index = h khi h là số nguyên lớn nhất Khóa luận tốt nghiệp Th.S Huỳnh Ngọc Tín Trang 24 Trần Hưng Nghiệp T.S Lương Phúc Hiệp thỏa có h tác phẩm có ít nhất h trích dẫn mỗi tác phẩm đó. Khi tính toán, các tác phẩm sẽ được sắp xếp theo thứ tự giảm dần số trích dẫn để công việc đơn giản hơn. Trong nghiên cứu của mình [Hir2005], Hirsch đã chỉ ra rằng chỉ số h-index có liên quan rõ ràng đến việc một nhà khoa học có đạt được các giải thưởng khoa học không, ví dụ như giải Nobel. Vì chỉ số h-index có phụ thuộc vào số lượng bài báo khoa học của một tác giả nên nó cũng phụ thuộc vào số năm nghiên cứu khoa học của tác giả đó. H-index của một tác giả có thể được tính từ nguồn dữ liệu là một cơ sở dữ liệu các bài báo khoa học trích dẫn nhau của các tác giả trong nhiều lĩnh vực. Việc tính toán dựa trên việc đếm các trích dẫn của mỗi bài báo, ta sẽ sắp xếp các bài báo của một tác giả theo thứ tự giảm dần số lượng trích dẫn, sau đó đếm để xác định số lượng bài báo h có lượng trích dẫn mỗi bài lớn hơn hay bằng h. Giải thuật tính h có thể cho như sau: // Calculate h-index for each author. Input: Tập các bài viết. Output: h-index của tác giả. Begin Sắp xếp các bài viết theo thứ tự giảm dần số trích dẫn. h = 0; while (h < số bài viết) { c = số trích dẫn của bài viết thứ (h + 1); if (c >= (h + 1)) h++; else break; } Khóa luận tốt nghiệp Th.S Huỳnh Ngọc Tín Trang 25 Trần Hưng Nghiệp T.S Lương Phúc Hiệp h-index = h; End H-index của một tổ chức hay một quốc gia có thể được tính bằng cách coi như có một tác giả trừu tượng đại diện cho toàn bộ các tác giả trong tổ chức hay quốc gia. Mỗi bài báo khoa học phải được xác định cụ thể thuộc về tác giả trừu tượng nào. Việc tính toán còn lại hoàn toàn tương tự như tính toán cho một tác giả đơn lẻ. c. Nhận xét H-index khá hiệu quả khi dùng để so sánh, đánh giá các tác giả vì nó đã bao gồm cả hai yếu tố số lượng bài báo và số lượng tham khảo cho mỗi bài báo tức là nó bao gồm cả yếu tố số lượng và chất lượng kết quả nghiên cứu của tác giả. H-index đã được chính tác giả kiểm chứng trong một nghiên cứu khác của mình [Hir2007] là có thể dùng dự đoán khá tốt những thành công trong sự nghiệp khoa học tương lai của một tác giả. Trong một số nghiên cứu thực nghiệm khác [BW+2008], h-index cũng cho thấy nó tốt hơn nhiều so với các chỉ số phân tích tài liệu chuẩn trong việc đánh giá chất lượng công việc của các nhà khoa học. H-index có nhiều ưu điểm nổi bật sau [Rou2008]:  Nó là một chỉ số đơn giản về mặt toán học.  Nó là một chỉ số mạnh (robust) vì nó không bị ảnh hưởng hoặc chỉ bị ít bởi một vài sai sót nhỏ của việc thu thập dữ liệu.  H-index giúp tránh được những trường hợp bất thường, ví dụ như chỉ có một vài bài được trích dẫn rất nhiều, hay là có rất nhiều bài viết nhưng lại ít được trích dẫn. Kết quả tính toán h-index trên các cơ sở dữ liệu khác nhau thường khác nhau vì chúng thường không đầy đủ hoặc có nhiều trích dẫn ảo [MY2007]. Ví dụ như Scopus thiếu nhiều bài báo, Web of Knowledge thiếu nhiều bài trước 1996, Google Scholar thiếu nhiều bài trước 1990. H-index vẫn còn nhiều thiếu sót có thể dẫn đến đánh giá sai [Rou2008]: Khóa luận tốt nghiệp Th.S Huỳnh Ngọc Tín Trang 26 Trần Hưng Nghiệp T.S Lương Phúc Hiệp  H-index bị ràng buộc bởi số lượng tác phẩm được xuất bản. Nếu một tác giả xuất bản ít tác phẩm có chất lượng, được trích dẫn nhiều thì tác giả đó cũng không thể có h-index lớn hơn số tác phẩm của mình. Ví dụ nhà toán học người Pháp Évariste Galois, cha đẻ của lý thuyết Galois và lý thuyết nhóm sẽ mãi chỉ có h-index = 2. Trong bài báo của mình [Hir2005], Hirsch cũng đã chỉ ra rằng h-index chỉ phù hợp để đánh giá các tác giả trong cùng một bối cảnh trong sự nghiệp của họ.  H-index khó có thể dùng để đánh giá các tác giả mới vì nó chỉ có thể tăng lên sau một khoảng thời gian dài, còn các tác giả đã có nhiều bài viết và được trích dẫn nhiều thì có thể nghỉ ngơi mà h-index vẫn tăng lên.  H-index không tính đến việc một bài báo có thể có nhiều tác giả.  H-index bỏ qua thông tin trong phần danh sách tên các tác giả, mà trong một số lĩnh vực là quan trọng.  H-index coi sách và bài báo khoa học là như nhau, điều đó không đúng với một số ngành như khoa học xã hội.  H-index không quan tâm đến ngữ cảnh của trích dẫn. Đây cũng là vấn đề chung của các chỉ số dựa trên việc đếm các trích dẫn.  H-index không tính đến một số trường hợp đặc biệt như hiệu ứng Matthew [WikiME], và sự thiên vị trong một số trích dẫn, thao túng trích dẫn bằng cách tự trích dẫn, hay trích dẫn tạo ra bởi các công cụ tự động như SCIgen [WikiSCI]. Đây cũng là một vấn đề chung của các chỉ số dựa trên việc đếm các trích dẫn.  H-index không có giá trị lẻ mà nó chỉ có số nguyên nên sẽ kém độ chính xác khi so sánh.  H-index không bao giờ giảm, nó cũng ít nhạy cảm với số lượng trích dẫn nhận được. Từ khi h-index ra đời, nhiều tác giả đã tìm cách cải tiến nó, chỉnh sửa cho phù hợp với các trường hợp cụ thể để hạn chế các thiếu sót và đạt hiệu quả cao Khóa luận tốt nghiệp Th.S Huỳnh Ngọc Tín Trang 27 Trần Hưng Nghiệp T.S Lương Phúc Hiệp hơn. Nhiều chỉ số khác nhau đã được đề xuất dựa trên h-index, nổi bật trong số đó có thể kể đến g-index. b) G-Index a. Giới thiệu G-index được đề xuất bởi Leo Egghe vào năm 2006 như là một sự cải tiến của h-index. Theo Egghe [Egg2006], g-index ra đời nhằm khắc phục các điểm yếu về việc h-index bị giới hạn bởi số lượng tác phẩm của nhà khoa học, và về việc có thể có một số tác phẩm rất quan trọng, được trích dẫn rất nhiều nhưng một khi đã được tính đến trong h-index thì nó cũng không đóng góp gì hơn so với các tác phẩm có số trích dẫn ít hơn khác. b. Định nghĩa G-index được định nghĩa cho một tập tác phẩm bất kì, nó được định nghĩa như sau: “Một tập các tác phẩm có g-index = g nếu g tác phẩm được trích dẫn nhiều nhất có tổng số trích dẫn lớn hơn hay bằng g2, và (g+1) tác phẩm được trích dẫn nhiều nhất có tổng số trích dẫn nhỏ hơn (g+1)2.” [Egghe2006]. Nếu tập các tác phẩm là của một tác giả thì g-index tính được là của tác giả đó, tương tự, g-index có thể tính cho một tổ chức hay một tờ báo. G-index có thể được tính theo giải thuật sau: // Calculate g-index for a set of papers. Input: Tập các bài viết. Output: g-index. Begin Sắp xếp các bài viết theo thứ tự giảm dần số trích dẫn. g = 0; cs = 0; while (true) { Khóa luận tốt nghiệp Th.S Huỳnh Ngọc Tín Trang 28 Trần Hưng Nghiệp T.S Lương Phúc Hiệp if (g < số bài viết) { cs += số trích dẫn của bài viết thứ (g + 1); } if (cs >= ((g + 1) * (g + 1))) g++; else break; } g-index = g; End Theo định nghĩa của g-index, ta thấy g-index có các tính chất sau: Một tập các bài viết bất kì luôn tồn tại duy nhất một giá trị g-index. Giá trị g-index luôn lớn hơn hoặc bằng h-index [Egghe2006]. Nếu số lượng tác phẩm quá ít nhưng lại có nhiều trích dẫn, để tính g-index ta sẽ tạo ra các tác phẩm ảo với số trích dẫn bằng không, bổ sung vào tập bài viết, nhờ vậy g-index không bị giới hạn bởi số bài viết. Khi đó ta có ⌊√ ⌋ c. Nhận xét G-index là một trong số những cải tiến tốt nhất của h-index. G-index đặc biệt hiệu quả hơn h-index khi đánh giá các tác giả thuộc nhóm các nhà nghiên cứu chọn lọc, họ chỉ xuất bản một số ít tác phẩm nhưng rất có giá trị và được trích dẫn nhiều [CB2008]. G-index có những ý tưởng tương tự như h-index và vẫn giữ được những ưu điểm của h-index. Tuy nhiên g-index cũng còn nhiều hạn chế chung của các chỉ số dựa trên việc đếm trích dẫn. Các chỉ số khác sẽ được trình bày ngắn gọn sau đây. c) M-quotient Khóa luận tốt nghiệp Th.S Huỳnh Ngọc Tín Trang 29 Trần Hưng Nghiệp T.S Lương Phúc Hiệp Trong bài báo đầu tiên của mình về h-index [Hir2005], Hirsch đã đề cử một chỉ số để so sánh hai tác giả mà không bị ảnh bởi thời gian tham gia nghiên cứu khoa học của mỗi người. Chỉ số đó được gọi là m-quotient và được định nghĩa như sau: Với:  m là m-quotient  h là h-index  y là số năm kể từ khi bài báo đầu tiên được xuất bản. M-quotient có cơ sở toán học là mô hình ngẫu nhiên cho quá trình hoạt động khoa học và số trích dẫn của một tác giả [Bur2007]. M-quotient được cho là khá hiệu quả để so sánh hai tác giả có thâm niên nghiên cứu khoa học khác nhau và dự đoán triển vọng của các nhà khoa học trẻ. d) H(2)-Index H(2)-index được đề xuất bởi Marek Kosmulski vào năm 2006. Tương tự g- index, trong định nghĩa h(2)-index thì các tác phẩm có nhiều trích dẫn cũng được tính quan trọng hơn. H(2)-index được định nghĩa như sau: “Một tác giả có h(2)-index = h(2) khi h(2) là một số nguyên lớn nhất thỏa tác giả đó có h(2) tác phẩm có ít nhất [h(2)]2 trích dẫn mỗi tác phẩm.” [Kos2006]. H(2)-index cũng bị hạn chế bởi số lượng tác phẩm giống như h-index. Dễ dàng nhận thấy rằng h(2)-index luôn nhỏ hơn hay bằng h-index. Khi phân tích các tài liệu, luôn cần kiểm tra để tránh nhầm lẫn các trường hợp các tác phẩm của các tác giả có cùng họ tên. H(2)-index giúp giảm giảm nhẹ vấn đề này vì số lượng tác phẩm thỏa h(2)-index nhỏ nên số tác phẩm cần kiểm tra cũng nhỏ. 2.4.4 A-type indexes a) A-Index a. Giới thiệu Khóa luận tốt nghiệp Th.S Huỳnh Ngọc Tín Trang 30 Trần Hưng Nghiệp T.S Lương Phúc Hiệp A-index là một chỉ số được hình thành sau h-index, sự ra đời của a-index cũng là một trong những nỗ lực cải tiến h-index. Các chỉ số thuộc nhóm h-type indexes nhằm xác định vùng các tác phẩm được trích dẫn nhiều nhất và số lượng của chúng [Bur2007a]. Đối với h-index, vùng các các tác phẩm này chứa h tác phẩm được trích dẫn nhiều nhất, nó được Rousseau gọi là Hirsch core [Rou2006]. A-index không giống với các chỉ số thuộc nhóm h-type indexes, a- index nhằm xác định tầm ảnh hưởng của các tác phẩm thuộc vùng Hirsch core này. A-index lúc đầu được đề xuất bởi Jin vào năm 2006 [Jin2006], tuy nhiên tác giả chưa đặt một cái tên chính thức, sau đó nó được đề cập đến với tên a- index bởi Rousseau vào năm 2006 [Rousseau2006]. Sau khi a-index ra đời, có nhiều chỉ số khác cũng nhằm xác định tầm ảnh hưởng của các bài báo thuộc nhóm có nhiều trích dẫn nhất, chúng được xếp vào nhóm a-type indexes. b. Định nghĩa Theo ý tưởng của Jin [Jin2006], a-index là số trích dẫn trung bình mỗi tác phẩm trong Hirsch core nhận được, a-index có thể được định nghĩa như sau: ∑ Với:  a là a-index.  h là số tác phẩm trong hirsch core hay h-index của tập các tác phẩm.  cj là số trích dẫn của tác phẩm j. c. Nhận xét A-index cải tiến h-index về mặt quan tâm hơn đến số trích dẫn của các tác phẩm nằm trong Hirsch core, tuy nhiên nó lại quá nhạy cảm với một vài tác phẩm có số trích dẫn cao bất thường, vì vậy nó không tốt để đánh giá trong một số trường hợp. Sau đây luận văn giới thiệu ngắn gọn các chỉ số thuộc loại a-indexes khác. b) M-Index Khóa luận tốt nghiệp Th.S Huỳnh Ngọc Tín Trang 31 Trần Hưng Nghiệp T.S Lương Phúc Hiệp M-index được đề xuất bởi Bornmann và các cộng sự vào năm 2008. Các tác giả đã lưu ý rằng phân phối của các trích dẫn của các tác phẩm thường là xiên, vì vậy điểm ở giữa chứ không phải giá trị trung bình của các trích dẫn đấy nên được dùng để đo xu hướng trung tâm. Vì vậy các tác giả đã đề xuất m-index là giá trị ở giữa của số các trích dẫn của các tác phẩm thuộc Hirsch core. c) R-Index R-index được đề xuất bởi Jin và các cộng sự năm 2007 [JL+2007]. Jin và cộng sự đã lưu ý rằng khi tính a-index, các tác giả có h-index lớn sẽ chịu thiệt thòi vì tổng số trích dẫn đã bị chia cho h-index. Vì vậy Jin và cộng sự đề xuất cải tiến bằng cách thay vì chia cho h-index thì sẽ rút căn tổng số trích dẫn này. Ta có: √∑ Với:  r là r-index.  h là số tác phẩm trong hirsch core hay h-index của tập các tác phẩm.  cj là số trích dẫn của tác phẩm j. R-index cũng như a-index, rất nhạy cảm với những trường hợp có một vài tác phẩm có số trích dẫn cao bất thường. d) AR-Index AR-index được Jin và các cộng sự đề xuất để bổ sung với r-index [JL+2007]. AR-index được đề xuất nhằm thể hiện sự thay đổi thể hiện của các tác giả theo thời gian, nó bao gồm thêm số năm kể từ khi tác phẩm được xuất bản. AR-index có thể tính như sau: √∑ Khóa luận tốt nghiệp Th.S Huỳnh Ngọc Tín Trang 32 Trần Hưng Nghiệp T.S Lương Phúc Hiệp Với:  ar là ar-index.  h là số tác phẩm trong hirsch core hay h-index của tập các tác phẩm.  cj là số trích dẫn của tác phẩm j.  a là số năm kể từ khi xuất bản tác phẩm j. Tức là là trung bình số trích dẫn mỗi năm của tác phẩm j. e) Hw-Index Hw-index được phát triển bởi Egghe và Rousseau [ER2008] vào năm 2007. Hw-index cải tiến h-index để nhạy cảm hơn với sự thay đổi thể hiện của tác giả theo thời gian. Hw-index có hai dạng, liên tục và rời rạc. Dạng liên tục được định nghĩa như sau: √∫ √ Với:  là hw-index.  là nghiệm của phương trình: ∫  [ ] [ ]  là h-index, là nghiệm duy nhất của phương trình Dạng rời rạc được định nghĩa như sau: √∑ Với  là hw-index.  là số trích dẫn của tác phẩm thứ i. Khóa luận tốt nghiệp Th.S Huỳnh Ngọc Tín Trang 33 Trần Hưng Nghiệp T.S Lương Phúc Hiệp 2.5 Các hệ thống liên quan 2.5.1 Giới thiệu Hiện nay trên thế giới có nhiều thư viện số được phát triển với nhiều mục đích khác nhau [WikiDB&SE]. Các thư viện có thể phục vụ mục đích nghiên cứu của người thành lập, ví dụ Microsoft Academic Search; hoặc dùng trong một cộng đồng nghiên cứu nào đó, ví dụ Anthropological Literature9 dùng chính cho nội bộ đại học Harvard; hoặc có thể là để quản lý và bán các tài liệu có bản quyền, ví dụ IEEEXplore, ACM, SpringerLink… Các thư viện cũng có thể chia ra loại tính phí và loại miễn phí, tuy nhiên cũng có nhiều cấp độ miễn phí khác nhau như miễn phí tìm kiếm, duyệt nhưng tính phí nội dung, miễn phí phần tổng quan, miễn phí một số tài liệu… Mỗi thư viện thường gồm một cơ sở dữ liệu chứa thông tin chỉ mục về các tài liệu, các tác giả, và các đối tượng khác, nhiều thư viện có chứa cả nội dung đầy đủ của văn bản tài liệu hoặc đường dẫn đến nơi chứa nội dung này. Cùng với đó là một máy tìm kiếm hỗ trợ tìm kiếm thông tin về các đối tượng trong cơ sở dữ liệu. Ở đây luận văn sẽ giới thiệu một số thư viện lớn. 2.5.2 IEEEXplore Thư viện số IEEEXplore là của tổ chức “Institute of Electrical and Electronics Engineers (IEEE)”. Thư viện này cung cấp các bài báo khoa học liên quan đến lĩnh vực công nghệ thông tin. Tại thư viện số này, người dùng có thể tìm được các bài báo phát hành bởi tổ chức IEEE và các tổ chức khác như AIP, IET, IBM, AVS… [IEEE]. Bảng sau mô tả thông tin chi tiết IEEEXplore: 9 Khóa luận tốt nghiệp Th.S Huỳnh Ngọc Tín Trang 34 Trần Hưng Nghiệp T.S Lương Phúc Hiệp Bảng 2.1 – Thông tin chi tiết IEEEXplore. Tên hệ thống Institute of Electrical and Electronics Engineers (IEEE) Địa chỉ Loại thư viện Đây là thư viện tính phí, người dùng thông thường có thể tìm kiếm cơ bản nhưng không được sử dụng chức năng tìm kiếm nâng cao hay xem và download dữ liệu chỉ mục của bài báo có trong thư viện, muốn xem các tài liệu thì người dùng phải mua tài liệu đó. Các chức năng Duyệt danh sách: người dùng có thể duyệt qua danh sách các đối tượng tài liệu, tác giả, tổ chức… bằng cách đi theo các liên kết tự nhiên, hay theo từng chủ đề. Tìm kiếm: các loại tài liệu có thể tìm kiếm bao gồm: bài báo khoa học, báo cáo nghiên cứu, báo cáo khóa luận, luận án thạc sĩ, tiến sĩ… Người dùng có thể tìm kiếm cơ bản hoặc tìm kiếm nâng cao với nhiều tiêu chí tìm kiếm hơn. Xem nội dung tài liệu: Người dùng chưa đăng kí có thể xem nội dung phần giới thiệu tổng quan tài liệu, xem các tài liệu miễn phí, cũng có thể mua một tài liệu nào đó. Người dùng đã đăng kí có thể sử dụng những chức năng quản lý tài khoản cá nhân. Chức năng tìm kiếm nâng cao: Các tiêu chí tìm kiếm tài liệu nâng cao theo tác giả, hội nghị, tạp chí, tổ chức, năm xuất bản và theo chỉ số DOI. Cách xếp hạng kết quả tìm kiếm Kết quả tìm kiếm được sắp xếp dựa trên việc tổng hợp hai tiêu chí: độ tương quan của nội dung mỗi đối tượng với câu truy vấn và độ quan trọng toàn cục của đối tượng đó. Nội dung Nội dung dữ liệu của IEEEXplore được phát hành hay thuộc sở hữu của IEEE hay các tổ chức hợp tác, vì vậy nội dung có văn bản đầy đủ, chính thức, rõ ràng. Tuy nhiên số lượng bị hạn chế. Theo thông tin từ IEEEXplore thì hiện có 3,108,871 tài liệu thuộc lĩnh vực công nghệ thông tin. (dữ liệu cập nhật ngày 17/01/2012). Khóa luận tốt nghiệp Th.S Huỳnh Ngọc Tín Trang 35 Trần Hưng Nghiệp T.S Lương Phúc Hiệp Sau đây là các hình ảnh minh họa cho IEEE: Hình 2.7 – Trang chủ thư viện số IEEEXplore. Khóa luận tốt nghiệp Th.S Huỳnh Ngọc Tín Trang 36 Trần Hưng Nghiệp T.S Lương Phúc Hiệp Hình 2.8 – Kết quả tìm kiếm IEEEXplore với từ khóa “data”. 2.5.3 Association for Computing Machinery (ACM) ACM là một tổ chức hoạt động trong lĩnh vực công nghệ thông tin, chuyên cung cấp tài nguyên phục vụ việc đào tạo và nghiên cứu khoa học. ACM và nhiều tổ chức khác nhau phối hợp hoạt động cùng cung cấp thư viện số ACM cho phép người dùng tìm kiếm và tải về các bài báo được công bố trong các hội nghị, tạp chí được tổ chức và xuất bản bởi ACM và các tổ chức đó, ngoài ra ACM còn cho phép người dùng tìm kiếm và duyệt qua các bài báo khác mà ACM không sở hữu nhưng có lập chỉ mục[ACM]. Bảng sau mô tả thông tin chi tiết ACM: Bảng 2.2 – Thông tin chi tiết ACM. Tên hệ thống Association for Computing Machinery (ACM) Địa chỉ Loại thư viện Đây là thư viện tính phí, người dùng thông thường có thể tìm kiếm và duyệt theo cấu trúc các chỉ mục bài báo nhưng không Khóa luận tốt nghiệp Th.S Huỳnh Ngọc Tín Trang 37 Trần Hưng Nghiệp T.S Lương Phúc Hiệp được xem và download các bài báo có trong thư viện. Các chức năng Duyệt danh sách: người dùng có thể duyệt qua danh sách các đối tượng tài liệu, tác giả, tổ chức… bằng cách đi theo các liên kết tự nhiên, hay theo từng chủ đề. Tìm kiếm: các loại tài liệu có thể tìm kiếm bao gồm: bài báo khoa học, báo cáo nghiên cứu, báo cáo khóa luận, luận án thạc sĩ, tiến sĩ… Người dùng có thể tìm kiếm cơ bản hoặc tìm kiếm nâng cao với nhiều tiêu chí tìm kiếm hơn. Xem nội dung tài liệu: Người dùng chưa đăng kí có thể xem nội dung phần giới thiệu tổng quan tài liệu, xem các tài liệu miễn phí, cũng có thể mua một tài liệu nào đó. Người dùng đã đăng kí có thể sử dụng những chức năng quản lý tài khoản cá nhân. Chức năng tìm kiếm nâng cao: Các tiêu chí tìm kiếm tài liệu nâng cao theo tác giả, hội nghị, tạp chí, tổ chức, năm xuất bản và theo chỉ số DOI. Cách xếp hạng kết quả tìm kiếm Kết quả tìm kiếm được sắp xếp dựa trên việc tổng hợp hai tiêu chí: độ tương quan của nội dung mỗi đối tượng với câu truy vấn và độ quan trọng toàn cục của đối tượng đó. Nội dung Nội dung dữ liệu của ACM được phát hành hay thuộc sở hữu của ACM hay các tổ chức hợp tác, vì vậy nội dung có văn bản đầy đủ, chính thức, rõ ràng. Tuy nhiên số lượng bị hạn chế. Theo thông tin từ ACM thì hiện có 1778616 tài liệu, với 325164 tài liệu có nội dung văn bản đấy đủ thuộc sở hữu ACM và các tổ chức phối hợp. (dữ liệu cập nhật ngày 17/01/2012). Sau đây là các hình ảnh minh họa cho ACM: Khóa luận tốt nghiệp Th.S Huỳnh Ngọc Tín Trang 38 Trần Hưng Nghiệp T.S Lương Phúc Hiệp Hình 2.9 – Trang chủ của thư viện số ACM. Khóa luận tốt nghiệp Th.S Huỳnh Ngọc Tín Trang 39 Trần Hưng Nghiệp T.S Lương Phúc Hiệp Hình 2.10 – Tìm kiếm chi tiết của ACM. Khóa luận tốt nghiệp Th.S Huỳnh Ngọc Tín Trang 40 Trần Hưng Nghiệp T.S Lương Phúc Hiệp Hình 2.11 – Kết quả trả về khi tìm kiếm ACM với từ khóa “data”. 2.5.4 SpringerLink Thư viện số SpringerLink được cung cấp bởi công ty Springer Science+Business Media. Thư viện này có sự hợp tác của nhiều tác giả lớn ở nhiều lĩnh vực khoa học khác nhau để cung cấp cho người dùng khả năng tìm kiếm và tải về các bài viết của họ [SL]. Bảng sau trình bày chi tiết hơn về SpringerLink. Bảng 2.3 – Thông tin chi tiết về SpringerLink. Tên hệ thống SpringerLink Địa chỉ Loại thư viện Đây là thư viện tính phí, cung cấp các tài liệu có bản quyền. Người dùng có thể tìm kiếm và duyệt theo cấu trúc các chỉ mục bài báo, nếu muốn xem và download các bài báo có trong thư viện thì phải mua bài báo đó. Các chức năng Duyệt danh sách: người dùng có thể duyệt qua danh sách các đối tượng tài liệu, tác giả, tổ chức… bằng cách đi theo các liên Khóa luận tốt nghiệp Th.S Huỳnh Ngọc Tín Trang 41 Trần Hưng Nghiệp T.S Lương Phúc Hiệp kết tự nhiên, hay theo từng chủ đề. Tìm kiếm: các loại tài liệu có thể tìm kiếm bao gồm: bài báo khoa học, báo cáo nghiên cứu, báo cáo khóa luận, luận án thạc sĩ, tiến sĩ… Người dùng có thể tìm kiếm cơ bản hoặc tìm kiếm nâng cao với nhiều tiêu chí tìm kiếm hơn. Xem nội dung tài liệu: Người dùng chưa đăng kí có thể xem nội dung phần giới thiệu tổng quan tài liệu, xem các tài liệu miễn phí, cũng có thể mua một tài liệu nào đó. Người dùng đã đăng kí có thể sử dụng những chức năng quản lý tài khoản cá nhân. Chức năng tìm kiếm nâng cao: Các tiêu chí tìm kiếm tài liệu nâng cao theo tác giả, hội nghị, tạp chí, tổ chức, năm xuất bản và theo chỉ số DOI. Chức năng tìm kiếm bài báo liên quan: SpringerLink còn hỗ trợ chức năng liệt kê những bài báo có liên quan tới bài báo đang duyệt, gọi là chức năng “Related article and Semantic Linking”. Cách xếp hạng kết quả tìm kiếm Kết quả tìm kiếm được sắp xếp dựa trên việc tổng hợp hai tiêu chí: độ tương quan của nội dung mỗi đối tượng với câu truy vấn và độ quan trọng toàn cục của đối tượng đó. Nội dung Nội dung dữ liệu của SpringerLink được phát hành hay thuộc sở hữu của nhiều tác giả, tổ chức hợp tác với SpringerLink, vì vậy nội dung có văn bản đầy đủ, chính thức, rõ ràng. Tuy nhiên số lượng bị hạn chế. Theo thông tin từ SpringerLink thì hiện có 5534632 tài liệu ở hơn 10 lĩnh vực lớn. Với 2713 tớ báo, 50127 cuốn sách, 1577 tập sách, 211 nguồn tham khảo online, 25967 biên bản. (dữ liệu cập nhật ngày 17/01/2012). Sau đây là các hình ảnh minh họa cho SpringerLink. Khóa luận tốt nghiệp Th.S Huỳnh Ngọc Tín Trang 42 Trần Hưng Nghiệp T.S Lương Phúc Hiệp Hình 2.12 – Trang chủ thư viện số SpringerLink. Hình 2.13 – Chức năng tìm kiếm nâng cao SpringerLink. Khóa luận tốt nghiệp Th.S Huỳnh Ngọc Tín Trang 43 Trần Hưng Nghiệp T.S Lương Phúc Hiệp Hình 2.14 – Kết quả tìm kiếm thư viện SpringerLink với từ khóa “data”. 2.5.5 Microsoft Academic Search (MAS) MAS được phát triển bởi bộ phận Microsoft Research thuộc công ty Microsoft. MAS là một thư viện miễn phí được xây dựng nhằm phục vụ cho việc thử nghiệm các ý tưởng nghiên cứu trong nhiều lĩnh vực như khai thác dữ liệu, trích xuất và phân biệt thực thể có tên (Named Entity Extraction and Disambiguation), biểu diễn dữ liệu (Data Visualization),… Hiện tại MAS là một mô hình nghiên cứu nên có hạn chế về số lượng tài liệu ở một số lĩnh vực [MAS][MASH]. Bảng sau cung cấp các thông tin cụ thể hơn về MAS: Bảng 2.4 – Thông tin chi tiết về MAS. Tên hệ thống Microsoft Academic Research (MAS) Địa chỉ Loại thư viện MAS là một thư viện thử nghiệm, được cung cấp miễn phí, nội dung một phần tự thu thập và một phần do người dùng cung cấp. Cho phép người dùng tìm kiếm, xem các thông tin, tải tài liệu, chỉnh sửa các thông tin. Các chức năng Duyệt danh sách: người dùng có thể duyệt qua danh sách các đối tượng tài liệu, tác giả, tổ chức… bằng cách đi theo các liên Khóa luận tốt nghiệp Th.S Huỳnh Ngọc Tín Trang 44 Trần Hưng Nghiệp T.S Lương Phúc Hiệp kết tự nhiên, hay theo từng chủ đề. Tìm kiếm: các loại tài liệu có thể tìm kiếm bao gồm: bài báo khoa học, báo cáo nghiên cứu, báo cáo khóa luận, luận án thạc sĩ, tiến sĩ… Người dùng có thể tìm kiếm cơ bản hoặc tìm kiếm nâng cao với nhiều tiêu chí tìm kiếm hơn. Người dùng chỉnh sửa: những thông tin cơ bản như tên tác giả, nơi công tác, hình ảnh hoặc trang chủ. Tác giả cũng có thể tự mình tải tập tin pdf lên hệ thống, xác nhận hay xóa một tài liệu nào đó của mình. Nhận thông tin “Kêu gọi bài báo” (Call for paper) từ các hội nghị: “Kêu gọi bài báo” là một chức năng rất thú vị của MAS, cho phép người dùng theo dõi lịch biểu cũng như hạn chót ngày nộp bài báo về các hội nghị khoa học. Hiện tại chức năng này mới chỉ ứng dụng cho các hội thảo thuộc ngành Khoa học máy tính (Computer Science). Biểu diễn mạng cộng tác giả: Chức năng này biểu diễn những mối quan hệ học thuật giữa các tác giả, bao gồm các thành phần sau: - Giao diện đồ thị đồng tác giả (Co-author graph UI). - Đường đi cộng tác giả (Co-author Path). - Đồ thị trích dẫn tác giả (Author Citation Graph). Đồ thị phân cấp tác giả (Genealogy Graph). Xem nội dung trích dẫn. Minh họa xu hướng nghiên cứu ở mỗi lĩnh vực. Tìm hiểu thông tin bổ sung về nơi làm việc của tác giả như vị trí địa lý, chất lượng nghiên cứu khoa học… Chức năng tìm kiếm nâng cao: MAS hỗ trợ các tiêu chí tìm kiếm tài liệu theo tác giả, hội nghị, tạp chí, tổ chức, năm xuất bản và theo chỉ số DOI. Chức năng tìm kiếm bài báo liên quan: MAS có hỗ trợ chức năng liệt kê những bài báo có liên quan tới bài báo đang duyệt, thể hiện ở phần “Related Publication”. Chức năng này chỉ có ở một số bài báo khoa học. Cách xếp hạng kết quả tìm kiếm Kết quả tìm kiếm được sắp xếp dựa trên việc tổng hợp hai tiêu chí: độ tương quan của nội dung mỗi đối tượng với câu truy vấn và độ quan trọng toàn cục của đối tượng đó. Độ tương quan được tính toán dựa trên các thuộc tính sẵn có của đối tượng như một máy tìm kiếm thông thường. Độ quan Khóa luận tốt nghiệp Th.S Huỳnh Ngọc Tín Trang 45 Trần Hưng Nghiệp T.S Lương Phúc Hiệp trọng được xác định bằng các mối quan hệ với các đối tượng khác, MAS đang thử nghiệm thuật toán poprank cho mục đích xác định độ quan trọng của các đối tượng. Nội dung Nội dung dữ liệu của MAS được thu thập từ nhiều nguồn bao gồm nhiều lĩnh vực khác nhau và đang phát triển. Theo thông tin từ MAS thì hiện có 37472734 tài liệu và 16639179 tác giả. (dữ liệu cập nhật ngày 17/01/2012). Sau đây là một số hình ảnh về MAS: Hình 2.15 – Khung tìm kiếm cơ bản của MAS. Hình 2.16 – Tìm kiếm theo lĩnh vực ở MAS. Hình 2.17 – Khung tìm kiếm nâng cao MAS. Khóa luận tốt nghiệp Th.S Huỳnh Ngọc Tín Trang 46 Trần Hưng Nghiệp T.S Lương Phúc Hiệp Hình 2.18 – Chức năng cho người dùng chỉnh sửa thông tin MAS. Hình 2.19 – Chức năng quản lý các “call for paper” MAS. Khóa luận tốt nghiệp Th.S Huỳnh Ngọc Tín Trang 47 Trần Hưng Nghiệp T.S Lương Phúc Hiệp Hình 2.20 – Chức năng biểu diễn mối quan hệ các tác giả theo đồ thị MAS. Khóa luận tốt nghiệp Th.S Huỳnh Ngọc Tín Trang 48 Trần Hưng Nghiệp T.S Lương Phúc Hiệp Từ trên xuống dưới là: Co-author Graph, Co-author Path, Author Citation Graph, Genealogy Graph. Hình 2.21 – Xem nội dung trích dẫn MAS. Khóa luận tốt nghiệp Th.S Huỳnh Ngọc Tín Trang 49 Trần Hưng Nghiệp T.S Lương Phúc Hiệp Hình 2.22 – Xem xu hướng nghiên cứu khoa học trong các lĩnh vực MAS. Hình 2.23 – Xem thông tin bổ sung về tổ chức của tác giả MAS. 2.5.6 Google Scholar Google Scholar được cung cấp bởi công ty Google. Google Scholar là một thư viện miễn phí cung cấp chức năng tìm kiếm các tài liệu học thuật cho mọi người dùng [GS][GSH]. Bảng sau cung cấp các thông tin cụ thể hơn về Google Scholar: Khóa luận tốt nghiệp Th.S Huỳnh Ngọc Tín Trang 50 Trần Hưng Nghiệp T.S Lương Phúc Hiệp Bảng 2.5 – Thông tin chi tiết về Google Scholar. Tên hệ thống Google Scholar Địa chỉ Loại thư viện Google Scholar là một thư viện miễn phí, nội dung chủ yếu là do Google tự động thu thập trên mạng internet về bằng web crawler, ngoài ra, người dùng cũng có thể đề nghị Google thu thập tài liệu của mình. Google Scholar có các tính năng tương tự như máy tìm kiếm Google trên web trong cách lập chỉ mục, tìm kiếm và hiển thị thông tin, tuy nhiên nội dung lập chỉ mục chỉ tập trung vào các tài liệu học thuật. Cho phép người dùng tìm kiếm tài liệu, xem và tải tài liệu nếu có sẵn, đi đến nguồn của tài liệu, ngoài ra còn thể thể tìm hiểu về các thuộc tính khác như số trích dẫn của tài liệu, các mối quan hệ ngữ nghĩa như quan hệ tác giả, quan hệ trích dẫn… Các chức năng Tìm kiếm: Hỗ trợ tìm kiếm nhiều loại tài liệu từ nguồn trên internet, người dùng có thể chọn loại tài liệu cần tìm: bài báo khoa học, bằng sáng chế, tạp chí, văn bản luật … Người dùng có thể tìm kiếm cơ bản hoặc tìm kiếm nâng cao với nhiều tiêu chí tìm kiếm hơn. Chức năng tìm kiếm nâng cao: Google Scholar hỗ trợ các tiêu chí tìm kiếm tài liệu theo tác giả, hội nghị, tạp chí, tổ chức, năm xuất bản và theo chỉ số DOI. Chức năng tìm kiếm bài báo liên quan: Google Scholar có hỗ trợ chức năng liệt kê những bài báo có liên quan hay tương tự với bài báo đang duyệt, thể hiện ở phần “Related articles”. Chức năng thông báo bằng email cho người dùng về các kết quả tìm kiếm mới Chức năng trích xuất thông tin trích dẫn: người dùng có thể xem và xuất thông tin trích dẫn của một tài liệu nào đó ra. Chức năng theo dõi hoạt động khoa học của chính mình: người dùng có thể theo dõi số lượng trích dẫn và các chỉ số xếp hạng của mình. Cách xếp hạng kết quả tìm kiếm Máy tìm kiếm Google Scholar hoạt động tương tự máy tìm kiếm Google, kết quả tìm kiếm cũng được sắp xếp dựa trên việc tổng hợp hai tiêu chí: độ tương quan của nội dung mỗi đối tượng với câu truy vấn và độ quan trọng toàn cục của đối tượng đó. Nội dung Đối tượng lập chỉ mục của Google Scholar là các tài liệu học thuật. Các tài liệu này được thu thập về từ internet, Google Khóa luận tốt nghiệp Th.S Huỳnh Ngọc Tín Trang 51 Trần Hưng Nghiệp T.S Lương Phúc Hiệp cũng tuyên bố rằng họ lập chỉ mục các tài liệu sao cho kết quả có lợi nhất cho đa số người dùng. Các loại tài liệu bao gồm các bài báo khoa học, báo cáo nghiên cứu, luận văn, luận án, sách, các bằng sáng chế, các văn bản công bố của các cơ quan, các văn bản luật, các trang web học thuật… Các tài liệu này được thu thập từ mọi nơi trên internet, bao gồm các nơi lưu trữ chính thức của tài liệu, và cả các hệ thống thư viện số khác cả miễn phí lẫn tính phí. Tuy nhiên các tài liệu sau không được lập chỉ mục: các tài liệu quá nhỏ bé, hoặc không có tựa đề, hoặc không có tác giả, hoặc được lưu trữ ở các trang web mà sự truy xuất đòi hỏi phải đăng nhập phức tạp. Số lượng cụ thể của các tài liệu không được công bố, và phụ thuộc mật thiết vào số lượng tài liệu có thể thấy được trên internet. Tuy nhiên có thể nói Google Scholar lập chỉ mục nhiều tài liệu nhất, mặc dù bị hạn chế ở các tài liệu lâu năm trước vì chúng ít xuất hiện trên internet. Sau đây là một số hình ảnh về Google Scholar: Hình 2.24 – Khung tìm kiếm cơ bản của Google Scholar. Khóa luận tốt nghiệp Th.S Huỳnh Ngọc Tín Trang 52 Trần Hưng Nghiệp T.S Lương Phúc Hiệp Hình 2.25 – Khung tìm kiếm nâng cao của Google Scholar. Hình 2.26 – Kết quả tìm kiếm các bài báo và bằng sáng chế với từ khóa “data”. 2.5.7 CiteSeerX CiteSeerX, được nâng cấp lên từ CiteSeer, là một hệ thống thư viện điện tử được cung cấp bởi trường khoa học và công nghệ thuộc đại học bang Pennsylvania [CS][CSH]. Khóa luận tốt nghiệp Th.S Huỳnh Ngọc Tín Trang 53 Trần Hưng Nghiệp T.S Lương Phúc Hiệp Bảng sau thể hiện thông tin chi tiết của CiteSeerX: Bảng 2.6 – Thông tin chi tiết về CiteSeerX. Tên hệ thống CiteSeerX Địa chỉ Loại thư viện CiteSeerX cung cấp các các tài liệu miễn phí tới người dùng theo một chứng nhận mở “Creative Commons Attribution- NonCommercial-ShareAlike 3.0 Unported License”, cho phép người dùng được tìm kiếm, xem thông tin chỉ mục, xem và tải các văn bản tài liệu được cung cấp trên CiteSeerX. Ngoài ra, dự án CiteSeerX còn cung cấp cho người dùng những công cụ hỗ trợ việc nghiên cứu và xây dựng các thư viện số, ví dụ các thuật toán, dữ liệu, các công nghệ… Cho phép người dùng tìm kiếm tài liệu, xem và tải tài liệu nếu có sẵn, đi đến nguồn của tài liệu, ngoài ra còn thể thể tìm hiểu về các thuộc tính khác như số trích dẫn của tài liệu, các mối quan hệ ngữ nghĩa như quan hệ tác giả, quan hệ trích dẫn… Các chức năng Tìm kiếm: Hỗ trợ tìm kiếm nhiều loại tài liệu từ nguồn trên internet, người dùng có thể chọn loại tài liệu cần tìm: bài báo khoa học, bằng sáng chế, tạp chí, văn bản luật … CiteSeerX hiển thị phần nội dung tìm kiếm được dùng trong tài liệu, do đó nâng cao hiệu quả tìm kiếm. CiteSeerX cho phép xem các ngữ cảnh trích dẫn trong các tài liệu. Người dùng có thể tìm kiếm cơ bản hoặc tìm kiếm nâng cao với nhiều tiêu chí tìm kiếm hơn. Chức năng tìm kiếm nâng cao: CiteSeerX hỗ trợ các tiêu chí tìm kiếm tài liệu theo nội dung tài liệu, tựa đề, nội dung phần tổng quan, tác giả, hội nghị, tạp chí, tổ chức, năm xuất bản, từ khóa. Chức năng tìm kiếm bài báo liên quan: CiteSeerX có hỗ trợ chức năng liệt kê những bài báo có liên quan hay tương tự với bài báo đang duyệt về mặt nội dung và mặt trích dẫn. Chức năng này hoạt động dựa trên thuật toán CCIDF để tìm các bài báo tương đồng về mặt trích dẫn. Autonomous Citation Indexing (ACI): tự động tạo chỉ mục trích dẫn. Thống kê trích dẫn: CiteSeerX thống kê trích dẫn cho tất cả các tài liệu được tham khảo, không chỉ các tài liệu được lập chỉ mục. Liên kết tham khảo: CiteSeerX cho phép duyệt cơ sở dữ liệu theo các đường liên kết tham khảo. Khóa luận tốt nghiệp Th.S Huỳnh Ngọc Tín Trang 54 Trần Hưng Nghiệp T.S Lương Phúc Hiệp CiteSeerX có chức năng thông báo cho người dùng nêu có các trích dẫn mới đến một tài liệu nào đó, hoặc có tài liệu mới thuộc loại người dùng mong muốn. CiteSeerX có thể được duyệt theo các tài liệu liên quan, dựa trên nội dung của tài liệu và các trích dẫn. Cách xếp hạng kết quả tìm kiếm Máy tìm kiếm CiteSeerX dựa trên lõi là máy tìm kiếm Solr, là một dự án con của Lucene. Kết quả tìm kiếm cũng được sắp xếp dựa trên việc tổng hợp hai tiêu chí: độ tương quan của nội dung mỗi đối tượng với câu truy vấn và độ quan trọng toàn cục của đối tượng đó. Nội dung Nội dung dữ liệu và siêu dữ liệu của CiteSeerX được thu thập tự động bằng cách sử dụng web crawler với cơ chế crawl chọn lọc từ một số nguồn nhất định, dữ liệu trên CiteSeerX vẫn đang được cập nhật liên tục, tập trung vào lĩnh vực khoa học thông tin và máy tính. Sau chi crawl về, CiteSeerX tiến hành phân tích các tài liệu crawl được để lấy thông tin metadata cần thiết. Số lượng cụ thể của các tài liệu không được công bố, và phụ thuộc mật thiết vào số lượng tài liệu mà crawler của CiteSeerX tiếp cận được. Sau đây là các hình ảnh minh họa cho CiteSeerX: Hình 2.27 – Khung tìm kiếm cơ bản của CiteSeerX. Khóa luận tốt nghiệp Th.S Huỳnh Ngọc Tín Trang 55 Trần Hưng Nghiệp T.S Lương Phúc Hiệp Hình 2.28 – Khung tìm kiếm nâng cao của CiteSeerX. Hình 2.29 – Kết quả tìm kiếm CiteSeerX với từ khóa “data”. Khóa luận tốt nghiệp Th.S Huỳnh Ngọc Tín Trang 56 Trần Hưng Nghiệp T.S Lương Phúc Hiệp CHƯƠNG 3: CÁCH TIẾP CẬN CỦA ĐỀ TÀI 3.1 Mở đầu Đề tài này có mục tiêu là nghiên cứu thử nghiệm và ứng dụng một hệ thống thư viện điện tử tốt, đáp ứng nhu cầu của người dùng, đặc biệt là người dùng trong nước. Để làm được điều này, trước tiên cần khảo sát, đánh giá các cơ sở lý thuyết hiện có của hệ thống thư viện điện tử cũng như các hệ thống thư viện điện tử hiện có.Những phương pháp và cách đánh giá được khảo sát ở trên có một số ưu điểm và nhược điểm nhất định. Các hệ thống hiện có cũng có một số điểm mạnh và hạn chế riêng. Có một số hạn chế có tính đặc thù đối với người dùng Việt Nam. Chương này sẽ trình bày một số hướng cải tiến, chỉnh sửa để xây dựng được một hệ thống thư viện điện tử có thể đáp ứng tốt hơn nhu cầu của người dùng. 3.2 Thảo luận về các chỉ số xếp hạng Các chỉ số ở trên đều dựa trên phân tích trích dẫn, điều đấy có nghĩa là số lượng các trích dẫn trong các chỉ số này rất quan trọng. Trích dẫn thường được xem như một sự bỏ phiếu

Các file đính kèm theo tài liệu này:

Đề tài- ĐÁNH GIÁ NĂNG LỰC NGHIÊN CỨU CỦA CÁ NHÂN, TỔ CHỨC DỰA TRÊN PHÂN TÍCH, TÍNH TOÁN CÁC CHỈ SỐ KHOA HỌC.pdf