Tài liệu Đề tài Đánh giá năng lực nghiên cứu của cá nhân, tổ chức dựa trên phân tích, tính toán các chỉ số khoa học: ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH
ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
KHOA HỆ THỐNG THÔNG TIN
------------
KHOÁ LUẬN TỐT NGHIỆP
Đề tài:
ĐÁNH GIÁ NĂNG LỰC NGHIÊN CỨU CỦA
CÁ NHÂN, TỔ CHỨC DỰA TRÊN PHÂN TÍCH,
TÍNH TOÁN CÁC CHỈ SỐ KHOA HỌC
Giảng viên hướng dẫn:
TH.S HUỲNH NGỌC TÍN
Cơ quan công tác: ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
T.S LƯƠNG PHÚC HIỆP
Cơ quan công tác: ĐẠI HỌC ARKANSAS, HOA KỲ
Sinh viên thực hiện:
TRẦN HƯNG NGHIỆP
MSSV: 07520245
Lớp: HTTT02
Khóa: 2007 – 2012
Tp. HCM, tháng 12 năm 2011
ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH
ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
KHOA HỆ THỐNG THÔNG TIN
------------
KHOÁ LUẬN TỐT NGHIỆP
Đề tài:
ĐÁNH GIÁ NĂNG LỰC NGHIÊN CỨU CỦA
CÁ NHÂN, TỔ CHỨC DỰA TRÊN PHÂN TÍCH,
TÍNH TOÁN CÁC CHỈ SỐ KHOA HỌC
Giảng viên hướng dẫn:
TH.S HUỲNH NGỌC TÍN
Cơ quan công tác: ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
T.S LƯƠNG PHÚC HIỆP
Cơ quan công tác: ĐẠI HỌC ARKANSAS, HOA KỲ
Sinh viên thực hiện:
TRẦN HƯNG NG...
167 trang |
Chia sẻ: haohao | Lượt xem: 1251 | Lượt tải: 0
Bạn đang xem trước 20 trang mẫu tài liệu Đề tài Đánh giá năng lực nghiên cứu của cá nhân, tổ chức dựa trên phân tích, tính toán các chỉ số khoa học, để tải tài liệu gốc về máy bạn click vào nút DOWNLOAD ở trên
ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH
ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
KHOA HỆ THỐNG THÔNG TIN
------------
KHOÁ LUẬN TỐT NGHIỆP
Đề tài:
ĐÁNH GIÁ NĂNG LỰC NGHIÊN CỨU CỦA
CÁ NHÂN, TỔ CHỨC DỰA TRÊN PHÂN TÍCH,
TÍNH TOÁN CÁC CHỈ SỐ KHOA HỌC
Giảng viên hướng dẫn:
TH.S HUỲNH NGỌC TÍN
Cơ quan công tác: ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
T.S LƯƠNG PHÚC HIỆP
Cơ quan công tác: ĐẠI HỌC ARKANSAS, HOA KỲ
Sinh viên thực hiện:
TRẦN HƯNG NGHIỆP
MSSV: 07520245
Lớp: HTTT02
Khóa: 2007 – 2012
Tp. HCM, tháng 12 năm 2011
ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH
ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
KHOA HỆ THỐNG THÔNG TIN
------------
KHOÁ LUẬN TỐT NGHIỆP
Đề tài:
ĐÁNH GIÁ NĂNG LỰC NGHIÊN CỨU CỦA
CÁ NHÂN, TỔ CHỨC DỰA TRÊN PHÂN TÍCH,
TÍNH TOÁN CÁC CHỈ SỐ KHOA HỌC
Giảng viên hướng dẫn:
TH.S HUỲNH NGỌC TÍN
Cơ quan công tác: ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
T.S LƯƠNG PHÚC HIỆP
Cơ quan công tác: ĐẠI HỌC ARKANSAS, HOA KỲ
Sinh viên thực hiện:
TRẦN HƯNG NGHIỆP
MSSV: 07520245
Lớp: HTTT02
Khóa: 2007 – 2012
Tp. HCM, tháng 12 năm 2011
MỞ ĐẦU
Khoa học hiện nay đang phát triển rất mạnh, cùng với đó là số lượng bài
báo khoa học ngày càng tăng lên. Việc quản lý và khai thác các bài báo khoa
học này một cách hiệu quả là một nhu cầu tất yếu cho sự phát triển bền vững
của khoa học với tinh thần “đứng trên vai những người khổng lồ”.
Hiện nay trên thế giới đã có nhiều hệ thống được xây dựng để thực hiện
việc này, chức năng chính của chúng là lưu trữ và tìm kiếm các bài báo phù
hợp với các tiêu chí nhất định.
Ở đề tài này chúng tôi khảo sát các hệ thống có sẵn này ở khía cạnh nội
dung, tính năng, cùng với các giải thuật tìm kiếm, xếp hạng của chúng, sau đó
xây dựng mô hình ứng dụng các chỉ số xếp hạng trong việc đánh giá các cá
nhân, tổ chức và bước đầu tiến hành thử nghiệm trên các cá nhân, tổ chức làm
việc trong lĩnh vực công nghệ thông tin ở Tp. Hồ Chí Minh. Từ đó đề xuất xây
dựng một hệ thống thư viện điện tử thực tế có các đặc trưng cần thiết để ứng
dụng các chỉ số này phục vụ người dùng ở Việt Nam.
LỜI CẢM ƠN
Lời đầu tiên em xin gửi lòng biết ơn chân thành đến thầy Huỳnh Ngọc Tín
và thầy đồng hướng dẫn Lương Phúc Hiệp. Hai thầy đã tận tình hướng dẫn,
góp ý, động viên em rất nhiều trong quá trình làm luận văn. Qua đó, em đã thật
sự học hỏi được rất nhiều và trưởng thành hơn trong tư duy và nhận thức.
Em xin gửi lời cảm ơn tất cả các thầy cô đã giảng dạy, truyền đạt kiến thức
và những kinh nghiệm quý báu cho em suốt những năm học vừa qua.
Em cảm ơn khoa Hệ thống Thông tin trường Đại học Công nghệ Thông tin
đã tạo điều kiện cho em thực hiện đề tài này.
Em cũng xin cảm ơn các bạn đã nhiệt tình giúp đỡ em trong suốt quá trình
thực hiện đề tài này.
Cuối cùng, em xin gửi lời cảm ơn đến gia đình đã tạo mọi điều kiện thuận
lợi về vật chất và tinh thần, giúp em hoàn thành luận văn một cách tốt nhất.
Mặc dù em đã cố gắng để hoàn thành tốt đề tài, nhưng chắc chắn không
tránh khỏi những thiếu sót, em rất mong được sự tận tình chỉ bảo của quý thầy
cô.
Tp. Hồ Chí Minh, tháng 12 năm 2011
Sinh viên thực hiện
Trần Hưng Nghiệp
NHẬN XÉT
(Của giảng viên hướng dẫn)
...........................................................................................................
...........................................................................................................
...........................................................................................................
...........................................................................................................
...........................................................................................................
...........................................................................................................
...........................................................................................................
...........................................................................................................
...........................................................................................................
...........................................................................................................
...........................................................................................................
...........................................................................................................
...........................................................................................................
...........................................................................................................
...........................................................................................................
...........................................................................................................
...........................................................................................................
...........................................................................................................
...........................................................................................................
...........................................................................................................
...........................................................................................................
NHẬN XÉT
(Của giảng viên phản biện)
...........................................................................................................
...........................................................................................................
...........................................................................................................
...........................................................................................................
...........................................................................................................
...........................................................................................................
...........................................................................................................
...........................................................................................................
...........................................................................................................
...........................................................................................................
...........................................................................................................
...........................................................................................................
...........................................................................................................
...........................................................................................................
...........................................................................................................
...........................................................................................................
...........................................................................................................
...........................................................................................................
...........................................................................................................
...........................................................................................................
...........................................................................................................
NHẬN XÉT
(Của hội đồng)
...........................................................................................................
...........................................................................................................
...........................................................................................................
...........................................................................................................
...........................................................................................................
...........................................................................................................
...........................................................................................................
...........................................................................................................
...........................................................................................................
...........................................................................................................
...........................................................................................................
...........................................................................................................
...........................................................................................................
...........................................................................................................
...........................................................................................................
...........................................................................................................
...........................................................................................................
...........................................................................................................
...........................................................................................................
...........................................................................................................
...........................................................................................................
MỤC LỤC
MỞ ĐẦU ......................................................................................................i
LỜI CẢM ƠN ............................................................................................... ii
MỤC LỤC .................................................................................................... vi
DANH MỤC CÁC BẢNG ............................................................................ix
DANH MỤC CÁC BIỂU ĐỒ ......................................................................xi
DANH MỤC CÁC HÌNH .......................................................................... xii
DANH MỤC CÁC SƠ ĐỒ ......................................................................... xiv
Chương 1: TỔNG QUAN VỀ ĐỀ TÀI ......................................................... 1
1.1 Đánh giá hiện trạng ............................................................................... 1
1.2 Phát biểu bài toán .................................................................................. 2
1.3 Mục tiêu đề tài ....................................................................................... 3
1.4 Cấu trúc báo cáo .................................................................................... 3
Chương 2: CÁC NGHIÊN CỨU VÀ ỨNG DỤNG LIÊN QUAN............... 4
2.1 Giới thiệu ................................................................................................ 4
2.2 Web crawler ........................................................................................... 4
2.3 Các phương pháp xếp hạng phổ biến .................................................. 5
2.3.1 Giới thiệu ......................................................................................... 5
2.3.2 PageRank ......................................................................................... 6
2.3.3 PopRank ........................................................................................ 13
2.4 Các chỉ số xếp hạng phổ biến ............................................................. 19
2.4.1 Giới thiệu ....................................................................................... 19
2.4.2 Các chỉ số phân tích tài liệu chuẩn (Standard bibliometric
indicators) 19
2.4.3 H-type indexes ............................................................................... 22
2.4.4 A-type indexes ............................................................................... 29
2.5 Các hệ thống liên quan ........................................................................ 33
2.5.1 Giới thiệu ....................................................................................... 33
2.5.2 IEEEXplore ................................................................................... 33
2.5.3 Association for Computing Machinery (ACM) ............................ 36
2.5.4 SpringerLink .................................................................................. 40
2.5.5 Microsoft Academic Search (MAS) .............................................. 43
2.5.6 Google Scholar .............................................................................. 49
2.5.7 CiteSeerX ...................................................................................... 52
Chương 3: CÁCH TIẾP CẬN CỦA ĐỀ TÀI ............................................. 56
3.1 Mở đầu .................................................................................................. 56
3.2 Thảo luận về các chỉ số xếp hạng ....................................................... 56
3.3 Thảo luận về các phương pháp xếp hạng .......................................... 57
3.4 Phân tích cải tiến các hệ thống thư viện điện tử ............................... 58
3.5 Cách tiếp cận của đề tài ...................................................................... 60
Chương 4: HIỆN THỰC HỆ THỐNG ...................................................... 62
4.1 Mở đầu .................................................................................................. 62
4.2 Chương trình thu thập dữ liệu ........................................................... 62
4.2.1 Khảo sát hiện trạng ........................................................................ 62
4.2.2 Phân tích thiết kế ........................................................................... 63
4.2.3 Cài đặt ............................................................................................ 82
4.2.4 Kết quả........................................................................................... 86
4.3 Chương trình tính toán các chỉ số xếp hạng ..................................... 87
4.3.1 Khảo sát hiện trạng ........................................................................ 87
4.3.2 Phân tích thiết kế ........................................................................... 87
4.3.3 Cài đặt ............................................................................................ 96
4.3.4 Kết quả........................................................................................... 97
4.4 Hệ thống thư viện điện tử ................................................................. 102
4.4.1 Khảo sát hiện trạng ...................................................................... 102
4.4.2 Phân tích thiết kế ......................................................................... 102
4.4.3 Cài đặt .......................................................................................... 104
4.4.4 Kết quả......................................................................................... 107
Chương 5: THỰC NGHIỆM VÀ ĐÁNH GIÁ ......................................... 110
5.1 Mở đầu ................................................................................................ 110
5.2 Thu thập danh sách giảng viên ........................................................ 110
5.3 Chuẩn hóa dữ liệu giảng viên và nhập liệu ..................................... 113
5.4 Chương trình thu thập dữ liệu chỉ mục .......................................... 114
5.4.1 Khảo sát hiện trạng ...................................................................... 114
5.4.2 Phân tích thiết kế ......................................................................... 115
5.4.3 Cài đặt .......................................................................................... 122
5.4.4 Kết quả......................................................................................... 124
5.5 Kiểm tra dữ liệu ................................................................................. 125
5.6 Tính toán các chỉ số xếp hạng ........................................................... 127
5.6.1 Mở đầu ......................................................................................... 127
5.6.2 Phân tích thiết kế ......................................................................... 127
5.6.3 Cài đặt .......................................................................................... 131
5.7 Đánh giá kết quả ................................................................................ 131
5.7.1 Kết quả tính toán ......................................................................... 131
5.7.2 Nhận xét và đề xuất một số cải tiến ............................................ 143
Chương 6: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN .............................. 146
6.1 Kết quả đạt được ............................................................................... 146
6.2 Hạn chế và hướng phát triển ............................................................ 146
6.2.1 Hạn chế ........................................................................................ 146
6.2.2 Hướng phát triển .......................................................................... 147
DANH MỤC TÀI LIỆU THAM KHẢO .................................................. 148
DANH MỤC CÁC BẢNG
Bảng 2.1 – Thông tin chi tiết IEEEXplore. ..................................................... 34
Bảng 2.2 – Thông tin chi tiết ACM. ................................................................ 36
Bảng 2.3 – Thông tin chi tiết về SpringerLink. ............................................... 40
Bảng 2.4 – Thông tin chi tiết về MAS. ............................................................ 43
Bảng 2.5 – Thông tin chi tiết về Google Scholar. ........................................... 50
Bảng 2.6 – Thông tin chi tiết về CiteSeerX. .................................................... 53
Bảng 3.1 – So sánh các hệ thống thư viện điện tử. ......................................... 58
Bảng 4.1 – Các mẫu url được dùng trong crawler........................................... 66
Bảng 4.2 – Các mẫu dùng trong phân tích html để lấy dữ liệu. ...................... 67
Bảng 4.3 – Mã giả thuật giải của crawler cho trang MAS. ............................. 70
Bảng 4.4 – Mô tả các bảng trong cơ sở dữ liệu của crawler. .......................... 74
Bảng 4.5 – Kết quả thu thập dữ liệu đến ngày 27 tháng 01 năm 2012. .......... 86
Bảng 4.6 – Các chỉ số được cài đặt cho các loại đối tượng. ............................ 87
Bảng 4.7 – Mô tả chi tiết các bảng lưu dữ liệu tính toán các chỉ số. ............... 91
Bảng 4.8 – Dữ liệu mẫu 1 dùng để tính toán các chỉ số đánh giá. .................. 97
Bảng 4.9 – Dữ liệu mẫu 2 dùng để tính toán các chỉ số đánh giá. .................. 98
Bảng 4.10 – Cấu hình phần cứng 1 ................................................................. 98
Bảng 4.11 – Cấu hình phần cứng 2 ................................................................. 99
Bảng 4.12 – Kết quả thử nghiệm cài đặt các chỉ số. ....................................... 99
Bảng 5.1 – Các tổ chức và nguồn dữ liệu danh sách giảng viên tương
ứng. .............................................................................................. 111
Bảng 5.2 – Thuật giải của quy trình thu thập dữ liệu. ................................... 117
Bảng 5.3 – Các mẫu url được dùng trong crawler......................................... 119
Bảng 5.4 – Các mẫu dùng trong phân tích html để lấy dữ liệu. .................... 120
Bảng 5.5 – Kết quả thu thập dữ liệu chỉ mục. ............................................... 125
Bảng 5.6 – Các chỉ số được cài đặt cho các loại đối tượng. .......................... 127
Bảng 5.7 – Kết quả tính toán số lượng giảng viên. ....................................... 131
Bảng 5.8 – Kết quả tính toán số lượng bài báo. ............................................ 132
Bảng 5.9 – Kết quả tính toán số lượng trích dẫn. .......................................... 134
Bảng 5.10 – Kết quả tính toán số trích dẫn trung bình của một bài báo. ...... 135
Bảng 5.11 – Kết quả tính toán chỉ số H-index. ............................................. 137
Bảng 5.12 – Kết quả tính toán chỉ số G-index. ............................................. 138
Bảng 5.13 – Tổng hợp kết quả tính toán. ...................................................... 140
Bảng 5.14 – Tổng hợp kết quả xếp hạng. ...................................................... 142
DANH MỤC CÁC BIỂU ĐỒ
Biểu đồ 4.1 – Biểu đồ thời gian tính toán các chỉ số. .................................... 101
Biểu đồ 5.1 – Biểu đồ số lượng giảng viên các tổ chức. ............................... 132
Biểu đồ 5.2 – Biểu đồ số lượng bài báo của các tổ chức............................... 133
Biểu đồ 5.3 – Biểu đồ số lượng số lượng trích dẫn của các tổ chức. ............ 135
Biểu đồ 5.4 – Biểu đồ số trích dẫn trung bình của một bài báo của các tổ
chức. ............................................................................................. 136
Biểu đồ 5.5 – Biểu đồ H-index các tổ chức. .................................................. 138
Biểu đồ 5.6 – Biểu đồ G-index các tổ chức. .................................................. 139
Biểu đồ 5.7 – Biểu đồ tổng hợp kết quả tính toán các tổ chức. ..................... 141
Biểu đồ 5.8 – Biểu đồ tổng hợp kết quả xếp hạng các tổ chức. .................... 143
DANH MỤC CÁC HÌNH
Hình 2.1 – Kiến trúc cấp cao của một web crawler chuẩn. ............................... 5
Hình 2.2 – Mô phỏng nguyên lý PageRank. ..................................................... 7
Hình 2.3 – Các loại liên kết với bài báo khoa học. ......................................... 14
Hình 2.4 – Giải thuật SAFA. ........................................................................... 17
Hình 2.5 – Giải thuật xác định khoảng cách k. ............................................... 18
Hình 2.6 – Mô phỏng định nghĩa h-index. ...................................................... 23
Hình 2.7 – Trang chủ thư viện số IEEEXplore. .............................................. 35
Hình 2.8 – Kết quả tìm kiếm IEEEXplore với từ khóa “data”. ....................... 36
Hình 2.9 – Trang chủ của thư viện số ACM. .................................................. 38
Hình 2.10 – Tìm kiếm chi tiết của ACM. ........................................................ 39
Hình 2.11 – Kết quả trả về khi tìm kiếm ACM với từ khóa “data”. ............... 40
Hình 2.12 – Trang chủ thư viện số SpringerLink. ........................................... 42
Hình 2.13 – Chức năng tìm kiếm nâng cao SpringerLink. .............................. 42
Hình 2.14 – Kết quả tìm kiếm thư viện SpringerLink với từ khóa “data”. ..... 43
Hình 2.15 – Khung tìm kiếm cơ bản của MAS. .............................................. 45
Hình 2.16 – Tìm kiếm theo lĩnh vực ở MAS. .................................................. 45
Hình 2.17 – Khung tìm kiếm nâng cao MAS. ................................................. 45
Hình 2.18 – Chức năng cho người dùng chỉnh sửa thông tin MAS. ............... 46
Hình 2.19 – Chức năng quản lý các “call for paper” MAS. ............................ 46
Hình 2.20 – Chức năng biểu diễn mối quan hệ các tác giả theo đồ thị
MAS. .............................................................................................. 47
Hình 2.21 – Xem nội dung trích dẫn MAS. .................................................... 48
Hình 2.22 – Xem xu hướng nghiên cứu khoa học trong các lĩnh vực
MAS. .............................................................................................. 49
Hình 2.23 – Xem thông tin bổ sung về tổ chức của tác giả MAS. .................. 49
Hình 2.24 – Khung tìm kiếm cơ bản của Google Scholar............................... 51
Hình 2.25 – Khung tìm kiếm nâng cao của Google Scholar. .......................... 52
Hình 2.26 – Kết quả tìm kiếm các bài báo và bằng sáng chế với từ khóa
“data”. ............................................................................................ 52
Hình 2.27 – Khung tìm kiếm cơ bản của CiteSeerX. ...................................... 54
Hình 2.28 – Khung tìm kiếm nâng cao của CiteSeerX. .................................. 55
Hình 2.29 – Kết quả tìm kiếm CiteSeerX với từ khóa “data”. ........................ 55
Hình 4.1 – Duyệt danh sách các đối tượng trên trang MAS. .......................... 63
Hình 4.2 – Màn hình chính của hệ thống PubGuru. ...................................... 108
Hình 4.3 – Màn hình tìm kiếm nâng cao của hệ thống PubGuru. ................. 108
Hình 4.4 – Kết quả tìm kiếm PubGuru với từ khóa “data”. .......................... 109
Hình 5.1 – Tìm kiếm tác giả trên MAS với từ khóa “Hoang Van Kiem”. .... 115
Hình 5.2 – Mô hình hoạt động của chương trình ở bước một. ...................... 118
Hình 5.3 – Mô hình hoạt động của chương trình ở bước ba. ........................ 118
DANH MỤC CÁC SƠ ĐỒ
Sơ đồ 4.1 – Mô hình hoạt động của crawler. ................................................... 64
Sơ đồ 4.2 – Mô hình ERD cơ sở dữ liệu của chương trình. ............................ 73
Sơ đồ 4.3 – Kiến trúc phân tầng của hệ thống thu thập dữ liệu. ..................... 83
Sơ đồ 4.4 – Mô hình các bảng lưu dữ liệu tính toán các chỉ số. ..................... 90
Sơ đồ 4.5 – Sơ đồ cấu trúc hệ thống PubGuru. ............................................. 103
Sơ đồ 4.6 – Kiến trúc MVC Model 2 của hệ thống. ...................................... 105
Sơ đồ 5.1 – Mô hình ERD cơ sở dữ liệu của chương trình. .......................... 121
Sơ đồ 5.2 – Kiến trúc phân tầng của hệ thống thu thập dữ liệu. ................... 123
Sơ đồ 5.3 – Mô hình các bảng lưu dữ liệu tính toán các chỉ số. ................... 130
Khóa luận tốt nghiệp
Th.S Huỳnh Ngọc Tín Trang 1 Trần Hưng Nghiệp
T.S Lương Phúc Hiệp
CHƯƠNG 1: TỔNG QUAN VỀ ĐỀ TÀI
1.1 Đánh giá hiện trạng
Theo một nghiên cứu của tác giả Arif Jinha [Jin2010], tổng số lượng bài
báo khoa học đã xuất bản trên thế giới trong tất cả các lĩnh vực đến thời điểm
đầu năm 2010 là vào khoảng hơn 50 triệu, và ước lượng hiện nay vào tháng 12
năm 2011 là vào khoảng 54 triệu. Số lượng bài báo khoa học đang ngày càng
tăng, và tốc độ tăng cũng ngày càng nhanh. Vào năm 2008, có khoảng 1434352
bài báo khoa học được xuất bản, con số này vào năm 2009 là 1477383 bài. Tỉ
lệ tăng hằng năm số lượng công trình nghiên cứu trên toàn thế giới vào khoảng
3%. Scopus
1
, một cơ sở dữ liệu chứa các bài báo khoa học trên mọi lĩnh vực,
cho biết mình có khoảng 46 triệu chỉ mục (7/2011). ISI - Web of Knowledge2,
một cơ sở dữ liệu khác, chứa khoảng 49,4 triệu bài báo khoa học (2011).
Microsoft Academic Research (MAS)
3
chứa khoảng 36,7 triệu bài báo khoa
học với hơn 18,8 triệu tác giả (12/2011).
Trước sự tăng trưởng đáng kể về số lượng, việc lưu trữ và hỗ trợ tìm kiếm
bài báo khoa học trở thành một nhu cầu thiết yếu. Nhiều thư viện điện tử đã
được phát triển để phục vụ nhu cầu này. Một số thư viện lớn thương mại hóa có
thể kể đến như Institute of Electrical and Electronics Engineers (IEEE)4,
Association for Computing Machinery (ACM)
5
, SpringerLink
6… Những thư
viện miễn phí gồm có Microsoft Academic Research (MAS), Google Scholar7,
1
2
3
4
5
6
7
Khóa luận tốt nghiệp
Th.S Huỳnh Ngọc Tín Trang 2 Trần Hưng Nghiệp
T.S Lương Phúc Hiệp
CiteSeer
8… Mỗi thư viện này có các đặc trưng khác nhau về nội dung cũng
như các tính năng và sự hiệu quả khi sử dụng.
Sự đa dạng của các thư viện điện tử cung cấp nhiều khả năng lựa chọn cho
người dùng. Tuy nhiên, khi có quá nhiều lựa chọn, người dùng có thể bối rối và
khó đưa ra quyết định [Sch2003]. Quyết định lựa chọn thư viện điện tử nào
quan trọng vì nó ảnh hưởng đến thói quen làm việc của người dùng, cũng như
chất lượng công việc của họ. Việc sử dụng nhiều thư viện điện tử một lúc có
thể là một ý kiến hay, tuy nhiên nó sẽ khiến người dùng phải lặp lại các thao
tác với kết quả phần lớn giống nhau, và phải tự tổng hợp các kết quả này. Sự
lựa chọn còn có ý nghĩa kinh tế khi người dùng sử dụng các thư viện có trả phí.
1.2 Phát biểu bài toán
Sự lựa chọn thư viện điện tử nào phù hợp nhất phải dựa trên cơ sở so sánh
về nội dung và tính năng của chúng, một hệ thống thư viện điện tử muốn được
đánh giá cao còn phải đáp ứng được các yêu cầu đặc trưng cho một nhóm
người dùng nhất định. Mục đích của đề tài là thiết kế các tính năng cho một hệ
thống thư viện điện tử phục vụ người dùng Việt Nam.
Mỗi hệ thống đều xây dựng tính năng của nó dựa trên các nền tảng khác
nhau về dữ liệu, các thuật toán, các tiêu chí đánh giá và các chỉ số xếp hạng. Vì
vậy, việc lựa chọn hay cao hơn là xây dựng, hiệu chỉnh các chỉ số xếp hạng này
là một vấn đề hay và vẫn đang được quan tâm nghiên cứu.
Ở đề tài này chúng tôi sẽ khảo sát các hệ thống có sẵn này ở khía cạnh nội
dung, tính năng, cùng với các giải thuật tìm kiếm, xếp hạng của chúng. Sau đó
chúng tôi sẽ thu thập một lượng lớn dữ liệu chỉ mục trong lĩnh vực công nghệ
thông tin, đồng thời xây dựng mô hình ứng dụng và tính toán các chỉ số xếp
hạng trong việc đánh giá các cá nhân, tổ chức và bước đầu tiến hành thử
nghiệm trên các cá nhân, tổ chức làm việc trong lĩnh vực công nghệ thông tin ở
8
Khóa luận tốt nghiệp
Th.S Huỳnh Ngọc Tín Trang 3 Trần Hưng Nghiệp
T.S Lương Phúc Hiệp
Tp. Hồ Chí Minh. Từ đó đề xuất xây dựng một hệ thống thư viện điện tử thực
tế có các đặc trưng cần thiết để ứng dụng các chỉ số này phục vụ người dùng ở
Việt Nam.
1.3 Mục tiêu đề tài
Dựa trên ngữ cảnh bài toán, mục tiêu chính đề tài của chúng tôi là thu thập
và tổ chức một lượng lớn dữ liệu chỉ mục trong lĩnh vực công nghệ thông tin.
Đồng thời xây dựng mô hình ứng dụng và tính toán các chỉ số đánh giá xếp
hạng. Sau đó đề xuất xây dựng một hệ thống thư viện điện tử thực tế có các đặc
trưng cần thiết để phục vụ môi trường nghiên cứu ở Việt Nam.
Đề tài cũng sẽ tiến hành thực nghiệm các chỉ số trên dữ liệu chỉ mục về các
tổ chức làm việc trong lĩnh vực công nghệ thông tin ở Tp. Hồ Chí Minh.
1.4 Cấu trúc báo cáo
Cấu trúc báo cáo được mô tả theo trình tự sau. Ở chương I, chúng tôi giới
thiệu tổng quan về ngữ cảnh bài toán cũng như mục tiêu đề tài. Chương II,
chúng tôi khảo sát các nghiên cứu liên quan. Chương III nêu cách tiếp cận của
đề tài. Chương IV, chúng tôi trình bày về các chương trình được hiện thực và
đề xuất xây dựng hệ thống thư viện điện tử. Chương V sẽ trình bày một case
study về việc thực nghiệm đánh giá các tổ chức làm việc trong lĩnh vực công
nghệ thông tin ở Tp. Hồ Chí Minh và nêu một số đánh giá, đề xuất cải tiến.
Phần kết luận và một số hướng phát triển được trình bày trong chương V.
Khóa luận tốt nghiệp
Th.S Huỳnh Ngọc Tín Trang 4 Trần Hưng Nghiệp
T.S Lương Phúc Hiệp
CHƯƠNG 2: CÁC NGHIÊN CỨU VÀ ỨNG DỤNG LIÊN QUAN
2.1 Giới thiệu
Trên thế giới hiện nay có khá nhiều thư viện điện tử phục vụ người dùng.
Nền tảng của việc tìm kiếm hiệu quả ở các thư viện điện tử này chính là các chỉ
số xếp hạng và các phương pháp xếp hạng. Các chỉ số này có thể là thô sơ như
số lượng các bài báo của một tác giả, số trích dẫn của một bài báo. Nó cũng có
thể phức tạp hơn một chút như H-Index, G-Index khi nó tính toán tổng thể các
số liệu thành phần của một tác giả hay một tổ chức để có một chỉ số đánh giá
tổng hợp. Các phương pháp xếp hạng phổ biến có thể kể đến như PageRank,
PopRank. Chương này tiến hành khảo sát đánh giá các phương pháp xếp hạng
và các chỉ số từ đơn giản đến phức tạp. Chương này cũng sẽ khảo sát một số
thư viện điện tử cụ thể trên các khía cạnh nội dung, tính năng, công nghệ, nền
tảng thuật toán, tiêu chí xếp hạng tìm kiếm bài báo khoa học. Để phục vụ cho
việc xây dựng dữ liệu chỉ mục, web crawler cũng sẽ được giới thiệu.
2.2 Web crawler
Theo định nghĩa trên Wikipedia [WikiWC] thì Web Crawler hay ant,
automatic indexer, bot, Web spider, Web robot, Web scutter, là một chương
trình hoặc đoạn mã có khả năng tự động duyệt các trang Web theo một phương
thức tự động được cài đặt trước. Web Crawler thường được sử dụng để thu
thập tài nguyên (như tin tức, hình ảnh, video …) trên Internet một cách cập
nhật [TC2011].
Quá trình thực hiện của Web Crawler là Web Crawling hay Web Spidering.
Hầu hết các công cụ tìm kiếm online hiện nay đều sử dụng quá trình này để thu
thập và cập nhập kho dữ liệu phục vụ nhu cầu tìm kiếm của người dùng. Web
Crawler bắt đầu từ danh sách các địa chỉ URL được cung cấp trước gọi là hạt
giống (seeds), đây là những địa chỉ Web mà người dùng muốn thu thập thông
tin. Hệ thống sẽ vào địa chỉ này, lọc thông tin rồi tìm ra các địa chỉ URL khác
theo một phương thức nhất định nào đó (dựa vào những liên kết có bên trong
các seeds). Sau đó thêm chúng vào danh sách các địa chỉ đã được duyệt qua gọi
Khóa luận tốt nghiệp
Th.S Huỳnh Ngọc Tín Trang 5 Trần Hưng Nghiệp
T.S Lương Phúc Hiệp
là Crawl frontier. Hệ thống sẽ lặp lại quá trình trước đó để duyệt qua những
URL mới. Quá trình Crawling trên internet có thể sẽ qua rất nhiều địa chỉ
Website và thu thập rất nhiều nội dung khác nhau từ các địa chỉ đó. Hình sau
mô tả kiến trúc của một web crawler chuẩn [WikiWC]:
Hình 2.1 – Kiến trúc cấp cao của một web crawler chuẩn.
Trong đề tài này, Web Crawler được xây dựng để thu thập dữ liệu các bài
báo từ thư viện số Microsoft Academic Search (MAS), sau đó xây dựng cơ sở
dữ liệu để xây dựng hệ thống thử nghiệm. Hệ thống crawler sẽ rút trích thông
tin chỉ mục của bài báo bằng cách sử dụng các trình phân tích kết hợp với các
luật đã được định nghĩa trước.
2.3 Các phương pháp xếp hạng phổ biến
2.3.1 Giới thiệu
Trong số các phương pháp xếp hạng dựa trên việc phân tích mạng thì nổi
tiếng nhất có lẽ là thuật toán PageRank của Google với ứng dụng trong máy
Khóa luận tốt nghiệp
Th.S Huỳnh Ngọc Tín Trang 6 Trần Hưng Nghiệp
T.S Lương Phúc Hiệp
tìm kiếm Google Search. Chính PageRank đã giúp Google Search đánh bại các
đối thủ của nó trên thị trường tìm kiếm trên internet ngay khi mới ra đời và
giúp Google lớn mạnh như ngày nay. Sau này có một số thuật toán khác tương
tự PageRank được đề xuất và cũng khá thành công khi ứng dụng thực tế. Tuy
nhiên các thuật toán thuộc nhóm PageRank có một số nhược điểm nhất định
khi xếp hạng các đối tượng, sau này nhiều thuật toán khác đã ra đời để khắc
phục các điểm yếu này, nổi bật trong đó có PopRank. Phần này sẽ khảo sát hai
thuật toán là PageRank và PopRank.
2.3.2 PageRank
a) Giới thiệu thuật toán PageRank
PageRank là một phương pháp rất nổi tiếng để xếp hạng các đối tượng
trong một đồ thị các đối tượng liên kết với nhau. PageRank là một thuật toán
phân tích liên kết (link) được Lary Page và cộng sự phát triển tại trường đại
học Stanford (Mỹ) và được sử dụng lần đầu cho máy tìm kiếm Google để xếp
hạng các trang web. PageRank cũng có thể dùng để xếp hạng các đối tượng
khác như các bài báo khoa học (sẽ trình bày rõ hơn ở phần c) mục 2.2.1 này).
Một cách trực giác, chúng ta có thể thấy rằng trang chủ của Yahoo! thì quan
trọng hơn trang chủ của một cá nhân A nào đó. Điều này được phản ánh qua số
lượng các trang có liên kết đến trang chủ của Yahoo! nhiều hơn số trang có liên
kết tới trang chủ của cá nhân A. Do đó, ta có thể dùng số lượng các liên kết đến
một trang để tính độ quan trọng của trang đó. Tuy nhiên, cách này sẽ không
hoạt động tốt khi người ta có thể dễ dàng tạo ra các trang Web có liên kết đến
một trang Web nào đó và như vậy hạng của trang này sẽ trở nên cao hơn.
PageRank phát triển thêm vào ý tưởng cũ bằng cách chú ý đến độ quan
trọng của các trang Web liên kết đến trang Web mà ta đang xét. Phương pháp
này thừa nhận nếu có liên kết từ trang A tới trang B thì độ quan trọng của trang
A cũng ảnh hưởng tới độ quan trọng của trang B hay độ quan trọng của trang A
được san sẻ cho các trang mà nó liên kết tới. Theo đó, một trang có hạng cao
nếu tổng hạng của các liên kết tới nó cao [BP+1998].
Khóa luận tốt nghiệp
Th.S Huỳnh Ngọc Tín Trang 7 Trần Hưng Nghiệp
T.S Lương Phúc Hiệp
Hình sau mô tả nguyên lý của thuật toán PageRank, các trang web “bỏ
phiếu” cho các trang khác thông qua các siêu liên kết [WikiPR].
Hình 2.2 – Mô phỏng nguyên lý PageRank.
b) Định nghĩa
a. PageRank đơn giản
Gọi là một đồ thị các trang Web. Đặt với là
tập đỉnh của đồ thị (mỗi đỉnh là một trang Web cần tính hạng trang) còn
là tập các cạnh, .
Để đơn giản hóa vấn đề, chúng ta giả thiết rằng đồ thị trang Web là liên thông,
nghĩa là từ một trang bất kì có thể có đường liên kết tới một trang Web khác
trong đồ thị đó.
Cho một đồ thị trang Web như trên. Với mỗi trang Web , ký hiệu là
số liên kết đi ra từ trang Web thứ và là số các trang Web có liên kết đến
trang .
Khi đó hạng trang của trang Web được định nghĩa như sau:
∑
(1)
Hạng trang của một trang web là con số tương đối để so sánh độ quan
trọng của nó với các trang web khác. Tổng hạng trang của tất cả các trang
Khóa luận tốt nghiệp
Th.S Huỳnh Ngọc Tín Trang 8 Trần Hưng Nghiệp
T.S Lương Phúc Hiệp
web trong đồ thị G bằng một. Với việc chia hạng của trang cho , ta phân
phối hạng của nó cho các trang mà nó chỉ tới, thông qua các link đi ra từ nó.
Phương trình trên có tính đệ quy, để thuận tiện cho việc tính toán
PageRank, phương trình này có thể được viết lại dưới dạng:
(2)
Với:
[ ] là vector PageRank, với là hạng của trang web trong đồ
thị G.
[ ] là ma trận kề với giá trị các phần tử được xác định
như sau:
o nếu không có liên kết từ trang đến trang .
o Và được chuẩn hóa để với mỗi thì ∑
Trong đồ thị G đang xét, ta có thể chọn giá trị sau:
{
Lưu ý rằng ma trận P có các phần tử đều không âm và tổng các phần tử
thuộc cùng một cột của ma trận P bằng một, do đó P là một ma trận ngẫu nhiên.
Vì vậy, thuật toán PageRank cũng chính là một biến thể của phương pháp độ
đo tính trung tâm với vector riêng (eigenvector centrality measure) được dùng
phổ biến trong phân tích mạng. Phương trình trên cho thấy vector PageRank
chính là vector riêng của ma trận tương ứng với trị riêng [Aus2006].
Ta thấy phương trình trên có tính đệ quy, tuy nhiên nó có thể được tính với
vector hạng trang bất kì, và lặp lại cho đến khi hội tụ, Page và các cộng sự đã
chỉ ra việc hội tụ này là khá nhanh trong khoảng dưới 100 vòng lặp [BP+1998].
b. Tính toán vector PageRank đơn giản
Có nhiều phương pháp để tìm vector riêng của ma trận như phương pháp
lặp, phương pháp đại số, phương pháp lũy thừa… [WikiPR]. Tuy nhiên do kích
Khóa luận tốt nghiệp
Th.S Huỳnh Ngọc Tín Trang 9 Trần Hưng Nghiệp
T.S Lương Phúc Hiệp
thước quá lớn của đồ thị web, ma trận cũng có kích thước rất lớn, hàng chục
tỉ dòng [Aus2006], vì vậy việc tính toán có thể rất khó khăn. Tuy nhiên, ta cũng
lưu ý rằng hầu hết các phần tử của ma trận P bằng không, vì mỗi trang web
trung bình thường chỉ liên kết đến 10 trang khác. Vì vậy ta chọn phương pháp
lũy thừa để tìm vector .
Phương pháp lũy thừa
Ta bắt đầu bằng việc chọn vector là ứng viên cho vector hạng trang ,
sau đó ta tạo ra chuỗi vector với:
(3)
Chuỗi vector sẽ hội tụ về vector riêng .
Thuật toán tính theo phương pháp lũy thừa
1. Chọn vector .
2. .
3. Nếu ‖ ‖ , dừng lại, là vector riêng cần tính.
4. Nếu không, , quay lại bước 2.
c. PageRank trong thực tế
PageRank đơn giản không thể dùng trong đồ thị web thực tế, vì khi đó
chuỗi vector có thể không hội tụ, có thể phụ thuộc vào , và có thể
không phản ánh được hạng trang web thực tế. Ta sẽ xét cụ thể từng trường hợp
và chỉnh sửa lại PageRank cho phù hợp.
Để thuận tiện, ta định nghĩa mô hình người duyệt web ngẫu nhiên:
Quá trình tính toán PageRank có thể được xem như hành động của một
người đang duyệt Web ngẫu nhiên. Ta tưởng tượng rằng có một người dùng
duyệt Web bằng cách đi theo các liên kết trên các trang Web mà họ viếng thăm
một cách ngẫu nhiên. Cách duyệt ngẫu nhiên này tương đương với việc di
chuyển ngẫu nhiên trên một đồ thị có hướng. Nó thể hiện rằng vector
PageRank tỉ lệ với phân phối xác suất dừng của một quá trình ngẫu nhiên. Nó
Khóa luận tốt nghiệp
Th.S Huỳnh Ngọc Tín Trang 10 Trần Hưng Nghiệp
T.S Lương Phúc Hiệp
có thể hiểu là một xích Markov, trong đó những trạng thái là những trang web,
những bước biến đổi trạng thái là những liên kết giữa các trang web. PageRank
của một trang Web chính là xác suất để một người ngẫu nhiên duyệt trang Web
đó [BP+1998].
Bây giờ ta xét từng trường hợp:
Trường hợp 1
Trên thực tế có nhiều trang Web không có liên kết đi ra. Các trang Web này
có thể là các trang chỉ chứa một bức ảnh, một file pdf, một bảng dữ liệu… hay
có thể là một trang mà các trang liên kết của nó chưa được kéo về. Các trang
độc lập như vậy được gọi là các “dangling nodes” hay “dangling links”
[BP+1998]. Những “dangling node” nhận hạng trang từ hệ thống các trang web
nhưng không trả hạng trang lại cho hệ thống. Vì vậy tổng hạng trang của hệ
thống bị tiêu hao. Vector hạng trang tính được trong trường hợp này sẽ không
phản ánh đúng hạng trang. Để giải quyết trường hợp này, ta xét khi người
duyệt web ngẫu nhiên gặp “dangling node”, người đó sẽ chọn một trang bất kì
để tiếp tục. Như vậy ta coi như “dangling node” có liên kết đến tất cả các trang
web khác [Aus2006]. Ta sẽ chỉnh sửa P bằng cách thay cột ứng với “dangling
node” bằng cột gồm toàn các phần tử có giá trị
. Để đơn giản tính toán, ta có
thể sử dụng ma trận:
(4)
Với là ma trận vuông cấp , các phần tử có giá trị bằng không ngoại trừ
các phần tử nằm trên các cột ứng với các “dangling node” sẽ có giá trị bằng
.
Trường hợp 2
Ta có hai trường hợp nhỏ: Có những nhóm các trang web chỉ có liên kết
đến nhau mà không có liên kết ra ngoài nhóm, cũng không có liên kết vào
nhóm từ bên ngoài. Chuỗi vector hạng trang trong trường hợp này sẽ không
hội tụ [Aus2006]. Cũng có những nhóm các trang web khác chỉ có liên kết đến
nhau mà không có liên kết ra ngoài nhóm, trong khi đó vẫn có liên kết vào
trong nhóm. Các nhóm trang này tạo thành một bẫy vòng lặp các liên kết nội
Khóa luận tốt nghiệp
Th.S Huỳnh Ngọc Tín Trang 11 Trần Hưng Nghiệp
T.S Lương Phúc Hiệp
bộ và được gọi là “rank sink” [BP+1998] [Aus2006]. “Rank sink” nhận chia sẻ
hạng từ hệ thống nhưng không cung cấp hạng cho hệ thống (bởi vì chúng
không có liên kết ra ngoài), vì vậy sau một số bước lặp tính toán, hạng trang sẽ
được tập trung vào “rank sink” và làm giảm PageRank của phần còn lại của hệ
thống. Để giải quyết trường hợp này, ta xét khi người duyệt web ngẫu nhiên có
thể gặp một “rank sink”, hay người đó có thể chán và ngưng không tiếp tục
duyệt nữa. Khi đó ta coi như người đó sẽ bắt đầu duyệt lại với một trang bất kì.
Xác suất để người đó tiếp tục duyệt là một hệ số gọi là hệ số suy giảm. Hệ số
ứng với trị riêng thứ hai của ma trận kề, thỏa . Hệ số có ảnh
hưởng [HK2003] [HK+2003] đến độ chính xác của PageRank và tốc độ hội tụ
của chuỗi . Nhiều nghiên cứu khác nhau [BP1998] [Aus2006] đã thử nghiệm
nhiều giá trị của . Tuy nhiên hầu hết đều cho rằng sẽ có giá trị quanh .
Lúc này ta thay ma trận bằng ma trận:
(5)
Với là ma trận vuông cấp , được gọi là nguồn hạng trang [BP+1998].
Trường hợp tổng quát, các phần tử của thường có giá trị
. Ta có thể viết:
(6)
Với là ma trận vuông cấp gồm toàn phần tử có giá trị bằng một.
Lưu ý rằng, là một ma trận ngẫu nhiên thể hiện xác suất một người sẽ
chọn ngẫu nhiên trang nào để tiếp tục duyệt mới sau khi chán việc duyệt theo
liên kết đi ra. Vì vậy có thể được sử dụng để cá nhân hóa hạng trang, chỉnh
sửa hạng trang theo chủ đề… [BP+1998] [HK+2003].
Sau khi giải quyết hai trường hợp trên ta có thể viết lại ma trận kề là:
(7)
Và phương trình tính vector PageRank sẽ được viết lại thành:
(8)
Khóa luận tốt nghiệp
Th.S Huỳnh Ngọc Tín Trang 12 Trần Hưng Nghiệp
T.S Lương Phúc Hiệp
Việc tính PageRank thực tế tương tự như PageRank đơn giản, ta cũng áp
dụng phương pháp lũy thừa với phương trình:
(9)
Trở lại dạng đại số của công thức tính PageRank, ta có giá trị PageRank của
trang web là:
∑
(10)
Qua công thức trên ta thấy, PageRank của một trang web phần lớn được dẫn
xuất từ các trang liên kết đến nó, hệ số suy giảm sẽ điều chỉnh PageRank dẫn
xuất này giảm xuống.
Trong bài viết đầu tiên về PageRank, Page và cộng sự đã đưa ra công thức
tính PageRank như sau, và hơi gây khó hiểu:
∑
(11)
Sự khác biệt giữa hai công thức (3) và (4) là ở công thức đầu, tổng các giá
trị PageRank bằng một. Ở công thức sau, giá trị PageRank của mỗi trang bị
nhân và do đó tổng các giá trị PageRank bằng . Page và cộng sự thừa nhận
tổng các giá trị PageRank mà họ sử dụng bằng một [BP1998]. Tuy nhiên hai
công thức trên có ý nghĩa tương đương nhau.
c) Nhận xét về PageRank
Thuật toán PageRank khai thác lợi thế của cấu trúc siêu liên kết của các
trang web. PageRank là một ví dụ điển hình về thuật toán phân tích liên kết xếp
hạng dạng “eigenvector centrality measure”. Nó là biểu diễn toán học của mô
hình người duyệt web ngẫu nhiên, do đó có thể dựa trên PageRank để đánh giá
trang web một cách khách quan và đáp ứng nhu cầu của người dùng tìm kiếm.
Có một số vấn đề cần giải quyết để hiện thực một máy tìm kiếm hiệu quả
trong thực tế. Đó là vấn đề gian lận liên kết hay “spam link”, và việc kết hợp
giữa hạng PageRank và mức độ phù hợp với truy vấn của người dùng. Google
Khóa luận tốt nghiệp
Th.S Huỳnh Ngọc Tín Trang 13 Trần Hưng Nghiệp
T.S Lương Phúc Hiệp
Search cho thấy họ đã làm khá tốt điều này trong những năm qua và đã rất
thành công.
Trước khi PageRank ra đời đã có một số nghiên cứu theo hướng phân tích
liên kết mà hầu hết là trong lĩnh vực phân tích trích dẫn các văn bản khoa học.
Tuy nhiên, văn bản khoa học có một số khác biệt quan trọng:
Nội dung văn bản khoa học được kiểm duyệt, thường có cấu trúc hay
bán cấu trúc.
Việc trích dẫn thường là có ý nghĩa, ít khi được thực hiện một cách gian
lận để qua mặt hệ thống xếp hạng.
Để áp dụng thuật toán PageRank cho việc xếp hạng, ta cần định nghĩa một
đồ thị các đối tượng có liên kết đến nhau. Xét trường hợp xếp hạng các bài báo
khoa học, ta xây dựng đồ thị trích dẫn bài báo khoa học. Đồ thị này có các đỉnh
là các bài báo khoa học, mỗi cạnh biểu thị cho một trích dẫn từ bài báo này tới
bài báo khác. Sau khi đã có đồ thị này, ta tính toán PageRank hoàn toàn tương
tự như khi làm với đồ thị web. Khác với đồ thị web ở chỗ các cạnh trong đồ thị
trích dẫn hầu hết đều đáng tin cậy.
Tuy nhiên, PageRank có nhược điểm là đồ thị mà nó sử dụng chỉ có một
loại đối tượng và một loại cạnh. Trong thực tế, các bài báo khoa học phải được
đánh giá trong một tổng thể bao gồm nhiều đối tượng khác như tác giả, hội
nghị khoa học, tờ báo khoa học… vì vậy có nhiều mối liên hệ phải xét đến hơn
là chỉ có liên hệ trích dẫn, khi đó áp dụng PageRank sẽ không thật sự hiệu quả.
Sau này có nhiều thuật toán được đề xuất theo hướng tính đến nhiều loại đối
tượng và nhiều loại cạnh trong đồ thị, nổi bật trong số đó là thuật toán
PopRank.
2.3.3 PopRank
a) Giới thiệu thuật toán PopRank
Như đã nói ở trên, mô hình PageRank ban đầu được xây dựng để xếp hạng
các trang web, đây là dạng xếp hạng ở mức tài liệu, với chỉ một loại liên kết
Khóa luận tốt nghiệp
Th.S Huỳnh Ngọc Tín Trang 14 Trần Hưng Nghiệp
T.S Lương Phúc Hiệp
duy nhất. PageRank không hợp lệ để xếp hạng các đối tượng nằm trong các tài
liệu, vì các đối tượng này có nhiều loại mối quan hệ khác nhau. Xét trường hợp
xếp hạng đối tượng bài báo khoa học, một bài báo có thể được trích dẫn bởi
một số bài báo khác, được viết bởi một số tác giả, được xuất bản trong một tờ
báo khoa học hay một hội nghị nào đó. Như vậy, trường hợp này có ba loại liên
kết: “được trích dẫn bởi” ký hiệu , “được viết bởi” ký hiệu , “được xuất
bản bởi” ký hiệu . Hình sau minh họa các loại liên kết này [NZ+2005]:
Hình 2.3 – Các loại liên kết với bài báo khoa học.
Thuật toán PopRank được xây dựng nhằm khắc phục các điểm yếu của
PageRank để xếp hạng các đối tượng hiệu quả hơn. Thuật toán PopRank được
phát triển bởi Nie và các cộng sự tại phòng nghiên cứu Châu Á của Microsoft.
Nó được sử dụng đầu tiên cho mục đích xếp hạng các bài báo khoa học trong
dự án Libra, tuy nhiên nó có thể sử dụng để xếp hạng nhiều đối tượng khác
nhau như hình ảnh, bản nhạc, bộ phim… [NZ+2005]
PopRank là một thuật toán phân tích liên kết độc lập lĩnh vực ở cấp độ đối
tượng. Nó quan tâm tới nhiều loại liên kết khác nhau bằng cách gán tự động
các hệ số truyền khác nhau cho mỗi loại liên kết. Việc gán các hệ số này được
thực hiện nhờ áp dụng thuật toán “simulated annealing” với một tập mẫu là các
đối tượng đã được xếp hạng sẵn bởi các chuyên gia trong lĩnh vực. Để giảm
thiểu thời gian học các hệ số, chỉ một phần các đối tượng được sử dụng trong
quá trình học. Những vấn đề này sẽ được trình bày chi tiết ở phần tiếp theo.
b) Định nghĩa
a. Mô hình PopRank
Ta xét một mô hình các đối tượng thuộc nhiều loại khác nhau nằm trên
nhiều trang web. Người dùng các thể đi đến một đối tượng nào đó thông qua
Khóa luận tốt nghiệp
Th.S Huỳnh Ngọc Tín Trang 15 Trần Hưng Nghiệp
T.S Lương Phúc Hiệp
việc vào trang web chứa đối tượng đó, hoặc đi trực tiếp đến đối tượng đó từ
liên kết ở những đối tượng khác.
Giả sử có một người duyệt qua các đối tượng một cách ngẫu nhiên. Bắt đầu
quá trình duyệt, người này vào một trang web bất kỳ và theo các đường siêu
liên kết đi đến các trang web khác. Khi tìm được một đối tượng thích hợp,
người này có thể sẽ đi theo các đường liên kết của đối tượng này để đến các đối
tượng khác. Quá trình duyệt này không quay ngược lại, nhưng người duyệt có
thể cảm thấy chán và dừng việc duyệt này lại để bắt đầu lại với một việc duyệt
mới.
Ta thấy quá trình duyệt này có thể chia ra hai giai đoạn. Ở giai đoạn đầu,
người dùng duyệt ở cấp độ các trang web, liên kết giữa các trang này đều đồng
nhất là các siêu liên kết nên ta có thể áp dụng thuật toán PageRank để biểu diễn
cho giai đoạn này và tính toán hạng các trang. Ở giai đoạn sau, người dùng
duyệt ở cấp độ đối tượng, các loại liên kết giữa các đối tượng này hỗn tạp nên
không thể dùng PageRank. Khi đó, hạng của một đối tượng sẽ được tổng hợp
từ hạng của trang web chứa nó và hạng có được do các mối liên kết giữa các
đối tượng. Để tính hạng tổng hợp này ta sẽ áp dụng công thức PopRank sau:
∑
(12)
Với:
, là tập các đối tượng loại và
loại
, là các vector hạng tổng hợp của các đối tượng loại X và loại Y.
là vector hạng trang web chứa các đối tượng loại tính theo
PageRank dựa vào siêu liên kết.
[ ] là ma trận kề của đồ thị các đối tượng với các phần tử có
giá trị như sau:
o
, nếu có liên kết cấp đối tượng từ đối tượng tới
đối tượng ; là số lượng liên kết từ đối tượng y tới
mọi đối tượng loại .
Khóa luận tốt nghiệp
Th.S Huỳnh Ngọc Tín Trang 16 Trần Hưng Nghiệp
T.S Lương Phúc Hiệp
o , trong các trường hợp khác.
là hệ số truyền của một kiểu liên kết từ một đối tượng loại tới một
đối tượng loại , và ∑ .
là hệ số suy giảm, biểu thị xác suất người dùng chán việc lần theo các
liên kết giữa các đối tượng và bắt đầu duyệt lại từ các trang web.
Việc tính toán có thể thực hiện hoàn toàn giống như tính toán
PageRank. có thể tính toán khá đơn giản bằng phương pháp. Điều cần quan
tâm ở đây chính là việc gán tự động các hệ số truyền .
b. Tính toán hệ số truyền
Các hệ số truyền đóng một vai trò quan trọng trong tính toán PopRank, giá
trị các hệ số truyền có ảnh hưởng lớn tới giá trị hạng của các đối tượng. Việc
gán giá trị cho các hệ số truyền bằng tay là không thể được khi giá trị này cần
có độ chính xác cao và số lượng loại đối tượng tăng lên.
Để gán tự động các hệ số truyền, Nie và các cộng sự đề ra mô hình học như
sau [NZ+2005]: sử dụng chuyên gia để tạo ba danh sách nhỏ các đối tượng đã
xếp hạng, sau đó tìm một tổ hợp các giá trị hệ số truyền làm cho thứ tự nhận
được khi xếp hạng bằng PopRank giống nhất với thứ tự nhận được từ các
chuyên gia. Lúc này bài toán trở thành bài toán ước lượng tham số, thời gian để
ước lượng tất cả các khả năng có thể rất lâu. Để giảm thời gian này, Nie và các
cộng sự đề xuất sử dụng một giải thuật heuristic để tăng tốc độ tìm kiếm bộ giá
trị hệ số truyền tối ưu, đồng thời chỉ tiến hành chọn một tập con các đối tượng
trong các trang web để kiểm tra ước lượng thay vì toàn bộ. Tuy độ chính xác có
thể giảm đi một chút nhưng có thể chấp nhận được, và tốc độ được cải thiện rất
nhiều.
Giải thuật tìm kiếm bộ giá trị tối ưu gọi là SAFA (Simulated Annealing for
FactorAssignment), được cho dưới đây:
Khóa luận tốt nghiệp
Th.S Huỳnh Ngọc Tín Trang 17 Trần Hưng Nghiệp
T.S Lương Phúc Hiệp
Hình 2.4 – Giải thuật SAFA.
Ý tưởng cơ bản của giải thuật này là chúng so sánh các bộ giá trị liền kề với
bộ giá trị tốt nhất hiện tại, nếu nó tốt hơn thì nó sẽ được gán là bộ giá trị tốt
nhất. Thỉnh thoảng chúng ta sẽ chọn một bộ giá trị xấu hơn có chủ ý để tránh
rơi vào bẫy cực trị địa phương. Những bộ giá trị liền kề có được bằng cách thay
đổi chỉ một giá trị hệ số truyền trong bộ đang có. Hàm
là chi phí của
bộ giá trị mới, nó là khoảng cách của thứ tự tính được bằng PopRank với bộ giá
trị mới
và thứ tự do chuyên gia xếp hạng, khoảng cách này được tính theo
công thức trong [NZ+2005].
Khóa luận tốt nghiệp
Th.S Huỳnh Ngọc Tín Trang 18 Trần Hưng Nghiệp
T.S Lương Phúc Hiệp
Tập con các đối tượng (hay đồ thị con) để ước lượng được Nie và các cộng
sự xây dựng dựa trên tập huấn luyện bằng cách mở rộng ra một khoảng cách
nhất định liên kết [NZ+2005]. Đồ thị con này gọi là k-diameter subgraph, nó
bao gồm tập huấn luyện và các đối tượng có khoảng cách đến một đối tượng
bất kì nào trong tập huấn luyện nhỏ hơn hay bằng k liên kết. Giải thuật xác
định được cho dưới đây:
Hình 2.5 – Giải thuật xác định khoảng cách k.
c) Nhận xét
Có nhiều thuật toán đã được đề xuất để khắc phục các hạn chế của
PageRank trong việc xếp hạng các đối tượng trong đồ thị có nhiều loại mối
quan hệ khác nhau. Trong đó PopRank là nổi bật nhất. PopRank bao gồm trong
nó PageRank và nó cũng tính đến hệ số truyền dẫn khác nhau cho các loại liên
kết giữa các loại đối tượng khác nhau.
PopRank ban đầu đã được áp dụng để xếp hạng các đối tượng trong lĩnh
vực thư viện điện tử như bài báo khoa học, tác giả,…
Khóa luận tốt nghiệp
Th.S Huỳnh Ngọc Tín Trang 19 Trần Hưng Nghiệp
T.S Lương Phúc Hiệp
2.4 Các chỉ số xếp hạng phổ biến
2.4.1 Giới thiệu
Việc xếp hạng, đánh giá chất lượng làm việc của các nhà khoa học, các tổ
chức hay các tờ báo khoa học là một trong số những công việc chính của ngành
phân tích các tài liệu. Để làm việc này, các nhà khoa học đã xây dựng nhiều
phương pháp cùng với nhiều độ đo của các chỉ số xếp hạng khác nhau. Các chỉ
số đó ban đầu đơn giản chỉ là số lượng tác phẩm khoa học, số lượng trích dẫn,
số trích dẫn trung bình trên một tác phẩm. Đến vài năm gần đây, hàng loạt chỉ
số mới đã được đề xuất và được ứng dụng rộng rãi. Mở đầu với h-index, sau đó
các chỉ số ra đời trong nỗ lực cải tiến h-index như g-index, m-quotient, h(2)-
index, đây là nhóm các chỉ số thiên về tính số lượng tác phẩm cốt lõi nhận
được nhiều trích dẫn, gọi chung là h-type indexes. Còn có các chỉ số khác cũng
được phát triển dựa trên ý tưởng h-index nhưng thiên về tính mức độ ảnh
hưởng của nhóm các tác phẩm cốt lõi như a-index, m-index, r-index, ar-index,
hw-index, chúng được gọi chung là a-type indexes [BM+2008].
Ngoài ra còn có nhiều chỉ số khác đã và đang được xây dựng, ở đây luận
văn chỉ khảo sát các chỉ số quan trọng và phổ biến nhất đề cập ở trên.
2.4.2 Các chỉ số phân tích tài liệu chuẩn (Standard bibliometric indicators)
a) Tổng số bài báo khoa học
Đây là chỉ số đơn giản nhất trong số ba chỉ số phân tích tài liệu chuẩn. Tổng
số bài báo khoa học thể hiện năng suất lao động khoa học của tác giả, nếu xét
cho tổ chức hay quốc gia thì nó thể hiện năng suất lao động khoa học của tổ
chức hay quốc gia đang xét.
b) Tổng số trích dẫn
Số lượng trích dẫn của một bài báo khoa học phản ánh tầm ảnh hưởng của
bài báo khoa học đó, nó thể hiện bài báo đó phổ biến tới mức nào trong cộng
đồng khoa học. Tổng số lượng trích dẫn của các bài báo của một tác giả nào đó
thể hiện tầm ảnh hưởng của tác giả đó, tổng số lượng trích dẫn cao hơn thường
Khóa luận tốt nghiệp
Th.S Huỳnh Ngọc Tín Trang 20 Trần Hưng Nghiệp
T.S Lương Phúc Hiệp
đồng nghĩa với việc tác giả đó có tầm ảnh hưởng lớn hơn, có uy tín lớn hơn.
Tổng số lượng trích dẫn của một tổ chức cũng thể hiện tầm ảnh hưởng của tổ
chức đó.
c) Hệ số ảnh hưởng (Impact factor)
a. Giới thiệu
Độ đo impact factor, thường được gọi là IF, là một độ đo phản ánh số lượng
tham khảo trung bình đến những bài báo trong một tờ báo khoa học nào đó.
Impact factor thể hiện một độ quan trọng tương đối của một tờ báo so với
những tờ báo khác trong cùng lĩnh vực, tờ báo có impact factor cao hơn được
coi như quan trọng hơn tờ báo có impact factor thấp hơn. Impact factor được đề
xuất bởi Eugene Garfield, người sáng lập viện khoa học thông tin (Institute for
Scientific Information – ISI) bây giờ là một phần của Thomson Reuters. Độ đo
impact factor được tính mỗi năm cho các tờ báo nằm trong danh sách báo cáo
trích dẫn các tờ báo của Thomson Reuters [WikiIF].
b. Định nghĩa
Impact factor của một tờ báo trong một năm được tính bằng cách lấy số lần
trích dẫn trung bình trong năm đó của các bài báo được xuất bản trong hai năm
trước đó thuộc tờ báo đang xét.
Ví dụ ta tính impact factor cho tờ báo X trong năm 2011, đặt:
A = số lần tham khảo tới các bài báo thuộc tờ báo X xuất bản năm 2009,
2010 bởi các bài báo trong các tờ báo được lập chỉ mục trong năm 2011.
B = số bài báo thuộc tờ báo X xuất bản năm 2009, 2010.
Khi đó, impact factor của tờ báo X năm 2011 = A / B.
Lưu ý rằng một tờ báo mới lập chỉ mục sẽ được tính impact factor sau năm
thứ ba, kết quả sẽ có được vào đầu năm thứ tư sau khi tất cả các bài báo năm
thứ ba đã được xuất bản.
c. Nhận xét
Khóa luận tốt nghiệp
Th.S Huỳnh Ngọc Tín Trang 21 Trần Hưng Nghiệp
T.S Lương Phúc Hiệp
Impact factor là một chỉ số khá đơn giản dùng để so sánh độ quan trọng
giữa các tờ báo trong cùng một lĩnh vực nhất định. Impact factor được tính toán
bởi Thomson Reuters cho hơn 11000 tờ báo trong cơ sở dữ liệu của họ.
Impact factor là chỉ số tốt nhất trong ba chỉ số phân tích tài liệu chuẩn, nó
kết hợp cả số lượng bài báo lẫn số lượng trích dẫn để tạo ra một chỉ số trung
bình trích dẫn của các bài báo khoa học trong tờ báo khoa học từ đó có thể
đánh giá tổng hợp cả hiệu suất làm việc và tầm ảnh hưởng ở từng tờ báo.
Tuy nhiên, impact factor cũng còn tồn tại nhiều thiếu sót, có thể chia chúng
ra ba loại là tính hợp lệ, những chính sách khiến impact factor thay đổi, và việc
sử dụng impact factor sai mục đích.
Tính hợp lệ của impact factor yếu vì nó là trung bình số học của các trích
dẫn trên một bài báo, tuy nhiên theo lý thuyết thì đó là phân phối Bradford, sự
không phù hợp giữa lý thuyết và thực nghiệm làm cho impact factor không
chính xác để đánh giá các trích dẫn. Thực tế danh sách xếp hạng các tờ báo
được tính bởi impact factor cũng không hoàn toàn trùng khớp với danh sách có
được do các chuyên gia xếp hạng.
Một tờ báo có thể có chính sách đặc biệt để làm tăng impact factor của nó,
ví dụ như xuất bản nhiều những bài báo có khả năng được trích dẫn cao, và hạn
chế xuất bản những bài báo ít có khả năng được trích dẫn. Ngoài ra, một tờ báo
có thể có một số chính sách yêu cầu tác giả phải trích dẫn các bài báo xuất bản
trong tờ báo đó. Những chính sách này làm cho impact factor không phản ánh
đúng mức độ quan trọng của tờ báo.
Impact factor là chỉ số được tạo ra để đánh giá các đối tượng là các tờ báo
khoa học, nó không phù hợp để đánh giá một bài báo hay một tác giả đơn lẻ,
mọi sự đánh giá này đều có thể sai vì impact factor là giá trị trung bình cho cả
tờ báo, trong đó có những bài báo được trích dẫn rất nhiều, có những bài báo ít
được trích dẫn, tượng tự có những tác giả được trích dẫn rất nhiều, có những
tác giả rất ít được trích dẫn [WikiIF].
Khóa luận tốt nghiệp
Th.S Huỳnh Ngọc Tín Trang 22 Trần Hưng Nghiệp
T.S Lương Phúc Hiệp
2.4.3 H-type indexes
a) H-Index
a. Giới thiệu
H-index được đề xuất bởi Jorge E. Hirsch, một nhà vật lý tại UCSD, như
một chỉ số so sánh tương đối các nhà vật lý với nhau. H-index được tạo ra
nhằm mục đích đo lường cả số lượng các bài báo của một tác giả và hiệu quả
ảnh hưởng của các bài báo đó trong cộng đồng khoa học. Chỉ số này được tính
toán dựa trên một tập các bài báo được trích dẫn cao nhất của một tác giả và số
lượng tham khảo đến chúng. H-index có thể dùng để so sánh chất lượng nghiên
cứu khoa học của hai nhà khoa học thuộc cùng một lĩnh vực bất kì, nó còn có
thể dùng để so sánh giữa hai nhóm các nhà khoa học, như giữa các trường đại
học hay giữa các quốc gia theo một lĩnh vực nào đó [WikiHI].
b. Định nghĩa
Chỉ số h-index dựa trên phân phối của các trích dẫn đến các bài bài của tác
giả đang xét. Theo Hirsch thì: “Một tác giả có h-index = h khi có h bài báo
khoa học của người đấy có ít nhất h trích dẫn mỗi bài báo, và các bài báo còn
lại có ít hơn h trích dẫn mỗi bài.” [Hir2005]. H-index được xây dựng dựa trên
một mô hình quen thuộc trong lý thuyết số là hình vuông Durfee [WikiDS].
Hình sau mô tả định nghĩa này của h-index:
Khóa luận tốt nghiệp
Th.S Huỳnh Ngọc Tín Trang 23 Trần Hưng Nghiệp
T.S Lương Phúc Hiệp
Hình 2.6 – Mô phỏng định nghĩa h-index.
Định nghĩa trên của Hirsch không hoàn toàn chính xác, vì nó không bao
quát hết các trường hợp. Ta xét ví dụ sau:
Tác phẩm Số trích dẫn
A 5
B 3
C 3
D 3
E 1
Theo định nghĩa ban đầu của Hirsch, ta không tìm được giá trị h-index nào
cho tập các bài viết này. H-index không phải là ba, vì có ba tác phẩm có lớn
hơn hay bằng ba trích dẫn, nhưng các tác phẩm còn lại không phải đều có ít
hơn 3 trích dẫn. Một định nghĩa chính xác hơn cho h-index được cho như sau:
“Một tác giả có h-index = h khi các tác phẩm của người đó được sắp xếp theo
danh sách thứ tự giảm dần số trích dẫn, và có h tác phẩm ở đầu có ít nhất h
trích dẫn mỗi tác phẩm, và bài báo thứ (h+1) có ít hơn (h+1) trích dẫn.”
[Rou2006]. Nói cách khác, tác giả có h-index = h khi h là số nguyên lớn nhất
Khóa luận tốt nghiệp
Th.S Huỳnh Ngọc Tín Trang 24 Trần Hưng Nghiệp
T.S Lương Phúc Hiệp
thỏa có h tác phẩm có ít nhất h trích dẫn mỗi tác phẩm đó. Khi tính toán, các
tác phẩm sẽ được sắp xếp theo thứ tự giảm dần số trích dẫn để công việc đơn
giản hơn.
Trong nghiên cứu của mình [Hir2005], Hirsch đã chỉ ra rằng chỉ số h-index
có liên quan rõ ràng đến việc một nhà khoa học có đạt được các giải thưởng
khoa học không, ví dụ như giải Nobel. Vì chỉ số h-index có phụ thuộc vào số
lượng bài báo khoa học của một tác giả nên nó cũng phụ thuộc vào số năm
nghiên cứu khoa học của tác giả đó.
H-index của một tác giả có thể được tính từ nguồn dữ liệu là một cơ sở dữ
liệu các bài báo khoa học trích dẫn nhau của các tác giả trong nhiều lĩnh vực.
Việc tính toán dựa trên việc đếm các trích dẫn của mỗi bài báo, ta sẽ sắp xếp
các bài báo của một tác giả theo thứ tự giảm dần số lượng trích dẫn, sau đó
đếm để xác định số lượng bài báo h có lượng trích dẫn mỗi bài lớn hơn hay
bằng h. Giải thuật tính h có thể cho như sau:
// Calculate h-index for each author.
Input: Tập các bài viết.
Output: h-index của tác giả.
Begin
Sắp xếp các bài viết theo thứ tự giảm dần số trích
dẫn.
h = 0;
while (h < số bài viết) {
c = số trích dẫn của bài viết thứ (h + 1);
if (c >= (h + 1))
h++;
else break;
}
Khóa luận tốt nghiệp
Th.S Huỳnh Ngọc Tín Trang 25 Trần Hưng Nghiệp
T.S Lương Phúc Hiệp
h-index = h;
End
H-index của một tổ chức hay một quốc gia có thể được tính bằng cách coi
như có một tác giả trừu tượng đại diện cho toàn bộ các tác giả trong tổ chức
hay quốc gia. Mỗi bài báo khoa học phải được xác định cụ thể thuộc về tác giả
trừu tượng nào. Việc tính toán còn lại hoàn toàn tương tự như tính toán cho
một tác giả đơn lẻ.
c. Nhận xét
H-index khá hiệu quả khi dùng để so sánh, đánh giá các tác giả vì nó đã bao
gồm cả hai yếu tố số lượng bài báo và số lượng tham khảo cho mỗi bài báo tức
là nó bao gồm cả yếu tố số lượng và chất lượng kết quả nghiên cứu của tác giả.
H-index đã được chính tác giả kiểm chứng trong một nghiên cứu khác của
mình [Hir2007] là có thể dùng dự đoán khá tốt những thành công trong sự
nghiệp khoa học tương lai của một tác giả. Trong một số nghiên cứu thực
nghiệm khác [BW+2008], h-index cũng cho thấy nó tốt hơn nhiều so với các
chỉ số phân tích tài liệu chuẩn trong việc đánh giá chất lượng công việc của các
nhà khoa học.
H-index có nhiều ưu điểm nổi bật sau [Rou2008]:
Nó là một chỉ số đơn giản về mặt toán học.
Nó là một chỉ số mạnh (robust) vì nó không bị ảnh hưởng hoặc chỉ bị ít
bởi một vài sai sót nhỏ của việc thu thập dữ liệu.
H-index giúp tránh được những trường hợp bất thường, ví dụ như chỉ có
một vài bài được trích dẫn rất nhiều, hay là có rất nhiều bài viết nhưng
lại ít được trích dẫn.
Kết quả tính toán h-index trên các cơ sở dữ liệu khác nhau thường khác
nhau vì chúng thường không đầy đủ hoặc có nhiều trích dẫn ảo [MY2007]. Ví
dụ như Scopus thiếu nhiều bài báo, Web of Knowledge thiếu nhiều bài trước
1996, Google Scholar thiếu nhiều bài trước 1990.
H-index vẫn còn nhiều thiếu sót có thể dẫn đến đánh giá sai [Rou2008]:
Khóa luận tốt nghiệp
Th.S Huỳnh Ngọc Tín Trang 26 Trần Hưng Nghiệp
T.S Lương Phúc Hiệp
H-index bị ràng buộc bởi số lượng tác phẩm được xuất bản. Nếu một tác
giả xuất bản ít tác phẩm có chất lượng, được trích dẫn nhiều thì tác giả
đó cũng không thể có h-index lớn hơn số tác phẩm của mình. Ví dụ nhà
toán học người Pháp Évariste Galois, cha đẻ của lý thuyết Galois và lý
thuyết nhóm sẽ mãi chỉ có h-index = 2. Trong bài báo của mình
[Hir2005], Hirsch cũng đã chỉ ra rằng h-index chỉ phù hợp để đánh giá
các tác giả trong cùng một bối cảnh trong sự nghiệp của họ.
H-index khó có thể dùng để đánh giá các tác giả mới vì nó chỉ có thể
tăng lên sau một khoảng thời gian dài, còn các tác giả đã có nhiều bài
viết và được trích dẫn nhiều thì có thể nghỉ ngơi mà h-index vẫn tăng
lên.
H-index không tính đến việc một bài báo có thể có nhiều tác giả.
H-index bỏ qua thông tin trong phần danh sách tên các tác giả, mà trong
một số lĩnh vực là quan trọng.
H-index coi sách và bài báo khoa học là như nhau, điều đó không đúng
với một số ngành như khoa học xã hội.
H-index không quan tâm đến ngữ cảnh của trích dẫn. Đây cũng là vấn
đề chung của các chỉ số dựa trên việc đếm các trích dẫn.
H-index không tính đến một số trường hợp đặc biệt như hiệu ứng
Matthew [WikiME], và sự thiên vị trong một số trích dẫn, thao túng
trích dẫn bằng cách tự trích dẫn, hay trích dẫn tạo ra bởi các công cụ tự
động như SCIgen [WikiSCI]. Đây cũng là một vấn đề chung của các chỉ
số dựa trên việc đếm các trích dẫn.
H-index không có giá trị lẻ mà nó chỉ có số nguyên nên sẽ kém độ chính
xác khi so sánh.
H-index không bao giờ giảm, nó cũng ít nhạy cảm với số lượng trích
dẫn nhận được.
Từ khi h-index ra đời, nhiều tác giả đã tìm cách cải tiến nó, chỉnh sửa cho
phù hợp với các trường hợp cụ thể để hạn chế các thiếu sót và đạt hiệu quả cao
Khóa luận tốt nghiệp
Th.S Huỳnh Ngọc Tín Trang 27 Trần Hưng Nghiệp
T.S Lương Phúc Hiệp
hơn. Nhiều chỉ số khác nhau đã được đề xuất dựa trên h-index, nổi bật trong số
đó có thể kể đến g-index.
b) G-Index
a. Giới thiệu
G-index được đề xuất bởi Leo Egghe vào năm 2006 như là một sự cải tiến
của h-index. Theo Egghe [Egg2006], g-index ra đời nhằm khắc phục các điểm
yếu về việc h-index bị giới hạn bởi số lượng tác phẩm của nhà khoa học, và về
việc có thể có một số tác phẩm rất quan trọng, được trích dẫn rất nhiều nhưng
một khi đã được tính đến trong h-index thì nó cũng không đóng góp gì hơn so
với các tác phẩm có số trích dẫn ít hơn khác.
b. Định nghĩa
G-index được định nghĩa cho một tập tác phẩm bất kì, nó được định nghĩa
như sau: “Một tập các tác phẩm có g-index = g nếu g tác phẩm được trích dẫn
nhiều nhất có tổng số trích dẫn lớn hơn hay bằng g2, và (g+1) tác phẩm được
trích dẫn nhiều nhất có tổng số trích dẫn nhỏ hơn (g+1)2.” [Egghe2006]. Nếu
tập các tác phẩm là của một tác giả thì g-index tính được là của tác giả đó,
tương tự, g-index có thể tính cho một tổ chức hay một tờ báo.
G-index có thể được tính theo giải thuật sau:
// Calculate g-index for a set of papers.
Input: Tập các bài viết.
Output: g-index.
Begin
Sắp xếp các bài viết theo thứ tự giảm dần số trích
dẫn.
g = 0;
cs = 0;
while (true) {
Khóa luận tốt nghiệp
Th.S Huỳnh Ngọc Tín Trang 28 Trần Hưng Nghiệp
T.S Lương Phúc Hiệp
if (g < số bài viết) {
cs += số trích dẫn của bài viết thứ (g + 1);
}
if (cs >= ((g + 1) * (g + 1)))
g++;
else break;
}
g-index = g;
End
Theo định nghĩa của g-index, ta thấy g-index có các tính chất sau: Một tập
các bài viết bất kì luôn tồn tại duy nhất một giá trị g-index. Giá trị g-index luôn
lớn hơn hoặc bằng h-index [Egghe2006].
Nếu số lượng tác phẩm quá ít nhưng lại có nhiều trích dẫn, để tính g-index
ta sẽ tạo ra các tác phẩm ảo với số trích dẫn bằng không, bổ sung vào tập bài
viết, nhờ vậy g-index không bị giới hạn bởi số bài viết. Khi đó ta có
⌊√ ⌋
c. Nhận xét
G-index là một trong số những cải tiến tốt nhất của h-index. G-index đặc
biệt hiệu quả hơn h-index khi đánh giá các tác giả thuộc nhóm các nhà nghiên
cứu chọn lọc, họ chỉ xuất bản một số ít tác phẩm nhưng rất có giá trị và được
trích dẫn nhiều [CB2008]. G-index có những ý tưởng tương tự như h-index và
vẫn giữ được những ưu điểm của h-index. Tuy nhiên g-index cũng còn nhiều
hạn chế chung của các chỉ số dựa trên việc đếm trích dẫn.
Các chỉ số khác sẽ được trình bày ngắn gọn sau đây.
c) M-quotient
Khóa luận tốt nghiệp
Th.S Huỳnh Ngọc Tín Trang 29 Trần Hưng Nghiệp
T.S Lương Phúc Hiệp
Trong bài báo đầu tiên của mình về h-index [Hir2005], Hirsch đã đề cử một
chỉ số để so sánh hai tác giả mà không bị ảnh bởi thời gian tham gia nghiên cứu
khoa học của mỗi người. Chỉ số đó được gọi là m-quotient và được định nghĩa
như sau:
Với:
m là m-quotient
h là h-index
y là số năm kể từ khi bài báo đầu tiên được xuất bản.
M-quotient có cơ sở toán học là mô hình ngẫu nhiên cho quá trình hoạt
động khoa học và số trích dẫn của một tác giả [Bur2007]. M-quotient được cho
là khá hiệu quả để so sánh hai tác giả có thâm niên nghiên cứu khoa học khác
nhau và dự đoán triển vọng của các nhà khoa học trẻ.
d) H(2)-Index
H(2)-index được đề xuất bởi Marek Kosmulski vào năm 2006. Tương tự g-
index, trong định nghĩa h(2)-index thì các tác phẩm có nhiều trích dẫn cũng
được tính quan trọng hơn. H(2)-index được định nghĩa như sau: “Một tác giả
có h(2)-index = h(2) khi h(2) là một số nguyên lớn nhất thỏa tác giả đó có h(2)
tác phẩm có ít nhất [h(2)]2 trích dẫn mỗi tác phẩm.” [Kos2006].
H(2)-index cũng bị hạn chế bởi số lượng tác phẩm giống như h-index. Dễ
dàng nhận thấy rằng h(2)-index luôn nhỏ hơn hay bằng h-index. Khi phân tích
các tài liệu, luôn cần kiểm tra để tránh nhầm lẫn các trường hợp các tác phẩm
của các tác giả có cùng họ tên. H(2)-index giúp giảm giảm nhẹ vấn đề này vì số
lượng tác phẩm thỏa h(2)-index nhỏ nên số tác phẩm cần kiểm tra cũng nhỏ.
2.4.4 A-type indexes
a) A-Index
a. Giới thiệu
Khóa luận tốt nghiệp
Th.S Huỳnh Ngọc Tín Trang 30 Trần Hưng Nghiệp
T.S Lương Phúc Hiệp
A-index là một chỉ số được hình thành sau h-index, sự ra đời của a-index
cũng là một trong những nỗ lực cải tiến h-index. Các chỉ số thuộc nhóm h-type
indexes nhằm xác định vùng các tác phẩm được trích dẫn nhiều nhất và số
lượng của chúng [Bur2007a]. Đối với h-index, vùng các các tác phẩm này chứa
h tác phẩm được trích dẫn nhiều nhất, nó được Rousseau gọi là Hirsch core
[Rou2006]. A-index không giống với các chỉ số thuộc nhóm h-type indexes, a-
index nhằm xác định tầm ảnh hưởng của các tác phẩm thuộc vùng Hirsch core
này. A-index lúc đầu được đề xuất bởi Jin vào năm 2006 [Jin2006], tuy nhiên
tác giả chưa đặt một cái tên chính thức, sau đó nó được đề cập đến với tên a-
index bởi Rousseau vào năm 2006 [Rousseau2006]. Sau khi a-index ra đời, có
nhiều chỉ số khác cũng nhằm xác định tầm ảnh hưởng của các bài báo thuộc
nhóm có nhiều trích dẫn nhất, chúng được xếp vào nhóm a-type indexes.
b. Định nghĩa
Theo ý tưởng của Jin [Jin2006], a-index là số trích dẫn trung bình mỗi tác
phẩm trong Hirsch core nhận được, a-index có thể được định nghĩa như sau:
∑
Với:
a là a-index.
h là số tác phẩm trong hirsch core hay h-index của tập các tác phẩm.
cj là số trích dẫn của tác phẩm j.
c. Nhận xét
A-index cải tiến h-index về mặt quan tâm hơn đến số trích dẫn của các tác
phẩm nằm trong Hirsch core, tuy nhiên nó lại quá nhạy cảm với một vài tác
phẩm có số trích dẫn cao bất thường, vì vậy nó không tốt để đánh giá trong một
số trường hợp.
Sau đây luận văn giới thiệu ngắn gọn các chỉ số thuộc loại a-indexes khác.
b) M-Index
Khóa luận tốt nghiệp
Th.S Huỳnh Ngọc Tín Trang 31 Trần Hưng Nghiệp
T.S Lương Phúc Hiệp
M-index được đề xuất bởi Bornmann và các cộng sự vào năm 2008. Các tác
giả đã lưu ý rằng phân phối của các trích dẫn của các tác phẩm thường là xiên,
vì vậy điểm ở giữa chứ không phải giá trị trung bình của các trích dẫn đấy nên
được dùng để đo xu hướng trung tâm. Vì vậy các tác giả đã đề xuất m-index là
giá trị ở giữa của số các trích dẫn của các tác phẩm thuộc Hirsch core.
c) R-Index
R-index được đề xuất bởi Jin và các cộng sự năm 2007 [JL+2007]. Jin và
cộng sự đã lưu ý rằng khi tính a-index, các tác giả có h-index lớn sẽ chịu thiệt
thòi vì tổng số trích dẫn đã bị chia cho h-index. Vì vậy Jin và cộng sự đề xuất
cải tiến bằng cách thay vì chia cho h-index thì sẽ rút căn tổng số trích dẫn này.
Ta có:
√∑
Với:
r là r-index.
h là số tác phẩm trong hirsch core hay h-index của tập các tác phẩm.
cj là số trích dẫn của tác phẩm j.
R-index cũng như a-index, rất nhạy cảm với những trường hợp có một vài
tác phẩm có số trích dẫn cao bất thường.
d) AR-Index
AR-index được Jin và các cộng sự đề xuất để bổ sung với r-index
[JL+2007]. AR-index được đề xuất nhằm thể hiện sự thay đổi thể hiện của các
tác giả theo thời gian, nó bao gồm thêm số năm kể từ khi tác phẩm được xuất
bản. AR-index có thể tính như sau:
√∑
Khóa luận tốt nghiệp
Th.S Huỳnh Ngọc Tín Trang 32 Trần Hưng Nghiệp
T.S Lương Phúc Hiệp
Với:
ar là ar-index.
h là số tác phẩm trong hirsch core hay h-index của tập các tác phẩm.
cj là số trích dẫn của tác phẩm j.
a là số năm kể từ khi xuất bản tác phẩm j.
Tức là
là trung bình số trích dẫn mỗi năm của tác phẩm j.
e) Hw-Index
Hw-index được phát triển bởi Egghe và Rousseau [ER2008] vào năm 2007.
Hw-index cải tiến h-index để nhạy cảm hơn với sự thay đổi thể hiện của tác giả
theo thời gian. Hw-index có hai dạng, liên tục và rời rạc. Dạng liên tục được
định nghĩa như sau:
√∫
√
Với:
là hw-index.
là nghiệm của phương trình:
∫
[ ] [ ]
là h-index, là nghiệm duy nhất của phương trình
Dạng rời rạc được định nghĩa như sau:
√∑
Với
là hw-index.
là số trích dẫn của tác phẩm thứ i.
Khóa luận tốt nghiệp
Th.S Huỳnh Ngọc Tín Trang 33 Trần Hưng Nghiệp
T.S Lương Phúc Hiệp
2.5 Các hệ thống liên quan
2.5.1 Giới thiệu
Hiện nay trên thế giới có nhiều thư viện số được phát triển với nhiều mục
đích khác nhau [WikiDB&SE]. Các thư viện có thể phục vụ mục đích nghiên
cứu của người thành lập, ví dụ Microsoft Academic Search; hoặc dùng trong
một cộng đồng nghiên cứu nào đó, ví dụ Anthropological Literature9 dùng
chính cho nội bộ đại học Harvard; hoặc có thể là để quản lý và bán các tài liệu
có bản quyền, ví dụ IEEEXplore, ACM, SpringerLink… Các thư viện cũng có
thể chia ra loại tính phí và loại miễn phí, tuy nhiên cũng có nhiều cấp độ miễn
phí khác nhau như miễn phí tìm kiếm, duyệt nhưng tính phí nội dung, miễn phí
phần tổng quan, miễn phí một số tài liệu…
Mỗi thư viện thường gồm một cơ sở dữ liệu chứa thông tin chỉ mục về các
tài liệu, các tác giả, và các đối tượng khác, nhiều thư viện có chứa cả nội dung
đầy đủ của văn bản tài liệu hoặc đường dẫn đến nơi chứa nội dung này. Cùng
với đó là một máy tìm kiếm hỗ trợ tìm kiếm thông tin về các đối tượng trong cơ
sở dữ liệu.
Ở đây luận văn sẽ giới thiệu một số thư viện lớn.
2.5.2 IEEEXplore
Thư viện số IEEEXplore là của tổ chức “Institute of Electrical and
Electronics Engineers (IEEE)”. Thư viện này cung cấp các bài báo khoa học
liên quan đến lĩnh vực công nghệ thông tin. Tại thư viện số này, người dùng có
thể tìm được các bài báo phát hành bởi tổ chức IEEE và các tổ chức khác như
AIP, IET, IBM, AVS… [IEEE].
Bảng sau mô tả thông tin chi tiết IEEEXplore:
9
Khóa luận tốt nghiệp
Th.S Huỳnh Ngọc Tín Trang 34 Trần Hưng Nghiệp
T.S Lương Phúc Hiệp
Bảng 2.1 – Thông tin chi tiết IEEEXplore.
Tên hệ thống Institute of Electrical and Electronics Engineers (IEEE)
Địa chỉ
Loại thư
viện
Đây là thư viện tính phí, người dùng thông thường có thể tìm
kiếm cơ bản nhưng không được sử dụng chức năng tìm kiếm
nâng cao hay xem và download dữ liệu chỉ mục của bài báo có
trong thư viện, muốn xem các tài liệu thì người dùng phải
mua tài liệu đó.
Các chức
năng
Duyệt danh sách: người dùng có thể duyệt qua danh sách các
đối tượng tài liệu, tác giả, tổ chức… bằng cách đi theo các liên
kết tự nhiên, hay theo từng chủ đề.
Tìm kiếm: các loại tài liệu có thể tìm kiếm bao gồm: bài báo
khoa học, báo cáo nghiên cứu, báo cáo khóa luận, luận án thạc
sĩ, tiến sĩ…
Người dùng có thể tìm kiếm cơ bản hoặc tìm kiếm nâng cao
với nhiều tiêu chí tìm kiếm hơn.
Xem nội dung tài liệu: Người dùng chưa đăng kí có thể xem
nội dung phần giới thiệu tổng quan tài liệu, xem các tài liệu
miễn phí, cũng có thể mua một tài liệu nào đó. Người dùng đã
đăng kí có thể sử dụng những chức năng quản lý tài khoản cá
nhân.
Chức năng tìm kiếm nâng cao: Các tiêu chí tìm kiếm tài liệu
nâng cao theo tác giả, hội nghị, tạp chí, tổ chức, năm xuất bản
và theo chỉ số DOI.
Cách xếp
hạng kết quả
tìm kiếm
Kết quả tìm kiếm được sắp xếp dựa trên việc tổng hợp hai tiêu
chí: độ tương quan của nội dung mỗi đối tượng với câu truy
vấn và độ quan trọng toàn cục của đối tượng đó.
Nội dung Nội dung dữ liệu của IEEEXplore được phát hành hay thuộc
sở hữu của IEEE hay các tổ chức hợp tác, vì vậy nội dung có
văn bản đầy đủ, chính thức, rõ ràng. Tuy nhiên số lượng bị
hạn chế.
Theo thông tin từ IEEEXplore thì hiện có 3,108,871 tài liệu
thuộc lĩnh vực công nghệ thông tin. (dữ liệu cập nhật ngày
17/01/2012).
Khóa luận tốt nghiệp
Th.S Huỳnh Ngọc Tín Trang 35 Trần Hưng Nghiệp
T.S Lương Phúc Hiệp
Sau đây là các hình ảnh minh họa cho IEEE:
Hình 2.7 – Trang chủ thư viện số IEEEXplore.
Khóa luận tốt nghiệp
Th.S Huỳnh Ngọc Tín Trang 36 Trần Hưng Nghiệp
T.S Lương Phúc Hiệp
Hình 2.8 – Kết quả tìm kiếm IEEEXplore với từ khóa “data”.
2.5.3 Association for Computing Machinery (ACM)
ACM là một tổ chức hoạt động trong lĩnh vực công nghệ thông tin, chuyên
cung cấp tài nguyên phục vụ việc đào tạo và nghiên cứu khoa học. ACM và
nhiều tổ chức khác nhau phối hợp hoạt động cùng cung cấp thư viện số ACM
cho phép người dùng tìm kiếm và tải về các bài báo được công bố trong các hội
nghị, tạp chí được tổ chức và xuất bản bởi ACM và các tổ chức đó, ngoài ra
ACM còn cho phép người dùng tìm kiếm và duyệt qua các bài báo khác mà
ACM không sở hữu nhưng có lập chỉ mục[ACM].
Bảng sau mô tả thông tin chi tiết ACM:
Bảng 2.2 – Thông tin chi tiết ACM.
Tên hệ thống Association for Computing Machinery (ACM)
Địa chỉ
Loại thư
viện
Đây là thư viện tính phí, người dùng thông thường có thể tìm
kiếm và duyệt theo cấu trúc các chỉ mục bài báo nhưng không
Khóa luận tốt nghiệp
Th.S Huỳnh Ngọc Tín Trang 37 Trần Hưng Nghiệp
T.S Lương Phúc Hiệp
được xem và download các bài báo có trong thư viện.
Các chức
năng
Duyệt danh sách: người dùng có thể duyệt qua danh sách các
đối tượng tài liệu, tác giả, tổ chức… bằng cách đi theo các liên
kết tự nhiên, hay theo từng chủ đề.
Tìm kiếm: các loại tài liệu có thể tìm kiếm bao gồm: bài báo
khoa học, báo cáo nghiên cứu, báo cáo khóa luận, luận án thạc
sĩ, tiến sĩ…
Người dùng có thể tìm kiếm cơ bản hoặc tìm kiếm nâng cao
với nhiều tiêu chí tìm kiếm hơn.
Xem nội dung tài liệu: Người dùng chưa đăng kí có thể xem
nội dung phần giới thiệu tổng quan tài liệu, xem các tài liệu
miễn phí, cũng có thể mua một tài liệu nào đó. Người dùng đã
đăng kí có thể sử dụng những chức năng quản lý tài khoản cá
nhân.
Chức năng tìm kiếm nâng cao: Các tiêu chí tìm kiếm tài liệu
nâng cao theo tác giả, hội nghị, tạp chí, tổ chức, năm xuất bản
và theo chỉ số DOI.
Cách xếp
hạng kết quả
tìm kiếm
Kết quả tìm kiếm được sắp xếp dựa trên việc tổng hợp hai tiêu
chí: độ tương quan của nội dung mỗi đối tượng với câu truy
vấn và độ quan trọng toàn cục của đối tượng đó.
Nội dung Nội dung dữ liệu của ACM được phát hành hay thuộc sở hữu
của ACM hay các tổ chức hợp tác, vì vậy nội dung có văn bản
đầy đủ, chính thức, rõ ràng. Tuy nhiên số lượng bị hạn chế.
Theo thông tin từ ACM thì hiện có 1778616 tài liệu, với
325164 tài liệu có nội dung văn bản đấy đủ thuộc sở hữu
ACM và các tổ chức phối hợp. (dữ liệu cập nhật ngày
17/01/2012).
Sau đây là các hình ảnh minh họa cho ACM:
Khóa luận tốt nghiệp
Th.S Huỳnh Ngọc Tín Trang 38 Trần Hưng Nghiệp
T.S Lương Phúc Hiệp
Hình 2.9 – Trang chủ của thư viện số ACM.
Khóa luận tốt nghiệp
Th.S Huỳnh Ngọc Tín Trang 39 Trần Hưng Nghiệp
T.S Lương Phúc Hiệp
Hình 2.10 – Tìm kiếm chi tiết của ACM.
Khóa luận tốt nghiệp
Th.S Huỳnh Ngọc Tín Trang 40 Trần Hưng Nghiệp
T.S Lương Phúc Hiệp
Hình 2.11 – Kết quả trả về khi tìm kiếm ACM với từ khóa “data”.
2.5.4 SpringerLink
Thư viện số SpringerLink được cung cấp bởi công ty Springer
Science+Business Media. Thư viện này có sự hợp tác của nhiều tác giả lớn ở
nhiều lĩnh vực khoa học khác nhau để cung cấp cho người dùng khả năng tìm
kiếm và tải về các bài viết của họ [SL].
Bảng sau trình bày chi tiết hơn về SpringerLink.
Bảng 2.3 – Thông tin chi tiết về SpringerLink.
Tên hệ thống SpringerLink
Địa chỉ
Loại thư
viện
Đây là thư viện tính phí, cung cấp các tài liệu có bản quyền.
Người dùng có thể tìm kiếm và duyệt theo cấu trúc các chỉ
mục bài báo, nếu muốn xem và download các bài báo có trong
thư viện thì phải mua bài báo đó.
Các chức
năng
Duyệt danh sách: người dùng có thể duyệt qua danh sách các
đối tượng tài liệu, tác giả, tổ chức… bằng cách đi theo các liên
Khóa luận tốt nghiệp
Th.S Huỳnh Ngọc Tín Trang 41 Trần Hưng Nghiệp
T.S Lương Phúc Hiệp
kết tự nhiên, hay theo từng chủ đề.
Tìm kiếm: các loại tài liệu có thể tìm kiếm bao gồm: bài báo
khoa học, báo cáo nghiên cứu, báo cáo khóa luận, luận án thạc
sĩ, tiến sĩ…
Người dùng có thể tìm kiếm cơ bản hoặc tìm kiếm nâng cao
với nhiều tiêu chí tìm kiếm hơn.
Xem nội dung tài liệu: Người dùng chưa đăng kí có thể xem
nội dung phần giới thiệu tổng quan tài liệu, xem các tài liệu
miễn phí, cũng có thể mua một tài liệu nào đó. Người dùng đã
đăng kí có thể sử dụng những chức năng quản lý tài khoản cá
nhân.
Chức năng tìm kiếm nâng cao: Các tiêu chí tìm kiếm tài liệu
nâng cao theo tác giả, hội nghị, tạp chí, tổ chức, năm xuất bản
và theo chỉ số DOI.
Chức năng tìm kiếm bài báo liên quan: SpringerLink còn
hỗ trợ chức năng liệt kê những bài báo có liên quan tới bài báo
đang duyệt, gọi là chức năng “Related article and Semantic
Linking”.
Cách xếp
hạng kết quả
tìm kiếm
Kết quả tìm kiếm được sắp xếp dựa trên việc tổng hợp hai tiêu
chí: độ tương quan của nội dung mỗi đối tượng với câu truy
vấn và độ quan trọng toàn cục của đối tượng đó.
Nội dung Nội dung dữ liệu của SpringerLink được phát hành hay thuộc
sở hữu của nhiều tác giả, tổ chức hợp tác với SpringerLink, vì
vậy nội dung có văn bản đầy đủ, chính thức, rõ ràng. Tuy
nhiên số lượng bị hạn chế.
Theo thông tin từ SpringerLink thì hiện có 5534632 tài liệu ở
hơn 10 lĩnh vực lớn. Với 2713 tớ báo, 50127 cuốn sách, 1577
tập sách, 211 nguồn tham khảo online, 25967 biên bản. (dữ
liệu cập nhật ngày 17/01/2012).
Sau đây là các hình ảnh minh họa cho SpringerLink.
Khóa luận tốt nghiệp
Th.S Huỳnh Ngọc Tín Trang 42 Trần Hưng Nghiệp
T.S Lương Phúc Hiệp
Hình 2.12 – Trang chủ thư viện số SpringerLink.
Hình 2.13 – Chức năng tìm kiếm nâng cao SpringerLink.
Khóa luận tốt nghiệp
Th.S Huỳnh Ngọc Tín Trang 43 Trần Hưng Nghiệp
T.S Lương Phúc Hiệp
Hình 2.14 – Kết quả tìm kiếm thư viện SpringerLink với từ khóa “data”.
2.5.5 Microsoft Academic Search (MAS)
MAS được phát triển bởi bộ phận Microsoft Research thuộc công ty
Microsoft. MAS là một thư viện miễn phí được xây dựng nhằm phục vụ cho
việc thử nghiệm các ý tưởng nghiên cứu trong nhiều lĩnh vực như khai thác dữ
liệu, trích xuất và phân biệt thực thể có tên (Named Entity Extraction and
Disambiguation), biểu diễn dữ liệu (Data Visualization),… Hiện tại MAS là
một mô hình nghiên cứu nên có hạn chế về số lượng tài liệu ở một số lĩnh vực
[MAS][MASH].
Bảng sau cung cấp các thông tin cụ thể hơn về MAS:
Bảng 2.4 – Thông tin chi tiết về MAS.
Tên hệ thống Microsoft Academic Research (MAS)
Địa chỉ
Loại thư
viện
MAS là một thư viện thử nghiệm, được cung cấp miễn phí,
nội dung một phần tự thu thập và một phần do người dùng
cung cấp.
Cho phép người dùng tìm kiếm, xem các thông tin, tải tài liệu,
chỉnh sửa các thông tin.
Các chức
năng
Duyệt danh sách: người dùng có thể duyệt qua danh sách các
đối tượng tài liệu, tác giả, tổ chức… bằng cách đi theo các liên
Khóa luận tốt nghiệp
Th.S Huỳnh Ngọc Tín Trang 44 Trần Hưng Nghiệp
T.S Lương Phúc Hiệp
kết tự nhiên, hay theo từng chủ đề.
Tìm kiếm: các loại tài liệu có thể tìm kiếm bao gồm: bài báo
khoa học, báo cáo nghiên cứu, báo cáo khóa luận, luận án thạc
sĩ, tiến sĩ…
Người dùng có thể tìm kiếm cơ bản hoặc tìm kiếm nâng cao
với nhiều tiêu chí tìm kiếm hơn.
Người dùng chỉnh sửa: những thông tin cơ bản như tên tác
giả, nơi công tác, hình ảnh hoặc trang chủ. Tác giả cũng có thể
tự mình tải tập tin pdf lên hệ thống, xác nhận hay xóa một tài
liệu nào đó của mình.
Nhận thông tin “Kêu gọi bài báo” (Call for paper) từ các
hội nghị: “Kêu gọi bài báo” là một chức năng rất thú vị của
MAS, cho phép người dùng theo dõi lịch biểu cũng như hạn
chót ngày nộp bài báo về các hội nghị khoa học. Hiện tại chức
năng này mới chỉ ứng dụng cho các hội thảo thuộc ngành
Khoa học máy tính (Computer Science).
Biểu diễn mạng cộng tác giả: Chức năng này biểu diễn
những mối quan hệ học thuật giữa các tác giả, bao gồm các
thành phần sau:
- Giao diện đồ thị đồng tác giả (Co-author graph UI).
- Đường đi cộng tác giả (Co-author Path).
- Đồ thị trích dẫn tác giả (Author Citation Graph).
Đồ thị phân cấp tác giả (Genealogy Graph).
Xem nội dung trích dẫn.
Minh họa xu hướng nghiên cứu ở mỗi lĩnh vực.
Tìm hiểu thông tin bổ sung về nơi làm việc của tác giả như vị
trí địa lý, chất lượng nghiên cứu khoa học…
Chức năng tìm kiếm nâng cao: MAS hỗ trợ các tiêu chí tìm
kiếm tài liệu theo tác giả, hội nghị, tạp chí, tổ chức, năm xuất
bản và theo chỉ số DOI.
Chức năng tìm kiếm bài báo liên quan: MAS có hỗ trợ chức
năng liệt kê những bài báo có liên quan tới bài báo đang
duyệt, thể hiện ở phần “Related Publication”. Chức năng này
chỉ có ở một số bài báo khoa học.
Cách xếp
hạng kết quả
tìm kiếm
Kết quả tìm kiếm được sắp xếp dựa trên việc tổng hợp hai tiêu
chí: độ tương quan của nội dung mỗi đối tượng với câu truy
vấn và độ quan trọng toàn cục của đối tượng đó.
Độ tương quan được tính toán dựa trên các thuộc tính sẵn có
của đối tượng như một máy tìm kiếm thông thường. Độ quan
Khóa luận tốt nghiệp
Th.S Huỳnh Ngọc Tín Trang 45 Trần Hưng Nghiệp
T.S Lương Phúc Hiệp
trọng được xác định bằng các mối quan hệ với các đối tượng
khác, MAS đang thử nghiệm thuật toán poprank cho mục đích
xác định độ quan trọng của các đối tượng.
Nội dung Nội dung dữ liệu của MAS được thu thập từ nhiều nguồn bao
gồm nhiều lĩnh vực khác nhau và đang phát triển.
Theo thông tin từ MAS thì hiện có 37472734 tài liệu và
16639179 tác giả. (dữ liệu cập nhật ngày 17/01/2012).
Sau đây là một số hình ảnh về MAS:
Hình 2.15 – Khung tìm kiếm cơ bản của MAS.
Hình 2.16 – Tìm kiếm theo lĩnh vực ở MAS.
Hình 2.17 – Khung tìm kiếm nâng cao MAS.
Khóa luận tốt nghiệp
Th.S Huỳnh Ngọc Tín Trang 46 Trần Hưng Nghiệp
T.S Lương Phúc Hiệp
Hình 2.18 – Chức năng cho người dùng chỉnh sửa thông tin MAS.
Hình 2.19 – Chức năng quản lý các “call for paper” MAS.
Khóa luận tốt nghiệp
Th.S Huỳnh Ngọc Tín Trang 47 Trần Hưng Nghiệp
T.S Lương Phúc Hiệp
Hình 2.20 – Chức năng biểu diễn mối quan hệ các tác giả theo đồ thị MAS.
Khóa luận tốt nghiệp
Th.S Huỳnh Ngọc Tín Trang 48 Trần Hưng Nghiệp
T.S Lương Phúc Hiệp
Từ trên xuống dưới là: Co-author Graph, Co-author Path, Author Citation
Graph, Genealogy Graph.
Hình 2.21 – Xem nội dung trích dẫn MAS.
Khóa luận tốt nghiệp
Th.S Huỳnh Ngọc Tín Trang 49 Trần Hưng Nghiệp
T.S Lương Phúc Hiệp
Hình 2.22 – Xem xu hướng nghiên cứu khoa học trong các lĩnh vực MAS.
Hình 2.23 – Xem thông tin bổ sung về tổ chức của tác giả MAS.
2.5.6 Google Scholar
Google Scholar được cung cấp bởi công ty Google. Google Scholar là một
thư viện miễn phí cung cấp chức năng tìm kiếm các tài liệu học thuật cho mọi
người dùng [GS][GSH].
Bảng sau cung cấp các thông tin cụ thể hơn về Google Scholar:
Khóa luận tốt nghiệp
Th.S Huỳnh Ngọc Tín Trang 50 Trần Hưng Nghiệp
T.S Lương Phúc Hiệp
Bảng 2.5 – Thông tin chi tiết về Google Scholar.
Tên hệ thống Google Scholar
Địa chỉ
Loại thư
viện
Google Scholar là một thư viện miễn phí, nội dung chủ yếu là
do Google tự động thu thập trên mạng internet về bằng web
crawler, ngoài ra, người dùng cũng có thể đề nghị Google thu
thập tài liệu của mình.
Google Scholar có các tính năng tương tự như máy tìm kiếm
Google trên web trong cách lập chỉ mục, tìm kiếm và hiển thị
thông tin, tuy nhiên nội dung lập chỉ mục chỉ tập trung vào các
tài liệu học thuật.
Cho phép người dùng tìm kiếm tài liệu, xem và tải tài liệu nếu
có sẵn, đi đến nguồn của tài liệu, ngoài ra còn thể thể tìm hiểu
về các thuộc tính khác như số trích dẫn của tài liệu, các mối
quan hệ ngữ nghĩa như quan hệ tác giả, quan hệ trích dẫn…
Các chức
năng
Tìm kiếm: Hỗ trợ tìm kiếm nhiều loại tài liệu từ nguồn trên
internet, người dùng có thể chọn loại tài liệu cần tìm: bài báo
khoa học, bằng sáng chế, tạp chí, văn bản luật …
Người dùng có thể tìm kiếm cơ bản hoặc tìm kiếm nâng cao
với nhiều tiêu chí tìm kiếm hơn.
Chức năng tìm kiếm nâng cao: Google Scholar hỗ trợ các
tiêu chí tìm kiếm tài liệu theo tác giả, hội nghị, tạp chí, tổ
chức, năm xuất bản và theo chỉ số DOI.
Chức năng tìm kiếm bài báo liên quan: Google Scholar có
hỗ trợ chức năng liệt kê những bài báo có liên quan hay tương
tự với bài báo đang duyệt, thể hiện ở phần “Related articles”.
Chức năng thông báo bằng email cho người dùng về các
kết quả tìm kiếm mới
Chức năng trích xuất thông tin trích dẫn: người dùng có
thể xem và xuất thông tin trích dẫn của một tài liệu nào đó ra.
Chức năng theo dõi hoạt động khoa học của chính mình:
người dùng có thể theo dõi số lượng trích dẫn và các chỉ số
xếp hạng của mình.
Cách xếp
hạng kết quả
tìm kiếm
Máy tìm kiếm Google Scholar hoạt động tương tự máy tìm
kiếm Google, kết quả tìm kiếm cũng được sắp xếp dựa trên
việc tổng hợp hai tiêu chí: độ tương quan của nội dung mỗi
đối tượng với câu truy vấn và độ quan trọng toàn cục của đối
tượng đó.
Nội dung Đối tượng lập chỉ mục của Google Scholar là các tài liệu học
thuật. Các tài liệu này được thu thập về từ internet, Google
Khóa luận tốt nghiệp
Th.S Huỳnh Ngọc Tín Trang 51 Trần Hưng Nghiệp
T.S Lương Phúc Hiệp
cũng tuyên bố rằng họ lập chỉ mục các tài liệu sao cho kết quả
có lợi nhất cho đa số người dùng.
Các loại tài liệu bao gồm các bài báo khoa học, báo cáo
nghiên cứu, luận văn, luận án, sách, các bằng sáng chế, các
văn bản công bố của các cơ quan, các văn bản luật, các trang
web học thuật…
Các tài liệu này được thu thập từ mọi nơi trên internet, bao
gồm các nơi lưu trữ chính thức của tài liệu, và cả các hệ thống
thư viện số khác cả miễn phí lẫn tính phí. Tuy nhiên các tài
liệu sau không được lập chỉ mục: các tài liệu quá nhỏ bé, hoặc
không có tựa đề, hoặc không có tác giả, hoặc được lưu trữ ở
các trang web mà sự truy xuất đòi hỏi phải đăng nhập phức
tạp.
Số lượng cụ thể của các tài liệu không được công bố, và phụ
thuộc mật thiết vào số lượng tài liệu có thể thấy được trên
internet. Tuy nhiên có thể nói Google Scholar lập chỉ mục
nhiều tài liệu nhất, mặc dù bị hạn chế ở các tài liệu lâu năm
trước vì chúng ít xuất hiện trên internet.
Sau đây là một số hình ảnh về Google Scholar:
Hình 2.24 – Khung tìm kiếm cơ bản của Google Scholar.
Khóa luận tốt nghiệp
Th.S Huỳnh Ngọc Tín Trang 52 Trần Hưng Nghiệp
T.S Lương Phúc Hiệp
Hình 2.25 – Khung tìm kiếm nâng cao của Google Scholar.
Hình 2.26 – Kết quả tìm kiếm các bài báo và bằng sáng chế với từ khóa “data”.
2.5.7 CiteSeerX
CiteSeerX, được nâng cấp lên từ CiteSeer, là một hệ thống thư viện điện tử
được cung cấp bởi trường khoa học và công nghệ thuộc đại học bang
Pennsylvania [CS][CSH].
Khóa luận tốt nghiệp
Th.S Huỳnh Ngọc Tín Trang 53 Trần Hưng Nghiệp
T.S Lương Phúc Hiệp
Bảng sau thể hiện thông tin chi tiết của CiteSeerX:
Bảng 2.6 – Thông tin chi tiết về CiteSeerX.
Tên hệ thống CiteSeerX
Địa chỉ
Loại thư
viện
CiteSeerX cung cấp các các tài liệu miễn phí tới người dùng
theo một chứng nhận mở “Creative Commons Attribution-
NonCommercial-ShareAlike 3.0 Unported License”, cho phép
người dùng được tìm kiếm, xem thông tin chỉ mục, xem và tải
các văn bản tài liệu được cung cấp trên CiteSeerX. Ngoài ra,
dự án CiteSeerX còn cung cấp cho người dùng những công cụ
hỗ trợ việc nghiên cứu và xây dựng các thư viện số, ví dụ các
thuật toán, dữ liệu, các công nghệ…
Cho phép người dùng tìm kiếm tài liệu, xem và tải tài liệu nếu
có sẵn, đi đến nguồn của tài liệu, ngoài ra còn thể thể tìm hiểu
về các thuộc tính khác như số trích dẫn của tài liệu, các mối
quan hệ ngữ nghĩa như quan hệ tác giả, quan hệ trích dẫn…
Các chức
năng
Tìm kiếm: Hỗ trợ tìm kiếm nhiều loại tài liệu từ nguồn trên
internet, người dùng có thể chọn loại tài liệu cần tìm: bài báo
khoa học, bằng sáng chế, tạp chí, văn bản luật …
CiteSeerX hiển thị phần nội dung tìm kiếm được dùng trong
tài liệu, do đó nâng cao hiệu quả tìm kiếm. CiteSeerX cho
phép xem các ngữ cảnh trích dẫn trong các tài liệu.
Người dùng có thể tìm kiếm cơ bản hoặc tìm kiếm nâng cao
với nhiều tiêu chí tìm kiếm hơn.
Chức năng tìm kiếm nâng cao: CiteSeerX hỗ trợ các tiêu chí
tìm kiếm tài liệu theo nội dung tài liệu, tựa đề, nội dung phần
tổng quan, tác giả, hội nghị, tạp chí, tổ chức, năm xuất bản, từ
khóa.
Chức năng tìm kiếm bài báo liên quan: CiteSeerX có hỗ trợ
chức năng liệt kê những bài báo có liên quan hay tương tự với
bài báo đang duyệt về mặt nội dung và mặt trích dẫn. Chức
năng này hoạt động dựa trên thuật toán CCIDF để tìm các bài
báo tương đồng về mặt trích dẫn.
Autonomous Citation Indexing (ACI): tự động tạo chỉ mục
trích dẫn.
Thống kê trích dẫn: CiteSeerX thống kê trích dẫn cho tất cả
các tài liệu được tham khảo, không chỉ các tài liệu được lập
chỉ mục.
Liên kết tham khảo: CiteSeerX cho phép duyệt cơ sở dữ liệu
theo các đường liên kết tham khảo.
Khóa luận tốt nghiệp
Th.S Huỳnh Ngọc Tín Trang 54 Trần Hưng Nghiệp
T.S Lương Phúc Hiệp
CiteSeerX có chức năng thông báo cho người dùng nêu có các
trích dẫn mới đến một tài liệu nào đó, hoặc có tài liệu mới
thuộc loại người dùng mong muốn.
CiteSeerX có thể được duyệt theo các tài liệu liên quan, dựa
trên nội dung của tài liệu và các trích dẫn.
Cách xếp
hạng kết quả
tìm kiếm
Máy tìm kiếm CiteSeerX dựa trên lõi là máy tìm kiếm Solr, là
một dự án con của Lucene. Kết quả tìm kiếm cũng được sắp
xếp dựa trên việc tổng hợp hai tiêu chí: độ tương quan của nội
dung mỗi đối tượng với câu truy vấn và độ quan trọng toàn
cục của đối tượng đó.
Nội dung Nội dung dữ liệu và siêu dữ liệu của CiteSeerX được thu thập
tự động bằng cách sử dụng web crawler với cơ chế crawl chọn
lọc từ một số nguồn nhất định, dữ liệu trên CiteSeerX vẫn
đang được cập nhật liên tục, tập trung vào lĩnh vực khoa học
thông tin và máy tính.
Sau chi crawl về, CiteSeerX tiến hành phân tích các tài liệu
crawl được để lấy thông tin metadata cần thiết.
Số lượng cụ thể của các tài liệu không được công bố, và phụ
thuộc mật thiết vào số lượng tài liệu mà crawler của
CiteSeerX tiếp cận được.
Sau đây là các hình ảnh minh họa cho CiteSeerX:
Hình 2.27 – Khung tìm kiếm cơ bản của CiteSeerX.
Khóa luận tốt nghiệp
Th.S Huỳnh Ngọc Tín Trang 55 Trần Hưng Nghiệp
T.S Lương Phúc Hiệp
Hình 2.28 – Khung tìm kiếm nâng cao của CiteSeerX.
Hình 2.29 – Kết quả tìm kiếm CiteSeerX với từ khóa “data”.
Khóa luận tốt nghiệp
Th.S Huỳnh Ngọc Tín Trang 56 Trần Hưng Nghiệp
T.S Lương Phúc Hiệp
CHƯƠNG 3: CÁCH TIẾP CẬN CỦA ĐỀ TÀI
3.1 Mở đầu
Đề tài này có mục tiêu là nghiên cứu thử nghiệm và ứng dụng một hệ thống
thư viện điện tử tốt, đáp ứng nhu cầu của người dùng, đặc biệt là người dùng
trong nước. Để làm được điều này, trước tiên cần khảo sát, đánh giá các cơ sở
lý thuyết hiện có của hệ thống thư viện điện tử cũng như các hệ thống thư viện
điện tử hiện có.Những phương pháp và cách đánh giá được khảo sát ở trên có
một số ưu điểm và nhược điểm nhất định. Các hệ thống hiện có cũng có một số
điểm mạnh và hạn chế riêng. Có một số hạn chế có tính đặc thù đối với người
dùng Việt Nam. Chương này sẽ trình bày một số hướng cải tiến, chỉnh sửa để
xây dựng được một hệ thống thư viện điện tử có thể đáp ứng tốt hơn nhu cầu
của người dùng.
3.2 Thảo luận về các chỉ số xếp hạng
Các chỉ số ở trên đều dựa trên phân tích trích dẫn, điều đấy có nghĩa là số
lượng các trích dẫn trong các chỉ số này rất quan trọng. Trích dẫn thường được
xem như một sự bỏ phiếu
Các file đính kèm theo tài liệu này:
- Đề tài- ĐÁNH GIÁ NĂNG LỰC NGHIÊN CỨU CỦA CÁ NHÂN, TỔ CHỨC DỰA TRÊN PHÂN TÍCH, TÍNH TOÁN CÁC CHỈ SỐ KHOA HỌC.pdf