Tài liệu Luận văn Đánh giá các yếu tố ảnh hưởng đến chất lượng các bộ đề thi trắc nghiệm khách quan tại Khoa Công nghệ thông tin - Đại học Thái Nguyên: LỜI CAM ĐOAN
Tôi xin cam đoan đây là phần nghiên cứu do tôi thực hiện.
Các số liệu, kết luận nghiên cứu trình bày trong luận văn này chưa hề được
công bố ở các nghiên cứu khác.
Tôi xin chịu trách nhiệm về nghiên cứu của mình!
Thái Nguyên, ngày 20 tháng 9 năm 2009.
Tác giả
Nguyễn Anh Tuấn
1
LỜI CẢM ƠN
Tác giả xin bày tỏ lòng biết ơn sâu sắc đến PGS.TS. Nguyễn Công
Khanh đã hướng dẫn hết sức chu đáo, nhiệt tình trong suốt quá trình thực
hiện luận văn.
Xin chân thành cảm ơn các thầy, cô giáo của Trung tâm Đảm bảo chất
lượng đào tạo & Nghiên cứu phát triển giáo dục - Đại học Quốc gia Hà Nội.
đã tạo điều kiện thuận lợi cho tác giả trong thời gian học tập và nghiên cứu
tại trường.
Xin chân thành cảm ơn Lãnh đạo Khoa Công nghệ thông tin - Đại học
Thái Nguyên, các đồng nghiệp đã tạo điều kiện thuận lợi cho tác giả trong
quá trình tiến hành thực nghiệm đề tài.
Xin chân thành cảm ơn những người thân trong gia đình, bạn bè, đồng
nghiệp đã giúp đỡ, động...
81 trang |
Chia sẻ: hunglv | Lượt xem: 1064 | Lượt tải: 0
Bạn đang xem trước 20 trang mẫu tài liệu Luận văn Đánh giá các yếu tố ảnh hưởng đến chất lượng các bộ đề thi trắc nghiệm khách quan tại Khoa Công nghệ thông tin - Đại học Thái Nguyên, để tải tài liệu gốc về máy bạn click vào nút DOWNLOAD ở trên
LỜI CAM ĐOAN
Tôi xin cam đoan đây là phần nghiên cứu do tôi thực hiện.
Các số liệu, kết luận nghiên cứu trình bày trong luận văn này chưa hề được
công bố ở các nghiên cứu khác.
Tôi xin chịu trách nhiệm về nghiên cứu của mình!
Thái Nguyên, ngày 20 tháng 9 năm 2009.
Tác giả
Nguyễn Anh Tuấn
1
LỜI CẢM ƠN
Tác giả xin bày tỏ lòng biết ơn sâu sắc đến PGS.TS. Nguyễn Công
Khanh đã hướng dẫn hết sức chu đáo, nhiệt tình trong suốt quá trình thực
hiện luận văn.
Xin chân thành cảm ơn các thầy, cô giáo của Trung tâm Đảm bảo chất
lượng đào tạo & Nghiên cứu phát triển giáo dục - Đại học Quốc gia Hà Nội.
đã tạo điều kiện thuận lợi cho tác giả trong thời gian học tập và nghiên cứu
tại trường.
Xin chân thành cảm ơn Lãnh đạo Khoa Công nghệ thông tin - Đại học
Thái Nguyên, các đồng nghiệp đã tạo điều kiện thuận lợi cho tác giả trong
quá trình tiến hành thực nghiệm đề tài.
Xin chân thành cảm ơn những người thân trong gia đình, bạn bè, đồng
nghiệp đã giúp đỡ, động viên tác giả trong quá trình thực hiện và hoàn thành
luận văn!
2
MỤC LỤC
Trang
Trang phụ bìa
Lời cam đoan................................................................................................. 1
Lời cảm ơn .................................................................................................... 2
Mục lục.......................................................................................................... 3
Danh mục các chữ viết tắt ............................................................................. 5
Danh mục bảng ............................................................................................. 6
Danh mục hình .............................................................................................. 7
MỞ ĐẦU
1. Lý do chọn đề tài ............................................................................... 8
2. Mục đích nghiên cứu ......................................................................... 9
3. Giới hạn nghiên cứu .......................................................................... 9
4. Phương pháp nghiên cứu ................................................................... 9
Chương 1. CƠ SỞ LÝ LUẬN VÀ TỔNG QUAN
1.1. Các khái niệm về chất lượng bộ đề thi trắc nghiệm ..................... 11
1.1.1. Các công cụ đo lường đánh giá kết quả học tập................. 11
1.1.2. Trắc nghiệm và những vấn đề liên quan ............................ 13
1.1.3. Độ tin cậy của bộ câu hỏi trắc nghiệm ............................... 19
1.1.4. Độ giá trị (hiệu lực) của bộ câu hỏi trắc nghiệm................ 24
1.2. Quy trình xây dựng bộ đề thi trắc nghiệm khách quan ................ 26
1.2.1. Các quy tắc viết câu hỏi trắc nghiệm nhiều lựa chọn ........ 26
1.2.2. Xây dựng bảng trọng số của môn học ............................... 31
1.2.3. Xây dựng ngân hàng đề thi trắc nghiệm môn học ............. 32
Chương 2. PHƯƠNG PHÁP NGHIÊN CỨU
2.1. Những định hướng, trọng tâm nghiên cứu.................................... 34
2.1.1. Chuyên đề nghiên cứu thứ nhất.......................................... 34
3
2.1.2. Chuyên đề nghiên cứu thứ hai............................................ 34
2.1.3. Chuyên đề nghiên cứu thứ ba............................................. 35
2.2. Thiết kế mẫu phiếu điều tra đối với giáo viên.............................. 35
Chương 3. XỬ LÝ SỐ LIỆU KẾT QUẢ THI TRẮC NGHIỆM
3.1. Xử lý số liệu kết quả thi TNKQ ................................................... 39
3.1.1. Phân tích độ khó của item.................................................. 39
3.1.2. Phân tích độ phân biệt của item ......................................... 40
3.1.3. Đánh giá độ tin cậy của bài trắc nghiệm............................ 42
3.1.4. Xử lý số liệu đề thi trên mô hình QUEST ......................... 48
3.1.5. Kết luận về độ giá trị của các bộ đề ................................... 52
3.2. Xử lý số liệu mẫu phiếu hỏi trong giảng viên .............................. 52
3.2.1. Đánh giá độ tin cậy của công cụ đo (mẫu phiếu hỏi)......... 52
3.2.2. Đánh giá về độ giá trị của công cụ đo và sự phù hợp
của mô hình các yếu tố ảnh hưởng đến chất lượng
bộ đề thi TNKQ qua xử lý phiếu hỏi................................. 62
3.3. Kết luận về các yếu tố ảnh hưởng đến việc xây dựng
bộ đề TNKQ ................................................................................. 62
KẾT LUẬN, ĐỀ XUẤT GIẢI PHÁP, KIẾN NGHỊ
4.1. Kết luận ......................................................................................... 71
4.2. Đề xuất giải pháp .......................................................................... 73
TÀI LIỆU THAM KHẢO ........................................................................ 74
PHỤ LUC
Phụ lục 1. File dữ liệu mon01.Itn ........................................................ 75
Phụ lục 2. File dữ liệu mon01.map...................................................... 77
Phụ lục 3. Mẫu phiếu hỏi khảo sát giảng viên..................................... 81
4
DANH MỤC CÁC CHỮ VIẾT TẮT
TT VIẾT TẮT ĐỌC LÀ
1 ĐHTN Đại học Thái Nguyên
2 GD Giáo dục
3 GD – ĐT Giáo dục - đào tạo
4 GV Giảng viên
5 HS Học sinh
6 KT – ĐG Kiểm tra đánh giá
7 MCQ Câu hỏi nhiều lựa chọn
8 NXB Nhà xuất bản
9 SV Sinh viên
10 TNKQ Trắc nghiệm khách quan
5
DANH MỤC BẢNG
Trang
Bảng 1.1: Ví dụ về bảng trọng số của 1 đề thi
hết học phần gồm 60 câu trắc nghiệm.....................................................32
Bảng 3.1: Kết quả phân tích độ tin cậy (Reliability Analysis Alpha)
của toàn bài trắc nghiệm trong đề số 1....................................... 44
Bảng 3.2: Các thông số về độ tin cậy (Reliability Statistics) ..................... 46
Bảng 3.3: Hệ số tin cậy Alpha Cronbach’s của 50 đề trắc nghiệm ............ 46
Bảng 3.4: Phân bố tương quan giữa độ khó của đề và năng lực học sinh .. 49
Bảng 3.5: Phân bố các item trong khoảng cho phép (infit mean square) ... 50
Bảng 3.6: Các thông số đo lường của từng item trong file mon1.itn ......... 51
Bảng 3.7: Hệ số tin cậy của từng item trên mẫu 50 giáo viên (N = 50) ..... 55
Bảng 3.8: Ma trận tương quan của các item qua xử lý phiếu hỏi ............... 57
Bảng 3.9: Ma trận phân bố của các item phiếu hỏi trong file Phieu.map... 60
Bảng 3.10: Phân bố của các item trong phiếu hỏi
trong khoảng cho phép (infit mean square).............................. 61
6
DANH MỤC HÌNH
Trang
Hình 1.1: Sơ đồ các phương pháp kiểm tra - đánh giá .............................. 12
Hình 3.1: Thủ tục Analyze \ Scale \ Reliability trong file SPSS.sav.......... 54
Hình 3.2: Phân bố thống kê của biến “diem.ptn” ....................................... 64
Hình 3.3: Biểu đồ phân chia mức khi Recode biến “diem.ptn”................. 65
Hình 3.4: Thủ tục Transform \ Recode \ Into Same Variables ................... 66
Hình 3.5: Thủ tục Transform \ Recode \ Into
Same Variables khi nhóm biến................................................... 65
Hình 3.6: Biểu đồ phân bố biến “chl.de” trên mẫu
kết quả thi của 50 bộ đề TNKQ...................................................................66
Hình 3.7: Phân bố mức của biến “chl.de” sau khi Recode ........................ 67
Hình 3.8: Thủ tục Bảng chéo (Statistics \ Summaries \ Crosstabs) ............ 68
Hình 3.9: Kết quả bảng chéo Crosstabs
giữa hai biến“diem.ptn.nhom” và “chl.de.nhom” ...................... 70
7
MỞ ĐẦU
1. Lý do chọn đề tài
Để nâng cao chất lượng giảng dạy đại học, việc đánh giá chính xác kết
quả học tập của sinh viên là một vấn đề rất quan trọng. Trong thực trạng giáo
dục đại học còn nhiều tiêu cực và bất cập như hiện nay, việc áp dụng hình
thức thi, kiểm tra trắc nghiệm khách quan là một trong những biện pháp có
hiệu quả cho phép đánh giá tương đối chính xác kết quả học tập của sinh viên.
Khoa Công nghệ thông tin - Đại học Thái Nguyên cũng như các trường đại
học khác hiện đang tích cực áp dụng hình thức thi trắc nghiệm khách quan
cho khoảng 40% tổng số các môn học, coi đây là một trong những biện pháp
nhằm đổi mới phương pháp kiểm tra đánh giá, nâng cao chất lượng giáo dục.
Tuy nhiên một thực tế xảy ra là chất lượng các bộ đề thi trắc nghiệm khách
quan chưa được bảo đảm cả về độ giá trị cũng như độ tin cậy. Do đó tôi đã lựa
chọn đề tài “Đánh giá các yếu tố ảnh hưởng đến chất lượng các bộ đề thi trắc
nghiệm khách quan tại Khoa Công nghệ thông tin - Đại học Thái Nguyên”
Thực tế hiện nay việc xây dựng các bộ đề thi trắc nghiệm khách quan
được giao cho các nhóm giáo viên phụ trách môn học thực hiện. Các giáo
viên xây dựng bộ đề hầu hết đều theo kinh nghiệm chủ quan của mình, chưa
được trang bị đầy đủ về kiến thức và kỹ năng thiết kế đề thi trắc nghiệm. Các
đề thi do giáo viên soạn thảo được đưa vào ứng dụng trực tiếp, không qua quá
trình thử nghiệm và đánh giá. Chính vì vậy phân bố điểm thi không thể hiện
tính chuẩn, do còn có nhiều câu hỏi kém chất lượng. Như chúng ta biết, hiện
nay chưa có công trình nào nghiên cứu cụ thể về vấn đề này. Vì vậy chưa có
một kết luận chính xác về độ tin cậy, độ giá trị của các bộ đề thi trắc nghiệm
khách quan cũng như các yếu tố ảnh hưởng đến chất lượng bộ đề trắc nghiệm.
Thực hiện đề tài này, chúng tôi mong muốn sẽ đánh giá được thực chất
về độ giá trị, độ tin cậy của các bộ đề thi trắc nghiệm khách quan của Nhà
8
trường cũng như các yếu tố ảnh hưởng đến chất lượng các bộ đề thi trắc
nghiệm, từ đó chỉ ra được các giải pháp khắc phục.
2. Mục đích nghiên cứu của đề tài
Nghiên cứu này hướng đến những mục tiêu như sau:
- Đánh giá độ tin cậy của bộ đề thi trắc nghiệm khách quan.
- Đánh giá độ giá trị của bộ đề thi trắc nghiệm khách quan.
- Nghiên cứu các yếu tố ảnh hưởng đến chất lượng bộ đề trắc nghiệm.
3. Giới hạn nghiên cứu của đề tài
Đề tài giới hạn trong việc nghiên cứu, đánh giá độ tin cậy, độ giá trị của
50 bộ đề thi trắc nghiệm khách quan đã được sử dụng tại Khoa CNTT -
ĐHTN. Nghiên cứu các yếu tố ảnh hưởng đến việc xây dựng đề thi trắc
nghiệm của 50 giáo viên thông qua xử lý phiếu điều tra ý kiến kết hợp xử lý
số liệu kết quả thi của các môn học tương ứng.
4 . Phương pháp nghiên cứu
Câu hỏi nghiên cứu / giả thiết nghiên cứu
Câu hỏi nghiên cứu được đặt ra là:
“Những yếu tố nào ảnh hưởng đến quá trình xây dựng các bộ đề trắc nghiệm”.
Các giả thiết nghiên cứu được đặt ra là các yếu tố ảnh hưởng trực tiếp
đến chất lượng các bộ đề:
1- Yếu tố thời gian đầu tư cho công việc: Là thời gian thực tế giáo viên
dùng để nghiên cứu tài liệu và biên soạn đề thi, quỹ thời gian của nhà trường
dành cho việc này.
2- Động cơ của người thực hiện: Là các yếu tố như sự say mê, hứng thú
của cá nhân các giáo viên hay đơn giản là phải hoàn thành nhiệm vụ.
3- Mức độ người ra đề được trang bị kỹ thuật thiết kế đề trắc nghiệm:
Thể hiện ở mức độ được tập huấn, tự nghiên cứu về kỹ thuật xây dựng đề thi
trắc nghiệm.
9
4- Sự quan tâm của nhà trường: Thể hiện ở sự khuyến khích, động viên
bằng tinh thần hay vật chất cụ thể.
5- Tính chất các nhóm môn học: Là đặc thù của nhóm môn học đến việc
ra đề trắc nghiệm (phù hợp hay khó thực hiện).
Khách thể và đối tượng nghiên cứu
Khách thể nghiên cứu là số liệu kết quả thi của 50 bộ đề trắc nghiệm
khách quan tại Khoa CNTT và các giáo viên trực tiếp xây dựng các bộ đề đó.
Đối tượng nghiên cứu là các yếu tố ảnh hưởng đến chất lượng các bộ đề
thi trắc nghiệm.
Phương pháp tiếp cận nghiên cứu
1. Phương pháp khảo cứu lý thuyết: Nghiên cứu các quy định về triển
khai thực hiện việc thi trắc nghiệm và xây dựng ngân hàng thi trắc nghiệm
của Bộ GD&ĐT; Các lý thuyết về đo lường đánh giá trong giáo dục.
2. Phương pháp điều tra khảo sát: Thực hiện qua hai bước chính là
nghiên cứu sơ bộ và nghiên cứu chính thức.
- Nghiên cứu sơ bộ: Thực hiện thông qua phương pháp định tính, sử dụng
kỹ thuật thảo luận nhóm để bổ sung mô hình.
- Nghiên cứu chính thức: Thực hiện thông qua phương pháp nghiên cứu
định lượng, sử dụng kỹ thuật thu thập thông tin qua việc phỏng vấn, lấy phiếu
điều tra trên các đối tượng giáo viên. Mục đích nghiên cứu này là để sàng lọc
các biến quan sát, xác định thành phần cũng như giá trị độ tin cậy của thang
đo và kiểm định mô hình lý thuyết.
3. Phương pháp lấy ý kiến chuyên gia: Tham khảo ý kiến của các chuyên
gia có kinh nghiệm trong giáo dục đại học và đo lường đánh giá trong giáo dục.
4. Phương pháp thống kê toán học: Thu thập và xử lý số liệu (gồm kết
quả các môn thi trắc nghiệm và phiếu điều tra đối với giáo viên ra đề thi trắc
nghiệm) trong quá trình nghiên cứu bằng các phần mềm SPSS và QUEST.
10
Chương 1
CƠ SỞ LÝ LUẬN VÀ TỔNG QUAN
Để đổi mới phương pháp dạy học theo phương châm “Lấy người học
làm trung tâm” đã có rất nhiều biện pháp, trong đó việc sử dụng các bộ đề thi
trắc nghiệm khách quan (TNKQ) như là một công cụ để đánh giá chính xác
kết quả học tập của sinh viên cũng như nâng cao hiệu quả của việc dạy học
tích cực, đang được áp dụng một cách có hiệu quả. Tuy nhiên chất lượng của
các bộ đề thi TNKQ lại là một vấn đề chưa được xem xét một cách hệ thống
và đầy đủ. Trên thế giới, các quy trình biên soạn đề thi TNKQ được thực hiện
một cách chặt chẽ và các bộ đề được đánh giá một cách khoa học trước khi
đem sử dụng. Đối với giáo dục đại học ở Việt Nam, việc áp dụng hình thức
thi TNKQ vẫn còn là mới mẻ, mặc dù đã có quy định về quy trình biên soạn
các câu hỏi thi TNKQ nhưng việc biên soạn cụ thể tại các nhà trường vẫn
nặng về tính chủ quan và cũng chưa có các công trình nghiên cứu đánh giá
một cách cụ thể về chất lượng của các bộ đề thi TNKQ. Việc các nhà trường
tự đánh giá chất lượng các bộ đề thi TNKQ cũng như tìm các biện pháp nâng
cao chất lượng các bộ đề TNKQ là rất cần thiết trong việc nâng cao chất
lượng dạy và học của nhà trường.
Chất lượng một bộ đề thi nói chung phụ thuộc nhiều yếu tố nhưng chủ
yếu và trực tiếp là các yếu tố tác động đến chính bản thân người ra đề. Trong
điều kiện giảng dạy hiện nay, có thể khái quát thành 5 nhóm yếu tố giả thuyết
có ảnh hưởng đến người ra đề, đó là:
- Thời gian đầu tư cho công việc.
- Động cơ của người thực hiện.
- Mức độ được trang bị kỹ thuật.
- Sự quan tâm của nhà trường.
- Tính chất các nhóm môn học.
11
Các nghiên cứu của đề tài sẽ thực hiện phỏng vấn trên phiếu điều tra đối
với các đối tượng là giáo viên trực tiếp ra đề thi trắc nghiệm. Kết hợp xử lý số
liệu về độ giá trị, độ tin cậy của các bộ đề thi để tìm ra tương quan thực tế
giữa các yếu tố giả thuyết và chất lượng bộ đề. Trên cơ sở đó kiểm nghiệm lại
độ tin cậy của thang đo được thiết kế trên phiếu điều tra.
1.1. Các khái niệm về chất lượng bộ đề thi trắc nghiệm
1.1.1. Các công cụ đo lường kết quả học tập
Dựa vào hình thức diễn đạt, có thể hình dung hệ thống các phương pháp
kiểm tra - đánh giá trong dạy học qua sơ đồ sau đây:
QUAN SÁT
CÁC PHƯƠNG PHÁP KIỂM TRA
VIẾT VẤN ĐÁP
TỰ LUẬN TRẮC NGHIỆM
KHÁCH QUAN
Cung cấp thông tinTiểu luận
Nhiều lựa chọnĐúng saiDiễn giải Điền khuyếtGhép đôi
Hình 1.1: Sơ đồ các phương pháp kiểm tra - đánh giá.
1.1.1.1. Phương pháp quan sát
Quan sát giúp xác định cử chỉ, thái độ, hành vi, sự phản ứng, thao tác
thực hành, kĩ năng thực hành và một số kĩ năng về nhận thức khác của người
được kiểm tra. Phương pháp này chủ yếu mang tính chất định tính nên thường
dùng trong đánh giá kết quả thực hành.
12
1.1.1.2. Phương pháp vấn đáp
Vấn đáp (hỏi và trả lời) có thể dùng lời hoặc không dùng lời. Đối với
trắc nghiệm không dùng lời thì người hỏi dùng điệu bộ, phim, tranh ảnh..,
người trả lời có thể dùng lời hoặc không. Phương pháp dùng lời được phổ
biến hơn mà chúng ta hay gọi là kiểm tra vấn đáp. Phương pháp này vừa định
tính vừa định lượng, độ chính xác tương đối cao, có giá trị nhiều mặt. Nó
thích hợp với cả người dạy và người học, đặc biệt có lợi trong kiểm tra xử lí
tình huống, rèn phản ứng nhanh nhạy cho HS. Tuy nhiên phương pháp này
không thích hợp cho việc đánh giá một phổ rộng với khối lượng lớn kiến
thức, trên nhiều HS trong một thời gian ngắn. Câu hỏi để HS trả lời đa số chỉ
nằm trong một nội dung hẹp nào đó.
1.1.1.3. Phương pháp kiểm tra viết
Đây là hình thức được dùng phổ biến trong dạy học. Kiểm tra theo kiểu
này có những ưu điểm sau:
- Cho phép kiểm tra nhiều HS một lần.
- Cung cấp một bản ghi rõ ràng các câu trả lời của thí sinh dùng cho việc
chấm điểm.
- Cho phép thí sinh cân nhắc trước khi trả lời các câu hỏi, do đó kiểm tra
được sự phát triển trí tuệ ở mức cao hơn.
- Dễ quản lí vì bản thân người chấm không tham gia trực tiếp trong thời
gian kiểm tra.
1.1.2. Trắc nghiệm và những vấn đề liên quan
1.1.2.1. Khái niệm về trắc nghiệm
Trắc nghiệm “test” trong tiếng Anh có nghĩa là “sự khảo sát hoặc thử các
phẩm chất của một người hoặc vật”; còn trong tiếng Hán thì “trắc” có nghĩa là
“đo lường”, “nghiệm” có nghĩa là “suy xét, chứng thực”.
13
Theo Trần Bá Hoành: “Trắc nghiệm trong giáo dục là một phương pháp
đo để thăm dò một số đặc điểm năng lực trí tuệ của HS như chú ý, ghi nhớ,
tưởng tượng… hoặc để kiểm tra đánh giá một số kiến thức, kĩ năng, kĩ xảo,
thái độ của HS”.
Theo Dương Thiệu Tống: “Trắc nghiệm là công cụ hoặc quy trình có
tính hệ thống nhằm đo lường một mẫu các hành vi. Trắc nghiệm giúp ta trả
lời câu hỏi: thành tích của các cá nhân như thế nào khi so sánh với những
người khác hay so sánh với một lĩnh vực các nhiệm vụ dự kiến?”.
1.1.2.2. Trắc nghiệm tự luận và trắc nghiệm khách quan
Trắc nghiệm viết bao gồm hai loại: trắc nghiệm tự luận và trắc nghiệm
khách quan
- Trắc nghiệm tự luận (Essay test).
Trắc nghiệm tự luận bao gồm nhiều dạng khác nhau nhưng nhìn chung
HS có thể diễn đạt tư tưởng, câu văn nhờ kiến thức và kinh nghiệm học tập đã
có. Phương pháp này có thể đo được khả năng suy luận cũng như phát huy
được óc sáng tạo, khéo léo khi giải quyết vấn đề của HS, khuyến khích HS
thói quen suy diễn, phân tích, tổng hợp, khái quát hoá, tạo điều kiện cho HS
luyện cách diễn đạt, sử dụng từ ngữ. Việc soạn các câu hỏi dạng này không
mấy khó khăn. Tuy nhiên, nhược điểm của phương pháp này là khó chấm
điểm, tính khách quan không cao nên độ tin cậy thấp. Mặt khác, trong một đề
thi chỉ kiểm tra được ít nội dung kiến thức.
- Trắc nghiệm khách quan (Objective test).
Trắc nghiệm khách quan là dạng trắc nghiệm trong đó mỗi câu hỏi có
kèm theo những câu trả lời sẵn. Loại câu hỏi này cung cấp cho HS một phần
hay tất cả thông tin cần thiết và đòi hỏi HS phải chọn một câu để trả lời hoặc
chỉ cần thêm một vài từ. Đây là một phương pháp có khả năng đánh giá được
các mức độ nhận thức. Gọi là khách quan vì hệ thống cho điểm là khách quan.
14
Kết qủa của bài trắc nghiệm không phụ thuộc vào việc ai chấm bài trắc
nghiệm đó.
Thông thường, một bài TNKQ gồm nhiều câu hỏi hơn một bài trắc nghiệm
tự luận; mỗi câu hỏi có một phương án trả lời đúng, các phương án còn lại là
phương án nhiễu. Tuy nhiên, TNKQ chỉ có việc chấm điểm là khách quan, tính
chủ quan có thể nằm ở việc lựa chọn nội dung đề kiểm tra và việc định ra câu
trả lời. Nhiều người thường gọi tắt TNKQ là “trắc nghiệm”, do vậy khi dùng từ
“trắc nghiệm” mà không nói gì thêm thì chúng ta ngầm hiểu đây là TNKQ.
Trong quá trình nghiên cứu, tìm hiểu, đến nay các chuyên gia về phương pháp
dạy học của nhiều nước trên thế giới đã thừa nhận việc KT - ĐG bằng trắc
nghiệm có khả năng đảm bảo tính khách quan cao.
Bên cạnh đó, thực tế việc sử dụng hình thức KT - ĐG bằng trắc nghiệm
trong dạy học cũng thu được những hiệu quả rõ rệt, đó là:
- Đối với nhà trường: Tăng uy tín của nhà trường thông qua việc nâng
cao năng lực của đội ngũ GV về các phương pháp dạy - học - đánh giá; có các
công cụ để kiểm tra nhanh chóng và chính xác thành quả học tập; nâng cao
hiệu quả và tiết kiệm thời gian trong việc đánh giá.
- Đối với HS: Tăng thêm lòng tin về tính khách quan của việc đánh giá
thành quả học tập; thúc đẩy tính tích cực chủ động và động cơ học tập.
- Đối với GV: Nâng cao năng lực dạy học, đánh giá, tăng hiệu quả dạy
học; có phương hướng điều chỉnh và cải tiến phương pháp dạy học.
1.1.2.3. Những nguyên tắc chung của trắc nghiệm
Với những chức năng của mình, trắc nghiệm được xem là công cụ KT -
ĐG kết qủa học tập trong dạy học. Đối với người dạy, sử dụng trắc nghiệm
nhằm cung cấp thông tin ngược để điều chỉnh phương pháp, nội dung cho phù
hợp, từ đó nâng cao hiệu quả giảng dạy. Đối với người học, sử dụng trắc
nghiệm có thể tăng cường tinh thần trách nhiệm trong học tập, việc học tập
15
trở nên nghiêm túc. Sử dụng trắc nghiệm giúp người học tự KT - ĐG kiến
thức, kĩ năng, phát hiện năng lực tiềm ẩn của mình, vì vậy quá trình tự học có
hiệu quả hơn. Mặt khác, sử dụng trắc nghiệm giúp người học phát triển năng
lực tư duy sáng tạo, linh hoạt vận dụng kiến thức đã học để giải quyết các tình
huống nảy sinh trong thực tế.
Song trắc nghiệm chỉ thực hiện một cách có hiệu quả khi dựa trên một số
nguyên tắc sau:
- Xác định rõ mục tiêu đo lường.
- Làm rõ nội dung cần phải đo lường.
- Lựa chọn kĩ thuật trắc nghiệm phải dựa trên mục đích đánh giá. Không
nên lựa chọn trắc nghiệm chỉ vì nó thuận tiện, dễ sử dụng, quen thuộc với
nhiều người. Điều quan trọng nhất trong việc lựa chọn một kĩ thuật trắc
nghiệm giáo dục là liệu nó có đo được một cách hiệu quả nhất những gì cần
đo hay không.
- Việc đánh giá tổng quát đòi hỏi phải sử dụng nhiều kĩ thuật và phương
pháp đánh giá khác nhau vì không có một phương pháp đánh giá nào có thể
thực hiện được toàn bộ những yêu cầu đánh giá.
- Muốn sử dụng một cách thích hợp và hiệu quả hình thức trắc nghiệm
thì phải hiểu được những ưu điểm cũng như hạn chế của nó. Trắc nghiệm
cũng như các phương pháp đánh giá khác luôn có những sai số cho nên không
thể gắn cho những kết quả trắc nghiệm giá trị tuyệt đối được.
- Trắc nghiệm chỉ là một phương tiện được sử dụng để thu thập thông tin
trong quá trình dạy học. Không nên quan niệm là chỉ cần thông qua trắc
nghiệm mà chất lượng dạy và học đương nhiên được cải thiện.
1.1.2.4. Các loại câu TNKQ
TNKQ có bốn hình thức chủ yếu, mỗi hình thức đều có những ưu và
nhược điểm riêng.
16
- Câu đúng-sai (True-false items)
Loại này được trình bày dưới dạng một câu phát biểu và HS phải trả lời
bằng cách lựa chọn đúng (Đ) hoặc sai (S). Loại câu hỏi này rất thông dụng vì
nó thích hợp với những kiến thức sự kiện, có thể kiểm tra được nhiều kiến
thức trong một thời gian ngắn. Giáo viên có thể soạn một đề thi trong một
thời gian ngắn. Tuy nhiên loại câu hỏi này khó xác định điểm yếu của HS do
yếu tố đoán mò, xác suất đúng - sai là 50%, có độ tin cậy thấp, đề ra thường
có khuynh hướng trích nguyên văn sách giáo khoa nên khuyến khích thói
quen học thuộc lòng hơn là tìm tòi suy nghĩ.
- Câu ghép đôi (Matching items)
Là những câu hỏi có hai dãy thông tin, một bên là các câu hỏi, bên kia là
câu trả lời. Số câu ghép đôi càng nhiều thì xác suất may rủi càng nhỏ, do đó
càng tăng phần ghép thì độ khó của trắc nghiệm càng được nâng lên. Loại trắc
nghiệm này thích hợp với câu hỏi sự kiện, khả năng nhận biết kiến thức hay
thiết lập những mối tương quan, song không thích hợp cho việc áp dụng các
kiến thức mang tính nguyên lý, quy luật và không thích hợp cho việc đo các
khả năng trí năng ở bậc cao.
- Câu điền khuyết (Completion items).
Loại này có hai dạng. Chúng có thể là những câu hỏi với câu trả lời ngắn
(short answer) hay là những câu phát biểu với một hay nhiều chỗ để trống, HS
phải điền vào chỗ trống bằng một từ hay một nhóm từ cần thiết. Ưu điểm của
nó là làm mất khả năng đoán mò của HS, họ có cơ hội trình bày những câu trả
lời khác, qua đó phát huy óc sáng tạo. Đối với GV, dạng câu hỏi này phù hợp
với việc soạn các câu hỏi cho các môn tự nhiên, đồng thời có thể đánh giá
mức hiểu biết về các nguyên lý, giải thích các sự kiện, khả năng diễn đạt ý
kiến cũng như thái độ của HS đối với vấn đề đặt ra. Tuy nhiên, nhược điểm
17
của loại trắc nghiệm này là việc chấm bài mất nhiều thời gian và GV thường
không đánh giá cao các câu trả lời sáng tạo tuy khác đáp án mà vẫn có lí.
- Câu nhiều lựa chọn (Multiple choice question- MCQ)
Dạng câu hỏi này gồm hai phần: phần dẫn và phần lựa chọn. Phần dẫn là
một câu hỏi hay một câu trả lời chưa hoàn chỉnh; phần lựa chọn gồm một số
phương án (thường là 4 đến 5 phương án) để trả lời cho câu hỏi hay phần bổ
sung cho câu được hoàn chỉnh. Phần lựa chọn chỉ có một phương án đúng,
những phương án còn lại gọi là phương án “nhiễu”. HS phải cân nhắc để chọn
ra phương án trả lời đúng nhất hay hợp lí nhất. Điều quan trọng là phải làm
sao cho những HS chưa nắm rõ vấn đề chọn vào các phương án “nhiễu”.
Hiện nay, loại câu hỏi MCQ được dùng nhiều hơn vì nó có một số ưu
điểm sau:
- Có thể đo được khả năng tư duy khác nhau. Với sự phối hợp của nhiều
phương án trả lời để chọn cho mỗi câu hỏi, GV có thể dùng loại trắc nghiệm
MCQ để KT - ĐG những mục tiêu giảng dạy, học tập khác nhau.
- Độ tin cậy cao hơn. Yếu tố đoán mò may rủi giảm đi so với các loại
TNKQ khác khi số phương án lựa chọn tăng lên. Đó cũng là lý do các nhà
soạn trắc nghiệm chuẩn thích loại câu hỏi MCQ hơn các loại câu hỏi khác.
- HS phải xét đoán và phân biệt rõ ràng khi trả lời câu hỏi. Tính chất
tuyệt đối trong loại “đúng - sai” nhường chỗ cho tính chất tương đối khi HS
phải lựa chọn câu trả lời đúng nhất hay hợp lý nhất trong số các phương án trả
lời đã cho.
- Tính chất giá trị tốt hơn. Loại trắc nghiệm này có độ giá trị cao hơn nhờ
tính chất có thể dùng đo những mức tư duy khác nhau. Với một bài trắc
nghiệm có nhiều câu trả lời cho sẵn để chọn, người ta có thể đo được khả
năng nhớ, áp dụng các nguyên lý, suy diễn, tổng quát hoá… rất hữu hiệu.
18
- Có thể phân tích được tính chất mỗi câu hỏi. Dùng phương pháp phân
tích tính chất câu hỏi (items analysis), chúng ta có thể xác định câu hỏi nào
quá dễ, câu hỏi nào quá khó, câu nào mơ hồ hay không có giá trị đối với các
mục tiêu cần trắc nghiệm. Bên cạnh đó, chúng ta có thể xét xem câu trả lời
cho sẵn nào không ích lợi hoặc làm giảm giá trị câu hỏi. Phương pháp phân
tích này không thực hiện được với loại câu hỏi tự luận hay khó thực hiện đối
với các loại trắc nghiệm khác.
- Tính chất khách quan khi chấm. Cũng như các loại TNKQ khác, trong
loại trắc nghiệm MCQ điểm số không phụ thuộc vào các yếu tố như: phẩm
chất chữ viết, khả năng diễn đạt…
- Có thể ứng dụng công nghệ thông tin trong quá trình thu thập và xử lý
kết quả.
1.1.3. Độ tin cậy của bộ câu hỏi trắc nghiệm
Trong các nghiên cứu khoa học, giá trị khoa học của các số liệu thu được
phụ thuộc chủ yếu vào độ tin cậy và độ giá trị của bộ công cụ đo dùng để đo
lường. Tuy nhiên không phải lúc nào cũng có sẵn những bộ công cụ đã được
chuẩn hoá, đặc biệt là trong những nghiên cứu đòi hỏi phải thiết kế ra các bộ công
cụ đo mới phù hợp với lĩnh vực đang nghiên cứu. Do đó bắt buộc nhà nghiên cứu
phải đánh giá độ tin cậy và độ giá trị của công cụ đo, trước khi sử dụng các số liệu
thu được từ bộ công cụ đó nhằm rút ra các kết luận hoặc suy đoán.
1.1.3.1. Xem xét mô hình lý thuyết về độ tin cậy
Để xác định độ tin cậy của một phép đo, ta phải xuất phát từ một tiền đề
có tính giả thiết rằng phép đo sẽ đo lường một đặc tính tương đối ổn định và
bản thân phép đo phải có tính ổn định tương đối, ít hoặc không thay đổi giữa
các lần đo khác nhau. Bởi vì sẽ không có một phương pháp đo đạc nào có giá
trị nếu không đo một cái gì đó có tính ổn định tương đối và bản thân phép đo
phải có tính ổn định, ít hoặc không thay đổi giữa các lần đo khác nhau. Như
19
vậy, một thang đo có độ tin cậy tốt được xác định như là một phép đo trên đó
mọi người đạt số điểm tương tự ở những lần đo khác nhau.
Các lý thuyết về trắc nghiệm đều cho rằng điểm số của trắc nghiệm đo
lường một đặc tính, phẩm chất hay năng lực nào đó ở một cá nhân bằng điểm
thực của cá nhân đó cộng với điểm sai số của sự đo lường.
X = T + E
X: Điểm trắc nghiệm
T: Điểm thực
E: Điểm sai số của phép đo
Điểm thực được xác định như là điểm trung bình của vô số những lần
đo của trắc nghiệm trên một cá nhân. Còn điểm sai số của phép đo là sự khác
biệt ở mỗi lần đo do các yếu tố cá nhân (động cơ, xúc cảm, tâm lý...) do các
yếu tố tình huống, hoàn cảnh ảnh hưởng (môi trường, tiếng ồn, lời hướng
dẫn...), nhưng chúng ta chưa bao giờ đo được điểm thực ở cá nhân một cách
thực chính xác. Như vậy, để phân tích độ tin cậy của trắc nghiệm người ta
phải dựa vào kết quả làm trắc nghiệm của một nhóm người (điểm trắc nghiệm
của mẫu) nhằm nhận diện tỷ lệ thành phần của điểm thực và điểm sai số trong
kết quả điểm trắc nghiệm của cả nhóm. Nói cách khác, phân tích độ tin cậy là
tìm cách xác định mức độ trên đó sự khác biệt điểm số trắc nghiệm phản ánh
sự khác biệt điểm thực ở nhóm người làm trắc nghiệm. Do vậy để đánh giá độ
tin cậy của trắc nghiệm, người ta phải giả thiết rằng phương sai của những
điểm số đo được bằng trắc nghiệm ở một nhóm đối tượng (mẫu) phải bằng
phương sai của những điểm số thực cộng với phương sai của những điểm sai
số của mỗi lần đo theo công thức
σ2X = σ2T + σ2E
σ2X: Giá trị phương sai của điểm trắc nghiệm
σ2T : Giá trị phương sai của điểm thực
20
σ2E : Giá trị phương sai điểm sai số của phép đo
Khi đó độ tin cậy của trắc nghiệm được xác định như là hệ số tương quan
(RXX) biểu thị tỷ lệ hay phần trăm giữa phương sai của điểm trắc nghiệm theo
công thức
22
2
2
2
ET
T
X
T
XXR σσ
σ
σ
σ
+==
Một trắc nghiệm có độ tin cậy phải có một tỷ lệ lớn hơn của phương sai
điểm trắc nghiệm thuộc về sự khác biệt ở điểm thực (ngược laị, một trắc
nghiệm không có độ tin cậy sẽ có một tỷ lệ lớn hơn của phương sai điểm trắc
nghiệm thuộc về sự khác biệt ở điểm sai số của phép đo) [4].
1.1.3.2. Các phương pháp đánh giá độ tin cậy của phép đo
Theo lý thuyết đánh giá, có bốn phương pháp cơ bản để đánh giá độ tin
cậy của phép đo.
- Nhóm phương pháp đánh giá mức độ kiên định về điểm số giữa hai lần
đo (test-retest methods).
- Nhóm phương pháp sử dụng form thay thế tương đương (alternate form
methods).
- Nhóm phương pháp phân đôi số item của trắc nghiệm (split-half
methods).
- Nhóm phương pháp đánh giá độ phù hợp của từng item (internal
consistency methods).
Đối với nhóm phương pháp thứ nhất: Để đánh giá độ tin cậy của trắc
nghiệm người ta thường so sánh tương quan điểm giữa hai lần đo của cùng
một trắc nghiệm trên cùng một đối tượng (test-retest correlation). Một trắc
nghiệm có độ tin cậy phải có tính ổn định, tức là có sự tương quan chặt giữa
hai lần đo. Nếu trắc nghiệm được thiết kế theo thang định khoảng hay thang
tỷ lệ và mối quan hệ điểm số trắc nghiệm giữa hai lần đo là quan hệ tuyến
21
tính, thì áp dụng tương quan Pearson (Pearson correelation coeficient) để
đánh giá hệ số tin cậy của trắc nghiệm. Nếu trắc nghiệm được thiết kế theo
thang định hạng hoặc mối quan hệ điểm số trắc nghiệm giữa hai lần đo không
tuyến tính thì ta dùng tương quan Spearman (Spearman rank correlation
coefficent) để đánh giá hệ số tin cậy của trắc nghiệm.
Đối với nhóm phương pháp thứ hai: Trong cùng một trắc nghiêm, sử
dụng hai form tương đương có hình thức, câu chữ khác nhau nhưng có nội
dung giống nhau hoặc tương đương và có những đặc tính thống kê như nhau
hoặc tương đương. Tương quan điểm số giữa lần đo thứ nhất (ứng với form
A) và lần đo thứ hai (ứng với form B) được xem là hệ số tin cậy của trắc
nghiệm. Phương pháp này rất tốn kém và khó thiết kế một trắc nghiệm có
nhiều form hoàn toàn tương đương.
Nhóm phương pháp thứ ba: Thường dùng để đánh giá độ tin cậy của một
trắc nghiệm khi ta không có điều kiện đo trắc nghiệm hai lần trên cùng một
đối tượng và cũng không thiết kế được các trắc nghiệm tương đương, là
phương pháp phân đôi số item của trắc nghiệm thành hai phần (thường chia
theo số chẵn và số lẻ) rồi so sánh tương quan điểm giữa hai nửa trắc nhiệm.
Đây gọi là phương pháp tính độ tin cậy phân đôi trắc nghiệm (split-half
reliablity). Về lý thuyết, hai nửa trắc nghiệm có thể được xem là hai form
tương đương của cùng một trắc nghiệm. Do vậy tương quan điểm số của hai
nửa này được xem là hệ số tin cậy của trắc nghiệm. Công thức tính như sau.
( )( )
))((
X-XE)(
XE
XEXO
XO
EXOXOR σσ
Σ=
XO: Các item số lẻ
XE: Các item số chẵn
Tất nhiên khi sử dụng công thức này hệ số tin cậy sẽ giảm đi so với hệ số
tin cậy thật của trắc nghiệm vì trắc nghiệm vốn có số item gấp hai lần (trắc
22
nghiệm càng có nhiều item thì độ tin cậy càng cao). Ta có thể sử dụng công
thức chuyển hệ số độ tin cậy phân đôi thành hệ số độ tin cậy của toàn trắc
nghiệm gọi là công thức Spearman - Brown prophesy.
))(1(1
))((
XX
XX
RN
RNR −+=
N = 2
R: Hệ số tin cậy mới (đã được điều chỉnh)
RXX Hệ số tin cậy hiện tại (hệ số tin cậy phân nửa trắc nghiệm, chưa
điều chỉnh)
Nhóm phương pháp thứ tư: Thường dùng để đánh giá độ tin cậy của
trắc nghiệm là các phương pháp đánh giá độ phù hợp của từng item (internal
consistency methods) sử dụng mô hình hệ số tương quan alpha (Cronbach’s
Coeficient Alpha). Mô hình này đánh giá độ tin cậy của phép đo dựa trên sự
tính toán phương sai của từng item trong toàn phép đo và tính tương quan
điểm của từng item với điểm của tổng các item còn lại của phép đo. Phương
pháp này thích hợp với các loại trắc nghiệm được thiết kế với điểm số theo
thang định khoảng hay thang tỷ lệ. Công thức được tính là
)1(
1 2
2
X
i
XX K
KR σ
σα Σ−−==
RXX Hệ số tương quan α
K - Số các item của trắc nghiệm
σ2i - Giá trị của phương sai của từng item cụ thể của trắc nghiệm
σ2X - Giá trị của phương sai của toàn bộ trắc nghiệm
Σσ2i - Tổng các giá trị phương sai của tất cả các item của trắc nghiệm.
23
1.1.3.3. Những yếu tố ảnh hưởng đến độ tin cậy trắc nghiệm
Có thể phân loại các yếu tố này thành các lĩnh vực sau:
- Các yếu tố gây ra kết quả điểm trắc nghiệm không ổn định qua các lần
đo: Điểm số trắc nghiệm không ổn định có thể là do người làm trắc nghiệm có
sự thay đổi thực lực về kiến thức, hiểu biết, kỹ năng giữa hai lần đo, do đó kết
quả điểm trắc nghiệm giữa hai lần đo khác nhau. Sự không ổn định cũng có
thể là do những thay đổi ở phía người làm trắc nghiệm như mệt mỏi, xúc cảm
không ổn định, thiếu tập trung...hoặc câu hỏi trắc nghiệm quá khó, phải phán
đoán dẫn đến sai lệch điểm giữa các lần đo.
- Các yếu tố liên quan đến item, câu hỏi của trắc nghiệm: Các trắc
nghiệm chỉ là một tập hợp có giới hạn các item nhằm đo một mẫu hành vi đại
diện cho đặc tính được nghiên cứu mà không đo tất cả các biểu hiện của đặc
tính đó. Một trắc nghiệm càng có nhiều item thì độ tin cậy của trắc nghiệm
càng tăng, vì càng nhiều item, trắc nghiệm sẽ có nhiều cơ hội để cung cấp một
mẫu rộng hơn những hiểu biết về đặc tính cần đo. Trắc nghiệm không thể quá
dài gây mệt mỏi, thiếu tập trung cho nghiệm thể nhưng mặt khác các item của
trắc nghiệm lại phải có tính đại diện, đủ bao quát hết miền cần đo.
- Các yếu tố liên quan đến thống kê: Khi phạm vi điểm trắc nghiệm càng
bị thu hẹp thì tương quan càng giảm, vì vậy độ tin cậy của trắc nghiệm sẽ
giảm. Ngược lại phạm vi điểm trắc nghiệm càng được mở rộng thì tương quan
càng tăng, do đó độ tin cậy của trắc nghiệm sẽ tăng.
1.1.4. Độ giá trị (hiệu lực) của bộ câu hỏi trắc nghiệm
Độ giá trị là một trong những đặc trưng quan trọng nhất khi đánh giá
một trắc nghiệm. Mỗi trắc nghiệm không chỉ có một độ giá trị duy nhất mà
có nhiều kiểu giá trị (hiệu lực) khác nhau. vì vậy độ giá trị được hiểu như
là những dữ liệu điều tra một cách khoa học về ý nghĩa của trắc nghiệm khi
đo lường.
24
Độ giá trị của một phép đo thường được đánh giá như là độ giá trị nội
dung (Content validity), độ giá trị cấu trúc ( Structure validity), độ giá trị tiêu
chuẩn (Criterion validity) và độ giá trị dự báo (Predictitive validity). Độ giá
trị nội dung do những chuyên gia về lĩnh vực được trắc nghiệm phản biện và
kết luận. Độ giá trị cấu trúc được quy về các khu vực đo lường, các iterm hội
tụ về một vấn đề, tương quan giữa các item trong nhóm phải tốt hơn tương
quan giữa các item ngoài nhóm. Độ giá trị tiêu chuẩn là những so sánh tương
quan của trắc nghiệm với một trắc nghiệm chuẩn tương đương đã có sẵn trên
một mẫu đông người, độ giá trị tiêu chuẩn rất khó đánh giá và trong thực tế
thường bỏ qua. Độ giá trị dự báo là những kết luận sau khi xử lý, đánh giá số
liệu có so sánh với kết quả thực tế kết hợp phỏng vấn tại chỗ. Có nhiều quan
điểm cho rằng những kiểu giá trị khác nhau được dùng trong trong những
mục đích khác nhau. Đặc biệt đối với các trắc nghiệm nhằm đánh giá chất
lượng giáo dục, người ta tập trung vào độ giá trị nội dung, còn những trắc
nghiệm về nhân cách người ta coi trọng độ giá trị dự báo. Tuy nhiên lý thuyết
đánh giá gần đây đều cho rằng các kiểu giá trị này không phải là những kiểu
giá trị tách biệt theo những mục đích khác nhau, mà chúng chỉ là những cách
tiếp cận đại diện cho những chiến lược khác nhau cùng chung một mục đích
là hiểu ý nghĩa của điểm số trắc nghiệm và đều nhằm hiệu lực hoá những kết
luận, suy đoán được rút ra từ điểm số của trắc nghiệm [4]. Với các trắc
nghiệm thông thường ta quan tâm nhất đến hai kiểu độ giá trị là độ giá trị nội
dung và độ giá trị cấu trúc.
Các phương pháp cơ bản để đánh giá độ giá trị của một trắc nghiệm
Mặc dù độ giá trị nội dung và độ giá trị cấu trúc đều nói lên mức độ hiệu
lực của phép đo lường nhưng việc đánh giá một trắc nghiệm có độ giá trị nội
dung tốt hay không người ta lại xem xét nội dung của trắc nghiệm, phân tích
quá trình thiết kế các item và hiệu lực hoá các item của trắc nghiệm. Trong
25
khi đó, để đánh giá độ giá trị cấu trúc người ta phân tích mối quan hệ giữa
các cấu trúc thành phần của trắc nghiệm với cấu trúc của cái nó được thiết
kế để đo và xem xét mối quan hệ giữa điểm trắc nghiệm với điểm của các
phép đo khác.
- Độ giá trị nội dung của một trắc nghiệm chính là tính hiệu lực và tính
đại diện của các item (các item có nội dung phù hợp với nội dung cụ thể cần
đo của một chỉ số cụ thể, thuộc một miền đo cụ thể).
- Độ giá trị cấu trúc của một trắc nghiệm liên quan tới mức độ qua đó
trắc nghiệm được đánh giá là một phép đo về mặt cấu trúc (phép đo có cấu
trúc trùng với cấu trúc của cái định đo).
Những yếu tố ảnh hưởng đến độ giá trị của trắc nghịêm
Đánh giá độ giá trị của một trắc nghiệm thực chất là trả lời câu hỏi “Liệu
trắc nghiệm có đo được đúng cái cần đo hay không”? Trên cơ sở đó ta thấy độ
giá trị phụ thuộc vào các yếu tố sau:
- Trước hết là độ tin cậy của trắc nghiệm ảnh hưởng đến độ giá trị, độ tin
cậy thấp sẽ hạn chế độ giá trị. Bất cứ yếu tố nào ảnh hưởng đến độ tin cậy đều
ảnh hưởng đến độ giá trị.
- Độ khó của item, độ phân biệt của item gián tiếp ảnh hưởng đến độ giá
trị. Tính đồng nhất của các item ảnh hưởng đến độ giá trị.
- Những đặc tính của mẫu (quy mô mẫu, tính đại diện của mẫu ...) ảnh
hưởng đến độ giá trị của trắc nghiệm.
- Độ tin cậy và độ giá trị của phép đo chuẩn (dùng trong đánh giá độ giá
trị tiêu chuẩn của trắc nghiệm).
1.2. Quy trình xây dựng bộ đề thi trắc nghiệm khách quan
Về mặt nguyên tắc lý thuyết, có thể xây dựng bộ đề thi TNKQ theo rất
nhiều kiểu (ghép đôi, điền khuyết, nhiều lựa chọn…). Tuy nhiên khi đặt vấn
đề xây dựng một ngân hàng các câu hỏi TNKQ thì các chuyên gia trong lĩnh
26
vực này đều cho rằng nên chọn hình thức câu hỏi TNKQ đa lựa chọn (với bốn
hoặc năm lựa chọn). Trong phạm vi nghiên cứu của luận văn, tôi cũng giới
hạn việc nghiên cứu với đối tượng là các ngân hàng câu hỏi TNKQ dạng đa
lựa chọn.
1.2.1. Các quy tắc viết các câu hỏi trắc nghiệm nhiều lựa chọn
Đây là loại câu hỏi TNKQ được ưa chuộng nhất hiện nay. Một câu hỏi
loại này gồm một phần phát biểu chính, thường gọi là phần dẫn, hay câu hỏi
và bốn đến năm phương án trả lời sẵn để thí sinh chọn ra câu trả lời đúng
nhất, hay hợp lý nhất. Ngoài một câu đúng, các câu trả lời khác trong phương
án chọn phải có vẻ hợp lý đối với thí sinh.
Ưu điểm của loại trắc nghiệm có nhiều phương án để chọn lựa.
Các nhà chuyên môn hay giảng viên có kinh nghiệm thường xem loại
trắc nghiệm đa lựa chọn là tiện lợi cho cả người soạn và thí sinh khi trả lời.
Loại câu hỏi này có các ưu điểm sau:
- Có thể đo được khả năng tư duy khác nhau. Với sự phối hợp của nhiều
phương án trả lời để chọn cho mỗi câu hỏi giáo viên dùng thể loại trắc nghiệm
đa lựa chọn (MCQ) để kiểm tra, đánh giá những mục tiêu giảng dạy, học tập
khác nhau, chẳng hạn như để:
+ Xác định mối tương quan “nhân quả”.
+ Nhận biết các điều sai lầm.
+ Ghép các kết quả, hay điều quan sát với nhau.
+ Định nghĩa các thành ngữ.
+ Tìm nguyên nhân của một số sự kiện.
+ Nhận biết điểm tương đồng hay dị biệt giữa hai hay nhiều vật.
+ Xác định nguyên lý hay ý niệm tổng quát từ các sự kiện.
+ Xác định thứ tự hay cách sắp đặt giữa nhiều vật.
Xét đoán nhiều vấn đề đang được tranh luận dưới nhiều quan điểm.
27
- Có độ tin cậy cao hơn. Yếu tố đoán mò, may rủi giảm đi so với loại trắc
nghiệm khách quan khác khi số phương án lựa chọn tăng lên. Đó là lý do các
nhà chuyên môn đánh giá cao loại câu hỏi trắc nghiệm này [5].
- Học sinh phải xét đoán và phân biệt rõ ràng khi trả lời câu hỏi. Tính
chất tuyệt đối trong loại “Đúng - Sai” nhường chỗ cho tính chất tương đối khi
học sinh phải lựa chọn câu trả lời đúng nhất hay hợp lý nhất trong số các
phương án đã cho.
- Tính chất giá trị tốt hơn. Loại trắc nghiệm này có độ giá trị cao hơn nhờ
tính chất có thể dùng đo các mức tư duy khác nhau. Với một bài trắc nghiệm
có nhiều câu trả lời cho sẵn để chọn, người ta có thể đo được khả năng nhớ,
áp dụng các nguyên lý, suy diễn, tổng quát hoá,… rất hiệu quả.
- Có thể phân tích được tính chất của mỗi câu hỏi. Dùng phương pháp
phân tích tính chất câu hỏi (item analysis), ta có thể xác định câu hỏi nào qúa
dễ, câu nào quá khó, câu nào mơ hồ hay không có giá trị đối với các mục tiêu
cần trắc nghiệm. Thêm vào đó, chúng ta có thể xem xét câu trả lời cho sẵn
nào không ích lợi, hoặc làm giảm giá trị câu hỏi. Phương pháp phân tích này
không thực hiện được với loại câu hỏi tự luận hay khó thực hiện đối với các
loại trắc nghiệm khác.
Tính chất khách quan khi chấm điểm. Cũng như các loại trắc nghiệm
khách quan khác, trong loại MCQ điểm số không phụ thuộc vào các yếu tố
như phẩm chất của chữ viết, hoặc khả năng diễn đạt tư tưởng.
Khuyết điểm của loại câu hỏi có nhiều phương án để chọn lựa (MCQ)
Mặc dù có rất nhiều ưu điểm, các chuyên gia trong lĩnh vực này cũng cho
rằng loại trắc nghiệm MCQ có những hạn chế sau:
- Khó khăn trong soạn câu hỏi. Một giáo viên phải có nhiều kinh nghiệm
và khả năng, cũng như mất nhiều thời gian và công sức mới có thể viết được
những câu hỏi hay, đúng chuẩn kỹ thuật. Điều khó là ở chỗ phải tìm cho được
28
một câu trả lời đúng nhất trong lúc các câu, các phương án trả lời khác để
chọn cũng có vẻ hợp lý. Thêm vào đó các câu hỏi phải đo được các mục tiêu
ở mức năng lực nhận thức cao hơn mức ghi nhớ.
- Thí sinh có óc sáng kiến có thể tìm ra những câu trả lời hay hơn phương
án đã cho, nên họ có thể không thoả mãn hay cảm thấy khó chịu.
- Các câu trắc nghiệm MCQ có thể không đo được khả năng phán đoán
tinh vi và khả năng giải quyết vấn đề khéo léo một cách hiệu nghiệm bằng câu
hỏi tự luận soạn kỹ.
- Các khuyết điểm nhỏ khác là tốn nhiều giấy để in loại câu hỏi này so
với các loại câu hỏi khác (khi bắt buộc phải thi trên giấy).
Các quy tắc khi soạn thảo câu hỏi TNKQ đa lựa chọn.
- Phần chính, hay câu dẫn của câu hỏi phải diễn đạt rõ ràng một vấn đề.
Các câu trả lời để chọn phải là những câu khả dĩ thích hợp với vấn đề đã nêu.
Nên tránh dùng những câu có vẻ như câu hỏi loại “Đúng - Sai” không liên hệ
nhau được sắp chung một chỗ.
- Phần chính, hay câu dẫn của câu hỏi nên mang trọn ý nghĩa là một câu
hỏi và phần câu trả lời để chọn nên ngắn gọn. Muốn tiết kiệm khoảng in câu
hỏi và thời gian cho học sinh đọc câu hỏi, các chi tiết cần thiết nên được sắp
đặt vào phần chính hay câu dẫn, để các câu trả lời lựa chọn được ngắn.
- Nên bỏ bớt các chi tiết không cần thiết. Khi mục đích câu hỏi không
phải trắc nghiệm khả năng nhận biết sự kiện chính trong một đoạn văn, ta nên
loại bỏ những chữ nào không cần thiết để diễn đạt ý nghĩa câu hỏi.
- Nên tránh dùng hai thể phủ định liên tiếp như hai chữ “Không “ trong
cùng một câu hỏi.
- Các câu trả lời để chọn lựa phải có vẻ hợp lý. Nếu một phương án chọn
lựa sai, thí sinh sẽ dễ dàng loại bỏ.
29
- Phải chắc chắn chỉ có một câu trả lời đúng. Khi viết câu hỏi nên mời
các giáo viên trong cùng nhóm môn học góp ý sửa chữa các điểm sai hay
những chỗ tối nghĩa.
- Khi một câu hỏi đề cập đến một vấn đề gây nhiều tranh luận, ý nêu trong
câu hỏi phải xác định được về nguồn gốc, hay định rõ chuẩn để xét đoán.
- Độ dài của câu trả lời trong các đáp án để chọn phải gần bằng nhau.
Không nên để các câu có khuynh hướng ngắn hơn hay dài hơn các phương án
trả lời khác.
- Các câu trả lời trong các phương án phải đồng nhất với nhau. Tính từ
đồng nhất có thể dựa trên căn bản ý nghĩa, âm thanh, độ dài, hoặc cùng là
động từ, tính từ hay danh từ.
- Không nên đặt những vấn đề không xảy ra trong thực tế trong nội dung
các câu hỏi
- Các câu hỏi nhằm đo sự hiểu biết, suy luận, hay khả năng áp dụng các
nguyên lý vào vào những trường hợp mới nên được trình bày dưới hình thức
mới. Nếu nội dung các câu hỏi giống hay tương tự các thí dụ trong sách giáo
khoa, hoặc đã trình bày ở lớp, câu trả lời đúng có thể nhờ vận dụng trí nhớ
hơn là nhờ các khả năng tư duy khác mà ta cần thẩm định.
- Lưu ý các điểm liên hệ về văn phạm giúp học sinh có thể nhận biết cách
trả lời.
- Cẩn thận khi dùng hai câu trả lời trong hai phương án có sẵn có hình
thức hay ý nghĩa trái nhau, nếu một trong hai câu là câu trả lời đúng nhất. Khi
chỉ có hai câu trái nhau trong số các phương án cho sẵn để chọn, thí sinh sẽ
nghĩ không lẽ cả hai câu đều sai, nên chỉ tập trung vào một trong hai câu này,
câu hỏi trở nên có dạng hai phương án để chọn. Do đó nếu thích, chúng ta có
thể đưa ra bốn câu có ý nghĩa trái nhau từng đôi một.
- Cẩn thận khi dùng các cụm từ “ Không câu nào trên đây đúng” hoặc
30
“Tất cả các phương án đều đúng” như là một trong những phương án để chọn,
vì về mặt văn phạm các mệnh đề này thường không ăn khớp với các câu hỏi.
- Câu trả lời đúng nhất hay hợp lý nhất phải được đặt ở các vị trí khác
nhau một số lần tương đương nhau.
- Tránh dùng các thể phủ định trong các câu hỏi. Người ta thường nên
nhấn mạnh khía cạnh xác định hơn khía cạnh phủ định trong kiến thức. Khi
bắt buộc phải dùng những từ này, nên gạch dưới hay in đậm để học sinh
chú ý hơn.
Đối với việc xây dựng các công cụ đo lường kết quả học tập, cụ thể là
việc xây dựng các bộ đề thi TNKQ dùng trong thi kiểm tra giữa kỳ hay hết
học phần áp dụng trong các trường đại học, ta chỉ quan tâm đến thang bậc
năng lực nhận thức. Với hầu hết các bộ đề được sử dụng trong nhà trường
hiện nay, chỉ có thể đánh giá được ba bậc nhận thức đầu là Biết, Hiểu và Vận
dụng. Để có thể đánh giá được các năng lực nhận thức ở cấp độ cao hơn, phải
thông qua các hình thức đánh giá khác như bài tập lớn, khoá luận…
1.2.2. Xây dựng bảng trọng số của môn học
Để đề thi có thể đánh giá đúng mục tiêu của môn học, cấu trúc đề thi phải
được xây dựng phù hợp với cấu trúc của môn học và các yêu cầu khối lượng
kiến thức tương ứng. Mỗi đề thi được xây dựng phục vụ cho những mục đích
nhất định. Tuỳ theo mục đích thi người viết đề thi phải thiết kế số câu hỏi và
thể loại câu hỏi phù hợp tương ứng. Vì thế trước khi xây dựng đề thi chúng ta
cần xác định mục đích cụ thể của đề thi. Mục đích của đề thi phải định ra
được những nội dung kiến thức và cấp độ kiến thức cần kiểm tra (cấp độ kiến
thức tương ứng với thang bậc về năng lực nhận thức). Tất cả những yêu cầu
này được thể hiện trong bảng trọng số đề thi. Về mặt nguyên tắc, đề thi
TNKQ hết học phần bao phủ hết nội dung kiến thức môn học, cho nên bảng
trọng số của đề thi tương ứng với bảng trọng số kiến thức của môn học.
31
Với các đề thi TNKQ thông thường thì bảng trọng số chỉ được xây dựng
với ba mức độ nhận thức là “nhận biết”, “hiểu” và “vận dụng” tương ứng với
các mức độ khó của đề thi là “dễ”, “vừa” và “khó”. Có thể lấy một ví dụ về
bảng trọng số đề thi như sau:
Bảng 1.1: Ví dụ về bảng trọng số của 1 đề thi hết học phần
gồm 60 câu trắc nghiệm
Mức độ năng lực nhận thức
Nội dung Nhận biết
(Dễ)
Hiểu
(Vừa)
Vận dụng
(Khó)
Tổng số
câu hỏi
Chương 1 3 4 3 10
Chương 2 2 2 1 5
Chương 3 3 4 3 10
Chương 4 5 4 4 15
Chương 5 4 6 5 15
Chương 6 2 2 1 5
Tổng cộng 19 22 17 60
1.2.3. Xây dựng ngân hàng đề thi trắc nghiệm cho môn học
Để thực hiện việc triển khai thi TNKQ một cách rộng rãi đòi hỏi phải có
một ngân hàng câu hỏi TNKQ. Đây là cơ sở dữ liệu để xây dựng các đề thi
một cách độc lập, có độ tin cậy, độ bao phủ kiến thức đồng đều cho các lần
thi. Vừa là nguồn dữ liệu cho sinh viên và cả giáo viên học tập. Việc tiến hành
xây dựng ngân hàng câu hỏi thi phải theo đúng những quy trình và nguyên tắc
kiểm tra đánh giá đã trình bày ở trên. Cụ thể phải tiến hành theo các bước sau:
32
1. Xác định rõ mục tiêu đào tạo của từng giai đoạn cần kiểm tra đánh giá.
2. Các chuyên gia chuyên ngành kết hợp cùng chuyên gia kiểm tra đánh
giá xây dựng cấu trúc đề thi, bảng trọng số, hình thức và thể loại thi riêng phù
hợp cho từng chuyên ngành theo yêu cầu của từng giai đoạn.
3. Hội thảo để lấy ý kiến về các cấu trúc đề thi, bảng trọng số, hình thức
và thể loại thi vừa được xây dựng và thẩm định, công nhận các sản phẩm đó.
4. Các chuyên gia chuyên ngành soạn thảo các câu hỏi thi theo bảng
trọng số và cấu trúc thi đã được xây dựng và thông qua.
5. Nghiệm thu các câu hỏi thô.
6. Loại bỏ các câu hỏi không đạt chuẩn quy định chung. Sửa lại một số
câu cho phù hợp, viết bổ sung một số câu hỏi mới.
7. Thử nghiệm để lấy kết quả đánh giá và hoàn thiện hơn các câu hỏi thi.
8. Lưu trữ các câu hỏi thi theo lĩnh vực kiến thức và các độ dễ khó khác
nhau trong ngân hàng dữ liệu.
9. Trước khi tổ chức thi các chuyên gia căn cứ theo yêu cầu và mục tiêu
đào tạo của từng đợt thi tổ hợp đề thi theo đúng yêu cầu về độ khó của câu hỏi
thi và các yêu cầu về kiến thức sinh viên cần đạt được.
10. Sau khi thi, kết quả thi phải được phân tích xử lý và đánh giá để
có các thông tin phản hồi như đã nêu trong quy trình và nguyên tắc kiểm
tra đánh giá.
11. Sau khi có các kết quả xử lý phân tích, các câu hỏi thi được hoàn
thiện lại.
12. Hàng năm có tổ chức viết thêm các câu hỏi thi để bổ sung ngân hàng
dữ liệu và đồng thời loại bỏ các câu hỏi không còn phù hợp với phát triển của
mục tiêu đào tạo và năng lực thực sự của sinh viên trong từng giai đoạn.
33
Chương 2
PHƯƠNG PHÁP NGHIÊN CỨU
2.1. Những định hướng, trọng tâm nghiên cứu
2.1.1. Chuyên đề nghiên cứu thứ nhất
Để đánh giá các yếu tố ảnh hưởng đến chất lượng bộ đề thi TNKQ, luận
văn phải xuất phát từ việc đánh giá chất lượng của các bộ đề thực tế đã sử
dụng tại nhà trường qua xử lý số liệu kết quả thi của các môn học (50 môn
học). Từ kết quả thi đã được xử lý và lý thuyết về đo lường đánh giá có thể
cho phép kết luận sơ bộ về chất lượng các bộ đề này (về độ tin cậy, độ giá
trị…). Nghiên cứu này được thực hiện bằng phương pháp thống kê phân
tích, xử lý số liệu trên phần mềm SPSS, QUEST, kết hợp với phương pháp
chuyên gia qua việc thẩm định độ giá trị nội dung, độ gía trị cấu trúc… của
các bộ đề thi.
2.1.2. Chuyên đề nghiên cứu thứ hai
Xuất phát từ thực tế là các bộ đề thi TNKQ trong nhà trường có chất
lượng không giống nhau. Câu hỏi đặt ra là “Vậy thì những yếu tố nào ảnh
hưởng đến chất lượng của các bộ đề thi TNKQ”? Có thể bỏ qua các yếu tố như
điều kiện bên ngoài, ta nhận thấy yếu tố ảnh hưởng lớn nhất chính là từ phía
những người xây dựng bộ đề thi này. Bằng kinh nghiệm thực tiễn công tác
cũng như tham khảo ý kiến của các chuyên gia trong lĩnh vực đo lường đánh
giá giáo dục, tác giả mạnh dạn đề xuất một bộ công cụ đo các yếu tố ảnh
hưởng đến chất lượng bộ đề thi TNKQ thực hiện trên nhóm mẫu là giáo viên
tham gia xây dựng đề thi. Chất lượng một bộ đề thi nói chung phụ thuộc
nhiều yếu tố nhưng chủ yếu và trực tiếp là các yếu tố tác động đến chính bản
thân người ra đề. Trong điều kiện giảng dạy hiện nay, có thể khái quát thành 5
nhóm yếu tố giả thuyết có ảnh hưởng đến người ra đề, đó là:
- Thời gian đầu tư cho công việc thiết kế trắc nghiệm.
34
- Động cơ của người thiết kế trắc nghiệm.
- Mức độ người ra đề được trang bị kỹ thuật thiết kế trắc nghiệm.
- Sự quan tâm của nhà trường.
- Tính chất, đặc điểm của các nhóm môn học.
Từ 5 nhóm yếu tố tác động trên, luận văn sẽ xây dựng một mẫu phiếu
hỏi, lấy thông tin từ nhóm giáo viên xây dựng đề. Lưu ý là các phiếu này sẽ
được đánh dấu tương ứng với chất lượng đề thi của cá nhân đó. Với kết quả
xử lý 50 mẫu phiếu điều tra sẽ chỉ ra được các yếu tố có tương quan chặt
trong nhóm 5 yếu tố được thăm dò.
2.1.3. Chuyên đề nghiên cứu thứ ba
Trên cơ sở kết quả của hai nghiên cứu nói trên, ta sẽ tiến hành đánh giá
tương quan được lượng hoá thành số giữa các mẫu phiếu đánh giá và chất
lượng đề thi trong nhóm mẫu kết quả thi. Từ đó sẽ cho các kết luận cụ thể về
mối quan hệ giữa các nhóm yếu tố ảnh hưởng và chất lượng đề thi. Những
đánh giá này được thực hiện trên bảng trụ xoay (crosstab) kết hợp với phương
pháp chuyên gia.
Với những phân tích ở trên, sau khi thực hiện xong ba chuyên đề nghiên
cứu, đặc biệt là chuyên đề nghiên cứu thứ ba, luận văn sẽ chỉ ra được các yếu
tố ảnh hưởng thực sự tới chất lượng xây dựng đề thi TNKQ, từ đó có những
đề xuất giải pháp nhằm cải thiện chất lượng xây dựng đề thi của nhà trường.
2.2. Thiết kế mẫu phiếu điều tra đối với giáo viên
Để thuận tiện trong việc lượng hoá các item trong phiếu hỏi, chúng tôi sử
dụng thang bậc đánh giá theo 5 mức độ đồng ý với 27 item của phiếu hỏi là
các phát biểu thuận chiều, 03 phát biểu là phát biểu nghịch chiều (khi xử lý
phải đổi điểm ngược lại) và 03 phát biểu mở (cung cấp thông tin khi đánh giá
bằng phương pháp chuyên gia).
35
Trong bảng hỏi, 5 nhóm yếu tố đã kể trên sẽ được chia thành 30 item
theo cấu trúc sau:
- Thời gian đầu tư cho công việc: 03 item
- Động cơ của người thực hiện: 05 item
- Mức độ được trang bị kỹ thuật : 16 item
- Sự quan tâm của nhà trường: 03 item
- Tính chất các nhóm môn học: 03 item
Qua phân bố các item trong cấu trúc trên, dễ nhận thấy yếu tố thứ 3
“Mức độ nắm vững kỹ thuật ra đề TNKQ của giảng viên” có trọng số lớn hơn
cả. Điều này không phải là một nhận định quá chủ quan mà nó được xây dựng
trên kinh nghiệm cá nhân, thăm dò dư luận đám đông và ý kiến của các
chuyên gia có kinh nghiệm về đo lường đánh giá trong giáo dục.
Mẫu phiếu dùng trong nghiên cứu của luận văn sử dụng thang bậc đánh
giá được lượng hoá thành 5 mức như sau:
0 = Hoàn toàn không đúng / hoàn toàn không đồng ý
1 = Cơ bản không đúng / cơ bản không đồng ý
2 = Đúng một phần / đồng ý một phần/ phân vân
3 = Cơ bản đúng / cơ bản đồng ý
4 = Hoàn toàn đúng / hoàn toàn đồng ý
Các nội dung trong phiếu đánh giá cụ thể như sau:
Yếu tố “Thời gian dành cho công việc” được đánh giá qua 3 item (từ 1 đến 3)
1- Tôi đã đầu tư nhiều thời gian cho việc ra đề thi TNKQ.
2- Nhà trường bố trí thời gian đủ cho giáo viên xây dựng bộ đề thi TNKQ.
3- Tôi đã áp dụng thử bộ đề thi trước khi thi kết thúc môn học.
Yếu tố “Động cơ của người thực hiện” được đánh giá qua 5 item (từ 4 đến 8)
4- Tôi thực sự hứng thú đối với việc áp dụng phương pháp thi TNKQ.
5- Tôi đã dành thời gian tìm hiểu kỹ về thi TNKQ.
6- Tôi đã chủ động áp dụng việc thi TNKQ trong môn học do mình giảng dạy.
36
7- Tôi cho rằng thi TNKQ là không cần thiết.
8- Tôi nhận thấy thi TNKQ là tiện lợi và khoa học.
Yếu tố “Mức độ nắm vững kỹ thuật ra đề TNKQ của giảng viên” được
đánh giá qua 16 item (từ 9 đến 24)
9- Bộ đề thi TNKQ dùng để đánh giá SV được thiết kế theo ma trận kiến
thức của môn học tôi giảng dạy.
10- Bộ đề thi TNKQ tôi thiết kế có thể phân loại được sinh viên theo lực học.
11- Bộ đề thi TNKQ tôi thiết kế không quá khó, phù hợp với lực học
trung bình của sinh viên.
12- Tôi hiểu rõ từng câu hỏi và có thể trả lời đúng từng câu hỏi trong bộ
đề thi của mình mà không cần tới đáp án.
13- Tôi đã được tập huấn những kiến thức cơ bản về kỹ thuật ra đề
thi TNKQ.
14- Các câu hỏi trong đề thi phù hợp với thời lượng của từng nội dung
trong đề cương chi tiết môn học.
15- Số lượng các câu hỏi trong đề thi phân bố đều ở các nội dung và bao
quát cả chương trình môn học.
16- Tôi đã bỏ ra khá nhiều thời gian để tự nghiên cứu về kỹ thuật ra đề
thi TNKQ.
17- Tôi đã trao đổi về nội dung bộ đề thi TNKQ trong nhóm giảng
viên của Bộ môn.
18- Bộ đề thi TNKQ của tôi được thiết kế chung cho cả nhóm môn học
trong Bộ môn.
19- Sau mỗi lần thi tôi thường đánh giá chất lượng đề (các đặc tính đo
lường) để bổ sung và chỉnh sửa bộ đề thi.
20- Tôi thiết kế đề thi TNKQ chủ yếu dựa trên kinh nghiêm cá nhân.
21- Tôi chưa nắm được kỹ thuật phân tích item.
22- Tôi chưa nắm được lý thuyết hồi đáp IRT.
23- Tôi biết sử dụng phần mêm SPSS để đánh giá độ tin cậy.
24- Tôi biết sử dụng phần mêm Quest hoặc Conquest để phân tích item.
Yếu tố “Sự quan tâm của nhà trường” được đánh giá qua 3 item (từ 25 đến 27)
25- Nhà trường khuyến khích việc áp dụng thi TNKQ.
26- Xây dựng đề thi TNKQ được coi là một tiêu chuẩn nhằm đánh giá
đổi mới phương pháp giảng dạy.
37
27- Nhà trường có hỗ trợ kinh phí thích đáng cho việc xây dựng đề
thi TNKQ.
Yếu tố “Tính chất các nhóm môn học” được đánh giá qua 3 item (từ
28 đến 30)
28- Môn học tôi giảng dạy phù hợp với việc thi TNKQ.
29- Tôi cho rằng đề thi TNKQ chỉ phù hợp với một số môn học.
30- Tôi cho rằng tính chất các nhóm môn học có ảnh hưởng đáng kể đến
chất lượng đề thi TNKQ.
Ngoài ra phiếu đánh giá còn có thêm 3 item nhằm lấy thêm thông tin:
31. Anh chị giảng dạy môn học thuộc nhóm nào?
a. Nhóm Toán, Lý, Hoá c. Nhóm Ngoại ngữ
b. Nhóm Văn, Chính trị xã d. Nhóm các môn Kỹ thuật
32. Theo anh chị, yếu tố nào (trong 5 nhóm yếu tố trên) có ảnh hưởng
lớn nhất đến quá trình ra đề thi TNKQ của giảng viên?
33. Anh chị có kinh nghiệm như thế nào về ra đề thi TNKQ:
Các item 07, 21, 22 và 29 là các phát biểu nghịch chiều, khi xử lý kết
quả phải lấy điểm số theo chiều ngược lại.
Các item còn lại trong bảng kẻ là các phát biểu thuận chiều, khi xử lý kết
quả phải lấy điểm số dương.
Các item 31, 32, 33 là các phát biểu mở nhằm cung cấp thêm thông tin
cho người xử lý.
Điểm số lượng hoá của phiếu hỏi bằng tổng đại số điểm của các item
trong bảng kẻ (Giá trị của điểm số tổng cộng mặc định là tương quan chặt
với điều kiện thuận lợi cho việc xây dựng đề thi TNKQ).
38
Chương 3
XỬ LÝ SỐ LIỆU THI VÀ KẾT QUẢ PHIẾU ĐIỀU TRA
3.1. Xử lý số liệu kết quả thi TNKQ
3.1.1. Phân tích độ khó của item
Độ khó của item được dùng để tạo ra sự phân biệt giữa những người làm
trắc nghiệm. Mức độ khó của item được định nghĩa dựa trên tỷ lệ người trả
lời đúng item đó. Phân tích độ khó của item chỉ phù hợp cho những trắc
nghiệm đánh giá thành tích hay năng khiếu, những trắc nghiệm cho phép bộc
lộ tối đa năng lực của người làm trắc nghiệm. Phân tích độ khó không phù
hợp cho những trắc nghiệm đánh giá nhân cách hay quan điểm thái độ.
Độ khó của từng item trực tiếp ảnh hưởng đến độ tin cậy và độ giá trị
(hiệu lực) của trắc nghiệm. Ví dụ, một trắc nghiệm có 50 item nhưng có 20
item quá khó (tất cả sinh viên đều nhận điểm 0 trên các item này). Như vậy,
phân bố điểm của trắc nghiệm gồm 50 item này cũng giống như phân bố
điểm của trắc nghiệm chỉ gồm 30 item. Khi đó, độ khó của các item đã thực
sự làm giảm độ dài của trắc nghiệm. Về mặt lý thuyết, độ dài của trắc nghiệm
giảm sẽ làm giảm độ tin cậy của trắc nghiệm và cũng làm giảm độ hiệu lực
của trắc nghiệm [4].
Công thức tính độ khó của item:
P = (Số người trả lời đúng trên item) / N
P: Độ khó của item
N: Tổng số người trả lời item
P có gía trị từ 0,0 đến 1,0. Giá trị của P càng gần 0,0 thì độ khó của item
càng tăng. Ngược lại, giá trị của P càng gần 1,0 thì độ khó càng giảm. Độ khó
của item không phải chỉ có một giá trị cố định mà ngược lại mỗi khi trắc
nghiệm được làm với một mẫu nào đó, ta lại có một giá trị xác định. Độ khó
có thể thay đổi tuỳ thuộc vào trình độ, năng lực của người làm trắc nghiệm.
39
Một item có độ khó phù hợp nhất khi P nằm xung quanh 0,5. Tuy nhiên, để
đánh giá được độ khó của item phù hợp nhất cho trắc nghiệm cần căn cứ vào
mục đích của trắc nghiệm và kiểu item.
Độ khó của item không chỉ nói lên mức độ nắm vững / không nắm vững
(kiến thức hay kỹ năng) của người làm trắc nghiệm mà nhiều khi trả lời đúng
là do đoán mò. Đối với những item có hai lựa chọn (đúng / sai) hay có nhiều
lựa chọn, xác suất đoán trúng là 50% hay 25% (nếu là 4 lựa chọn). Như vậy
độ khó tối ưu (optimal item dificulty) được tính theo công thức sau:
Điểm giữa P do đoán đúng = 1,0 – (khả năng có thể đoán đúng) / 2
Độ khó tối ưu cho đoán đúng = điểm giữa P + khả năng đoán đúng.
Độ khó của item sẽ ảnh hưởng đến điểm của trắc nghiệm. Những item
quá khó (P < 0,1) sẽ làm giảm điểm trung bình, thu hẹp phạm vi điểm vì hầu
hết mọi người mất điểm trên những item này hoặc có điểm là do đoán mò.
Điều này có thể ảnh hưởng đến điểm số của những người làm trắc nghiệm.
Những item quá dễ sẽ làm mọi người đều có điểm trên item đó, do đó sự
khác nhau giữa những người đạt điểm cao nhất (được xem là có năng lực tốt
nhất) và những người có điểm thấp nhất (được xem là có năng lực tồi nhất)
có điểm ngang nhau ở những item này do vậy độ phân biệt sẽ có giá trị gần
bằng 0. Điều này sẽ ảnh hưởng đến độ hiệu lực của trắc nghiệm.
3.1.2. Phân tích độ phân biệt của item
Phân tích độ phân biệt là chỉ ra mức độ khác biệt trong cách trả lời item ở
những mẫu người khác nhau. Không giống như phân tích độ khó, phân tích độ
phân biệt thích hợp cho hầu hết các kiểu trắc nghiệm.
Một item có độ phân biệt tốt là khi trả lời item đó, hầu hết những người
có điểm trắc nghiệm cao trả lời đúng, đồng thời những người có điểm trắc
nghiệm thấp trả lời sai.
40
Có nhiều kỹ thuật đánh giá độ phân biệt của item, tuy nhiên có thể xem
có hai cách thường được sử dụng nhất:
- Đánh giá chỉ số phân biệt của item (item discrimination index)
- Đánh giá tương quan điểm item với điểm trắc nghiệm (item – total
correlation)
Độ phân biệt được xác định từ kết quả so sánh điểm trắc nghiệm của hai
nhóm người có điểm số cao và thấp rút ra từ hai mẫu riêng rẽ hoặc từ một
mẫu. Nếu lấy từ một mẫu hãy chọn (khoảng 1/3 hay 1/4 ) số người làm trắc
nghiệm có điểm cao nhất và số người làm trắc nghiệm có điểm thấp nhất. Sau
khi xác định được hai nhóm có điểm cao và điểm thấp, hãy tính tỷ lệ % số
người trả lời đúng trên từng item cho mỗi nhóm. Chỉ số phân biệt của item
được tính theo công thức sau:
Số người trả lời đúng Số người trả lời đúng
ở nhóm điểm cao ở nhóm điểm thấp
D = ---------------------------- - ---------------------------
Tổng số người trả lời Tổng số người trả lời
ở nhóm điểm cao ở nhóm điểm thấp
D: Độ phân biệt của item
Với các trắc nghiệm đánh giá năng lực, ta có thể giải thích sự thay đổi
các giá trị của D như sau: Nếu item có câu trả lời khó cho những người ở
nhóm điểm thấp mà dễ cho những người ở nhóm điểm cao, thì khi đó chỉ số
D là tiếp cận 1,0 (item có độ phân biệt lý tưởng). Nếu item có câu trả lời khó
ngang bằng cho cả hai nhóm thì chỉ số D tiếp cận 0,0 (item không có độ phân
biệt hay độ phân biệt kém). Nếu item có câu trả lời dễ cho những người ở
nhóm điểm thấp mà lại khó cho nhóm người điểm cao thì chỉ số phân biệt D
tiếp cận – 1,0, khi đó item vẫn có độ phân biệt lý tưởng nhưng không giống
như mong đợi.
41
Theo các chuyên gia trong lĩnh vực này thì chỉ số phân biệt của từng
item, được coi là thích hợp khi D lớn hơn hoặc bằng 0,3. Những item có chỉ
số phân biệt nhỏ hơn hoặc bằng 0,2 nên được viết lại.
Phương pháp đánh giá độ phân biệt bằng cách đánh giá tương quan
giữa item và toàn bộ trắc nghiệm
Nếu trắc nghiệm và item cùng đo một đặc tính hay một cấu trúc thì điểm
trả lời trên item sẽ tương quan với tổng số điểm của trắc nghiệm. Cũng vậy,
nếu các item cùng đo một đặc tính hay một cấu trúc thì chúng sẽ tương quan
với nhau. Công thức tính tương quan điểm item và điểm của trắc nghiệm
như sau:
))((
))(()/(
YX
XY
YXNXY
R σσ
∑ −=
X: Điểm của item được phân tích
Y: Điểm tổng của các item còn lại (điểm trắc nghiệm)
X : Điểm trung bình của item được phân tích
Y : Điểm trung bình của trắc nghiệm
σX : Độ lệchchuẩn của điểm trên item được phân tích
σY : Độ lệch chuẩn của điểm trắc nghiệm
Giá trị của hệ số tương quan càng tiệm cận 1,0 càng chứng tỏ item và
trắc nghiệm có tính đồng nhất cao, tức là cùng đo một đặc tính. Với các trắc
nghiệm đánh giá năng lực, giá trị tương quan càng gần 1,0 sẽ cho biết càng có
nhiều người có điểm trắc nghiệm cao trả lời đúng item đó. Ngược lại giá trị
tương quan càng gần -1,0 sẽ cho biết càng có nhiều người có điểm trắc
nghiệm thấp trả lời đúng item đó.
3.1.3. Đánh giá độ tin cậy của bài trắc nghiệm
Việc phân tích độ khó, độ phân biệt của các item trong bài trắc nghiệm
như đã chỉ ra ở trên chỉ có tính chất đánh giá cục bộ, đơn lẻ trên các item.
42
Những kết quả đó chưa phản ánh hết toàn bộ độ tin cậy của toàn bộ bài trắc
nghiệm. Để có kết luận một cách toàn diện về độ tin cậy của cả bài trắc
nghiệm người ta thường dùng phương pháp đánh giá dựa trên mô hình tương
quan Alpha của Cronbach (Cronbach’s coefficent alpha).
- Sử dụng thủ tục Reliability Analysis trên phần mềm SPSS.
Từ cửa sổ file dữ liệu SPSS.dat
+ Chọn Analyze \ Scale \ Relibility Analisis.
+ Chọn mode Alpha.
+ Chuyển các biến (item) vào hộp item.
+ Bấm vào hộp Statistic…
+ Chọn Scale.
+ Chọn Scale if item deleted.
+ Tích vào các hộp Hotenlling’s Tsquare và Tukey’s test.
+ Chọn continue \ Ok.
Kết quả tại Out put ta có bảng mức độ tin cậy của từng item của thang đo
(là các câu hỏi trong trắc nghiệm).
43
Bảng 3.1: Kết quả phân tích độ tin cậy (Reliability Analysis Alpha)
của toàn bài trắc nghiệm trong đề số 1
Tên
biến
Varia
ble
Điểm trung bình
của thang đo nếu
item bị xoá
Scale Mean if
Item Deleted
Phương sai của
thang đo nếu
item bị xoá
Scale Variance
if Item Deleted
Hệ số tương quan
của item với các
item còn lại
Corrected Item-
Total Correlation
Hệ số alpha
nếu item bị
xoá
Cronbach's
Alpha if Item
Deleted
c1
c2
c3
c4
c5
c6
c7
c8
c9
c11
c12
c13
c14
c15
c16
c17
c18
c19
c20
c21
c22
c23
c24
c25
c26
c27
c28
c29
c30
c31
c32
42.02
42.35
42.12
41.96
42.29
41.96
42.58
42.04
42.15
41.96
42.15
42.31
42.58
41.98
42.10
41.98
42.04
42.17
42.15
42.31
42.52
42.25
42.17
42.29
41.96
42.00
42.02
42.42
42.13
42.33
42.10
35.196
37.603
35.202
35.920
34.954
35.763
37.817
35.763
34.015
35.685
35.780
36.727
37.425
36.294
34.755
35.862
34.351
35.362
35.035
38.178
37.078
35.328
34.381
32.680
34.822
35.020
34.568
33.504
32.785
33.087
33.304
.234
.284
.159
.066
.160
.134
.328
.063
.386
.168
.030
.144
.263
.084
.269
.069
.438
.107
.178
.380
.201
.099
.300
.575
.546
.320
.416
.403
.668
.488
.604
.756
.778
.759
.760
.759
.759
.778
.761
.750
.759
.763
.772
.776
.763
.755
.760
.751
.761
.758
.781
.774
.761
.753
.741
.752
.755
.752
.748
.740
.745
.743
44
Tên
biến
Varia
ble
Điểm trung bình
của thang đo nếu
item bị xoá
Scale Mean if
Item Deleted
Phương sai của
thang đo nếu
item bị xoá
Scale Variance
if Item Deleted
Hệ số tương quan
của item với các
item còn lại
Corrected Item-
Total Correlation
Hệ số alpha
nếu item bị
xoá
Cronbach's
Alpha if Item
Deleted
c33
c34
c35
c36
c37
c38
v39
c40
c41
c42
c43
c44
c45
c46
c47
c48
c49
c50
c51
c52
c53
c54
c55
c56
c57
c58
c59
c60
42.00
42.31
42.23
42.62
41.98
42.08
42.38
42.12
42.00
42.12
42.62
42.54
42.02
42.00
42.62
42.25
42.25
42.12
42.02
42.48
42.15
42.04
41.98
42.15
42.04
42.15
41.98
41.98
35.412
33.982
33.710
37.457
35.156
33.680
34.908
33.241
35.020
33.712
32.908
34.998
33.862
34.196
33.849
33.407
33.407
35.398
35.353
34.372
34.172
36.038
35.862
35.388
35.763
36.015
35.862
36.015
.196
.330
.404
.274
.322
.544
.160
.591
.320
.485
.559
.150
.624
.586
.377
.453
.453
.117
.189
.253
.354
.008
.069
.107
.063
.017
.069
.063
.758
.752
.749
.776
.755
.746
.759
.743
.755
.747
.742
.759
.746
.748
.750
.747
.747
.760
.758
.755
.751
.763
.760
.761
.761
.765
.760
.761
45
Các thông tin về độ tin cậy của toàn bài trắc nghiệm được cho trong bảng sau
Bảng 3.2: Các thông số về độ tin cậy (Reliability Statistics)
Hệ số tin cậy
Cronbach's Alpha
Hệ số tin cậy trên các item chuẩn
Cronbach's Alpha Based on
Standardized Items
Số lượng item
N of Items
.805 .819 60
Qua phân tích số liệu trên bảng Output ta thấy đề thi trên dù còn có một
số câu hỏi (item) chưa được tốt song độ tin cậy của toàn bộ trắc nghiệm là
khá cao. Kết quả phân tích cho hệ số tin cậy của toàn trắc nghiệm α = 0,805
có nghĩa là 80,5% phương sai của điểm trắc nghiệm là phương sai của điểm
số thực và chỉ có 15,5% phương sai của điểm là do sai số ngẫu nhiên của
phép đo. Cũng bằng phép phân tích này, nhìn vào bảng 1 ta thấy, những item
có tương quan với các item còn lại là thấp (αi < 0.30) thì cần phải xem lại,
những item có tương quan qúa thấp (αi < 0) thì nên loại bỏ.
Bằng cách tương tự ta có kết quả tổng hợp về độ tin cậy của 50 đề thi
trong bảng dưới đây.
Bảng 3.3: Hệ số tin cậy Alpha Cronbach’s của 50 đề trắc nghiệm
Đề thi
Hệ số tin cậy
Cronbach's
Alpha
Hệ số tin cậy trên các item
chuẩn
Cronbach's Alpha Based on
Standardized Items
Số lượng item
N of Items
Đề số 1 .80 .819 60
Đề số 2 .78 .794 60
Đề số 3 .75 .760 60
Đề số 4 .60 .621 60
Đề số 5 .54 .554 60
Đề số 6 .35 .360 60
Đề số 7 .33 .345 60
Đề số 8 .84 .850 60
46
Đề số 9 .86 .872 60
Đề số 10 .65 .661 60
Đề số 11 .65 .655 60
Đề số 12 .58 .591 60
Đề số 13 .48 .492 60
Đề số 14 .47 .485 60
Đề số 15 .50 .512 60
Đề số 16 .73 .743 60
Đề số 17 .74 .750 60
Đề số 18 .70 .712 60
Đề số 19 .69 .700 60
Đề số 20 .47 .485 60
Đề số 21 .50 .512 60
Đề số 22 .73 .743 60
Đề số 23 .74 .750 60
Đề số 24 .70 .712 60
Đề số 25 .69 .700 60
Đề số 26 .35 .360 60
Đề số 27 .33 .345 60
Đề số 28 .35 .360 60
Đề số 29 .33 .345 60
Đề số 30 .84 .850 60
Đề số 31 .86 .872 60
Đề số 32 .65 .661 60
Đề số 33 .65 .655 60
Đề số 34 .58 .591 60
Đề số 35 .80 .812 60
Đề số 36 .81 .821 60
Đề số 37 .65 .661 60
Đề số 38 .65 .655 60
Đề số 39 .58 .591 60
Đề số 40 .80 .812 60
Đề số 41 .81 .821 60
Đề số 42 .54 .554 60
Đề số 43 .35 .360 60
Đề số 44 .33 .345 60
Đề số 45 .84 .850 60
Đề số 46 .86 .872 60
Đề số 47 .65 .661 60
Đề số 48 .65 .655 60
Đề số 49 .70 .712 60
Đề số 50 .69 .700 60
47
3.1.4. Xử lý số liệu đề thi trên mô hình QUEST
Phần trên chúng tôi đã dùng phần mềm SPSS để xử lý số liệu kết quả thi,
tương tự ta cũng có thể sử dụng mô hình RASCH trên phần mềm chuyên
dụng QUEST để phân tích, đánh giá kết quả các bài thi trắc nghiệm.
Ví dụ xử lý số liệu cho đề thi của môn Thông tin quang (ký hiệu Môn 1).
Để chạy được phần mềm QUEST, ta nhất định phải có file PFE.EXE và
file QUEST.EXE, file SPSS.sav chứa dữ liệu bằng số của kết quả thi.
Tạo file MON1.dat
- Từ cửa sổ file MON1.sav, dùng menu file, chọn Save as, xuất hiện cửa
sổ lệnh Save Data As.
- Tại cửa sổ Save Data As, Chọn mục Save as type.
- Chọn FixedASCII(*.dat). Gõ vào tên MON1. sau đó chọn Save.
- Trong PFE.EXE, mở open ta thấy file MON1.DAT.
Tạo file mon1.ctl
- Từ file PFE.EXE, mở cửa sổ mới, nhập vào đoạn lệnh sau:
set width=132!page
DATA_FILE MON01.DAT
CODES 01
FORMAT NAME 1 ITEMS 9-68
SCALE 1-60! MON01
ESTIMATE !iter=50; SCALE=MON01 >-MON01.out
SHOW ! SCALE=MON01 >-MON01.map
SHOW ITEMS ! SCALE=MON01 >-MON01.itm
SHOW CASES ! SCALE=MON01; form=export;delimiter=tab >-
MON01.cas
ITANAL ! scale=MON01 >-MON01.ITn
Quit
48
Thực hiện ghi lại (chọn nút ghi) ta có file điều khiển mon1.ctl
Vào file PFE.EXE, chọn Open, mở file MON1.map, ta có bảng sau
Bảng 3.4: Phân bố tương quan giữa độ khó của đề và năng lực học sinh.
QUEST: The Interactive Test Analysis System
-------------------------------------------------------------------------------------------
Item Estimates (Thresholds)
all on mon01 (N = 54 L = 60 Probability Level= .50)
3.0 |
|
|
|
NăNG LỰC CAO | ĐỘ KHó CAO
X |
|
XX |
XX | 44
2.0 | 15 37 48
XXXX | 8
XX | 45
X | 23
XXXXXX |
X |
|
|
XXXXXXXXX | 30 53
1.0 XXX |
XXX | 3 32 40
X |
XXX | 14 22 26 35
XXXXXX | 24
XXX | 6
| 21 50 54
| 49 57
| 20 36
.0 X | 4 11 25 31 39 55 59
X | 13
|
XX | 17 43
| 51 58
| 33 41
| 5 52 56
| 9 16 19 46 60
|
X | 7
-1.0 |
| 18 28 29 34 38 47
|
| 1 12 42
|
| 27
|
|
| 10
-2.0 |
|
|
| 2
|
NăNG LỰC THấP | Độ KHó THấP
|
|
-3.0 |
-----------------------------------------
Each X represents 1 students
Ta cũng thấy đây là một đề có độ khó thấp (đề tương đối dễ). Phân bố
kết quả thi gần với phân bố chuẩn. Các item có độ khó cao nhất (item 15, 27,
44, 48) cũng chưa vượt quá năng lực cao nhất của sinh viên tham gia trắc
nghiệm. Các item có độ khó quá thấp (item 2, 10, 27) nên loại bỏ vì không
phân biệt được năng lực của sinh viên.
49
Để thấy rõ phân bố của các item, ta xem xét bảng sau:
Bảng 3.5: Phân bố các item trong khoảng cho phép (infit mean square)
----------------------------------------------------------------------------------------------------------------
all on mon01 (N = 54 L = 60 Probability Level= .50)
----------------------------------------------------------------------------------------------------------------
MNSQ .63 .67 .71 .77 .83 .91 1.00 1.10 1.20 1.30 1.40
----------+---------+---------+---------+---------+---------+---------+---------+---------+---------+---------+-
1 item 1 . | * .
2 item 2 . | * .
3 item 3 . | * .
4 item 4 . | * .
5 item 5 . * | .
6 item 6 . | * .
7 item 7 . * | .
8 item 8 . | . *
9 item 9 . | * .
10 item 10 . * | .
11 item 11 . * | .
12 item 12 . * | .
13 item 13 . * | .
14 item 14 . | . *
15 item 15 . | * .
16 item 16 . |* .
17 item 17 . * | .
18 item 18 . * | .
19 item 19 . * | .
20 item 20 . * | .
21 item 21 . |* .
22 item 22 . | . *
23 item 23 . | * .
24 item 24 . *| .
25 item 25 . *| .
26 item 26 * | .
27 item 27 . * | .
28 item 28 . |* .
29 item 29 . * .
30 item 30 . * | .
31 item 31 . * | .
32 item 32 . * | .
33 item 33 . * | .
34 item 34 . | * .
35 item 35 . * | .
36 item 36 . * | .
37 item 37 . | . *
38 item 38 . * | .
39 item 39 . * | .
40 item 40 . | * .
41 item 41 . * | .
42 item 42 . * | .
43 item 43 . * | .
44 item 44 . * | .
45 item 45 . | * .
46 item 46 . * | .
47 item 47 . * | .
48 item 48 . * | .
49 item 49 . * | .
50 item 50 . * | .
51 item 51 . | * .
52 item 52 . * | .
53 item 53 . * | .
54 item 54 . * | .
55 item 55 . * | .
56 item 56 . *| .
57 item 57 . | * .
58 item 58 . |* .
59 item 59 . | * .
60 item 60 . *| .
Nhìn vào Bảng 3.5 ta thấy, các item 8, 14, 22, 37 mặc dù có độ khó hợp
lý nhưng lại nằm ngoài khoảng cho phép (infit mean square) hay có thể nói
không tương thích với toàn thang đo nên cần xem xét lại.
Để thấy rõ hơn các thông số đo lường của từng item, ta phân tích bảng
Results for Observed Responses trong file mon1.itn
50
Bảng 3.6: Các thông số đo lường của từng item trong file mon1.itn
QUEST: The Interactive Test Analysis System
...........................................................................................
Item 6: item 6 Infit MNSQ = 1.05
Disc = .22
Categories 0 1 missing
Count 19 33 0
Percent (%) 36.5 63.5
Pt-Biserial -.22 .22
p-value .058 .058
Mean Ability .85 1.24 NA
Step Labels 1
Thresholds .49
Error .30
...........................................................................................
Item 7: item 7 Infit MNSQ = .97
Disc = .31
Categories 0 1 missing
Count 7 45 0
Percent (%) 13.5 86.5
Pt-Biserial -.31 .31
p-value .013 .013
Mean Ability .54 1.18 NA
Step Labels 1
Thresholds -.92
Error .42
...........................................................................................
Item 8: item 8 Infit MNSQ = 1.40
Disc = -.28
Categories 0 1 missing
Count 35 17 0
Percent (%) 67.3 32.7
Pt-Biserial .28 -.28
p-value .023 .023
Mean Ability 1.24 .79 NA
Step Labels 1
Thresholds 1.88
Error .31
...........................................................................................
Trong Bảng 3.6 (minh hoạ các tham số của 3 item: 6; 7; 8), ta thấy các
item 6; 7 có độ phân biệt tương ứng là Disc = 0,22; 0,31 đều nằm trong
khoảng cho phép. Riêng item 8 có độ phân biệt Disc = - 0,8 (D < 0), chứng tỏ
đây là câu có vấn đề, cần loại bỏ.
51
3.1.5. Kết luận về độ giá trị của các bộ đề
Việc đánh giá độ giá trị của các bộ đề trên cả bốn góc độ: “Độ giá trị nội
dung”; “Độ giá trị cấu trúc”; “Độ giá trị tiêu chuẩn” và “Độ giá trị dự báo” là
một bài toán quá phức tạp. Trong phạm vi nghiên cứu của luận văn, chúng tôi
chỉ đề cập đến yếu tố “Độ giá trị nội dung” và “Độ giá trị cấu trúc”.
- Có thể nói nội dung và cấu trúc của các bộ đề đã được đánh giá sơ bộ
(một cách định tính) bằng phương pháp chuyên gia qua sự thẩm định của
chính người ra đề cũng như nhóm môn học.
- Bằng các kỹ thuật phân tích trên phần mềm SPSS hay QUEST, chúng
tôi đã chỉ ra các yếu tố (mang tính định lượng) quyết định đến độ giá trị của
bộ đề, đó là:
+ “Độ tin cậy” của bộ đề qua hệ số Cronbach’s alpha.
+ Hệ số tương quan của mỗi item đối với toàn bộ các item còn lại.
+ Ma trận tương quan giữa các item trong cùng một trắc nghiệm.
+ Sự phù hợp giữa độ khó của trắc nghiệm đối với năng lực của sinh
viên tham gia làm trắc nghiệm.
+ Tính đồng nhất của các item trong cùng một trắc nghiệm.
Cả 5 thông số trên đều phản ánh độ giá trị của trắc nghiệm, trong đó hệ số
tin cậy Cronbach’s coefficent alpha có thể coi là trội hơn cả và dễ được định
lượng nhất (càng lớn càng tốt). Do đó trong tính toán, phân tích kỹ thuật, chúng
tôi cũng lấy đây là thông số chính để đánh giá chất lượng của trắc nghiệm.
3.2. Xử lý số liệu mẫu phiếu phỏng vấn (phiếu hỏi) trong giảng viên
3.2.1. Đánh giá độ tin cậy của công cụ đo (mẫu phiếu hỏi)
Trên cơ sở mẫu phiếu đánh giá các yếu tố ảnh hưởng đến chất lượng các
bộ đề thi TNKQ đã nêu ở trên, chúng tôi đã tiến hành phỏng vấn và lấy phiếu
đối với 50 giáo viên trực tiếp soạn thảo 50 bộ đề của 50 môn học áp dụng thi
TNKQ hết học phần. Kết quả cụ thể như sau.
52
Nếu ta quy đổi thang bậc các mức đồng ý của các phiếu hỏi thành điểm
số tương ứng với 5 mức điểm từ 0 đến 4 (chú ý các item với phát biểu ngược
chiều lấy giá trị điểm ngược lại), ta sẽ có bảng các điểm số của phiếu hỏi. Về
mặt ý nghĩa đo lường, các phiếu hỏi cho điểm số tổng cộng cao sẽ tương ứng
với các cá nhân có các yếu tố thuận lợi cho việc xây dựng đề trắc nghiệm,
ngược lại các phiếu hỏi có điểm số tổng cộng thấp sẽ tương ứng với các cá
nhân có các yếu tố kém thuận lợi cho việc xây dựng đề trắc nghiệm. Các
phiếu có phân bố điểm tổng cộng từ 43 đến 94 điểm (điểm tối đa có thể là
120 điểm) cho thấy phân bố điểm rất rộng chứng tỏ các cá nhân tham gia xây
dựng đề trắc nghiệm trong các điều kiện rất khác nhau và nhận thức quan
điểm cũng rất khác nhau.
Tiến hành xử lý số liệu trên phần mềm SPSS ta nhận thấy:
Đánh giá độ tin cậy của trắc nghiệm bằng phương pháp đánh giá độ phù
hợp của từng item (internal consistency methods) sử dụng mô hình
Cronbach’s Coefficent Alpha. Mô hình này đánh giá độ tin cậy của phép đo
dựa trên sự tính toán phương sai của từng item trong toàn phép đo và tính
tương quan điểm của từng item với với điểm tổng của các item còn lại của
phép đo. Phương pháp này thích hợp cho việc xác định độ tin cậy của các loại
trắc nghiệm có các item nhiều mức độ tính theo điểm số (kiểu thang định
khoảng hay thang định tỷ lệ).
Công thức tính như sau:
Rxx = )1(1 2
2
x
i
K
K
σ
σα ∑−−= . Trong đó
Rxx : Hệ số tương quan
K : Số các item của trắc nghiệm
σ2i : Giá trị phương sai của từng item cụ thể của trắc nghiệm
σ2x : Giá trị phương sai của toàn trắc nghiệm
53
∑ σ2i : Tổng các giá trị phương sai của tất cả các item của trắc nghiệm
Thực hiện: Sử dụng mô hình Cronbach’s Coefficent Alpha đánh giá độ
tin cậy của phép đo các yếu tố ảnh hưởng đến chất lượng bộ đề trắc nghiệm
khách quan. Mô hình này đòi hỏi phép đo phải có phân bố chuẩn (hoặc gần
chuẩn), có các item được tính theo thang định khoảng.
Sử dụng mô hình đo với 30 biến, gồm ba biến trong nhóm thời gian (từ
tg1 đến tg3), ba biến trong nhóm động cơ (từ đc1 đến đc3), 16 biến trong
nhóm kỹ thuật (từ kt1 đến kt16), 3 biến trong nhóm quan tânm (từ qt1 đến
qt3) và 3 biến trong nhóm môn học (từ mh1 đến mh3). Số mẫu sử dụng là 50
(50 cá thể giáo viên được hỏi ý kiến)
Chọn Analyze \ Scale \ Reliability như hình vẽ.
Hình 1: Các thao tác trong thủ tục Reliability trong SPSS
Kết quả tại Out put ta có bảng:
Hình 3.1: Thủ tục Analyze \ Scale \ Reliability trong file SPSS.sav
54
Kết quả qua xử lý số liệu, ta có bảng hệ số tin cậy.
Bảng 3.7: Hệ số tin cậy của từng item trên mẫu 50 giáo viên (N = 50).
Tên biến
Variable
Điểm trung bình
của thang đo nếu
item bị xoá
Scale Mean if
Item Deleted
Phương sai của
thang đo nếu item
bị xoá
Scale Variance if
Item Deleted
Hệ số tương quan
của item với các
item còn lại
Corrected Item-
Total Correlation
Hệ số alpha nếu
item bị xoá
Cronbach's
Alpha if Item
Deleted
tg1
tg2
tg3
dc1
dc2
dc3
dc4
dc5
kt1
kt2
kt3
kt4
kt5
kt6
kt7
kt8
kt9
kt10
kt11
kt12
kt13
kt14
kt15
kt16
qt1
qt2
qt3
mh1
mh2
mh3
diemtong
142.68
142.38
143.20
142.10
141.84
141.94
146.22
144.60
142.24
142.10
142.52
142.52
142.00
142.26
142.36
142.68
143.14
143.14
142.82
142.46
146.50
146.14
144.78
144.78
142.84
142.52
143.08
143.00
142.34
142.84
72.78
1108.834
1093.424
1072.531
1102.827
1117.239
1122.262
1079.644
1023.388
1119.002
1102.827
1085.357
1127.479
1107.633
1114.033
1085.990
1117.651
1123.837
1150.204
1100.967
1090.131
1064.867
1054.694
1017.644
986.624
1108.096
1094.500
1128.687
1126.571
1123.494
1108.096
283.032
.521
.521
.839
.521
.484
.293
.879
.814
.409
.869
.897
.122
.726
.390
.804
.655
.241
.542
.639
.854
.958
.868
.905
.909
.789
.716
.094
.158
.200
.789
.760
.746
.742
.737
.744
.748
.749
.738
.725
.748
.744
.740
.750
.745
.747
.740
.748
.750
.756
.744
.741
.735
.732
.723
.716
.745
.742
.751
.750
.750
.745
.937
55
56
Nhận xét:
Từ bảng 3.7 ta nhận thấy, hầu hết các item từ tg1 đến mh3 đều có tương
quan khá chặt với các item còn lại của thang đo (R ≥ 0.30 được coi là thích
hợp). Như vậy hầu hết các item đều phù hợp, tức là điểm của các item có
tương quan đáng kể với tổng điểm của các item còn lại. Điều này có nghĩa là
các item của từng phép đo có tính đồng nhất và đều đóng góp cho độ tin cậy
của toàn phép đo (phép đo Tổng điểm).
Ta còn có thể phân tích độ tin cậy của phép đo dựa trên phiếu trả lời trắc
nghiệm qua một đánh giá khác. Đó là dựa vào bảng ma trận tương quan giữa
các yếu tố (item) trong thang đo với nhau.
Sử dụng thủ tục phân tích Data Reduction trong phần mềm SPSS
Chọn Analyze \ Data Reduction \ Facter
Tại Output ta có bảng sau.
57
tg1
tg2 .84
tg3 0.7 .6
dc1 .1 52 .6
Tg1 Tg2 Tg3 dc1 Dc2 Dc3 Dc4 Dc5 Kt1 Kt2 Kt3 Kt4 Kt5 Kt6 Kt7 Kt8 Kt9 Kt10 Kt11 Kt12 Kt13 Kt14 Kt15 Kt16 Qt1 Qt2 Qt3 Mh1 Mh2 Mh3
1
0 1
0 1
0 7 0. 0 1
dc2 0.48 0.14 0.48 0.32 1
dc3 0.65 0.26 0.74 0.06 0.66 1
dc4 0.76 0.83 0.77 0.62 0.31 0.46 1
dc5 0.64 0.64 0.58 0.36 0.29 0.42 0.78 1
kt1 0.65 0.26 0.74 0.06 0.66 0.55 0.46 0.42 1
kt2 0.17 0.52 0.6 0.45 0.34 0.06 0.62 0.36 0.06 1
kt3 0.56 0.67 0.91 0.78 0.26 0.41 0.78 0.53 0.41 0.78 1
kt4 0.21 0.22 0.36 0.29 0.29 0.08 0.26 0.12 0.08 0.29 0.44 1
kt5 0.21 0.48 0.53 0.82 0.09 -0.1 0.56 0.3 0.43 0.82 0.78 0.5 1
kt6 0.72 0.68 0.47 0.07 0.25 0.2 0.53 0.44 0.2 0.07 0.52 0.25 0.28 1
kt7 0.84 0.79 0.95 0.54 0.4 0.65 0.84 0.64 0.65 0.54 0.9 0.33 0.49 0.67 1
kt8 0.5 0.52 0.48 0.34 0.34 0.25 0.52 0.41 0.25 0.34 0.5 0.19 0.42 0.72 0.52 1
kt9 0.65 0.2 0.63 -0.1 0.76 0.81 0.38 0.34 0.81 -0.1 0.38 0.28 0.1 0.4 0.56 0.31 1
kt10 0.35 0.24 0.46 0.15 0.39 0.26 0.29 0.13 0.26 0.15 0.48 0.78 0.38 0.38 0.46 0.2 0.47 1
kt11 0.53 0.31 0.92 0.39 0.56 0.73 0.56 0.41 0.73 0.39 0.81 0.4 0.47 0.41 0.81 0.38 0.76 0.55 1
kt12 0.28 0.43 0.74 0.76 0.09 0.38 0.57 0.4 0.38 0.76 0.77 0.14 0.45 0.31 0.68 0.56 0.05 0.15 0.59 1
kt13 0.6 0.78 0.78 0.83 0.25 0.29 0.83 0.57 0.29 0.83 0.89 0.38 0.82 0.54 0.8 0.73 0.26 0.33 0.58 0.73 1
kt14 0.29 0.39 0.53 0.53 0.05 0.29 0.47 0.34 0.29 0.53 0.54 0.13 0.38 0.32 0.5 0.59 0.11 0.14 0.4 0.69 0.62 1
kt15 0.35 0.24 0.46 0.15 0.39 0.26 0.29 0.13 0.26 0.15 0.48 0.78 0.38 0.38 0.46 0.2 0.47 0.36 0.55 0.15 0.33 0.14 1
kt16 0.65 0.26 0.74 0.06 0.66 0.34 0.46 0.42 0.35 0.06 0.41 0.08 0.44 0.2 0.65 0.25 0.81 0.26 0.73 0.38 0.29 0.29 0.26 1
qt1 0.84 0.87 0.8 0.58 0.4 0.43 0.86 0.63 0.43 0.58 0.84 0.43 0.7 0.68 0.88 0.59 0.53 0.46 0.64 0.45 0.89 0.42 0.46 0.43 1
qt2 -0.1 0.17 0.52 0.78 0.33 0.35 0.36 0.16 0.36 0.78 0.73 0.34 0.78 0.21 0.41 0.5 0.32 0.27 0.52 0.77 0.69 0.54 0.27 0.32 0.38 1
qt3 0.5 0.11 0.44 0.45 0.89 0.66 0.28 0.37 0.66 0.35 0.2 0.27 0.04 0.31 0.37 0.38 0.82 0.37 0.55 0.02 0.21 0.02 0.37 0.66 0.38 0.42 1
mh1 0.84 0.87 0.8 0.58 0.4 0.43 0.86 0.63 0.43 0.58 0.84 0.43 0.7 0.68 0.88 0.59 0.53 0.46 0.64 0.45 0.89 0.42 0.46 0.43 0.60 0.38 0.38 1
mh2 0.65 0.2 0.63 0.43 0.76 0.81 0.38 0.34 0.81 0.35 0.38 0.28 0.1 0.4 0.56 0.31 0.43 0.47 0.76 0.05 0.26 0.11 0.47 0.81 0.53 0.37 0.82 0.53 1
mh3 0.84 0.87 0.8 0.58 0.4 0.43 0.86 0.63 0.43 0.58 0.84 0.43 0.7 0.68 0.88 0.59 0.53 0.46 0.64 0.45 0.89 0.42 0.46 0.43 0.52 0.38 0.38 0.52 0.53
Bảng 3.8: Ma trận tương quan của các item qua xử lý phiếu hỏi
Nhìn vào Bảng 3.8, ta nhận thấy:
Hầu hết tương quan giữa các item (30 item từ tg1 đến mh3) đều có trị số lớn
hơn 30%. Điều đó chứng tỏ các item trong phiếu trắc nghiệm có tương quan chặt
với nhau và đây là một công cụ đo có độ tin cậy đảm bảo cho phép đánh giá các
điều kiện thuận lợi cho một giáo viên khi xây dựng bộ đề thi trắc nghiệm.
Có thể đánh giá độ tin cậy và phân tích mẫu các phiếu hỏi bằng mô hình
RASCH trên phần mềm QUEST. Trong phạm vi này chúng tôi chỉ nghiên cứu
trên nhóm các item trong thang đo hẹp, cụ thể là phân tích các item trong thang
đo thứ ba: “Mức độ nắm vững kỹ thuật ra đề trắc nghiệm của giảng viên”.
- Tạo file dữ liệu. dat
+ Từ file dữ liệu PHIEU.sav, vào file chọn save as. Xuất hiện cửa sổ
lệnh Save as
+ Trong mục Save as type, chọn FixedASCII(*.dat), gõ vào PHEU
+ Save.
- Trong PFE.EXE, mở open ta thấy file PHIEU.DAT
- Tạo file ctl
+ Trong PFE.EXE, mở file mới.
+ Gõ vào cửa sổ đoạn lệnh.
set width=132!page
DATA_FILE PHIEU.DAT
CODES 01234
FORMAT NAME 1-2 ITEMS 3-18
58
SCALE 1-16! PHIEU
ESTIMATE !iter=50; SCALE=PHIEU >-PHIEU.out
SHOW ! SCALE=PHIEU >-PHIEU.map
SHOW ITEMS ! SCALE=PHIEU >-PHIEU.itm
SHOW CASES ! SCALE=PHIEU; form=export;delimiter=tab >-
PHIEU.cas
ITANAL ! scale=PHIEU >-PHIEU.ITn
Quit
+ Chọn nút ghi, ta có file phieu.ctl
- Trong PFE.EXE, mở open ta thấy có file phieu.ctl
- Từ cửa sổ Quest.exe, ta gõ lệnh
Submit phieu.ctl ENTER
- Trong PFE.EXE, mở open ta thấy có file phieu.map
- Chạy file PHIEU.map để phân tích câu hỏi.
59
Bảng 3.9: Ma trận phân bố của các item phiếu hỏi trong file Phieu.map
QUEST: The Interactive Test Analysis System
------------------------------------------------------------------------------------------------------------
------------------------
Item Estimates (Thresholds)
28/12/ 9 10:22
all on phieu (N = 52 L = 16 Probability Level= .50)
------------------------------------------------------------------------------------------------------------
5.0 |
|
|
|
| 11.4
4.0 |
|
| 3.4
|
|
|
3.0 |
X |
|
XXXX |
|
2.0 |
X |
|
XX |
XXXXXXX | 1.4 16.2
| 12.4
1.0 XX |
XXXX | 9.3
XXXXXXXX | 2.4 4.4 11.3 15.4
| 6.4
XXX | 13.4 14.3
.0 X | 3.3 5.4 7.4 8.3 10.4
|
XX |
XX |
|
X |
-1.0 |
XXXXX | 12.3
|
XXXX |
|
-2.0 X |
|
|
|
X |
|
-3.0 |
X |
|
|
|
-4.0 |
| 4.3 7.3 10.3 13.3 15.3
|
|
|
|
-5.0 |
------------------------------------------------------------------------------------------------------------
------------------------
Each X represents 1 students
60
Sự phân bố giữa mức độ đồng ý của giáo viên được hỏi so với mức độ yêu
cầu của item trong phiếu hỏi là tương đối phù hợp. Phân bố có hình chuông gần
đối xứng qua trục của bảng phân bố.
Để thấy rõ hơn, ta phân tích Bảng 3.10.
Bảng 3.10: Phân bố của các item trong phiếu hỏi
trong khoảng cho phép (infit mean square)
QUEST: The Interactive Test Analysis System
----------------------------------------------------------------------------------------------------------------------------------
Item Fit 28/12/ 9 10:22
all on phieu (N = 52 L = 16 Probability Level= .50)
----------------------------------------------------------------------------------------------------------------------------------
INFIT
MNSQ .63 .67 .71 .77 .83 .91 1.00 1.10 1.20 1.30 1.40 1.50 1.60
----------+---------+---------+---------+---------+---------+---------+---------+---------+---------+---------+---------+
1 item 1 . * | .
2 item 2 . * | .
3 item 3 . * .
4 item 4 . * | .
5 item 5 . * | .
6 item 6 . | .*
7 item 7 . * | .
8 item 8 . | * .
9 item 9 . * | .
10 item 10 . * .
11 item 11 . *| .
12 item 12 . | * .
13 item 13 . | * .
14 item 14 . | . *
15 item 15 . * | .
16 item 16 . * | .
=============================================================================
Nhìn vào bảng ta thấy, hầu hết các item trong tiểu thang đo “Mức độ được
trang bị kỹ thuật ra đề TN” đều nằm trong khoảng cho phép (infit mean square).
Duy chỉ có hai item 6 và 14 là nằm ở ngoài khoảng (chứng tỏ có vấn đề). Theo
chúng tôi, đây là hai câu hỏi có đề cập đến các khái niệm kỹ thuật cao nên một
số người được hỏi chưa nắm được bản chất vấn đề được hỏi.
61
3.2.2. Đánh giá về độ giá trị của công cụ đo và sự phù hợp của mô hình
các yếu tố ảnh hưởng đến chất lượng bộ đề thi TNKQ qua xử lý phiếu hỏi
Tương tự như xem xét độ giá trị của các bộ đề trắc nghiệm [trong phần
3.1.5], độ giá trị của mẫu phiếu hỏi cũng được đánh giá qua các yếu tố:
+ “Độ tin cậy” của phiếu hỏi qua hệ số Cronbach’s Alpha.
+ Hệ số tương quan của mỗi item đối với toàn bộ các item còn lại trong
phiếu hỏi.
+ Ma trận tương quan giữa các item trong cùng một phiếu hỏi.
+ Sự phù hợp giữa mức độ đánh giá cao của trắc nghiệm đối với sự nhất trí
của giáo viên tham gia làm trắc nghiệm.
+ Tính đồng nhất của các item trong cùng một phiếu hỏi.
Với những kết quả đã phân tích trong mục [3.2.1], có thể kết luận mẫu
phiếu hỏi sử dụng trong nghiên cứu có độ giá trị tốt (độ tin cậy cao và phù hợp
với mô hình đo là các yếu tố ảnh hưởng đến chất lượng bộ đề thi TNKQ).
3.3. Kết luận về các yếu tố ảnh hưởng đến chất lượng bộ đề thi TNKQ
Để thấy rõ hơn ảnh hưởng của các yếu tố tác động đến chất lượng bộ đề
TNKQ như thế nào ta tiến hành phân tích hai mẫu “Chất lượng đề thi phản ánh
qua hệ số tin cậy Alpha Cronbach’s” và “Điều kiện thuận lợi phản ánh qua tổng
điểm trên phiếu điều tra”. Để thực hiện được, ta tiến hành
- Nhập số liệu của “Chất lượng đề thi” vào cột biến “chl.đe” - Chất lượng đề thi.
- Nhập số liệu của “Tổng điểm trên phiếu điều tra” vào cột biến “diem.ptn” -
Điểm phiếu trắc nghiệm.
- Chú ý mối quan hệ 1-1 giữa các mẫu trên cùng một giáo viên.
62
Dùng thủ tục Bảng chéo (Crosstabulation) để phân tích mối quan hệ giữa
hai biến “chl.de” và “diem.ptn”.
- Recode lại các biến thành ba nhóm có độ lớn của biến là thấp, vừa và cao.
+ Chia biến “chl.de” thành ba nhóm “Chất lượng đề kém”, “Chất lượng
đề trung bình” và “Chất lượng đề tốt”.
+ Chia biến “diem.ptn” thành ba nhóm “Điểm phiếu hỏi thấp”, “Điểm
phiếu hỏi trung bình” và “Điểm phiếu hỏi cao”.
- Để chia biến (Recode) “chl.de” ta phải xác định các yếu tố: Độ trung bình
(mean); Độ lệch chuẩn (σ = devian standar). Từ đó xác định các mức:
+ Mức thấp là giá trị của biến ≤ mean - 1σ
+ Mức trung bình từ giá trị “ mean - 1σ ” đến giá trị “ mean + 1σ ”
+ Mức cao là giá trị của biến ≥ mean + 1σ
- Áp dụng thủ tục Transform \ Recode \ Into Same Variable cho biến
“chl.de”
63
100.0090.0080.0070.0060.0050.00
diem.ptn
10
8
6
4
2
0
Fr
eq
ue
nc
y
Mean = 76.28
Std. Dev. = 13.22187
N = 50
diem.ptn
Hình 3.2: Phân bố thống kê của biến “diem.ptn”
- Lấy giá trị trung bình (mean) là 76.
- Lấy độ lệch chuẩn Std. Dev là 13
- Mức thấp sẽ là các biến có giá trị nhỏ hơn hoặc bằng 76 - 13 = 63
- Mức cao sẽ là các biến có giá trị lớn hơn hoặc băng 76 + 13 = 89
- Mức trung bình nằm giữa hai giá trị 63 và 89
Sau khi Recode lại biến “ diem.ptn” ta sẽ có biến mới “ diem.ptn.nhom” –
(Biến điểm phiếu trắc nghiệm theo nhóm) nhận các giá trị 1,2,3 ứng với các mức
64
điểm phiếu trắc nghiệm thấp, điểm phiếu trắc nghiệm trung bình và điểm phiếu
trắc nghiệm cao.
Hình 3.3: Biểu đồ phân chia mức khi Recode biến “diem.ptn”
Hình 3.4: Thủ tục Transform \ Recode \ Into Same Variables
65
Hình 3.5: Thủ tục Transform \ Recode \ Into Same Variables khi nhóm biến
Sau khi đã Recode biến, ta quay lại bảng số liệu SPSS để khai báo lại biến
- Trong Sheet Variable chọn Variable view. Chọn biến “diem.ptn.nhom”
- Trong mục giá trị (cột Values), kích vào nút bên phải, xuất hiện bảng
Values Labels. Khai báo thuộc tính nhãn
- Ô value: Nhập 1, ô Value Label nhập nhãn: “Nhóm điểm thấp” \ Add
- Ô value: Nhập 2, ô Value Label nhập nhãn: “Nhóm điểm trung bình” \
Add
- Ô value: Nhập 1, ô Value Label nhập nhãn: “Nhóm điểm cao” \ Ok.
Tiếp tục thực hiện Recode biến đối với biến “chl.de”.
Sử dụng thủ tục Analyze \ Descriptive Statistic \ Frequencities.
66
Ta có được biểu đồ phân bố biến “chl.de” với các thông số “mean”, “
Std.dev” như hình vẽ.
1.000.900.800.700.600.500.400.30
chl.de
12
10
8
6
4
2
0
Fr
eq
ue
nc
y
Mean = 0.642
Std. Dev. = 0.16596
N = 50
chl.de
Hình 3.6: Biểu đồ phân bố biến “chl.de” trên mẫu kết quả thi
của 50 bộ đề TNKQ
Từ đồ thị phân bố biến “chl.de” ta có thể nhận được các thông số
- Giá trị trung bình (mean) = 0.642 lấy tròn là 0.64
- Độ lệch chuẩn (Standar Devian) = 0.165 lấy tròn là 0.16
- Mức thấp sẽ là các biến có giá trị nhỏ hơn hoặc bằng 0.64 – 0.16 = 0.48
- Mức cao sẽ là các biến có giá trị lớn hơn hoặc bằng 0.64 + 0.16 = 0.80
67
- Mức trung bình nằm giữa hai giá trị 0.48 và 0.80
Như vậy ta sẽ có phân bố mức khi Recode lại biến “chl.de” theo hình sau
Hình 3.7: Phân bố mức của biến “chl.de” sau khi Recode
Sau khi dùng thủ tục Transform \ Recode \ Into Same Variables khi nhóm
biến. Ta có được biến mới là “chl.de.nhom” - Chất lượng đề nhóm
Sau khi đã Recode biến, ta quay lại bảng số liệu SPSS để khai báo lại biến
- Trong Sheet Variable chọn Variable view. Chọn biến “chl.de.nhom”
- Trong mục giá trị (cột Values), kích vào nút bên phải, xuất hiện bảng
Values Labels. Khai báo thuộc tính nhãn.
- Ô value: Nhập 1, ô Value Label nhập nhãn: “Nhóm đề chất lượng kém ” \ Add.
- Ô value: Nhập 2, ô Value Label nhập nhãn: “Nhóm đề chất lượng trung
bình” \ Add.
- Ô value: Nhập 1, ô Value Label nhập nhãn: “Nhóm đề chất lượng cao” \ Ok.
68
Bằng cách phân nhóm và khai báo lại nhãn cho các biến mới ta đã có hai
biến mới mang đặc trưng của hai biến ban đầu nhưng được phân bố theo nhóm
điểm số của thang đo. Vấn đề đặt ra là tìm mối quan hệ giãư hai biến này theo
phân bố nhóm.
Áp dụng thủ tục Bảng chéo (Crosstabulation) trong SPSS ta sẽ có kết luận
về mối tương quan này.
Từ thanh menu chọn Statistics \ Summaries \ Crosstabs . Sau đó nhấn nút
reset để phục hồi mặc định của hộp thoại rồi chọn:
Row : “diem.ptn.nhom”
Colum : “chl.de.nhom”
Statistic…
Tích vào hộp Chi – square và hộp Crrelations
Cell..
Counts tích vào hộp Observed và hộp Total
Hình 3.8: Thủ tục Bảng chéo (Statistics \ Summaries \ Crosstabs)
69
Trong Output của thủ tục này ta sẽ có bảng chéo Crosstabs
Hình 3.9: Kết quả bảng chéo Crosstabs giữa hai biến
“diem.ptn.nhom” và “chl.de.nhom”
Nhìn vào bảng ta có thể kết luận:
- Trong 50 mẫu phiếu hỏi có 10 mẫu phiếu cho điểm số thấp, chiếm 20%,
trong đó:
+ 03 phiếu ứng với người có đề chất lương kém, chiếm 30% của nhóm.
+ 03 phiếu ứng với người có đề chất lượng vừa, chiếm 30% của nhóm.
+ 04 phiếu ứng với người có chất lượng đề cao, chiếm 40% của nhóm.
- Trong 50 mẫu phiếu có 30 mẫu cho điểm số trung bình, chiếm 60% tổng
số mẫu, trong đó:
70
+ 05 phiếu ứng với người có chất lượng đề kém, chiếm 16,7% của nhóm
+ 21 phiếu ứng với người có chất lượng đề trung bình, chiếm 70% của nhóm
+ 04 phiếu ứng với người có chất lượng đề cao, chiếm 13,3% của nhóm
- Trong 50 mẫu phiếu hỏi có 10 mẫu cho điểm số cao, chiếm 20% của nhóm
mẫu, trong đó:
+ 07 phiếu ứng với người có chất lượng đề trung bình, chiếm 70% của nhóm.
+ 03 phiếu ứng với người có chất lượng đề tốt, chiếm 30% của nhóm.
Kết luận:
- Bảng chéo Crosstabs cho ta thấy mối quan hệ tương đối giữa các nhóm của
hai mẫu biến “chl.de.nhom” và “diem.ptn.nhom”.
- Các phân tích trên chỉ ra rằng về cơ bản thì đây là tương quan thuận giữa
hai biến “chl.de” và “diem.ptn”.
- Một số phân bố không theo quy luật như “điểm phiếu trắc nghiệm thấp lại
là của người có đề chất lượng cao”. Điều này có thể giải thích là do số lượng
mẫu nghiên cứu là chưa đủ lớn (50 mẫu), hoặc có những người trả lời phiếu trắc
nghiệm không trung thực (điều này có thể xảy ra trong thực tế) do những yếu tố
chủ quan hoặc khách quan.
71
KẾT LUẬN VÀ ĐỀ NGHỊ
A. KẾT LUẬN
Với những nghiên cứu và phân tích ở trên, chúng tôi có thể kết luận.
- Chất lượng của một đề thi TNKQ được đánh giá trên
Các file đính kèm theo tài liệu này:
- Luan van Nguyen Anh TuanDLDG2006.pdf