Tài liệu Ứng dụng kỹ thuật phân lớp trong việc phân tích, đánh giá kết quả khảo sát sinh viên cuối khóa tại trường Đại học Quảng Nam - Lê Phước Thành: ỨNG DỤNG KỸ THUẬT PHÂN LỚP TRONG VIỆC PHÂN
TÍCH, ĐÁNH GIÁ KẾT QUẢ KHẢO SÁT SINH VIÊN CUỐI
KHÓA TẠI TRƯỜNG ĐẠI HỌC QUẢNG NAM
Lê Phước Thành1
Tóm tắt: Từ năm học 2015-2016, Trường Đại học Quảng Nam thực hiện khảo sát lấy ý kiến
phản hồi về chất lượng đào tạo đối với sinh viên cuối khóa, mục đích nhằm đo lường và đánh giá
mức độ hài lòng của sinh viên trong toàn khóa học. Dựa trên bộ dữ liệu đã được khảo sát, bên
cạnh phân tích dữ liệu theo phương pháp thống kê truyền thống ta có thể phân tích sâu thêm để
khai phá những thông tin tiềm ẩn nằm trong chính dữ liệu này. Kỹ thuật phân lớp trong khai phá
dữ liệu giúp chúng ta khám phá ra những tri thức mới, hữu ích. Bài viết này được thiết kế nhằm
trình bày tổng quan kỹ thuật phân lớp trong khai phá dữ liệu và khả năng ứng dụng vào lĩnh vực
khảo sát lấy ý kiến phản hồi từ người học. Kết quả của việc nghiên cứu là trích ra những tiêu chí
cơ bản nhất ảnh hưởng đến sự hài lòng của sinh viên khi hoàn thành khóa học từ một số...
10 trang |
Chia sẻ: quangot475 | Lượt xem: 374 | Lượt tải: 0
Bạn đang xem nội dung tài liệu Ứng dụng kỹ thuật phân lớp trong việc phân tích, đánh giá kết quả khảo sát sinh viên cuối khóa tại trường Đại học Quảng Nam - Lê Phước Thành, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
ỨNG DỤNG KỸ THUẬT PHÂN LỚP TRONG VIỆC PHÂN
TÍCH, ĐÁNH GIÁ KẾT QUẢ KHẢO SÁT SINH VIÊN CUỐI
KHÓA TẠI TRƯỜNG ĐẠI HỌC QUẢNG NAM
Lê Phước Thành1
Tóm tắt: Từ năm học 2015-2016, Trường Đại học Quảng Nam thực hiện khảo sát lấy ý kiến
phản hồi về chất lượng đào tạo đối với sinh viên cuối khóa, mục đích nhằm đo lường và đánh giá
mức độ hài lòng của sinh viên trong toàn khóa học. Dựa trên bộ dữ liệu đã được khảo sát, bên
cạnh phân tích dữ liệu theo phương pháp thống kê truyền thống ta có thể phân tích sâu thêm để
khai phá những thông tin tiềm ẩn nằm trong chính dữ liệu này. Kỹ thuật phân lớp trong khai phá
dữ liệu giúp chúng ta khám phá ra những tri thức mới, hữu ích. Bài viết này được thiết kế nhằm
trình bày tổng quan kỹ thuật phân lớp trong khai phá dữ liệu và khả năng ứng dụng vào lĩnh vực
khảo sát lấy ý kiến phản hồi từ người học. Kết quả của việc nghiên cứu là trích ra những tiêu chí
cơ bản nhất ảnh hưởng đến sự hài lòng của sinh viên khi hoàn thành khóa học từ một số lượng
lớn các tiêu chí. Từ đó với những nguồn lực nhất định, nhà trường chỉ cần tập trung cải thiện các
tiêu chí này sẽ góp phần nâng cao chất lượng đào tạo.
Từ khóa: Khai phá dữ liệu, phân lớp, cây quyết định, lý thuyết thông tin, Entropy, độ chính
xác phân lớp.
1. Mở đầu
Thực hiện công văn số 7324/BGDĐT- NGCBQLGD ngày 08/10/2013 của Bộ GD&ĐT về
việc hướng dẫn tổ chức lấy ý kiến phản hồi từ người học về hoạt động giảng dạy của giảng viên,
trường Đại học Quảng Nam giao cho Phòng Khảo thí và Đảm bảo chất lượng tiến hành 2 nhiệm
vụ khảo sát: Khảo sát hoạt động giảng dạy của giảng viên và Khảo sát sinh viên cuối khóa. Theo
đó, hoạt động khảo sát sinh viên năm cuối được thực hiện định kỳ hằng năm vào học kỳ cuối của
khóa học, nhằm mục đích đo lường và đánh giá mức độ hài lòng của sinh viên trong toàn khóa
học, đồng thời tìm ra những cơ hội cải tiến nâng cao chất lượng đào tạo.
Mục tiêu khảo sát nhằm thu thập những phản hồi của sinh viên về tất cả các mặt hoạt động
đào tạo của nhà trường bao gồm chương trình đào tạo, đội ngũ giảng viên, tổ chức quản lý đào tạo,
dịch vụ hỗ trợXuất phát từ mục tiêu đó, Phòng Khảo thí và Đảm bảo chất lượng xây dựng quy
trình tổ chức lấy ý kiến phản hồi từ sinh viên cuối khóa, xử lý dữ liệu và công bố kết quả. Tập
trung nghiên cứu xây dựng bộ công cụ khảo sát (phiếu khảo sát) gồm tiêu chí, chỉ số và mức độ
đánh giá. Công cụ khảo sát này được kiểm định về kích thước mẫu, thang đo và phân tích nhân tố.
Báo cáo kết quả khảo sát, trong đó việc phân tích dữ liệu dựa vào các đại lượng thống kê mô tả,
phân phối tần suất, thông qua điểm số so sánh mức độ đạt được giữa các tiêu chí, giữa các lĩnh
vực, giữa các đơn vị, ...Từ đó báo cáo chỉ ra những tiêu chí cần cải thiện để nâng cao chất lượng
đào tạo.
1 . ThS. Phòng Khảo thí và Đảm bảo chất lượng, trường Đại học Quảng Nam
Qua khảo sát lần đầu tiên này, nhà trường đã sưu tập được số lượng lớn về dữ liệu, bao gồm
kích thước mẫu sinh viên được khảo sát (gần như tổng thể) và lớn về số lượng tiêu chí (40 tiêu
chí). Vấn đề đặt ra còn có thông tin nào (tri thức nào) đang tiềm ẩn trong tập dữ liệu này cần được
khai phá. Có hay không sự ảnh hưởng của một số tiêu chí trong bộ tiêu chí đưa ra dẫn đến kết quả
cuối cùng sự đánh giá của sinh viên về chất lượng đào tạo (kết quả cuối cùng được đánh giá dựa
trên điểm bình quân của tất cả các tiêu chí)?. Nói một cách khác, có một số tiêu chí quan trọng nào
mà sinh viên thật sự quan tâm làm ảnh hưởng đến mức độ hài lòng chung?. Như vậy việc trích ra
những tiêu chí cơ bản đó thật sự rất quan trọng trong việc giúp nhà trường tập trung cải thiện chất
lượng với nguồn lực nhất định. Nghiên cứu về kỹ thuật phân lớp (Classification) trong khai phá
dữ liệu (Data Mining) có khả năng trích ra những tiêu chí này.
2. Nội dung
2.1. Thuật toán phân lớp bằng cây quyết định (Decision Tree)
Kỹ thuật phân lớp trong khai phá dữ liệu bao gồm các tiến trình chính như sau:
- Tập dữ liệu đầu vào: Cấu trúc dạng bảng, gồm dòng là các đối tượng khảo sát, cột là các
thuộc tính (các tiêu chí), trong đó có thuộc tính quyết định việc phân lớp ( đánh giá cuối cùng của
sinh viên về chất lượng đào tạo dựa trên bộ tiêu chí đưa ra),
- Xây dựng mô hình phân lớp: Mô hình là cây quyết định với nút trong là các tiêu chí và nút
lá là kết quả xếp loại, nhánh của cây là mức độ đánh giá của tiêu chí,
- Tìm quy luật/ khám phá tri thức: Bằng cách duyệt cây từ nút gốc đến nút với luật ifthen
- Đánh giá độ chính xác của mô hình phân lớp.
Một cây quyết định có thể được xây dựng bằng cách chia tập dữ liệu nguồn (dữ liệu đã khảo
sát) thành các tập con dựa theo một kiểm tra giá trị thuộc tính. Quá trình này được lặp lại một cách
đệ quy cho mỗi tập con dẫn xuất. Quá trình đệ quy hoàn thành khi không thể tiếp tục thực hiện
việc chia tách được nữa. Cây quyết định là cách biểu diễn đơn giản nhất để tìm ra các quy luật
(dạng ifthen), mỗi luật này được suy ra bằng cách duyệt cây từ nút gốc đến nút lá. Sau đây là
minh họa (hình 1) một phần cây quyết định, hình tròn mô tả các tiêu chí, hình vuông mô tả việc
đánh giá cuối cùng, giá trị nhánh cây là mức độ đánh giá của tiêu chí.
Bằng cách duyệt cây, ta thu được các luật sau:
Nếu (Phương pháp đánh giá tốt) và (Kỹ năng ngoại ngữ khá) thì (Sinh viên đánh giá tốt về
chất lượng đào tạo), hoặc luật
Nếu (Phương pháp đánh giá tốt) và (Kỹ năng ngoại ngữ Trung bình) thì (Sinh viên đánh giá
mức trung bình về chất lượng đào tạo).
Thứ tự chọn thuộc tính làm gốc của cây không phải là sự ngẫu nhiên, nghĩa là phải xác định
tiêu chí nào là tiêu chí quan trọng đầu tiên để xét duyệt. Thuộc tính được chọn đầu tiên là thuộc
tính đem lại lợi nhuận thông tin lớn nhất. Trong toán học, đại lượng Entropy dùng để đo lượng
thông tin chứa trong thuộc tính và chọn ra thuộc tính có lợi nhuận thông tin lớn nhất.
Entropy của tập dữ liệu S đối với việc phân lớp có c lớp:
c
E(S)=∑− pi *log(pi )
i=1
Trong đó pi là tỷ lệ các thể hiện trong tập S thuộc vào lớp i
Tính lợi nhuận thông tin thuộc tính A đối với tập dữ liệu S như sau:
Gain (S,A)= E(S)− ∑E(Sv )
v∈Value(A)
Trong đó Values(A) là tập các giá trị có thể của thuộc tính A, và Sv ={x|x S, xA = v }
2.2. Ứng dụng phân lớp bằng cây quyết định để phát hiện các tiêu chí cơ bản ảnh
hưởng đến chất lượng đào tạo
2.2.1 Giới thiệu phiếu khảo sát phản hồi chất lượng đào tạo của sinh viên khi hoàn thành
khóa học
Phiếu khảo sát được thiết kế và tiến hành khảo sát vào năm 2016, phiếu khảo sát này đã
được kiểm định với các thông số sau:
- Kích thước mẫu (Sample Size)
- Công thức tính kích thước mẫu, với độ tin cậy 95%, kích thước mẫu cần thiết là:
N
n = 2 , với N: số lượng tổng thể, e: Mức ý nghĩa 1-95% 1+ N(e)
n = = 294
V
S
S
Kích thước mẫu tính được là 294 phiếu, cộng với chi phí thất thoát 20% của mẫu là 59 phiếu.
Kích thước mẫu cần đạt là 353 phiếu. Số phiếu thu được là 927 phiếu, nên việc phân tích hoàn
toàn có ý nghĩa thống kê.
- Độ tin cậy của thang đo (Reliability)
Cronbach’s Alpha của thang đo là 0≤0.959≤1, các hệ số tương quan biến tổng của các biến
quan sát trong thang đo đều lớn hơn 0.4 và không có trường hợp loại bỏ biến quan sát nào có thể
làm cho Cronbach’s Alpha của thang đo này lớn hơn 0.959.
- Phân tích nhân tố khám phá (Exploratory Factor Analysis)
+ Tham số KMO: Tham số cho biết sự thích hợp của phân tích nhân tố, điều kiện:
0 .5 ≤KMO =0.965≤1.0
Sig=0.00<0.05, kết luận các biến / câu hỏi có tương quan nhau trong tổng thể
+ Có 5 nhân tố / lĩnh vực được trích ra, giải thích được 55.2 % sự biến thiên của dữ liệu.
+ Hệ số tải nhân tố đều đạt trên 0.4
Kết quả phân tích nhân tố được phân thành 5 lĩnh vực /5 thành phần, mỗi lĩnh vực gồm nhóm
các câu hỏi như sau (Bảng 1):
Bảng 1. Phiếu khảo sát lấy ý kiến phản hồi của sinh viên cuối khóa
Câu Lĩnh vực Tiêu chí
1.
1. Chương
trình đào
tạo
Sinh viên được cung cấp, hướng dẫn đầy đủ về mục tiêu và
chương trình đào tạo của ngành học
2.
Chương trình đào tạo bao gồm các môn học đáp ứng với yêu
cầu nghề nghiệp
3. Chương trình đào tạo mềm dẻo, luôn cập nhật
4.
Chương trình đào tạo có số lượng, khối lượng các môn học phù
hợp
5.
Tỷ lệ phân bố giữa lý thuyết và thực hành/thí nghiệm/thảo
luận trong các môn học hợp lý
6. Các môn học có hình thức, nội dung kiểm tra/ thi phù hợp
7. Các môn học trong chương trình đào tạo có gắn kết với nhau
8. Khóa học giúp SV phát triển đạo đức, nhân cách nghề nghiệp
9. Kế hoạch, nội dung, hình thức và lĩnh vực thực tập phù hợp
10. Hầu hết các GV có kiến thức chuyên môn cao
11. 2. Giảng
viên
Hầu hết các GV có phương pháp giảng dạy tốt
12.
Hầu hết các GV có trách nhiệm, nhiệt tình, sẵn lòng giúp đỡ
người học
13.
Hầu hết các GV có tác phong và ứng xử chuẩn mực trong giảng
dạy
14. Hầu hết các GV đảm bảo giờ lên lớp và kế hoạch giảng dạy
15.
Hầu hết các GV chấm điểm chính xác, công bằng trong kiểm
tra/ thi
16.
Hầu hết các GV khi giảng dạy biết liên hệ giữa các vấn đề
trong lý thuyết với thực tiễn
17.
3. Quản
lý và
phục vụ
Giáo viên chủ nhiệm, giảng viên của Khoa tích cực tư vấn, hỗ
trợ
SV trong suốt quá trình học tập
18. Cán bộ, nhân viên văn phòng có thái độ phục vụ SV tốt
19.
Các chế độ, chính sách (học phí, học bổng, ) luôn công khai,
rõ ràng và giải quyết kịp thời
20. Thư viện có đủ tư liệu, khai thác thông tin, thái độ phục vụ tốt
21.
Nhà trường có đủ cơ sở vật chất, trang thiết bị phục vụ giảng
dạy, học tập
22.
Môi trường, cảnh quan của nhà trường tạo thuận lợi cho việc
học tập và sinh hoạt của SV
23. Kế hoạch học tập được thông báo kịp thời cho SV
24. Kết quả kiểm tra, đánh giá được thông báo kịp thời cho SV
25.
Nhà trường đã tổ chức nhiều hoạt động hỗ trợ để tạo cơ hội việc
làm cho sinh viên
26.
Nhà trường có nhiều hoạt động thiết thực để giáo dục đạo đức,
lối sống, ý thức kỷ luật
27.
Nhà trường tạo điều kiện để SV tiếp xúc với các doanh nghiệp,
đi thực tế, các tổ chức xã hội khác
28.
Nhà trường tạo điều kiện thuận lợi cho SV để phản hồi chất
lượng đào tạo
29.
SV được đảm bảo an toàn trong môi trường học tập và các hoạt
động khác
30.
4. Sinh
hoạt và
đời sống
Các hoạt động Đoàn, Hội và ngoại khóa có tác dụng tốt, thiết
thực
31. Nhà trường đáp ứng tốt nhu cầu văn hóa, văn nghệ của SV
32. Nhà trường đáp ứng tốt nhu cầu thể dục, thể thao của SV
33. Nhà trường đáp ứng tốt nhu cầu nội trú của SV
34. Nhà trường chăm lo tốt sức khỏe của SV
35.
5. Kỹ năng
Khóa học giúp SV nâng cao năng lực tự học, nghiên cứu khoa
học
36. Khóa học giúp SV nâng cao kỹ năng sử dụng ngoại ngữ
37. Khóa học giúp SV nâng cao kỹ năng sử dụng tin học
38. Khóa học giúp SV có kỹ năng tư duy sáng tạo
39. Khóa học giúp SV có kỹ năng hợp tác, làm việc nhóm
40. SV tự tin về khả năng đáp ứng các yêu cầu của nghề nghiệp
2.2.2 . Kết quả cây quyết định với các tiêu chí cơ bản
Với dữ liệu đã được khảo sát, mỗi tiêu chí được đo lường ở thang đo likert 5 (thang điểm 5)
và được nhập liệu bằng phần mềm SPSS với kiểu dữ liệu định lượng (thang đo tỷ lệ-Scale), sau
đó chuyển dữ liệu vào phần mềm SQL Server 2008 R2 với kiểu dữ liệu của tiêu chí là dữ liệu liên
tục (continuous) và thuộc tính nhãn lớp gồm các giá trị xếp loại “Rất tốt”, “Tốt”, “Khá”, “TB
Khá”, “Trung bình”, “Dưới TB”. Việc xếp loại được tính bằng lấy trung bình thang điểm 5 (tương
ứng với mức độ trả lời phiếu) của 40 tiêu chí. Kết quả phân lớp bằng cây quyết định như sau (Hình
2):
LV3_C26_GDDD LV3_C18_NVVP
Hình 2. Kết quả phân lớp bằng cây quyết định với các tiêu chí cơ bản
Kết quả của cây quyết định cho thấy rằng có 5 tiêu chí cơ bản làm ảnh hưởng đến chất lượng
đào tạo của nhà trường, nói cách khác nếu cải thiện tốt 5 tiêu chí này nhà trường sẽ đạt mức độ hài
lòng của sinh viên cao nhất. Năm tiêu chí bao gồm Phương pháp giảng dạy của giảng viên; các
chế độ, chính sách được công khai rõ ràng; kết quả kiểm tra đánh giá được thông báo kịp thời; các
hoạt động ngoại khóa chú trọng giáo dục đạo đức cho sinh viên và thái độ phục vụ của nhân viên
văn phòng. Tại nút LV3_C26_GDDD (hoạt động ngoại khóa giáo dục đạo đức cho sinh viên) kết
hợp với nút LV2_C11_PhuongPhap (phương pháp giảng dạy) được đánh giá cao thì hầu hết sinh
viên đánh giá chất lượng đào tạo ở mức “Rất tốt” (67.5%). Ngược lại, kết hợp với nút
LV3_C18_NVVP (thái độ của nhân viên văn phòng) đánh giá thấp thì hầu như sinh viên đánh giá
ở mức độ “TB Khá” (46.18%) và “Trung bình” (22.49%), thậm chí là mức “Dưới TB” (3.78%).
Với việc tìm ra các tiêu chí cơ bản ảnh hưởng đến chất lượng đào tạo, phần nào cũng lý giải
quan điểm những người làm công tác giáo dục, tâm lý này thường cho rằng có những tiêu chí được
sinh viên cảm nhận tốt thì thường kéo theo các tiêu chí khác cũng đánh giá tốt, vấn đề là tìm ra
những tiêu chí cơ bản nào ảnh hưởng đến thái độ và cảm xúc của sinh viên khi trả lời phiếu khảo
sát.
2.3. Đánh giá độ chính xác phân lớp (Estimate the accuracy of classification)
2.3.1. Độ chính xác
Độ chính xác của mô hình hay độ chính xác của việc phân lớp là khả năng dự đoán chính
xác tập dữ liệu trong tương lai. Độ chính xác của mô hình là tỷ lệ phần trăm của tập dữ liệu dự
đoán được phân lớp đúng theo mô hình.
Mục tiêu của phương pháp phân lớp dữ liệu là dự đoán nhãn lớp cho các mẫu dữ liệu ở tương
lai (tập dữ liệu chưa xác định việc phân loại). Quá trình phân lớp dữ liệu gồm 2 bước: Thứ nhất,
xây dựng mô hình, một mô hình sẽ được xây dựng dựa trên việc phân tích các mẫu dữ liệu sẵn có.
Mỗi mẫu tương ứng với một lớp, được quyết định bởi một thuộc tính gọi là thuộc tính nhãn lớp.
Thứ hai, sử dụng mô hình để phân lớp dữ liệu và tính độ chính xác của mô hình. Nếu độ chính xác
là chấp nhận được, mô hình sẽ được sử dụng để dự đoán nhãn lớp cho các mẫu dữ liệu khác trong
tương lai.
Để đánh giá độ chính xác của mô hình, phương pháp Holdout là một trong những phương
pháp phổ biến nhất được áp dụng trong các phần mềm phân tích dữ liệu chuyên nghiệp hiện nay
như SPSS, SQL Server, ... Dữ liệu ban đầu được phân chia ngẫu nhiên thành 2 phần: tập dữ liệu
huấn luyện (Training Sets) và tập dữ liệu kiểm tra (Testing Sets) rời nhau. Thông thường 2/3 dữ
liệu cấp cho tập dữ liệu huấn luyện dùng để xây dựng mô hình, 1/3 phần còn lại cho tập dữ liệu
kiểm tra để đánh giá mô hình (Hình 3).
Hình 3. Cách đánh giá độ chính xác mô hình
2.3.2 . Kết quả ước lượng độ chính xác bằng biểu đồ nâng (Lift chart )
Biểu đồ nâng trong SQL Server 2008 R2 là hình ảnh trực quan để đánh giá hiệu quả của mô
hình phân lớp. Biểu đồ cho phép người dùng so sánh hiệu quả phân lớp theo 3 cách: theo mô hình
ngẫu nhiên (Random Guess), mô hình lý tưởng (Ideal Model) và mô hình phân lớp thực tế theo
tập dữ liệu (Hình 4).
Hình 4. Biểu đồ nâng đánh giá độ chính xác phân lớp
Trục X: Biểu diễn phần trăm của tập dữ liệu kiểm tra (testing data set) được dùng để so sánh
kết quả dự đoán. Trục Y: Biểu diễn phần trăm giá trị dự đoán theo tập dữ liệu kiểm tra.
Trong trường hợp dự đoán xếp loại “Rất tốt” ta có kết quả các đường dự đoán như sau:
Đường số (1): Đường dự báo kết quả chọn ngẫu nhiên một mẫu dữ liệu không dùng mô hình, giả
sử khi lấy xấp xỉ 50% ngẫu nhiên trên tập dữ liệu kiểm tra thì cũng có 50% dự đoán đúng. Giả sử
tập kiểm tra có 100 mẫu, thì sẽ có 50%*100=50 mẫu dự đoán đúng (lớp Rất tốt), 50%-50%. Đường
số (2): Đường biểu diễn mô hình lý tưởng cho việc dự đoán (dự đoán chính xác 100%), trong
trường hợp này, đỉnh của đường lý tưởng lập đỉnh tại trục x quanh giá trị 23% (chỉ cần chọn 23%
trong tập dữ liệu kiểm tra theo mô hình thì sẽ có 100% dự đoán đúng mô hình). Đường số (3):
Đường dự đoán theo mô hình, đường này lập đỉnh tại trục x quanh giá trị 55% (chỉ cần chọn 55%
trong tập kiểm tra theo mô hình thì sẽ có 100% dự đoán đúng theo mô hình). Khi lập đỉnh tại giá
trị x càng nhỏ thì mô hình dự báo càng tốt. Đường này càng tiệm cận với đường lý tưởng thì đây
là mô hình dự báo tốt (0≤Score=0.90≤1).
Qua phân tích độ chính xác trên cho phép chúng ta dự đoán rằng nếu chọn ra 55% trong tập
sinh viên cần khảo sát cho năm sau khi được cải thiện về 5 tiêu chí trên thì sẽ có 100% trong số
này sẽ đánh giá chất lượng đào tạo của nhà trường là “Rất tốt”.
3 . Kết luận
Khảo sát sinh viên cuối khóa là một phần quan trọng giúp nhà trường đánh giá việc đào tạo
sinh viên trong cả khóa đào tạo. Tác giả cùng với ban khảo sát đã xây dựng phiếu khảo sát với một
bộ tiêu chí đầy đủ các khía cạnh ảnh hưởng đến mức độ hài lòng của sinh viên cuối khóa và được
kiểm định. Báo cáo kết quả khảo sát chủ yếu là phân tích dữ liệu bằng những phương pháp thống
kê truyền thống, chúng ta dựa vào các chỉ báo về thang điểm để đánh giá các tiêu chí, so sánh mức
độ đạt được giữa các tiêu chí, từ đó tìm ra những tiêu chí đánh giá kém và đề xuất nhà trường
những giải pháp cải thiện những tiêu chí đó.
Bài nghiên cứu này với mong muốn thúc đẩy việc ứng dụng kỹ thuật phân lớp trong khai
phá dữ liệu nhằm trích những tiêu chí quan trọng nhất ảnh hưởng đến sự hài lòng của sinh viên
cuối khóa về chất lượng đào tạo. Đây là những tiêu chí được sinh viên quan tâm nhiều nhất (bất
kể kết quả khảo sát các tiêu chí này được đánh giá tốt/ kém), hoặc có thể là những tiêu chí làm ảnh
hưởng đến tâm lý của sinh viên khi trả lời những tiêu chí còn lại. Một đặc điểm quan trọng của kỹ
thuật phân lớp là khi mô hình cây quyết định được chấp nhận (đánh giá về độ chính xác), sẽ dự
báo cho các lần khảo sát tiếp theo. Như vậy những tiêu chí cơ bản này nếu nhận được sự quan tâm
về cải tiến chất lượng thì có khả năng làm tăng sự hài lòng về chất lượng đào tạo của sinh viên
trong khóa đào tạo.
Để đánh giá chất lượng đào tạo, các trường đại học hiện nay thường dùng công cụ khảo sát
nhằm đo lường sự hài lòng của các bên liên quan như: người học, nhà tuyển dụng, cựu sinh viên,
môi trường làm việc của công chức, viên chức; đo lường chỉ số phục vụ hành chính côngKhi
dữ liệu khảo sát được chuẩn hóa, làm đầu vào cho kỹ thuật phân lớp, kỹ thuật này có khả năng áp
dụng vào các loại khảo sát khác nhau.
TÀI LIỆU THAM KHẢO
[1]Phạm Hữu Khang; Hoàng Đức Hải (2002), Lập trình ứng dụng chuyên nghiệp SQL Server
2000, Nhà xuất bản Giáo dục.
[2]Đỗ Phúc (2008), Giáo trình khai thác dữ liệu, Nhà xuất bản Đại học Quốc gia Thành phố
Hồ Chí Minh.
[3]Lê Phước Thành (2016), Báo cáo kết quả khảo sát sinh viên cuối khóa, Trường Đại học
Quảng Nam.
[4]Jiawei Han and Micheline Kamber (2006), Data mining : Concepts & Technique, Morgan
Kaufmann Publishers.
[5]Daniel Calbimonte (2012), Data Mining Introduction, Cambridge, <
sqlservercentral.com>, truy cập ngày 28/04/2016.
Title: APPLYING CLASSIFICATION TECHNIQUES TO ANALYZE AND
EVALUATE THE SENIOR’S SURVEY RESULTS AT QUANG NAM UNIVERSITY
LE PHUOC THANH
Quang Nam University
Abstract: Since the academic year 2015-2016, Quang Nam University has implemented
senior’s feedback surveys on the training quality aims to measure and evaluate student’s
satisfaction of the whole program. Based on the survey data, besides the traditional data analysis
methods, we can also analyze further to explore the underlying information. Classification
techniques in data mining enable us to discover the new and useful knowledge. This article is
designed to present an overview of classification techniques in data mining and their applicability
to the field of learners’ feedback survey. The research result is to extract the most basic criteria
affecting student’s satisfaction from a large number of criteria. As a result, with available
resources, the university can just focus on improving these criteria, which would contribute to
raising the training quality.
Keywords: Data Mining, classification, decision tree, information theory, Entropy, accuracy of
classification.
Các file đính kèm theo tài liệu này:
- 12_ung_dung_ky_thuat_phan_lop_trong_viec_phan_722_2130875.pdf