Tài liệu Xác định cỡ mẫu trong nghiên cứu y học khi không có công thức: Phương pháp giả lập: Nghiên cứu Y học Y Học TP. Hồ Chí Minh * Phụ Bản Tập 22 * Số 1 * 2018
Chuyên Đề Y tế Công cộng – Khoa học Cơ bản 348
XÁC ĐỊNH CỠ MẪU TRONG NGHIÊN CỨU Y HỌC
KHI KHÔNG CÓ CÔNG THỨC: PHƯƠNG PHÁP GIẢ LẬP
Thái Thanh Trúc*, Bùi Thị Hy Hân**
TÓM TẮT
Mở đầu: Tính toán cỡ mẫu là một bước quan trọng trong xây dựng đề cương nghiên cứu khoa học. Từ
nhu cầu ngày càng đa dạng các mục tiêu, cách triển khai nghiên cứu và sự thiếu hụt các công thức tính cỡ
mẫu tương ứng thì việc tính toán cỡ mẫu dựa vào phương pháp giả lập trở nên hữu ích.
Mục tiêu: Ứng dụng tính cỡ mẫu theo phương pháp giả lập và so sánh kết quả với các công thức hiện
có.
Đối tượng - Phương pháp nghiên cứu: Quy trình 5 bước để tính cỡ mẫu dựa vào giả lập số liệu được
sử dụng với một số tình huống nghiên cứu, bao gồm so sánh hai trung bình, so sánh hai tỉ lệ và xây dựng
mô hình hồi quy logistic. Tất cả thuật toán giả lập số liệu và phân tích thống kê được thực hiện bằng phần
mềm Stata.
Kết quả: Các lệnh Stat...
7 trang |
Chia sẻ: Đình Chiến | Ngày: 13/07/2023 | Lượt xem: 338 | Lượt tải: 0
Bạn đang xem nội dung tài liệu Xác định cỡ mẫu trong nghiên cứu y học khi không có công thức: Phương pháp giả lập, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
Nghiên cứu Y học Y Học TP. Hồ Chí Minh * Phụ Bản Tập 22 * Số 1 * 2018
Chuyên Đề Y tế Công cộng – Khoa học Cơ bản 348
XÁC ĐỊNH CỠ MẪU TRONG NGHIÊN CỨU Y HỌC
KHI KHÔNG CÓ CÔNG THỨC: PHƯƠNG PHÁP GIẢ LẬP
Thái Thanh Trúc*, Bùi Thị Hy Hân**
TÓM TẮT
Mở đầu: Tính toán cỡ mẫu là một bước quan trọng trong xây dựng đề cương nghiên cứu khoa học. Từ
nhu cầu ngày càng đa dạng các mục tiêu, cách triển khai nghiên cứu và sự thiếu hụt các công thức tính cỡ
mẫu tương ứng thì việc tính toán cỡ mẫu dựa vào phương pháp giả lập trở nên hữu ích.
Mục tiêu: Ứng dụng tính cỡ mẫu theo phương pháp giả lập và so sánh kết quả với các công thức hiện
có.
Đối tượng - Phương pháp nghiên cứu: Quy trình 5 bước để tính cỡ mẫu dựa vào giả lập số liệu được
sử dụng với một số tình huống nghiên cứu, bao gồm so sánh hai trung bình, so sánh hai tỉ lệ và xây dựng
mô hình hồi quy logistic. Tất cả thuật toán giả lập số liệu và phân tích thống kê được thực hiện bằng phần
mềm Stata.
Kết quả: Các lệnh Stata sử dụng để giả lập số liệu ngắn gọn. Kết quả tính cỡ mẫu chính xác và tương
đồng so với công thức tính cỡ mẫu hiện có. Phương pháp này có thể áp dụng được để tính cỡ mẫu cho các
trường hợp phức tạp như mô hình hồi quy logistic.
Kết luận: Do không có đầy đủ công thức tính cỡ mẫu cho tất cả các tình huống nghiên cứu trong thực
tế, việc tính cỡ mẫu dựa vào phương pháp giả lập số liệu cho thấy khả thi và chính xác. Tuy nhiên, việc triển
khai phương pháp này đỏi hỏi kỹ thuật chuyên môn về toán thống kê, về lập trình cùng sự am hiểu phần
mềm sử dụng tính cỡ mẫu mới đảm bảo được độ chính xác mong muốn.
Từ khóa: cỡ mẫu, nghiên cứu y học, giả lập, công thức.
ABSTRACT
SAMPLE SIZE DETERMINATION IN MEDICAL RESEARCH WITHOUT FORMULA:
SIMULATION APPROACH
Thai Thanh Truc, Bui Thi Hy Han
* Y Hoc TP. Ho Chi Minh * Supplement Vol. 22 - No 1- 2018: 347 - 353
Introduction: Sample size determination is an important step in designing a research protocol. Due to
the need for various types of research objective and design as well as the lack of corresponding sample size
calculation formula, sample size calculation using simulation becomes an useful approach.
Objectives: To apply sample size calculation by simulation and to compare the results with existing
formulas.
Methods: We employed 5 steps in calculating sample size by data simulation for some research
scenarios, including sample size to compare two means, sample size to compare two proportions and logistic
regression. All algorithm for data simulation and data analysis were conducted using Stata.
Results: Stata commands used to simulate data were brief. The results were precise and similar to those
obtained from existing formulas. This approach can be used to calculate sample size for complex situations
such as logistic regression.
* Khoa YTCC, ĐH Y Dược TPHCM, ** Viện Y Tế Công Cộng TPHCM
Tác giả liên lạc: TS. Thái Thanh Trúc ĐT: 0908381266 Email: thaithanhtruc@ump.edu.vn
Y Học TP. Hồ Chí Minh * Phụ Bản Tập 22 * Số 1 * 2018 Nghiên cứu Y học
Y tế Công cộng 349
Conclusion: Due to the lack of sample size formula for all research scenarios in the real life, calculating
sample size using data simulation has been showed as a practical and precise approach. However, this
approach requires advanced knowledge about statistics, programming and the software used to ensure the
calculation precision.
Keywords: sample size, medical research, simulation, formula.
GIỚI THIỆU
Tính toán cỡ mẫu là một bước quan trọng
trong xây dựng đề cương nghiên cứu khoa
học. Ứng với mỗi mục tiêu nghiên cứu đặt ra,
nhà nghiên cứu tìm kiếm công thức tính cỡ
mẫu và các tham số từ y văn để tính ra cỡ mẫu
dự trù cần có cho nghiên cứu của mình(5). Ví
dụ, với mục tiêu ước tính tỉ lệ hiện mắc tăng
huyết áp trong cộng đồng, nhà nghiên cứu có
thể sử dụng công thức tính cỡ mẫu để ước tính
một tỉ lệ hiện mắc. Sau đó, dựa vào tỉ lệ tăng
huyết áp tìm được trên y văn và sai số của ước
lượng kèm mức độ tin cậy của ước lượng sẽ
tính được cỡ mẫu tương ứng(5,8). Tuy nhiên,
không phải lúc nào nhà nghiên cứu cũng có
công thức tính cỡ mẫu cho mục tiêu nghiên
của mình, đặc biệt là các trường hợp nghiên
cứu phức tạp.
Khi không có công thức tính cỡ mẫu, nhiều
nhà nghiên cứu thường hay chọn cỡ mẫu dựa
theo kinh nghiệm hoặc các quy tắc lòng bàn
tay mặc dù điều này có thể không hoàn toàn
chính xác(3, 8). Ví dụ, một số ít nhà nghiên cứu
cho rằng cỡ mẫu 30 đối tượng là đủ cho các
nghiên cứu lâm sàng. Mặc dù điều này giúp
tăng tính khả thi của nghiên cứu, nhưng độ
chính xác trong các tính toán hoặc phân tích
kiểm định thống kê khi đã thu thập xong dữ
liệu lại không cao. Một khi cỡ mẫu không đủ
chính xác, các phép kiểm định không đủ sức
mạnh thống kê thì nghiên cứu có thể không có
giá trị và không thể ứng dụng trong thực tế.
Một trong các cách tiếp cận tính cỡ mẫu trong
trường hợp không có công thức là dựa vào giả
lập ngẫu nhiên dữ liệu ứng với thông tin của
các đặc điểm trong nghiên cứu và các kiểm
định, mô hình vốn có sẵn trên hầu hết phần
mềm thống kê để có được cỡ mẫu đảm bảo độ
chính xác và sức mạnh thống kê phù hợp(2, 9).
Từ nhu cầu ngày càng đa dạng các mục
tiêu, cách triển khai nghiên cứu thì việc tính
toán cỡ mẫu dựa vào phương pháp giả lập số
liệu này càng trở nên hữu ích(7). Bài báo của
chúng tôi nhằm giới thiệu nguyên tắc, phương
pháp triển khai của kỹ thuật tính toán cỡ mẫu
này trong nghiên cứu. Tuy nhiên, để cụ thể
hóa và giúp so sánh được với các phương
pháp tính cỡ mẫu truyền thống, tức là khi có
công thức, phạm vi bài báo này dừng ở các
tình huống về tính cỡ mẫu khi so sánh hai
trung bình và khi so sánh hai tỉ lệ. Bài báo
cũng áp dụng tính cỡ mẫu cho tình huống
phức tạp hơn là hồi quy logistic.
PHƯƠNG PHÁP
Sức mạnh thống kê
Về mặt toán thống kê, sức mạnh thống kê,
còn gọi là lực mẫu, được hiểu là xác suất bác
bỏ H0 khi H0 sai(8). Về mặt nghiên cứu có thể
hiểu đơn giản hơn sức mạnh thống kê là xác
suất nghiên cứu kết luận có liên quan có ý
nghĩa thống kê khi thật sự có liên quan vốn đã
được báo cáo trên y văn. Ví dụ, sức mạnh
thống kê bằng 80% có nghĩa là nếu tiến hành
100 nghiên cứu thì sẽ có khoảng 80 nghiên cứu
cho kết luận có liên quan. Ở đây, thông
thường ‘có liên quan’ được quy ước là khi giá
trị p của nghiên cứu nhỏ hơn 0,05. Cho nên,
sức mạnh thống kê 80% cũng có nghĩa là có 80
nghiên cứu cho kết quả giá trị p < 0,05 khi tiến
hành phân tích trên 100 mẫu nghiên cứu. Nếu
khi phân tích trên 100 mẫu nghiên cứu mà có
60 nghiên cứu cho p < 0,05 thì sức mạnh thống
kê tương ứng là 60%. Đây chính là cơ sở cho
các phương pháp giả lập số liệu để từ đó xác
định cỡ mẫu phù hợp. Nguyên tắc triển khai
Nghiên cứu Y học Y Học TP. Hồ Chí Minh * Phụ Bản Tập 22 * Số 1 * 2018
Chuyên Đề Y tế Công cộng – Khoa học Cơ bản 350
của phương pháp này là giả lập số liệu nhiều
lần và đếm tỉ lệ số lần có p<0,05 trong tất cả
các lần giả lập số liệu đó.
Quy trình tính cỡ mẫu dựa vào giả lập
Quy trình này bao gồm 5 bước, được thể
hiện trong Hình 1 bên dưới:
Bước 1: Tạo các mẫu ngẫu nhiên với n1
quan sát dựa vào thông tin trong dân số về các
đặc điểm nghiên cứu
Bước 2: Thực hiện kiểm định thống kê hoặc
xây dựng mô hình trên dữ liệu ngẫu nhiên để
có được giá trị p
Bước 3: Thực hiện lại bước 1 và 2 nhiều lần
ứng với nhiều mẫu ngẫu nhiên khác nhau và
tính tỉ lệ số lần có giá trị p < 0,05. Tỉ lệ này
chính là sức mạnh thống kê tương ứng với cỡ
mẫu n1
Bước 4: Tăng cỡ mẫu n1 thành n2 = n1 + k và
lập lại bước 1, 2, 3 để có được sức mạnh thống
kê tương ứng với cỡ mẫu n2
Bước 5: Cỡ mẫu cần thiết cho nghiên cứu là
ni khi sức mạnh thống kê ứng với ni ≥ 80%.
Hình 1: Quy trình tính cỡ mẫu dựa vào phương pháp giả lập số liệu
KẾT QUẢ
Tình huống 1: cỡ mẫu so sánh hai trung bình
Nhà nghiên cứu muốn triển khai một khảo
sát nhằm so sánh chỉ số khối cơ thể (BMI) ở
thành thị và nông thôn Việt Nam. Để tính
được cỡ mẫu theo phương pháp giả lập dữ
liệu thì cần có các tham số của dân số, có thể
dựa vào nghiên cứu trước đây. Trong trường
hợp này, sau khi tham khảo y văn, nhà nghiên
cứu biết được trung bình BMI ở thành thị là
21,2 ± 4,5 (kg/m2) và ở nông thôn là 20,5 ± 4,2
(kg/m2). Như vậy, thành thị có µThành thị = 21,2;
σThành thị = 4,5 và nông thôn có µNông thôn = 20,5;
σNông thôn = 4,2. Áp dụng quy trình giả lập để
tính cỡ mẫu khi so sánh trung bình hai nhóm
khi biết trung bình và độ lệch chuẩn của các
nhóm như sau:
Bước 1: Tạo hai mẫu ngẫu nhiên với cùng
cỡ mẫu n = 100, trong đó mẫu thứ nhất có n1 =
100; x1 = 21,2; sd1 = 4,5 và mẫu thứ hai có n2 =
100; x2 = 20,5; sd2 = 4,2.
Y Học TP. Hồ Chí Minh * Phụ Bản Tập 22 * Số 1 * 2018 Nghiên cứu Y học
Y tế Công cộng 351
Bước 2: Thực hiện kiểm định t hai mẫu độc
lập để có được giá trị p
Bước 3: Thực hiện lại bước 1 và 2 trong
1000 lần ứng với 1000 mẫu ngẫu nhiên khác
nhau và tính tỉ lệ số lần có giá trị p < 0,05 trong
tổng số 1000 mẫu ngẫu nhiên.
Bước 4: Tăng cỡ mẫu n1 = n1 + 50 và n2 = n2
+ 50 và lặp lại bước 1, 2, 3 với cỡ mẫu 150. Tiếp
tục tăng cỡ mẫu lên thành 200, 250, , 850, 900
và tính sức mạnh thống kê tương ứng với
từng cỡ mẫu.
Bước 5: Cỡ mẫu cần thiết cho nghiên cứu là ni
khi sức mạnh thống kê ứng với ni ≥ 80%.
Bảng 1: Các lệnh giả lập dữ liệu để tính cỡ mẫu so
sánh hai trung bình trong Stata
TT Lệnh Stata Giải thích
1 qui set seed 123 Khai báo mã ngẫu
nhiên
2 forvalues n = 100(50)900 { Mẫu n=100, 150900
3 local power = 0 Sức mạnh ban đầu
4 forvalues i = 1(1)1000 { Chạy 1000 lần bước
1,2
5 quiet clear Xóa dữ liệu mỗi lần
6 quiet drawnorm thanhthi,
mean(20.5) sd(4.2) n(`n')
Tạo mẫu ngẫu nhiên 1
7 quiet drawnorm nongthon,
mean(21.2) sd(4.5) n(`n')
Tạo mẫu ngẫu nhiên 2
8 quiet ttest thanhthi ==
nongthon, unpaired
Kiểm định t độc lập
9 if r(p)< 0.05 local power =
`power' + 1
Đếm số lần p<0,05
10 }
11 local power = `power'/1000 Tính tỉ lệ p<0,05
12 di "N = `n' -> Power = `power'" Thể hiện ra màn hình
13 }
Bảng 2: Cỡ mẫu và sức mạnh thống kê
Cỡ
mẫu
Sức mạnh thống kê
Tình huống 1: So
sánh hai trung
bình
Tính huống 2:
So sánh hai tỉ lệ
Tình huống 3:
Hồi quy logistic
100 0,196 0,363 0,311
150 0,281 0,527 0,418
200 0,373 0,636 0,544
250 0,425 0,745 0,647
300 0,481 0,810 0,726
350 0,556 0,880 0,819
400 0,608 0,910 0,856
450 0,682 0,942 0,901
500 0,693 0,957 0,921
Cỡ
mẫu
Sức mạnh thống kê
Tình huống 1: So
sánh hai trung
bình
Tính huống 2:
So sánh hai tỉ lệ
Tình huống 3:
Hồi quy logistic
550 0,766 0,964 0,926
600 0,804 0,977 0,957
650 0,833 0,981 0,968
700 0,847 0,990 0,980
750 0,877 0,996 0,984
800 0,893 0,996 0,982
850 0,911 0,999 0,991
900 0,930 1,000 0,996
Kết quả từ bảng 2 cho thấy nếu sử dụng cỡ
mẫu N = 100 cho nghiên cứu so sánh BMI ở
thành thị và nông thôn ứng với các thông tin
của dân số đã biết thì sức mạnh thống kê khi
thực hiện kiểm định so sánh là 0,196 (19,6%).
Khi tăng cỡ mẫu lên thành N = 200 thì sức
mạnh thống kê đã có cải thiện và đạt mức
0,281 (28,1%) nhưng vẫn còn quá thấp để triển
khai nghiên cứu.
.2
.3
.4
.5
.6
.7
.8
.9
1
S
ứ
c
m
ạ
n
h
t
h
ố
n
g
k
ê
100 200 300 400 500 600 700 800 900
Cỡ mẫu
Hình 2: Cỡ mẫu và sức mạnh thống kê
Hình 2 thể hiện mối liên hệ giữa cỡ mẫu và
sức mạnh thống kê. Khi cỡ mẫu tăng thì sức
mạnh thống kê tăng và ngược lại. Khi cỡ mẫu
là 600 thì sức mạnh thống kê là 0,804 (80,4%)
đã vượt mức 0,80 (80%). Như vậy, cần có ít
nhất 600 đối tượng ở thành thị và 600 đối
tượng ở nông thôn để tiến hành nghiên cứu.
Khi cỡ mẫu tăng thêm thì sức mạnh thống kê
sẽ tiếp tục tăng, nhưng sẽ tăng không đáng kể
so với mức tăng của cỡ mẫu. Ví dụ, khi cỡ mẫu
tăng từ 100 lên 200 thì sức mạnh thống kê tăng
0,177 (17,7%), nhưng khi cỡ mẫu tăng từ 600
Nghiên cứu Y học Y Học TP. Hồ Chí Minh * Phụ Bản Tập 22 * Số 1 * 2018
Chuyên Đề Y tế Công cộng – Khoa học Cơ bản 352
lên 700 thì sức mạnh thống kê chỉ tăng thêm
0,043 (4,3%).
Với thông tin nghiên cứu như trên và áp
dụng công thức tính cỡ mẫu để so sánh hai trung
bình bằng công thức có sẵn sau đây thì cỡ mẫu
cần có ít nhất 607 mỗi nhóm với kỳ vọng sai lầm
loại 1 là 0,05 (5%), sai lầm loại hai là 0,20 (20%) và
sức mạnh thống kê là 0,80 (80%).
Tình huống 2: cỡ mẫu so sánh hai tỉ lệ
Nghiên cứu nhằm so sánh tỉ lệ biến chứng
ở hai phương pháp điều trị. Dựa vào hồi cứu y
văn, tỉ lệ biến chứng ở phương pháp truyền
thống là khoảng =30%. Nhà nghiên cứu
muốn so sánh phương pháp cải tiến với kỳ
vọng tỉ lệ biến chứng giảm 10%, còn =20%.
Các bước giả lập dữ liệu để tính cỡ mẫu như
sau:
Bước 1: Tạo hai mẫu ngẫu nhiên với cùng
cỡ mẫu n = 100, trong đó mẫu thứ nhất có tỉ lệ
=30% và mẫu thứ hai có =20%.
Bước 2: Thực hiện kiểm định Z so sánh tỉ lệ
hai mẫu để có được giá trị p
Bước 3: Thực hiện lại bước 1 và 2 trong
1000 lần ứng với 1000 mẫu ngẫu nhiên khác
nhau và tính tỉ lệ số lần có giá trị p < 0,05 trong
tổng số 1000 mẫu ngẫu nhiên.
Bước 4: Tăng cỡ mẫu n1 = n1 + 50 và n2 = n2
+ 50 và lặp lại bước 1, 2, 3 với cỡ mẫu 150. Tiếp
tục tăng cỡ mẫu lên thành 200, 250, , 850, 900
và tính sức mạnh thống kê tương ứng với
từng cỡ mẫu.
Bước 5: Cỡ mẫu cần thiết cho nghiên cứu là
ni khi sức mạnh thống kê ứng với ni ≥ 80%.
Kết quả chạy lệnh trong Stata được thể
hiện trong bảng 2 và cho thấy nếu sử dụng cỡ
mẫu N = 100 cho nghiên cứu so sánh tỉ lệ biến
chứng ở hai phương pháp điều trị thì sức
mạnh thống kê khi thực hiện kiểm định so
sánh là 0,363 (36,3%). Khi tăng cỡ mẫu lên
thành N = 300 thì sức mạnh thống kê đã cải
thiện và vượt qua mức thường dùng là 80%.
Như vậy, nghiên cứu có thể triển khai với cỡ
mẫu N = 300 mỗi nhóm với kỳ vọng sức mạnh
thống kê sẽ vào mức 0,810 (81%).
Bảng 3: Các lệnh giả lập dữ liệu để tính cỡ mẫu so
sánh hai tỉ lệ trong Stata
TT Lệnh Stata Giải thích
1 qui set seed 123 Khai báo mã ngẫu
nhiên
2 forvalues n = 100(50)900 { Mẫu n=100,
150900
3 local power = 0 Sức mạnh ban đầu
4 forvalues i = 1(1)1000 { Chạy 1000 lần bước
1,2
5 quiet clear Xóa dữ liệu mỗi lần
6 quiet set obs `n' Khai báo số quan sát
7 quiet gen truyenthong =
runiform() <= 0.3
Tạo mẫu ngẫu nhiên
1
8 quiet gen caitien = runiform()
<= 0.2
Tạo mẫu ngẫu nhiên
2
9 quiet prtest truyenthong =
caitien
Kiểm định Z
10 local p = 2*normprob(-abs(r(z))) Tính giá trị p
11 if `p’ < 0.05 local power =
`power' + 1
Đếm số lần p<0,05
12 }
13 local power = `power'/1000 Tính tỉ lệ p<0,05
14 di "N = `n' -> Power = `power'" Thể hiện ra màn hình
15 }
Với thông tin nghiên cứu như trên và áp
dụng công thức tính cỡ mẫu để so sánh hai tỉ
lệ bằng công thức có sẵn sau đây thì cỡ mẫu
cần có ít nhất 294 mỗi nhóm với kỳ vọng sai
lầm loại 1 là 0,05 (5%), sai lầm loại hai là 0,20
(20%) và sức mạnh thống kê là 0,80 (80%).
Tình huống 3: cỡ mẫu cho xây dựng mô hình
hồi quy logistic
Nghiên cứu nhằm dự báo tình trạng sinh
nhẹ cân ở trẻ sinh ra bằng phương pháp thụ tinh
trong ống nghiệm, trong đó yếu tố quan trọng
cần đánh giá là tuổi thai. Qua tham khảo y văn,
tác giả ghi nhận được phương trình hồi quy
logistic sử dụng tuổi thai để dự báo tình trạng
sinh nhẹ cân là: Logit (Nhẹ cân) = 32,3 – 0,9 x
Y Học TP. Hồ Chí Minh * Phụ Bản Tập 22 * Số 1 * 2018 Nghiên cứu Y học
Y tế Công cộng 353
Tuổi thai, trong đó tuổi thai có phân phối bình
thường với trung bình là 38,6 tuần và phương sai
là 0,36 [Tuổi Thai ~ N(38,6; 0,36)]. Các bước giả
lập dữ liệu để tính cỡ mẫu như sau:
Bước 1: Tạo mẫu ngẫu nhiên cho tuổi thai
với n = 100, trung bình là 38,6 và độ lệch chuẩn
là 0,6. Tạo mẫu ngẫu nhiên cho nhẹ cân dựa
vào phương trình hồi quy logistic trên y văn.
Bước 2: Thực hiện hồi quy logistic của nhẹ
cân theo tuổi thai để có được giá trị p của tuổi
thai
Bước 3: Thực hiện lại bước 1 và 2 trong
1000 lần ứng với 1000 mẫu ngẫu nhiên khác
nhau và tính tỉ lệ số lần có giá trị p < 0,05 trong
tổng số 1000 mẫu ngẫu nhiên.
Bước 4: Tăng cỡ mẫu n = n + 50 và lặp lại
bước 1, 2, 3 với cỡ mẫu 150. Tiếp tục tăng cỡ
mẫu lên thành 200, 250, , 850, 900 và tính sức
mạnh thống kê tương ứng với từng cỡ mẫu.
Bước 5: Cỡ mẫu cần thiết cho nghiên cứu là
ni khi sức mạnh thống kê ứng với ni ≥ 80%.
Bảng 4: Các lệnh giả lập dữ liệu để tính cỡ mẫu cho
hồi quy logistic trong Stata
TT Lệnh Stata Giải thích
1 qui set seed 123 Khai báo mã ngẫu
nhiên
2 forvalues n = 100(50)900 { Mẫu n=100,
150900
3 local power = 0 Sức mạnh ban đầu
4 forvalues i = 1(1)1000 { Chạy 1000 lần
bước 1,2
5 quiet clear Xóa dữ liệu mỗi lần
6 quiet drawnorm tuoithai,
mean(38.6) sd(0.6) n(`n')
Tạo mẫu ngẫu
nhiên
7 quiet gen nhecan = uniform() <
invlogit(32.3 - 0.9 * tuoithai)
Tạo mẫu ngẫu
nhiên cho nhẹ cân
8 quiet logit nhecan tuoithai Hồi quy logistic
9 quiet matrix define p = r(table) Lấy giá trị p ra
10 if p[4,1] < 0.05 local power =
`power' + 1
Đếm số lần p<0,05
11 }
12 local power = `power'/1000 Tính tỉ lệ p<0,05
13 di "N = `n' -> Power = `power'" Thể hiện ra màn
hình
14 }
Kết quả chạy lệnh trên Stata được thể hiện
trong bảng 2 và cho thấy nếu sử dụng cỡ mẫu
N = 100 cho nghiên cứu thì sức mạnh thống kê
khi xây dựng mô hình hồi quy logistic chỉ ở
mức 0,311 (31,1%). Khi tăng cỡ mẫu lên thành
N = 350 thì sức mạnh thống kê đã cải thiện và
vượt qua mức thường dùng là 80%. Như vậy,
nghiên cứu có thể triển khai với cỡ mẫu N =
350 với kỳ vọng sức mạnh thống kê sẽ vào
mức 0,819 (81,9%).
BÀN LUẬN
Mặc dù công thức tính cỡ mẫu có thể giúp
nhà nghiên cứu ước tính được số lượng đối
tượng cần có cho nghiên cứu, nhưng nhiều
trường hợp nghiên cứu không có công thức
tính cỡ mẫu tương ứng. Phương pháp tính cỡ
mẫu dựa vào việc giả lập số liệu từ thông tin
đã biết về dân số để từ đó có thể áp dụng các
kiểm định hoặc mô hình thống kê phân tích
nhằm tính sức mạnh thống kê như đã trình
bày bên trên tỏ ra là một trong các phương
pháp thay thế hiệu quả, chính xác. Điểm thuận
lợi của phương pháp này là không cần công
thức tính bởi vì nhà nghiên cứu có thể dùng
các kiểm định và mô hình vốn đã có sẵn ở hầu
hết các phần mềm thống kê, ví dụ như Stata(9).
Với sự phát triển của toán thống kê cùng sự
trợ giúp của máy tính, các kiểm định thống kê
và mô hình gần như đã có đủ cho tất cả các
loại dữ liệu, ví dụ kiểm định t để so sánh hai
trung bình, kiểm định ANOVA để so sánh
nhiều trung bình, hồi quy tuyến tính, hồi quy
logistic(6, 8). Cho nên, phương pháp này có thể
được thực hiện cho hầu hết các loại dữ liệu
khác nhau, kể cả các mô hình phức tạp(9). Kết
quả kiểm chứng khi so sánh cỡ mẫu nếu dùng
công thức sẵn có cho kết quả tương tự nhau.
Tuy nhiên, phương pháp giả lập số liệu để
tính cỡ mẫu cũng có những khó khăn nhất
định. Đầu tiên, việc triển khai giả lập đòi hỏi
nhà nghiên cứu có kiến thức cơ bản về thuật
toán và lập trình trên phần mềm sử dụng để
giả lập nhằm triển khai tính toán chính xác. Ví
dụ, cần biết về mã lập trình của Stata để tính
cỡ mẫu trên Stata hoặc mã lập trình của R để
Nghiên cứu Y học Y Học TP. Hồ Chí Minh * Phụ Bản Tập 22 * Số 1 * 2018
Chuyên Đề Y tế Công cộng – Khoa học Cơ bản 354
tính cỡ mẫu trên R. Thứ hai, việc giả lập số
liệu có thể gặp khó khăn nếu không có kiến
thức chuyên sâu về thống kê. Ví dụ, trong tình
huống 3, để tính được xác suất của nhẹ cân thì
cần áp dụng công thức của hồi quy logistic là r
= ea + bx / (1+ea + bx)(6,8). Trong Stata, việc tính toán
xác suất này được thực hiện thông qua hàm
invlogit (dòng 7, Bảng 4)(1). Thứ ba, trong một
số trường hợp mô hình phức tạp thì việc
lượng giá có ý nghĩa thống kê hay không để từ
đó tính sức mạnh thống kê có thể bị sai lệch
do giá trị p không hẳn đã đánh giá chính xác
độ phù hợp của mô hình mà còn phải dựa vào
các chỉ số đánh giá độ phù hợp mô hình khác(3,
4). Cuối cùng, với các mô hình phức tạp, cỡ
mẫu tính được theo phương pháp giả lập có
thể không thuyết phục được nhiều nhà nghiên
cứu bởi chưa có công thức hoặc cách khác
nhằm kiểm chứng mức độ chính xác của cỡ
mẫu tính được.
KẾT LUẬN
Do không có đầy đủ công thức tính cỡ mẫu
cho tất cả các tình huống nghiên cứu trong
thực tế, việc tính cỡ mẫu dựa vào phương
pháp giả lập số liệu cho thấy khả thi và chính
xác. Tuy nhiên, việc triển khai phương pháp
này đỏi hỏi kỹ thuật chuyên môn về toán
thống kê, về lập trình cùng sự am hiểu phần
mềm sử dụng tính cỡ mẫu mới đảm bảo được
độ chính xác mong muốn. Việc nghiên cứu các
công thức tính cỡ mẫu tương ứng với sự đa
dạng trong thực tế nghiên cứu là cần thiết.
TÀI LIỆU THAM KHẢO
1. Baum CF (2009), An Introduction to Stata Programming,
CRC Press Inc, pp.47-49.
2. Bush S (2015), "Sample Size Determination for Logistic
Regression: A Simulation Study". Communications in
Statistics - Simulation and Computation, 44 (2): 360-373.
3. Harrell FE (2001), Regression modeling strategies: with
applications to linear models, logistic regression, and
survival analysis, Springer, New York, pp.230-234.
4. Hosmer DW, Lemeshow S, Sturdivant RX (2013), Applied
logistic regression, Wiley, Hoboken, New Jersey, pp.90-93.
5. Hulley SB (2013), Designing clinical research, Wolters
Kluwer/Lippincott Williams & Wilkins, Philadelphia,
pp.65-96.
6. Kirkwood BR, Jonathan AC Sterne (2003), Essential
medical statistics, Blackwell Science, Malden, Mass,
pp.189-192.
7. Landau S, Stahl D (2013), "Sample size and power
calculations for medical studies by simulation when
closed form expressions are not available". Stat Methods
Med Res, 22 (3): 324-45.
8. Rosner B (2011), Fundamentals of biostatistics,
Brooks/Cole, Cengage Learning, Boston, pp.427-431.
9. Vasishth S, Broe M (2011), The Foundations of Statistics: A
Simulation-based Approach, Springer Berlin Heidelberg,
Berlin, Heidelberg, pp.81-96.
Ngày nhận bài báo: 02/11/2017
Ngày phản biện nhận xét bài báo: 17/11/2017
Ngày bài báo được đăng: 15/03/2018
Các file đính kèm theo tài liệu này:
- xac_dinh_co_mau_trong_nghien_cuu_y_hoc_khi_khong_co_cong_thu.pdf