Chủ Nhật, 16 tháng 8, 2009

Thống kê ANOVA

Trong xác suất thống kê, phân tích phương sai (analysis of variance - viết tắt là ANOVA) là tập hợp của các mô hình thống kê, và các quá trình liên quan của chúng, trong đó phương sai quan sát được (sẵn có) được phân chia thành các thành phần khác nhau dựa theo các biến suy luận khác nhau. Ở hình thức đơn giản nhất, ANOVA có những test thống kê để xem liệu giá trị trung bình của nhiều nhóm khác nhau có bằng nhau hay không, và vì vậy sẽ khái quát hóa Student's t test thành so sánh hơn hai nhóm.

Có ba lớp khái niệm hóa về những mô hình như vậy:

1. Mô hình hiệu ứng cố định cho rằng số liệu đến từ các tổng thể thống kê phân bố chuẩn có thể khác nhau ở giá trị trung bình.
2. Mô hình hiệu ứng ngẫu nhiên cho rằng số liệu miêu tả thứ bậc của các tổng thể thống kê khác nhau trong đó sự khác nhau bị điều khiển bởi thứ bậc.
3. Mô hình hiệu ứng hỗn hợp mô tả các trường hợp trong đó có cả hiệu ứng cố định và ngẫu nhiên.

ANOVA đặc biệt hữu ích trong so sánh các biện pháp can thiệp, điều trị khác nhau ở (những) khách thể khác nhau. Có nhiều loại ANOVA khác nhau tùy thuộc vào số lượng các loại điều trị và cách mà họ sử dụng vào đối tượng nghiên cứu ở trong thực nghiệm:

- ANOVA một chiều được sử dụng để kiểm tra sự khác nhau giữa hai (hoặc nhiều hơn) nhóm độc lập. Thường thì người ta dùng ANOVA một chiều để so sánh sự khác nhau giữa ít nhất là ba nhóm, vì so sánh hai nhóm có thể được thực hiện bởi T-test (Gossett, 1908). Khi chỉ so sánh hai nhóm, T-test và F-test chỉ là một, khi đó mối liên hệ giữa ANOVA và t là F = t2
- ANOVA một chiều cho các đo đạc lặp lại được sử dụng khi các đối tượng nghiên cứu ở trong một nghiên cứu lặp lại, có nghĩa là cùng một đối tượng nghiên cứu, ví dụ cùng một bệnh nhân trầm cảm được điều trị nhiều lần bằng cùng một phương pháp.
- ANOVA giai thừa được sử dụng khi nhà nghiên cứu muốn tìm hiểu về hiệu quả của hai (hoặc nhiều hơn) biện pháp điều trị khác nhau. Hình thức thông dụng nhất của ANOVA giai thừa là 2x2, trong đó có hai biến độc lập và mỗi biến có hai mức độ giá trị phân biệt. ANOVA giai thừa cũng có thể ở đa cấp/đa mức độ như 3x3, vân vân, hoặc cao hơn như 2x2x2. Nhưng ANOVA ở các cấp cao như vậy khó có thể làm bằn tay bởi các phép tính rất dài và phức tạp. Nhưng do sự phổ biến của các phần mềm thống kê (SPSS, R, SAS), việc sử dụng ANOVA trong nghiên cứu trở nên khá phổ biến và thông dụng.
- Nếu chúng ta muốn dùng ANOVA đối với hai (hoặc nhiều hơn) nhóm độc lập sử dụng đo đạc lặp lại, chúng ta có thể sử dụng ANOVA hỗn hợp, trong đó một yếu tố là biến giữa các chủ thế và một yếu tố là biến bên trong các chủ thể. Đây là một hình thức/kiểu của mô hình hiệu ứng hỗn hợp (mixed-effect model).
- Phân tích phương sai nhiều chiều (Multivariate analysis of variance, viết tắt là MANOVA) được sử dụng khi chúng ta phải phân tích nhiều hơn một biến phụ thuộc.

2 nhận xét:

Unknown nói...

cảm ơn bạn đã đăng bài này, bạn có thể viêt một thêm về ANOVA và nêu các ví dụ cụ thể được không? (có thể tính toán trong excel).

Nặc danh nói...

Bài này viết mơ hồ, cho thấy tác giả chưa hiểu về kỹ thuật Mixed Effects Model (gồm Fixed Effects và Random Effects) để phân tích dữ liệu bảng (panel data), dữ liệu đo lặp lại theo thời gian, ... Có cảm giác đây chỉ là một bài dịch của người thiếu kiến thức thống kê học! (là nhận xét chân thành, thẳng thắn, hoàn toàn không có ý khiêu khích gi)
nguyennx