Friday, May 14, 2010

Nhập môn thống kê giáo dục (8): Ước lượng trong thống kê suy diễn

Bài này nhằm cung cấp thêm thông tin cho các học viên cao học Đo lường - Đánh giá Khóa 2 đang học môn Thống kê ứng dụng với tôi. Vì tôi nhận thấy các bạn bắt đầu có vẻ cảm thấy khó hiểu từ lúc chuyển từ thống kê mô tả sang thống kê suy diễn rồi.

Mà quả thật, hiểu đúng suy diễn thống kê là một điều không dễ các bạn ạ. Thời nay, khi các phần mềm máy tính có thể giúp người ta thực hiện mọi loại tính toán thống kê trong chỉ vài giây, thì cái khó của thống kê không còn là nhớ công thức và thực hiện các tính toán nữa, mà là hiểu đúng cái tư duy bên dưới các cách tính toán đó. Muốn hiểu, phải đọc nhiều, ngẫm nghĩ nhiều, đặc biệt là từ các ví dụ cụ thể.

Vậy thì đây, các bạn đọc nhé. Tôi chép nguyên văn từ trang wikipedia tiếng Việt, có thể tìm thấy ở đây. Hoặc đọc dưới đây, có gì thắc mắc thì hỏi luôn trong phần comment.

Enjoy!

---
Trong thống kê, một ước lượng là một giá trị được tính toán từ một mẫu thử (échantillon) và người ta hy vọng đó là giá trị tiêu biểu cho giá trị cần xác định trong dân số (population). Người ta luôn tìm một ước lượng sao cho đó là ước lượng "không chệch" (unbiased), hội tụ (converged), hiệu quả (efficient) và vững (robust).

Ví dụ về ước lượng
Muốn xác định độ cao trung bình của trẻ ở độ tuổi 10, ta thực hiện một điều tra trên một mẫu được lấy trên tập thể các trẻ em ở độ tuổi 10 (ví dụ mẫu điều tra là các em học sinh được lấy ngẫu nhiên từ nhiều trường ở nhiều vùng khác nhau). Chiều cao trung bình tính được từ mẫu điều tra này, thường là trung bình tích lũy, sẽ là một ước lượng cho chiều cao trung bình của trẻ em ở độ tuổi 10.

Nếu ta muốn xác định tỷ lệ bầu cử cho ứng cử viên A, ta có thể thực hiện một điều tra trên một mẫu dân số tiêu biểu. Tỷ lệ bầu cho A trong mẫu điều tra là một ước lượng của tỷ lệ bầu cho A của toàn thể dân số.

Giả sử ta muốn xác định tổng số cá có trong hồ, ta bắt đầu bằng cách bắt lên n con cá (ví dụ n=50), đánh dấu chúng, sau đó lại thả xuống hồ cho chúng lẫn với những con khác. Sau đó lấy một mẫu cá bất kỳ trong hồ, tính tỷ lệ p cá bị đánh dấu trong mẫu đó (ví dụ mẫu có 20 con trong đó có 2 con có dấu, p=1/10). Khi đó giá trị n/p (=500) là một ước lượng cho tổng số cá có trong hồ. Nếu trong mẫu không có con cá nào bị đánh dấu, ta thực hiện lại trên một mẫu khác.

Thông thường ta tìm ước lượng cho một trung bình, cho tổng dân số, cho một tỷ lệ hoặc cho một phương sai.

Đánh giá ước lượng
Một ước lượng là một giá trị x (x nhỏ) được tính toán trên một mẫu được lấy một cách ngẫu nhiên, do đó giá trị của x là một biến ngẫu nhiên với kì vọng E(x) và phương sai V(x). Nghĩa là giá trị x có thể dao động tùy theo mẫu thử, nó có ít cơ hội để có thể bằng đúng chính xác giá trị X (X lớn) mà nó đang ước lượng. Mục đích ở đây là ta muốn có thể kiểm soát sự sai lệch giá trị x và giá trị X.

+ Một biến ngẫu nhiên luôn dao động xung quanh giá trị kì vọng của nó. Ta muốn là kì vọng của x phải bằng X. Khi đó ta nói ước lượng là không chệch (unbiased). Trung bình tích lũy trong ví dụ về chiều cao trung bình của trẻ 10 tuổi một ước lượng đúng, trong khi ước lượng về tổng số cá trong hồ được tính như trong ví dụ là một ước lượng không đúng, đó là ước lượng thừa: trung bình tổng số cá ước lượng được luôn lớn hơn tổng số cá có thực trong hồ.

+ Ta cũng muốn là khi mẫu thử càng rộng, thì sai lệch giữa x và X càng nhỏ. Khi đó ta nói ước lượng là hội tụ. [Ở đây tôi cắt bỏ phần công thức toán vì tôi nghĩ các bạn không giỏi toán sẽ không hiểu (giống như tôi!), làm ngăn trở các bạn đọc tiếp. Nhớ rằng trong môn học này tôi chỉ chú trọng phần tư duy thống kê hơn là thao tác thống kê.]

+ Biến ngẫu nhiên dao động quanh giá trị kì vọng của nó. Nếu phương sai V(x) càng bé, thì sự dao động càng yếu. Vì vậy ta muốn phương sai của ước lượng là nhỏ nhất có thể. Khi đó ta nói ước lượng là hiệu quả (efficient).

+ Cuối cùng, trong quá trình điều tra, có thể xuất hiện một giá trị "bất thường" (ví dụ có trẻ 10 tuổi nhưng cao 1,80 m). Ta muốn giá trị bất thường này không ảnh hưởng quá nhiều đến giá trị ước lượng. Khi đó ta nói ước lượng là vững (robust). Có thể thấy trung bình tích lũy trong ví dụ về chiều cao trung bình trẻ 10 tuổi không phải là một ước lượng vững.

Ước lượng của trung bình và phương sai
[Phần này có nhiều ký hiệu và công thức nên tôi không chép vào được, đã bị cắt đi, các bạn đọc trực tiếp trên wikipedia vậy. Sở dĩ như thế là do tôi không biết cách chèn ký hiệu toán học và trong text trực tiếp trên blog như thế này - có lẽ sẽ làm được nếu đánh máy lại trên word chăng?]

Các ảnh hưởng của điều tra đến ước lượng
Phân chia dân số thành các lớp đồng nhất để làm mẫu điều tra có thể làm giảm đáng kể giá trị phương sai của ước lượng, do đó ước lượng sẽ càng hiệu quả.

Lấy mẫu một cách ngẫu nhiên với xác suất không đồng đều, dẫn đến điều tra nhiều lần hoặc co cụm, sẽ làm thay đổi các công thức được tính trên.

Cuối cùng, việc dùng thêm các thông tin phụ hợp lý cho phép chỉnh sửa các ước lượng để có được các kết quả gần với giá trị thật cần ước lượng hơn.

Ước lượng phân phối xác suất
Khả năng ước lượng kì vọng và phương sai cho phép ước lượng các tham số của một phân phối xác suất (phân phối bình thường, phân phối Poisson vv...).

Trong xác suất, ta thường xác định một phân phối xác suất lý thuyết dựa vào các thực nghiệm thống kê. [...] Để làm rõ sự sai khác giữa chúng có đáng kể hay không, ta thực hiện các kiểm định giả thuyết thống kê, trong đó phổ biến nhất là kiểm định χ² (Chi bình phương).
-----
Đọc thêm về ước lượng và khoảng tin cậy tại đây.

2 comments:

  1. Hi Chị PA,

    Ký hiệu Toán học, chị copy and paste trên nhiều Web site. Dùng google, type : mathematical keyboard symbols là có hàng loạt.

    Ngày xưa, cách dây hơn 30 năm ( tôi ra trường 1982 ), tôi học môn Toán Probability and Statistics với ông GS người Anh vào năm thứ hai.Quyển sách ông dùng là : Probality and Statistics for Engineer, tác giả : Irwin Miller and John E. Freund. Hàng năm, số sinh viên bị dánh rớt môn này dến gần 1/2, nên nhiều người rất ngán. Trong trường, nếu sinh viên nào rớt, dược cho học lần thứ hai, và nếu rớt nữa là di ra luôn. Nhiều từ, tôi không biết gọi tiếng Việt là gì như Standard Deviation. Sau này khi di làm, có áp dụng trong hảng sản xuất con chip. Chúng tôi áp dụng trong QA ( Quality Assurance ) và QC ( Quality Control )như nếu Standard Deviation > 3 thì reject cái lot dó etc ... Bên Viet Nam chắc người ta cũng làm vậy.

    Mấy mươi năm sau, vô tình dọc lại môn này, làm cho tôi nhớ lại quảng dời di học năm xưa.

    Văn
    May 14, 2010 12:26 AM

    ReplyDelete
  2. Chào anh Văn,

    Cám ơn anh đã quan tâm và đọc cái môn đáng chán và khô như ngói này!

    Thật thú vị, tôi cũng tốt nghiệp năm 1982! Vậy chắc chắn chúng ta là người đồng thời, hơn kém nhau một vài tuổi gì đó là cùng.

    Và cũng cám ơn anh đã hướng dẫn về công thức toán. Tôi sẽ mò thử, và nếu có gì không rõ thì hỏi anh nhé?

    Nhân tiện, standard deviation dịch tiếng Việt là "độ lệch chuẩn" anh ạ.

    Mong thỉnh thoảng "gặp" anh trên trang blog này.

    Thân
    PA

    ReplyDelete