Friday, January 13, 2012

Hai phương pháp đánh giá chất lượng câu hỏi trắc nghiệm

Entry này là một phần của nội dung “tập huấn” mà tôi sẽ trình bày sáng mai tại một trường đại học trong TP HCM. Đại khái, có một trường nọ muốn xây dựng một ngân hàng đề thi tiếng Anh để làm tăng hiệu quả và chất lượng của công tác dạy – học của trường. Và trong mấy năm liền, BM này đã có những cố gắng viết/ tập hợp và phân loại những câu hỏi kiểm tra môn tiếng Anh theo một thiết kế được xác định sẵn. Đến nay, họ đã có được một tập hợp kha khá những câu hỏi được phân loại, và cũng đã thực hiện phân tích câu trắc nghiệm (item analysis) để tìm ra độ khó, độ phân cách của các câu trắc nghiệm của mình.

Mặc dù đã có những cố gắng nhưng BM vẫn lúng túng không rõ mình làm như vậy đã thực sự tốt chưa. Một số những câu hỏi đang được đặt ra là: Làm sao biết những câu hỏi của mình là thực sự tốt? Những tiêu chí cần đạt cho một câu hỏi tốt (một bài kiểm tra tốt) là gì? Quy trình đánh giá một câu hỏi hoặc một bài kiểm tra được thực hiện ra sao?

Các bạn có quan tâm đến vấn đề này cũng có thể search trên trang blog này nhiều bài viết khác của tôi về kiểm tra, đánh giá, và trắc nghiệm. Và nếu ai đọc mà có thắc mắc và muốn trao đổi thêm thì xin mail cho tôi nhé, vtpanh@gmail.com.

----
(i) Phương pháp “chuyên gia” (kiểm tra chéo)

- Phải có bản đặc tả trước khi xây dựng bài kiểm tra
- Hai chuyên gia xây dựng hai bài kiểm tra tương đương trên cùng một bản đặc tả
- Nhất thiết phải xây dựng xong đáp án trước khi kiểm tra chéo
- Chuyên gia đóng vai thí sinh (không được cung cấp đáp án) để làm bài. Thời gian hoàn tất bài kiểm tra của chuyên gia chỉ được bằng từ 1/2 đến 2/3 thời gian của thí sinh. Nếu chuyên gia phải tốn thời gian bằng hoặc hơn thời gian của thí sinh thì sẽ đánh giá không chính xác năng lực của thí sinh (quá khó hoặc quá ít thời gian).
- Những câu sai sẽ là cơ hội để hai chuyên gia trao đổi lại và đi đến thống nhất.
- Những tiêu chí đánh giá chất lượng câu hỏi/ bài kiểm tra: phù hợp với đối tượng và mục đích kiểm tra; có giá trị (kiểm tra được chính xác những gì mình muốn kiểm tra; điểm số có ý nghĩa rõ ràng, không gây tranh cãi); và đáng tin cậy (cho điểm số ổn định, không có những thay đổi bất thường khi thay đổi bối cảnh kiểm tra hoặc người chấm bài, vv). Ngoài ra, bài kiểm tra còn cần khả thi trong điều kiện của trường/ khoa/ bộ môn.

(ii) Phương pháp “thực nghiệm” (thử nghiệm trên mẫu)

- Mẫu thử nghiệm và đề kiểm tra phải thực sự tương đương với kỳ thi thật
- Sau khi thử nghiệm, cần thực hiện phân tích dữ liệu ứng đáp để tính độ khó và độ phân cách theo định nghĩa dưới đây:
- Độ khó = số thí sinh trả lời đúng/ tổng số thí sinh trả lời câu hỏi
- Độ phân cách = điểm trung bình của nhóm giỏi – điểm trung bình của nhóm yếu (tính trên đơn vị câu)
- Ý nghĩa của kết quả phân tích:
- Độ khó từ 0.2 đến 0.9 là dùng được, nhưng đa số nên nằm trong khoảng 0.3 đến 0.8. Những câu nằm ngoài phạm vi trên cần xem xét để điều chỉnh lại độ khó.
- Độ phân cách tốt khi có giá trị 0.3 trở lên. Tuy nhiên độ phân cách chỉ cần thiết cho những bài thi có tính cạnh tranh, hoặc cần phân biệt rõ các trình độ (vd placement test). Tuyệt đối không sử dụng câu có độ phân biệt âm. Độ phân biệt dưới 0.2 cũng có thể cần xem xét lại.

1 comment:

  1. Em đoán đây là ngân hàng đề thi (multiple choices - MC). Nếu là MC thì có 1 cái checklist ở đây http://testing.byu.edu/info/handbooks/betteritems.pdf

    Theo kinh nghiệm của em, để đánh giá 1 ngân hàng MC questions thì có 2 cấp độ quan tâm:
    1. Đánh giá từng tùy chọn
    2. Đánh gia từng câu hỏi

    Trong phương pháp "thực nghiệm" thì nên chọn 2 nhóm, 1 nhóm có học qua về nội dung câu hỏi, 1 nhóm hoàn toàn mù tịt về nội dung câu hỏi. Nhóm thứ 2 sẽ giúp mình loại bỏ những câu hỏi vô tình có clues trong đó.

    ReplyDelete