Tuesday, October 4, 2011

Xây dựng ngân hàng câu hỏi trắc nghiệm (2): Những thông số cần có trong ngân hàng câu hỏi

Một ngân hàng câu hỏi trắc nghiệm theo nghĩa rộng nhất có thể chỉ đơn thuần là một tập hợp các câu hỏi được lưu giữ và sắp xếp để thuận tiện cho việc sử dụng. Theo nghĩa này, thì một ngân hàng câu hỏi thậm chí có thể là bản cứng (trên giấy), chứ không cần có một cơ sở dữ liệu điện tử. Nhưng ngày nay, với sự hỗ trợ mạnh mẽ của máy tính, để được xem là một ngân hàng câu hỏi thì bắt buộc mỗi câu hỏi này còn phải kèm theo những thông số kỹ thuật nữa. Theo lý thuyết trắc nghiệm cổ điển CTT, những thông số đó gồm có: độ khó, độ phân biệt, và chỉ số B.

1. Độ khó
Thông số cơ bản, cũng là điều tối thiểu một ngân hàng câu hỏi phải có, là độ khó/độ dễ của câu hỏi, tiếng Anh gọi là item facility, ký hiệu là IF (ngày xưa gọi là item difficulty). Độ khó này không phải là phán đoán chủ quan của người ra đề (mặc dù đây cũng là một loại thông tin cần thiết trong ngân hàng, nếu có), mà là một con số có được từ thực tế sử dụng (ngôn ngữ của thống kê là “dữ liệu thực nghiệm” – empirical data), tức kết quả kiểm tra của người học trên từng câu (khoa học trắc nghiệm gọi là “dữ liệu đáp ứng” – response data).

Tính độ khó của một câu hỏi trắc nghiệm vô cùng đơn giản, vì nó chỉ là một bài toán chia: lấy số người làm đúng chia cho tổng số người làm. Giá trị của nó là từ 0 (không có ai làm đúng) đến 1 (tất cả mọi người đều làm đúng), nhưng thông thường hai trường hợp này rất hiếm khi xảy ra. Độ khó lý tưởng của một câu trắc nghiệm thì tùy thuộc vào mục đích của người sử dụng, nhưng thông thường người ta thích dùng những câu từ 0.3 (tương đối khó) đến 0.7 (tương đối dễ). Đôi khi có thể nới rộng phạm vi ra từ 0.2 đến 0.9, nhưng ít khi vượt quá mức này, vì lúc ấy chúng trở nên quá khó hoặc quá dễ, và điều này sẽ ảnh hưởng đến độ phân biệt của câu hỏi trắc nghiệm. (Độ phân biệt là một thông số khác, sẽ được đề cập ở phần sau của entry này).

2. Độ phân biệt
Là một thông số quan trọng khác của câu hỏi trắc nghiệm, và cũng rất đơn giản cả về khái niệm lẫn về tính toán. Tiếng Anh gọi độ phân biệt (có người gọi là độ phân cách) là item discrimination, ký hiệu là ID. Đây là một chỉ số đo khả năng phân biệt giữa người làm giỏi và người làm kém của từng câu trắc nghiệm, được tính bằng trung bình điểm từng câu trắc nghiệm của nhóm giỏi trừ trung bình điểm của nhóm kém.

Giá trị của độ phân biệt dao động từ -1 (tất cả mọi người giỏi đều làm sai, điểm trung bình là 0, trong khi tất cả mọi người kém đều làm đúng, điểm trung bình là 1) đến 1 (tình trạng ngược lại). Độ phân biệt được xem là tốt nếu nó có giá trị từ 0.3 trở lên, và tất nhiên là càng cao thì càng tốt. Tuyệt đối trong đề thi không được có câu có độ phân biệt âm (vậy mà trên thực tế thi cử của VN thì vẫn có đấy các bạn ạ, vì thỉnh thoảng tôi vẫn có cơ hội để phân tích số liệu thi cử mà).

Người ta lấy điểm tổng của một bài thi có nhiều câu để làm căn cứ xác định nhóm giỏi và nhóm kém. Tất cả thí sinh được sắp xếp theo thứ tự điểm tổng, và nhóm giỏi được xác định là 1/3 (tức 33%) số thí sinh có điểm cao nhất, còn nhóm kém là 1/3 có điểm thấp nhất. Tuy nhiên, tùy theo tình hình thực tế, người ta cũng có thể lấy một tỷ lệ thấp hơn 33% nhưng không dưới 25% để có được một giá trị cao hơn cho độ phân biệt của từng câu.

3. Chỉ số B
Độ khó là một thông số cơ bản của câu trắc nghiệm và được dùng cho mọi loại trắc nghiệm, còn độ phân biệt thì chỉ sử dụng cho loại “trắc nghiệm chuẩn mực”. Đây là thuật ngữ do cố GS Dương Thiệu Tống đưa ra, nhưng không rõ nghĩa; tôi đề nghị một cách dịch khác là “trắc nghiệm quy chiếu nhóm chuẩn”, trong đó “nhóm chuẩn”, tức “norm group”, là để chỉ nhóm đại diện tiêu biểu cho các thí sinh là đối tượng kiểm tra của bài trắc nghiệm. Đáp ứng của nhóm chuẩn trên bài trắc nghiệm sẽ được sử dụng để tính các thông số cần thiết của câu trắc nghiệm theo các nguyên tắc thống kê. Loại trắc nghiệm này – tiếng Anh là norm-referenced test – được dùng để so sánh các thí sinh với nhau, ví dụ như trong kỳ thi tuyển sinh đại học, cần biết ai giỏi hơn ai để ra quyết định lựa chọn người học trong trường hợp không có đủ chỗ cho mọi thí sinh.

Trong giáo dục còn một loại test khác ngày càng được xem là quan trọng, đó là criterion-referenced test mà cố GS DTT gọi là “trắc nghiêm tiêu chí” (mà tôi đề nghị dịch là trắc nghiệm quy chiếu tiêu chí, trong đó tiêu chí là một căn cứ khách quan bên ngoài để quy chiếu những đáp ứng của thí sinh trên bài kiểm tra). Đối với loại trắc nghiệm này thì độ phân biệt không có ý nghĩa, vì nếu nội dung kiểm tra là quan trọng (ví dụ trong tiếng Anh cần phải dạy cho học sinh biết cách dùng mạo từ), thì nếu mọi thí sinh làm không được (tức độ khó là 0), câu hỏi đó vẫn có ý nghĩa và vẫn phải sử dụng. Trong trường hợp này, để đánh giá giá trị của câu trắc nghiệm, người ta dùng chỉ số B.

Ký hiệu B trong tên gọi chỉ số B là từ viết tắt của tên người đặt ra nó vào năm 1972 là Brennan. B-index được tính toán giống như người ta tính ID, nhưng thay vì so sánh giữa nhóm giỏi và nhóm kém dựa trên kết quả tổng điểm trên cùng một bài thi, thì người ta so sánh giữa nhóm đậu và nhóm rớt trên bài thi đó, dựa trên mức điểm sàn. Ví dụ, một bài thi được quy ước là phải đạt 70% số câu đúng mới được xem là đat, thì mọi thí sinh đạt từ 70/100 điểm trở lên sẽ thuộc nhóm đậu, còn dưới 70 điểm sẽ thuộc nhóm rớt. Chỉ số B-index có giá trị 0.5 chẳng hạn, sẽ được hiểu là số thí sinh thuộc nhóm đậu làm đúng câu này cao hơn số thí sinh thuộc nhóm rớt là 50%. Câu có B-index càng cao thì càng có khả năng phân biệt được thí sinh “thành thạo” và “không thành thạo”.

Tài liệu tham khảo
http://www.grin.com/en/doc/269580/using-the-right-tool-for-the-job-an-analysis-of-item-selection-statistics

The B- Index
The B-index was developed by Brennan (1972) and is based on the concept of discriminating between upper and lower groups in norm-referenced testing. These upper and lower groups are typically defined as the upper and lower twenty-seven percent. Brennan developed an application of discrimination that was appropriate for mastery tests. In a mastery-test context, upper and lower groups are defined by whether or not they are classified as masters. Therefore, B is the difference in the difficulty of the item for the mastery and non-mastery groups. For example, a B value of 0.50 would be interpreted as the proportion correct is .50 higher in the mastery than in the non-mastery group. Larger B values can be interpreted as greater discrimination between mastery and non-mastery groups for that specific item.

(còn tiếp)

1 comment:

  1. Cám ơn cô Phương Anh đã đăng bài viết này. Hiện tôi mong được liên lạc với cô PA qua email để hỏi ý kiến về chuyên môn. email: ndh0811@gmail.com.

    ReplyDelete