Sunday, April 11, 2010

Nhập môn thống kê giáo dục (4): "Thống kê với khoa học xã hội"

Một phần khác trong bài viết của cố GS Dương Thiệu Tống mà tôi đã đăng trên blog này trong loạt bài Nhập môn thống kê giáo dục, bài số 3.
---

[...]Đây là một vấn đề lớn khá phức tạp, vì vậy tôi chỉ xin nêu một vài điểm căn bản liên hệ đến lý thuyết thống kê ta đang đề cập mà thôi.

Như ta đã biết, mọi tiên đoán trong tất cả các lĩnh vực khoa học đều chứa đựng sai số. Hai nguồn gốc của sai số ấy là sự khái quát hóa quy nạp và đo lường. Hai tính chất “mong manh” này của khoa học thực nghiệm không phải là những yếu tố phân biệt các lý luận khoa học tự nhiên với các lý luận khoa học xã hội mặc dù xác suất loại trừ các sai số này có thể giảm đi một cách đáng kể trong trường hợp các quy luật đã được xác nhận đúng đắn lồng trong một lý luận được phát triển ở mức cao và với các dụng cụ đo lường tinh vi. Như vậy, xét về phương diện nguồn gốc của sai số này thì sự khác biệt giữa khoa học “chính xác” và “không chính xác” quả là không đúng và sự khác biệt giữa cái được gọi là khoa học “cứng” và khoa học “mềm” chỉ là sự khác biệt về khoa học mà thôi. Ta có thể nhận thấy rõ sự khác biệt về mức độ này nếu xét đến hai đặc tính “khép kín” (closure) và “hoàn chỉnh” (completeness) của một số các thuyết vật lý học. Tính chất thứ nhất đòi hỏi rằng các khái niệm hay biến số căn bản được lồng trong một thuyết nào đó chỉ tác động qua lại với nhau mà thôi chứ không tác động với một biến số nào khác vào một thời điểm và địa điểm nhất định. Tính chất thứ hai nêu lên rằng các biến số thực sự tạo nên một sự khác biệt hay thay đổi nào đó phải đầy đủ, nghĩa là không được bỏ sót trong việc phát biểu các lý luận. Các thuyết cơ học thiên văn và nhiệt động học phi – nguyên tử là hai thuyết vật lý cổ điển, tuy nhiên mỗi thuyết đều gần như “đầy đủ” và “khép kín”, xét về phương diện các biến mà mỗi thuyết đều đề cập đến. Trong thuyết thứ nhất các biến số khối lượng, vận tốc, khoảng cách tác động với nhau và chỉ có chúng tác động qua lại với nhau mà thôi; trong thuyết thứ hai, đó là những biến số: thể tích, nhiệt độ, áp suất và một số các biến số khác cũng tác động với nhau như vậy. Các thuyết này gồm các quy luật theo đó ta có thể tính ra bất cứ lúc nào các trị số của một biến số này nếu ta biết được các trị số của tất cả các biến số khác. Không có cái gì khác xảy ra vào thời điểm và địa điểm nào đó có thể ảnh hưởng tới hành vi của các tính chất mà lý thuyết đề cập đến, ngoài những biến số mà thuyết đã nêu ra; hoặc ít nhất là ta cũng phải kể đến những yếu tố bên ngoài có thể gây ảnh hưởng khi ta đưa ra những điều tiên đoán hay tính toán. Tầm mức “hoàn chỉnh” và “khép kín” của các thuyết vật lý học ấy như thế nào, đó là vấn đề mà các nhà khoa học vật lý ngày nay có thể thẩm định.

Ở đây tôi chỉ nêu lên thí dụ ấy để thấy rõ rằng xét về hai đặc tính trên đây thì khoa học xã hội khó lòng đạt được các tiêu chuẩn ấy. Muốn xác định được tính “hoàn chỉnh” và “khép kín” của bất cứ hệ thống nào, trước hết ta phải làm sao đoán chắc được rằng không có cái gì bên ngoài hệ thống ảnh hưởng đến nó hoặc biết rằng những cái gì đi vào và đi ra hệ thống. Nói cách khác ta cần phải biết tất cả các biến số liên hệ. Nhưng khoa học xã hội làm thế nào thỏa mãn được điều kện này với tất cả những phức tạp của nó ít nhất là với tình trạng hiểu biết của ta hiện nay. Tính “khép kín” trong khoa học xã hội khó có thể xác định vì các tác động tương hỗ giữa các biến số không phải bao giờ cũng có tính cách nghịch đảo và đối xứng trong khoa học tự nhiên. Trong các lý thuyết vật lý, nếu một biến số x là một hàm số của biến số khác y, không những ta biết rằng một sự thay đổi nào đó ở y đem đến một sự thay đổi ở x mà ta còn biết rằng đều nghịch đảo cũng vẫn đúng. Ta cũng còn biết thêm rằng những gì xảy ra cho một biến số nếu thiếu một biến số kia. Trong khoa học xã hội, nếu ta biết rằng A và nguyên nhân gây ra B, ít khi có trường hợp ta có thể nói những sự thay đổi ở B sẽ ảnh hưởng như thế nào đến A hay là cái gì sẽ xảy ra cho B nếu không có A. Mặt khác tính “hoàn chỉnh” của khoa học xã hội cũng là một vấn đề thực khó khăn vì không một khoa học xã hội nào tự nó đạt được “tính hoàn chỉnh”. Mọi lý luận về hành vi của con người đều chứa đựng các biến số liên hệ đến các yếu tố chính trị, kinh tế, tâm lý, xã hội v.v. Vì tất cả các yếu tố này tác động lẫn nhau cho nên mỗi khoa học xã hội đều phụ thuộc ít hay nhiều vào những khám phá trong lĩnh vực khoa học khác.

Chính vì những khó khăn và thiếu sót trên mà khoa học xã hội phải nghĩ ra và ngày càng phát triển các kỹ thuật đặc biệt để hoàn chỉnh kiến thức trong lĩnh vực của mình hầu có thể sánh vai với các khoa học khác. Thống kê là một trong các kỹ thuật thiết yếu ấy. Mặc dù hiện nay vẫn còn có khoảng trống khá lớn giữa kiến thức thống kê với những gì ta cần phải biết và muốn biết trong lĩnh vực khoa học xã hội, các kỹ thuật thống kê, trong phạm vi những giới hạn của nó có thể cung cấp cho ta một phương pháp đạt dần đến “tính khép kín” và “hoàn chỉnh” của khoa học, những tiêu chuẩn tưởng chừng như không bao giờ đạt tới được và trở thành một dụng cụ không thể thiếu được của khoa học xã hội.

Trong mọi khoa học, như ta đã biết việc tìm hiểu các qui luật đòi hỏi phải có sự trừu tượng hóa hay là sự lựa chọn trong tất cả các khả năng mà thế giới bên ngoài có thể trưng bày ra cho ta. Vì vậy, các quy luật do tự bản chất của chúng chỉ mô tả một số khía cạnh nhất định của các loại sự vật hay biến cố mà chúng ta coi là có sự liên hệ. Vậy trong khoa học xã hội, biến số nào cần phải lựa chọn, cái gì cần phải loại ra, đó là một vấn đề khó khăn tưởng chừng như không thể giải quyết nổi. Sự tiến bộ về học tập của sinh viên đại học chẳng hạn, có thể phụ thuộc vào nhiều biến số, nhưng chiều cao và sức nặng của anh ta có lẽ không phải là những biến số đáng cho ta để ý. Nhưng ngay cả đến những biến số khác có thể có ảnh hưởng, như chương trình học, phương pháp giảng dạy của thầy giáo, trí thông minh, kinh nghiệm học tập, tình trạng gia đình v.v. cũng quá nhiều và quá khó khăn khiến cho ta khó có thể xác định tầm quan trọng tương đối của mỗi biến số để từ đó đưa ra một phát biểu nào đó về mối tương quan chính xác giữa sự tiến bộ về học tập của sinh viên và các yếu tố khác liên hệ.

Nhưng trước vấn đề khó khăn như vậy, nhà khoa học xã hội không chịu bó tay. Họ sử dụng cái mà thống kê học gọi là: “những biến số ngẫu nhiên” ta hãy đưa ra đây một thí dụ quen thuộc của nhà thống kê học là gieo một con xúc xắc. Khi ta gieo một con xúc xắc, mặt nào đó sẽ xuất hiện tùy thuộc vào rất nhiều nguyên nhân: trọng tâm của con xúc xắc, sức ném v.v. Nếu ta thử cố gắng tính toán các kết quả của mỗi lần thử bằng những quy luật cơ học thì chắc chắn ta sẽ tuyệt vọng vì ta khó đo lường chính xác tất cả mọi điều kiện ban đầu. Thay vì làm như vậy, ta biểu thị tất cả những nguyên nhân đa dạng ấy bằng một phân bố xác xuất cho một thuộc tính nào đó mà ta quan tâm đến. Nhà khoa học xã hội cũng làm như vậy. Họ cố ý lựa chọn một số ít yếu tố nào đó thay vì tất cả các yếu tố ảnh hưởng đến hành vi của con người, chuyển mục tiêu từ việc tiên đoán những hành vi cá nhân hay từng biến cố riêng lẽ đến việc tiên đoán “biến số ngẫu nhiên”, nghĩa là tiên đoán tần số xảy ra của loại hành vi ấy trong một nhóm cá nhân đông đảo có các yếu tố đã được xác định. Đó là cái giá mà họ phải trả. Cái phần thưởng dành cho họ là thay vì ngồi “nguyền rủa trong bóng tối” trước sự phức tạp vô hạn của con người và xã hội, họ “đốt lên được ngọn nến” để soi sáng một lĩnh vực mà họ muốn tìm hiểu, tuy đó không phải là sự hiểu biết về từng biến cố riêng rẽ mà là một phân bố xác suất, nhưng kiến thức ấy không phải là vô giá trị.

[Chỗ này viết rất hay, và nêu đúng bản chất của KHXH cũng như lý do tại sao thống kê lại cần thiết đến thế cho KHXH. Tiếc rằng hiện nay việc dạy thống kê cho các ngành KHXH vẫn chưa được chú trọng đúng mức.]

Những ý niệm trên đây dẫn đến việc sử dụng cái gọi là các “phương trình ngẫu nhiên” (stochastic equations) trong việc tiên đoán ngày nay. Chẳng hạn, xác xuất thành công của học sinh ở trường học được biểu thị như là một hàm số của trí thông minh. Các trị số quan sát của tần số thành công bị ảnh hưởng bởi các sai số quan sát. Nếu ta biết được phân bố xác suất của các sai số ấy ta có thể tiên đoán về xác xuất thành công cho một mức hay chỉ số thông minh nào đó. Như vậy kết quả tiên đoán của ta là một hàm số của cả trí thông minh (thường được đo bằng thương số trí tuệ) lẫn phân bố sai số. Trong vật lý học cũng vậy. Chẳng hạn, áp suất được đo lường ở một nhiệt độ cố định là hàm số của thể tích cộng hay trừ một sai số đã biết liên hệ đến đo lường thể tích. Nếu không có sai số quan sát thì mối liên hệ được phát biểu giữa áp suất và thể tích là chính xác, không cần phải có thêm phần tử thống kê. Tuy nhiên trong thí dụ của ta ở đây, cũng như trong khoa học xã hội nói chung, dù không có sai số hay dù thuyết sai số cho phép ta tách ra phần sai số số ấy, ta vẫn không thể tiên đoán được các trị số của cá nhân mà chỉ tiên đoán được một phân bố xác suất mà thôi. Đó là vì ngoài các sai số đo lường ra còn có một loại sai số khác, không liên hệ gì đến một biến số đặc biệt nào mà nằm ngay chính trong phương trình . Ta điều biết rằng không phải chỉ có trí thông minh mới ảnh hưởng đến sự tiến bộ của học sinh mà có rất nhiều các yếu tố khác, có thể rất nhỏ, đã bị bỏ qua, cho nên các yếu tố này có thể được biểu thị bằng một biến riêng biệt. Trong trường hợp này, ta có thể nói rằng mối liên hệ nêu ra trong phương trình là đúng nhưng ta phải kể thêm trong đó một phần “nhiễu” (disturbance). Phần nhiễu này phải có một phân bố xác suất đã được biết, không bị ảnh hưởng bởi những thay đổi của các biến số. Như vậy, trong thí dụ của ta ở đây, sự thành công của học sinh được biểu thị như là một hàm số của trí thông minh (thương số trí tuệ) và một biến số ngẫu nhiên. Phần gọi là ngẫu nhiên này biểu thị tác động hỗn hợp của tất cả các yếu tố không được xác định hay chưa được biết. Lối biểu thị như thế rất được thông dụng ngày nay trong khoa kinh tế học lý thuyết cũng như trong tâm lý học thực nghiệm. Do đó, người ta phân chia các biến số ra hai loại: các biến số hệ “thống” (systematic) bao gồm các biến số đã được xác định và nêu ra trong lý luận và các biến số “nhiễu” bao gồm tất cả các biến số khác không xác định hay chưa biết. Với sự hiểu biết ngày càng gia tăng về các nguồn gốc của sai số quan sát và với sự cải thiện các dụng cụ đo lường, ta sẽ có thể giảm thiểu sai số gây nên do các yếu tố này, đồng thời với sự hiểu biết gia tăng về các nguyên nhân ảnh hưởng đến hành vi của con người ta sẽ có thể giảm thiểu sai số trong phương trình bằng cách phân tích các yếu tố gọi là “nhiễu” ra thành các phần tử, và như vậy, dần dần ta có thể đạt đến mức “hoàn chỉnh” cao hơn của các biến số trong lĩnh vực nghiên cứu.

Tóm lại, qua phần trình bày trên đây, ta thấy rằng chính vì sự thiếu tính “hoàn chỉnh” và “khép kín” tương đối của khoa học xã hội so với khoa học tự nhiên mà thống kê xác suất trở thành một dụng cụ không thể thiếu được của nhà khoa học xã hội. Nhà khoa học xã hội không thể bó tay trước sự phức tạp của những nguyên nhân ảnh hưởng đến hành vi của con người và cũng không thể tin rằng mọi hành vi là do ngẫu nhiên không thể tiên đoán được. Bằng lý luận thống kê xác suất, họ gộp tất cả các nguyên nhân chưa xác định hay chưa biết trong cái gọi là “biến số ngẫu nhiên” và tìm hiểu phân bố xác suất của nó. Những biến số này không phải là ngẫu nhiên vĩnh viễn. Với kiến thức ngày càng gia tăng, họ có thể giảm thiểu được các sai số, thu hẹp lại phần gọi là “nhiễu” bằng cách phân tích nó ra thành bộ phận, nhờ đó đạt đến mức kiến thức ngày càng sâu rộng hơn, chính xác và hoàn chỉnh hơn trong lĩnh vực khoa học của mình.
---
Dương Thiệu Tống (2005). Thống kê ứng dụng trong nghiên cứu khoa học giáo dục (trang 139-167). NXB Khoa học xã hội. In tại TP. Hồ Chí Minh.

No comments:

Post a Comment