Sunday, May 31, 2020

Làm thế nào để nói dối bằng thống kê? Phần mở đầu

Phần dịch dưới đây là do tôi thực hiện từ cuốn sách nhỏ How to lie with statistics của Darrell Huff, xuất bản lần đầu ở Mỹ năm 1954 (hình như thế), và đã được tái bản rất nhiều lần. Bản in giấy mà tôi có trong tay được in năm 1993.

Tôi đặt mua cuốn sách này qua amazon vào khoảng năm 1998, khi vừa hoàn thành xong luận án tiến sĩ từ Úc. Đó là lần đầu tiên tôi được tiếp cận và rất thích thú khi sử dụng thống kê trong nghiên cứu và cảm thấy mình cần phải củng cố căn bản thống kê nhiều hơn nữa. Vì trước đó có được học gì đâu.

Từ đó đến nay đã hơn 30 năm rồi. Rất nhiều thứ đã thay đổi trong ngành giáo dục của chúng ta trong đó không thể nói là không có những tiến bộ đáng khen ngợi.  Nhưng riêng về việc dạy thống kê cho học sinh sinh viên thì tôi thấy hình như vẫn dậm chân tại chỗ, nếu không nói là có đôi chỗ tệ đi. Vì ngày nay việc phân tích thống kê đã trở nên quá dễ dàng với  các phần mềm chuyên dụng, nên ai cũng có thể chạy ra một lô số liệu mà không hiểu gì hết và diễn giải lung tung nhưng vẫn được người khác nghe và tin tưởng.

Vì vậy tôi cảm thấy mình cần phải dịch ít ra là một vài phần quan trọng của cuốn sách nhỏ này ra để chia sẻ với mọi người. Cũng khá mất thì giờ nên không nhanh được; ai hứng thú thì xin góp tay với tôi nhé (nhưng phải khá tiếng Anh và có chút background về thống kê mới được).

Nào, xin mời các bạn.
------


Statistical thinking will be one day as necessary for efficient citizenship as the ability to read and write. (H.G.Wells)

 "Sẽ có ngày tư duy thống kê trở thành một kỹ năng cần thiết để sống có hiệu quả với tư cách là một công dân, chẳng kém gì khả năng đọc và viết." 

----- 
Lời cảm tạ 
Những ví dụ nhỏ về những lỗi sai và ngụy biện khi dùng thống kê được nêu trong tập sách này đã được thu thập từ nhiều nơi và được nhiều người trợ giúp. Sau lời kêu gọi của tôi thông qua Hiệp hội Thống kê Hoa Kỳ, một số nhà thống kê chuyên nghiệp - những người mà không cần nói thì bạn cũng biết là vốn rất căm ghét việc lạm dụng số liệu thống kê - đã gửi cho tôi các ví dụ từ bộ sưu tập của mình. Những người này, tôi đoán, sẽ hoàn toàn vui lòng khi không thấy tên mình ở đây. Tôi cũng tìm thấy một số ví dụ có giá trị trong một số cuốn sách, chủ yếu là: Thống kê kinh doanh, do Martin A. Brumbaugh và Lester S. Kellogg; Đánh giá ý kiến ​​công chúng, do Hadley Cantril; Trình bày đồ họa, do Willard Cope Brinton; Thống kê kinh doanh thực hành, do Frederick E. Croxton và Dudle J. Cowden; Thống kê cơ bản, do George Simpson và Fri Kafka; và Phương pháp thống kê sơ cấp, của Helen Walker. 

Mở đầu 

"Ở khu này có rất nhiều tội phạm", cách đây không lâu bố vợ tôi đã tuyên bố như thế sau khi ông rời Iowa để đến California. Và quả đúng là vậy - nếu tin vào tờ báo mà ông đã đọc. Đó là một tờ báo cần mẫn không bỏ qua bất cứ tin tức nào về tội phạm trong khu vực, và được biết tờ báo này đưa tin về một vụ giết người tại Iowa còn kỹ hơn là tờ nhật báo lớn trong khu vực xảy ra vụ giết người ấy. 

Kết luận của bố vợ tôi cũng có thể xem là một kiểu thống kê. Nó được dựa trên một mẫu (sample), dù đó là một mẫu rất thiên lệch (biased). Cũng giống như nhiều số liệu thống kê phức tạp hơn, thống kê của bố vợ tôi mắc lỗi giả định sai khi cho rằng số lượng và độ dài của những bài báo viết về tội phạm là một số đo chính xác về tội phạm. 

Vào mùa đông cách đây vài năm một số nhà điều tra độc lập đã báo cáo những số liệu về một loại thuốc kháng histamin. Tất cả đều đưa ra kết quả tương tự cho thấy một tỷ lệ lớn các trường hợp bị cảm lạnh đã được chữa khỏi sau khi uống thuốc. Kết quả này được quảng cáo ầm ĩ dẫn đến sự bùng nổ các loại dược phẩm. Điều này là do tâm lý luôn mong đợi một loại thuốc tiên, và cũng phản ánh một hiện tượng kỳ lạ, đó là người ta luôn từ chối không chịu xem lại các số liệu thống kê trong quá khứ về một điều đã quá rõ ràng. Như Henry G. Felsen, một người hài hước và không phải là một nhân vật có thẩm quyền về y khoa, đã chỉ ra cách đây khá lâu rằng nếu được điều trị đúng cách thì bệnh cảm lạnh sẽ được chữa khỏi chỉ trong bảy ngày, còn nếu không chữa gì cả thì bị kéo dài dai dẳng cả tuần.

Tình hình là như thế đó, với tất cả những gì bạn đọc thấy và nghe thấy. Những con số trung bình, các hệ số tương quan, các xu hướng và đồ thị không phải lúc nào cũng chính xác như ta tưởng. Những số liệu thống kê có thể có những ý nghĩa khác, nhiều hơn những gì ta có thể đọc ra rất nhiều, mà cũng có thể có ý nghĩa ít hơn. Ngôn ngữ bí hiểm của thống kê, rất hấp dẫn trong một nền văn hóa tôn sùng dữ liệu, được sử dụng để đưa tin giật gân, thổi phồng, gây nhầm lẫn và đơn giản hóa mọi vấn đề. Tất nhiên phương pháp thống kê và thuật ngữ thống kê là cần thiết trong các báo cáo rộng rãi về xu hướng kinh tế và xã hội, về môi trường kinh doanh, về các "ý kiến" thăm dò điều tra dân số. Nhưng nếu không có những cây bút biết viết lách một cách trung thực và hiểu biết, cũng không có các độc giả hiểu rõ ý nghĩa của những con số thống kê, thì kết quả chỉ có thể là những câu từ vô nghĩa. 

Trong các bài viết phổ biến về các vấn đề khoa học, sự lạm dụng thống kê tràn ngập hình ảnh những "người hùng" cật lực làm việc ngoài giờ mà không có tiền phụ trội trong những phòng thí nghiệm thiếu ánh sáng. Giống như người thợ trang điểm "dặm thêm chút bột phấn, pha thêm chút màu son", các số liệu thống kê đang được biến hóa theo kiểu trang điểm cô dâu khiến những sự kiện quan trọng bỗng trở thành "trông không còn nhận ra cô ấy nữa". Một số liệu thống kê được diễn giải khéo còn có tác dụng lớn hơn cả "lời nói dối lớn" của Hitler; nó dẫn dắt người ta đến những sai lầm, nhưng người ta sẽ không bắt bẻ được bạn.

Cuốn sách này có thể xem như là cuốn sách nhập môn trong việc sử dụng số liệu thống kê để đánh lừa. Bạn có thể cho rằng đây là một cuốn cẩm nang dành cho những tên lừa đảo. Có lẽ tôi có thể biện minh cho mình bằng cách so sánh cuốn sách với việc một tên trộm đã nghỉ hưu công bố những hồi ức của mình, và những gì tên trộm công bố đã dẫn đến một khóa học sau đại học về cách bẻ khóa và lột xác: Kẻ gian đã biết hết những mánh khóe này rồi; còn những người lương thiện thì cần phải biết để tự vệ.

No comments:

Post a Comment