Sunday, June 7, 2020

Làm sao để không bị thống kê lừa?

https://www.kdnuggets.com/2018/01/how-not-lie-statistics.html

"What is truth?" and "What is a lie?" are questions that have drawn the attention of philosophers, theologians, legal scholars and intellectuals of many kinds for centuries. I am not a scholar or intellectual, merely a hardhat statistician working in marketing research and what is vaguely called data science. Regardless of what we do for a living, however, all of us are consumers of statistics at work and in our daily lives. “Statistics” can refer to figures or mathematical models, and either can be used to deceive us, are often misinterpreted or can be flat out wrong.

Chân lý là gì? Thế nào là dối trá? Những câu hỏi này đã thu hút sự chú ý của các nhà triết học, thần học, luật gia và trí thức các loại trong nhiều thế kỷ. Tôi chẳng phải là học giả hay trí thức, chỉ đơn thuần là một nhà thống kê làm việc trong lĩnh vực nghiên cứu tiếp thị và cái mà người ta gọi một cách mơ hồ là khoa học dữ liệu. Tuy nhiên, cho dù kiếm sống bằng nghề gì thì tất cả chúng ta đều là người sử dụng thống kê trong công việc và trong cuộc sống hàng ngày. Thuật ngữ "thống kê" có thể chỉ các số liệu hoặc những mô hình toán học, và cả hai đều có thể được sử dụng để cố tình đánh lừa chúng ta, thường xuyên bị hiểu sai hoặc thậm chí có thể sai bét ngay từ đầu.

Deception in various forms can be found in nature, and pet owners may have noticed that it is not exclusively a human trait. Besides outright lies, distortions and deceptions, there are also what have recently come to be called cognitive biases that have long been of concern to statisticians and the scientific community. Data and elaborate statistical models will not always win debates and it is not unusual for them simply to be dismissed. We can unintentionally deceive others or sucker ourselves, and many of the most important untruths are not deliberate deceptions.

Sự lừa dối hoặc nhầm lẫn tồn tại dưới nhiều hình thức khác nhau trong tự nhiên, và những người sở hữu thú cưng có thể thấy rằng đó không chỉ là một đặc điểm của con người. Bên cạnh những lời nói dối, xuyên tạc và lừa dối trắng trợn, còn có những điều mà gần đây người ta gọi là thiên kiến ​​trong nhận thức (cognitive bias) từ lâu đã được các nhà thống kê và cộng đồng khoa học quan tâm. Dữ liệu và các mô hình thống kê phức tạp không phải lúc nào cũng thắng trong các cuộc tranh luận và không có gì lạ nếu chúng bị loại bỏ. Chúng ta có thể vô tình lừa dối người khác hoặc lừa dối chính mình, và có nhiều điều sai sự thật một cách nặng nề lại không phải là sự lừa dối có chủ đích.

Further to that point, I find many people, including statisticians, are being deceptive without realizing it. They may have done a little reading on a subject they are blogging about or presenting on, for example, and are sincerely conveying what they know, or think they know, about this subject. What they say may be very wrong, however. Sadly, there are others who, for whatever reasons, are unconcerned with the truth. They're slinging' it and they know it.

Không những thế, tôi thấy nhiều người, bao gồm cả các nhà thống kê, đang lừa dối mọi người mà không hề nhận ra điều đó. Họ có thể đã đọc một chút về một chủ đề mà họ đang viết hoặc trình bày, ví dụ thế, và chân thành truyền đạt những gì họ biết, hoặc nghĩ rằng họ biết, về chủ đề này. Tuy nhiên, những gì họ nói có thể rất sai. Đáng buồn là còn có những người khác, vì bất cứ lý do gì, không quan tâm đến sự thật. Họ đang "nổ" và họ biết rõ điều đó.

Like attorneys, statisticians are sometimes asked to lie. Seriously. Usually, the person making the request is coy and their motivation cloaked with comments about client needs or something else which seems plausible but, in effect, they are asking us to lie. Often, they have screwed up and are looking for ways to talk their way out of the jam they've talked themselves into. Whatever the motive, when the buck is passed to you, my advice to statisticians is pass it right back.

Giống như luật sư, các nhà thống kê đôi khi được yêu cầu nói dối. Vâng tôi nói nghiêm túc đấy ạ. Thông thường, người đưa ra yêu cầu không nói thẳng ra như vậy mà che đậy động lực của họ bằng những bình luận về nhu cầu của khách hàng hoặc những thứ khác có vẻ hợp lý; nhưng thực ra, họ đang yêu cầu chúng tôi nói dối. Thông thường, họ bị mắc kẹt và tìm cách nói gì đó để thoát khỏi tình trạng khó chịu mà họ đã tự tạo ra cho mình. Dù động cơ có là gì, thì khi tiền được chuyển cho bạn, lời khuyên của tôi cho các nhà thống kê là chuyển trả lại ngay.

There also are simple misunderstandings and miscommunications with important ramifications for decision makers. Statistics is difficult to explain in everyday language and this is often the cause, but miscommunications and misunderstanding also happen when non-statisticians use jargon to impress without understanding what it means. Statisticians can be fooled, too.

Cũng có lúc chỉ đơn giản là hiểu lầm và thông tin sai lệch, và cùng với đó là những hệ quả quan trọng cho.những người phải ra quyết định. Thống kê rất khó để giải thích trong ngôn ngữ hàng ngày và điều này thường là nguyên nhân, nhưng thông tin sai lệch và sự hiểu lầm cũng vẫn thường xảy ra khi những người không phải là dân thống kê sử dụng biệt ngữ để gây ấn tượng mà không thực sự hiểu ý nghĩa của các biệt ngữ này. Đôi khi chính nhà thống kê cũng có thể bị mắc lừa.

"It doesn't have to be perfect!" or "What you say may be true theoretically..." are indications that the person raising this objection does not grasp that what they regard as dweeby minutia actually has serious implications for decision makers. Statisticians are still fighting the stereotype that we are geeks with no understanding of business. (Unfortunately, there is some truth to this stereotype.) Make sure to put your objections in writing if this is a potentially serious matter.

"Chúng ta không cần phải làm hoàn hảo!" hoặc "Những gì bạn nói có thể đúng về mặt lý thuyết ..." là những dấu hiệu cho thấy người đưa ra sự phản đối này không thực sự hiểu vấn đề: những gì họ cho là vụn vặt thực ra có ý nghĩa nghiêm trọng đối với những người cần phải ra quyết định. Các nhà thống kê vẫn đang chiến đấu với định kiến ​​rằng chúng tôi là những người đam mê chuyên môn nhưng không có hiểu biết gì về kinh doanh. (Thật không may, nhận xét này cũng có phần sự thật.) Hãy chắc chắn để đưa ra phản đối của bạn bằng văn bản nếu đây là một vấn đề nghiêm trọng.

I could give pages of examples, as could anyone working in a specialized field or consulting capacity. Instead, let me propose a few simple guidelines on how not to lie with statistics by conveying inaccurate information inadvertently. Again, however innocent, even small misunderstandings and miscommunications can have profound consequences.

Tôi có thể đưa ra ở đây thêm nhiều ví dụ, như bất kỳ ai làm việc trong một lĩnh vực chuyên môn hoặc thực hiện chức năng tư vấn nào cũng có thể làm. Nhưng hãy để tôi đề xuất một vài hướng dẫn đơn giản nhằm tránh nói dối bằng thống kê khi vô tình truyền đạt thông tin không chính xác. Tuy nhiên, xin được nhắc lại một lần nữa, tuy không cố tình nhưng ngay cả những hiểu lầm và thông tin sai lệch dù nhỏ cũng có thể dẫn đến hậu quả nghiêm trọng.

One cannot overemphasize how important it is for a statistician to have a clear understanding of the essential details of a project. Not just data matters, but who will be using the results of the research or analytics, for what purposes they will be used and the expectations of the person or persons who will be footing the bill. In repetitive projects such as tracking or analytics that have already been operationalized and just need a periodic "health check", this is less important, though critical when the project is being designed.

Không thể không nhấn mạnh tầm quan trọng của yêu cầu cần phải hiểu biết rõ ràng mọi các chi tiết thiết yếu của một dự án đối với một nhà thống kê. Không chỉ là vấn đề dữ liệu, mà còn cần phải biết rõ ai sẽ sử dụng kết quả nghiên cứu hoặc phân tích, sẽ dùng cho mục đích gì, và kỳ vọng của những người sẽ chi tiền để thực hiện dự án. Trong các dự án lặp đi lặp lại như theo dõi hoặc phân tích những số liệu của một dự án đã được vận hành và chỉ cần "kiểm tra sức khỏe" định kỳ, điều này không quá quan trọng hơn, nhưng vẫn rất quan trọng khi dự án được thiết kế.

Present or report only the key findings and implications, and do this as simply as possible. If complex visualizations or videos will be shown to the end users, leave that up to the pros. This is not normally what statisticians are hired for. Again, this gets back to expectations and being specific about our deliverables. That said, serious misinterpretations may occur because of misunderstandings on the part of the person preparing the report or presentation, or because the statistician wasn't communicating clearly. I usually request a peek at the report or presentation before it's finalized if I'm not preparing it myself. Working internationally, as I do, I find even a quick summary in English over Skype or by email helps when the deliverable is in a language I do not speak.

Chỉ trình bày hoặc báo cáo những phát hiện và ý nghĩa chính, và làm điều này một cách đơn giản nhất có thể. Nếu cần hình ảnh hoặc video phức tạp để hiển thị cho người dùng cuối, hãy để cho dân chuyên nghiệp làm điều đó. Thông thường đây không phải là những gì các nhà thống kê được thuê để làm. Một lần nữa, điều này liên quan đến mong đợi và các sản phẩm cụ thể mà chúng tôi cần giao lại cho khách hàng. Mặc dù thế, nhưng cần lưu ý những giải thích sai nghiêm trọng có thể xảy ra do những hiểu lầm từ phía người chuẩn bị báo cáo hoặc thuyết trình, hoặc bởi vì nhà thống kê đã không trao đổi thật rõ ràng. Tôi thường yêu cầu được xem qua báo cáo hoặc bản trình bày trước khi hoàn thành nếu tôi không phải là người chuẩn bị. Làm việc trên phạm vi quốc tế, như tôi đang làm, thì chí ít tôi cũng cần đọc một bản tóm tắt nhanh bằng tiếng Anh qua Skype hoặc qua email vì nó sẽ hữu ích khi bản sản phẩm cuối cùng của dự án lại được viết bằng một ngôn ngữ mà tôi không nói được.

Never try to show off your technical prowess, and avoid jargon. Otherwise you’ll probably only confuse or offend your clients and business associates who are not statisticians.

Đừng bao giờ cố gắng thể hiện năng lực kỹ thuật của bạn, và tránh dùng biệt ngữ. Làm như thế chỉ gây ra nhầm lẫn hoặc xúc phạm khách hàng và các cộng sự kinh doanh của bạn, những người vốn không phải là dân thống kê.

Make sure you know what you're talking about! Trying to learn about a statistical method through online searches and blogs can be very risky, even for those trained in statistics. Some people calling themselves data scientists or statisticians seem primarily interested in R code, which they can copy/paste and modify slightly for the task at hand. There is a ton of this code freely downloadable on the internet. These folks may not actually know what they are doing, though, and this all-too-common practice reflects an amateur programmer’s mentality, not that of a statistician or true data scientist.

Hãy chắc chắn rằng bạn hiểu rõ những gì bạn đang nói! Sẽ rất rủi ro nếu bạn tìm hiểu về một phương pháp thống kê nào đó chỉ bằng cách tìm kiếm trên mạng hoặc các trang blog -- lời khuyên này cũng dành cả đối với những người được đào tạo về thống kê. Một số người tự gọi mình là nhà khoa học dữ liệu hoặc nhà thống kê thật ra dường như chủ yếu quan tâm đến lập trình ngôn ngữ R, họ có thể chép và cắt dán và sửa đổi một chút để thực hiện nhiệm vụ đang làm. Có rất nhiều phần mềm viết bằng R có thể tải xuống miễn phí trên internet. Tuy nhiên, những người này có thể không thực sự biết họ đang làm gì. Điều đó phản ánh một tâm lý của một lập trình viên nghiệp dư, chứ không phải của một nhà thống kê hoặc nhà khoa học dữ liệu thực sự.

The "everyone does it, so it must be OK" mindset seems especially widespread these days. Mark Twain had some thoughts regarding this and I will only suggest it is a bad habit for a statistician to get into. If "everyone does it" reflects a rare consensus among authentic statistical experts, that is a different matter, but not what I mean here.

Tư duy "ai cũng làm thế, thì nó phải ổn" dường như đặc biệt phổ biến trong những ngày này. Mark Twain đã từng có những ý tưởng liên quan đến điều này và tôi chỉ muốn nói rằng đó là một thói quen xấu đối với một nhà thống kê. Nếu "ai cũng làm thế" là phản ánh sự đồng thuận hiếm hoi giữa các chuyên gia thống kê thực thực, thì đó lại là một vấn đề khác, nhưng đó không phải là ý tôi ở đây.

In the classroom, statisticians are typically advised to seek the simplest possible solution. Occam's Razor is an extremely useful guideline, so I am not making a criticism here. The best analysts seem to have a gift for seeing what, in retrospect, seems obvious. This also holds for business people. Amazon is now part of the daily lives of billions of people around the world, but twenty years ago seemed like a wacky idea to many of us and doomed to fail.

Trong lớp học, các nhà thống kê thường được khuyên nên tìm kiếm giải pháp đơn giản nhất có thể. Lý thuyết "Dao cạo Ockham" là một hướng dẫn cực kỳ hữu ích, vì vậy tôi sẽ không đưa ra lời chỉ trích ở đây. Các nhà phân tích giỏi nhất dường như có biệt tài để nhận ra những gì mà khi ta nhìn lại thì thấy nó có vẻ khá rõ ràng. Điều này cũng đúng đối với những người kinh doanh. Amazon hiện là một phần trong cuộc sống hàng ngày của hàng tỷ người trên thế giới, nhưng hai mươi năm trước đây đa số chúng ta xem đó như là một ý tưởng kỳ quặc và hẳn là sẽ phải thất bại.

Statistical models can also be too simple and mislead us that way. An experienced and competent statistician knows how to rule out irrelevant models and pick the one that is both robust in a technical sense and most useful to the decision makers. This is not easy, however, and cannot be done “by the numbers.” Occasional claims to the contrary, AI cannot yet do this and will never be able to until Artificial General Intelligence is a reality.

Các mô hình thống kê cũng có thể quá đơn giản và đánh lừa chúng ta theo cách đó. Một nhà thống kê có kinh nghiệm và có năng lực biết cách loại trừ các mô hình không liên quan và chọn một mô hình vừa mạnh mẽ theo nghĩa kỹ thuật và hữu ích nhất cho những người ra quyết định. Tuy nhiên, điều này không dễ và không thể thực hiện được chỉ "bằng các con số". Ngoại trừ một vài tuyên bố ngược lại, nhìn chung AI chưa thể làm điều này và sẽ không bao giờ có thể cho đến khi Trí tuệ tổng hợp nhân tạo trở thành hiện thực.

Relying on automated or semi-automated procedures, however, is often the only feasible approach when the modeler is tasked with generating an enormous number of models that predict well enough for a narrow purpose - recommender systems large online retailers have deployed come to mind. This sort of mass-modeling characterizes quite a lot of data science. Mass-produced predictions are not all equally good, however, and not guaranteed to be profitable. By contrast, in marketing research, multivariate analysis is normally charged with uncovering “the why” and opaque predictive computer algorithms are less useful.

Mặt khác, việc dựa vào các quy trình tự động hoặc bán tự động thường là cách tiếp cận khả thi duy nhất khi nhà tạo mô hình được giao nhiệm vụ tạo ra một số lượng lớn các mô hình dự đoán đủ cho mục đích hẹp - các hệ thống đề xuất mà các nhà bán lẻ trực tuyến lớn đã triển khai. Kiểu mô hình đại chúng này khá đặc trưng cho khoa học dữ liệu. Tuy nhiên, các dự đoán được sản xuất hàng loạt không phải đều tốt như nhau và không chắn chắn mang lại lợi ích. Ngược lại, trong nghiên cứu tiếp thị, phân tích đa biến thường được áp dụng tính để phát hiện ra các lý do tại sao, trong khi các thuật toán máy tính dự đoán mờ ít hữu ích hơn.

Returning to cognitive biases, as noted, statisticians and scientists generally have long known how easy it is for their worldview and egos to interfere with their intellects and learning. No one is invulnerable to these basic human frailties, including those who earn their living speaking and writing about them. Try to understand where you're coming from and be as objective as humanly possible.

Quay trở lại những thiên kiến ​​nhận thức, như đã lưu ý, các nhà thống kê và nhà khoa học nói chung từ lâu đã biết rằng thế giới quan và bản ngã của rất dễ ảnh hưởng đến tư duy và khả năng tiếp nhận tri thức của mình. Không ai là bất khả xâm phạm đối với những nhược điểm cơ bản của con người, kể cả những người kiếm sống bằng cách nói và viết về những nhược điểm này. Hãy cố gắng hiểu bạn đến từ đâu và giữ được mức độ khách quan cao nhất mà con người có thể đạt được.

To briefly sum up:
Simple misunderstandings can be just as consequential as outright lies and are much more common. We also say things that are inaccurate without realizing it.

Tóm lại:
Những hiểu lầm đơn giản cũng có thể gây ra hậu quả nghiêm trọng như những lời nói dối trắng trợn, và lại phổ biến hơn nhiều. Chúng ta thường nói ra những điều không chính xác mà không nhận ra điều đó.

If someone tries to twist your arm into saying something that is not true, or doing something that is clearly unethical, such as altering data, refuse as tactfully as you can. Put your objections in writing, if necessary.

Nếu ai đó cố buộc bạn nói điều gì đó không đúng sự thật hoặc làm điều gì đó phi đạo đức, chẳng hạn như thay đổi dữ liệu, hãy từ chối một cách khéo léo nhất có thể. Nếu cần, hãy đưa ra lời phản đối của bạn bằng văn bản.

Be very careful about making assumptions. Do your homework. It's better to ask too many questions than too few. Sometimes I warn new clients and business partners upfront that I ask lots of questions, apologizing in advance so to speak.

Hãy rất cẩn thận về việc đưa ra các giả định. Trước tiên hãy tìm hiểu cho cẩn thận. Thà hỏi quá nhiều còn hơn là hỏi quá ít. Đôi khi tôi phải nói thẳng với khách hàng và các đối tác kinh doanh mới rằng tôi sẽ hỏi rất nhiều câu hỏi, và phải xin lỗi trước.

Communicate clearly and avoid statistical jargon. Never show off.

Hãy giao tiếp rõ ràng và tránh dùng biệt ngữ thống kê. Không bao giờ nên làm như vậy chỉ để thể hiện chính mình.

Be sure you know what you're talking about! Similarly, don't assume that non-statisticians who use technical terms understand what they mean. Very often, they do not.

Hãy chắc chắn rằng bạn hiểu rõ những gì mình đang nói! Tương tự, đừng cho rằng những người không phải là dân thống kê sử dụng hiểu rõ ý nghĩa của những thuật ngữ mà họ sử dùng. Đa số họ không hiểu đâu.

Keep your analysis and deliverable as simple as possible...but not too simple. If you are not preparing the final deliverable - statisticians normally do not - make sure your own work is being correctly summarized and interpreted.

Những phân tích và báo cáo của bạn cần đơn giản nhất có thể ... nhưng không quá đơn giản. Nếu bạn không phải là người chuẩn bị bản báo cáo cuối cùng - các nhà thống kê thường không làm việc này - thì hãy cố bảo đảm rằng kết quả của bạn được tóm tắt và diễn giải chính xác.

Be wary of automated or semi-automated modeling. Sometimes they are the only option but only in certain situations. It’s also important remember that even automated models are not all the same. “…all models are wrong, but some are useful.”

Hãy cảnh giác với những mô hình tự động hoặc bán tự động. Đôi khi chúng là lựa chọn duy nhất, nhưng chỉ trong một số tình huống nhất định. Cũng cần nhớ điều quan trọng này, đó là: ngay cả các mô hình tự động cũng không giống nhau. "Tất cả các mô hình đều sai, nhưng sẽ có một số hữu ích."

Just because "everyone does it" does not mean it's OK. Even professional statisticians can develop bad habits.

"Mọi người đều làm thế" không có nghĩa là cách làm đó ổn. Ngay cả các nhà thống kê chuyên nghiệp cũng có thể có những thói quen xấu.

Be on the lookout for cognitive biases, including your own! In the real world, logic and evidence lose more battles than they win, and sometimes we are our own worst enemies.

Hãy cảnh giác với những thành kiến trong ​​nhận thức, bao gồm cả những thành kiến của chính bạn! Trong thế giới thực, logic và bằng chứng đã thua cuộc nhiều hơn thắng cuộc và đôi khi chúng ta lại là kẻ thù tồi tệ nhất của chính mình.

Three short articles related to this topic may also be of interest: How to Beat a Statistician in Debate; Statistical Mistakes Even Scientists Make; and How To Lie With Numbers.




No comments:

Post a Comment