Simpson’s paradox

I learned about the Simpson’s paradox fairly recently, and I found it quite disturbing, not because of the mere “paradox” itself, but mainly because I felt it was something I should have known already.

In case you haven’t heard about it, one instance of the paradox is a real-world medical study for comparing the success rate of two treatments for kidney stones (from Wikipedia):


Overall, Treatment B is better because its success rate is 83%, compared to 78% of Treatment A. However, when they split the patients into 2 groups: those with small stones and those with large stones, then Treatment A is better than Treatment B in both subgroups. Paradoxical enough?

Well, it’s not. It turns out that for severe cases (large stones), doctors tend to give the more effective Treatment A, while for milder cases with small stones, they tend to give the inferior Treatment B. Therefore the sum is dominant by group 2 and group 3, while the other groups contribute little to the final sums. So the results can be interpreted more accurately as: when Treatment B is more frequently applied to less severe cases, it can appear to be more effective.

Now, knowing that Treatment and Stone size are not independent, this should not come up as a paradox. In fact, we can visualize the problem as a graphical model like this

Untitled drawing

All the numbers in the table above can be expressed as conditional probabilities like so:

  • Group 1: p\left(S=true \vert T=A, St=small\right) = 0.93
  • Group 2: p\left(S=true \vert T=B, St=small\right) = 0.87
  • Group 3: p\left(S=true \vert T=A, St=large\right) = 0.73
  • Group 4: p\left(S=true \vert T=B, St=large\right) = 0.69
  • p\left(S=true \vert T=A\right) = 0.78
  • p\left(S=true \vert T=B\right) = 0.83

For any of us who studied Probability, it is no surprise that the probabilities might turn up-side-down whenever some conditional variables are stripped out of the equations. In this particular case, since S depends on both St and T, the last 2 equations do not bring any new knowledge about S.

So what is this “paradox” about? Isn’t it nothing more than the problem of confounding/lurking variables, something that most people in Probability/Statistics already known? In this particular case, Stone size is the lurking variable that dictates both Treatment and Success, therefore the scientists who designed the experiment should have taken it into account since the beginning. It is well-known among Statistic practitioners that they must try their best to identify and eliminate the effect of any lurking variables in their experiments, or at least keep them fixed, before drawing any meaningful conclusion.

From a slightly different perspective, the paradox can be understood once we understand the human bias of drawing causal relations. Human, perhaps for the sake of survival, constantly look for causal relations and often tend to ignore rates or proportions. Once we conceived something as being causal (Treatment B gives higher success rate than Treatment A in general), which might be wrong, we continue to assume a causal relation and proceed with that assumption in mind. Obviously with this assumption, we will find the success rates for the subgroups of patients to be highly counter-intuitive, or even paradoxical.

In fact, the connection of this paradox to human intuitions is so important that Judea Pearl dedicated a whole section in his book for it. Modern Statistical textbooks and curriculum, however, don’t even mention it. Instead they will generally present the topic along with lurking/confounding variables.

Therefore, if you haven’t heard about this, it is probably for a good reason, or perhaps you are simply too young.


Probability and Statistics cheat sheet

Download bản rõ hơn (20MB)

Đây là cheat sheet mình dùng ôn thi môn XSTK tuần rồi. Do là cheat sheet nên nội dung ngắn gọn. Thực ra còn một số phần trong hypothesis testing và limit theorems nhưng mình không đưa vào vì dài quá. Hi vọng tuần này thi xong sẽ có thời gian viết về vài chủ đề trong này.

Nội dung gồm:


Thống kê, phân tích, mô hình hóa dữ liệu

Giả sử bạn là giáo viên môn Machine Learning của một lớp XYZ nào đó. Sau khi chấm điểm cuối kì, bạn nhìn bảng điểm của lớp (cứ cho khoảng 50 SV), và muốn đưa ra một vài kết luận nào đó về tình hình học tập của lớp. Phải làm thế nào?

Thứ nhất, tính điểm trung bình. Đây là một trong những cách đơn giản nhất. Dựa vào điểm trung bình có thể đưa ra vài nhận xét “hồ đồ” về tình hình học tập. Giả sử nếu năm trước điểm trung bình môn ML của lớp là 7.5, năm nay trung bình là 7.6, như vậy có thể nhận xét hồ đồ rằng năm nay sinh viên học tốt hơn năm ngoái, nhưng cả 2 năm sinh viên đều học khá môn ML….


Xác suất: Nhắc lại (I)

Loạt bài về xác suất, bắt đầu bằng bài này, sẽ cố gắng hệ thống lại những điểm chính mà tôi cần thấy phải ghi nhận trong khi đọc quyển All of Statistics của Larry Wasserman. Trong quá trình đọc, những phần kiến thức không có trong sách cũng sẽ được tìm hiểu và trình bày. Ngoài ra cũng sẽ giải các bài tập trong sách (không kì vọng là giải tất cả).

Bài này trích từ chương 1 của sách, hệ thống những kiến thức cơ bản. Phần lớn nội dung trong bài này là quen thuộc đối với những người đã từng học qua 1 khóa xác suất thống kê.