# Statistics

I learned about the Simpson’s paradox fairly recently, and I found it quite disturbing, not because of the mere “paradox” itself, but mainly because I felt it was something I should have known already.

In case you haven’t heard about it, one instance of the paradox is a real-world medical study for comparing the success rate of two treatments for kidney stones (from Wikipedia):

Overall, Treatment B is better because its success rate is 83%, compared to 78% of Treatment A. However, when they split the patients into 2 groups: those with small stones and those with large stones, then Treatment A is better than Treatment B in both subgroups. Paradoxical enough?

Well, it’s not. It turns out that for severe cases (large stones), doctors tend to give the more effective Treatment A, while for milder cases with small stones, they tend to give the inferior Treatment B. Therefore the sum is dominant by group 2 and group 3, while the other groups contribute little to the final sums. So the results can be interpreted more accurately as: when Treatment B is more frequently applied to less severe cases, it can appear to be more effective.

Now, knowing that Treatment and Stone size are not independent, this should not come up as a paradox. In fact, we can visualize the problem as a graphical model like this

All the numbers in the table above can be expressed as conditional probabilities like so:

• Group 1: $p\left(S=true \vert T=A, St=small\right) = 0.93$
• Group 2: $p\left(S=true \vert T=B, St=small\right) = 0.87$
• Group 3: $p\left(S=true \vert T=A, St=large\right) = 0.73$
• Group 4: $p\left(S=true \vert T=B, St=large\right) = 0.69$
• $p\left(S=true \vert T=A\right) = 0.78$
• $p\left(S=true \vert T=B\right) = 0.83$

For any of us who studied Probability, it is no surprise that the probabilities might turn up-side-down whenever some conditional variables are stripped out of the equations. In this particular case, since S depends on both St and T, the last 2 equations do not bring any new knowledge about S.

So what is this “paradox” about? Isn’t it nothing more than the problem of confounding/lurking variables, something that most people in Probability/Statistics already known? In this particular case, Stone size is the lurking variable that dictates both Treatment and Success, therefore the scientists who designed the experiment should have taken it into account since the beginning. It is well-known among Statistic practitioners that they must try their best to identify and eliminate the effect of any lurking variables in their experiments, or at least keep them fixed, before drawing any meaningful conclusion.

From a slightly different perspective, the paradox can be understood once we understand the human bias of drawing causal relations. Human, perhaps for the sake of survival, constantly look for causal relations and often tend to ignore rates or proportions. Once we conceived something as being causal (Treatment B gives higher success rate than Treatment A in general), which might be wrong, we continue to assume a causal relation and proceed with that assumption in mind. Obviously with this assumption, we will find the success rates for the subgroups of patients to be highly counter-intuitive, or even paradoxical.

In fact, the connection of this paradox to human intuitions is so important that Judea Pearl dedicated a whole section in his book for it. Modern Statistical textbooks and curriculum, however, don’t even mention it. Instead they will generally present the topic along with lurking/confounding variables.

Therefore, if you haven’t heard about this, it is probably for a good reason, or perhaps you are simply too young.

# Hóa ra mọi thứ đều là exponential!

Hầu như tất cả các phân phối xác suất mình biết từ trước tới giờ, từ multinomial, Bernoulli cho tới Dirichlet… đều thuộc exponential family. Và dưới một góc nhìn chung như vậy, các khái niệm trở nên sáng tỏ hơn hẳn: từ sufficient statistics cho tới partition function hay conjugation…

Nhân tiện, cái hình lấy từ paper này.

# The Rise of Machine (Learning)

I have just came across a short but nice paper by Larry Wasserman called Raise of the Machines. It is attached with a funny image of Terminator, and in some ways hilarious, but he does have some interesting points to talk about the “evolution” of Machine Learning during the years, from the perspective of a statistician:

1. ML and Statistic are eventually the same thing. Some people, including Geoffrey Hinton (at 1:14), still have some ways to discriminate the two, but the distinction is probably getting faded away as both fields getting close to each other.

2. The “conference culture” has pushed ML move forward in a fast pace.

3. “ML has much to off er Statistics. And Statisticians have a lot to off er ML”.

And some other points that can be found here in detail.

# Probability and Statistics cheat sheet

Đây là cheat sheet mình dùng ôn thi môn XSTK tuần rồi. Do là cheat sheet nên nội dung ngắn gọn. Thực ra còn một số phần trong hypothesis testing và limit theorems nhưng mình không đưa vào vì dài quá. Hi vọng tuần này thi xong sẽ có thời gian viết về vài chủ đề trong này.

Nội dung gồm:

# [XSTK] Biến ngẫu nhiên (Stochastic Variables)

Đã hơn một năm kể từ lúc viết bài đầu tiên về XSTK trên blog này. Và mặc dù bài đó vẫn còn dang dở, nhưng ta sẽ tạm thời bỏ qua các khái niệm không gian mẫu, event, định nghĩa xác suất, công thức Bayes cho event… để trình bày tiếp về các biến ngẫu nhiên. Thực tế đến một lúc nào đó trong các khóa học XSTK, ta sẽ chỉ còn làm việc với biến ngẫu nhiên, Tất nhiên việc hiểu 1 cách hệ thống về cách định nghĩa biến ngẫu nhiên dựa vào khái niệm không gian mẫu là rất cần thiết, nhưng ta sẽ trở lại sau khi có dịp.

Bài này tổng quan về biến ngẫu nhiên, bao gồm định nghĩa, các moment của biến ngẫu nhiên, định nghĩa phân phối XS đồng thời (joint distribution), xác suất nhiều biến, phân phối lề (marginal distribution) v.v… Trong đa số trường hợp ta sẽ có cái nhìn đối sánh giữa phân phối rời rạc và phân phối liên tục. Đặc điểm của các loại phân phối cụ thể hay dùng (Bionomial, Possion, Gaussian v.v..) sẽ được trình bày trong một bài khác.

### 1. Định nghĩa biến ngẫu nhiên

Có nhiều cách khác nhau để định nghĩa biến ngẫu nhiên, ở đây ta trình bày theo Larray Wasserman, vì cách này tương đối tổng quát cho cả trường hợp rời rạc lẫn liên tục.

Cho không gian mẫu  $\Omega$. Một biến ngẫu nhiên  (random variable) là một ánh xạ

$\displaystyle X:\Omega \rightarrow \mathbb{R}$

sao cho nó gán một số thực $X\left(\omega\right)$ cho mỗi quan sát (outcome) $\omega$

Đây không phải là một định nghĩa chặt chẽ nhất có thể về biến ngẫu nhiên, nhưng với định nghĩa này ta có thể phái sinh trong trường hợp biến ngẫu nhiên rời rạc hay liên tục.

# Thống kê, phân tích, mô hình hóa dữ liệu

Giả sử bạn là giáo viên môn Machine Learning của một lớp XYZ nào đó. Sau khi chấm điểm cuối kì, bạn nhìn bảng điểm của lớp (cứ cho khoảng 50 SV), và muốn đưa ra một vài kết luận nào đó về tình hình học tập của lớp. Phải làm thế nào?

Thứ nhất, tính điểm trung bình. Đây là một trong những cách đơn giản nhất. Dựa vào điểm trung bình có thể đưa ra vài nhận xét “hồ đồ” về tình hình học tập. Giả sử nếu năm trước điểm trung bình môn ML của lớp là 7.5, năm nay trung bình là 7.6, như vậy có thể nhận xét hồ đồ rằng năm nay sinh viên học tốt hơn năm ngoái, nhưng cả 2 năm sinh viên đều học khá môn ML….