Graphical model (1)

Graphical model (còn gọi là Bayesian network, Belief network) là tên gọi chung dành cho lớp các mô hình xác suất mà trong đó mối liên hệ giữa các biến ngẫu nhiên (độc lập/phụ thuộc) được khai thác để đơn giản hoá việc tính phân phối xác suất đồng thời (joint distribution). Blog này đã có lần đề cập đến các mô hình Markov như một trường hợp riêng của graphical model. Trong chuỗi bài này, ta sẽ lần lượt giới thiệu các vấn đề liên quan đến graphical model: định nghĩa, suy diễn (inference) và huấn luyện (training). Bài đầu tiên sẽ viết về các vấn đề cơ bản: khái niệm về độc lập có điều kiện (conditionally independent) và graphical model, V-structure. Các vấn đề khác gồm thuật toán Bayes Ball, Markov blanket và Markov equivalence được trình bày trong bài sau.

1. Nhắc lại xác suất

Biến ngẫu nhiên A và B gọi là độc lập có điều kiện đối với C (conditionally independent to C) nếu và chỉ nếu:
\mathbb{P}\left(A\vert B,C\right)=\mathbb{P}\left(A\vert C\right)
Khi đó ta kí hiệu A \perp B \vert C.
Một cách nôm na, khi đã biết C thì việc biết thêm B cũng không cho ta thêm được chút thông tin nào về A. Chẳng hạn nếu C là sự kiện “hôm nay có triều cường ở SG”, A là “hôm nay kẹt xe ở SG” và B là “anh Vươn bị cưỡng chế đất”, thì nếu biết C, xác suất xảy ra A là khá cao, bất kể anh Vươn có bị cưỡng chế hay không.
Một công thức quan trọng nữa là chain rule, dùng để tính xác suất đồng thời dựa vào các xác suất có điều kiện, theo đó:
\mathbb{P}\left(A_1A_2\dots A_n\right)=\mathbb{P}\left(A_1\right)\mathbb{P}\left(A_2|A_1\right)\mathbb{P}\left(A_3|A_1A_2\right)...\mathbb{P}\left(A_n\vert A_1A_2\dots A_{n-1}\right)

2. Khái niệm về graphical model

Giả sử có một tập biến ngẫu nhiên và để có thể thực hiện suy diễn, ta muốn lưu trữ phân phối xác suất đồng thời của chúng. Tại sao phải lưu phân phối xác suất đồng thời? Ta sẽ trả lời câu hỏi này trong các bài sau, khi bàn đến các phương pháp suy diễn trong graphical model. Tại thời điểm này, tạm chấp nhận rằng ta có nhu cầu như thế. Tư tưởng chính của graphical model là tận dụng tri thức có sẵn nào đó về sự độc lập hay phu thuộc giữa các biến ngẫu nhiên (tri thức này có thể là của chuyên gia xây dựng mô hình, hoặc thông qua các thuật toán huấn luyện mô hình từ dữ liệu có sẵn) ta có thể đơn giản hoá việc tính xác suất đồng thời bằng cách áp dụng chain rule.
Tên đầy đủ của graphical model là probabilistic graphical model, do đó theo [Pearl 1985], mọi graphical model đều gồm 2 phần:
  •  Phần graphical: thể hiện sự phụ thuộc giữa các biến ngẫu nhiên bằng đồ thị có hướng mà trong đó mỗi đỉnh là một biến ngẫu nhiên và mỗi cạnh có hướng từ A đến B thể hiện biến ngẫu nhiên B phụ thuộc biến ngẫu nhiên A. Dĩ nhiên đồ thị này không được có chu trình, gọi là directed acyclic graph (DAG).
  •  Phần probabilistic: biểu diễn định lượng sự phụ thuộc này: với mỗi cạnh hoặc tập cạnh trong đồ thị, ta lưu phân phối xác suất có điều kiện tương ứng.

Chẳng hạn xét graphical model đơn giản sau:

Ví dụ Graphical model

Mô hình này có 5 biến ngẫu nhiên A, B, C, D và E đều là các biến logic (chỉ nhận giá trị Yes/No). Mối quan hệ giữa các biến ngẫu nhiên được thể hiện bằng các mũi tên, và kèm theo bảng phân phối xác suất có điều kiện của chúng. Chẳng hạn xét bảng p(C|B), nếu B=Y (có ngập nước) thì xác suất kẹt xe (C=Y) là 0.9, nói cách khác \mathbb{P}\left(C=Y\vert B=Y\right) = 0.9. Các giá trị khác có thể hiểu tương tự.

Phần này chỉ nói về phân phối xác suất rời rạc. Các bài cuối của loạt này sẽ nói về phân phối xác suất liên tục.

3. Các cấu trúc thường gặp trong graphical model

Thực chất nếu chỉ xét theo tính chất xác suất thuần tuý (không xét đến ngữ nghĩa, tính nhân quả… của chúng) thì tính độc lập hay phụ thuộc xác suất là mối quan hệ đối xứng: nói là A \perp B \vert C cũng giống như nói B \perp A \vert C, hay \mathbb{P}\left(AB\right)=\mathbb{P}\left(A\right)\mathbb{P}\left(B|A\right)=\mathbb{P}\left(B\right)\mathbb{P}\left(A|B\right) nếu A và B phụ thuộc. Vậy câu hỏi đặt ra là tại sao trong graphical model ta lại dùng các cạnh có hướng? Câu trả lời là rõ ràng khi ta xét mối quan hệ của nhiều hơn 2 biến ngẫu nhiên.
Để đơn giản, xét 3 biến ngẫu nhiên A, B và C. Giữa 3 biến này có thể có các kiểu quan hệ sau:

Các cấu trúc cơ bản trong graphical model

Một cách nôm na, ta có cảm giác đây là những mối quan hệ “nguyên tố” mà mọi mối quan hệ giữa 2 biến ngẫu nhiên trong graphical model đều có thể quy về một trong ba dạng này. Ta sẽ lần lượt xét tính chất của chúng, qua đó sẽ thấy V-structure là một loại đặc biệt và sau này nó sẽ đóng vai trò quan trọng trong các thuật toán graphical model.

3.1. Serial

Cấu trúc Serial

Xét ví dụ trên. Ở SG, nếu có triều cường thì rất có khả năng ngập, và khi đã ngập thì rất có khả năng kẹt xe, do đó ta có mối quan hệ serial giữa 3 biến này như trong hình.
Xét mối quan hệ giữa A và C:
  •  Rõ ràng nếu ta không biết gì về B thì A và C là phụ thuộc: chỉ cần biết có triều cường thì có thể suy ra là có khả năng kẹt xe, không cần biết có ngập hay không.
  •  Tuy nhiên nếu ta biết là có ngập nước, thì rất có khả năng kẹt xe, bất kể có triều cường hay không. Nói cách khác, nếu ta biết B (ngập nước) thì việc biết thêm A không cho ta thêm thông tin gì về C cả. Như vậy, A và C độc lập có điều kiện với B.
Một cách tổng quát, trong mối quan hệ serial thì A và C ban đầu là phụ thuộc, nhưng sẽ trở thành độc lập nếu cho trước B. Ta tóm tắt bằng các công thức sau:
A \not\perp C
A \perp C \vert B
\mathbb{P}\left(C|AB\right)=\mathbb{P}\left(C|B\right)=\mathbb{P}\left(C|parents\left(C\right)\right)     (1)
Với parents(C) kí hiệu các node cha trực tiếp của C trong mô hình.

3.2. Divergence

Cấu trúc divergence

Xét ví dụ trên. Nếu đường ngập thì rất có khả năng kẹt xe, và rất có khả năng ta sẽ phải đi vòng đường khác. Xét mối quan hệ giữa C và D:
  •  Nếu không biết gì về B thì C và D là phụ thuộc: nếu biết kẹt xe thì rất có khả năng ta phải đi vòng, bất kể có ngập nước không
  •  Tuy nhiên nếu biết B thì C và D trở thành độc lập: nếu biết ngập nước thì ta sẽ phải đi vòng, việc biết thêm có kẹt xe hay không không ảnh hưởng gì đến việc đi vòng nữa. Nói cách khác nếu biết B thì việc biết C không cho ta thêm thông tin mới gì về D cả.
Tương tự serial, ta có thể nói trong quan hệ divergence thì:
C \not\perp D
C \perp D \vert B
\mathbb{P}\left(C|BD\right)=\mathbb{P}\left(C|B\right)=\mathbb{P}\left(C|parents\left(C\right)\right)    (2)

3.3. Convergence (V-structure)

Cấu trúc convergence (V-structure)

Trong ví dụ trên, nếu có triều cường thì có khả năng ngập, và nếu có mưa lớn thì cũng có khả năng ngập. Xét mối quan hệ giữa A và E:
  •  Ban đầu nếu chưa biết gì về B thì A và E là độc lập: rõ ràng mưa lớn và triều cường là ít phụ thuộc vào nhau
  •  Nhưng nếu biết B thì A và E là phụ thuộc: nếu biết có ngập nước và biết rằng không có mưa lớn (E = No) thì rất có khả năng là có triều cường. Như vậy nếu cho trước B thì E sẽ cho ta thêm thông tin về A, nói cách khác A và E phụ thuộc nếu cho trước B.
A \perp E
A \not\perp E \vert B
\mathbb{P}\left(B|AE\right)=\mathbb{P}\left(B|parents\left(B\right)\right)    (3)
Lưu ý rằng 2 cấu trúc sau đây không phải là V-structure vì trong các trường hợp này X và Z là phụ thuộc. Theo định nghĩa của V-structure thì X và Z phải là 2 biến độc lập.

3.4. Nhận xét:

  • Trong graphical model thì V-structure có hành vi khác hẳn so với cấu trúc serial và devergence. Cũng vì thế mà V- structure đóng vai trò đặc biệt trong các thuật toán graphical model, như sau này ta sẽ thấy.
  •  Trong 3 cấu trúc vừa đề cập, ta thấy phân phối xác suất của các biến ngẫu nhiên cho trước các biến khác đều được “đơn giản” thành các node cha trực tiếp của nó trong đồ thị (công thức 1, 2 và 3). Nhận xét này dẫn đến hệ quả quan trọng sau đây.

4. Chain rule trong graphical model

Nhắc lại rằng theo chain rule ta có:
\displaystyle \mathbb{P}\left(A_1A_2\cdots A_n\right)=\mathbb{P}\left(A_1\right)\mathbb{P}\left(A_2|A_1\right)\mathbb{P}\left(A_3|A_1A_2\right)\cdots \mathbb{P}\left(A_n|A_1A_2\cdots A_{n-1}\right)
Mà trong graphical model thì:
\mathbb{P}\left(A_n|A_1A_2\cdots A_{n-1}\right) = \mathbb{P}\left(A_n| parents\left(A_n\right)\right)
Nên chain rule trong graphical model trở thành:
\displaystyle \mathbb{P}\left(A_1A_2\cdots A_n\right)=\prod_{i=1}^n \mathbb{P}\left(A_i| parents\left(A_i\right)\right)
Một cách vắn tắt, chain rule giúp ta phân tích phân phối xác suất đồng thời của nhiều biến ngẫu nhiên thành tích của nhiều phân phối xác suất có điều kiện. Graphical model giúp ta đơn giản hơn nữa tích này, nhờ vào việc tận dụng tri thức về sự phụ thuộc nếu có giữa các biến ngẫu nhiên. Trong nhiều trường hợp, graphical model có thể giúp giảm đáng kể chi phí tính toán và lưu trữ, như trong ví dụ sau:

Ví dụ Graphical model

Về mặt tính toán, nếu chỉ áp dụng chain rule thông thường thì xác suất đồng thời của 5 biến là:
\mathbb{P}\left(AEBCD\right)= \mathbb{P}\left(A\right)\mathbb{P}\left(E\vert A\right)\mathbb{P}\left(B\vert AE\right)\mathbb{P}\left(C\vert AEB\right)\mathbb{P}\left(D\vert AEBC\right)
Tuy nhiên áp dụng các công thức (1), (2)(3) ta có:
\mathbb{P}\left(AEBCD\right)= \mathbb{P}\left(A\right)\mathbb{P}\left(E\right)\mathbb{P}\left(B\vert AE\right)\mathbb{P}\left(C\vert B\right)\mathbb{P}\left(D\vert B\right)
Rõ ràng graphical model giúp đơn giản một cách đáng kể các phân phối xác suất có điều kiện.
Về mặt lưu trữ, nếu không dùng graphical model, để lưu phân phối xác suất đồng thời của 5 biến ngẫu nhiên này, ta phải cần đến 2^5 – 1 = 31 tham số, trong khi nếu dùng graphical model thì chỉ cần 1 + 1 + 4 + 2 + 2 = 10 tham số. Việc giảm bớt số lượng tham số khiến việc ước lượng tham số cho mô hình trở nên bớt phức tạp hơn.
Người đọc có thể thắc mắc trong ví dụ trên, tại sao chỉ có 10 tham số. Thực chất đây là khái niệm “số chiều” của graphical model, mà ta sẽ làm quen ngay sau đây.

5. Graphical model dimension

Là số lượng tham số độc lập mà ta phải lưu để có đầy đủ thông tin về các phân phối xác suất trong graphical model.
Chẳng hạn xét graphical model G như trong hình ở phần 4. Ta thấy để lưu p(A) ta cần 1 tham số. Tương tự ta cần 1 tham số cho p(E), 4 cho p(B|AE), 2 cho p(D|B) và 2 cho p(C|B). Như vậy:
dim\left(G\right) = 1 + 1 + 4 + 2 + 2 = 10.

6. Kết luận

Bài này trình bày sơ lược về ý tưởng và khái niệm của graphical model. Một câu hỏi quan trọng trong graphical model là làm sao biết tính chất độc lập hay phụ thuộc (có điều kiện) giữa các biến trong mô hình. Vấn đề này sẽ được làm rõ bằng thuật toán Bayes Ball, khái niệm Markov blanket, Markov equivalence được trình bày trong bài sau.

One comment

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s