Xác suất: Nhắc lại (I)

Loạt bài về xác suất, bắt đầu bằng bài này, sẽ cố gắng hệ thống lại những điểm chính mà tôi cần thấy phải ghi nhận trong khi đọc quyển All of Statistics của Larry Wasserman. Trong quá trình đọc, những phần kiến thức không có trong sách cũng sẽ được tìm hiểu và trình bày. Ngoài ra cũng sẽ giải các bài tập trong sách (không kì vọng là giải tất cả).

Bài này trích từ chương 1 của sách, hệ thống những kiến thức cơ bản. Phần lớn nội dung trong bài này là quen thuộc đối với những người đã từng học qua 1 khóa xác suất thống kê.

1. Giới thiệu

Trong các lĩnh vực ứng dụng trực tiếp nhiều kết quả của Toán học như Công nghệ thông tin, Kinh tế, Tài chính…, Xác suất (Probability) và Thống kê (Statistics) hay được nhắc đến cùng nhau, thậm chí nếu không tinh ý còn được dùng thành cụm từ Xác suất thống kê như một thể thống nhất. Tuy nhiên cần phải phân biệt rõ 2 khái niệm này.

Thống kê là ngành có nhiệm vụ nghiên cứu tính chất của dữ liệu, dựa vào những quan sát (giá trị rời rạc) của chúng. Chẳng hạn từ dữ liệu về tuổi, nghề nghiệp, giới tính, thu nhập… của mỗi người dân trong một quốc gia, bằng các phương pháp thống kê, có thể biết được các giá trị tổng hợp như cơ cấu dân số về độ tuổi, ngành nghề, cơ cấu về giới tính, thu nhập trung bình của mỗi người v.v… Những giá trị tổng hợp này cung cấp một cái nhìn tổng quan hơn về toàn bộ dân số của quốc gia đó. Phạm vi nghiên cứu của Thống kê toán học không chỉ dừng lại ở các phương pháp phân tích dữ liệu, mà còn bao gồm cả việc lên chiến lược thu thập dữ liệu mẫu (Theo đó thì công việc của những người thiết kế ra các bản điều tra dân số, cân nhắc xem bản điều tra ấy cần có những thông tin gì… cũng được coi là thuộc lĩnh vực Thống kê).

Xác suất là ngành chuyên nghiên cứu những hiện tượng ngẫu nhiên, là một phương pháp để miêu tả tri thức hoặc niềm tin (của ta) về một hiện tượng (sự kiện) nào đó. Mỗi sự kiện được gán một giá trị số, thể hiện niềm tin rằng sự kiện đó là đúng, là sẽ xảy ra. Chẳng hạn khi nói “75% dân số Việt Nam có chiều cao dưới 1.70 mét”, thì có nghĩa là ta tin vào sự kiện “lấy một người bất kì trong 80 triệu người Việt Nam, người đó có chiều cao dưới 1.70 mét” khoảng 75%. Có thể giải thích nôm na là ta tin rằng cứ chọn bất kì 100 người Việt Nam, thì 75 người cao dưới 1.70 mét.

Hình 1: Mối liên hệ giữa Xác suất và Thống kê.

Mối quan hệ giữa Xác suất và Thống kê được thể hiện trong Hình 1. Theo đó vấn đề trung tâm của Xác suất là:

Biết trước tính chất của quá trình phát sinh dữ liệu (biết trước mô hình dữ liệu), có thể kết luận gì về các kết quả của quá trình đó?

Ngược lại, vấn đề trung tâm mà các phương pháp thống kê phải giải quyết là:

Biết trước một số kết quả quan sát, có thể kết luận gì về quá trình phát sinh ra những quan sát đó?

Các bài toán như gom cụm (clustering), phân lớp (classification), ước lượng (estimation), dự đoán (prediction) đều là trường hợp riêng của các phương pháp thống kê. Thống kê đôi khi có thể gọi là phân tích dữ liệu, khai thác dữ liệu (Data mining) hoặc Học máy (Machine Learning) tùy vào ngữ cảnh cụ thể.

2. Không gian mẫu, biến cố ngẫu nhiên

3. Xác suất

4. Xác suất trên tập hữu hạn

5. Xác suất có điều kiện

6. Luật Bayes

<to be updated>

Advertisements

3 comments

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s