(Toy) Data Analysis

Số lượng user theo năm sinh của Tencent Weibo

Trong ảnh là biểu đồ số lượng người dùng theo năm sinh của 2.320.895 người dùng trong mạng xã hội Weibo của Tencent.

Trong dataset này, năm sinh là do người dùng xác định, do đó có một số nhiễu và dữ liệu không chính xác. Tuy nhiên về tổng thể thì có thể tin được phần lớn thông tin này là năm sinh thật của user. Điều thú vị là đồ thị này có dáng vẻ của phân phối exponential, với peak là năm 1990 với  199.837 người dùng.

Dữ liệu này được công bố trong KDDCup2012, do Tencent tài trợ. Sau khi import hết hơn 3GB dữ liệu của Track 1 vào Oracle XE thì nó ngốn gần 13GB ổ cứng. Một câu query đơn giản trong Oracle cũng phải mất hơn 1 phút mới xong, và có nhiều query không chạy được do giới hạn 5000 dòng và 4 GB của Oracle XE. Lần đầu tiên nghịch dataset cỡ này.

Còn đây là 1 chương trích từ một trong những report lãng nhách nhất từng viết. Download ở đây.

Advertisements

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s