Attendance vs Team Current Performance: an analysis on SHB Da Nang club

Hello everyone,

Trong bài viết này, mình muốn đi tìm mối quan hệ giữa Thành tích Gần đây của Đội bóng - Team Current Performance và Số lượng Khán giả đến sân - Attendance. Một cách cụ thể, mình muốn đi tìm câu trả lời cho câu hỏi: "Thành tích gần đây của đội bóng SHB Đà Nẵng ảnh hưởng đến số lượng khán giả đến sân Hòa Xuân như thế nào?". Sân Hòa Xuân là sân nhà của CLB SHB Đà Nẵng kể từ mùa giải 2017 trở đi, trước đó sân nhà của CLB SHB Đà Nẵng là sân Chi Lăng.

Tại sao thành tích gần đây của đội bóng matter? Mình lấy ý tưởng cho bài viết từ cái cách chúng ta nói về bóng đá: "Đá chán vậy coi làm gì!" Điều này cũng đồng nghĩa là nếu đội nhà chơi hay thì chúng ta sẽ prefer để đến sân cổ vũ hơn. Chơi hay nghĩa là thành tích gần đây của đội bóng là tốt. Và trong bài này, mình muốn xây dựng một model cho mối liên hệ này.

Sân vận động Hòa Xuân

Có rất nhiều yếu tố ảnh hưởng đến số lượng khán giả đến sân để cổ vũ đội chủ nhà trong một trận đấu mà mình có thể list ra dưới đây:

  • Thành tích gần đây của đội bóng: gần đây đội bóng đó có giành chiến thắng thường xuyên không?
  • Lịch sử của đội bóng: đội bóng đó có gắn bó với người dân ở địa phương mà đội bóng đó đang đại diện hay không? Đội bóng đó có bề dày thành tích hay không? 
  • Mức độ yêu mến của khán giả địa phương tới đội bóng đó như thế nào? Mật độ dân số ở địa phương đó như thế nào? 
  • Giá vé như thế nào? Sân vận động có nằm ở vị trí thuận lợi hay không? Thời tiết lúc trận đấu diễn ra như thế nào?
  • Mức độ thu hút của đội khách như thế nào? (Ví dụ như : đội khách có cầu thủ nổi tiếng không?)
  • Thành tích của đội tuyển quốc gia như thế nào? (why not?)
  • etc

Bạn có thể thấy là có rất rất nhiều yếu tố có thể tác động đến số lượng khán giả đến sân để cổ vũ cho đội nhà trong một trận đấu. Tuy nhiên trong điều kiện cho phép thì mình chỉ có thể tìm hiểu một yếu tố là thành tích gần đây của đội bóng đó. Đội bóng trong bài viết là CLB SHB Đà Nẵng và data sẽ là lượng khán giả đến sân Hòa XuânV. League 2017 dựa theo dữ liệu lấy từ website của VPF.

Mình sẽ phân tích với mô hình là một simple linear regression, với output variable (biến đầu ra) là số lượng khán giả đến sân và independent variable (biến độc lập) là thành tích gần đây của đội bóng đó. Nếu phân tích này có ý nghĩa thống kê thì tức là chúng ta có thể dùng mô hình simple linear regression này để dự đoán (predict) độ dao động của số lượng khán giả đến sân Hòa Xuân dựa theo sự biến đổi của thành tích gần đây của đội bóng SHB Đà Nẵng. 

Đầu tiên chúng ta hãy nhìn vào raw data để xem chúng ta đang có gì:

Round Attendance HostName HostPoint AwayPoint AwayName
1 19000 SHBDN 3 0 HAGL
4 6000 SHBDN 3 0 HP
6 13000 SHBDN 1 1 FLCTH
8 11000 SHBDN 3 0 TQN
9 9000 SHBDN 1 1 TPHCM
11 5000 SHBDN 0 3 KH
12 7000 SHBDN 1 1 BD
15 6000 SHBDN 1 1 HN
17 6000 SHBDN 3 0 XSKT CT
18 8000 SHBDN 0 3 SLNA
21 4000 SHBDN 3 0 LA
23 9000 SHBDN 0 3 QN
25 2000 SHBDN 0 3 SG

Ở bảng trên, chúng ta có được thông tin của các trận đấu trên sân nhà Hòa Xuân của đội SHB Đà Nẵng ở V. League 2017. Row đầu tiên là column header. Column "Round" là tên của vòng đấu, "Attendance" là số lượng khán giả đến sân, "HostPoint" là điểm số của đội bóng SHB Đà Nẵng trong trận đấu đó. Ví dụ ở row 2, chúng ta có được thông tin là: vòng đấu thứ nhất giữa đội nhà SHB Đà Nẵng và đội khách là HAGL với số lượng khán giản đến sân là 19000 người - kết quả của trận đấu là đội nhà thắng được 3 điểm còn đội khách thua và không có điểm.

Thành tích gần đây của đội bóng được tính như thế nào?

Bây giờ, mình sẽ nói về cách tính của biến độc lập là thành tích gần đây của đội bóng và nên diễn giải thông số này như thế nào. Trong bài viết mình chỉ gọi thông số này là TCP (Team Current Performance) cho ngắn gọn (không phải TPP nhá :]]). Khi một khán giả xem xét liệu có nên đến sân để cổ vũ trận đấu của đội nhà hay không, anh ta sẽ nhìn vào một chỉ số thể hiện được thành tích "gần đây" của đội bóng đó. Thành tích "gần đây" này bao gồm:

[1] Số điểm mà đội bóng giành được trong trận đấu gần đây nhất trên sân nhà. Mình gọi thông số này là Current Host Point (CHP) - hay Điểm số Gần đây trên Sân nhà. Trong bài viết mình gọi thông số này là CHP cho ngắn gọn.

[2] Số điểm mà đội bóng giành được trong các trận đấu ở sân khách nằm giữa trận đấu gần nhất trên sân nhà và trận đấu sắp diễn ra (tức nằm giữa hai trận đấu trên sân nhà). Mình gọi thông số này là Current Away Point (CAP) - hay Điểm số Gần đây trên Sân khách.

Ở đây, mình assume là một trận thắng trên sân nhà của một đội bóng sẽ mang một ý nghĩa lớn hơn với khán giả nhà hơn là một chiến thắng trên sân khách. Trên sân nhà, khán giả nhà có thể "feel" được không khí chiến thắng khi cổ vũ trực tiếp cho đội bóng. Ở chiều ngược lại, một trận thắng trên sân khách sẽ "ít ý nghĩa hơn" đối với khán giả nhà bởi họ không thể trực tiếp đến sân cổ vũ và được join "victory atmosphere" nếu đội bóng giành được chiến thắng. Do đó, mình sẽ đặt trọng số cho CHPCAP. Một cách cụ thể, mình sẽ sử dụng công thức dưới đây để tính TCP:

TCP = (CHP*2 + ∑CAP[i])/(2+n)
với
i = 0 → n
n: số trận sân khách giữa trận sân nhà gần nhất và trận sắp diễn ra

Từ công thức trên, bạn có thể thấy TCP là một biến liên tục (continuous variable) và có giá trị từ 0 tới 3.

Khi một khán giả xem xét liệu anh ta có nên đến sân để cổ vũ cho đội nhà hay không, anh ta sẽ refer tới chỉ số TCP. Nếu TCP thấp thì khả năng khán giả đó đến sân là thấp, còn nếu TCP cao thì khả năng khán giả đó đến sân sẽ cao theo. Dựa vào công thức trên, chúng ta sẽ có được chỉ số TCP cụ thể cho từng vòng đấu như sau.

RoundAttendanceHostNameTCPHostPointAwayName
119000SHBDN33HAGL
46000SHBDN1.753HP
613000SHBDN2.3333331FLCTH
811000SHBDN0.6666673TQN
99000SHBDN31TPHCM
115000SHBDN1.6666670KH
127000SHBDN01BD
156000SHBDN0.751HN
176000SHBDN1.6666673XSKT CT
188000SHBDN30SLNA
214000SHBDN0.53LA
239000SHBDN20QN
252000SHBDN00SG

Mình giải thích một chút cho các thông tin được hiển thị ở bảng trên:

[1] Bởi vì vòng 1 là trận đấu đầu tiên trên sân nhà của CLB SHB Đà Nẵng nên mình sẽ assign điểm số TCP cao nhất là 3 điểm cho vòng đấu đó. Điều này cũng đồng nghĩa với việc người khán giả tới sân ở vòng 1 với tâm lý rằng đội nhà đang có thành tích tốt nhất. Đây là một cách diễn giải hợp lý bởi vòng đầu tiên luôn tượng trưng cho một cái gì đó như "positive hope" hoặc "new beginning". Hơn nữa, đội SHB Đà Nẵng luôn được xem là ứng cử viên vô địch trước mỗi mùa giải nên việc assign TCP với max value là 3 cho vòng đấu đầu tiên là chấp nhận được.

[2] Từ bảng trên, bạn có thể thấy điểm số TCP ở vòng 4 (tức là trận thứ 2 trên sân nhà của SHB Đà Nẵng) là 1.75. Giá trị này được tính như sau:

(2a) Điểm số của trận gần nhất trên sân nhà (tức trận đấu ở vòng 1) của đội SHB Đà Nẵng là 3 điểm. Do đó, CHP = 3.

(2b) Trận thứ 2 trên sân nhà của SHB Đà Nẵng là ở vòng 4 - tức là vòng 2vòng 3 họ thi đấu trên sân khách. Ở vòng 2, đội SHB Đà Nẵng thua đội Sài Gòn nên được 0 điểm. Ở vòng 3, đội SHB Đà Nẵng hòa đội Quảng Nam nên được 1 điểm.

Do đó,

TCP(vòng 4) = ((CHP(vòng 1)) * 2 + CAP(vòng 2) + CAP(vòng 3))/4 = (3*2 + 0 + 1)/4 = 1.75

Giá trị TCP cho các trận đấu còn lại trên sân nhà Hòa Xuân cũng được tính tương tự.

Kết quả

Sau khi có được chỉ số TCP của đội bóng cho mỗi trận đấu trên sân nhà Hòa Xuân, chúng ta có thể tính được mối tương quan giữa thành tích đội SHB Đà Nẵng ( thông qua chỉ số TCP) và số lượng khán giả tới sân như sau:

Hình 1: Kết quả phân tích theo mô hình simple linear regression

Từ kết quả phân tích thể hiện ở Hình 1, chúng ta có thể đưa ra một số kết luận như sau:

[1] Linear Fit Model: Attendance = 4330.5365 + 2395.2307*TCP

Model này có nghĩa là nếu TCP tăng 1 điểm thì số lượng khán giả đến sân Hòa Xuân sẽ tăng khoảng 2395 người.

[2] Summary of Fit: R² (coefficient of determination) = 0.360641

Kết quả này có nghĩa là mô hình regression này (với TCP là independent variable) giải thích khoảng 36% sự khác biệt về số lượng khán giả cho mỗi trận đấu của CLB SHB Đà Nẵng trên sân nhà Hòa Xuân. Còn 64% còn lại của sự khác biệt này là do các yếu tố undefined khác mà chúng ta không đưa vào trong mô hình (ví dụ giá vé, thời tiết, etc.)

[3] Lack of Fit: Prob>F = 0.6233

Điều này có nghĩa là giá trị p-value cho kiểm định Lack of Fit là 0.6223 ( lớn hơn α = 0.05) → giá trị này thể hiện mức độ "Lack of Fit" không có ý nghĩa thống kê.

[4] Analysis of Variance: Prob>F = 0.03

Kết quả này thể hiện là có ít nhất một thông số có ảnh hưởng mang "ý nghĩa thống kê" trong mô hình. Nhưng vì mô hình của chúng ta chỉ có một variable duy nhất là TCP nên chúng ta có thể nói là mô hình này có ý nghĩa thống kê.

[5] Parameter Estimate: Prob>|t| = 0.03 cho TCP 

Kết quả này một lần nữa confirm cho chúng ta rằng mô hình linear regression này có ý nghĩa thống kê khi p - value của TCP bằng 0.03 (nhỏ hơn giá trị chuẩn của kiểm định là 0.05).

Tóm lại trong bài viết này, mình đã build một simple linear regression model thể hiện sự ảnh hưởng của thành tích gần đây của đội SHB Đà Nẵng tác động tới số lượng khán giả đến sân Hòa Xuân với data được lấy từ nguồn của VPF. Nếu TCP tăng 1 điểm thì số lượng khán giả đến sân Hòa Xuân sẽ tăng khoảng 2395 người và mô hình này có ý nghĩa thống kê. Do đó, nếu bạn dự định đến sân Hòa Xuân để xem đội SHB Đà Nẵng thi đấu khi chỉ số TCP của họ là 3 (có thể là họ thắng trên sân nhà ở ngay vòng đấu trước) - hãy đi sớm để chọn chỗ ngồi tốt để xem vì đó sẽ là một ngày bận rộn với số lượng khán giả đến sân không dưới 7000 người. 

Reference

[1] http://www.stat.ualberta.ca/~hooper/teaching/misc/Pvalue.pdf

[2] https://www.colorado.edu/intphys/Class/IPHY3700_Greene/slides/generatingContentInterpret/explainPValues.pdf

[3] http://www.jmp.com/support/help/Regression_Reports.shtml

[4] Nguyễn Văn Tuấn. Phân tích dữ liệu với R. Nhà xuất bản tổng hợp thành phố Hồ Chí Minh. 2014

About Author

Chia sẻ bài viết

Leave a Comment

Your email address will not be published. Required fields are marked *