V. League 2017 qua góc nhìn thống kê (tiếp theo)

Hello everyone,

Ở bài viết này mình sẽ tiếp tục chủ đề về giải bóng đá vô địch quốc gia V. League 2017 qua góc nhìn thống kê. Ở bài trước, chúng ta đã có một vài thống kê thú vị liên quan tới số lượng khán giả tới sân. Ở bài này, chúng ta sẽ nhìn V. League 2017 dưới thông số bàn thắng điểm số - và một vài điều thú vị liên quan đến con số này từ các phân tích thống kê.

Nhưng trước khi đi vào bài viết, mình muốn nói một chút về tầm quan trọng của data trong bóng đá chuyên nghiệp và cách làm thế nào để mình có được những data cho bài viết này. Thực ra mình cũng chỉ biết được tầm quan trọng của data đối với bóng đá chuyên nghiệp mới đây khi mình đang lang thang trên Internet để tìm hiểu xem có người nào cũng đang collect và analyze data cho V. League 2017 như mình không. Kết quả là mình tìm được một trang rất hay là V. League Stats và data họ collect được còn chi tiết hơn cả data của … ban tổ chức giải vô địch quốc gia VPF.

V. League Stats share một số thông số rất thú vị như số phút thi đấu của một cầu thủ, số bàn thắng (chân trái, chân phải, đầu). Tất cả những thông số này đều được collect manually hay còn được gọi là phương pháp Opta - bạn có thể hiểu là những người làm entry data đã phải tốn công sức như thế nào : họ theo dõi mọi trận đấu (online hoặc offline) và take note on everything. Mặc dù còn thiếu khá nhiều những thông số quan trọng khác nhưng những gì có được theo mình nghĩ cũng đã là một đóng góp khá lớn mà một tổ chức cộng đồng có thể đóng góp được cho giải bóng đá cao nhất Việt Nam. Mình dự định sẽ viết thêm một bài về V. League 2017 dựa trên data mà trang V. League Stats share với hy vọng sẽ có một vài cái nhìn insight out thú vị và có ích cho bóng đá Việt Nam từ kho data này.

Trở lại một chút với việc data tác động tới bóng đá chuyên nghiệp như thế nào. Bạn có biết tại sao Wenger lại được gọi là "giáo sư bóng đá" không? Việc đầu tiên ông ấy làm vào buổi sáng tiếp theo sau ngày thi đấu là nhìn vào những tờ spreadsheet. Vào năm 2002, ông ấy bắt đầu thay ra sân tiền đạo Dennis Bergkamp vào giữa hiệp hai trong nhiều trận đấu. Bergkamp đến gặp Wenger để phàn nàn vì điều này. "Và ông ấy giới thiệu tôi về các con số thống kê", Bergkamp nhớ lại. "Nhìn này Dennis, cứ sau 70 phút là cậu bắt đầu chạy ít lại. Và tốc độ của cậu cũng bị giảm đi".

Một ví dụ nổi tiếng khác về sức mạnh của data là ở loạt đấu luân lưu trận tứ kết World Cup 2006 giữa ArgentinaĐức. Trong trận đấu mà "kẻ tám lạng, người nửa cân" này, hai đội đã đành phải kéo nhau tới loạt sút may rủi. Và trong loạt đấu luân lưu này, thủ môn Lehmann của đội tuyển Đức đã làm theo chỉ dẫn được viết trong một mẩu giấy nhỏ về cách cản phá cú sút từng cầu thủ của đội Argentina dựa trên data mà người Đức đã thu thập được. Kết quả là Lehmann đã bay đúng hướng bóng 4/4 lần và cản phá được 2/4 cú sút luân lưu của đội Argentina. Giá trị của data analysis ở đây là không phải bàn cãi, nó tác động rất lớn tới việc đội tuyển nào bị loại và đội nào tiếp tục đi tiếp vào Top 4 World Cup.

Mẩu giấy hướng dẫn cách cản phá cú sút 11m của từng cầu thủ đội Argentina mà thủ môn Lehmann sử dụng

Các thông tin có được từ data đang ảnh hưởng rất lớn đến các đội bóng chuyên nghiệp, từ việc đưa ra quyết định mua bán cầu thủ cho đến sử dụng chiến thuật và cầu thủ cho từng trận đấu. Theo tìm hiểu của mình, các câu lạc bộ ở Premier League đều có những người làm job Data Analyst và họ là những người có vai trò rất quan trọng đối với CLB (mặc dù dư luận biết rất ít về họ). Đây cũng là một điều mà bóng đá Việt Nam có thể học theo, nhưng muốn được như vậy thì VFF & VPF cũng cần phải đầu tư không nhỏ cho khoản quan trọng đầu tiên là data collection - bởi lẽ muốn có được những thông tin có ích hơn, chi tiết hơn (ví dụ như distance run, sprints - thì phải có các thông số chi tiết hơn, chính xác hơn; điều mà các cộng đồng hỗ trợ như V. League Stats dù muốn cũng rất khó để làm bởi vì cần phải đầu tư phần mềm chuyên môn thay vì chỉ colllect data manually như bình thường (ví dụ không thể lấy được thông số sprint hoặc distance run bằng phương pháp entry data manually). "Cuộc chiến" giữa các data analyst trong bóng đá giờ đây cũng gây cấn không kém gì các cầu thủ chạy trên sân.

Mình đã lấy data như thế nào cho bài viết?

Bây giờ mình muốn giải thích cách thức mình lấy data cho bài viết này như thế nào. Tất cả data trong bài viết đều được lấy từ nguồn chính thức của VPF. Các bạn có thể xem data của VPF tại đây. Data cho một trận đấu ở V. League 2017 sẽ được VPF lưu lại theo cách như hình bên dưới: 

Hình 1 : Data của một trận đấu từ nguồn VPF

Hình 1 là dữ liệu của một trận đấu được record bởi VPF. Dữ liệu này bao gồm : thời gian, địa điểm, tên hai đội bóngội nhà và đội khách), tỉ số, cầu thủ ghi bàn, thẻ vàng, thđ, trọng tàisố lượng khán gi. Bạn có thể thấy là việc trình bày data của VPF là không thể dùng cho phân tích dữ liệu được ngay vì nó không được định dạng kiểu table hay frame. Mình thì tất nhiên là không thể xử lý data manually rồi (một phần vì không có thời gian, một phần vì không đủ kiên nhẫn). Việc mình làm là mình copy tất cả các dữ liệu này thành text file và viết code (mình dùng C#) đprocess data và đưa nó vdạng formatted để chạy analysis (mình dùng JMP/R cho data analysis). Việc process data không phải viết một lần là xong được bởi data được trình bày bởi VPF là khá lộn xộn, ví dCLB "TPHCM" thì có lúc được viết là "TP Hồ Chí Minh" hoặc "TP. Hồ Chí Minh" hoặc "TP HCM". Mình cần phải sửa script vài lần để adjust mấy cái exceptions như vậy mới ra được data table cuối cùng. Thông tin trong bài viết có thể nói là integrity vì xài raw data chính thức của VPF - do đó bạn có thể hoàn toàn yên tâm về những phân tích trong bài viết dựa trên những data này.

Nhìn V. League qua số lượng bàn thắng

Bây giờ chúng ta hãy đi vào phần chính của bài viết với vài con số thông kê thú vị liên quan đến bàn thắng của V. League 2017. Việc thông tin có được có thú vị và có ích hay không theo mình nghĩ còn phụ thuộc vào việc "câu hỏi của bạn là gì". Cùng một data nhưng nếu mỗi người có câu hỏi khác nhau sẽ dẫn đến những câu trả lời với những thông tin khác nhau - và có những thông tin thì mới mẻ và những thông tin thì cũng không có ích cho lắm. Những thông tin bên dưới là xuất phát từ những câu hỏi mà mình muốn thấy câu trả lời -  đối với mình thì những thông tin có được này là khá thú vị.

1/ Sân vận động nào chứng kiến số bàn thắng trung bình trong một trận đấu cao nhất?

Hình 2 : Biểu đồ thể hiện dao động giữa đội chủ nhà và số bàn thắng
Bảng tóm tắt 1

Theo thông tin có được từ Hình 2Bảng tóm tắt 1, đó là sân Long An của CLB Long An với 3.84 bàn/trận. Đứng ở vị trí thứ hai là sân Cần Thơ của CLB Cần Thơ với 3.61 bàn/trận. Đứng ở vị trí thứ ba là sân Thanh Hóa của CLB FLC Thanh Hóa với 3.07 bàn/trận. Tại sao trận đấu sân nhà của CLB Long An và CLB Cần Thơ có nhiều bàn thắng nhưng khán giả của họ lại ít tới sân đến vây? Bạn đoán đúng rồi đấy, chủ yếu là đội khách ghi bàn thôi chứ không phải là đội nhà - còn con số cụ thể như thế nào thì mời bạn xem data bên dưới.

2/ Đội nào ghi được nhiều bàn thắng nhất khi thi đấu trên sân nhà?

Hình 3: Bảng thể hiện số bàn thắng theo đội chủ nhà
Bảng tóm tắt 2

Theo Hình 3Bảng tóm tắt 2, đó là CLB Hà Nội

Theo data, CLB Hà Nội ghi được trung bình 2.23 bàn/trận khi họ được thi đấu trên sân nhà. Đứng thứ hai là CLB Thanh Hóa Than Quảng Ninh với cùng 1.92 bàn/trận. Đội bóng có thành tích ghi bàn kém nhất khi thi đấu sân nhà là Becamex Bình Dương với chỉ 1.23 bàn/trận. Nói về khả năng ghi bàn khi thi đấu ở sân nhà thì CLB vô địch V. League 2017 Quảng Nam chỉ sánh ngang với CLB XSKT Cần Thơ - đội xếp thứ hai chung cuộc xếp từ dưới lên với 1.69 bàn/trận; tuy nhiên nó cũng đã cao hơn so với số bàn thắng trung bình trong một trận của một đội nhà của cả giải đấu với chỉ 1.58 bàn/trận.

3/ Sân nào bđội khách ghi bàn nhiều nhất?

Hình 4: Biểu đồ thể hiện số bàn thắng của đội khách theo đội chủ nhà
Bảng tóm tắt 3

Theo Hình 4Bảng tóm tắt 3, đó là sân Long An của đội bị rớt hạng CLB Long An. 

Theo data, trung bình đội khách ghi tới 2.53 bàn/trận khi họ thi đấu ở sân Long An. Không thể ngăn cản được đối phương ghi bàn dù là được thi đấu trên sân nhà giúp giải thích vì sao CLB Long An phải xếp chót và  xuống hạng ở mùa giải này. Đứng vị trí thứ hai trong danh sách là sân Cần Thơ của CLB XSKT Cần Thơ với 1.92 bàn/trận - giúp giải thích tại sao họ đứng ở vị trí áp chót. Đứng ở vị trí thứ ba là sân Thống Nhất của đội nhà TPHCM với 1.69 bàn/trận - giúp giải thích tại sao CLB TPHCM xếp thứ ba tính từ dưới lên. Điều thú vị là sân Thống Nhất cũng là sân mà đội khách khó ghi bàn nhất khi nó là sân nhà của CLB Sài Gòn. Theo data thì trung bình đội khách chỉ ghi được 0.61 bàn/trận khi họ phải thi đấu trên sân nhà của CLB Sài Gòn.

4/ Đội nào ghi bàn nhiều nhất trên sân khách?

Hình 5: Biểu đồ thể hiện bàn thắng đội khách ghi được trên sân khách
Bảng tóm tắt 4

Theo Hình 5Bảng tóm tắt 4, đó chính là CLB Hà Nội với trung bình 1.92 bàn/trận.

Điều này rất ấn tượng bởi Hà Nội không chỉ là đội ghi được nhiều bàn thắng nhất khi đá trên sân nhà mà cũng chính là đội ghi được nhiều bàn thắng nhất khi thi đấu trên sân khách. Điều này chứng tỏ hàng tấn công của CLB Hà Nội có chất lượng tốt nhất giải. Xếp thứ hai trong danh sách là CLB Quảng Nam với 1.84 bàn/trận - giúp giải thích một phần tại sao họ vô địch ở mùa giải này. Xếp thứ ba trong danh sách là CLB Khánh Hòa với 1.61 bàn/trận. Tuy nhiên, ghi được nhiều bàn nhất không đồng nghĩa với việc kiếm được nhiều điểm nhất. Đó là lý do tại sao đội vô địch là CLB Quảng Nam chứ không phải CLB Hà Nội. Chúng ta hãy đi tới phần tiếp theo để xem đội nào kiếm được nhiều điểm nhất khi thi đấu trên sân khách.

V. League 2017 qua góc nhìn điểm số

5/ Đội nào kiếm điểm nhiều nhất trên sân khách?

Hình 6: Biểu đồ thể hiện phân bố điểm số của các đội khi thi đấu sân khách
Bảng tóm tắt 5

Theo Hình 6Bảng tóm tắt 5, đó là CLB Quảng Nam với 1.92 điểm/trận.

Đứng ở vị trí thứ hai là CLB Khánh Hòa với 1.69 điểm/trận. CLB Hà Nội - đội ghi được nhiều bàn thắng nhất trên sân khách - chỉ xếp ở vị trí thứ bảy trong danh sách này với nguyên nhân chính là do họ có kết quả hòa với đội nhà nhiều hơn là thắng. Đứng ở vị trí thứ ba trong danh sách là CLB Thanh Hóa - đội bóng cũng nằm trong cuộc đua chức vô địch V. League đến tận vòng cuối cùng với 1.53 điểm/trận. Xét theo thông số này thì CLB Long An và CLB Cần Thơ tệ như nhau với 0.53 điểm/trận - đương nhiên là xếp chót trong danh sách.

6/ Đội khách nào mà đội nhà khó lấy điểm nhất?

Hình 7 : Bảng phân bố số điểm đội nhà theo đội khách
Bảng tóm tắt 6

Theo Hình 7Bảng tóm tắt 6, đó là CLB Quảng Nam và CLB Khánh Hòa với số điểm trung bình mà đội nhà kiếm được từ họ là 1 điểm/trận. Chỗ này cũng thú vị nhé, nếu xét đội nào kiếm điểm tốt nhất trên sân khách thì CLB Quảng Nam xếp thứ nhất, CLB Khánh Hòa xếp thứ hai. Nhưng nếu xét trên khía cạnh đội bóng nào khiến đội nhà khó lấy điểm nhất thì CLB Quảng Nam và CLB Khánh Hòa cùng đồng hạng nhất. Đọc đến đây và bạn cảm thấy ấn tượng với CLB Khánh Hòa? Thực ra họ chỉ xếp thứ 6 chung cuộc mà thôi. Lý do là họ thi đấu trên sân nhà cũng bình thường và sđiểm họ kiếm được trên sân nhà thậm chí còn thấp hơn con số trung bình của giải đấu một chút. Còn data cụ thể thì mời các bạn đọc tiếp tục đọc phần bên dưới.

7/ Đội nào kiếm được nhiều điểm nhất khi thi đấu trên sân nhà?

Hình 8: Biểu đồ thể hiện số điểm của một đội khi đá sân nhà
Bảng tóm tắt 7

Theo data, đó là CLB Hà Nội với 2.3 điểm/trận. CLB Hà Nội là CLB ghi bàn nhiều nhất trên sân nhà và cũng là CLB kiếm được nhiều điểm nhất trên sân nhà. CLB Hà Nội là CLB ghi bàn nhiều nhất trên sân khách nhưng chỉ là CLB xếp thứ 7 trong danh sách những đội kiếm điểm tốt nhất trên sân khách. Như vậy, vấn đề lớn nhất của CLB Hà Nội trong mùa giải này là hàng thủ của họ chơi không thật sự tốt khi thi đấu trên sân khách. Cùng đứng ở vị trí thứ hai trong danh sách này là đội Á quân của giải CLB FLC Thanh Hóa và CLB Than Quảng Ninh - đội đã ngán đường CLB Hà Nội ở vòng cuối với cùng 2.15 điểm/trận. CLB vô địch Quảng Nam chỉ xếp thứ 6 trong danh sách này với 1.77 điểm/trận khi thi đấu trên sân Tam K.

About Author

Chia sẻ bài viết