Hôm nay,  
Việt Báo Văn Học Nghệ Thuật
Việt Báo Văn Học Nghệ Thuật

Máy Học Machine Learning Đoán Kết Quả World Cup 2018

19/06/201800:00:00(Xem: 1375)
Machine Learning
Nhiều nhà nghiên cứu đã thử tìm cách dự đoán kết quả của mùa World Cup 2018. Nhiều công ty đã sử dụng các nhà thống kê chuyên nghiệp để phân tích cơ sở dữ liệu để định lượng xác suất kết quả của các trận đấu. Một cách ước tính khá tốt là kết hợp những tỷ lệ cược lấy từ những người đặt cược, trong đó Brazil là đội được yêu thích nhất, với xác suất thắng World Cup là 16.6%, theo sau là Đức 12.8% và Tây Ban Nha 12.5%. Tuy nhiên, trong những năm gần đây, các nhà nghiên cứu cũng đã phát triển được những kỹ thuật máy học machine learning có khả năng làm tốt hơn nhiều so với những phương pháp thống kê thông thường.

Vậy những phương pháp đã dự đoán kết quả của World Cup 2018 như thế nào?

Một câu trả lời từ công trình nghiên cứu của Andreas Groll tại Đại học Kỹ thuật Dortmund ở Đức và các cộng sự. Nhóm đã kết hợp các công cụ máy học và các phương pháp thống kế thông thường, một phương pháp được gọi là cách tiếp cận gọi là Random Forest, để xác định được đội có khả năng cao dành được chiến thắng.

Trong vài năm trở lại đây, phương pháp Random Forest được coi là một công cụ mạnh mẽ, có khả năng phân tích những tập dữ liệu lớn, đồng thời tránh được cạm bẫy của các phương pháp khai thác dữ liệu khác. Random Forest dựa trên nguyên lý rằng những sự kiện xảy ra trong tương lai có thể được quyết định bởi một biểu đồ quyết định hình cây, nơi kết quả sẽ được tính toán tại mỗi nhánh bằng cách tham chiếu đến tập huấn luyện.

Tuy nhiên, cây quyết định decision trees có một vấn đề phổ biến. Trong những giai đoạn sau của quá trình phân nhánh, các quyết định có thể bị bóp méo nghiêm trọng, bởi tập huấn luyện rất thưa thớt và dễ có biến đổi lớn, một vấn đề được gọi là mô hình quá khớp overfitting.

Cách tiếp cận Random Forest lại khác một chút. Thay vì phải tính kết quả tại mỗi nhánh, quá trình tính kết quả ở những nhánh ngẫu nhiên. Và công đoạn được làm nhiều lần, mỗi lần với một tập gồm nhiều nhánh được chọn ngẫu nhiên. Kết quả cuối cùng là trung bình của tất cả những cây quyết định decision trees. Cách tiếp cận mới có những lợi thế đáng kể. Đầu tiên, nó không gặp phải vấn đề mô hình quá khớp như trong những cây quyết định decision trees thông thường. Nó cũng cho thấy yếu tố nào là quan trọng nhất trong việc xác định kết quả.

Vì thế, nếu một cây quyết định decision tree có chứa nhiều tham số, có thể dễ dàng thấy được tham số nào có ảnh hưởng lớn nhất đến kết quả. Sau đó, những yếu tố ít quan trọng hơn có thể sẽ bị bỏ qua trong tương lai.

Groll và cộng sự đã sử dụng cách tiếp cận để mô phỏng World Cup 2018. Nhóm đã mô hình hoá kết quả của mỗi trận đấu và sử dụng các kết quả để dựng lên một giải đấu có xác suất xảy ra cao nhất.

Nhóm bắt đầu với một loạt cấc yếu tố tiềm năng mà có thể được sử dụng để xác định kết quả. Các yếu tố bao gồm các yếu tố kinh tế như GDP hay dân số của quốc gia, xếp hạng FIFA của đội tuyển quốc gia, tài sản của từng đội, cũng như độ tuổi trung bình, số cầu thủ Champions League mà họ có, hay liệu họ có lợi thế chủ nhà hay không,...

Thậm chí, cách tiếp cận Random Forest còn cho phép sử dụng cả những thứ hạng mà những người đặt cược sử dụng. Nhóm nghiên cứu sẽ sử dụng những thông tin trong mô hình và có được những thông tin chi tiết khá thú vị. Chẳng hạn như, những yếu tố có ảnh hưởng nhiều nhất là thông tin về các thứ hạng như thứ hạng FIFA, thứ hạng của những tay đặt cược,...

Những yếu tố quan trọng khác bao gồm GDP và số cầu thủ Champions League trong đội của các nước. Những yếu tố không quan trọng bao gồm dân số của quốc gia, quốc tịch của huấn luyện viên,... Và, phương pháp Random Forest đã chọn Tây Ban Nha là đội có khả năng chiến thắng cao nhất, với xác suất là 17.8%.

Tuy nhiên, yếu tố quan trọng trong dự đoán là cấu trúc của giải đấu. Nếu Đức vượt qua được vòng loại nhóm, có nhiều khả năng là họ sẽ gặp phải đối thủ mạnh trong vòng loại 16 đội.Vì vậy phương pháp Random Forest đã ước tính cơ hội để Đức đạt được vào vòng tứ kết là 58%. Trái lại, Tây Ban Nha có ít khả năng sẽ gặp phải đối thủ mạnh trong vòng loại 16 đội, vì thế họ có 73% cơ hội được đi vào vòng tứ kết.

Nếu cả hai đội Đức và Tây Ban Nha cùng đi vào vòng tứ kết, tỷ lệ chiến thắng của họ là gần bằng nhau. Nhóm nghiên cứu cho rằng: “Tây Ban nha được ưu ái hơn một chút so với Đức vì Đức có khả năng khá cao là sẽ bị loại trong vòng chọi 16 đội”

Tuy nhiên, có một điều bất ngờ khác: Quá trình cây ngẫu nhiên decision trees có thể mô phỏng toàn bộ giải đấu, và quá trình đã đưa ra một kết quả hoàn toàn khác. Nhóm nghiên cứu đã mô phỏng toàn bộ giải đấu 100,000 lần. Kết quả cho thấy: “Theo như mô phỏng giải đấu có khả năng xảy ra cao nhất, thay vì Tây Ban Nha, Đức mới là đội sẽ thắng World Cup”. Dù vậy, do số lượng hoán vị rất lớn của giải đấu, khả năng vẫn có thể rất khó xảy ra, ước tính khả năng xảy ra trường hợp Đức vô địch là 1/100,000. Nhìn chung, vào đầu giải đấu, Tây Ban Nha có khả năng chiến thắng cao, nhưng nếu Đức có thể vào được vòng tứ kết, họ sẽ có khả năng chiến thắng cao hơn.

Nguoivietphone.com.

Gửi ý kiến của bạn
Vui lòng nhập tiếng Việt có dấu. Cách gõ tiếng Việt có dấu ==> https://youtu.be/ngEjjyOByH4
Tên của bạn
Email của bạn
Một vụ nổ rất lớn làm tung cả trung tâm của thủ đô Beirut của Lebanon hôm Thứ Ba, 4 tháng 8 năm 2020, giết chết hàng chục người, làm bị thương hàng ngàn người và làm bể cửa kính của nhiều tòa nhà khắp thành phố, theo bản tin của CNN hôm Thứ Ba cho biết. Vụ nổ gần hải cảng của Beirut đã tạo cột khói hình cái nấm vĩ đại, đập vào xe cộ và làm hư hại nhiều tòa nhà ở cách xa. Nó được cảm nhận ở xa hàng trăm dặm như tại Cyprus, và được ghi nhận như trận động đất có cường độ 3.3 tại thủ đô Lebanon.
Trung Quốc không ngừng phô trương thế lực ở Biển Đông mà cụ thể mới nhất là vụ TQ đưa tàu chiến và phi cơ quân sự tới Đảo Subi trong Quẩn Đảo Trường Sa trước khi Mỹ dẫn đầu cuộc tập trận lớn RIMPAC vào giữa tháng 8, theo bản tin của Đài Á Châu Tự Do (RFA) cho biết hôm 3 tháng 8 năm 2020.
Berlin (dpa) - Hàng ngàn người đã biểu tình phản đối các biện pháp corona ở Berlin vào thứ Bảy 01.08.2020 bằng một cuộc tuần hành trình diễn. Cảnh sát "giả định" khoảng 15.000 người tham gia vào buổi chiều. Mặc dù số lượng nhiễm trùng ngày càng tăng, những người biểu tình đã vận động đòi chấm dứt mọi biện pháp. Theo cảnh sát, các yêu cầu vệ sinh như khoảng cách và bảo vệ mũi không được tôn trọng. Cảnh sát, ngược lại, đã tiến hành các biện pháp "giao tiếp" (kommunikativ / communicative) như thông báo qua loa hoặc các bài phát biểu cá nhân.
Ngôi sao TikTok là Tyler Nyx, 22 tuổi, có một lời về ý tưởng cấm Tiktok tại Hoa Kỳ, theo bản tin của NBC News cho biết hôm Thứ Bảy, 1 tháng 8 năm 2020. Chữ đó là, “Đau lòng.” Vào tối Thứ Sáu, Tổng Thống Donald Trump đã tuyên bố ông sẽ cấm ứng dụng video có hình thức ngắn, mà công ty mẹ, ByteDance, có trụ sở tại Trung Quốc.
Pháo bắn xuyên biên giới bởi Pakistan đã giết chết ít nhất 15 thường dân Afghanistan hôm Thứ Năm, 30 tháng 7, theo các viên chức Afghanistan cho biết, khiến Kabul phải đặt lục quân và không quân trong báo động, theo Reuters cho biết hôm Thứ Sáu.
Căng thẳng giữa China và phương Tây gần đây đã tăng lên. China đã lên án mạnh mẽ phản ứng của Liên minh châu Âu đối với luật an ninh gây tranh cãi Hồng Kông. Phát ngôn viên Bộ Ngoại giao tại Bắc Kinh cho biết, quyết định của EU nhằm hạn chế xuất khẩu các phương tiện giám sát sang Đặc khu hành chính China đã vi phạm "nguyên tắc cơ bản không can thiệp ở các nước khác".
Chính quyền Belarus đã tuyên bố bắt 33 lính đánh thuê của Nga vì bị tình nghi là khủng bố, bị cáo buộc cố gắng “gây bất ổn” cho quốc gia trước cuộc bầu cử tổng thống vào tháng 8, theo cơ quan truyền thông nhà nước Belta tường trình và CNN thuật lại hôm 30 tháng 7 năm 2020. Việc bắt giam đến giữa lúc các căng thẳng gia tăng giữa hai quốc gia lân bang và khi sự rạn nứt xảy ra giữa 2 nhà lãnh đạo, Tổng Thống Nga Vladimir Putin và Tổng Thống Belarus Alexander Lukashenko, một thời là những đồng minh trung thành.
China đã báo cáo số ca nhiễm mới cao nhất với virus corona mới trong ba tháng. Chính quyền cho biết hôm thứ Tư rằng có 101 trường hợp mới trong 24 giờ qua. Phần lớn các trường hợp xảy ra ở tỉnh Tân Cương (Xinjiang) phía tây bắc. Một nguồn lây nhiễm ở thành phố cảng Đại Liên (Dalian) ở phía đông bắc tiếp tục khiến các nhà chức trách lo lắng.
Ai theo dõi đều biết các diễn biến của đại dịch corona do Wuhan Virus gây ra trên toàn cầu. Tin ngắn quan trọng mới nhất là WHO cảnh báo về một cuộc khủng hoảng chết đói do corona, Cố vấn an ninh của Trump đã bị nhiễm virus, Google thông báo rằng sẽ để nhân viên của họ làm việc tại nhà cho đến tháng 7 năm 2021 … Ở Âu Châu kinh tế suy giảm, làn sóng thứ hai của Corona bùng phát trở lại ở Áo, Tây Ban Nha, Iran, Nhật, Úc … Tài chánh hoàng gia Thuỵ Điển cũng suy sụp nặng nề.
Một người đàn ông Singapore đã nhận tội tại Hoa Kỳ vì làm việc như một nhân viên của TQ, là sự kiện mới nhất trong căng thẳng giữa Washington và Bắc Kinh, theo bản tin của BBC tiếng Anh cho biết hôm Thứ Bảy, 25 tháng 7 năm 2020. Jun Wei Yeo bị truy tố vì sử dụng việc tư vấn chính trị của ông tại Mỹ như là bình phong để thu thập tin tức cho tình báo TQ, theo các viên chức Hoa Kỳ cho biết.
TIN TỨC
NHẬN TIN QUA EMAIL
Vui lòng nhập địa chỉ email muốn nhận.
Người Việt Phone
Không còn nghi ngờ gì nữa, khẩu trang đã đóng một vai trò trung tâm trong các chiến lược đối đầu với dịch bệnh COVID-19 của chúng ta. Nó không chỉ giúp ngăn ngừa SARS-CoV-2 mà còn nhiều loại virus và vi khuẩn khác.
Hôm thứ Hai (06/07/2020), chính quyền Mỹ thông báo sinh viên quốc tế sẽ không được phép ở lại nếu trường chỉ tổ chức học online vào học kỳ mùa thu.
Đeo khẩu trang đã trở thành một vấn đề đặc biệt nóng bỏng ở Mỹ, nơi mà cuộc khủng hoảng Covid-19 dường như đã vượt khỏi tầm kiểm soát.
Trong khi thế giới đang đổ dồn tập trung vào những căng thẳng giữa Mỹ với Trung Quốc, thì căng thẳng tại khu vực biên giới Himalaya giữa Trung Quốc và Ấn Độ vào tháng 05/2020 đã gây ra nhiều thương vong nhất trong hơn 50 năm.
Ủy ban Tư pháp Hạ viện Mỹ cho biết các CEO của 4 tập đoàn công nghệ lớn Amazon, Apple, Facebook và Google đã đồng ý trả lời chất vấn từ các nghị sĩ Quốc hội về vấn đề cạnh tranh trong ngành công nghệ.