Texto: Apro / Foto: FIFA (Twitter)

Ciudad de México, 19 de junio de 2018. La Copa del Mundo Rusia 2018 arrancó el jueves 14 y será probablemente uno de los eventos que más millones de personas vean en la historia, incluso más que las Olimpiadas. La tradición y la importancia del futbol soccer a nivel internacional es tal que nadie puede realmente ignorar la trascendencia de este evento deportivo.

En todos estos encuentros hay pronósticos, los cuales además muchas veces se usan en las casas de apuestas. Así, si un equipo fuerte juega contra uno que en teoría es débil, las casas de apuestas pagan más o menos por irle y poner su dinero en favor de un equipo en particular. Hay un número importante de empresas que se dedican a las estadísticas deportivas; considerando lo anterior, se asume que probablemente Brasil es el claro favorito para ganar la Copa Mundial 2018, con una probabilidad de 16.6%, seguido de Alemania (12.8%) y España (12.5%).

Sin embargo, en años recientes se han desarrollado técnicas de aprendizaje de máquinas que por alguna razón sobrepasan la capacidad de predicción del enfoque estadístico convencional. ¿Qué dicen estas nuevas técnicas de la inteligencia artificial (IA) de la Copa FIFA 2018?

Una respuesta nos llega del trabajo de Andreas Groll, de la Universidad Técnica de Dortmund, en Alemania, quien, junto a sus colegas, usó una combinación de aprendizaje de máquinas y estadística convencional, el cual se denomina “enfoque azaroso de un bosque”, el cual les permitió saber quién podría ser el probable ganador de esta justa deportiva.

La técnica azarosa del bosque ha emergido en los años recientes como una manera de analizar conjuntos de datos muy grandes y evitando así los errores conocidos de otros métodos para la minería de datos. Se basa en la idea de que un evento futuro se puede determinar por un árbol de decisión en el cual el resultado final se calcula en cada rama por referencia a un conjunto de datos de entrenamiento.

Sin embargo, los árboles de decisión tienen sus problemas. En las últimas etapas de la ramificación, las decisiones pueden distorsionarse severamente por el conjunto de datos de entrenamiento, el cual está disperso y sujeto a muchas variaciones en este tipo de resolución. Esto se denomina el problema de sobreajuste (overfitting).

En el enfoque del bosque azaroso, en lugar de calcular el resultado de cada rama, el proceso calcula el resultado de ramas al azar. Y esto lo hace un número de veces, cada vez con un conjunto de ramas seleccionadas al azar. El resultado final es el promedio de estos árboles de decisión construidos de manera azarosa. Este enfoque tiene sus ventajas: primero, no sufre del sobreajuste que es literalmente una “plaga” en los árboles de decisión ordinarios; segundo, también revela qué factores son los más importantes en determinar el resultado.

Así entonces, si un árbol de decisión particular incluye muchos parámetros, es muy fácil ver cuál tiene el mayor impacto en el resultado y cuál no. Estos factores menos importantes entonces, se ignoran en el futuro. Groll y colegas usaron este enfoque exactamente para saber quién podría ser el ganador de la Copa Mundial 2018. Modelaron el resultado de cada partido que jugarán y que podrían jugar. Entonces con esos resultados construyeron el futuro más probable del torneo.

Los investigadores empezaron con un amplio rango de factores que podrían determinar el resultado. Esto incluyó los factores económicos como el PIB y la población, el ranking de los equipos nacionales de acuerdo con la FIFA y las propiedades de cada equipo como: la edad promedio, el número de jugadores que han sido campeones de liga, si tienen ventaja por ser locales, etcétera. Groll y colegas usaron los valores de clasificación de los equipos que algunas casas de apuestas hacen, lo que habla de la bondad del enfoque utilizado, de acuerdo a los propios investigadores.

Todos estos datos se alimentaron en el modelo, el cual arrojó algunos datos interesantes. Por ejemplo, encontraron que los factores más influyentes fueron las clasificaciones de los equipos (creados por otros métodos) y por casas de apuestas, la FIFA misma y terceros. Otros factores importantes fueron el PIB y el número de jugadores campeones de liga en el equipo. Factores poco importantes fueron la nacionalidad del director técnico, por ejemplo, entre otros.

Las predicciones encontradas difieren de otras en muchos sentidos. Para empezar, el método del bosque azaroso indicó que España es el candidato más probable para ganar, con 17.8. Curiosamente, hoy mismo el presidente de la Real Federación Española de Futbol (RFEF) anunció la destitución de Julen Lopetegui como técnico de la selección ibérica, un día antes del inicio del Mundial Rusia 2018. El sustituto será el actual director deportivo de la RFEF, el exfutbolista Fernando Hierro. Así que tal vez los investigadores tendrían que tomar en cuenta este factor de último momento.

Por cierto, en el modelo de la Universidad Técnica de Dortmund la Selección Mexicana de futbol ni siquiera avanza de la fase de grupos, se queda eliminado del Grupo F junto con Corea del Sur.

Por otra parte, un factor fundamental en la predicción es la estructura del torneo en sí. Si Alemania pasa sin problemas en su primera fase, es más probable que tenga que enfrentar la oposición más fuerte en la fase de knock-out de los 16 equipos que queden. Por ello, y de acuerdo al método del bosque azaroso, las oportunidades de Alemania de llegar a la final pasarían a ser apenas del 58%. En contraste, España podría no enfrentar una oposición fuerte cuando queden 16 equipos y tienen un 73% de llegar los cuartos de final.

Si ambos equipos llegan a cuartos de final, tienen más o menos las mismas oportunidades de ganar. “España es ligeramente favorita sobre Alemania, debido a que los alemanes tienen comparativamente una oportunidad mayor de quedar fuera en la ronda de 16 equipos”, dice el trabajo de investigación.

Pero si todo esto fuese poco para algunos puntillosos analistas, el método del bosque azaroso permite que se pueda simular el torneo completo y así producir un resultado diferente. Groll y colegas simularon el torneo 100 mil veces. “De acuerdo al torneo más probable, en lugar de España, el vencedor más probable sería Alemania”, indicaron. Así entonces, al inicio del torneo, España podría ser el equipo con más oportunidades de ganar, pero su Alemania llega a cuartos de final, podrían ser el equipo favorito.

El torneo inició el jueves 14, con el partido tradicional en donde en esta ocasión, el anfitrión, Rusia apabulló a su rival Arabia Saudita por 5-0. Sin embargo, de acuerdo con el trabajo de Groll y colegas, ninguno de estos equipos llegará siquiera a los cuartos de final.