¿Existe la bola de cristal infalible?

Con el avance en el manejo y tratamiento de datos (el manoseado y recurrente concepto de Big Data), surgen nuevas voces que aseguran que es posible predecir el tráfico con un grado de fiabilidad que roza el 100% al disponer de más información para hacer predicciones.

Pero ¿es esto posible?

Aunque algunas empresas dedicadas al tratamiento de datos dicen que sí, la respuesta es, en lo que a mí respecta un no, porque es diferente el horizonte temporal en el que nos manejamos los Ingenieros y las empresas del sector.

¿Qué hay de nuevo, viejo?

No nos engañemos: no se ha inventado nada nuevo, sólo se ha barnizado y por qué no decirlo, mejorado, pero el uso de Big Data y del análisis de datos se lleva haciendo desde hace tiempo, pero con nombres más mundanos.

No hay que irse a la competencia para verlo. En Globalvia el ejemplo más claro está en Metro de Sevilla que a la hora de presupuestar su demanda se incluyen las fechas de Semana Santa, La Feria de Abril y hasta los días que hay fútbol (suponiendo incluso hasta dónde llega el Sevilla en competiciones internacionales, por ejemplo).

Como digo, las nuevas herramientas de análisis de datos no reemplazan los viejos métodos de cálculo, pero sí pueden mejorarlos, en el sentido que permite abarcar más información y, por lo tanto, son más precisos y rápidos en la caracterización de nuestro tráfico o demanda.

Esta mejora en la caracterización se basa en la obtención de nuevas correlaciones entre el tráfico y variables que puedan afectarle, abriendo un abanico de posibilidades que hasta hace poco era impensable desarrollar. Correlacionar la evolución del tráfico con alguna variable justificativa se remitía prácticamente a variables bastante conocidas, quizá por costumbre, pero sobre todo porque no se tenía más información y medios con la que asociar dichos datos.

The fields of data science
Fuente: Dahl Winters.

Pero cuidado: correlación no implica causalidad.

Valga el siguiente ejemplo: se ha detectado una correlación entre el incremento de ventas de piolets en una tienda en Chamonix y el incremento de número de muertos escalando el Mont Blanc. Este dato podría hacer pensar que quien compre un piolet en dicha tienda tiene los días contados. Sin embargo, aunque correlacionen, uno no causa (a priori) lo otro, y es más probable que el buen tiempo haya atraído a más montañeros a la zona, y por lo tanto se hayan incrementado a la vez las ventas de la tienda y las posibilidades de un accidente.

La labor del analista de datos (en este caso del Ingeniero de Tráfico) es detectar inconsistencias en cada correlación para evitar un uso equivocado de la información, pero también lo es el validar las variables que sí implican causalidad.

Modelos y modelos

La cada vez más accesible información del usuario (entendiendo por usuario a cualquier persona que se mueva por un objetivo concreto) permite buscar en otros índices las causas de su movimiento, y, por lo tanto, mejorar lo que sabemos sobre dicho usuario y (supuestamente) mejorar la predicción a futuro el comportamiento de usuarios similares.

Y es aquí donde aparece el primer error de concepto: se está llamando modelo predictivo a algo que en realidad podría no serlo.

El uso que damos del Big Data en nuestros análisis internos en realidad está generando, en el caso del tráfico, un modelo descriptivo al buscar una justificación de por qué una persona decidió moverse en el pasado, clasificándola a su vez en un determinado grupo. Analizando su comportamiento, si en el futuro encontramos a un usuario que encaja dentro de una categoría, asumimos que dicho usuario se comportará de manera semejante al usuario analizado previamente dentro de nuestro ámbito.

Los modelos predictivos, aunque parecidos, evalúan la probabilidad de que una persona en una muestra diferente exhiba un comportamiento similar al de los sujetos analizados. Es decir, lo que cambia es el ámbito.

Four types of analytics
Fuente: Intellipaat.

Para exponerlo más claro, modelo descriptivo es conocer mejor a los usuarios de (por ejemplo) Tranvía de Parla y usar dicho modelo para calcular posibles nuevos usuarios de este tranvía y modelo predictivo sería usar el comportamiento detectado en Parla para calcular la demanda de los Trams de Barcelona.

La utilidad, esa gran desconocida

Si alguien me pregunta que por qué no existe un sistema para predecir la demanda a futuro, mi respuesta es que existe un desajuste entre la utilidad y el horizonte temporal a trabajar.

Los modelos descriptivos típicos auguran que son capaces de determinar la demanda que puede circular por una autopista con una fiabilidad del 100%… a 72 horas vista. Este grado de fiabilidad se reduce en el caso de ampliar el alcance, pero eso no significa que no sean útiles, sólo que hay que encontrar al cliente adecuado.

Desde el punto de vista de la Operación y Mantenimiento, calcular la demanda que existirá en días especiales puede ayudar a mejorar el servicio que se presta al usuario, como por ejemplo para planificar el incremento del número de trenes en un tranvía o de peajistas en una autopista.

Para la Ingeniería de Tráfico este horizonte temporal es muy corto. Las predicciones se realizan como mínimo a un año, pero normalmente se abarca toda la vida de la concesión, que puede ser de varias décadas.

Además, nos encontramos con otro problema: ¿cómo predices las variables que te permiten obtener tu demanda? Se debería generar otro modelo para esas variables, que a su vez serán dependientes de otras, en lo que sería un bucle infinito de modelos que harían inútil la metodología.

¿Y es esta predicción de estas variables fiable? Un error o desvío en la predicción de las variables base provoca irremediablemente un efecto colateral en la proyección del tráfico o la demanda, por lo que el asunto no es sencillo ni mucho menos.

Por lo tanto, la elección de variables que correlacionen el tráfico puede estar limitada y encontrar una variable que posea una buena predictibilidad y fiabilidad es igual de importante que su correlación con el tráfico. En muchos casos hay que desechar dichas variables por estos motivos y recurrir a las “clásicas” que sí disponen de proyecciones a futuro más contrastados (población, PIB, empleo, etc.), aunque no por ello infalibles.

Conclusiones

Las nuevas herramientas de análisis de datos permiten mejorar el método de cómo conocer al usuario de nuestras autopistas, metros y tranvías y analizar más variables que justifiquen los motivos que mueven a dicho usuario.

Con ese nuevo conocimiento se puede confirmar o ampliar qué variables justifican la movilidad, y ser más precisos para determinar la demanda a futuro, pero con ciertos matices: el horizonte temporal está limitado a muy corto plazo si queremos una fiabilidad total y las variables justificantes pueden no ser válidas por no ser independientes, predictibles y a su vez también fiables.

Por lo tanto, asegurar que se puede crear un modelo de predicción de tráfico, una nueva bola de cristal, que reemplace a un Ingeniero de Tráfico, es por el momento aventurado a corto plazo, mientras se tenga que aplicar métodos científicos y críticos para validar los modelos que ayuden a estimar la demanda de nuestros activos.

Cientifico de datos
Fuente: blogs.sas.com.

Carlos Rol Rúa – Mánager de Tráfico de Globalvia