Carlos Pierdant's profile

Forecasting de turistas en Italia

Forecasting de la cantidad de turistas que arriban a Italia mediante modelos de Machine Learning e intervalos de confianza

Carlos Yebgueni Pierdant Espinosa
Ingeniero matemático

Se cuentan con datos de enero de 1990 a abril del 2023, con una frecuencia mensual dándonos un total de 400 datos
Se seleccionan 12 meses para prueba del modelo y medir al eficiencia del mismo así como su capacidad predictiva
En búsqueda de diminuir la varianza de los datos para una mayor eficiencia de los modelos, aplicamos las transformaciones para los datos como lo son el "Logaritmo natural", asi como la tranformación de "Box-Cox" y una estandarización escalar
Datos sin transformar:
Logaritmo natural:
Box-cox:
Se observa una significativa reducción en la varianza de los datos al aplicar ambas transformaciones, siendo la de Box-Cox la "mejor" en ese sentido, por lo que es de esperar que la predicción con mejores resultados sea la que incluya dicha transformación a la hora de entrenar el modelo
A continuación se muestran los resultados de los modelos usados, siendo 6 modelos base con 3 variantes cada uno:
De todos modelos el que obtuvo mejores resultados fue el modelo autoregresivo con el regreso XGBoost, el cual realizó uso de la transformación Box-Cox:
Los intervalos de confianza se toman a partir del error promedio obtenido en los 12 meses de test, eso mediante la siguiente formula:
El error promedio se considera de una forma similar a la desviación estándar para muestras de datos, donde para nuestro caso X_r es la variable real dentro de los datos test y X_p la predicción, donde se mide la diferencia entre ambos datos, se eleva al cuadrado para evitar signos y posterior de saca la raíz, finalmente el error promedio final es una división entre el total de datos menos uno
A partir del error promedio dentro de los datos test se genenera un intervalo de confianza, recordando que la formula utilizada asemeja a la desviación estándar
El teorema antes mencionado nos indica que para cualquier variable aleatoria con media finita se tiene que la probabilidad de que una variable aleatoria exceda 2 desviaciones estándar (k=2) es del 25% teórico, sin embargo en la practica se sabe que ese error se ve diminuido a un 5% para distrubicones próximas a la normal, otorgándonos un intervalo de confianza del 95% para dos desviaciones estándar
Con todo lo anterior es que atreves del error medio calculado para los datos test y asumiendo que se comporta de forma similar a la desviación estándar, se genera un intervalo de confianza basados en en el primer error medio (sombra obscura) y dos errores medios (sombra clara), dándonos así un intervalo de confianza para nuestra predicción
Una de las principales problemáticas de generar intervalos de confianza basados en el error medio, es que se asume que la distribución de los datos es normal o asemeja a una normal, lo cual en la practica no necesariamente se cumplirá, es por ello que para solventar esta desventaja se recurre al bootstrapping , el cual únicamente asume que los residuos no están correlacionados
En esencia lo que se realiza en este método es una serie de simulaciones de los posibles caminos que puede tomar la serie temporal, recordando que al final se trata de un proceso estocástico, y con ello se genera un intervalo de confianza el cual es mas asertivo y ademas no necesariamente es plano como lo seria usando el error medio, que como desventaja general es un mucho mayor costo computacional debido a la cantidad de simulaciones que de deben realizar, a continuación un ejemplo de ello con el mismo modelo seleccionado anteriormente con el "mejor":
Las imágenes anteriores muestran un intervalo de confianza del 99.99%, el cual como podemos ver no es semejante por encima y por debajo de la serie predicha, pues bajo las simulaciones no se espera una baja más si una posible alza en la cantidad de turistas que arriben a Italia en los próximos meses y años
Esta ultima idea se refuerza con un gráfico de tendencia y residuos de los datos
Este ultimo gráfico nos muestra como la tendencia de la serie en épocas recientes es a la alza
En resumen, los modelos de Machine Learning muestran una gran capacidad de aprendizaje y predictiva, los cuales aunados con herramientas matemáticas varias se pueden obtener predicciones con errores menores al 5%, además de poder otorgar intervalos de confianza tanto den forma más tradicional con un bajo costo computacional, o mediante técnicas modernas como lo es el bootstrapping , el cual presenta una mayor confianza pero también un mucho mayor costo computacional, por lo que contar con ambos métodos otorga un panorama mayor y será cuestión de cada caso decidir el método ideal
Referencias: 
Burden, R. L. (2011). Analisis Numerico (9a ed.). Cengage Learning Editores S.A. de C.V

Grossman, S. I. (1999). Algebra lineal - 5b: Edicion. McGraw-Hill Companies

Wackerly, D., & Mendenhall, W. (2010). Estadistica Matematica Con Aplicaciones. Cengage Learning Editores

Skforecast: forecasting series temporales con Python y Scikitlearn by Joaquín Amat Rodrigo and Javier Escobar Ortiz, available under a Attribution 4.0 International (CC BY 4.0) at https://www.cienciadedatos.net/py27-forecasting-series-temporales-python-scikitlearn.html


Forecasting de turistas en Italia
Published:

Forecasting de turistas en Italia

Published:

Tools

Creative Fields