Description
Se analiza un conjunto de datos de Paxer correspondientes al año 2022, para conocer el comportamiento de la empresa y de sus clientes por regiones. El proceso inicia por medio de la inspección del dataset, la transformación de las variables y la optimización del mismo para la posterior manipulación. Se analizan las 63 variables del dataset de forma individual así como en conjunto, con la finalidad de identificar datos anómalos, faltantes, analizar sus distribuciones y estudiar patrones. Un modelo base de árboles de decisión usando el criterio de la entropía cruzada es utilizado para predecir el rango del porcentaje de ocupación de los hoteles en Chile utilizando 3 variables, obteniendo una exactitud del 90%, un recall del 90% y una precisión del 91%. Para el entrenamiento del modelo se realizó un muestreo con reemplazo (bootstrap) y se validó el comportamiento del mismo usando validación cruzada para evitar el overfitting. Se analiza adicionalmente el impacto de estas tres variables en la predicción del modelo.