¿QUE ES EL ANÁLISIS EXPLORATORIO DE DATOS?
Los profesionales de Planeación de Demanda o Demand Planners utilizan el análisis exploratorio de datos (Exploratory Data Analysis) con el fin de analizar e investigar conjuntos de datos y resumir sus principales características, a menudo empleando métodos de visualización de datos. El EDA ayuda a determinar la mejor manera de manipular las fuentes de datos para obtener las respuestas que necesita, lo que facilita a los planeadores de demanda descubrir patrones, detectar anomalías, probar una hipótesis o comprobar supuestos.
El EDA se usa principalmente para ver qué pueden revelar los datos más allá de la tarea formal de modelado o de prueba de hipótesis y proporciona una mejor comprensión de las variables del conjunto de datos y las relaciones entre ellas. También puede ayudar a determinar si las técnicas estadísticas que está implementando para el análisis de datos son apropiadas. Desarrollado originalmente por el matemático estadounidense John Tukey en los 70, las técnicas de EDA siguen siendo un método ampliamente utilizado en el proceso de descubrimiento de datos hoy en día.
.
Mediante el proceso del EDA, estamos tratando de encontrar varios aspectos relevantes en demanda como por ejemplo:
- Conocer la estructura y distribución de los datos
- Encontrar las relaciones entre las variables explicatorias
- Encontrar la relación que tienen las variables explicatorias con la variable respuesta
- Encontrar posibles errores, datos atípicos (outliers) y anomalías en los datos
- Identificar patrones de comportamiento
- Refinar o confirmar nuestras hipótesis
- Generar nuevas preguntas sobre los datos que tenemos
.
OBJETIVO DEL ANÁLISIS EXPLORATORIO DE DATOS
El propósito principal del EDA es ayudar a estudiar los datos antes de hacer cualquier supuesto. Puede ayudar a identificar errores obvios, así como comprender mejor los patrones dentro de los datos, detectar valores atípicos o eventos anómalos, y encontrar relaciones interesantes entre las variables.
Los profesionales de planeación de demanda pueden utilizar un análisis exploratorio para garantizar que los resultados que producen son válidos y aplicables a los resultados y objetivos empresariales deseados., como el cumplimiento o no del presupuesto, expectativas de crecimiento o decrecimiento, entro otros. El EDA también ayuda a los stakeholders al confirmar que están haciendo las preguntas correctas. El EDA puede ayudar a responder preguntas acerca de desviaciones estándar, variables categóricas e intervalos de confianza.
No existe como tal una técnica formal que nos indique como llevar a cabo este tipo de análisis, mas bien depende de lo que vayamos encontrando en los datos, así como la experiencia y el conocimiento especifico del campo que tengamos, el análisis exploratorio de datos es como un trabajo detectivesco, se buscan claves y pistas que puedan conducir a la identificación de las posibles causas de origen del problema que se intenta resolver. Se exploran las variables de una en una, luego de dos en dos, y luego muchas variables a la vez, como el EDA implica explorar, podemos decir que es un proceso iterativo. .
TIPOS DE ANÁLISIS EXPLORATORIO DE DATOS
Existe literatura extensa acerca de las diferentes tipos de EDA, pero de un modo practico lo podemos resumir en 4 tipos:
- Numérico Univariante
- Grafíco Univariante
- Numérico Multivariante
- Grafíco Multivariente
1. Numérico Univariante
Esta es la forma más simple de análisis de datos, donde los datos analizados consisten en una sola variable, es el tipo de EDA mas básico y usado por los profesionales de Planeación de Demanda debido que es una sola variable la de nuestro interés (Demanda), en este análisis no se ocupa de las causas o relaciones. El objetivo principal del análisis univariante es describir los datos e identificar los patrones que existen en ellos, a continuación los descriptores univariantes mas comunes son:
- Número de observaciones
- Máximo
- Mínimo
- Rango
- Tendencia
- Desviación estándar
- Media o promedio
- Mediana
- Moda
- Coeficiente de variación
- Simetría
- Curtosis
- Funcíon de autocorrelación
2. Gráfico Univariante
Los métodos numéricos no proporcionan una imagen completa de los datos, por lo tanto, se requieren métodos gráficos. Los tipos comunes de gráficos univariantes incluyen:
- Diagrama de Líneas, Los gráficos de líneas se utilizan para mostrar el valor cuantitativo en un intervalo de tiempo continuo. Se usa con mayor frecuencia para mostrar tendencias y relaciones (cuando se agrupan con otras líneas). Los gráficos de línea también ayudan a dar un «panorama general» en un intervalo, para ver cómo se ha desarrollado durante ese período.
.
Gráfico 1. Diagrama de Linea
.
- Histogramas, diagramas de barras en los que cada barra representa la frecuencia (recuento) o la proporción (recuento/recuento total) de casos para un rango de valores.
Gráfico 2. Histograma
.
- Diagrama de Cajas – Bigotes (boxplots o box and whiskers) son una presentación visual que describe varias características importantes, al mismo tiempo, tales como la dispersión y simetría. Se representan gráficamente el resumen de seis números dentro de los datos, el mínimo, primer cuartil, mediana, media, tercer cuartil y máximo, también ayuda a identificar valores atípicos (outliers).
.Gráfico 3. Diagrama de Cajas – Bigotes
.
3. Numérico Multivariante
Se obtienen datos multivariantes de más de una variable. Las técnicas de EDA no gráficas y multivariantes generalmente muestran la relación entre dos o más variables de los datos a través de la tabulación cruzada o las estadísticas, el estadístico mas usado en técnicas multivariantes es el coeficiente de correlación.
.
4. Gráfico Multivariante
Los datos multivariantes utilizan gráficos para mostrar relaciones entre dos o más conjuntos de datos. El gráfico más utilizado es un diagrama de barras agrupadas o un gráfico de barras donde cada grupo representa un nivel de una de las variables y cada barra dentro de un grupo representa los niveles de la otra variable.
Muchos procedimientos estadísticos en planeación de demanda exigen una serie de requisitos según de cual se trate, pero en términos sencillos, los podemos resumir así:
- Homogeneidad
- Independencia
- Normalidad
.
HOMOGENEIDAD
En toda serie histórica de datos (Serie de tiempo) es conveniente revisar que tan homogéneos son los datos, en el análisis de series de tiempo, nos interesa la “estabilidad” de la demanda en relación al tiempo. Debemos chequear la presencia de valores extremos Máximo y Mínimo, este tipo de datos reciben el nombre de datos influyentes o atípicos (outliers en ingles), se llaman influyentes por dos motivos, 1) porque llaman mucho la atención de los interesados al responder la pregunta de cuanto ha sido la mayor venta o cuanto fue la menor venta o en que periodos se han presentados los dos eventos anteriormente mencionados y 2) porque influyen de manera positiva o negativa en los resultados de estimación de la demanda.
.
Grafico 1. Valores Máximo – Mínimo
.
Contando con los datos máximos y mínimos podemos identificar el Rango (máximo – mínimo), el rango nos permite tener una idea de la dispersión de los datos, cuanto mayor es el rango mayor será la dispersión de los datos (sin considerar la afectación por parte de los outliers), en otras palabras nos da una idea del espacio en el cual se moverá la demanda.
.
Grafico 2. Rango
.
¿Porqué nos importa en planeación de demanda la HOMOGENEIDAD?
El objetivo del análisis y modelado de series de tiempo es usualmente la construcción de modelos de pronósticos que ayuden a estimar la demanda con un alto grado de asertividad con el fin de anticipar el abastecimiento tanto de producto terminado como el de materiales y materia prima. Entonces, ¿Cómo podemos generar estos pronósticos utilizando un modelo con parámetros variables en el tiempo? ¿Cuánta confianza podemos poner en esos pronósticos? ¿El pronóstico es robusto? ¿el pronóstico interpretó el patrón de comportamiento?.
Para resolver las preguntas anteriores es relevante conocer lo opuesto a la homogeneidad y que en la mayoría de las ocasiones es lo que representa a la demanda real, me refiero a la HETEROGENEIDAD.
¿Qué factores afectan la HOMOGENEIDAD en planeación de demanda?
- La demanda está evolucionando con el pasar del tiempo. En este caso, tratar de ajustar un modelo de pronóstico con valores de parámetros fijos no sería óptimo, a pesar de nuestros mejores esfuerzos. Necesitamos examinar técnicas avanzadas de modelado para interpretar el patrón de comportamiento de la serie histórica de la demanda. Esto se encuentra fuera del alcance del EDA por lo que lo trataremos en otro post (modelos de pronósticos)
- La demanda posee algún grado de tendencia o estacionalidad.
- La demanda ha sufrido cambios estructurales puntuales debido a eventos exógenos, como un plan de oferta y promoción, descuentos, aumento o disminución de precios, aprobación y aplicación de nuevas leyes relevantes o un importante desarrollo en el proceso mismo.
.
INDEPENDENCIA
En el análisis de series de tiempo, podemos decir que dos sucesos son independientes entre sí, si la ocurrencia de uno de ellos no afecta para nada a la ocurrencia del otro, ejemplo: el evento de la temperatura de una región y la demanda de una golosina son “independientes”, el hecho de que en una región sea mas calurosa o mas fría no va influir de manera considerada los niveles de venta de una golosina y viceversa.
Para que dos sucesos sean independientes es necesario verificar al menos una de las siguientes condiciones:
- P (B/A) = P (B) es decir, que la probabilidad de que se de el suceso B, condicionada a que previamente se haya dado el suceso A, es exactamente igual a la probabilidad de B.
- P (A/B) = P (A) es decir, que la probabilidad de que se de el suceso A, condicionada a que previamente se haya dado el suceso B, es exactamente igual a la probabilidad de A.
- P (A L B) = P (A) * P (B) es decir, que la probabilidad de que se de el suceso conjunto A y B es exactamente igual a la probabilidad del suceso A multiplicada por la probabilidad del suceso B.
Algunos ejemplos de sucesos que generan “dependencia” en la demanda y que desde planeación de demanda deben ser bien analizados son:
- Inversión en publicidad, estadísticamente se encuentra demostrado que a mayor nivel de inversión en medios publicitarios mayor será la demanda. generando algún grado de dependencia.
- Precio del Dólar, este suceso afectará de manera considerable la demanda, a mayor precio del dólar, encarecerá el valor del producto ocasionando que se disminuyan las ventas y viceversa.
- Nivel de desempleo, a mayor nivel de desempleo, menor es el poder adquisitivo de las personas, por tal motivo este suceso puede crear algún grado de dependencia en la demanda.
- Nivel de temperatura, en algunos casos para algunos productos, el suceso del nivel de temperatura puede afectar la demanda de un producto, ejemplo, a mayor nivel de temperatura puede aumentar la demanda de bebidas refrescantes o helados.
.
NORMALIDAD
A fin de comprender e interpretar de manera adecuada una serie de tiempo (demanda histórica), se requiere conocer una de las más importantes distribuciones de probabilidad denominada distribución normal. Las características básicas de ella se tratan a continuación.
Una distribución normal representa la forma en la que se distribuyen en la naturaleza los diversos valores numéricos de las variables continuas, la normalidad esta basada en un concepto invariado o aislado con enfoque estadístico generado por una serie de valores u observaciones de una sola variable (univariables) como pueden ser estatura, peso, en nuestro caso una serie de tiempo.
Para delimitar la NORMALIDAD se requiere de un método matemático que defina los valores numéricos que dividan la zona de normalidad y anormalidad en nuestra serie de tiempo.
Características de la NORMALIDAD en una serie de tiempo
- Está determinada por dos parámetros, LA MEDIA y LA DESVIACIÓN ESTANDAR.
- Es SIMETRICA en torno a la media, es decir, el 50% de los datos se encuentran a la derecha y el otro 50% de los datos se encuentran a la izquierda.
- MEDIA, MEDIANA y MODA, son iguales, sin embargo es poco probable que en una serie de tiempo de la demanda de un producto presente MODA por tal motivo no podemos ser muy exigentes con esta característica al momento de descartar NORMALIDAD.
Podemos decir que una serie de tiempo presenta NORMALIDAD cuando el 95,5% de las observaciones se encuentran dentro del intervalo de la MEDIA +/- 2 DESVIACIONES ESTANDAR y tan solo un 4,5% se encuentran fuera de ese intervalo.
Grafico 3. Distribución Normalidad
Acerca de JOSÉ ANDRÉS ROSAS
correo electroníco: joserosassoluciones@hotmail.com
[…] ANÁLISIS EXPLORATORIO DE DATOS EN PLANEACIÓN DE DEMANDA 15 octubre, 2021 […]