Versión PDF
II-1123 Estadística para Ingeniería Industrial II
26 de febrero de 2026
¿Cómo se selecciona la distribución que mejor se ajusta a los datos?
¿Por qué es necesario conocer qué distribución se ajusta a los datos?
Se usan como herramienta para la identificación de distribuciones.
Son procedimientos visuales que se usan para comparar los datos observados en una distribución teórica, con el fin de evaluar de forma preliminar si el modelo propuesto parece adecuado.
No sustituyen bajo ningún concepto a las pruebas formales que van a ser estudiadas, pero permiten detectar patrones de desviación, asimetrías o valores atípicos antes de aplicar dichas pruebas.
Su ventaja principal es que la vista humana es muy sensible para reconocer discrepancias que podrían pasar desapercibidas en un solo estadístico numérico.
Una buena visualización mostrará cosas que no se esperaban o hará surgir nuevas preguntas acerca de los datos. También puede dar pistas acerca de si se están haciendo las preguntas equivocadas o si necesitas recolectar datos diferentes.
“Un simple gráfico ha brindado más información a la mente del analista de datos que cualquier otro dispositivo” - John Tukey
Puede usar un gráfico de probabilidad (Probability plot) o un gráfico cuantil-cuantil (QQ Plot).
Estos datos se desvían mucho de la distribución teórica normal, lo que es indicativo de que no siguen la distribución normal.
Los puntos siguen la línea teórica, lo que es indicativo que en este caso se sigue la distribución normal.
El gráfico de probabilidad o el gráfico de cuantil – cuantil a menudo es “recetado” para una distribución normal, pero se puede usar para cualquier distribución siempre que se conozcan los cuantiles teóricos.
Por ejemplo, en este caso, de una Weibull(2,2), que son los datos que dieron origen a la “Distribución no normal” del slide anterior, que al ser probada contra una normal, no se ajustó correctamente. Caso contrario al observado a la derecha.
Este tipo de gráficos se utilizan con frecuencia y de forma simultánea con pruebas estadísticas formales para contrastar la hipótesis de que un dato siga una distribución particular.
También es relevante para saber que tipo de prueba de hipótesis realizar.
¿Tiene sentido aplicarle una prueba de normalidad a estos datos?
En este caso resultaría conveniente aplicar una prueba apropiada para la forma de los datos, por ejemplo, podemos intuir estas dos:
El valor P es una probabilidad que mide la evidencia en contra de la hipótesis nula. Entre más bajo este valor, más fuerte será la evidencia en contra.
Formalmente: un valor P es la probabilidad bajo un modelo estadístico especificado que un resumen estadístico de los datos sería igual o más extremo que su valor observado.
Consulte esta infografía para ampliar estos conceptos.

El valor P no es el protagonista, es solo una medida estadística adicional, que se interpreta en conjunto con las demás medidas.
En síntesis \(\alpha\) y valor p están íntimamente relacionados, pues el primero marca el límite de decisión con base en el segundo.
El nivel de significancia (\(\alpha\)) se va a usar frecuentemente, este valor hay que escogerlo cuidadosamente en función del contexto, nunca es una medida genérica.
Por otro lado, en ocasiones nos vemos tentados a emplear terminología incorrecta como:
Es MUY significativo, cuando un valor P es muy bajo.
Es importante aclarar que la significancia estadística es un límite: solo se puede ser o no ser significativo.
No puedo ser muy o poco significativo, pues los valores P, como bien se indica en la infografía no mide el tamaño de un efecto ni la importancia de un resultado.

Se define la prueba de hipótesis
Se calcula el estadístico \(\chi^2\)
\[ \chi^2=\sum_{i=1}^{k}\frac{(O_i-E_i)^2}{E_i} \]
Donde \(O_i\) es lo observado y \(E_i\) es lo esperado.
| Lanzamiento | Conteo (Observado) |
|---|---|
| 1 | 21 |
| 2 | 21 |
| 3 | 15 |
| 4 | 21 |
| 5 | 18 |
| 6 | 24 |
El primer paso, antes de buscar obtener un valor P a como de lugar, es realizar las rutinas gráficas.
El gráfico mostrado a la derecha, ¿parece ser una uniforme discreta?
| Dado | Observado \((O_i\)) | P(Esperada) | Esperado \((E_i\)) | \(\frac{(O_i-E_i)^2}{E_i}\) |
|---|---|---|---|---|
| 1 | 21 | 0.167 | 20 | 0.05 |
| 2 | 21 | 0.167 | 20 | 0.05 |
| 3 | 15 | 0.167 | 20 | 1.25 |
| 4 | 21 | 0.167 | 20 | 0.05 |
| 5 | 18 | 0.167 | 20 | 0.20 |
| 6 | 24 | 0.167 | 20 | 0.80 |
| Total | 120 | 1.000 | 120 | 2.40 |
Obtenga el valor P a partir del estadístico \(\chi^2\)
En Excel hay dos formas de hacerlo (fórmulas en inglés)
Forma corta: CHISQ.TEST(\(O_i\), \(E_i\))
Forma larga: 1-CHISQ.DIST(\(\chi^2\), \(n-1\), TRUE)
En R chisq.test(x = c(21, 21, 15, 21, 18, 24), p = rep(1/6, 6))
\(\chi^2=2.4\)
Valor P (forma corta) = \(0.7915\)
Valor P (forma larga) = \(0.7915\)
Significancia = \(0.05\)
No hay evidencia suficiente para rechazar la hipótesis nula de que el dado se comporta como una distribución uniforme discreta de probabilidad \(\frac{1}{6}\), dado que \(p>\alpha\), aunado a lo mostrado en el gráfico anterior.
Se ha recolectado 400 observaciones sobre la cantidad de personas que que se reciben cada minuto en una estación de tren de la capital.
Por la naturaleza de este proceso, se sospecha que estos datos son una variable aleatoria que sigue la distribución de Poisson.
En Excel se le hace entrega de los datos y del ejercicio resuelto, procure realizar este ejercicio por su cuenta y utilice el ejercicio resuelto solo en caso de dudas.
Determine el parámetro de la distribución. Como el enunciado deja en claro, esta es una Poisson, por lo tanto, el parámetro es \(\lambda\).
Realice una rutina gráfica.
Por ejemplo, en este caso las probabilidades no suman 1, ni los valores esperados 400, por lo que debemos agregar más valores con 0 observaciones.
No obstante, Cochran y otros autores mencionan que se debe cumplir una regla básica:
Por lo que estos valores deben agregarse. Para efectos de este curso usaremos \(E_i \ge 5\) como una simplicación, la regla global es 1) Ningún \(E_i < 1\) y al menos el 80% de los \(E_i\ge 5\).
| Llegadas | \(O_i\) | P(\(E_i\)) | \(E_i\) | \(\frac{(O_i-E_i)^2}{E_i}\) |
|---|---|---|---|---|
| 0 | 3 | 0.010 | 4.123 | 0.306 |
| 1 | 15 | 0.047 | 18.861 | 0.790 |
| 2 | 39 | 0.108 | 43.143 | 0.398 |
| 3 | 69 | 0.164 | 65.794 | 0.156 |
| 4 | 82 | 0.188 | 75.252 | 0.605 |
| 5 | 68 | 0.172 | 68.855 | 0.011 |
| 6 | 61 | 0.131 | 52.502 | 1.375 |
| 7 | 33 | 0.086 | 34.314 | 0.050 |
| 8 | 16 | 0.049 | 19.623 | 0.669 |
| 9 | 5 | 0.025 | 9.975 | 2.481 |
| 10 | 7 | 0.011 | 4.564 | 1.301 |
| 11 | 2 | 0.005 | 1.898 | 0.005 |
| Total | 400 | 0.997 | 398.903 | 8.148 |
| Llegadas | \(O_i\) | P(\(E_i\)) | \(E_i\) | \(\frac{(O_i-E_i)^2}{E_i}\) |
|---|---|---|---|---|
| 0 | 3 | 0.0103 | 4.1225 | 0.3057 |
| 1 | 15 | 0.0472 | 18.8605 | 0.7902 |
| 2 | 39 | 0.1079 | 43.1435 | 0.3979 |
| 3 | 69 | 0.1645 | 65.7938 | 0.1562 |
| 4 | 82 | 0.1881 | 75.2516 | 0.6052 |
| 5 | 68 | 0.1721 | 68.8552 | 0.0106 |
| 6 | 61 | 0.1313 | 52.5021 | 1.3754 |
| 7 | 33 | 0.0858 | 34.3139 | 0.0503 |
| 8 | 16 | 0.0491 | 19.6233 | 0.6690 |
| 9 | 5 | 0.0249 | 9.9752 | 2.4814 |
| 10 | 7 | 0.0114 | 4.5636 | 1.3007 |
| 11 | 2 | 0.0047 | 1.8981 | 0.0055 |
| 12 | 0 | 0.0018 | 0.7236 | 0.7236 |
| 13 | 0 | 0.0006 | 0.2547 | 0.2547 |
| 14 | 0 | 0.0002 | 0.0832 | 0.0832 |
| 15 | 0 | 0.0001 | 0.0254 | 0.0254 |
| 16 | 0 | 0.0000 | 0.0073 | 0.0073 |
| Total | 400 | 1.0000 | 399.9974 | 9.2423 |
En la primera tabla se obtiene un valor de \(\chi^2=9.24\) con un valor P = \(0.9031\). No obstante, no se cumple la regla de que \(E_i\ge5\).
Por tanto, procedemos a agrupar valores que incumplen la regla con el más cercano posible, por ejemplo \(E_0+E_1 = 3 + 15 = 18\). Obteniendo un valor P = \(0.6264\).
| Llegadas | \(O_i\) | P(\(E_i\)) | \(E_i\) | \(\frac{(O_i-E_i)^2}{E_i}\) |
|---|---|---|---|---|
| 0-1 | 18 | 0.0575 | 22.9832 | 1.0805 |
| 2 | 39 | 0.1079 | 43.1437 | 0.3980 |
| 3 | 69 | 0.1645 | 65.7942 | 0.1562 |
| 4 | 82 | 0.1881 | 75.2521 | 0.6051 |
| 5 | 68 | 0.1721 | 68.8557 | 0.0106 |
| 6 | 61 | 0.1313 | 52.5025 | 1.3753 |
| 7 | 33 | 0.0858 | 34.3141 | 0.0503 |
| 8 | 16 | 0.0491 | 19.6234 | 0.6690 |
| 9 | 5 | 0.0249 | 9.9752 | 2.4814 |
| >=10 | 9 | 0.0189 | 7.5559 | 0.2760 |
| Total | 400 | 1.0000 | 400.0000 | 7.1025 |
El cálculo estadístico de \(\chi^2\) y su comparación con un valor crítico de la distribución \(\chi^2\) permite al investigador evaluar si los recuentos de celdas observados son significativamente diferentes de los recuentos de celdas esperados.
Debido a la forma en que se calcula el valor de \(\chi^2\), es extremadamente sensible al tamaño de la muestra:
Por tanto, debe analizarse con más cuidado, utilizando otras evidencias además del valor P.
Nos vamos a adentrar en el universo de las pruebas de normalidad, pero la idea es hacerlo estando preparados.
Por lo general, desarrollar pruebas de normalidad de forma manual (con apoyo de software como Excel), puede ser muy laborioso.
Por tanto, este abordaje será basado en el uso de software estadístico (R, Minitab, entre otros).
La idea básica que se quiere desarrollar es que las pruebas de normalidad NO SON INTERCAMBIABLES sin más:
Pero todas parten de la misma hipótesis:
Minitab para hacerlo, pero se nombraran otras que no están presentes en este software, pues no es el único que existe ni el que se usa en ambientes fabriles.Un conjunto de datos puede no seguir la distribución normal por al menos dos grandes motivos:
Por lo que la selección de una prueba debe ser concordante con el tipo de desviación que nos preocupe. Ya las pruebas, por lo general, suelen darle más importancia a uno de los dos motivos anteriores
Un análisis de regresión (tema que se atiende luego en el curso) es robusto a desviaciones ligeras de la normalidad, por lo que conviene utilizar una prueba que no penalice en exceso dichas desviaciones.
Por otro lado, los análisis de capacidad (tema de ingeniería de calidad) son muy sensibles a desviaciones en el supuesto de normalidad por las colas, por lo que conviene utilizar una prueba de normalidad que sea apropiada para este contexto.
En resumen, es el contexto el que dicta la adecuación de las pruebas de normalidad usadas.
¿Por qué en este caso la prueba de Shapiro – Wilk (SW), con un 95 % de confianza, no rechaza la hipótesis nula, mientras que Kolmogórov-Smirnov (KS) si lo hace?
¿Cuál prueba escojo?
¿Qué sucede en la práctica? Y que no necesariamente es una buena práctica.
Las personas realizan varias pruebas de normalidad y se reportan la que les da bien según sus objetivos (rechazar o no rechazar).
Esto no es éticamente correcto y por ello se les insta a comprender cuando funciona mejor cada prueba de normalidad.
Si bien no está presente en software como Minitab de forma explícita, es necesario explicarla.
Es una prueba que se centra en las diferencias de forma global (asimetría y colas).
Su limitación se basa en que con \(n\) muy grande puede rechazar \(H_o\) por desviaciones irrelevantes.
Esta suele ser más potente que KS en muestras pequeñas.
En Excel, en la pestaña con este mismo nombre, puede encontrar un conjunto de datos. Realice un histograma de los datos. Con un 99 % de confianza, realice al menos tres pruebas de normalidad o con las que cuente el software que esté usando.
Con base en el análisis gráfico y los valores p obtenidos.
Prepare un esquema en el que responda al ¿por qué con una prueba se rechaza y con las otras no?
| Prueba | Valor.p |
|---|---|
| AD | 0.009 |
| KS | 0.013 |
| RJ | 0.022 |
Si el tamaño de muestra es pequeño, no conviene penalizar fuertemente las colas, pues un solo valor, que puede ser “mala suerte” puede tener mucho peso en la decisión sobre la normalidad.
Si \(n\) es muy grande, conviene interpretar los valores P con cautela, pues son valores del tipo “caja negra”. Es decir, preste muchas más atención a las rutinas gráficas.
Conviene siempre realizar el análisis gráfico (rutinas gráficas) primero, antes de aplicar una prueba formal de normalidad.
Las conclusiones finales sobre la normalidad de un conjunto de datos no pueden estar basadas solo en un valor P.
Muchos softwares estadísticos (libres o comerciales) tienen incluidas rutinas de identificación de distribuciones que funcionan de forma que prueban muchas distribuciones a la vez.
Esto es importante, para decidir sobre el tipo de modelo y análisis estadístico a emplear.
Nótese que las distribuciones tienen sus propias características, no se deben usar indiscriminadamente. Las pruebas estadísticas no pueden supeditar la teoría y el sentido común.
Tome en cuenta, también, que probar muchas distribuciones simultáneamente aumenta el chance de falso positivo. Probar muchas hasta que una dé \(p > \alpha\) no es una evidencia fuerte.
Es decir, que un identificador de distribuciones puede decir que mis datos siguen alguna distribución y esto no tener sentido alguno en la práctica.
Estudie si la distribución que le tocó es adecuada o si hay otra, no tan buena, pero que tiene más sentido teórico práctico.
El concepto de transformación no es abarcado aún. Por lo que de obtenerlos, puede ignorarlos.
En este y otros ejercicios puede obtener valores diferentes a los aquí mostrados, como consecuencia de los algoritmos empleados en los cálculos.
Nótese como este conjunto de datos se ajusta a 4 distribuciones distintas. ¿Cuál escojo? Dependerá del contexto y conveniencia.
| Distribución | Valor.p |
|---|---|
| Weibull | 0.072 |
| Lognormal | 0.017 |
| Exponencial | 0.000 |
| Gamma | 0.094 |
| Uniforme | 0.000 |
| Logística | 0.008 |
| Normal | 0.013 |
Un modelo puede no ser perfecto y aún así ser útil.
All models are wrong, but some are useful - George Box