| Sabor | Votos |
|---|---|
| Chocolate | 103 |
| Vainilla | 92 |
| Fresa | 72 |
Versión PDF
II-1120 Estadística para Ingeniería Industrial I
26 de febrero de 2026
Las variables se pueden clasificar por tipo: Cuantitativa y Cualitativa, así como por niveles de medición: Nominal, Ordinal, Intervalo y Razón.
Éstas determinan cómo se deben recoger y analizar los datos. Es decir, rigen los cálculos que se deben llevar a cabo.
La validez de las conclusiones depende de la fiabilidad de la recolección de datos y de las técnicas de análisis empleadas.

La visualización es una actividad humana fundamental. Una buena visualización mostrará cosas que no se esperaban o hará surgir nuevas preguntas acerca de los datos. También puede dar pistas acerca de si se están haciendo las preguntas equivocadas o si se necesita recolectar datos diferentes.
“Un simple gráfico ha brindado más información a la mente del analista de datos que cualquier otro dispositivo”. - John Tukey
| Sabor | Votos |
|---|---|
| Chocolate | 103 |
| Vainilla | 92 |
| Fresa | 72 |
| Sabor | Votos | Proporción |
|---|---|---|
| Chocolate | 103 | 0.386 |
| Vainilla | 92 | 0.345 |
| Fresa | 72 | 0.270 |
Las variables categóricas se pueden representar de muchas formas. Dos de ellas son:
¿Cuál de las dos formas es más apropiada?

| Motivo | Porcentaje |
|---|---|
| Vacaciones | 65.10 |
| Visita a familiares | 9.60 |
| Religión/peregrinaciones | 6.40 |
| Educación | 5.90 |
| Salud | 0.60 |
| Compras | 0.30 |
| Incentivo | 0.04 |
| Otros motivos personales | 1.00 |
| Reuniones de negocios | 8.07 |
| Conferencias y congresos | 1.07 |
| Actividades deportivas/culturales | 2.00 |
El ejercicio de visualización de datos es, en el fondo, un acto profundamente humano; pues toma algo “abstracto” como números, distribuciones, incertidumbres, entre otros, y los transmite en algo con significado. En la comunicación visual la simplicidad es importante.
La perfección se alcanza, no cuando no hay nada más que añadir, sino cuando no hay nada más que quitar - Antoine de Saint-Exupery
Son también conocidas como “tabla de doble entrada”.
Se usan para mostrar la relación que existe entre dos variables categóricas.
Las categorías de una de las variables son las filas y las de la otra variable son las columnas. Los cruces son el conteo de los casos en los que ocurren ambas variables simultáneamente.
| Respuesta | Hombre | Mujer | Total |
|---|---|---|---|
| A favor | 372 | 363 | 735 |
| En contra | 807 | 1005 | 1812 |
| No lo sé | 34 | 44 | 78 |
| Total | 1213 | 1412 | 2625 |

\[ \mu=\frac{\sum_{i=1}^N x_i}{N} \]
Siendo \(\mu\) el promedio, \(x_i\) los valores individuales y \(N\) la cantidad de datos en la población.
En este sentido \(\mu\) es un parámetro y \(\bar{x}\) es un estimador.
\[ \bar{x}=\frac{\sum_{i=1}^n x_i}{n} \]
\[\bar{x}_G=(x_1 \cdot x_2 \cdots x_n)^\frac{1}{n}\]
\[ \bar{x}_H=\frac{n}{\frac{1}{x_1} + \frac{1}{x_2} + \cdots +\frac{1}{x_n}} \]
| Presentación | Ventas | Precio | Promedio de ventas |
|---|---|---|---|
| Pequeño | 3 | 500 | 1500 |
| Mediano | 2 | 700 | 1400 |
| Grande | 3 | 900 | 2700 |
| Total | 8 | 2100 | 5600 |

¿Alguna vez se preguntó por el salario en su carrera?
La gran mayoría de estudios responden al salario promedio. Inclusive, muchos de ustedes durante las ferias vocacionales realizan esta pregunta.
¿Eso está bien? La respuesta es ¡no! los salarios casi siempre tienen valores extremos.
Es literalmente el valor medio de un conjunto de datos ordenados de menor a mayor.
\[ \widetilde{X} = \begin{cases} x_{\frac{N+1}{2}} & \text{si N es impar} \\ \frac{1}{2} \cdot (x_{\frac{N}{2}}+x_{\frac{N}{2}+1}) & \text{si N es par} \end{cases} \]
Siendo \(\tilde{x}\) la mediana.
En este sentido \(\widetilde{X}\) es un parámetro y \(\tilde{x}\) es un estimador.
\[ \tilde{x} = \begin{cases} x_{\frac{n+1}{2}} & \text{si n es impar} \\ \frac{1}{2} \cdot (x_{\frac{n}{2}}+x_{\frac{n}{2}+1}) & \text{si n es par} \end{cases} \]
Por ejemplo, en estos valores ordenados:
| valores | 29 | 31 | 35 | 39 | 39 | 40 | 43 | 44 | 44 | 52 |
| Posición | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 |
La mediana es:
\[\tilde{x}=\frac{1}{2} \cdot (x_{\frac{10}{2}}+x_{\frac{10}{2}+1}) \\ \tilde{x} =\frac{1}{2}\cdot (39 + 40) \\ \tilde{x} =39.5\]

Es el valor del conjunto de datos que aparece con mayor frecuencia. Al igual que con la mediana y a diferencia de la media, los valores extremos no afectan a la moda.
La moda solo se usa con propósitos descriptivos (es decir, no para hacer inferencias), ya que varía más entre muestras que la media o la mediana.
En simple, es el valor que más repite en una distribución de datos. Como tal no tiene fórmula, pues se trata de un simple conteo.
Es posible que haya conjuntos de datos sin moda o con varias modas.
QUARTILE.INC en lugar de QUARTILE.EXC, si se usa QUARTILE.EXC el resultado sería 33 y no 35. La función QUARTILE.EXC excluye valores extremos del conjunto de datos.La variabilidad de una muestra desempeña un papel importante en el análisis de datos. La variabilidad de procesos y productos es un hecho real en los sistemas científicos y de ingeniería: el control o la reducción de la variabilidad de un proceso a menudo es una fuente de mayores dificultades.
Las medidas de tendencia central o posición siempre deben acompañarse de medidas de variabilidad.
Son las medidas de variabilidad más simples.
El defecto o desventaja de los rangos es que depende únicamente de dos valores, y por ende es sensible a si estos son extremos en comparación al resto del conjunto de datos.
Se refiere a la diferencia entre el valor máximo y el mínimo.
\[ R=Máx-Min \]
\[ IQR = Q_3-Q_1 \\ IQR = P_{75}-P_{25} \]
\[ \sigma^2=\frac{\sum_{i=1}^{N}(x_i-\mu)^2}{N} \]
\[ \sigma=\sqrt{\frac{\sum_{i=1}^{N}(x_i-\mu)^2}{N}} \]
\[ s^2=\frac{\sum_{i=1}^{N}(x_i-\bar{x})^2}{n-1} \]
\[ s=\sqrt{\frac{\sum_{i=1}^{N}(x_i-\bar{x})^2}{n-1}} \]
Se llama la corrección de Bessel
Justificación por intuición:
Los grados de libertad (tema que se detalla en otras sesiones) son las piezas de información que se utilizan para calcular un estimador, en este caso 1 grado de libertad se usó para calcular la media (\(\bar{x}\)), por lo que solo quedarían \(n-1\) para la varianza.
La justificación por demostración está disponible en este sitio web como material complementario y opcional.
\[ CV = \frac{\sigma}{\mu} \]
\[ \widehat{CV} = \frac{s}{\bar{x}} \]
Describen la forma de una distribución de datos. Permiten identificar si una distribución es simétrica o asimétrica, o qué tan agrupados están los datos.
Son, probablemente, las medidas que típicamente se interpretan mal.
Mide el grado de deformación horizontal en un conjunto de datos.
Hay muchos coeficientes de asimetría, todos se interpretan igual, pero se calculan de formas diversas.
Para efectos de este curso vamos a usar el coeficiente de asimetría que se encuentra disponible en Excel.

Si la distribución de los datos es simétrica, la media, la mediana y la moda son coincidentes (iguales o muy similares).
Esta medida es importante ya que dos conjuntos de datos pueden tener la misma media y desviación estándar pero un diferente grado de asimetría.
Es común que en libros de texto en español y otras personas docentes utilicen el término sesgo como sinónimo de asimetría. De la clase anterior, sabemos que esto no es así.


Se define técnicamente como el cuarto momento estandarizado esperado de una variable aleatoria
Mide la concentración relativa de los valores en el centro de la distribución al compararlos con las colas y se basa en las diferencias respecto a la media elevadas a la cuarta potencia.
La interpretación de la curtosis es en términos de la extremidad de las colas; es decir, mide la propensión de una distribución a producir valores atípicos (outliers), y no la “puntiagudez” (peakedness) o forma del pico central.
A veces se confunde con cuán escarpada, achatada, etc, se encuentra una distribución de datos.
Usamos la misma fórmula que MS Excel:
\(ku=\left[ \left(\frac{n(n+1)}{(n-1)(n-2)(n-3)}\sum_{i=1}^{n} \left(\frac{x_i-\bar{x}}{s}\right)^4 \right) \right] - \frac{3(n-1)}{(n-2)(n-3)}\)

No existe una “regla” establecida para construir tablas de frecuencia. Pero debe asegurarse que los intervalos establecidos cubran todo el conjunto de datos.
\[ k=1+log_2(n) \]
\[ A_S=h=\frac{7\cdot s}{2\cdot \sqrt[3]{n} } \]
\[ A_{FD}=h=\frac{2\cdot IQR}{\sqrt[3]{n}} \]
Si se definió \(k\), calcule \(h\), por el contrario, si definió \(h\), calcule \(k\).
\[ k= \frac{Rango}{h} \\k=\frac{max-min}{h} \]
Tomemos el siguiente conjunto de datos, que por conveniencia ya viene ordenado.
Usemos la regla de Sturges y calculemos \(k\)
\[ k=1+log_2(12)=4.58=5 \] Entonces:
\[ h=\frac{77.2-73.8}{5}=0.68 \]
| Datos |
|---|
| 73.8 |
| 74.2 |
| 75.1 |
| 75.3 |
| 75.5 |
| 75.7 |
| 76.5 |
| 76.9 |
| 77.1 |
| 77.2 |
| 77.2 |
| 77.2 |
| Clases | LI | LS | \(f_a\) | \(f_r\) | \(F_a\) | \(F_r\) |
|---|---|---|---|---|---|---|
| 1 | \([Min\) | \(LI_1 + h[\) | Conteo | \(\frac{f_{a1}}{n}\) | \(f_{a1}\) | \(\frac{F_{a1}}{n}\) |
| 2 | \([LS_1\) | \(LI_2 + h[\) | … | \(\frac{f_{a2}}{n}\) | \(f_{a1}+f_{a2}\) | … |
| 3 | \([LS_2\) | \(LI_3 + h[\) | … | … | … | … |
| 4 | […] | …[ | … | … | … | … |
| 5 | […] | \(Max]\) | … | … | \(f_{a1}+f_{a2}+…+f_{a5}=n\) | \(\frac{F_{a5}}{n}=1\) |
| Clase | n | fr | Fa | Fr |
|---|---|---|---|---|
| [73.8,74.5] | 2 | 0.167 | 2 | 0.167 |
| (74.5,75.2] | 1 | 0.083 | 3 | 0.250 |
| (75.2,75.8] | 3 | 0.250 | 6 | 0.500 |
| (75.8,76.5] | 1 | 0.083 | 7 | 0.583 |
| (76.5,77.2] | 5 | 0.417 | 12 | 1.000 |
Los histogramas ayudan a dar una estimación de dónde se concentran los valores, cuáles son los extremos y si hay vacíos o valores inusuales.
También son útiles para dar una visión aproximada de la distribución de probabilidad.
Cada barra en un histograma representa la frecuencia tabulada en cada intervalo/bin. El área total del histograma es igual al número de datos, cuando se grafica en frecuencia absoluta.

Suponga que usted como analista desea estudiar el rendimiento (%) de algunas máquinas CNC.
Tiene dos variables
Usted puede hacer grupos y analizar el promedio del rendimiento por máquina. De igual manera puede usar otros estadísticos.
También puede realizar los gráficos estudiados pero por categorías.
Se introduce una nueva forma de visualización, donde usted puede visualizar y correspondientemente estudiar la relación que existe entre dos variables.
Este gráfico posiblemente ya lo conoce de cursos de ciencias básicas como química y física, donde se muestra en un eje (\(x\)) una variable y en el otro (\(y\)), de tal modo que se puede apreciar como se relacionan entre sí.

En el gráfico de la izquierda puede encontrar la relación que existe entre el salario promedio mensual y la edad de las personas, clasificadas por género y en general.