Conceptos Estadísticos Fundamentales
La estadística proporciona el lenguaje formal con el que el ingeniero de confiabilidad describe, cuantifica y comunica el comportamiento de los sistemas a lo largo del tiempo. Antes de modelar la falla, hay que dominar las herramientas descriptivas básicas.
La mayoría de las teorías de calidad y confiabilidad utilizan la estadística para hacer inferencias sobre una población a partir de información contenida en muestras. El mecanismo que permite estas inferencias es la probabilidad. Un estadístico es un valor numérico tomado de una muestra que puede usarse para hacer inferencias sobre la población; un parámetro es el verdadero valor poblacional, con frecuencia desconocido, estimado por el estadístico.
Medidas de tendencia central
Medidas de dispersión
Si una variable aleatoria X tiene media μ y varianza finita σ², a medida que n aumenta, X̄ se aproxima a una distribución normal con media μ y varianza σ²/n. La importancia práctica: la distribución de las medias muestrales se aproxima a la normalidad independientemente de la forma de la distribución de la población — razón por la que los gráficos X̄-R funcionan. Para la mayoría de las distribuciones, una muestra de tamaño 4 o 5 es suficiente para obtener una distribución de medias aproximadamente normal.
Conceptos Básicos de Probabilidad
La probabilidad es el mecanismo matemático que transforma datos de muestras en inferencias sobre poblaciones. Toda decisión cuantitativa en confiabilidad descansa sobre sus fundamentos.
La probabilidad de cualquier evento E se sitúa entre 0 y 1. La suma de las probabilidades de todos los eventos posibles en un espacio muestral S es igual a 1. Cuando un experimento se repite un número grande de veces N y el evento E se observa n_E veces, la probabilidad de E es aproximadamente n_E/N.
Cuando los eventos A y B son dependientes, la probabilidad de A influye en la probabilidad de B. La probabilidad condicional P(A|B) — la probabilidad de A dado que B ha ocurrido — reduce el espacio muestral. Matemáticamente: P(A|B) = P(A∩B)/P(B). Este concepto es fundamental para el análisis de sistemas en serie y paralelo, y para entender la independencia estadística requerida en el cálculo de confiabilidad de sistemas compuestos.
Distribuciones de Probabilidad
Las distribuciones estadísticas son los modelos matemáticos que describen el comportamiento de los tiempos a falla, las resistencias de materiales y los recuentos de defectos. La selección correcta de la distribución es la primera decisión crítica del análisis de confiabilidad.
Las distribuciones estadísticas se dividen en dos categorías: distribuciones de modelado, usadas para describir conjuntos de datos (continuas y discretas), y distribuciones de muestreo, usadas para construir intervalos de confianza y probar hipótesis. Las distribuciones continuas incluyen datos de variables con infinitos puntos posibles; las discretas surgen de datos contables con un número finito de valores posibles.
El 63.2% de todos los valores cae por debajo de la vida característica (η), independientemente del valor del parámetro de forma — una propiedad única de la Weibull.
La función de riesgo de la distribución normal es monótonamente creciente — lo que la hace apropiada para modelar la fase de desgaste de productos con vida útil bien definida (tornillos, rodamientos, estructuras).
La función de riesgo de la lognormal tiene un comportamiento único: aumenta inicialmente, luego disminuye y eventualmente se aproxima a cero. Esto significa que los ítems con distribución lognormal tienen mayor probabilidad de falla al envejecer durante algún período, pero después de sobrevivir a una edad específica, la probabilidad de falla disminuye. Muy usada en fatiga de materiales.
Es la única distribución caracterizada por una función de riesgo completamente constante h(x) = λ. Esta propiedad simplifica enormemente los cálculos de mantenibilidad y disponibilidad, razón por la que el MTBF asume implícitamente una distribución exponencial en la mayoría de sus aplicaciones.
El Parámetro de Forma Weibull y la Curva de Bañera
| Valor de β | Distribución equivalente | Fase de la curva de bañera | Descripción de la tasa de falla |
|---|---|---|---|
| β < 1 | — | Mortalidad infantil | Tasa de falla decreciente. Fallas por defectos de fabricación, componentes con defectos latentes. Se corrige con burn-in. |
| β = 1 | Exponencial (idéntica) | Vida útil (zona plana) | Tasa de falla constante. Fallas aleatorias e independientes. Ausencia de memoria. Base del cálculo de MTBF. |
| β = 2 | Rayleigh | Inicio del desgaste | Tasa de falla que aumenta linealmente. Indica desgaste moderado. Útil para fallas mecánicas por fricción. |
| β = 3–4 | Aproxima Normal | Desgaste pronunciado | Tasa de falla creciente. Desgaste significativo. Vida de diseño bien definida. Facilita planificación de PM. |
| β > 4 | — | Desgaste acelerado | Tasa de falla aumenta rápidamente. Distribución muy estrecha. Alta predictibilidad de la vida hasta falla. |
Fuente: CRE Primer, Quality Council of Indiana — Sección IV, III.A.3. Reliability Toolkit (1993).
El CRE Primer presenta un ejemplo fundamental: el Componente A tiene un MTTF de 4,645 horas (β=0.8) y el Componente B tiene un MTTF de solo 300 horas (β=3). A pesar de que el MTTF del Componente A es más de 10 veces mayor, la confiabilidad del Componente B a 100 horas es mayor (0.974 vs 0.95). A 1,000 horas, el Componente B tiene confiabilidad prácticamente cero, mientras que A tiene 0.723. Conclusión: el MTTF sin conocer el parámetro de forma es una medida engañosa. Para lograr la misma confiabilidad con mayor varianza se requiere una media más grande.
Distribuciones Discretas
Las Cuatro Funciones de Probabilidad
Cualquier distribución de probabilidad puede describirse completamente mediante cuatro funciones. Si se conoce cualquiera de ellas, las otras tres pueden derivarse matemáticamente.
Para la distribución exponencial con tasa de falla constante λ: f(t) = λe^–λt · F(t) = 1–e^–λt · R(t) = e^–λt · h(t) = λ (constante). Este es el único caso donde h(t) es absolutamente constante — la llamada "falta de memoria". Para un resistor con λ=0.04 fallas/hora: R(100h) = e^–0.04(100) = 0.0183. Es decir, solo el 1.83% de los resistores sobrevive 100 horas. Si se prueban 100 resistores, aproximadamente 63 estarán en estado de falla después de 25 horas.
Muestreo y Datos Censurados
En pruebas de confiabilidad, raramente es posible probar todos los ítems hasta la falla. Los datos censurados — donde solo se conoce que el tiempo a falla es mayor o menor que un valor dado — requieren técnicas estadísticas especiales para ser analizados correctamente.
Para que los métodos estadísticos sean válidos, todas las muestras deben elegirse aleatoriamente. Cuando las pruebas se terminan antes de que todos los ítems fallen, la aleatoriedad de la muestra queda destruida. Los 10 ítems que fallaron primero no constituyen una muestra aleatoria representativa de la población — son, de hecho, los 10 ítems con los menores tiempos a falla.
El tamaño de muestra n para pruebas de hipótesis depende de: el riesgo tipo I (α) y tipo II (β) deseado, la diferencia mínima a detectar entre medias (μ–μ₀), y la variación en la característica medida. Para datos de variables con distribución normal: n = (Zα·σ/δ)². Para datos de atributos (binomiales): n = Z²·p̂(1–p̂)/(Δp)². La selección del tamaño de muestra correcto es la diferencia entre una prueba que informa y una que solo consume recursos.
Control Estadístico de Proceso y Capacidad
El SPC es la técnica que aplica el análisis estadístico para medir, monitorear y controlar procesos. La consistencia y predictibilidad que genera ejercen un impacto positivo directo sobre todos los aspectos de la confiabilidad.
El principio fundamental del SPC: todos los procesos están sujetos a variación. Esta variación puede clasificarse en dos tipos: variación por causa aleatoria (inherente al proceso, inevitable sin cambios fundamentales) y variación por causa asignable (especial, debida a factores identificables y eliminables). Cuando solo existe variación aleatoria, el proceso está en control estadístico y es predecible.
Índices de Capacidad del Proceso: Cp y Cpk
Cp = 1.00 a 1.33 → Capaz con control estricto
Cp < 1.00 → Incapaz
Cp mide el potencial del proceso si estuviera perfectamente centrado entre los límites de especificación. No considera la posición real del promedio del proceso.
Cuando Cp = Cpk, el proceso está perfectamente centrado. Cuando Cpk < Cp, el proceso está descentrado respecto a los límites de especificación.
Tasas de Falla por Valor de Cp
| Cp | Valor Z | ppm (defectos/millón) | Interpretación |
|---|---|---|---|
| 0.67 | 2.00 | 45,500 | Proceso muy incapaz |
| 1.00 | 3.00 | 2,700 | Límite mínimo aceptable |
| 1.33 | 4.00 | 63 | Capaz — estándar industrial |
| 1.50 | 4.50 | 6.8 | Capaz — nivel demandado |
| 1.67 | 5.00 | 0.57 | Alta capacidad |
| 2.00 | 6.00 | 0.002 | Seis Sigma — calidad de clase mundial |
Fuente: CRE Primer, Tabla 4.48 — Tasas de falla para Cp y valores Z. Los ppm son válidos cuando el proceso está centrado, tiene especificación bilateral, distribución normal y sin desplazamientos significativos.
La transformación Z = (x–μ)/σ convierte los valores originales al número de desviaciones estándar respecto a la media, permitiendo usar una sola tabla normal estándar para describir áreas bajo la curva. Para el análisis de capacidad: Z_UPPER = (USL–X̄)/σ y Z_LOWER = (X̄–LSL)/σ. La tasa de falla total es la suma de las áreas fuera de especificación en ambos extremos de la distribución.
Intervalos de Confianza
Un intervalo de confianza traduce la incertidumbre inherente al muestreo en una afirmación probabilística: si el procedimiento se repitiera muchas veces, un porcentaje específico de los intervalos calculados contendría el verdadero parámetro poblacional.
Existen dos tipos principales de estimación: la estimación puntual — un único valor estimado como el promedio muestral — y la estimación por intervalo o intervalo de confianza — un rango dentro del cual se espera que caiga el parámetro poblacional. Un IC del 90% significa que el 90% de los intervalos calculados de esta manera contendrán el verdadero MTBF, mientras que el 10% no lo contendrá.
Estimación del MTBF — Datos censurados y no censurados
Ejemplo: tiempo total en prueba 1,760 horas con 13 fallas → θ̂ = 1,760/13 = 135.4 horas. La tasa de falla estimada λ̂ = r/T = 13/1,760 = 0.0074 fallas/hora.
Cuantas más fallas ocurran durante la prueba, más estrecho será el intervalo de confianza — más información disponible sobre el MTBF verdadero. Esta relación directa entre número de fallas e incertidumbre define las estrategias de prueba de confiabilidad.
"La confiabilidad es la probabilidad de funcionamiento libre de fallas durante un intervalo especificado bajo condiciones determinadas — una declaración inherentemente estadística que solo tiene significado cuando se cuantifica."— CRE Primer, Quality Council of Indiana — Adaptado de MIL-STD-721C (1981)
FRACAS — El Sistema de Retroalimentación de Fallas
El FRACAS es el sistema que cierra el ciclo entre la falla que ocurre en el campo y la mejora que se implementa en el diseño. Sin él, la misma falla se repite indefinidamente.
El propósito del Failure Reporting, Analysis and Corrective Action System (FRACAS) es proporcionar un sistema cerrado de reporte de fallas, procedimientos para el análisis de fallas que determinen la causa raíz, y documentación para registrar la acción correctiva. Es el eslabón entre el análisis estadístico de fallas y la acción de mejora en diseño, manufactura y pruebas.
- 01 Iniciación del reporte de falla — Cualquier falla relevante (aquella que puede ocurrir en el campo) se documenta sistemáticamente. Las fallas no relevantes se clasifican y archivan separadamente.
- 02 Análisis de la falla — El análisis busca determinar la causa raíz de cada falla: ¿fue un defecto de diseño, un defecto de manufactura, una prueba incorrecta, una falla secundaria, o una falla de origen desconocido?
- 03 Acción correctiva — Se implementan cambios de diseño, proceso o procedimiento para eliminar la causa raíz. El sistema asegura que las acciones correctivas se tomen oportunamente mediante seguimiento de fechas de suspensión.
- 04 Retroalimentación al diseño — Las acciones correctivas se alimentan de regreso al proceso de diseño, manufactura y prueba. Este cierre del ciclo es la esencia del FRACAS como herramienta de crecimiento de confiabilidad.
- 05 Junta de revisión de fallas (FRB) — El Failure Review Board revisa datos de inspecciones, pruebas de calificación y campo. Es responsable de iniciar y revisar acciones correctivas para asegurar el crecimiento de confiabilidad.
- 06 Seguimiento y reporte a la dirección — El sistema reporta todas las delinquencias en fechas de informes abiertos y análisis de fallas. La dirección debe conocer el estado de los reportes abiertos para garantizar su cierre.
Las fallas se clasifican en dos dimensiones. Primero, como relevantes (pueden ocurrir en el campo) o no relevantes (imposibles en condiciones de campo). Segundo, por severidad: críticas (dejan el sistema inoperable), mayores (degradan el desempeño pero el sistema sigue operando) o menores (el sistema permanece completamente funcional). Esta clasificación determina la prioridad de la acción correctiva y el nivel de escalamiento a la dirección.
Fuentes de datos de confiabilidad para análisis
El Dominio III como Fundamento Cuantitativo
La probabilidad y la estadística no son un módulo teórico del CRE — son el lenguaje común que hace posible toda decisión cuantitativa en confiabilidad.
El Dominio III del BoK 2025 comprende 35 preguntas del examen CRE — el dominio de mayor peso. Esta asignación refleja la realidad de la práctica: sin estadística, el ingeniero de confiabilidad no puede modelar el comportamiento de los componentes, calcular el MTBF con intervalos de confianza que tengan significado, determinar si un proceso es capaz de satisfacer los requisitos de confiabilidad, ni cerrar el ciclo de mejora mediante el análisis sistemático de datos de falla.
La arquitectura del Dominio III conecta siete subtemas en una cadena de valor: las herramientas descriptivas (estadística básica) caracterizan los datos; la probabilidad permite cuantificar la incertidumbre; las distribuciones modelan los tiempos a falla; las funciones de probabilidad traducen el modelo en métricas de confiabilidad (R, F, h); el muestreo define cómo obtener datos válidos; el SPC y la capacidad monitorean el desempeño del proceso de manufactura; y los intervalos de confianza y FRACAS cierran el ciclo entre la evidencia estadística y la acción de mejora.
El Dominio III del CRE BoK 2025 incluye nuevos subtemas respecto a versiones anteriores del BoK. Asegúrese de estudiar la versión 2025 del Body of Knowledge disponible en asq.org/cert/reliability-engineer y el CRE Handbook 4ª edición (2025) de Mary McShane-Vaughn y Karen Hulting, el único libro de texto oficial organizado según el BoK 2025, y el único que puede llevarse al examen de libro abierto. Las distribuciones de Weibull, normal, lognormal y exponencial son las más frecuentemente evaluadas, junto con los conceptos de RPN, Cp, Cpk y MTBF con intervalos de confianza.