Estructura del Dominio: Pruebas y Modelos
El Dominio IV del BoK CRE 2025 cubre el conjunto de herramientas que permiten al ingeniero obtener evidencia cuantificada del desempeño de un producto — antes, durante y después de su ciclo de vida.
La verificación del diseño no puede depender únicamente del análisis teórico. Las pruebas de confiabilidad y el modelado matemático son el mecanismo que cierra la brecha entre lo que el diseño predice y lo que el producto realmente entrega en el campo. El CRE Primer organiza este dominio en dos grandes bloques: Testing (pruebas) y Modeling (modelado), cada uno con subtemas claramente diferenciados.
- B.1 — Pruebas de vida acelerada (ALT): estrés único, múltiple, secuencial, step-stress, HALT, pruebas de margen
- B.2 — Cribado por estrés: ESS, HASS, pruebas de burn-in
- B.3 — Pruebas de calificación/demostración: pruebas secuenciales (PRST/SPRT), fija-tiempo, fija-fallas
- B.4 — Pruebas de degradación (desgaste hasta falla)
- B.5 — Pruebas de software y firmware
- C.1 — Diagramas y modelos de bloques de confiabilidad (RBD): serie, paralelo, standby, redundancia activa, tie sets, cut sets
- C.2 — Física de falla (PoF): mecanismos, modelos de falla
- C.3 — Modelos de falla matemáticos: Arrhenius, Eyring, curvas S-N, regla de Miner
- C.4 — Métodos de predicción: Markov, Monte Carlo, MTTF, MTBF, tolerancias
- C.5 — Prototipos de diseño
Cada herramienta del Dominio IV tiene un momento óptimo de aplicación en el proceso de desarrollo. El CRE Primer documenta que las pruebas de diseño ALT y HALT son más efectivas en etapas tempranas del ciclo de desarrollo, antes de que el diseño quede finalizado. Las pruebas de calificación y los modelos de predicción entran en las fases de verificación y producción. Esta sincronización con el proceso de diseño es lo que define a un programa de confiabilidad maduro.
Pruebas de Vida Acelerada — ALT
Las pruebas de vida acelerada permiten obtener datos de falla en tiempos mucho menores que la vida útil nominal del producto, aplicando niveles de estrés más elevados y extrapolando los resultados al estrés de uso normal.
La prueba de vida acelerada (ALT) se usa para obtener datos de desempeño en dispositivos o componentes a una tasa más rápida a través de estrés mayor que el normal. Los datos de falla resultantes proporcionan información que es extrapolada para obtener la estimación deseada en un tiempo futuro t y bajo condiciones normales de operación. Esto es especialmente importante cuando se prueba un dispositivo de alta confiabilidad — muy pocas o ninguna falla ocurrirá a los niveles de estrés de diseño y la duración para las fallas es muy larga.
Existen dos métodos genéricos para ALT. El primero usa el dispositivo bajo prueba más intensivamente que en uso normal (por ejemplo, un teclado usado 8 horas/día en lugar de 4 horas/día). El segundo aplica niveles de estrés más altos cuando la compresión de tiempo no es posible — por ejemplo, un monitor de video con temperatura normal de 85°F probado a 200°F para provocar fallas de componentes más rápidamente.
Supuestos críticos del ALT: Los modos de falla descubiertos a mayor estrés deben ser los mismos que a las condiciones normales de operación. Si no lo son, el ALT no tiene una relación lineal válida y queda limitado a partes individuales, no a ensambles completos de producto. El mismo modelo estadístico de falla debe ser válido para condiciones normales y aceleradas.
Los tres modelos de análisis ALT
Pruebas paso-a-paso (Step-Stress) y Pruebas de Descubrimiento
La prueba step-stress coloca la unidad a nivel normal y aumenta gradualmente el estrés hasta la falla. Los estrés se aplican en secuencia escalonada. El gráfico de probabilidad de los datos tiene una pendiente mucho mayor que los datos de vida ordinarios. El diseño debe proveer una vida libre de fallas bajo estrés mayor que la vida de diseño, confirmando que el diseño es correcto.
Las pruebas de descubrimiento se usan para encontrar los "eslabones débiles" de una unidad o ensamble durante el ciclo de desarrollo temprano. Las debilidades se descubren mediante condiciones agresivas por encima de las esperadas en servicio — una forma poderosa de mejorar la confiabilidad de la unidad al auxiliar el esfuerzo de diseño. No se usan para determinar el MTTF ya que no generan datos significativos sobre condiciones típicas de servicio.
Las unidades bajo prueba deben ser idénticas al producto final. Se aplica un factor de estrés acelerador a la vez. Los niveles de estrés deben causar modos de falla idénticos a los encontrados bajo condiciones normales. Los niveles de estrés acelerador no deben exceder los máximos de diseño del componente. Para 20 unidades disponibles, se recomienda un mínimo de 3 unidades en el nivel de estrés más alto y diseñar para solo 2 niveles de estrés si hay menos de 10 unidades disponibles.
Cribado por Estrés: ESS, HALT, HASS y Burn-in
El cribado por estrés es el conjunto de pruebas diseñadas para eliminar defectos ocultos de diseño y proceso antes de que lleguen al campo — no para medir confiabilidad, sino para precipitar y corregir fallas latentes bajo condiciones controladas de fábrica.
El HALT es una herramienta de diseño usada para verificar los límites operacionales de un sistema y encontrar debilidades de diseño y componentes que de otro modo emergerían en el campo. El proceso expone el producto a estrés de temperatura, ciclos térmicos rápidos, vibración y condiciones operacionales que exceden con creces las encontradas en el campo. Las fallas se usan para modificar el diseño antes de la producción.
Durante el HALT, la unidad bajo prueba es sometida a niveles crecientes de estrés mientras su desempeño es monitoreado. El objetivo es continuar la prueba hasta que la unidad falle. El análisis de la falla y la comprensión de los mecanismos de falla llevan a modificaciones de diseño para hacerla más robusta. Este proceso se repite hasta que el desempeño del producto exceda las especificaciones de diseño.
HALT paso-a-paso: Solo una variable ambiental se prueba a la vez (temperatura o vibración). HALT combinado: Combinación de temperatura y vibración u otras condiciones ambientales. Tamaño de muestra recomendado: al menos 3 para step testing y 1-2 para combination testing.
El ESS se usa para eliminar defectos ocultos de diseño y proceso de manufactura. Ante una falla en fábrica, las reparaciones se realizan antes del envío al cliente en el campo. El ESS es una prueba de detección crítica diseñada para encontrar problemas — los métodos de prevención como FRACAS, DOE y SPC se usan para eliminar las causas raíz.
El ESS puede aplicarse a dispositivos o productos recibidos de un subcontratista para prevenir que partes débiles, defectos de diseño, etc., sean usados en el ensamble final. Cada etapa del proceso de manufactura introduce defectos: soldadura fría, tolerancias ajustadas o holgadas, alambres doblados, etc. El ESS sería deseable en cada etapa de producción.
Los estrés más comunes incluyen: temperatura (ciclos térmicos), vibración aleatoria, humedad, carga eléctrica, ciclos de servicio, presión, cargas de impacto y sobrecargas. MIL-HDBK-781 especifica que, a menos que el cliente indique lo contrario, los estrés ESS deben incluir vibración aleatoria y ciclos de temperatura.
Indications are that 50 a 150 horas de burn-in revelan entre el 80% y 90% de los defectos causados por manufactura. Las tasas de falla instantáneas caerán de 2X a 10X respecto al inicio de la prueba.
A diferencia del HALT (herramienta de desarrollo), el HASS es una prueba de producción que usa los límites descubiertos durante HALT para aplicar estrés combinados simultáneamente al 100% de las unidades en producción. HASS ayuda a reducir los defectos de manufactura e incrementa la confiabilidad del producto en campo.
El proceso HASS usa los límites operacionales y de destrucción descubiertos durante HALT como base para diseñar el perfil de tensión de producción. El perfil se ajusta para estar lo suficientemente alto para precipitar defectos de manufactura pero lo suficientemente bajo para no dañar las unidades buenas.
Burn-in Testing
Generalmente se asume que muchos dispositivos o productos nuevos adoptan la curva de bañera como su curva de falla inicial. La etapa inicial de la vida del producto usualmente exhibe una alta tasa de falla debido a componentes débiles o substandard, problemas de manufactura, restricciones de diseño, manejo, y lapsos de instalación — el período de mortalidad infantil.
Para producción masiva, una prueba de burn-in bajo condiciones de estrés (condiciones aceleradas en el tiempo) elimina los ítems deficientes. La prueba no debe sobreesforzar significativamente las partes buenas restantes. Los costos de burn-in se clasifican en: costos constantes por unidad (manejo, empaque), costos de falla durante burn-in, costos dependientes del tiempo de la cámara, y costos de falla en campo del cliente.
El ESS emplea instalaciones de prueba menos costosas y se recomienda para prueba del 100% de la producción. Las condiciones de prueba simulan fallas típicas de campo temprano, no del perfil de vida completo. El PRAT (Production Reliability Acceptance Test) usa una simulación más realista del perfil de vida, instalaciones más costosas, y NO se recomienda para 100% de prueba. El ESS lo conduce el proveedor (fabricante); el PRAT debe conducirse independientemente del proveedor si es posible.
Pruebas de Calificación y Demostración
Las pruebas de calificación y demostración validan que el diseño cumplirá con los requisitos de confiabilidad bajo condiciones de uso real — traduciendo los objetivos del BoK en decisiones estadísticas de aceptar o rechazar.
Las pruebas de calificación y demostración generalmente caen en uno de tres tipos: pruebas secuenciales, pruebas terminadas por tiempo, y pruebas terminadas por fallas. La diferencia clave radica en qué variable se fija de antemano y cuál queda abierta durante la prueba.
| Tipo de prueba | Variable fijada | Variable resultante | Ventaja principal | Desventaja principal |
|---|---|---|---|---|
| PRST / SPRT (Secuencial) | α y β (riesgos) | Tiempo y número de fallas | Menor costo y tiempo promedio de decisión; ideal cuando el producto es muy bueno o muy malo | Tiempo de prueba variable; en el peor caso puede ser 3x mayor que la prueba terminada por tiempo |
| Terminada por tiempo (Tipo I) | Tiempo total T | Número de fallas r | Se conoce exactamente cuándo terminará la prueba; máximo tiempo es el menor | Mayor número esperado de fallas que en prueba secuencial; tiempo promedio mayor |
| Terminada por fallas (Tipo II) | Número de fallas r | Tiempo total T | Número máximo de unidades conocido; permite análisis de modos y mecanismos de falla | Mayor tiempo de espera promedio que secuencial; mayor número esperado de fallas |
Fuente: CRE Primer, Sección VII — Testing & Modeling, IV.B.3. MIL-HDBK-781 (1996) · MIL-HDBK-108 (1960).
Diseñando un PRST — Probability Ratio Sequential Test
El PRST está basado en la razón de un MTBF aceptable (que debe tener alta probabilidad de aceptación) respecto a un MTBF inaceptable (que debe tener baja probabilidad de rechazo). Los ítems se colocan en prueba y las fallas se grafican contra el tiempo de prueba. La decisión es una de tres: aceptar, rechazar, o continuar probando.
Criterio de decisión: Aceptar si r ≤ a+bt | Rechazar si r ≥ c+bt | Continuar si a+bt < r < c+bt
donde r = número de fallas, t = tiempo de prueba, b = pendiente de las líneas de decisión
Distribución Beta — Límite inferior de confiabilidad
La distribución Beta permite calcular un límite de confianza inferior sobre la confiabilidad cuando se tiene un número fijo de pruebas y fallas. Una fórmula práctica para calcular el tamaño de muestra cuando se permiten cero fallas es:
n = ln(1 − 0.90) / ln(0.95) = ln(0.10) / ln(0.95) = −2.3026 / −0.05129 ≈ 45 unidades
Esto significa: si 45 unidades se prueban sin fallas, hay 90% de confianza de que la confiabilidad es al menos 95%.
Pruebas de Degradación y Software
Las pruebas de degradación miden el deterioro progresivo de una característica de desempeño — antes de que ocurra la falla formal — para predecir cuándo el producto cruzará un umbral crítico. Las pruebas de software aplican un marco análogo a la confiabilidad del código.
La inyección de fallas (fault injection/error seeding) consiste en sembrar un número conocido de errores en un programa, probarlo por un período y luego contar los errores sembrados vs. originales detectados. La razón entre errores detectados permite estimar el total de errores originales en el programa. El CRE Primer advierte, citando a Humphrey, que experimentos repetidos han fallado en mostrar validez a esta técnica — por lo que debe usarse con cautela y en combinación con otros métodos.
Diagramas de Bloques de Confiabilidad (RBD)
Los RBD son la representación gráfica de cómo los componentes de un sistema se combinan lógicamente para determinar la confiabilidad del sistema completo — el modelo de predicción más universalmente aplicado en confiabilidad.
Modelo en Serie — El más crítico
El modelo en serie es el más útil en confiabilidad. En un sistema en serie, todos los componentes deben funcionar para que el sistema funcione. La falla de cualquier componente causa la falla del sistema. La confiabilidad del sistema es siempre menor o igual que la del componente menos confiable.
INPUT ──┤ CD Drive ├──┤ Amplifier ├──┤ Speakers ├── OUTPUT
R = 0.900 R = 0.999 R = 0.950
Modelo en Paralelo — Redundancia activa
En sistemas paralelos activos, todos los componentes están activos en todo momento. El sistema falla solo si todos los componentes fallan. La redundancia incrementa la confiabilidad, pero con intercambios: mayor complejidad, mayor peso y mayor costo. Pueden ser sistemas paralelos activos (todos energizados) o en standby (uno activo, los demás en espera).
┌── Componente A (R = 0.962) ──┐
INPUT ─┤ ├── OUTPUT
└── Componente B (R = 0.962) ──┘
Standby con conmutación perfecta e imperfecta
- Fórmula: R(t) = e^–λt (1 + λt)
- Para n unidades en standby: R(t) = e^–λt · Σ(λt)^k/k! k=0..n-1
- Ejemplo: λ = 0.002 fallas/h, t = 200h → R(200) = e^–0.4 × 1.4 = 0.938
- El interruptor tiene probabilidad de éxito = 1 (interrupción humana)
- Fórmula: R(t) = e^–λt (1 + R_sw · λt)
- Ejemplo: λ = 0.002, t = 300h, R_sw = 0.95
- R(300) = e^–0.6 × (1 + 0.95×0.002×300) = 0.549 × 1.57 = 0.862
- La falla del switch reduce significativamente la confiabilidad del sistema
Métodos de Tie Sets y Cut Sets
Para sistemas complejos que no pueden resolverse directamente como combinaciones de bloques en serie y paralelo, se usan los métodos de tie sets (conjuntos de trayectorias) y cut sets (conjuntos de corte). Un tie set es una trayectoria a través del RBD que permite la operación exitosa del sistema. Un cut set es un conjunto de componentes cuya remoción causaría la falla del sistema. Los conjuntos mínimos (sin otros conjuntos contenidos dentro de ellos) se usan para calcular los límites superior e inferior de la confiabilidad del sistema.
Para sistemas con configuraciones complejas que combinan serie y paralelo, el método del componente clave (keynote component) usa el Teorema de Bayes: P(F) = P(F|E bueno) × P(E bueno) + P(F|E malo) × P(E malo). Identificando el componente E como clave, el sistema se reduce a configuraciones más simples para cada estado de E. Ejemplo del CRE Primer con 5 componentes (A-E): confiabilidad del sistema = 0.99428 a 10 horas de operación.
Física de Falla — PoF
La física de falla es el enfoque que comprende y modela los mecanismos físicos y químicos que causan la degradación y falla de los materiales, antes de que las fallas ocurran en campo.
Los modelos de mecanismos de falla comunes han sido validados a través de la experimentación y replicación por múltiples investigadores. El proceso PoF ha sido aplicado exitosamente para una variedad de sistemas y clientes, desde estaciones de radar terrestre hasta aplicaciones NASA y sistemas comerciales de circuitos impresos, resultando en mejoras de confiabilidad y ahorros de millones de dólares.
| Tipo de estrés | Condición de sobreestrés | Modo de falla por desgaste |
|---|---|---|
| Mecánico | Exceder el límite de fluencia o condición de choque alto | Fluencia (creep) o fatiga acumulativa |
| Térmico | Temperatura alta o baja | Fatiga por ciclos térmicos |
| Eléctrico | Descarga eléctrica por encima de la capacidad nominal | Electromigración de material o estrés acumulativo |
| Radiación | Evento único de perturbación de circuitos | Endurecimiento por radiación o cambios en material |
| Químico | Contaminación iónica | Corrosión |
Fuente: CRE Primer, Tabla 7.31 — Resumen de Mecanismos Genéricos de Falla, Sección VII, IV.C.2.
Modelos de Falla: Arrhenius, Eyring y Curvas S-N
Los modelos de falla matemáticos permiten cuantificar el efecto del estrés aplicado sobre la tasa de falla y extrapolarlo a condiciones normales de operación con base en principios físicos establecidos.
El modelo de Arrhenius usa los efectos del estrés térmico aplicado sobre la tasa de falla de las unidades bajo prueba. La temperatura es el estrés ambiental más comúnmente usado para ALT de dispositivos electrónicos. El modelo es más preciso cuando los estrés térmicos son significativos.
T = Temperatura en Kelvin | Aₜ = Factor de aceleración térmica
La relación entre la vida normal L₀ y la vida acelerada Lₛ permite calcular cuánto se aceleró la prueba respecto a las condiciones reales de uso.
El primer término es el término de temperatura; el segundo es la forma general para añadir un estrés adicional no térmico.
Con 5 constantes y 2 factores de estrés, Dodson (1995) recomienda prueba en al menos 5 condiciones distintas.
Curvas S-N y Regla de Miner — Fatiga de materiales
Las curvas S-N (estrés vs. número de ciclos) describen la relación entre el nivel de estrés aplicado y el número de ciclos hasta la falla. La fatiga de materiales ocurre cuando el nivel de estrés excede el límite de resistencia (endurance limit) del material. Por debajo de ese límite, el material no se daña y debería tener vida de fatiga infinita. Las aleaciones ferrosas exhiben un límite de resistencia claro; los metales no ferrosos no muestran este límite.
Nⱼ = número mediano de ciclos hasta falla en la curva S-N a ese nivel
C = constante determinada experimentalmente, usualmente = 1. Aplicar en el rango de 1,000 a 10,000,000 ciclos de carga (McLinn, 1998).
Métodos de Predicción de Confiabilidad
La predicción de confiabilidad es el proceso de estimar — antes de los hechos — qué tan bien operará el producto en servicio. Las predicciones se usan a lo largo de todo el ciclo de vida del producto: desde el diseño conceptual hasta el producto en campo.
La predicción de confiabilidad se usa en todas las fases del ciclo de vida del producto para predecir primero la confiabilidad de un diseño aún por desarrollar, luego del diseño real, hasta el rastreo real de la confiabilidad del producto desplegado. Las predicciones se preparan usando los modelos en serie o paralelo previamente discutidos, basándose en la confiabilidad individual de los componentes.
Análisis de Markov — Sistemas con estados
El análisis de Markov trata con sistemas que tienen condiciones o "estados". La probabilidad de transición de un estado a otro en un intervalo de tiempo dado es independiente de todos los estados previos — la propiedad de "falta de memoria". Una máquina puede estar en estado operacional o en estado de falla. Las probabilidades de transición entre estados son constantes para cada estado.
Una máquina tiene 0.9 de probabilidad de permanecer en operación y 0.1 de pasar a estado de falla. Desde el estado de falla, hay 0.3 de probabilidad de restauración y 0.7 de permanecer en mantenimiento. El gerente quiere conocer el estado en 3 semanas: usando multiplicación matricial P³, el resultado es 0.804 (operando) y 0.196 (fallada) — y el estado estacionario de largo plazo es P₀ = 0.75 operando y P_F = 0.25 en falla.
Simulación Monte Carlo
La simulación de Monte Carlo permite establecer un proceso que emule las condiciones del mundo real tan fielmente como sea posible. En áreas de análisis como las distribuciones estrés-resistencia, puede haber múltiples variables y distribuciones que se combinan para determinar la probabilidad de falla. Es difícil, en muchos casos, combinar estas diferentes formas de distribución en una sola distribución que permita predicción directa. Monte Carlo resuelve esto generando miles de réplicas aleatorias y construyendo la distribución del evento de interés (la falla).
"Es una prueba de teorías verdaderas no solo dar cuenta de los fenómenos, sino también predecirlos."— Epígrafe de la Sección VII — Testing & Modeling, CRE Primer, Quality Council of Indiana
Predicción por análisis de partes — Part Stress Analysis
λb = tasa de falla base (del componente genérico)
πQ = factor de calidad (nivel de inspección y burn-in, clase de cribado)
πE = factor de estrés ambiental (temperatura, vibración, humedad del entorno de uso)
Ejemplo: λb = 0.0333, πQ = 0.98, πE = 0.92 → λₚ = 0.0333 × 0.98 × 0.92 = 0.0300 fallas/hora
La exactitud de los datos de confiabilidad mejora cuanto más cerca del producto real se obtienen. Los datos obtenidos durante el despliegue (devoluciones de garantía, quejas de clientes, datos de campo) son extremadamente precisos, pero en un punto donde las correcciones son muy costosas tanto en dólares como en satisfacción del cliente. Por eso es crítico usar la mejor información disponible lo más temprano posible. Las fuentes de datos por etapa son: concepto (conteos de partes, datos de industria), diseño (pruebas de verificación, datos de proveedores), producción (resultados de calificación, información de QC), despliegue (retornos de campo, información de garantía).
Integración: el Dominio IV como Sistema
Las pruebas y el modelado no son actividades independientes — forman un sistema integrado de retroalimentación en el que cada herramienta alimenta a las siguientes y el ciclo completo mejora la confiabilidad del producto.
La cadena de valor del Dominio IV comienza en la planificación del entorno de prueba y los criterios de falla, continúa con el ALT para obtener datos bajo estrés acelerado, aplica ESS y HALT para fortalecer el diseño antes de producción, usa las pruebas de calificación para demostrar formalmente los objetivos de MTBF frente a clientes y reguladores, y cierra el ciclo con modelos predictivos (RBD, Markov, Monte Carlo) que permiten estimar el desempeño futuro del sistema.
El modelado — mediante RBD, física de falla, curvas S-N y simulaciones — transforma los datos de prueba en información de decisión. Un sistema con redundancia activa que un RBD predice con 0.9986 de confiabilidad tiene un fundamento cuantificado para decisiones de diseño, no una intuición. Una predicción mediante Part Stress Analysis da al ingeniero el eslabón débil antes de que la prueba lo confirme.
El BoK 2025 añade explícitamente confiabilidad de software y firmware como subtema del Dominio IV. Esta adición refleja la realidad industrial: los sistemas modernos son en gran parte software embebido, y la confiabilidad de ese software debe ser diseñada, probada y modelada con el mismo rigor que el hardware. Las técnicas de prueba de software (regresión, particionado de equivalencia, análisis de valores límite, perfil operacional) son ahora parte formal del cuerpo de conocimiento del CRE 2025.