Planificación, Pruebas y Modelado de Confiabilidad

Dominio IV — Panorama general

Estructura del Dominio: Pruebas y Modelos

El Dominio IV del BoK CRE 2025 cubre el conjunto de herramientas que permiten al ingeniero obtener evidencia cuantificada del desempeño de un producto — antes, durante y después de su ciclo de vida.

La verificación del diseño no puede depender únicamente del análisis teórico. Las pruebas de confiabilidad y el modelado matemático son el mecanismo que cierra la brecha entre lo que el diseño predice y lo que el producto realmente entrega en el campo. El CRE Primer organiza este dominio en dos grandes bloques: Testing (pruebas) y Modeling (modelado), cada uno con subtemas claramente diferenciados.

B — Testing (Pruebas)

B.1 — Pruebas de vida acelerada (ALT): estrés único, múltiple, secuencial, step-stress, HALT, pruebas de margen
B.2 — Cribado por estrés: ESS, HASS, pruebas de burn-in
B.3 — Pruebas de calificación/demostración: pruebas secuenciales (PRST/SPRT), fija-tiempo, fija-fallas
B.4 — Pruebas de degradación (desgaste hasta falla)
B.5 — Pruebas de software y firmware

C — Modeling (Modelado)

C.1 — Diagramas y modelos de bloques de confiabilidad (RBD): serie, paralelo, standby, redundancia activa, tie sets, cut sets
C.2 — Física de falla (PoF): mecanismos, modelos de falla
C.3 — Modelos de falla matemáticos: Arrhenius, Eyring, curvas S-N, regla de Miner
C.4 — Métodos de predicción: Markov, Monte Carlo, MTTF, MTBF, tolerancias
C.5 — Prototipos de diseño

Integración con el ciclo de diseño

Cada herramienta del Dominio IV tiene un momento óptimo de aplicación en el proceso de desarrollo. El CRE Primer documenta que las pruebas de diseño ALT y HALT son más efectivas en etapas tempranas del ciclo de desarrollo, antes de que el diseño quede finalizado. Las pruebas de calificación y los modelos de predicción entran en las fases de verificación y producción. Esta sincronización con el proceso de diseño es lo que define a un programa de confiabilidad maduro.

BoK IV.B.1 — Pruebas de vida acelerada

Pruebas de Vida Acelerada — ALT

Las pruebas de vida acelerada permiten obtener datos de falla en tiempos mucho menores que la vida útil nominal del producto, aplicando niveles de estrés más elevados y extrapolando los resultados al estrés de uso normal.

La prueba de vida acelerada (ALT) se usa para obtener datos de desempeño en dispositivos o componentes a una tasa más rápida a través de estrés mayor que el normal. Los datos de falla resultantes proporcionan información que es extrapolada para obtener la estimación deseada en un tiempo futuro t y bajo condiciones normales de operación. Esto es especialmente importante cuando se prueba un dispositivo de alta confiabilidad — muy pocas o ninguna falla ocurrirá a los niveles de estrés de diseño y la duración para las fallas es muy larga.

ALT — IV.B.1

Accelerated Life Testing — Métodos y supuestos

Elsayed (1996) · Blueprints for Product Reliability, RBPR-4 (1996) · Meeker (1985)

Existen dos métodos genéricos para ALT. El primero usa el dispositivo bajo prueba más intensivamente que en uso normal (por ejemplo, un teclado usado 8 horas/día en lugar de 4 horas/día). El segundo aplica niveles de estrés más altos cuando la compresión de tiempo no es posible — por ejemplo, un monitor de video con temperatura normal de 85°F probado a 200°F para provocar fallas de componentes más rápidamente.

Supuestos críticos del ALT: Los modos de falla descubiertos a mayor estrés deben ser los mismos que a las condiciones normales de operación. Si no lo son, el ALT no tiene una relación lineal válida y queda limitado a partes individuales, no a ensambles completos de producto. El mismo modelo estadístico de falla debe ser válido para condiciones normales y aceleradas.

Los tres modelos de análisis ALT

MODELO 01

Modelos estadístico-paramétricos

Los tiempos de falla en cada nivel de estrés se usan para determinar la distribución apropiada. La distribución se asume idéntica en todos los niveles de estrés. Cuando la distribución es desconocida, se usan modelos no paramétricos.

Exponencial · Weibull · Rayleigh · Lognormal · Regresión lineal · Hazards proporcionales

MODELO 02

Modelos física-estadística

Los estrés aplicados tienen efecto directo sobre las unidades bajo prueba (por ejemplo, temperatura sobre propiedades físicas y químicas). Basan la extrapolación en principios físicos bien establecidos.

Arrhenius · Eyring · Ley de potencia inversa · Modelo combinado

MODELO 03

Modelos física-experimental

Los tiempos de falla se estiman basándose en la física de la falla en base teórica o mediante la conducción de experimentos. Muy específicos para mecanismos particulares de falla a nivel físico-químico.

Electromigración · Fallas por humedad · Fallas por fatiga · Modelos de degradación

Pruebas paso-a-paso (Step-Stress) y Pruebas de Descubrimiento

La prueba step-stress coloca la unidad a nivel normal y aumenta gradualmente el estrés hasta la falla. Los estrés se aplican en secuencia escalonada. El gráfico de probabilidad de los datos tiene una pendiente mucho mayor que los datos de vida ordinarios. El diseño debe proveer una vida libre de fallas bajo estrés mayor que la vida de diseño, confirmando que el diseño es correcto.

Las pruebas de descubrimiento se usan para encontrar los "eslabones débiles" de una unidad o ensamble durante el ciclo de desarrollo temprano. Las debilidades se descubren mediante condiciones agresivas por encima de las esperadas en servicio — una forma poderosa de mejorar la confiabilidad de la unidad al auxiliar el esfuerzo de diseño. No se usan para determinar el MTTF ya que no generan datos significativos sobre condiciones típicas de servicio.

Guías de planificación del ALT — Blueprints RBPR-4 (1996)

Las unidades bajo prueba deben ser idénticas al producto final. Se aplica un factor de estrés acelerador a la vez. Los niveles de estrés deben causar modos de falla idénticos a los encontrados bajo condiciones normales. Los niveles de estrés acelerador no deben exceder los máximos de diseño del componente. Para 20 unidades disponibles, se recomienda un mínimo de 3 unidades en el nivel de estrés más alto y diseñar para solo 2 niveles de estrés si hay menos de 10 unidades disponibles.

BoK IV.B.2 — Cribado por estrés

Cribado por Estrés: ESS, HALT, HASS y Burn-in

El cribado por estrés es el conjunto de pruebas diseñadas para eliminar defectos ocultos de diseño y proceso antes de que lleguen al campo — no para medir confiabilidad, sino para precipitar y corregir fallas latentes bajo condiciones controladas de fábrica.

HALT — Discovery

Highly Accelerated Life Test

Herramienta de diseño · Límites operacionales · Debilidades de componentes

El HALT es una herramienta de diseño usada para verificar los límites operacionales de un sistema y encontrar debilidades de diseño y componentes que de otro modo emergerían en el campo. El proceso expone el producto a estrés de temperatura, ciclos térmicos rápidos, vibración y condiciones operacionales que exceden con creces las encontradas en el campo. Las fallas se usan para modificar el diseño antes de la producción.

Durante el HALT, la unidad bajo prueba es sometida a niveles crecientes de estrés mientras su desempeño es monitoreado. El objetivo es continuar la prueba hasta que la unidad falle. El análisis de la falla y la comprensión de los mecanismos de falla llevan a modificaciones de diseño para hacerla más robusta. Este proceso se repite hasta que el desempeño del producto exceda las especificaciones de diseño.

HALT paso-a-paso: Solo una variable ambiental se prueba a la vez (temperatura o vibración). HALT combinado: Combinación de temperatura y vibración u otras condiciones ambientales. Tamaño de muestra recomendado: al menos 3 para step testing y 1-2 para combination testing.

ESS — IV.B.2

Environmental Stress Screening

MIL-STD-785B · MIL-HDBK-781A · MIL-HDBK-2164A · IES Guidelines

El ESS se usa para eliminar defectos ocultos de diseño y proceso de manufactura. Ante una falla en fábrica, las reparaciones se realizan antes del envío al cliente en el campo. El ESS es una prueba de detección crítica diseñada para encontrar problemas — los métodos de prevención como FRACAS, DOE y SPC se usan para eliminar las causas raíz.

El ESS puede aplicarse a dispositivos o productos recibidos de un subcontratista para prevenir que partes débiles, defectos de diseño, etc., sean usados en el ensamble final. Cada etapa del proceso de manufactura introduce defectos: soldadura fría, tolerancias ajustadas o holgadas, alambres doblados, etc. El ESS sería deseable en cada etapa de producción.

Los estrés más comunes incluyen: temperatura (ciclos térmicos), vibración aleatoria, humedad, carga eléctrica, ciclos de servicio, presión, cargas de impacto y sobrecargas. MIL-HDBK-781 especifica que, a menos que el cliente indique lo contrario, los estrés ESS deben incluir vibración aleatoria y ciclos de temperatura.

Indications are that 50 a 150 horas de burn-in revelan entre el 80% y 90% de los defectos causados por manufactura. Las tasas de falla instantáneas caerán de 2X a 10X respecto al inicio de la prueba.

HASS — Production

Highly Accelerated Stress Screening

Basado en límites HALT · Prueba de producción · Stresses combinados simultáneos

A diferencia del HALT (herramienta de desarrollo), el HASS es una prueba de producción que usa los límites descubiertos durante HALT para aplicar estrés combinados simultáneamente al 100% de las unidades en producción. HASS ayuda a reducir los defectos de manufactura e incrementa la confiabilidad del producto en campo.

El proceso HASS usa los límites operacionales y de destrucción descubiertos durante HALT como base para diseñar el perfil de tensión de producción. El perfil se ajusta para estar lo suficientemente alto para precipitar defectos de manufactura pero lo suficientemente bajo para no dañar las unidades buenas.

Burn-in Testing

Generalmente se asume que muchos dispositivos o productos nuevos adoptan la curva de bañera como su curva de falla inicial. La etapa inicial de la vida del producto usualmente exhibe una alta tasa de falla debido a componentes débiles o substandard, problemas de manufactura, restricciones de diseño, manejo, y lapsos de instalación — el período de mortalidad infantil.

Para producción masiva, una prueba de burn-in bajo condiciones de estrés (condiciones aceleradas en el tiempo) elimina los ítems deficientes. La prueba no debe sobreesforzar significativamente las partes buenas restantes. Los costos de burn-in se clasifican en: costos constantes por unidad (manejo, empaque), costos de falla durante burn-in, costos dependientes del tiempo de la cámara, y costos de falla en campo del cliente.

ESS vs. PRAT — Diferencias clave (MIL-STD-785B)

El ESS emplea instalaciones de prueba menos costosas y se recomienda para prueba del 100% de la producción. Las condiciones de prueba simulan fallas típicas de campo temprano, no del perfil de vida completo. El PRAT (Production Reliability Acceptance Test) usa una simulación más realista del perfil de vida, instalaciones más costosas, y NO se recomienda para 100% de prueba. El ESS lo conduce el proveedor (fabricante); el PRAT debe conducirse independientemente del proveedor si es posible.

BoK IV.B.3 — Pruebas de calificación y demostración

Pruebas de Calificación y Demostración

Las pruebas de calificación y demostración validan que el diseño cumplirá con los requisitos de confiabilidad bajo condiciones de uso real — traduciendo los objetivos del BoK en decisiones estadísticas de aceptar o rechazar.

Las pruebas de calificación y demostración generalmente caen en uno de tres tipos: pruebas secuenciales, pruebas terminadas por tiempo, y pruebas terminadas por fallas. La diferencia clave radica en qué variable se fija de antemano y cuál queda abierta durante la prueba.

Tipo de prueba	Variable fijada	Variable resultante	Ventaja principal	Desventaja principal
PRST / SPRT (Secuencial)	α y β (riesgos)	Tiempo y número de fallas	Menor costo y tiempo promedio de decisión; ideal cuando el producto es muy bueno o muy malo	Tiempo de prueba variable; en el peor caso puede ser 3x mayor que la prueba terminada por tiempo
Terminada por tiempo (Tipo I)	Tiempo total T	Número de fallas r	Se conoce exactamente cuándo terminará la prueba; máximo tiempo es el menor	Mayor número esperado de fallas que en prueba secuencial; tiempo promedio mayor
Terminada por fallas (Tipo II)	Número de fallas r	Tiempo total T	Número máximo de unidades conocido; permite análisis de modos y mecanismos de falla	Mayor tiempo de espera promedio que secuencial; mayor número esperado de fallas

Fuente: CRE Primer, Sección VII — Testing & Modeling, IV.B.3. MIL-HDBK-781 (1996) · MIL-HDBK-108 (1960).

Diseñando un PRST — Probability Ratio Sequential Test

El PRST está basado en la razón de un MTBF aceptable (que debe tener alta probabilidad de aceptación) respecto a un MTBF inaceptable (que debe tener baja probabilidad de rechazo). Los ítems se colocan en prueba y las fallas se grafican contra el tiempo de prueba. La decisión es una de tres: aceptar, rechazar, o continuar probando.

Parámetros del PRST — MIL-HDBK-781

θ₀ = MTBF de prueba superior (aceptar con alta prob.) | θ₁ = MTBF de prueba inferior (rechazar con alta prob.)

d = razón de discriminación = θ₀/θ₁ | α = riesgo del productor (prob. de rechazar con θ = θ₀) | β = riesgo del consumidor (prob. de aceptar con θ = θ₁)
Criterio de decisión: Aceptar si r ≤ a+bt | Rechazar si r ≥ c+bt | Continuar si a+bt < r < c+bt
donde r = número de fallas, t = tiempo de prueba, b = pendiente de las líneas de decisión

Distribución Beta — Límite inferior de confiabilidad

La distribución Beta permite calcular un límite de confianza inferior sobre la confiabilidad cuando se tiene un número fijo de pruebas y fallas. Una fórmula práctica para calcular el tamaño de muestra cuando se permiten cero fallas es:

Tamaño de muestra con cero fallas — Beta Distribution (Locks)

n = ln(1 − nivel_confianza) / ln(confiabilidad)

Ejemplo: Para demostrar confiabilidad ≥ 95% con confianza del 90% y cero fallas permitidas:
n = ln(1 − 0.90) / ln(0.95) = ln(0.10) / ln(0.95) = −2.3026 / −0.05129 ≈ 45 unidades
Esto significa: si 45 unidades se prueban sin fallas, hay 90% de confianza de que la confiabilidad es al menos 95%.

BoK IV.B.4 y IV.B.5

Pruebas de Degradación y Software

Las pruebas de degradación miden el deterioro progresivo de una característica de desempeño — antes de que ocurra la falla formal — para predecir cuándo el producto cruzará un umbral crítico. Las pruebas de software aplican un marco análogo a la confiabilidad del código.

IV.B.4 — Degradation Testing

Pruebas de Desgaste hasta Falla

Las pruebas de degradación monitorean una característica de desempeño (resistencia, potencia, dimensión) que se deteriora con el tiempo hasta alcanzar un umbral de falla. No se espera la falla catastrófica — la extrapolación de la tasa de degradación permite estimar el tiempo a falla con muestras más pequeñas y tiempos más cortos. Especialmente útil para mecanismos de desgaste, corrosión, fatiga y degradación de material.

IV.B.5 — Software Testing

Pruebas de Software y Firmware

El software ocupa hasta el 40% del esfuerzo en desarrollo de proyectos. Las pruebas de software incluyen: regresión (verificar que cambios no introdujeron nuevos defectos), top-down y bottom-up, particionado de equivalencia, análisis de valores límite, pruebas de carga y estrés, perfil operacional y prueba por inyección de fallas. El BoK 2025 añade firmware como subtema explícito, reflejando la convergencia hardware-software en sistemas embebidos.

Prueba de inyección de fallas — Software

La inyección de fallas (fault injection/error seeding) consiste en sembrar un número conocido de errores en un programa, probarlo por un período y luego contar los errores sembrados vs. originales detectados. La razón entre errores detectados permite estimar el total de errores originales en el programa. El CRE Primer advierte, citando a Humphrey, que experimentos repetidos han fallado en mostrar validez a esta técnica — por lo que debe usarse con cautela y en combinación con otros métodos.

BoK IV.C.1 — Block Diagrams

Diagramas de Bloques de Confiabilidad (RBD)

Los RBD son la representación gráfica de cómo los componentes de un sistema se combinan lógicamente para determinar la confiabilidad del sistema completo — el modelo de predicción más universalmente aplicado en confiabilidad.

Modelo en Serie — El más crítico

El modelo en serie es el más útil en confiabilidad. En un sistema en serie, todos los componentes deben funcionar para que el sistema funcione. La falla de cualquier componente causa la falla del sistema. La confiabilidad del sistema es siempre menor o igual que la del componente menos confiable.

// RBD — Modelo en serie (stereo system example — CRE Primer)

  INPUT ──┤ CD Drive ├──┤ Amplifier ├──┤ Speakers ├── OUTPUT
          R = 0.900        R = 0.999      R = 0.950

R_sistema(5000h) = 0.900 × 0.999 × 0.950 = 0.854

// Forma general: RT(t) = R₁(t) × R₂(t) × ... × Rₙ(t) = ∏Rᵢ(t) · El componente más crítico: CD Drive (menor confiabilidad individual)

Modelo en Paralelo — Redundancia activa

En sistemas paralelos activos, todos los componentes están activos en todo momento. El sistema falla solo si todos los componentes fallan. La redundancia incrementa la confiabilidad, pero con intercambios: mayor complejidad, mayor peso y mayor costo. Pueden ser sistemas paralelos activos (todos energizados) o en standby (uno activo, los demás en espera).

// RBD — Paralelo activo: 1 de n debe funcionar

         ┌── Componente A (R = 0.962) ──┐
  INPUT ─┤                              ├── OUTPUT
         └── Componente B (R = 0.962) ──┘

R_paralelo = 1 − (1−0.962)(1−0.962) = 1 − 0.00144 = 0.9986

// Forma general paralelo: R_s = 1 − (1−R₁)(1−R₂)...(1−Rₙ) · Sistema falla solo si TODOS los componentes fallan

Standby con conmutación perfecta e imperfecta

Conmutación perfecta (R_sw = 1)

Fórmula: R(t) = e^–λt (1 + λt)
Para n unidades en standby: R(t) = e^–λt · Σ(λt)^k/k! k=0..n-1
Ejemplo: λ = 0.002 fallas/h, t = 200h → R(200) = e^–0.4 × 1.4 = 0.938
El interruptor tiene probabilidad de éxito = 1 (interrupción humana)

Conmutación imperfecta (R_sw < 1)

Fórmula: R(t) = e^–λt (1 + R_sw · λt)
Ejemplo: λ = 0.002, t = 300h, R_sw = 0.95
R(300) = e^–0.6 × (1 + 0.95×0.002×300) = 0.549 × 1.57 = 0.862
La falla del switch reduce significativamente la confiabilidad del sistema

Métodos de Tie Sets y Cut Sets

Para sistemas complejos que no pueden resolverse directamente como combinaciones de bloques en serie y paralelo, se usan los métodos de tie sets (conjuntos de trayectorias) y cut sets (conjuntos de corte). Un tie set es una trayectoria a través del RBD que permite la operación exitosa del sistema. Un cut set es un conjunto de componentes cuya remoción causaría la falla del sistema. Los conjuntos mínimos (sin otros conjuntos contenidos dentro de ellos) se usan para calcular los límites superior e inferior de la confiabilidad del sistema.

Aplicación del Teorema de Bayes — Keynote Component Method

Para sistemas con configuraciones complejas que combinan serie y paralelo, el método del componente clave (keynote component) usa el Teorema de Bayes: P(F) = P(F|E bueno) × P(E bueno) + P(F|E malo) × P(E malo). Identificando el componente E como clave, el sistema se reduce a configuraciones más simples para cada estado de E. Ejemplo del CRE Primer con 5 componentes (A-E): confiabilidad del sistema = 0.99428 a 10 horas de operación.

BoK IV.C.2 — Physics of Failure

Física de Falla — PoF

La física de falla es el enfoque que comprende y modela los mecanismos físicos y químicos que causan la degradación y falla de los materiales, antes de que las fallas ocurran en campo.

Los modelos de mecanismos de falla comunes han sido validados a través de la experimentación y replicación por múltiples investigadores. El proceso PoF ha sido aplicado exitosamente para una variedad de sistemas y clientes, desde estaciones de radar terrestre hasta aplicaciones NASA y sistemas comerciales de circuitos impresos, resultando en mejoras de confiabilidad y ahorros de millones de dólares.

Tipo de estrés	Condición de sobreestrés	Modo de falla por desgaste
Mecánico	Exceder el límite de fluencia o condición de choque alto	Fluencia (creep) o fatiga acumulativa
Térmico	Temperatura alta o baja	Fatiga por ciclos térmicos
Eléctrico	Descarga eléctrica por encima de la capacidad nominal	Electromigración de material o estrés acumulativo
Radiación	Evento único de perturbación de circuitos	Endurecimiento por radiación o cambios en material
Químico	Contaminación iónica	Corrosión

Fuente: CRE Primer, Tabla 7.31 — Resumen de Mecanismos Genéricos de Falla, Sección VII, IV.C.2.

BoK IV.C.3 — Failure Models

Modelos de Falla: Arrhenius, Eyring y Curvas S-N

Los modelos de falla matemáticos permiten cuantificar el efecto del estrés aplicado sobre la tasa de falla y extrapolarlo a condiciones normales de operación con base en principios físicos establecidos.

Arrhenius — IV.C.3

Modelo de Arrhenius — Estrés Térmico

El modelo más usado para ALT de dispositivos electrónicos · Temperatura en Kelvin

El modelo de Arrhenius usa los efectos del estrés térmico aplicado sobre la tasa de falla de las unidades bajo prueba. La temperatura es el estrés ambiental más comúnmente usado para ALT de dispositivos electrónicos. El modelo es más preciso cuando los estrés térmicos son significativos.

Modelo de Arrhenius — Factor de aceleración térmica

L = A · exp(+Eₐ/kT) | Aₜ = exp(Eₐ/k · [1/T_uso − 1/T_test])

Eₐ = Energía de activación (eV) — energía para que una molécula se active | k = Constante de Boltzmann (8.617×10⁻⁵ eV/K)
T = Temperatura en Kelvin | Aₜ = Factor de aceleración térmica
La relación entre la vida normal L₀ y la vida acelerada Lₛ permite calcular cuánto se aceleró la prueba respecto a las condiciones reales de uso.

Modelo de Eyring — Múltiples factores de estrés

t = [a·T^b·e^(c/T)] · [e^(d·S)] (temperatura + estrés no-térmico S)

El modelo de Eyring es más complejo que Arrhenius porque puede manejar más de un factor de estrés ambiental.
El primer término es el término de temperatura; el segundo es la forma general para añadir un estrés adicional no térmico.
Con 5 constantes y 2 factores de estrés, Dodson (1995) recomienda prueba en al menos 5 condiciones distintas.

Curvas S-N y Regla de Miner — Fatiga de materiales

Las curvas S-N (estrés vs. número de ciclos) describen la relación entre el nivel de estrés aplicado y el número de ciclos hasta la falla. La fatiga de materiales ocurre cuando el nivel de estrés excede el límite de resistencia (endurance limit) del material. Por debajo de ese límite, el material no se daña y debería tener vida de fatiga infinita. Las aleaciones ferrosas exhiben un límite de resistencia claro; los metales no ferrosos no muestran este límite.

Regla de Miner — Daño por fatiga acumulativa

C = Σ(nⱼ/Nⱼ) = 1 (generalmente entre 0.7 y 2.2)

nⱼ = número de ciclos por encima del límite de fatiga al nivel j
Nⱼ = número mediano de ciclos hasta falla en la curva S-N a ese nivel
C = constante determinada experimentalmente, usualmente = 1. Aplicar en el rango de 1,000 a 10,000,000 ciclos de carga (McLinn, 1998).

BoK IV.C.4 — Reliability Prediction Methods

Métodos de Predicción de Confiabilidad

La predicción de confiabilidad es el proceso de estimar — antes de los hechos — qué tan bien operará el producto en servicio. Las predicciones se usan a lo largo de todo el ciclo de vida del producto: desde el diseño conceptual hasta el producto en campo.

La predicción de confiabilidad se usa en todas las fases del ciclo de vida del producto para predecir primero la confiabilidad de un diseño aún por desarrollar, luego del diseño real, hasta el rastreo real de la confiabilidad del producto desplegado. Las predicciones se preparan usando los modelos en serie o paralelo previamente discutidos, basándose en la confiabilidad individual de los componentes.

→ 01 Identificar y predecir problemas de seguridad del producto — La predicción temprana permite incorporar salvaguardas en el diseño antes de que los cambios sean costosos.

→ 02 Predecir y cuantificar garantía y satisfacción del cliente — Los costos de garantía pueden modelarse estadísticamente para establecer reservas y políticas de cobertura adecuadas.

→ 03 Determinar la vida estimada de la unidad — Para comparación con la confiabilidad especificada en los requisitos del cliente y del contrato.

→ 04 Identificar el "eslabón más débil" del sistema — Para priorizar las acciones correctivas de diseño y asignación de presupuesto de confiabilidad donde tendrán mayor impacto.

Análisis de Markov — Sistemas con estados

El análisis de Markov trata con sistemas que tienen condiciones o "estados". La probabilidad de transición de un estado a otro en un intervalo de tiempo dado es independiente de todos los estados previos — la propiedad de "falta de memoria". Una máquina puede estar en estado operacional o en estado de falla. Las probabilidades de transición entre estados son constantes para cada estado.

Ejemplo de Markov — CRE Primer, Ejemplo 7.33

Una máquina tiene 0.9 de probabilidad de permanecer en operación y 0.1 de pasar a estado de falla. Desde el estado de falla, hay 0.3 de probabilidad de restauración y 0.7 de permanecer en mantenimiento. El gerente quiere conocer el estado en 3 semanas: usando multiplicación matricial P³, el resultado es 0.804 (operando) y 0.196 (fallada) — y el estado estacionario de largo plazo es P₀ = 0.75 operando y P_F = 0.25 en falla.

Simulación Monte Carlo

La simulación de Monte Carlo permite establecer un proceso que emule las condiciones del mundo real tan fielmente como sea posible. En áreas de análisis como las distribuciones estrés-resistencia, puede haber múltiples variables y distribuciones que se combinan para determinar la probabilidad de falla. Es difícil, en muchos casos, combinar estas diferentes formas de distribución en una sola distribución que permita predicción directa. Monte Carlo resuelve esto generando miles de réplicas aleatorias y construyendo la distribución del evento de interés (la falla).

"Es una prueba de teorías verdaderas no solo dar cuenta de los fenómenos, sino también predecirlos."

— Epígrafe de la Sección VII — Testing & Modeling, CRE Primer, Quality Council of Indiana

Predicción por análisis de partes — Part Stress Analysis

Part Stress Analysis — MIL-HDBK-217 / Rome Laboratory RAC

λₚ = λb × πQ × πE

λₚ = estimación de la tasa de falla del componente individual
λb = tasa de falla base (del componente genérico)
πQ = factor de calidad (nivel de inspección y burn-in, clase de cribado)
πE = factor de estrés ambiental (temperatura, vibración, humedad del entorno de uso)
Ejemplo: λb = 0.0333, πQ = 0.98, πE = 0.92 → λₚ = 0.0333 × 0.98 × 0.92 = 0.0300 fallas/hora

Incertidumbre de las predicciones y datos por etapa de ciclo de vida

La exactitud de los datos de confiabilidad mejora cuanto más cerca del producto real se obtienen. Los datos obtenidos durante el despliegue (devoluciones de garantía, quejas de clientes, datos de campo) son extremadamente precisos, pero en un punto donde las correcciones son muy costosas tanto en dólares como en satisfacción del cliente. Por eso es crítico usar la mejor información disponible lo más temprano posible. Las fuentes de datos por etapa son: concepto (conteos de partes, datos de industria), diseño (pruebas de verificación, datos de proveedores), producción (resultados de calificación, información de QC), despliegue (retornos de campo, información de garantía).

Síntesis del Dominio IV

Integración: el Dominio IV como Sistema

Las pruebas y el modelado no son actividades independientes — forman un sistema integrado de retroalimentación en el que cada herramienta alimenta a las siguientes y el ciclo completo mejora la confiabilidad del producto.

La cadena de valor del Dominio IV comienza en la planificación del entorno de prueba y los criterios de falla, continúa con el ALT para obtener datos bajo estrés acelerado, aplica ESS y HALT para fortalecer el diseño antes de producción, usa las pruebas de calificación para demostrar formalmente los objetivos de MTBF frente a clientes y reguladores, y cierra el ciclo con modelos predictivos (RBD, Markov, Monte Carlo) que permiten estimar el desempeño futuro del sistema.

El modelado — mediante RBD, física de falla, curvas S-N y simulaciones — transforma los datos de prueba en información de decisión. Un sistema con redundancia activa que un RBD predice con 0.9986 de confiabilidad tiene un fundamento cuantificado para decisiones de diseño, no una intuición. Una predicción mediante Part Stress Analysis da al ingeniero el eslabón débil antes de que la prueba lo confirme.

Nuevos subtemas del BoK CRE 2025 en el Dominio IV

El BoK 2025 añade explícitamente confiabilidad de software y firmware como subtema del Dominio IV. Esta adición refleja la realidad industrial: los sistemas modernos son en gran parte software embebido, y la confiabilidad de ese software debe ser diseñada, probada y modelada con el mismo rigor que el hardware. Las técnicas de prueba de software (regresión, particionado de equivalencia, análisis de valores límite, perfil operacional) son ahora parte formal del cuerpo de conocimiento del CRE 2025.