Tabla de Contenidos
Toggle¿Su laboratorio realmente puede garantizar resultados consistentes ante una auditoría de ISO/IEC 17025?
En muchos casos, los errores en la repetibilidad y reproducibilidad del método de ensayo no son evidentes hasta que se presentan desviaciones, discrepancias entre evaluadores o incluso no conformidades durante una evaluación por el ema o por algún otro organismo acreditador. El estudio R&R (Repeatability and Reproducibility) es una herramienta clave para identificar y controlar estas fuentes de variación, permitiendo demostrar con evidencia objetiva que los resultados del laboratorio son confiables, consistentes y técnicamente válidos
Introducción al estudio R&R en laboratorios de ensayo.
En los laboratorios de ensayo, la confiabilidad de los resultados no depende únicamente del método de ensayo, sino del desempeño integral del sistema de evaluación. Este sistema incluye factores como el personal que realiza la actividad, el procedimiento aplicado, las condiciones de ejecución y, en su caso, los equipos o medios utilizados durante el ensayo.
A diferencia de otros procesos en los que el resultado se obtiene de manera totalmente instrumental y con una lectura directa, en muchos ensayos el juicio técnico, la observación y la interpretación del personal tienen una influencia significativa en el resultado. Por ello, resulta fundamental demostrar que el sistema de evaluación es capaz de generar resultados consistentes, confiables y técnicamente válidos.
En este contexto, los laboratorios deben asegurar que sus resultados son repetibles y reproducibles, es decir, que mantienen consistencia cuando:
- una misma persona realiza la evaluación bajo condiciones similares, y
- diferentes personas ejecutan la misma evaluación sobre una misma condición o muestra.
El estudio R&R (Repeatability and Reproducibility) permite analizar estos dos componentes de variación y constituye una herramienta técnica clave para evaluar la consistencia del proceso de ensayo. Su aplicación no solo fortalece la confiabilidad de los resultados, sino que también proporciona evidencia objetiva de la capacidad del laboratorio para cumplir con los requisitos técnicos establecidos en la norma ISO/IEC 17025.
Evaluación de la variabilidad del método de ensayo mediante estudios R&R en laboratorios bajo ISO/IEC 17025.
En un laboratorio de ensayo, la confiabilidad de los resultados depende tanto del desempeño del método de ensayo como de su ejecución frente a las distintas fuentes de variación. El estudio R&R permite analizar esta variabilidad y distinguir qué parte proviene del propio método y cuál corresponde a la variación real entre los ítems evaluados (variación parte a parte).
En términos prácticos, este análisis permite responder una pregunta clave: ¿la variación observada proviene del método o de las diferencias reales entre las muestras?
De forma conceptual, la variabilidad del método de ensayo se descompone en dos componentes principales:
La repetibilidad corresponde a la variación observada cuando una misma persona repite el ensayo bajo las mismas condiciones, mientras que la reproducibilidad representa la variación cuando diferentes personas realizan el mismo ensayo bajo condiciones comparables.
Al considerar la variación total de los resultados, se incorpora también la variación real entre los ítems:
Esto implica que no toda la variación proviene del método de ensayo, sino también de las diferencias reales entre los ítems evaluados.
Para evaluar el desempeño del método, se utilizan indicadores como el porcentaje R&R:
Criterios de interpretación:
- Menor a 10%: Método adecuado
- Entre 10% y 30%: Aceptable bajo análisis
- Mayor a 30%: Método no adecuado
Cuando no se cuenta con límites de especificación, es posible evaluar la variación del método respecto al rango de los ítems:
donde el rango de los ítems corresponde a la diferencia entre el valor máximo y mínimo observados. Los mismos criterios de interpretación pueden aplicarse como referencia práctica.
En este contexto, un método de ensayo es confiable cuando su variabilidad es baja en comparación con la variación entre los ítems, ya que esto permite distinguir diferencias reales entre las condiciones evaluadas. En caso contrario, es necesario fortalecer la estandarización del método, la capacitación del personal o el control de las condiciones de ejecución.
Para los laboratorios acreditados bajo ISO/IEC 17025, el estudio R&R constituye una herramienta técnica clave que proporciona evidencia objetiva sobre la validez de los resultados y el control de las fuentes de variación asociadas al ensayo.
Guía práctica para la evaluación R&R en ensayos por partículas magnéticas.
Para ilustrar la aplicación del estudio R&R en un laboratorio de ensayo, se presenta a continuación un ejemplo práctico basado en ensayos por partículas magnéticas, utilizado para evaluar el desempeño del sistema de inspección conforme a los códigos ASME Sección V, Sección I, Sección VIII División 1, así como B31.1 y B31.3.
Esta guía muestra paso a paso cómo estructurar un estudio R&R en condiciones controladas, permitiendo generar evidencia técnica objetiva conforme a los requisitos de ISO/IEC 17025.
Paso 1: Selección de probetas de ensayo.
El primer paso consiste en seleccionar un conjunto de probetas que contengan discontinuidades conocidas o características previamente identificadas, las cuales funcionarán como referencia para evaluar el desempeño del sistema de inspección.
Para este ejemplo, se utilizó una sola probeta de ensayo con indicaciones definidas y cuantificadas, lo que permite ilustrar de manera clara la aplicación del estudio R&R. Las indicaciones consideradas como referencia son:
- MT-PT 17214 – Flaw 1 (Longitud): 12.7 mm
- MT-PT 17214 – Flaw 1 (Localización): 22.86 mm
- MT-PT 17214 – Flaw 2 (Longitud): 12.7 mm
- MT-PT 17214 – Flaw 2 (Localización): 66.04 mm
A partir de estos valores, es posible estimar la variación entre ítems (variación parte a parte) mediante el cálculo del rango:
Rango = Valor máximo – Valor mínimo
Este rango representa la dispersión de las indicaciones consideradas en el estudio y será utilizado como referencia para evaluar la capacidad del método de ensayo para distinguir diferencias reales entre condiciones.
Recomendación técnica
Aunque en este ejemplo se utiliza una sola probeta, para un análisis más robusto y representativo se recomienda:
- utilizar tres o más probetas,
- incluir múltiples discontinuidades, y
- cubrir un rango adecuado de variación entre ítems.
Todas las indicaciones deben estar claramente identificadas, ubicadas y caracterizadas, asegurando la trazabilidad y confiabilidad del estudio.
Estas probetas funcionan como material de referencia, permitiendo evaluar la capacidad del personal para detectar, interpretar y medir correctamente las indicaciones bajo condiciones controladas.
Paso 2: Selección de evaluadores (técnicos).
El siguiente paso consiste en seleccionar a los técnicos que participarán en la ejecución de los ensayos, ya que ellos representan una de las principales fuentes de variación dentro del sistema de evaluación.
Para este tipo de estudios, se recomienda que, del total de técnicos competentes o signatarios autorizados, se seleccione una muestra representativa de evaluadores. Idealmente, esta selección debe realizarse de manera aleatoria, con el fin de evitar sesgos y reflejar de forma más realista la variabilidad del personal.
Como criterio práctico, se recomienda considerar al menos tres evaluadores y, cuando sea posible, que la muestra represente más del 33% del total de técnicos signatarios autorizados, lo cual permite obtener un análisis más robusto de la reproducibilidad del método.
La selección debe realizarse considerando que los técnicos:
- cuenten con autorización vigente para el método de ensayo,
- tengan experiencia comprobable en la aplicación del procedimiento, y
- representen de manera adecuada la variabilidad real del personal que ejecuta el ensayo.
Para este ejemplo, se seleccionó una muestra de tres técnicos a partir del listado de signatarios autorizados, lo cual permite evaluar la variación entre evaluadores dentro del estudio R&R.
Es fundamental que todos los evaluadores realicen el ensayo bajo condiciones controladas y estandarizadas, utilizando el mismo método, equipo y criterios de evaluación. De esta manera, la variación observada puede atribuirse exclusivamente a diferencias en la ejecución del ensayo y no a factores externos.
Recomendación técnica
Una selección inadecuada de evaluadores puede sesgar los resultados del estudio R&R, ocultando problemas reales de reproducibilidad o generando una falsa percepción de consistencia.
Por ello, es recomendable que la muestra:
- sea aleatoria,
- sea representativa del total de signatarios, y
- incluya diferentes niveles de experiencia (dentro de personal competente),
para reflejar de manera más precisa el desempeño real del laboratorio.
Paso 3: Diseño y ejecución del experimento de concordancia.
Una vez seleccionada la probeta y definidos los evaluadores, se procede a diseñar el experimento de concordancia, el cual permite registrar de manera estructurada las observaciones de cada técnico y compararlas contra un valor de referencia (estándar).
En este ejemplo, se trabajó con un solo ítem de ensayo (probeta MT-PT 17214), el cual contiene dos discontinuidades identificadas (Flaw 1 y Flaw 2). Para efectos del estudio, estas discontinuidades se consideran como dos condiciones de evaluación dentro del mismo ítem.
En la práctica, estas condiciones suelen registrarse en las tablas como “probetas”; sin embargo, es importante aclarar que corresponden a discontinuidades dentro de un mismo ítem de ensayo.
Asimismo, participaron tres técnicos, seleccionados del personal competente autorizado para el método de ensayo.
En cuanto a los “ensayos”, estos corresponden a las repeticiones del estudio, es decir, el número de veces que cada evaluador inspecciona las mismas discontinuidades bajo condiciones controladas, con el fin de evaluar la consistencia de sus resultados (repetibilidad).
Estructura de la tabla de registro
La tabla del experimento se construye con las siguientes columnas:
- Muestra (probeta): identifica el ítem y la discontinuidad evaluada
(ejemplo: MT-PT 17214_Flaw 1 y MT-PT 17214_Flaw 2) - Evaluador: nombre del técnico que realiza la inspección
- Respuesta (atributo): resultado del evaluador (por ejemplo, detección correcta o incorrecta)
- Estándar: valor de referencia esperado para cada discontinuidad
Lógica de construcción del experimento
La lógica de llenado consiste en registrar una fila por cada combinación entre:
- discontinuidad
- evaluador
- repetición
En este caso:
- 1 ítem
- 2 discontinuidades
- 3 evaluadores
- 2 repeticiones (ensayos)
Se generan:
1 × 2 × 3 × 2 = 12 registros
Interpretación del diseño
Este diseño permite evaluar de manera simultánea:
- la repetibilidad (consistencia de cada evaluador en sus repeticiones),
- la reproducibilidad (variación entre evaluadores), y
- la concordancia de los resultados respecto al estándar.
Condiciones de ejecución
Es fundamental que todos los evaluadores realicen las evaluaciones bajo condiciones controladas y estandarizadas, utilizando:
- el mismo método de ensayo,
- el mismo equipo, y
- los mismos criterios de aceptación.
Esto asegura que la variación observada corresponda realmente al desempeño del método y a su ejecución, evitando la introducción de factores externos.
Paso 4: Resultados y análisis del estudio de concordancia.
A partir de la ejecución del experimento, se obtuvieron los siguientes resultados de concordancia para los tres evaluadores considerados.
Resultados de concordancia
En el análisis individual por evaluador, cada técnico realizó dos evaluaciones (correspondientes a las dos discontinuidades del ítem), obteniendo 2 coincidencias de 2 posibles, lo que representa un 100% de concordancia en todos los casos.
En el análisis de cada evaluador contra el estándar, los tres técnicos presentaron igualmente 100% de coincidencia, lo que indica que todas las evaluaciones realizadas fueron correctas respecto al valor de referencia establecido.
En el análisis entre evaluadores, se obtuvo también un 100% de concordancia, lo que significa que no existieron diferencias en la interpretación de las indicaciones entre los técnicos participantes.
De manera global, el sistema de evaluación presentó un 100% de acuerdo respecto al estándar, confirmando que, bajo las condiciones del estudio, el desempeño fue completamente consistente.
Consideración sobre el estadístico Kappa
En cuanto al estadístico Kappa de Fleiss, no fue posible calcularlo, ya que todas las evaluaciones fueron idénticas. Este comportamiento ocurre cuando no existe variabilidad en las respuestas.
Aunque este resultado refleja un desempeño perfecto, limita el análisis estadístico de concordancia, ya que el coeficiente Kappa requiere variabilidad para poder estimar el grado de acuerdo más allá del azar.
Análisis de los resultados
Los resultados obtenidos indican que, para este ejercicio:
- El método de ensayo presenta alta repetibilidad, ya que cada evaluador fue consistente en sus respuestas.
- Existe alta reproducibilidad, debido a que no se observaron diferencias entre evaluadores.
- El sistema de evaluación demuestra una concordancia total con el estándar, lo que sugiere un desempeño adecuado bajo las condiciones analizadas.
Limitaciones del estudio
Es importante interpretar estos resultados con cautela, ya que el estudio se realizó bajo condiciones limitadas:
- Se utilizó un solo ítem de ensayo,
- Se evaluaron únicamente dos discontinuidades, y
- Participaron tres evaluadores.
Recomendaciones para robustecer el análisis
Para obtener un análisis de concordancia más representativo, se recomienda:
- Incluir un mayor número de ítems o probetas,
- Incorporar más discontinuidades con distintos niveles de dificultad, y
- Considerar la participación de un mayor número de evaluadores.
Esto permitiría introducir variabilidad en las evaluaciones, habilitar el cálculo de indicadores estadísticos como Kappa y obtener conclusiones más sólidas sobre el desempeño del método de ensayo.
Conclusión del análisis de concordancia
El estudio muestra un resultado óptimo bajo condiciones controladas; sin embargo, para fines de validación completa conforme a buenas prácticas y criterios de acreditación, se recomienda ampliar el diseño experimental para fortalecer la representatividad estadística del análisis
Paso 5: Diseño del experimento y ejecución del estudio R&R por método ANOVA.
Para evaluar la variabilidad del método de ensayo en términos de medición de variables, se utiliza el enfoque R&R por método ANOVA, el cual permite descomponer la variación observada en sus componentes principales: variación entre ítems, reproducibilidad y repetibilidad.
Diseño del experimento
En este caso, el diseño del estudio se estructuró de la siguiente manera:
- Ítem: 1 probeta (MT-PT 17214)
- Características evaluadas: 2 discontinuidades (Flaw 1 y Flaw 2), cada una con dos variables:
- Longitud
- Localización
- Evaluadores: 3 técnicos
- Repeticiones (ensayos): 2 por cada evaluador
Esto genera un diseño balanceado:
3 evaluadores × 4 características × 2 repeticiones = 24 mediciones
Cada combinación evaluador–característica–repetición constituye un dato dentro del análisis.
Estructura de la tabla
La tabla de captura se organiza con las siguientes columnas:
- Parte (ítem / característica): combinación de la probeta y la variable evaluada
(ejemplo: Flaw 1–Longitud, Flaw 2–Localización) - Operador: técnico que realiza la medición
- Resultado (mm): valor medido
- Parte (ítem / característica): combinación de la probeta y la variable evaluada
Cada evaluador mide todas las características, repitiendo la medición dos veces bajo las mismas condiciones.
Ejecución del estudio
Durante la ejecución del estudio:
- todos los evaluadores utilizaron el mismo método de ensayo,
- se mantuvieron condiciones controladas,
- se utilizó el mismo equipo de medición, y
- no se permitió comunicación entre evaluadores para evitar sesgos.
El objetivo es asegurar que la variación observada provenga únicamente del método de ensayo y de las diferencias reales entre los ítems evaluados.
Análisis mediante ANOVA
El método ANOVA permite descomponer la variación total en tres componentes:
- Variación entre ítems (parte a parte): diferencias reales entre las características evaluadas
- Reproducibilidad: variación entre evaluadores
- Repetibilidad: variación del método bajo condiciones constantes
De forma conceptual
Donde:
- σ²(ítems): variación real entre las características evaluadas
- σ²(reproducibilidad): variación entre evaluadores
- σ²(repetibilidad): variación inherente al método de ensayo
Interpretación esperada
Considerando los valores de referencia:
- Flaw 1 – Longitud: 12.7 mm
- Flaw 1 – Localización: 22.86 mm
- Flaw 2 – Longitud: 12.7 mm
- Flaw 2 – Localización: 66.04 mm
y las mediciones observadas con ligeras variaciones (12–13 mm, 22–23 mm, 65–67 mm), se espera que:
- la variación entre ítems sea dominante,
- la repetibilidad sea baja, reflejando consistencia dentro de cada evaluador, y
- la reproducibilidad sea baja o moderada, indicando diferencias pequeñas entre técnicos.
Objetivo del análisis
El análisis ANOVA permite determinar si:
- el método de ensayo tiene capacidad para distinguir diferencias reales,
- la variación entre evaluadores es estadísticamente significativa, y
- el sistema de medición es adecuado para su propósito.
En caso de que la variación del método de ensayo sea alta en comparación con la variación entre ítems, será necesario:
- mejorar la estandarización del método,
- reforzar la capacitación del personal, o
- controlar mejor las condiciones de medición.
Paso 6: Resultados del experimento y ejecición del estudio R&R por método ANOVA
Una vez ejecutado el diseño experimental descrito previamente, se realizó el análisis estadístico mediante el método ANOVA, con el objetivo de cuantificar la variabilidad del método de ensayo y descomponerla en sus componentes principales: repetibilidad, reproducibilidad y variación entre condiciones evaluadas.
Análisis ANOVA
Se aplicó un modelo de ANOVA de dos factores (Partes y Operadores) con interacción. Los resultados obtenidos muestran lo siguiente:
- Partes (condiciones evaluadas):
- Presentan un efecto altamente significativo (p = 0.000).
- Esto indica que las diferencias observadas en los resultados se deben principalmente a variaciones reales entre las condiciones evaluadas (longitud y localización de discontinuidades).
- Operadores:
- No presentan un efecto significativo (p = 0.355).
- Esto indica que no existe evidencia estadística de diferencias sistemáticas entre los evaluadores.
- Interacción Partes × Operadores:
- No significativa (p = 0.786).
- Esto indica que los operadores evalúan las distintas condiciones de manera consistente, sin efectos cruzados relevantes.
- Partes (condiciones evaluadas):
Dado que la interacción no es significativa (α = 0.05), se procede a analizar el modelo simplificado sin interacción, lo cual permite una estimación más estable de los componentes de variación.
Componentes de la variación
El análisis de componentes de varianza muestra los siguientes resultados:
- Variación parte a parte: 99.94%
- Repetibilidad (equipo/método): 0.06%
- Reproducibilidad (operadores): 0.00%
- Variación total del sistema R&R: 0.06%
Estos resultados indican que prácticamente toda la variabilidad observada proviene de diferencias reales entre las condiciones evaluadas, mientras que la variabilidad atribuible al método de ensayo es mínima.
Evaluación del sistema de medición
A partir de la desviación estándar del estudio:
- %R&R (variación del estudio): 2.44%
- Número de categorías distintas (ndc): 57
Interpretación técnica
- Un %R&R menor al 10% indica que el método de ensayo es altamente aceptable.
- La ausencia de variación por reproducibilidad confirma que los evaluadores aplican el método de manera consistente.
- El valor elevado de ndc = 57 indica una excelente capacidad del método para distinguir entre diferentes condiciones de evaluación.
Análisis gráfico
El análisis gráfico complementa la interpretación estadística:
- Gráfica de componentes de variación:
- Confirma que la variación parte a parte domina el comportamiento del sistema.
- Gráfica R por operadores:
- Muestra estabilidad en la dispersión de las mediciones, sin evidencia de variabilidad excesiva.
- Gráfica X̄ por operadores:
- Refuerza que las diferencias observadas corresponden a las condiciones evaluadas y no a inconsistencias del método.
- Gráfica de interacción Partes × Operadores:
- Las líneas prácticamente paralelas indican ausencia de interacción significativa, confirmando consistencia entre evaluadores.
- Gráfica de componentes de variación:
Conclusión del estudio R&R por ANOVA
Con base en los resultados obtenidos, se concluye que:
- El método de ensayo presenta alta repetibilidad, con una variabilidad interna mínima.
- No se identifican diferencias significativas entre evaluadores, lo que demuestra alta reproducibilidad operativa.
- La variabilidad observada corresponde casi en su totalidad a diferencias reales entre las condiciones evaluadas.
- El método de ensayo es adecuado, confiable y consistente para la medición de las variables analizadas.
Conclusión: Importancia del estudio R&R en ensayos por partículas magnéticas
El presente análisis permitió evaluar de manera integral la consistencia y confiabilidad del método de ensayo aplicado, considerando tanto la evaluación por atributos (concordancia) como el análisis cuantitativo mediante R&R por método ANOVA, en alineación con los principios de la norma ISO/IEC 17025.
El estudio de concordancia evidenció un desempeño completamente consistente del sistema de evaluación, con un 100% de acuerdo entre evaluadores y respecto al estándar. Esto confirma que, bajo condiciones controladas, el personal técnico aplica de manera uniforme los criterios de detección e interpretación. No obstante, dado que el estudio se realizó con un número limitado de ítems, discontinuidades y evaluadores, se recomienda ampliar su alcance para fortalecer la representatividad estadística de los resultados.
Por su parte, el análisis R&R por método ANOVA permitió cuantificar la variabilidad del método de ensayo, mostrando que la variación total está dominada prácticamente en su totalidad por diferencias reales entre las condiciones evaluadas (99.94%), mientras que la variabilidad atribuible al método es mínima (0.06%). Esto demuestra que el método posee una alta capacidad de discriminación y que la variabilidad introducida por su ejecución es despreciable frente a la variabilidad del fenómeno evaluado.
Adicionalmente, el análisis estadístico confirmó que no existen diferencias significativas entre evaluadores ni interacción entre operadores y condiciones de medición, lo que evidencia una adecuada estandarización del método y un alto nivel de competencia técnica del personal, en concordancia con los requisitos de ISO/IEC 17025.
El valor de %R&R de 2.44% clasifica al método como altamente aceptable, mientras que el número de categorías distintas (ndc = 57) indica una excelente capacidad del sistema para distinguir entre diferentes condiciones de ensayo. Estos resultados confirman que el método es adecuado para su propósito y que proporciona resultados técnicamente válidos y confiables.
De manera integral, la combinación de ambos enfoques —concordancia por atributos y análisis R&R por variables— permite concluir que el sistema de ensayo no solo es consistente en la detección e interpretación de indicaciones, sino también estable y preciso en la medición de variables asociadas. Esto aporta evidencia objetiva de la confiabilidad del proceso y fortalece la validez técnica de los resultados generados por el laboratorio.
Finalmente, desde una perspectiva de mejora continua y cumplimiento normativo, se recomienda ampliar el diseño experimental incorporando un mayor número de probetas, discontinuidades y evaluadores, así como incluir diferentes niveles de dificultad en las indicaciones. Esto permitirá robustecer el análisis estadístico, incrementar la representatividad del estudio y generar evidencia aún más sólida para procesos de acreditación, vigilancia o reevaluación conforme a ISO/IEC 17025.
Si requieres llevar esto a tu empresa solo da click aqui en el botón
Referencias técnicas
American Society of Mechanical Engineers. (2023). ASME Boiler and Pressure Vessel Code, Section V: Nondestructive examination. ASME.
ASTM International. (2023). ASTM E709 – Standard guide for magnetic particle testing. ASTM International.
International Organization for Standardization. (2017). ISO/IEC 17025:2017 – General requirements for the competence of testing and calibration laboratories. ISO.
Joint Committee for Guides in Metrology. (2012). International vocabulary of metrology (VIM) (3rd ed.). BIPM.
Automotive Industry Action Group. (2010). Measurement systems analysis (MSA) (4th ed.). AIAG.
Montgomery, D. C. (2009). Introduction to statistical quality control (6th ed.). Wiley.
Ryan, T. P. (2000). Statistical methods for quality improvement (2nd ed.). Wiley.
Publicaciones relacionadas:
- Cómo calcular la incertidumbre en Laboratorios de Ensayo: Guía práctica. Domine el cálculo de incertidumbre en laboratorios de ensayo con esta guía práctica bajo la norma ISO/IEC 17025, asegurando la precisión y validez técnica de sus resultados....
- Caso de Estudio: Resolución de un Problema Recurrente en un sistema de calidad mediante una Acción Correctiva Guía sobre acción correctiva: aprenda a identificar la causa raíz de fallos recurrentes mediante Ishikawa y AMEF, optimizando procesos y garantizando la mejora continua....
- HACCP para exportar guía completa Guía completa para implementar el sistema HACCP en la exportación de alimentos. Conozca los requisitos de inocuidad y estándares internacionales necesarios para acceder con éxito a mercados globales....
