Más allá del método: el arte de decidir estándares de desempeño en la certificación médica

Mtra. Laura Delgado Maldonado

Psicóloga social por la UAM y Maestra en Ciencias

con especialidad en Metodología de la Ciencia por el IPN

Certificar a una o a un médico especialista no es un trámite administrativo ni un ejercicio meramente académico. Es, ante todo, una decisión profesional de alto impacto, comparable en complejidad y responsabilidad a muchas de las decisiones que se toman en la práctica clínica cotidiana. En ella se define quién está listo para ejercer una especialidad de manera segura y competente y quién requiere todavía un periodo adicional de formación o consolidación. En ese acto, convergen múltiples dimensiones: la protección de los pacientes, el prestigio de la profesión, la legitimidad del Consejo y la confianza que la sociedad deposita en los procesos de certificación. Por ello, reflexionar sobre cómo se establecen los estándares de desempeño y, en particular, cómo se deciden los puntos de corte, no es un asunto técnico al margen, sino un componente central del compromiso ético del gremio médico.

Idoneidad profesional en cirugia general - tecnologia y simulacion

El punto de corte como umbral de práctica segura

En evaluación, el punto de corte representa el umbral de competencia: el punto de inflexión en una escala de desempeño a partir del que se considera que una persona demuestra evidencia suficiente de práctica profesional segura.

No se trata de un porcentaje arbitrario ni de una convención heredada, sino del resultado de procedimientos sistemáticos diseñados para sostener decisiones justas, coherentes y defendibles ante la sociedad. El propósito del punto de corte es distinguir entre quienes alcanzan el nivel de desempeño esperado para ejercer una especialidad y quienes aún requieren fortalecimiento. Esta distinción puede expresarse de manera dicotómica, es decir, certificado o no certificado; o mediante niveles de desempeño, siempre que el instrumento y la evidencia disponible lo permitan. En cualquier caso, el punto de corte no es el fin del proceso, sino una pieza dentro de una arquitectura de decisión más amplia.

Una tríada que sostiene decisiones responsables

La definición de estándares de desempeño se apoya en una tríada conceptual que permite sostener decisiones sólidas: el constructo, la métrica y el impacto.

El constructo se refiere a aquello que realmente importa evaluar. En la certificación médica, esto implica verificar que los instrumentos representen la práctica profesional real: los conocimientos, habilidades, juicios clínicos e integraciones que definen el ejercicio competente de la especialidad. Una evaluación es pertinente en medida que recoge evidencia de lo que el especialista debe ser capaz de hacer en contextos clínicos reales.

La métrica se refiere a las propiedades técnicas del instrumento. Incluye aspectos como la dificultad de la prueba, su capacidad para distinguir niveles de desempeño y su confiabilidad, es decir, que los resultados sean consistentes y suficientemente estables para sostener decisiones profesionales. Sin esta base técnica, incluso el mejor juicio experto pierde solidez, pues la evidencia que lo respalda se vuelve frágil.

El impacto obliga a observar las consecuencias de la decisión en la población evaluada. Un punto de corte puede estar bien estimado desde el punto de vista técnico y, aun así, generar efectos no deseados si no se contrasta con los resultados reales. Incorporar esta dimensión permite evitar decisiones desconectadas de la práctica y reconocer que toda evaluación tiene consecuencias profesionales, institucionales y humanas.

Esta tríada funciona como una brújula: orienta las decisiones hacia el equilibrio entre rigor técnico, sentido clínico y responsabilidad social. En la práctica, esta solidez técnica se apoya también en una longitud suficiente y una cobertura equilibrada del dominio clínico evaluado.

Incertidumbre, error de medición y decisiones éticas

Toda medición conlleva incertidumbre. En evaluación, se expresa a través del error estándar de medición, que indica el grado de precisión con el que se estima el desempeño de una persona. En torno al punto de corte, esta incertidumbre adquiere especial relevancia, pues implica que existen sustentantes cuya clasificación no es completamente nítida, aun cuando el instrumento esté bien construido.

De esta realidad se derivan dos tipos de errores posibles. El error tipo I ocurre cuando se certifica a alguien que no alcanza el nivel mínimo de competencia requerido, con los riesgos que ello implica para la práctica profesional. El error tipo II se presenta cuando se niega la certificación a quien sí cuenta con la competencia necesaria, pero el instrumento o el procedimiento no logran diferenciarlo adecuadamente. Ambos errores tienen implicaciones éticas y deben ser considerados de manera explícita en el diseño de la decisión.

Por ello, resulta indispensable definir con anticipación una política de casos frontera. Esta política reconoce que existen desempeños ubicados muy cerca del punto de corte y establece procedimientos claros y previamente acordados para su revisión. Entre ellos se incluyen la definición de una banda de revisión, la realización de una segunda lectura independiente y, cuando es pertinente, la incorporación de evidencia breve adicional, además de plazos definidos y la documentación de las razones clínicas que sustentan la decisión colegiada. Lejos de debilitar el estándar, una política de frontera lo fortalece. Permite gestionar de manera transparente la incertidumbre inherente a la medición, protege al sustentante frente a decisiones arbitrarias y fortalece el proceso de certificación. En este sentido, decidir con cuidado en los casos más finos no es una concesión, sino una expresión de responsabilidad ética.

Condicionantes reales del proceso de decisión

Las decisiones de certificación no se toman en el vacío. Existen condicionantes estructurales que influyen directamente en la información disponible y en los procedimientos que pueden emplearse. El tamaño de la cohorte es uno de ellos: no es lo mismo decidir con un grupo reducido de sustentantes que con cientos o miles. La cantidad de información, la estabilidad de las estimaciones y la incertidumbre asociada cambian de manera sustantiva.

También es fundamental atender al comportamiento de la prueba. Instrumentos con muy poca variación en los resultados o con distribuciones extremas vuelven frágiles los puntos de corte y obligan a una interpretación especialmente cuidadosa. En este contexto aparecen de manera natural los casos frontera: sustentantes cuyo desempeño se sitúa muy cerca del punto de corte. Lejos de ser excepciones, estos casos son una consecuencia esperable de cualquier proceso de medición y deben ser abordados con reglas claras, previamente definidas y documentadas.

Longitud y balance del instrumento: donde se define la nitidez del corte

Un elemento clave en esta discusión es la longitud y el balance del instrumento. La longitud adecuada permite definir un punto de corte más nítido, porque aporta evidencia suficiente para sostener la decisión. Cuando una prueba es demasiado corta, el resultado puede depender más del azar del muestreo que del desempeño real; cuando es excesivamente larga, la fatiga introduce variación que no refleja competencia clínica.

Por ello, en el diseño de instrumentos de certificación se busca evitar tanto pruebas “eternas”, que generan agotamiento y errores involuntarios, como pruebas mínimas, que conducen a decisiones inestables. El equilibrio se alcanza cuando la evaluación cubre los dominios críticos de la especialidad de manera proporcionada, sin redundancias innecesarias y sin omisiones relevantes.

En este punto se define algo central para la certificación: la nitidez del corte. No se trata de decidir por azar ni de decidir bajo fatiga, sino de contar con una evaluación suficientemente amplia y bien balanceada para sostener decisiones profesionales justas y defendibles.

Calibración entre evaluadores: del juicio individual a la coherencia colegiada

En las evaluaciones de desempeño (exámenes orales, prácticos o estaciones clínicas) la calidad de la decisión no depende únicamente del instrumento, sino también del juicio de quienes evalúan. A diferencia de la opción múltiple, donde la variación se concentra en los reactivos, aquí una parte central de la medición pasa por la interpretación clínica de la evidencia observada.

Por ello, la calibración entre evaluadores no busca que todas y todos “piensen igual”, sino que valoren de coherentemente un mismo desempeño. Se trata de pasar del juicio individual a una coherencia colegiada, sustentada en criterios compartidos. Este proceso inicia con una fase de preparación, en la que se definen anclajes conductuales claros del mínimo competente: ejemplos observables que permiten acordar qué constituye un desempeño clínico seguro y suficiente para ejercer. A partir de estos anclajes, el entrenamiento con casos modelo o grabaciones permite afinar el juicio clínico, contrastar interpretaciones y reconocer distintos niveles de desempeño esperados.

La calibración no concluye con el entrenamiento inicial. Requiere monitoreo continuo, revisando periódicamente la concordancia entre evaluadores y estableciendo mecanismos de segunda lectura para los casos limítrofes. Este seguimiento ayuda a evitar que factores como el cansancio, el contexto o afinidades personales introduzcan sesgos no deseados en la decisión.

Más que un requisito técnico, la calibración es una condición ética de la evaluación del desempeño. Protege al sustentante, fortalece la legitimidad del Consejo y asegura que las decisiones reflejen evidencia clínica compartida, y no percepciones aisladas.

Instrumentos distintos, evidencias distintas

En los procesos de certificación es común utilizar instrumentos de distinta naturaleza, como exámenes de opción múltiple y evaluaciones de respuesta construida (orales, prácticas o de desempeño). Cada instrumento aporta un tipo de evidencia diferente y está sujeto a fuentes de error específicas. Por ello, un principio fundamental es decidir por separado. Cada instrumento debe contar con su propio punto de corte y con una interpretación independiente, antes de cualquier decisión conjunta; es decir, cada instrumento debe hablar por sí mismo antes de que los escuchemos en conjunto.

En los exámenes de opción múltiple, la fortaleza radica en el muestreo amplio de contenidos y en la posibilidad de integrar información de distintas áreas del conocimiento. En las evaluaciones de desempeño, la riqueza está en la observación directa de la práctica y en la valoración de la integración clínica. Mezclar puntuaciones de instrumentos con naturalezas distintas dificulta la interpretación y debilita la trazabilidad de la decisión.