Precisión en la Evaluación Psicológica: Validez y Confiabilidad de las Pruebas

Validez y Confiabilidad en la Evaluación Psicológica

Validez

La validez proporciona una comprobación directa de la eficacia de una prueba para cumplir su función. Para determinarla, se requieren criterios externos e independientes de lo que la prueba intenta medir.

Tipos de Validez

Validez de Constructo

La validez de constructo (teórica, estructural o factorial) busca determinar si la prueba es coherente con el marco teórico en el que se basa y si es una buena operacionalización del constructo que se quiere medir. Requiere la acumulación gradual de diversas fuentes de información. Para comprobarla, se pueden citar correlaciones con otros instrumentos similares como evidencia de que la prueba mide la misma área de la conducta. Sin embargo, una correlación muy alta significa que la nueva prueba es una repetición de otra.

Ejemplo: Si las tres dimensiones de la teoría de la ansiedad de un autor se ven en la práctica, la técnica mide los tres niveles.

Validez de Contenido

La validez de contenido se evalúa al principio, a partir de la elección de los reactivos y la especificación del área que se va a medir. Jueces expertos realizan un examen sistemático de los ítems y su contenido. Permite determinar si la prueba cubre una muestra representativa del área de conducta que debe medir.

Validez de Criterio

La validez de criterio alude al uso práctico de la técnica en el campo de aplicación e indica la efectividad de la prueba para predecir el desempeño del individuo en actividades específicas.

Validez Concurrente

Implica determinar que la técnica proporciona la misma información que se podría obtener por otra vía midiendo el mismo atributo. Se necesita otra vía como testigo para diagnosticar el estado actual más que para predecir resultados futuros. El instrumento es válido porque proporciona un sustituto más simple, rápido y menos costoso.

Ejemplo: Tomografía (tumores) + Autopsias. Bender + Observar a un niño durante 5 semanas es una prueba válida porque ahorra tiempo.

Validez Predictiva

Evalúa la capacidad de una técnica para predecir lo que ocurrirá con la variable en el futuro. Es la que menos se usa debido a la dificultad de predecir en psicología y de llevar a cabo estudios longitudinales de largo plazo. No siempre son necesarios. Se usa mucho para las pruebas de selección y clasificación de personal. La validez de criterio se interpreta mediante el «coeficiente de correlación». Correlación significa covariación entre variables, el grado en que varían juntas, no implica causalidad.

Si ambas suben o bajan: correlación +
Si una sube y otra baja: correlación –
No hay relación entre las variables cuando r = 0
Hay total relación cuando r = 1. Cuanto más se acerque r a 1, mayor es la relación entre las variables.
Validez concurrente: puntuaciones obtenidas por el test en relación con las puntuaciones del criterio externo.
Validez predictiva: puntuaciones presentes y puntuaciones en un futuro.

Validez Aparente

No se refiere a lo que la prueba mide, sino a lo que parece medir. Se estudia durante la administración piloto a un grupo pequeño. Se refiere a que la técnica sea válida a los ojos del sujeto, ya que si no lo es, el sujeto podría no responder sinceramente. Se busca lograr una mejor actitud de respuesta por parte de los sujetos.

Ejemplo: Para que a un trabajador de una fábrica le parezca que el test es válido, es probable que haya que enunciar los problemas en términos de operaciones con máquinas.

¡No se puede suponer que al mejorar esta validez, mejore también la validez objetiva de la prueba!

Confiabilidad

La confiabilidad se refiere a la confianza que se puede tener en los resultados obtenidos por la técnica, no en el constructo al que se refiere (validez). Se refiere a la consistencia de las puntuaciones obtenidas por las mismas personas cuando se les aplica la misma prueba o una forma equivalente. Está muy relacionada con el error de medición, ya que la medición de la confiabilidad permite determinar qué proporción de la varianza total de las puntuaciones se debe a la varianza de error. Se refiere a la calidad del test como herramienta de medición.

Métodos para Evaluar la Confiabilidad

Cuantos más métodos tenga una prueba, mejor. Están descritos en los manuales y deben volver a calcularse cada vez que la prueba se toma en un lugar diferente al de origen.

Administración de Dos Test

Test / Re-test

Se toma el mismo test al mismo grupo dos veces.
Solo si el grupo es el mismo, no ha pasado nada que pueda afectar su conducta durante el intervalo, y el intervalo es corto. Si es muy largo, los sujetos pueden madurar o cambiar de situación, alterando su rendimiento.
Las correlaciones test / re-test disminuyen conforme aumenta el intervalo.
Puede haber situaciones de aprendizaje de la técnica.
Se calcula el coeficiente de correlación entre los primeros resultados y los segundos.

Formas Paralelas o Equivalentes

Los diseñadores construyen un test paralelo que se administra al mismo grupo: mide de la misma manera, con la misma cantidad de ítems, contenidos parecidos y el mismo nivel de dificultad.
Se calcula el coeficiente de correlación.
Poco usado, ya que es muy difícil crear un test paralelo.

Administración Única

División por Mitades

Se toma el test entero. Luego se ingresan los datos y se dividen por la mitad. Se calcula el coeficiente de correlación como si fueran dos test paralelos. Permite obtener dos puntuaciones del mismo sujeto en una sola aplicación. Hay diferentes maneras de realizar la división: al azar, por escala, en test de desempeño donde los ítems van de más fácil a más difícil se puede dividir entre pares e impares. Cuanto más largo es un test, mayor confiabilidad tiene. En test cortos, se aceptan coeficientes de correlación bajos.

Consistencia Interna o Covarianza entre Ítems

Se refiere a la correlación entre un ítem y el resto de los ítems. Se calcula un promedio de todos los coeficientes. Este análisis se realiza cuando no se puede hacer la «División por mitades», por ejemplo, en test muy cortos o cuando las mitades no serían equivalentes.

Confiabilidad del Puntuador

Es una manera de estandarizar los procedimientos. Se refiere a que dos puntuadores diferentes lleguen al mismo resultado.

Errores

Errores Sistemáticos (Sesgo)

Relacionado a la validez.
Error del diseño de la prueba, no de un sujeto particular.
Impide la medición precisa.
Influencias en la aplicación de la prueba (cuidar los detalles).
Hace que el test funcione de diferentes maneras en diferentes grupos, la probabilidad de éxito no es independiente del subgrupo de población.
Ejemplo: En test clásicos de inteligencia, niños de bajos recursos pueden obtener resultados de retraso mental por no estar familiarizados con los contenidos de la prueba.
Relacionado a las diferencias culturales y las adaptaciones de las pruebas. Las adaptaciones deben ser equivalentes a nivel:
- Conceptual: El constructo tiene el mismo significado en ambas culturas (investigaciones empíricas).
- Lingüística: Todos los elementos (consignas, ítems, respuestas) tienen el mismo significado en ambas culturas (juicio experto y administración piloto).
- Métrico: Las calificaciones obtenidas son válidas, confiables y equivalentes a la medición del constructo en ambas culturas (recalcular baremos).
La validez del concepto o instrumento está limitada por su grado de universalidad. Considerar:
- Ético: Constructos con características universales.
- Emico: Constructos específicos de un grupo cultural.

A nivel conceptual, la distinción entre lo émico y lo ético implica que, al usar un constructo, debemos asegurarnos de que tenga el mismo significado en la nueva cultura.

Errores Aleatorios (Error de Medición)

Relacionado a la confiabilidad.
Aleatorio, no de construcción del test. Siempre presentes, pero no negativos.
Impide medir la puntuación verdadera, la puntuación se infiere.
Fuentes posibles:
- Examinado: cansancio, mal humor.
- Examinador: Sus actitudes pueden modificar el rendimiento del sujeto.
- Ambiente: Presencia o ausencia de molestias.
Cuidar las condiciones de la toma del test, el rapport y los tiempos reduce el error de medición.
El error se puede estimar y se informa en los manuales.
Puntuación Verdadera = Puntuación Obtenida +/- Error
Ejemplo: En un test de inteligencia con error +/- 5, una puntuación de 100 se estima entre 95 y 105.