Medición en Psicología: Teoría y Aplicaciones

Introducción

Se analiza la problemática implicada en la medición de las variables psicológicas y se comentan las soluciones aportadas por los diferentes enfoques psicométricos. Se subraya cómo las dificultades mayores para medir lo psicológico surgen de esa naturaleza especial que tiene lo psicológico: una banda interactiva acotada por una base neurobiológica y un entorno sociocultural.

Se presentan tres enfoques principales en la medición psicológica:

Medición rigurosa: cuyos orígenes pueden rastrearse en los trabajos psicofísicos iniciados por Weber y Fechner y que se continúan con el escalamiento psicológico, a partir de los trabajos pioneros de Thurstone.
Teoría de los tests: cuyos inicios más rigurosos se ubican en el modelo lineal clásico propuesto por Spearman.
Teoría de la medición: los teóricos de la medición investigan los fundamentos de ésta, destacando dos líneas de avance: la aproximación clásica, iniciada por Stevens, y el enfoque representacional, surgido a partir de los años sesenta.

Además, se destaca el gran avance que ha supuesto para la psicometría la aparición de la Teoría de Respuesta a los Ítems, enfoque que viene a dar solución a determinados problemas de la medición que no encontraban una solución apropiada dentro del marco clásico. La teoría de respuesta a los ítems ha generado nuevos avances tecnológicos para el análisis y construcción de los tests, entre los que cabe destacar los Tests Adaptativos Computerizados y la Función de Información.

El objetivo de la Psicología científica es el estudio de la conducta humana y las leyes que la rigen. El fin general de toda teoría de la medición, trátese de la ciencia que se trate, es estimar los errores aleatorios de las mediciones, pues toda medición, mayor o menor, conlleva un cierto error. A veces la tecnología de la medición psicológica se aleja de la metodología general de la medición utilizada por las ciencias llamadas duras.

Caracterización de lo psicológico

Naturaleza interactiva de lo psicológico

El yo psicológico, la individualidad, la consciencia, y por ende la conducta, surgen de la interacción entre la estimulación ambiental y nuestra constitución biológica. Cuando desde la psicología se explica un determinado fenómeno, ya sea una neurosis, una fobia, el fracaso escolar o la inadaptación laboral, se tienen en cuenta tanto los aspectos neurológicos como los culturales, sociales y educativos, pero su explicación no se agota ni se reduce a ninguno de esos ámbitos.

El ambiente externo está ahí, y es una variable clave en la modulación de la conducta humana, pero nunca es el responsable final de ésta, nunca la determina completamente, el único responsable es la persona.

Medición en diversos campos

Sin embargo, los psicólogos miden sus variables y desarrollan sofisticados instrumentos a tal efecto, los más conocidos de los cuales para el público son los tests, si bien los especialistas utilizan una gama mucho más amplia en sus investigaciones e intervenciones. Y miden en campos muy diversos, según su área de especialización, que van desde los procesos más básicos, tales como los Tiempos de Reacción, Potenciales Evocados (Paz y Muñiz, 1989), Tiempo de Inspección, Conductancia de la piel, etc., a los rasgos de personalidad, como Neuroticismo, Depresión, Psicoticismo, Autoconcepto, por citar algunos, o aspectos cognoscitivos, como la Inteligencia, Memoria, Rapidez Perceptiva, Comprensión Verbal, etc., o variables más conectadas con la esfera sociocultural como las actitudes y valores. Todo ello aplicado a campos de intervención tan variados como la Clínica, Trabajo, Educación, Deporte, Calidad de Vida, Gerontología, Seguridad Vial.

Fiabilidad y validez

Es fundamental que las mediciones sean fiables y válidas. Además de estas propiedades que deben de reunir todas las mediciones empíricas, los teóricos de la medición se ocupan de analizar y justificar de forma rigurosa el estatus métrico de las mediciones (la teoría de la medición). Se abordarán aspectos generales de la medición, fiabilidad, validez y fundamentos teóricos.

Inicios de la medición

Psicofísica

Los primeros intentos de medir con rigor los atributos psíquicos tuvieron lugar a finales del siglo pasado en los laboratorios alemanes por Fechner (Fechner, 1860/1966), pionero de las investigaciones sobre las relaciones entre la estimulación física y las sensaciones psicológicas producidas por ésta. Para estudiar la conexión entre ambos continuos, el físico y el psicológico, Fechner tenía que medir cada uno de ellos y luego establecer la relación correspondiente.

Si bien medir los estímulos físicos, tales como el peso, el sonido, la longitud, etc., no suponía ningún problema, se encontró con que no disponía de métodos para medir rigurosamente las sensaciones, para lo cual desarrolló todo un conjunto de ellos, hoy clásicos, denominados métodos psicofísicos indirectos.

Basándose en los trabajos previos de Weber, Fechner estableció que la función que unía la estimulación física con las sensaciones psicológicas suscitadas obedece a una función logarítmica. Ello quiere decir que al aumentar la estimulación física geométricamente las sensaciones lo hacen aritméticamente. Este campo de estudio iniciado por Weber y Fechner se denomina Psicofísica, pues, como su nombre indica, trata de poner en conexión las sensaciones psicológicas con la estimulación física que las suscita.

La ley de Fechner ha sido revisada por la Nueva Psicofísica (Stevens, 1961, 1975), que defiende que la función que une ambos continuos, el físico y el psicológico, no es logarítmica sino potencial. Para someter a prueba su hipótesis han propuesto todo un conjunto de nuevos métodos psicofísicos alternativos a los de Fechner, denominados directos.

En la actualidad gran parte de las investigaciones psicofísicas se llevan a cabo dentro del marco general de la Teoría de la Decisión y de la Teoría de la Detección de Señales (Egan, 1975; Green y Swets, 1966; Swets, 1996), un modelo desarrollado originariamente por los ingenieros para la detección de señales con ruido de fondo, y que se ajusta bien a los humanos considerados como perceptores de señales.

El sistema perceptivo humano es muy peculiar, y la Teoría de la Detección de Señales permite estudiar su funcionamiento bajo diferentes condiciones. El nuestro no es un sistema perceptivo “neutral”, pues aunque con determinados invariantes, viene influido en gran medida por las consecuencias de lo percibido, por la “matriz de pagos” asociada a la situación perceptiva, es decir, el mismo sistema perceptivo actúa de distinta forma en función de la situación perceptiva.

Medición de actitudes

Otro campo de la medición psicológica en la que desembocan estos estudios psicofísicos es la medición de las actitudes, en cuyo caso desaparece el continuo físico (Thurstone, 1927, 1928; Summers, 1970; Triandis, 1971). Medir actitudes es averiguar las preferencias de las personas hacia determinados estímulos, bien sean objetos, ideas o conceptos. Las actitudes están formadas por información, razón y emoción, que se entretejen de forma compleja. La razón y la información son importantes para que se produzca un cambio de actitudes, pero raramente son suficientes sin apelar a los aspectos emocionales.

Esta es a grandes rasgos una de las vías por las que ha entrado la medición en psicología, y cuyo objetivo es el escalamiento de los estímulos, bien sea con referente físico (Psicofísica), o sin él (Actitudes).

Escalamiento de sujetos: los tests

La otra gran línea de progreso de la medición, más conocida para el público, es el escalamiento de los sujetos, es decir, los tests. El origen de éstos hay que ubicarlo en las primeras pruebas sensomotoras utilizadas por Galton (1822-1911) en su famoso laboratorio antropométrico de Kensington.

El primero en utilizar la palabra “test mental” será James McKeen Cattell (1860-1944) en su artículo “Mental Tests and Measurements” publicado en la revista Mind en 1890.

Un giro radical lo constituye la escala individual construida por Binet y Simon (1905) para la medición de la inteligencia, al introducir tareas de carácter más cognoscitivo dirigidas a evaluar aspectos como el juicio, la comprensión y el razonamiento, que según los autores constituían los componentes fundamentales del comportamiento inteligente.

La verdadera eclosión de los tests se producirá tras la Primera Guerra Mundial, cuando Estados Unidos decide entrar en la guerra y no dispone de ejército. La selección y clasificación de los soldados se lleva a cabo confiando en los tests Alfa y Beta, diseñados a tal efecto por un comité dirigido por el psicólogo Yerkes.

Desde entonces, los tests se han utilizado con diversos fines, especialmente en la selección de personal y en la orientación profesional y educativa. Las dos grandes avenidas de entrada de la medición en Psicología fueron a través del escalamiento de estímulos (Psicofísica y Actitudes) y escalamiento de sujetos (Tests).

Propiedades de las mediciones

¿Qué condición deben cumplir las mediciones para que su uso sea el adecuado? Básicamente tres propiedades: que sean fiables, que sean válidas, y que estén bien fundamentadas teóricamente.

Fiabilidad

En este apartado se agrupan todo un conjunto de métodos y técnicas utilizadas por los psicólogos para estimar el grado de precisión con el que están midiendo sus variables.

Estimación del error

Robert L. Thorndike empezaba su famoso trabajo sobre fiabilidad con estas palabras: “Cuando medimos algo, bien sea en el campo de la física, de la biología o de las ciencias sociales, esa medición contiene una cierta cantidad de error aleatorio. La cantidad de error puede ser grande o pequeña, pero está siempre presente en cierto grado”. Sus palabras siguen siendo tan ciertas hoy como entonces, pues en lo esencial los problemas de la medición cambian poco, aunque los instrumentos de medida vayan y vengan.

¿Cómo estiman los psicólogos el grado de error que hay en sus mediciones? Un psicólogo aplica un test, una escala o cualquier otro instrumento de medida a una persona, obtiene una cierta puntuación, que por razones obvias se denomina puntuación empírica. ¿Cuánto error afecta a esa puntuación empírica?

Responder estas preguntas es el objetivo de la fiabilidad. Parecería que tales interrogantes son incontestables, pues, al fin y al cabo, el error cometido, sea el que sea, está diluido en la puntuación empírica y no hay manera de separarlo. Efectivamente, no la hay directamente, como ocurre también con los compuestos químicos.

Modelo Lineal Clásico

Para las variables psicológicas, la propuesta pionera y más fructífera para la estimación de los errores fue hecha ya a principios de siglo por Spearman (1904, 1907, 1913) y la denominamos hoy Modelo Lineal Clásico, dando origen a todo un enfoque general sobre los tests que suele conocerse como Teoría Clásica de los Tests. A partir sobre todo de los años 60-70 aparecen nuevos modelos para abordar la estimación de los errores de medida, agrupándose los más utilizados bajo la denominación genérica de Teoría de Respuesta a los Ítems.

Formulación del Modelo Clásico

La propuesta de Spearman para estimar los errores cometidos al medir es un claro ejemplo de cómo a partir de un sencillo modelo y de unas asunciones básicas es posible deducir las fórmulas más complejas para la estimación de los errores de medida.

En primer lugar, Spearman considera que la puntuación empírica de un sujeto en una prueba, puntuación que llamaremos X, consta de dos componentes, la puntuación que verdaderamente le corresponde en esa prueba, que llamaremos V, y un cierto error e. Es decir, formalmente el modelo se podría expresar así: X = V + e (1) Donde X es la puntuación empírica obtenida, V la puntuación verdadera y e el error de medida.

Para poder derivar las fórmulas necesarias para el cálculo de la fiabilidad, Spearman añade al modelo tres supuestos y una definición. 1) La verdadera puntuación de una persona en una prueba sería la que obtendría como promedio si se le aplicase infinitas veces la prueba [V = E(X)], 2) No hay relación entre la verdadera puntuación de las personas y los errores de medida (ρ_ve = 0), y 3) Los errores de medida de los tests no están relacionados [ρ(e_j,e_k) = 0].

Además, define el concepto de tests paralelos como aquéllos que miden lo mismo aunque utilizando distintos ítems. Todo lo cual puede expresarse del siguiente modo:

Modelo Lineal Clásico

Modelo: X = V + e

Supuestos: V = E(X)

ρ_ve = 0

ρ(e_j,e_k) = 0

Definición: Dos tests j,k se consideran paralelos si: V_j = V_k y σ²_ej = σ²_ek

A partir del modelo, mediante los desarrollos correspondientes, que aquí se omiten, va a ser posible llegar a fórmulas operativas para la estimación de los errores (e), y por ende de las puntuaciones verdaderas (V) de los sujetos. Todas estas deducciones necesarias son lo que conforma el corpus psicométrico de la teoría clásica de los tests, cuya formulación se recoge en textos tan clásicos como los de Gulliksen (1950). Mediante los desarrollos correspondientes se obtiene la fórmula del Coeficiente de Fiabilidad (ρ_xx’) que permite estimar la cuantía de los errores cometidos al medir.

Su fórmula expresa la cantidad de varianza de verdadera medida (σ²_v) que hay en la empírica (σ²_x), o en términos de la Teoría de la Información, la proporción señal-ruido del proceso de medición: ρ_xx’ = σ²_v/σ²_x (2)

Lo ideal es que toda la varianza empírica se deba a la verdadera, lo cual ocurriría cuando σ²_v = σ²_x, en cuyo caso la fiabilidad es perfecta, la prueba mide sin ningún error.

Cálculo del coeficiente de fiabilidad

El cálculo empírico del valor del coeficiente de fiabilidad no se puede llevar a cabo mediante la fórmula (2), que es meramente conceptual; la estimación empírica puede obtenerse utilizando varias estrategias, entre las que destacan: a) la correlación entre dos formas paralelas del test, b) la correlación entre dos mitades aleatorias del test corregida mediante la fórmula de Spearman-Brown, y c) la correlación entre dos aplicaciones del mismo test a una muestra de personas.

En todos los casos el valor obtenido es un valor numérico entre 0 y 1, indicando a medida que se acerca a 1 que el test está midiendo con precisión. Dado que la fórmula (2) es conceptual, no operativa, en literatura abundan las fórmulas clásicas para la obtención del valor empírico del coeficiente de fiabilidad, entre las que cabría destacar las de Rulon (1939), Guttman (1945), Flanagan (1937), KR20 y KR21 (Kuder y Richardson, 1937), o el popular Coeficiente Alfa (Cronbach, 1951), que expresa la fiabilidad del test en función de su consistencia interna.

Error Típico de Medida

Una forma alternativa pero equivalente de expresar la fiabilidad de los tests es mediante el Error Típico de Medida, o fiabilidad absoluta. Se utilice el índice que se utilice, y en cada caso hay razones técnicas para utilizar uno u otro, lo importante es que toda medición lleva asociado un grado de precisión que es empíricamente calculable.

Fuentes de error

¿Cuáles son las fuentes del error más habituales en la medición psicológica? Es este un asunto exhaustivamente estudiado por los especialistas, que han llegado a clasificar con todo detalle las posibles fuentes de error (Cronbach, 1947; Schmidt y Hunter, 1996; Stanley, 1971; Thorndike, 1951), si bien simplificando bastante puede decirse que:

Son tres las grandes avenidas por las que penetra el error aleatorio en la medición psicológica:

La propia persona evaluada: que viene con determinado estado de ánimo, actitudes y temores ante el test, ansiedad, o cualquier tipo de evento previo a su evaluación, todo lo cual puede influir en la cuantía de los errores.
El instrumento de medida utilizado: que con sus características específicas puede influir diferencialmente en los evaluados.
La aplicación, corrección e interpretación hecha por los profesionales.

Si todo se hace con rigor se minimizarán los errores en todo el proceso, y es precisamente de lo que nos informa la fiabilidad de la prueba, de los errores cometidos.

Estimación de la puntuación verdadera

Una vez conocida la cuantía de estos errores, a partir de la puntuación empírica resulta sencillo estimar a cierto nivel de confianza elegido la puntuación verdadera de las personas en una prueba. Si la fiabilidad de una prueba es perfecta (ρ_xx’ = 1), las puntuaciones empíricas y las verdaderas de las personas en dicha prueba coincidirán, pero si no es perfecta las puntuaciones verdaderas de las personas en el test se estiman mediante un intervalo confidencial en torno a la puntuación empírica.

Si se toman decisiones importantes basadas en las puntuaciones de las personas en los tests hay que asegurarse de que éstos tienen una fiabilidad elevada.

Limitaciones del Modelo Clásico

El modelo lineal clásico informa de la cuantía de los errores, pero no de la fuente originaria de éstos. Otros muchos modelos se han ocupado de desglosar el error y ofrecer así no sólo la fiabilidad, sino también el origen de los errores (Bock y Wood, 1971; Novick, 1966; Sutcliffe, 1965), pero su complejidad técnico-formal y las complicaciones operativas introducidas, en relación con las ventajas ofrecidas, ha hecho que ninguno haya cuajado en la práctica.

Teoría de la Generalizabilidad

Mención especial al respecto merece la Teoría de la Generalizabilidad propuesta por Cronbach y colaboradores (Cronbach, Rajaratnam, Glesser, 1963; Glesser, Cronbach y Rajaratnam, 1965). Mediante el uso de complejos diseños de Análisis de Varianza, este modelo permite hacer estimaciones sobre el tamaño de distintas fuentes de error previamente contempladas en el proceso de medición. El programa de ordenador GENOVA (Crick y Brennan, 1982) ha sido especialmente diseñado para llevar a cabo los cálculos implicados en el modelo.

Teoría de Respuesta a los Ítems

Limitaciones de la Teoría Clásica

La Teoría Clásica, a pesar de sus virtudes, presentaba ciertas limitaciones. Las dos más importantes se refieren a:

La ausencia de invarianza de las mediciones respecto del instrumento utilizado: es decir, bajo el modelo clásico cuando se utilizan tests distintos para evaluar la misma variable no se obtienen directamente resultados en la misma escala, por lo que hay que proceder a equiparar las puntuaciones obtenidas.
La dependencia que las propiedades del instrumento utilizado tienen de las propias personas evaluadas: lo cual no es deseable dentro de un marco riguroso de medición.

Aparte de estas dos limitaciones de fondo, en lo que concierne al cálculo de la fiabilidad de los tests, el problema que no encontraba una respuesta adecuada dentro del marco clásico era el de la dependencia entre la cantidad de error y el nivel de las personas en la variable medida. (Dentro del marco clásico se estima el coeficiente de fiabilidad de una determinada prueba y se asume que es el mismo para todas las personas a las que se aplica la prueba; sin embargo, se ha ido acumulando suficiente evidencia empírica a lo largo de los años que demuestra que el mismo test no mide con la misma precisión a todas las personas, que su precisión está en función del nivel de la persona en la variable medida.) Sin salirse del marco clásico la solución más lógica a este problema es calcular diferentes coeficientes de fiabilidad para una prueba en función de los distintos niveles de puntuaciones de las personas evaluadas, lo cual es práctica habitual (Feldt y Qualls, 1996; Lord, 1984; Qualls, 1992; Thorndike, 1951). Si bien es esta una salida enjundiosa al problema, la solución radical y novedosa va a venir de la mano de un nuevo enfoque psicométrico que domina la escena actual de la medición psicológica y educativa denominado Teoría de Respuesta a los Ítems (TRI).

Función de Información

Bajo la óptica de la TRI la fiabilidad de una prueba pasa a denominarse Función de Información, y es una función matemática continua a lo largo de la escala de las puntuaciones de la prueba (una vez formulados los modelos de TRI). Es decir, el test ya no tiene un coeficiente de fiabilidad determinado, éste depende, está en función, del nivel de la persona en la variable medida.

La fiabilidad se expresa mediante una función (Función de Información) que toma distintos valores según el nivel de la persona en el test. De modo que el mismo test es más fiable para unas personas que para otras, lo cual no es difícil de entender.

Tests Adaptativos Computerizados

La tecnología evaluativa basada en la teoría de respuesta a los ítems nos ha liberado de la necesidad de tener que utilizar el mismo test con todas las personas para poder compararlas.

Ya no es necesario utilizar el mismo test para evaluar a todas las personas, se elige aquél que mida con mayor precisión a cada cual, es lo que se ha dado en llamar Tests Adaptativos Computerizados (Olea y Ponsoda, 1996; Renom, 1993; Wainer, 1990), ampliamente utilizados en otros países y en fase embrionaria en el nuestro, aunque algunas compañías multinacionales ya los utilizan en España para certificaciones profesionales.

La estrategia consiste en buscar aquella prueba cuya dificultad mejor se ajuste al examinado. Para ello se van presentando uno a uno los ítems extraídos de un Banco de ítems y en función de las respuestas, según sean aciertos o errores, se va aumentando o disminuyendo la dificultad de los ítems subsiguientes. De este modo se evita presentar los ítems muy difíciles a las personas con un nivel bajo y los muy fáciles a las de nivel elevado, con el consiguiente ahorro de tiempo y mejora de la motivación y fiabilidad de la prueba.

Conceptos básicos de la TRI

Curva Característica del Ítem

Conviene señalar de entrada que los nuevos modelos de TRI no reemplazan al enfoque clásico, sino que más bien constituyen un excelente complemento, permitiendo resolver problemas que no encontraban solución adecuada en el marco clásico, e impulsando otros campos completamente novedosos de la medición psicológica y educativa.

Si la piedra angular del enfoque clásico era asumir que la puntuación empírica venía dada por la verdadera más un error aleatorio (X = V + e), la TRI va a hacer una asunción ciertamente más restrictiva, a saber, que existe una relación matemática o función que conecta la competencia de los sujetos con la probabilidad de que éstos respondan correctamente a los ítems. En otras palabras, que dada la competencia de una persona en la variable medida, conocemos la probabilidad que tiene de acertar el ítem.

A la función matemática asumida que une los niveles de competencia de los sujetos con las probabilidades de que acierten un ítem es a lo que se denomina Curva Característica del Ítem (CCI), dado que ciertamente califica, caracteriza al ítem. Cada ítem tendrá la suya propia, su carnet de identidad. Las CCI más habituales adoptan la forma de “S”.

Esto quiere decir que mediante la CCI sabemos la probabilidad de que las personas con un determinado valor de θ superen el ítem. La forma exacta de la CCI va a quedar especificada una vez que se elija una función matemática genérica, por ejemplo la curva Normal acumulada, o la Función Logística, entre otras, y se determinen los parámetros correspondientes que la singularizan.

Modelos de TRI

Según el tipo de curva que se adopte y el número de parámetros que se contemplen se tendrán los distintos tipos de modelos de TRI. Aunque las posibilidades son casi ilimitadas, a modo de ilustración se presentan a continuación los tres más utilizados en la práctica, que adoptan la Función Logística como Curva Característica: Modelos Logísticos de 1, 2 y 3 parámetros.

P_i(θ) = e^D(θ-b_i)/[1 + e^D(θ-b_i)] (3)

P_i(θ) = e^Da_i(θ-b_i)/[1 + e^Da_i(θ-b_i)] (4)

P_i(θ) = c_i + (1 – c_i)[e^Da_i(θ-b_i)]/[1 + e^Da_i(θ-b_i)] (5)

donde:

θ: representa los valores de la variable medida
P_i(θ): probabilidad de acertar el ítem para un determinado valor de θ
a_i: índice de discriminación del ítem
b_i: índice de dificultad del ítem
c_i: probabilidad de aciertos al azar
e: base de los logaritmos neperianos (2.7182)
D: constante (cuando D = 1,7 los valores se acercan a los generados por la distribución Normal)

La estimación de los parámetros de los modelos se lleva a cabo mediante diversos programas de ordenador existentes a tal efecto (BICAL, BILOG, LOGIST, MULTILOG, RASCAL, ASCAL, etc.), la mayoría de los cuales utilizan procedimientos de máxima verosimilitud o bayesianos. Aparte de los tres modelos incluidos aquí por ser de los primeros formulados y muy utilizados en la práctica, las líneas de investigación más activas trabajan actualmente con modelos bastante más complejos.

Función de Información del test

Una vez estimados los parámetros del modelo puede calcularse la Función de Información del test, que indica la precisión con la que éste mide a lo largo de la escala de la variable medida:

I(θ) = Σⁿ_i=1[P’_i(θ)]²/[P_i(θ)Q_i(θ)]

donde:

n: número de ítems del test
P_i(θ): valores de las CCI de los ítems
Q_i(θ): 1 – P_i(θ)
P’_i(θ): Derivada de P_i(θ)

En suma, bajo el enfoque de la teoría de respuesta a los ítems los errores cometidos al medir se estiman mediante la Función de Información, que permite especificar la precisión de las mediciones en función del nivel de las personas en la variable medida. Esto supone un avance importante respecto del coeficiente de fiabilidad clásico y abre todo un abanico nuevo de posibilidades en el campo de la medición psicológica y educativa.

Validez

Concepto de validez

Determinar la cantidad de error de los instrumentos de medida es básico para cualquier ciencia. La validez es un concepto clave de la medición en las ciencias sociales. Que las mediciones sean fiables es una condición necesaria, pero no suficiente para que sean válidas. Se puede estar midiendo con gran precisión algo que no tiene ninguna capacidad explicativa o predictiva. No en vano los grandes debates acerca de la utilidad de los tests, las escalas y otras mediciones psicológicas y educativas se centran generalmente en torno al problema de su validez.

Para probar la validez de las inferencias hechas a partir de las pruebas, como ocurre para someter a prueba cualquier otra hipótesis científica, hay que recoger evidencia empírica que corrobore o refute las inferencias. Como señala Messick (1989), la validación de un test abarca todas las cuestiones experimentales, estadísticas y filosóficas por medio de las cuales se evalúan las hipótesis y teorías científicas. En realidad lo que se valida no es la prueba en sí, sino las inferencias hechas a partir de ella. La forma estándar de validar las inferencias es derivar predicciones y contrastarlas con los datos. Con sus luces y sus sombras, el método hipotético deductivo experimental sigue siendo el canon para la validación.

Procedimientos para recabar evidencia empírica

Dentro de ese marco general hay tres procedimientos clásicos y muy utilizados para recabar información empírica probatoria de la validez:

Validez de Contenido
Validez Predictiva
Validez de Constructo

Validez de Contenido

La validez de contenido tiene un carácter básico, y va encaminada a comprobar que la prueba recoge una muestra representativa de los contenidos correspondientes al campo evaluado (por ejemplo, en educación).

Validez Predictiva

La Validez Predictiva se centra en la comprobación de que las pruebas predicen aquello para lo que fueron diseñadas. Es especialmente relevante en el ámbito de la selección de personal, orientación, o situaciones de carácter clínico, por citar algunos. La capacidad predictiva de una prueba suele expresarse mediante su Coeficiente de Validez (ρ_xy), que es la correlación entre las puntuaciones en la prueba (x) y la ejecución en el criterio que se pretende predecir (y). A medida que el valor del coeficiente de validez se acerca a 1 mayor es la capacidad predictiva de la prueba.

Cuando se utilizan varias pruebas para predecir un criterio se utiliza como coeficiente de validez la correlación múltiple de las pruebas con el criterio (R_yy’).

Validez de Constructo

La Validez de Constructo, propuesta originariamente por Cronbach y Meehl (1955), trata de asegurar que las variables o constructos medidos, además de capacidad predictiva, tienen entidad y rigor, y se encuentran insertas dentro de un marco teórico coherente.

Las formas de recoger evidencia empírica para comprobarlo son en general las utilizadas para comprobar cualquier teoría científica, si bien se han hecho habituales las recogidas de datos a través de una matriz multirrasgo multimétodo (Campbell y Fiske, 1959), o mediante diferentes técnicas de análisis multivariado, entre las que destaca el Análisis Factorial, tanto exploratorio como confirmatorio. En el primer caso suele hablarse de validez convergente-discriminante y en el segundo de validez factorial.

En definitiva, para poder asegurar que una prueba psicológica, educativa o sociológica es válida hay que aportar diferentes tipos de evidencia que lo garantice, no se pueden hacer afirmaciones generales ni definitivas, pues como cualquier otra validación científica, la de los tests es un proceso abierto en el que siempre cabe añadir nueva evidencia empírica que corrobore o refute la pertinencia de las inferencias hechas a partir del test.

El uso de los tests

Un buen ejemplo de este proceso continuo de validación lo constituyen los Tests de Inteligencia. Tras ya casi un siglo de investigación empírica desde que apareciese el primer test propiamente de inteligencia,

propuesto por Binet, *sabemos que las puntuaciones en los tests de inteligencia son bastante estables a lo largo de la vida de las personas, lo cual no quiere decir que no cambien ni sean modificables (Neisser et

al., 1996).* Lo que mejor predicen los tests de inteligencia es el rendimiento escolar, con una correlación en torno a 0.50 entre las puntuaciones en los tests de inteligencia y las notas escolares. Ello significaría que la inteligencia explica sólo un 25% del rendimiento escolar. El otro 75% vendría explicado

por otros factores tales como persistencia,motivación, interés académico, factores culturales, refuerzos recibidos de los padres y maestros, competencia del profesor.

*Curiosamente, se conocen más exhaustivamente las predicciones que se pueden hacer a partir de las mediciones de la inteligencia (validez predictiva) que la propia naturaleza de la inteligencia (validez de constructo), existiendo un intenso debate acerca de los factores responsables de las diferencias individuales en inteligencia, en el cual los tres ingredientes básicos son la herencia, el ambiente

y los procesos psicológicos básicos, tales como tiempos de reacción, potencialesevocados, tiempo de inspección, capacidadatencional, rapidez de acceso a la memoria,

*Debido a que la mayoría de los problemas con los instrumentos de medida psicológicos y educativos provienen en gran parte de su uso inadecuado más que de las propiedades técnicas per se, existe actualmente un debate en curso entre los investigadores y profesionales acerca de la conveniencia o no de incluir las consecuencias del uso de las pruebas dentro del propio marco de la validez .

*El uso adecuado de los instrumentos de medida no sólo implica que las propiedades técnicas (Fiabilidad

y Validez) sean las adecuadas, hay otros aspectos relativos a la propia situación de aplicación que deben de controlarse, tales como la relación examinado-examinador, la ansiedad ante las pruebas (Spielberger y

Vagg, 1995), entrenamiento previo, diferencias culturales, deseabilidad social, etc.

*Se olvida a veces que los tests psicológicos y educativos representan la posibilidad de juzgar a las personas de forma igualitaria, por sus méritos demostrados., no por criterios como la cuna, la tribu, la familia, la apariencia, las cartas de recomendación, o el juicio subjetivo de supervisores y profesores. Ése fue su espíritu originario, y sigue siéndolo, sus problemas potenciales de uso

no deben enmascarar el paso adelante que supone esta filosofía frente a posiciones retrógradas

como las mencionadas, tendentes a mantener el statu quo, independientemente de la valía personal.

Teoría de la Medición

Paralelo a la medición empírica de las variables psicológicas, existe toda una línea de trabajo más teórica encaminada al análisis del estatus teórico de las mediciones psicológicas, que hinca sus raíces en los trabajos originarios del campo de la Física . Será precisamente un comité de expertos dirigidos por Campbell quienes en 1940 (Campbell et al., 1940) emitan un informe en el que dudan que las

mediciones de carácter psicológico y psicofísico reúnan las condiciones exigidas por los axiomas de Hölder (1901). La aproximación de Campbell al problema de la medición era ciertamente restrictiva y tomada al pie de la letra dejaría fuera incluso muchas de las mediciones físicas, por lo cual ya fue criticada por el propio Bertrand Russell (1937). El argumento central de Campbell era que para poder hablar de medición debe de darse un isomorfismo entre la cantidad y las magnitudes de la propiedad a medir; para lo cual había que demostrar que las magnitudes obedecían a los axiomas de

cantidad desarrollados por Hölder (1901).

Aproximación Clásica

Al eliminar la restricción de que los números asignados como medidas tengan que obedecer necesariamente a las leyes de la cantidad, abriendo así la posibilidad a otros tipos de escalas (Fraser, 1980). Stevens define la medición como la asignación de números a objetos según determinadas reglas.

*La flexibilización introducida al permitirse diferentes reglas de asignación extiende el sistema de Campbell y permite el establecimiento de las hoy clásicas cuatro escalas

de medición:Nominal, Ordinal, Intervalo y Razón, que vienen definidas por cuatro reglas

distintas de asignación de los números a los objetos. Para representar un sistema empírico concreto no habrá por qué utilizar todas las propiedades del sistema numérico.

1_La escala Nominal :sólo tiene en cuenta la propiedad de los números igual/desigual, los números actúan aquí como nombres.
2_Ordinal: además de igualdad/desigualdad, se tiene en cuenta el orden.

3_ La escala de Intervalo: además de las anteriores propiedadesañade la igualdad/desigualdad de las diferencias,no existiendo un cero absoluto de laescala.
4_escala de Razón: existe el cero absoluto de la escala e igualdadde razones.(no hay

ninguna razón para limitar las propiedades a las cuatro mencionadas. )

Enfoque Representacional

En definitiva, a partir del trabajo pionero de Stevens la medición psicológica no sólo sigue avanzando en el campo empírico, sino que recibe un fuerte empujón en lo que a la evaluación de su estatus teórico se refiere. Tanto la aproximación de Stevens como la de Campbell al análisis teórico de la medición

se mueven dentro de un marco clásico, pues, como señala Fraser (1980), si bien Campbell consideraba claves las relaciones empíricas, Stevens subraya las propiedades de la escala. Ambos tratan la relación entrelos sistemas empírico y formal como axiomática, y por tanto debe de estar presente para llevar a cabo la medición.

Medir es construir un modelo de alguna realidad existente en el mundo. Por tanto, como cualquier otra modelización, implica establecer una correspondencia entre el sistema relacional empírico (el mundo)

y un sistema relacional formal (el modelo), de tal modo que se pueda decir que uno representa al otro; si el modelo es numérico entonces la representación se denomina medición (Fraser, 1980). En este contexto los problemas de la medición no son otros que los problemas científicos generales para establecer modelos de la realidad, la medición pasa a ser modelización en la que el sistema relacional formal son los números.

*Por tanto el problema central a resolver será el de la Representación, es decir, asegurarse que el modelo representa adecuadamente la realidad. Medir es modelizar. Si bien este enfoque es actualmente dominate entre los teóricos y filósofos de la ciencia, su influencia en la psicología aplicada es escasa, pues como señala Schwager (1991) en una crítica reciente, este elegante enfoque trata de garantizar la representabilidad formal, que es importante, pero no ha aportado hasta la fecha gran cosa a la teoría psicológica y menos aún a la práctica profesional aplicada. Una buena síntesis de los problemas de carácter aplicado aún pendientes de una solución idónea fue expuesta recientemente por Wainer (1993), para una excelente revisión y análisis de los problemas de la medición en psicología puede consultarse el trabajo de Michell (1997).