Virgen de Loreto
Este espacio está reservado para los artículos ya publicados
LOS VALORES ESCALARES UN CRITERIO OBJETIVO DE INADECUACIÓN
En la medida de lo posible, se han probado de forma objetiva este tipo de procedimientos; y se han retenido de forma intencionada algunas aseveraciones de
opinión que eran abiertamente ambiguas o de la misma manera inadecuadas para una escala de actitud. Estas se han probado determinar en qué grado podían
eliminarse por métodos objetivos. Difícilmente se llegaría a elaborar una escala de actitud útil, aplicando mecánicamente reglas de objetividad. Se puede
vaticinar que prevalecerá indefinidamente cierta libertad en lo que concierne a los juicios de los investigadores; pero estos métodos únicamente alcanzarán
éxito en la medida en que los juicios individuales del investigador, sobre material de esta clase, puedan comprobarse de modo objetivo.
El criterio de ambigüedad denota la extensión de una aseveración sobre la escala subjetiva de
intervalos aparentemente iguales. Si 300 sujetos colocan una aseveración de opinión en intervalos muy diferentes de la escala citada, el valor Q de aquélla
será grande y, por consiguiente, según este criterio objetivo, se la considerará ambigua, pues demuestra tener significados en extremo diversos, para los
diferentes sujetos, a lo largo de la escala de actitud. De más está decir que aseveraciones así deben eliminarse. Por simple examen, es posible afirmar en
general si una aseveración tendrá un valor Q grande, Es de observarse que este valor de una opinión no refleja las opiniones efectivas que los sujetos
mantengan sobre el asunto en consideración. Estos únicamente clasifican las aseveraciones conforme a la actitud que encuentren en aquéllas, sin expresar de
modo alguno sus propias actitudes. Por otra parte, el criterio de inadecuación atiende a los registros de los votos
efectivos. La lista completa de 130 afirmaciones se imprimió y luego se expuso a los 300 sujetos, a quienes se pidió marcar las opiniones que aprobaran o con las
cuales estuvieran de acuerdo, y que dejaran en blanco las restantes. Se pasó después a estudiar las respuestas en lo referente a su consistencia interna.
Cuando encontramos gran inconsistencia, la atribuimos al descuido de los sujetos que acaso hacían sus marcas al azar, o a defectos de las propias aseveraciones.
En los experimentos presentados se encuentran cierta cantidad de inconsistencia a lo largo de toda la lista; podemos atribuirla, indudablemente y por lo menos en
parte, a los sujetos mismos. Pero las inconsistencias varían con la aseveración seleccionada como base de comparación de las restantes; y tales diferencias se
deben, principal y evidentemente, a defectos de las aseveraciones mismas. Así se han considerado; y se desarrolla un criterio de inadecuación que puede
usarse ampliamente para eliminar las afirmaciones inadecuadas de la escala. Este criterio se desarrolla como sigue: supongamos que una afirmación de poca
ambigüedad se ubica correctamente en el punto 6 de la escala. Si un sujeto tiene una actitud que también se colocó correctamente en el punto 6 de la escala,
entonces esperamos que marque esa afirmación. Otro sujeto, que se colocó en el punto 12, con menor probabilidad marcaría esa afirmación; de manera similar
habría una probabilidad pequeña de que un sujeto en el punto 0 marcara la aseveración colocada en el 6 de la escala. Para hacer este tipo de análisis
cuantitativo, se ha desarrollado un índice más bien neto de semejanza, que se basa en la votación de un número grande de sujetos. El índice de semejanza de un
par de aseveraciones se basa en tres hechos, a saber, na = total de sujetos que
ratifican la aseveración a en la comparación; nb = número total de sujetos que ratifican la afirmación b en la comparación; nab = número total
de sujetos que ratifican tanto a como b. Si las dos aseveraciones a y b son prácticamente iguales en cuanto a las actitudes que
reflejan, entonces esperamos encontrar que los sujetos que ratifican la afirmación a también ratificarán la b. Por consiguiente, este factor
nab será el numerador del índice de semejanza. Por otra parte, las aseveraciones varían considerablemente en popularidad intrínseca aun cuando sean colocadas en puntos
idénticos de la escala. Cuanto más popular es una aseveración, tanto mayor es el número de personas que la ratifica, pero no así cualquier otra. Para reducir el
índice de semejanza a la misma base de popularidad en todas las aseveraciones, se divide el número de sujetos que ratifican ambas aseveraciones entre el
producto del número total de ratificaciones con respecto a cada una de las dos aseveraciones, de manera que el índice de semejanza es
nab/na• nb Si tabulamos los índices de la
aseveración a con cada uno de las demás en forma sucesiva, tendremos el factor común 1/na que puede descartarse, pues es una constante. Entonces tendremos:
índice de semejanza de la aseveración: a = Ca = nab/nb
Este índice sirve para comparar la aseveración a con cada una de las demás. Es evidente que el valor máximo posible de este índice es la unidad y su valor
mínimo, cero. Cuando todas las personas que ratifican la aseveración a también ratifican la k, el índice de semejanza es la unidad como debería ser porque las
dos aseveraciones son entonces evidentemente muy semejantes en las actitudes que reflejan. Si, por otra parte, ninguno de los que ratifican la aseveración a
ratifica la k, entonces el índice es cero; esto se deduce de que las dos aseveraciones son entonces evidentemente muy diferentes en cuanto a las
actitudes que describen. En la figura 1
tenemos una representación gráfica de los índices de semejanza de la aseveración 96 con cada una de las demás, y en contraste con el valor escalar de cada una de
ellas. El valor escalar de la aseveración 96 se indica por la pequeña flecha sobre la línea superior del diagrama. Su índice de semejanza consigo misma, en
condiciones ideales, sería la unidad. Se observa inmediatamente que los índices de la aseveración 96, con cada una de las demás aseveraciones, son muy bajos
cuando éstas están alejadas de ella. Y esto es precisamente lo que se esperaba. Dicho de otra manera, quienes ratificaron la aseveración 96, que se colocó en
10.5, no ratifican a menudo las aseveraciones que están en los intervalos de clase cuatro o cinco, en el otro extremo de la escala. Los índices son más altos
cuando la segunda aseveración se acerca al valor escalar de la aseveración 96. Cada círculo pequeño en este diagrama representa el índice de semejanza entre la
aseveración 96 y otra, y está colocado inmediatamente por encima del valor escalar de esa segunda aseveración. El
criterio de inadecuación se manifiesta en el diagrama entero. Cuando los índices de semejanza son relativamente altos, cerca del valor escalar de la aseveración
común o primera, y relativamente bajos para las aseveraciones que están lejos de dicha aseveración, la primera aseveración se considera satisfactoria. Esto
significa sencillamente que no es tan probable que las personas que ratifican la aseveración 96 ratifiquen también las aseveraciones que están más alejadas del
valor escalar 96. El aspecto de la figura 1 se considera satisfactorio y por consiguiente se conserva la afirmación 96.
Veamos un análisis semejante de una aseveración que fue
descartada por el criterio de inadecuación. En la figura 2 aparecen los índices de semejanza de la aseveración 23. El valor escalar de esta aseveración también
se indica por una pequeña flecha sobre la línea superior del diagrama. Considérese el pequeño círculo en el extremo izquierdo del diagrama. Es el
índice de semejanza entre la aseveración 23 y la 101, que tiene un valor escalar de .02. El índice es de .56. Los otros círculos se ubicaron de manera semejante
y representan el grado de semejanza entre la aseveración 23 y cada una de las demás. Observese que las personas que ratifican la aseveración 23 ratifiquen tanto las
afirmaciones en cualquier extremo de la escala como las próximas a la afirmación 23. Los puntos se dispersan más o menos horizontalmente en el diagrama. Esto
indica que hay algo fundamentalmente erróneo en la aseveración 23 como índice de una actitud particular en la escala. Dicho de otra manera, si una persona
ratifica esta afirmación no podemos decir nada acerca de su actitud hacia la iglesia, porque es probable que ratifique no solamente las afirmaciones dentro
del intervalo de clase 4-5, sino también las que están en los extremos de la escala, hasta donde puede juzgarse por la propia afirmación 23. La aprobación de
esta aseveración no nos ayuda, sin embargo, a ubicar al sujeto en un punto de la escala. En la
aseveración original se afirmaba lo siguiente: "Estoy interesado en una iglesia que es bella y que destaca el lado estético de la vida". Ahora podemos ver por qué esta afirmación
es inadecuada para la variable de actitud que intentamos medir. Sin duda, el miembro devoto de la iglesia puede ratificar conscientemente esta afirmación,
pues le interesa que la iglesia sea bella. Pero el ateo también puede ratificar la aseveración porque pueden interesarle los edificios bellos,
incluyendo las iglesias, y asimismo interesarle la música religiosa aunque no tome en serio las funciones inherentes a la iglesia. La actitud reflejada por la
afirmación 23 no es válida, por consiguiente, como índice de la variable de actitud que está implícita en la lista de aseveraciones como un todo. El hecho
de que los índices de la figura 2 se dispersen más o menos horizontalmente a través de la escala entera constituye la razón objetiva para descartar la
aseveración 23.
Veamos otras muestras que revelan el criterio de inadecuación en otras aseveraciones. En la figura 3 se han dibujado los índices de semejanza dé
la aseveración 7. Esta aseveración se colocó en el 8.2 de la escala y los índices tienen valores muy bajos en el otro
extremo de la misma. Por consiguiente, esta aseveración se retuvo en la escala final.
La figura 4 presenta un dibujo semejante para la aseveración 113 donde los índices de semejanza tienen valores bajos para las segundas aseveraciones en la
mitad superior de la escala. Todos los índices están por encima de .90 en varios de los primeros intervalos de clase. Por consiguiente, la afirmación se conservó
para la escala final. La figura 5
muestra un dibujo semejante para la afirmación 49. Aquí nuevamente los índices se dispersan más o menos horizontalmente a través de la escala entera y, por
consiguiente, se descartó la afirmación 49. Veamos la aseveración original. Dice lo siguiente: "Yo creo que uno no tiene que pertenecer a la iglesia para
ser religioso". Es muy posible que un miembro devoto de la iglesia ratifique esta afirmación. También es posible que la persona no religiosa la ratifique
como una aseveración de hecho, aunque no tenga interés en la iglesia ni en la religión. Es de esperarse que la proporción de ratificaciones a esta aseveración
sea más alta en el extremo contrario de la escala y aso es lo que encontramos en la figura 5, pero la discriminación no es de ninguna manera suficiente. Los
índices tienen aproximadamente el mismo nivel a lo largo de la escala y, por consiguiente, se descarta la aseveración.
La figura 6 presenta una discriminación satisfactoria para la aseveración 50
porque los índices están por encima de .90 próximos al valor escalar de la aseveración 50, señalado por la pequeña flecha, y descienden a valores
inferiores en el otro extremo de la escala. Por tanto la afirmación se conserva.
La figura 7 es la gráfica de la afirmación 9, la cual se descarta porque los índices de semejanza no presentan suficiente variación en las diferentes partes
de la escala. En efecto, la afirmación dice: "No creo que ir a la iglesia perjudique a nadie". Aquí, podemos suponer otra vez, fácilmente, que el miembro
devoto de la iglesia reconocerá la verdad de esta afirmación. El votante contrario a la iglesia también esté posiblemente dispuesto a reconocer que
asistir a la iglesia no perjudica a nadie. Este último grupo no ratificará con tanta facilidad la aseveración como el primero; pero el examen del diagrama
indica claramente que la discriminación es insatisfactoria. Las personas, a través de toda la escala, ratifican esta aseveración aunque tengan sentimientos
o ideas completamente diferentes para hacerlo. La simple ratificación de esta aseveración no nos ayuda a ubicar al votante en la escala; y es por esto que la
aseveración se considera inadecuada para la escala, la cual está representada por la lista entera de aseveraciones.
Indudablemente sería posible cuantificar el criterio de inadecuación de manera mejor. Sin embargo, es conveniente esperar a que se tenga una formulación más
general. Se han unificado dos criterios objetivos para la selección y ubicación de las aseveraciones de opinión, que
son: el criterio de ambigüedad, ó sea el valor Q, que se basa en el grado de uniformidad en la clasificación de las aseveraciones, y el criterio de
inadecuación, que se basa en la consistencia de la votación o ratificación efectiva. Estas dos partes fueron realizadas en dos
grupos diferentes de sujetos. Una aseveración puede ser clasificada uniformemente por todos los
sujetos y, no obstante, ser declarada inapropiada por el criterio de inadecuación. Esto se explica de la siguiente manera: cuando leemos una
aseveración y después juzgamos la actitud que representaría, podemos concordar completamente y entonces le asignamos un valor Q, bajo, a la aseveración. Cuando
pedimos a los sujetos que ratifiquen ésta, encontramos que algunos que difieren ampliamente en sus actitudes tienen razones muy diferentes para hacerlo. Esto es
particularmente probable cuando la aseveración puede considerarse ya como una expresión de actitud, ya como descripción de un hecho. Por ejemplo, el devoto de
la iglesia probablemente no apoye la aseveración "Ir a la iglesia no perjudica a nadie". Una persona que apoye espontáneamente esa aseveración no es probable que
sea un devoto de la iglesia. La situación es muy diferente cuando la aseveración es elaborada por algún otro y presentada para ratificación como si fuera
verdadera o falsa. En tal situación, el devoto de la iglesia puede reconocer la aseveración como verdadera, aunque naturalmente no expresa con ello sus propias
actitudes. Esta distinción entre lo que decimos espontáneamente al expresar nuestras actitudes y lo que estamos dispuestos a reconocer o ratificar cuando es
expresado por algún otro, probablemente explique el hecho de que el criterio de ambigüedad y el criterio de inadecuación no siempre eliminan las mismas
aseveraciones. De manera ideal, la escala debería construirse quizá solamente por medio de votación. Es posible
plantear el problema de modo que los valores escalares de las aseveraciones puedan extraerse de los registros de votación efectiva. Si esto fuera posible,
el procedimiento presente para establecer los valores escalares por clasificación sería inútil.
CRITERIOS INFORMALES PARA LA SELECCIÓN DE OPINIONES En esta escala de actitud, se han
formulado una lista de criterios informales que se usarán en la construcción de futuras escalas de actitudes. Por medio de estos criterios se encuentra que
muchas de las opiniones de la escala experimental presente son defectuosas, y hay que tenerlas presentes al comenzar la construcción de nuestra propia escala,
que no tenga, hasta donde sea posible, los defectos que vamos a describir. La lista siguiente contiene algunos criterios informales para la selección de opiniones
en la elaboración de una escala de actitud; no está completa y posiblemente se opine que no son defectuosas algunas de las características siguientes.
1. Hasta donde sea posible, las opiniones deben reflejar la actitud presente del sujeto y no sus actitudes pasadas. Expresando las opiniones en tiempo presente
se evita que un sujeto pueda ratificar dos opiniones conflictivas, una referente a su actitud pasada y otra a la actual. El valor escalar del sujeto describiría,
naturalmente, su actitud presente. 2. Se ha encontrado que las aseveraciones de significado doble tienden a ser
ambiguas. El material debe redactarse de tal manera que cada opinión exprese hasta donde sea posible solamente un pensamiento o idea. El sujeto se confunde al leer una aseveración
de doble significado en la que desea ratificar una idea pero no la otra. Ejemplo: "Yo creo en los ideales de la iglesia, pero estoy fastidiado de
sectas". Tal vez esta afirmación fuera más útil si se dividiera en dos opiniones. 3. Uno debe evitar las
afirmaciones que son aplicables evidentemente á un grupo muy restringido de sujetos. Ejemplo: "Yo voy a la iglesia porque me gusta la buena música". "Estoy
en el coro y aprendo música y cantos corales". La primera aseveración puede ser ratificada por un grupo amplio de sujetos, pero la segunda pueden ratificarla
solamente quienes son miembros del coro de una iglesia. Probablemente no vale la pena incluir, en una escala, opiniones que estén limitadas de ese modo por
características relativas a hechos precisos. Lo que deseamos medir es la actitud y para hacerlo debemos evitar una influencia tan marcada en la amplitud
de los posibles ratificadores. La afirmación precedente acaso mejoraría mucho para nuestros propósitos si solamente se mantuviera la primera afirmación, para
incluirla en una escala. 4. Cada opinión elegida para la escala de actitud debería ser, preferentemente, de tipo
tal que no pudieran ratificarla los sujetos de ambos extremos de la tabla. Tales opiniones serían eliminadas por los criterios objetivos; pero cuando este
defecto es conspicuo la afirmación puede descartarse desde el principio. Probablemente siempre habría, además, cierto número de opiniones de la lista que
tengan este defecto y que no sean reconocidas cuando las lee el investigador. Posteriormente, cuando son descartadas por los criterios objetivos, resulta
generalmente fácil saber por qué fueron eliminadas estas aseveraciones. Dicho de otra manera, es más fácil tener una base objetiva para descartar una aseveración
y después, al examinarla, ver por qué se descartó, que descubrir estas aseveraciones defectuosas mediante la lectura de la lista completa de
aseveraciones originales. 5. Hasta donde sea posible, las aseveraciones, no deben contener conceptos relacionados y
confusos. En el material de la escala de actitud presente tenemos varias aseveraciones que mencionan a la "religión verdadera" y a "la religión de
Jesús". Probablemente es difícil interpretar estas aseveraciones, porque además de las afirmaciones acerca de la iglesia contienen conceptos relacionados que
deberían evitarse siempre que sea posible. Ejemplo: "Yo creo que la iglesia permite las diferentes sectas para aparecer más grande que la religión verdadera". Una aseveración de este tipo puede reelaborarse para que solo se
refiera a las diferencias de secta, demasiado recalcadas por las iglesias, según se afirma, sin incluir la incertidumbre de interpretación de la frase "religión
verdadera". 6. Si las demás cosas son iguales, debe evitarse la jerga, respectiva excepto cuando sirva al propósito de
describir una actitud en forma mas breve de la que podría lograrse de otra manera. Por ejemplo, decir que la mayoría de los
sermones son "pura habladuría" puede justificarse si se considera una manera natural de expresar la actitud que se va a representar en la escala.
MEDIDA DE LAS ACTITUDES
UNIDAD DE MEDIDA PARA LAS ACTITUDES La única manera como podemos identificar las actitudes diferentes (los puntos en
la línea base) es utilizando un conjunto de opiniones como marcas, en las diferentes partes o pasos de la escala. La escala final consistirá entonces en
una serie de aseveraciones de opinión; y cada una de ellas estará ubicada en un punto particular en la línea base. Si comenzamos con suficientes aseveraciones
quizá podamos seleccionar una lista de 20 0 30 opiniones escogidas, de manera que representen una serie de actitudes graduadas de manera uniforme. La
separación entre las aseveraciones de opinión sucesivas sería entonces uniforme; pero la escala puede construirse también con una serie de opiniones ubicadas en
la línea base aunque sus separaciones sean desiguales. Sin embargo, con el propósito de dibujar distribuciones de frecuencia, es conveniente que los pasos
entre las aseveraciones escogidas sean uniformes por la amplitud entera de la escala.
Considérense las tres aseveraciones a, c y d en la figura 1. Las aseveraciones c y a se colocan muy juntas para indicar su extrema semejanza, mientras que las
aseveraciones c y d se colocan con gran separación entre sí para apuntar lo diferentes que son. Es de esperarse que dos individuos colocados en los puntos c
y a, respectivamente, concuerden extremadamente al discutir sobre pacifismo y militarismo. Por otra parte, pensamos que es muy fácil expresar la diferencia
que hay entre las opiniones de una persona en d y otra en c. Las separaciones escalares de las opiniones deben concordar con nuestras impresiones de ellas.
Para determinar lo separadas que deben estar las aseveraciones en la escala final, las aplicamos a un grupo de varios cientos de personas, a quienes pedimos
que ordenen las aseveraciones desde la más pacifista hasta la más militarista. No les preguntamos sus propias opiniones. Ese es un asunto por entero diferente.
Lo que nos interesa es la elaboración de una escala con una unidad válida de medida. Puede haber cien aseveraciones en la lista original y se pide a varios
cientos de personas que solamente arreglen las aseveraciones en orden jerárquico conforme a la variable de actitud señalada. Después es posible determinar la
proporción de sujetos que consideran la afirmación a más militarista que la c. Si las dos afirmaciones representan actitudes muy similares, no debemos esperar
un acuerdo perfecto en el orden jerárquico de las afirmaciones a y c. Si son idénticas en actitud, habrá cerca del 50% de sujetos que digan que la
aseveración a es más militarista que la c, mientras que el otro 50% dirá que la aseveración c es más militarista que la a. Es posible usar la proporción de
sujetos o jueces que coincidieron con respecto al orden jerárquico de dos afirmaciones cualesquiera como base de la medición efectiva.
Si el 90% de los jueces o sujetos dicen que la afirmación a es más militarista que la b (pa>b = .90) y si solamente el 60% de los jueces dicen que la
afirmación a es más militarista que la c(pa>c =.60), entonces la separación escalar (a - c) es más corta que la separación escalar
(a-b).La separación entre dos estímulos cualesquiera en la escala psicológica puede medirse con base en una ley del juicio comparativo.
Los métodos pormenorizados de manejo de los datos se publicarán conjuntamente con la construcción de cada escala particular. El resultado práctico de este
procedimiento es una serie de aseveraciones de opinión colocadas a lo largo de la línea base de la figura 1. La interpretación de las distancias de la línea
citada consiste en que la diferencia aparente entre dos opiniones cualesquiera será igual a la diferencia aparente entre otras dos opiniones cualesquiera que
estén igualmente espaciadas en la escala. Dicho de otra manera, el cambio de opinión representado por la distancia de una unidad en la línea base parece ser,
para la mayoría de las personas, igual al cambio de opinión representado por la distancia de una unidad en cualquiera otra parte de la escala. Los dos
individuos que están separados por determinada distancia en la escala parecen diferir en sus actitudes, tanto como otros dos individuos cualesquiera que
tengan la misma separación escalar. En este sentido, tenemos una línea base verdaderamente racional; y los diagramas de frecuencia erigidos en tal línea
base son susceptibles de interpretación legítima como superficies de frecuencia. En contraste con semejante línea base o escala racional está el sencillo
procedimiento de enumerar solamente de diez a veinte opiniones, hacer que unos cuantos jueces las ordenen jerárquicamente, para después contar simplemente el
número de adhesiones a cada aseveración. Esto puede hacerse, desde luego, siempre que no se interprete el diagrama resultante como una distribución de
frecuencia de actitud. Si el diagrama se interpreta de esta manera, puede tomar cualquier forma que queramos con sólo agregar nuevas aseveraciones o eliminar
algunas, arreglando la lista resultante en orden jerárquico aproximado, y uniformemente espaciado en la línea base. Los diagramas de opiniones de Allport
no son en ninguna forma distribuciones de frecuencia. Deben considerarse como diagramas de barras donde se presenta la frecuencia con que fue respaldada cada
una de las aseveraciones. Este método ha mejorado el procedimiento de Allport. Este trata virtualmente con órdenes jerárquicos, en este se pretende transformar
en medida, con una unidad racional de medida. Los estudios pioneros de Allport en este campo deben ser leídos por todos los investigadores de este problema.
La unidad de medida de la escala de actitudes es la desviación estándar de la dispersión proyectada
en la escala psicofísica de actitudes, por una aseveración de opinión, seleccionada como estándar. No importa qué afirmación se escoja como estándar;
las escalas producidas por diferentes aseveraciones estándares tienen valores escalares proporcionales. Esta unidad mental de medida es aproximadamente
semejante, pero no idéntica, a la llamada "diferencia apenas notable" de la medición psicofísica.
Puede elaborarse un diagrama semejante al de la figura 1 por lo menos de dos maneras diferentes.
Puede hacerse que el área de la superficie de frecuencia represente al número total de votos o adhesiones de un grupo de personas, o bien puede representar el
número total de individuos del grupo estudiado. Los diagramas de Allport se harían con el último principio si fueran elaborados sobre una línea base
racional, de modo que pudiera medirse un área legítima. A cada sujeto se le pediría que seleccionara de la lista la aseveración que fuese más representativa
de su propia actitud. En tal caso, por lo menos la suma de las ordenadas sería igual al número de personas del grupo. En este procedimiento se pide a cada
sujeto que ratifique todas las afirmaciones con las que esté de acuerdo. Como se tiene una línea base racional, podemos inferir legítimamente que el área de la
superficie equivale al número total de ratificaciones hechas por el grupo. Este procedimiento tiene la ventaja de que determina la amplitud de opinión que es
aceptable para cada persona, lo cual tiene considerable interés, y no puede determinarse pidiendo al sujeto que ratifique solamente una de las aseveraciones
de la lista. Las ordenadas del diagrama de frecuencia pueden dibujarse como proporciones del grupo total. Por consiguiente, se interpretarán como la
probabilidad de que la aseveración dada sea ratificada por un miembro del grupo. En otras palabras, el diagrama de frecuencia describe la distribución de actitud
del grupo completo; y la ordenada de cada punto de la línea base representa la popularidad relativa de esa actitud.
CONSTRUCCIÓN DE UNA ESCALA DE ACTITUD Se han construido fundamentalmente tres escalas para
medir la opinión por los principios descritos. Estas tres escalas se han diseñado para medir las actitudes en función de tres variables diferentes, a
saber, pacifismo-militarismo, prohibición del alcohol y actitud hacia la iglesia. Dichas escalas se han construido por un procedimiento menos laborioso
que aquel que aplica directamente la ley del juicio comparativo; en caso de obtenerse resultados consistentes, el nuevo método se hará extensivo a otras
escalas. El método es el siguiente. A varios grupos de personas se les pide que escriban sus
opiniones sobre el asunto en cuestión; y se buscan en la bibliografía existente aseveraciones adecuadas y breves que puedan servir a los fines de la escala. Al
editar este material se prepara una lista de 100 a 150 aseveraciones expresivas de actitudes que cubran lo mejor posible todas las graduaciones desde un extremo
a otro de la escala. Algunas veces es necesario conceder atención especial a las aseveraciones neutras. Si una colección al azar de aseveraciones de opinión
fallara en producir reactivos neutros existiría el peligro de que la escala se dividiera en dos partes. La amplitud total de actitudes debe cubrirse en toda su
extensión, por lo que toca al estudio preliminar, a fin de asegurar que los órdenes jerárquicos de los diferentes lectores se traslapen a lo largo de la
escala. En la elaboración de la lista inicial de aseveraciones se aplican varios criterios
prácticos en el primer trabajo de edición. Algunos de los criterios más importantes son los siguientes:
a) Las afirmaciones deben ser lo más cortas posible de manera que no fatiguen a los sujetos a quienes sé pida que lean la lista completa.
b) Las afirmaciones deben ser de tal tipo que puedan ser secundadas o rechazadas conforme a su
concordancia o discrepancia con la actitud del lector. Algunas aseveraciones de una muestra al azar estarán redactadas de manera que el lector no pueda expresar
ratificación o rechazo definido de ellas. c) Cada aseveración debe prever que su aceptación o rechazo indique algo con respecto a la actitud
del lector acerca del asunto en cuestión. Si, por ejemplo, se hace la afirmación de que la guerra es un aliciente para el genio inventivo, su aceptación o
rechazo no dice nada con respecto a las tendencias pacifistas o militaristas del lector; puede éste considerar que la afirmación es un hecho indiscutible y
simplemente la ratifica como un hecho, en cuyo caso tal respuesta no revela nada acerca de la propia actitud sobre el asunto. Sin embargo, solamente los ejemplos
conspicuos de este efecto se eliminarían por análisis, porque se dispone de un criterio objetivo para descubrir tales afirmaciones, a. modo de eliminarlas
automáticamente de la escala. El juicio personal debe reducirse al mínimo posible en este tipo de trabajo.
d) Las afirmaciones de doble significado deben evitarse excepto, quizá, como ejemplos de neutralidad
cuando no parezca fácil obtener mejores afirmaciones neutras. Las afirmaciones de doble significado tienden a ser muy ambiguas.
e) Es necesario asegurarse de que por lo menos una rotunda mayoría de las afirmaciones pertenece
realmente a la variable de actitud que se va a medir. Si se dejara en la serie un pequeño número de afirmaciones impropias ya sea en forma intencional o no
intencional, aquéllas serían eliminadas automáticamente por un criterio objetivo; pero este no tendría éxito a menos que la mayoría de las afirmaciones
formaran parte claramente de la variable estipulada. Cuando la lista original se edita teniendo presentes estos criterios, quedan
quizás de 80 a 100 aseveraciones, con las cuales formar una escala eficaz. Las aseveraciones resultantes se imprimen después en pequeñas tarjetas, a razón de
una por tarjeta. Se pide a 200 o 300 sujetos que arreglen las aseveraciones en 11 grupos que vayan desde las opiniones completamente afirmativas hasta las
completamente negativas. Las instrucciones detalladas se publicarán junto con la descripción de las escalas separadas. La tarea consiste esencialmente en
clasificar las pequeñas tarjetas en 11 grupos de manera que parezcan estar igualmente espaciadas o graduadas. Solamente se rotulan los dos grupos extremos
y el de en medio. Este último se destina a las opiniones neutrales. El lector debe decidir, sobre cada aseveración, cuál de los cinco grados subjetivos de
afirmación o de negación es el implicado en ella, o, en su caso, si se trata de una opinión neutra.
Concluida la clasificación realizada por los 200 o 300 lectores, se prepara un diagrama similar al de la figura 2. Vamos a estudiarlo en una escala de
pacifismo-militarismo a manera de ejemplo. En la línea base de este diagrama están representados los 11 intervalos aparentemente iguales de la variable de
actitud. El intervalo neutral es el comprendido entre 5 y 6; el intervalo más pacifista va de 0 a 1 y el más militarista de 10 a 11. El diagrama es ficticio y
se ha dibujado únicamente para ilustrar el principio que se aplica. La curva A indica la manera como podría ser clasificada una de las aseveraciones por parte
de los 300 lectores. Ninguno la clasificó debajo del valor 3; la mitad de los lectores lo hizo por debajo del valor 6; y la totalidad, por debajo del valor 9.
El valor escalar de la aseveración es el valor por debajo del cual fue colocada justamente por la mitad de los lectores. En otras palabras, el valor escalar
asignado a la aseveración se selecciona de manera que la mitad de los lectores lo consideran más militarista que el valor asignado y la otra mitad menos
militarista que el mismo valor. El cálculo numérico del valor escalar es similar al cálculo del umbral por medio de la hipótesis fi-gama en la medición
psicofísica.
Habrá de notarse que algunas de las aseveraciones en los extremos de la escala no dan curvas ojivales completas; es por esto que la aseveración C está
incompleta en el diagrama. Se comporta como si, para completarse, necesitara espacio más allá de los límites arbitrarios de la escala. Sin embargo, su valor
escalar puede determinarse por aquél donde la curva fi-gama dibujada a través de las proporciones experimentales atraviesa el nivel del 50% que está en c. Pueden
encontrarse otras aseveraciones, tales como D, que tienen valores escalares más allá de la amplitud arbitraria de la escala. También se les pueden asignar
valores escalares, aunque menos exactos por el mismo procedimiento. La situación es diferente en el otro extremo de la escala. La aseveración E
tiene su valor escalar en e, pero, teniendo la escala el límite en el punto 11, la proporción experimental será de 1.00 en ese punto. Si la escala continuara
más allá del punto 11, las proporciones continuarían elevándose gradualmente como lo indica la línea interrumpida. Las proporciones experimentales son todas,
necesariamente, de 1.00 para el valor escalar 11 y, por consiguiente, esas proporciones finales deben ignorarse al ajustar las curvas fi-gama y al
localizar los valores escalares de las aseveraciones. VALIDEZ DE LA ESCALA
a) La escala debe trascender al grupo medido. Antes de aplicarse, este método de medición debe someterse a una prueba experimental decisiva, después de
la cual pueda aceptarse su validez. Un instrumento de medida no debe ser afectado seriamente por el objeto, en su función de medir. En el mismo grado en
que su función de medir resulte afectada o dañada, se limitará su validez. Si una regla de una medida diferente por el mero hecho de que lo que midió fue una
alfombra, un cuadro o un pedazo de papel, entonces, en el grado de tal diferencia, estaría dañada la fidelidad de aquélla en tanto que instrumento de
medida. La función del instrumento de medida debe ser independiente de cada uno de los miembros de la clase de objetos para la que fue diseñada.
Es preciso también que determinemos la amplitud de nuestro método para medir actitudes. La construcción y la aplicación de una escala de actitudes son dos
tareas muy diferentes, cosa que debe tenerse en cuenta. Si la escala ha de ser válida, los valores escalares de las aseveraciones no deben ser afectados por
las opiniones de quienes hayan colaborado en su construcción. Tal condición puede constituir una severa prueba en la práctica; pero el método de elaboración
de escalas debe cumplir con dicho requisito para que merezca aceptarse como algo más que una simple descripción de la propia persona que la haya construido. De
cualquier modo, en la misma proporción en que el método para elaborar la escala se vea afectado por las opiniones de los lectores que hayan contribuido a
clasificar las aseveraciones originales, así podrá cuestionarse la validez o universalidad de la escala. Hasta no estar en poder de la prueba experimental al
respecto, daremos por sentado que los valores escalares de las aseveraciones son independientes de la distribución de actitud, propia de los lectores que las
clasifican. En otras palabras, nuestra suposición consiste en que dos afirmaciones de una escala de prohibición del alcohol serán tan fáciles o tan
difíciles de discriminar, tanto para las personas que ingieran esa bebida como para las que no la ingieran. Dadas, pues, dos aseveraciones contiguas de tal
escala, suponernos que la proporción de bebedores que manifiestan que la aseveración a expresa más simpatía hacia el alcohol que la aseveración b será
esencialmente igual a la proporción correspondiente a las mismas aseveraciones, pero desde el punto de vista de un grupo de abstemios. Expresando aún de otra
manera nuestra suposición, diremos que tan difícil es para un militarista convencido como para un pacifista intransigente decidir cuál de dos
aseveraciones es la más promilitarista. Si declaramos que el 85% de los militaristas señala que la afirmación A es más militarista que la B, entonces,
conforme a nuestro postulado fundamental, la misma proporción de pacifistas emitiría el mismo juicio. Y de ser correcta esta suposición, hallaremos, en
consecuencia, que la escala es un instrumento de medición independiente de la actitud que se pretende evaluar. La
prueba experimental de esta suposición consiste sencillamente en elaborar dos escalas referentes al mismo asunto y con el mismo conjunto de aseveraciones. Una
de dichas escalas se construiría con las respuestas de cientos de lectores simpatizantes del militarismo; y la otra escala, con las mismas aseveraciones,
pero partiendo de las respuestas de otros varios cientos de pacifistas. Si los valores escalares de cada aseveración arrojan, prácticamente, resultados iguales
en ambas escalas, la validez del método quedará así correctamente establecida. Pero todavía será necesario usar discretamente las escalas de opinión, habida
cuenta de que podrían obtenerse, por ejemplo, resultados extraños con la escala de prohibición en un país donde la prohibición del alcohol no sea un problema.
b) Un criterio objetivo de ambigüedad. El análisis de las curvas de la figura 2 revela que algunas de las aseveraciones del diagrama ficticio son más ambiguas
que otras. El grado de ambigüedad de una aseveración se aprecia de inmediato y puede medirse con precisión. La ambigüedad de una aseveración es la desviación estándard de la curva fi-gama de mejor ajuste, a través de las proporciones
observadas. Cuanto mayor es la pendiente de la curva tanto menor es la amplitud de la escala sobre la cual hicieron su labor de clasificación los lectores y más
clara y más precisa es la aseveración. Cuanto más suave es la pendiente de la curva, tanto más ambigua es la aseveración. De ahí que de las dos aseveraciones,
A y B, del diagrama ficticio, la aseveración A sea la más ambigua. En el caso de que se encuentre que la función fi-gama no describe adecuadamente
las curvas de proporciones de la figura 2, el grado de ambigüedad puede medirse sin postular que las proporciones siguen la función fi-gama cuando se dibujan en
la escala de actitud. Un método simple para medir la ambigüedad sería entonces determinar la distancia escalar entre el valor escalar donde la curva de
proporciones tiene una ordenada de .25 y el valor escalar donde la misma curva tiene una ordenada de .75. También puede definirse el valor escalar de la
aseveración misma sin suponer la función fi-gama, tomando el valor escalar donde la curva de proporciones llega a .50. Si no se encuentra proporción real en ese
valor, puede interpolarse el valor escalar de la aseveración entre las proporciones experimentales inmediatamente por encima y por debajo del nivel de
.50. Para hacer una escala de las aseveraciones cuyos valores escalares caen fuera de las diez divisiones de aquella, será necesario hacer algunas
suposiciones con respecto a la naturaleza de la curva y probablemente se encuentre que en la mayoría de las situaciones la función fi-gama constituye una
buena aproximación a la verdad. c) Un criterio objetivo de inadecuación. Antes de que pueda hacerse la selección
de los reactivos para la escala final, todavía debe aplicarse otro criterio: el criterio objetivo de inadecuación. Volviendo a la figura 1, consideremos dos
afirmaciones que tengan valores escalares idénticos en el punto f. Supongamos, además, que estas dos afirmaciones se sometieron al juicio de grupo de lectores
representados en el diagrama ficticio de la misma figura. Es completamente concebible, y sucede realmente, que una de estas afirmaciones sea secundada muy
frecuentemente mientras que la otra solo lo sea rara vez, a pesar de que se hayan colocado adecuadamente en la escala, e impliquen el mismo grado de
pacifismo o militarismo. La conclusión inevitable entonces es que la aprobación que un lector da a estas afirmaciones está determinada sólo parcialmente por el
grado de pacifismo implicado y parcialmente por otros significados también implicados que pueden o no estar relacionados con la variable de actitud
considerada. Es necesario, ahora, desde luego, seleccionar para la escala final de actitud las afirmaciones que son aprobadas o rechazadas fundamentalmente con
base en el grado de pacifismo-militarismo que está implícito en ellas y eliminar aquéllas que son aceptadas o rechazadas frecuentemente según otros significados
inadecuados más o menos sutiles. Se dispone de un criterio objetivo para realizar esta eliminación
automáticamente y sin introducir la ecuación personal del investigador. Fundamentalmente es el siguiente: suponemos que la lista total de alrededor de
100 afirmaciones se ha sometido a varios cientos de lectores para votación efectiva. No necesitan ser los mismos lectores que clasificaron las afirmaciones
con el propósito de formular la escala. Se pide a estos lectores que marquen con un signo de más cada afirmación que ratifiquen y con un signo de menos cada
afirmación que rechacen. Si deseamos investigar el grado de inadecuación de una afirmación particular
que, por ejemplo, podría tener un valor escalar de 4.0, en la figura 3, debemos primero determinar cuántos lectores la aprobaron. Encontramos, por ejemplo, que
fueron 260 lectores. Este total se representa en el diagrama como el 100%, y levantamos tal ordenada en el valor escalar de dicha afirmación. Ahora podemos
determinar la proporción de estos 260 lectores que también ratificaron cada una de las demás afirmaciones. Si los lectores aprobaron y rechazaron las
afirmaciones basándose mayormente en el grado de pacifismo militarismo implicado, entonces los lectores que ratificaron afirmaciones próximas a 4.0, en
la escala, no ratificarán a menudo las afirmaciones que están muy lejos de ese punto de la escala. Siguiendo el ejemplo, muy pocos ratificarían una afirmación
que está ubicada en el punto 8.0 de la escala. Si una gran proporción de los 60 lectores que ratifican la aseveración básica en el 4.0 de la escala, también
ratifica una afirmación en el punto 8.0 de la misma, debemos inferir entonces que su votación en estas dos afirmaciones ha sido influida por factores
diferentes al grado de pacifismo implicado por dichas afirmaciones. Es posible representar gráficamente este tipo de análisis.
En este diagrama, cada una de las demás afirmaciones se representará por un punto. Su valor "x" será el valor escalar de la afirmación y su valor "y" será
la proporción de los 260 lectores que la hayan aprobado. Por tanto, si de los 260 lectores que ratificaron la afirmación básica hubiera 130 que ratificaron la
afirmación número 14, que tiene un valor escalar 5.0, por ejemplo, entonces la afirmación número 14 estará representada por el punto A de la figura 3.
Si la afirmación básica, cuyo grado de inadecuación está representado en la
figura 3, es de carácter ideal, que la gente aceptará o rechazará debido principalmente a la actitud sobre el pacifismo que expresa, debemos esperar
entonces que las 100 afirmaciones se representen por puntos más o menos elevados cerca de la línea interrumpida de la figura 3. Es obvio que el diagrama puede
estar más contraído o más extendido, pero su aspecto general sería el de la figura 3. Si, por otra parte, la afirmación básica tiene implicaciones que
conducen a su aceptación o rechazo, y son aquéllas completamente independientes del grado de pacifismo que expresan, hallaremos que la proporción de
ratificaciones de las aseveraciones no sería una función continua de sus distancias escalares desde la afirmación básica. Así que el centenar de puntos
podría dispersarse ampliamente en el diagrama. Este criterio de inadecuación es objetivo y probablemente pueda expresarse en forma algebraica precisa para
eliminar totalmente la ecuación personal del investigador. Se han desarrollado otros dos criterios objetivos de inadecuación. Se
describirán junto con las escalas de actitudes que se están elaborando. RESUMEN DEL MÉTODO DE ELABORACIÓN DE ESCALAS
Es posible ahora seleccionar las aseveraciones que habrán de incluirse en la escala final. Para una aplicación eficaz, debe seleccionarse una lista corta de
20 0 30 aseveraciones. Hemos descrito ya tres criterios para efectuar la selección mencionada. Estos criterios san:
1. Las aseveraciones de la escala final deben seleccionarse de manera que constituyan al máximo posible una serie graduada y uniforme de valores
escalares. 2. Por medio del criterio objetivo de ambigüedad, se eliminan las afirmaciones que
proyecten demasiada dispersión en el continuo de actitud. La medida objetiva de ambigüedad es la desviación estándar de la curva fi-gama, de mejor ajuste, que
se ilustra en la figura 2. 3. Mediante los criterios objetivos de inadecuación, es posible eliminar, las
afirmaciones cuya aceptación o rechazo provenga principalmente de factores diferentes al grado de la variable de actitud que representan. Uno de estos
criterios se ilustra en la figura 3. Los pasos para elaborar una escala de actitud pueden resumirse de la manera siguiente:
1. La especificación de la variable de actitud que se va a medir. 2. La recolección de una amplia variedad de opiniones acerca de la variable de
actitud especificada. 3 La edición de este material en una lista de alrededor de cien breves aseveraciones de opinión.
4. La clasificación de las aseveraciones en una escala imaginaria que represente a la variable de actitud. Esta tarea deben realizarla cerca de 300 lectores.
5. Cálculo del valor escalar de cada aseveración. 6. Eliminación de algunas aseveraciones con el criterio de ambigüedad.
7.Eliminación de algunas aseveraciones con los criterios de inadecuación.
8. Selección de una lista pequeña de cerca de 20 aseveraciones graduadas uniformemente en la escala.
MEDICIÓN CON UNA ESCALA DE ACTITUD La aplicación práctica de la técnica de medida
presente consiste en mostrar la lista final de alrededor de 25 aseveraciones de opinión al grupo de interés, pidiéndoles a los sujetos que marquen con signos de
más todas las aseveraciones con las que estén de acuerdo y con signos de menos aquéllas con las que discrepen. La calificación de cada persona es el valor
escalar promedio de todas las afirmaciones que ha ratificado. Con el fin de que la escala sea efectiva en los extremos, es aconsejable que se extiendan las
aseveraciones de la escala en ambas direcciones, mucho más allá de las actitudes que se encontrarán como valores medios de los individuos. Una vez determinada la
calificación de cada persona, por la simple suma indicada, puede dibujarse una distribución de frecuencia con respecto a las actitudes de cualquier grupo
especificado. La confiabilidad de la escala puede determinarse preparando dos formas paralelas
del mismo material y presentándolas a los mismos individuos. La correlación entre las dos calificaciones obtenidas por cada persona de un grupo indicará,
entonces, la confiabilidad de la escala. Puesto que la heterogeneidad del grupo afecta al coeficiente de confiabilidad, es necesario especificar la desviación
estándar de las puntuaciones del grupo donde se determinó el coeficiente de confiabilidad. También puede calcularse, por un procedimiento análogo, el error
estándar de una puntuación individual. La unidad de medida de la escala construida por el procedimiento descrito no es
e{ error estándar discriminativo proyectado por una sola aseveración en el continuo psicológico. La unidad de medida puede obtenerse por la aplicación
directa de la ley del juicio comparativo, aunque esto es mucho más laborioso que por el método descrito aquí. La unidad de fa escala presente es más arbitraria,
a saber, un décimo de la amplitud del continuo psicológico que cubre la distancia que hay entre lo que los lectores consideran la ratificación y la
negación absolutas de la lista particular de afirmaciones iniciales. Por supuesto, pueden determinarse los valores escalares junto con la confiabilidad
de partes fraccionarias de esta unidad. Esperamos que pueda demostrarse experimentalmente que esta unidad es proporcional a una unidad de medida más
precisa y universal que el error estándar universal de una sola aseveración de opinión. Es lícito
determinar la tendencia central de la distribución de frecuencia de las actitudes en un grupo. Después pueden compararse varios grupos de individuos con
respecto a las medias de sus distribuciones de frecuencias respectivas de actitudes. Las diferencias entre las medias de las diferentes distribuciones
pueden compararse directamente porque se ha establecido una línea base racional. Estas comparaciones no son posibles cuando se determinan las actitudes contando
simplemente el número de ratificaciones para separarlas de las afirmaciones cuyas diferencias escalares no se han medido.
Además de especificar la media de actitud de cada uno de los diferentes grupos, también es posible medir su relativa heterogeneidad con respecto al asunto
considerado. Es posible así, por medio de nuestros actuales métodos de medida, descubrir, por ejemplo, que un grupo es 1.6 veces más heterogéneo en sus
actitudes acerca de la prohibición del alcohol que algún otro grupo. La heterogeneidad de un grupo se indica quizá mejor por la desviación estándar de
los valores escalares de todas las opiniones que fueron ratificadas por el grupo como un todo y no por la desviación estándar de la distribución de las
puntuaciones individuales medias. Quizás tengan que adoptarse nombres diferentes para estos dos tipos de medida.
La tolerancia que una persona revela en cualquier asunto particular también se puede sujetar a medición cuantitativa Es la desviación estándar de los valores
escalares de las afirmaciones que ratifica. La tolerancia máxima posible es, naturalmente, la indiferencia completa, en la que todas las aseveraciones son
ratificadas a lo largo de la amplitud entera de la escala. Si se desea saber cuál de dos formas de apelación es la más efectiva en un
asunto particular, puede determinarse usando la escala antes y después de aquéllas. La diferencia entre las puntuaciones individuales, antes y después,
puede tabularse para medir el cambio promedio de actitud después de cualquier forma concreta de apelación.
La característica esencial del presente método de medida es la escala de opiniones, graduadas uniformemente, y ordenadas de manera que los pasos o
intervalos iguales de la escala parezcan representar, para la mayoría de la gente, cambios igualmente notables de actitud.
LAS ACTITUDES PUEDEN MEDIRSE GENERALIDADES
Fundándose en su experiencia en la medición de capacidades y rasgos, Thurstone propuso un método para medir la actitud. Se dijo que las aseveraciones
de opinión simbolizaban las actitudes y estas podían medirse desarrollando escalas con tal tipo de aseveraciones. Con tales escalas los individuos podrían
diferenciarse con respecto a sus actitudes de la misma manera que se podían determinar las diferencias individuales en inteligencia, capacidades o rasgos. Y
así, en el principio de la historia de la medición de actitudes, Thurstone adoptó una posición que favorecía el uso de muestras de informes sobre sí mismo.
Debido quizá al gran aprecio que los psicólogos tenían a Thurstone y a la creciente popularidad del operacionalismo entre los psicólogos, la técnica de
aquel se adoptó rápidamente. También es importante hacer ver que su procedimiento de elaboración de escalas incorporó técnicas establecidas de la
psicofísica. El método de Thurstone, para elaborar escalas de actitud contenía varías
suposiciones estadísticas no verificadas, por lo que su aplicación resultó en extremo laboriosa. En 1932, Likert publicó una
monografía que procuró superar estas dos dificultades. Propuso un método más sencillo que no requería el empleo de suposiciones estadísticas sin verificar.
Si el método de Likert es adecuado, tal vez superior y alterno al método de Thurstone, ha sido asunto de discusión
desde que apareció la citada monografía de Likert. Por desgracia, como a menudo ocurre en tales cuestiones, no hay corroboración empírica que pueda usarse para
esclarecer el punto. Seiler y Hough han emprendido la búsqueda de tales pruebas empíricas. Mientras que persiste
claramente la necesidad de investigación adicional antes de que la cuestión pueda resolverse, parecen estar ya esclarecidos dos asuntos:
a) "el método de Likert de calificación de una escala de actitud, con determinado numero de reactivos,
produce consistentemente resultados más confiables que el método de Thurstone para calificar la escala"
b) el método de Likert para elaborar y calificar la escala requiere menos reactivos y produce la misina
confiabilidad que el método de Thurstone. Un psicólogo dijo una vez que, sin las dos guerras mundiales, la psicología
social habría muerto en la infancia. Sea o no cierta esta afirmación, mientras estaba asignado al Departamento del Ejército el sociólogo Louis Gutman ideó un
método de elaboración de escalas que se basa en suposiciones completamente diferentes a las de Thurstone y de Likert, además de tener un uso más
diversificado. Su popularidad es mayor entre los investigadores de la actitud, pero es adecuado para medir por escala muchos otros universos de objetos.
Una de las limitaciones de los métodos de Thurstone y de Likert es que pueden obtenerse calificaciones idénticas de varias maneras. Así, no puede afirmarse que personas con la misma calificación, ya sea en una escala de Thurstone o de
Likert, tengan la misma actitud. El método de elaboración de escalas, de Guttman, supera esta limitación, Conociendo la puntuación de una persona, en una
escala perfecta de Guttman, es posible reproducir la estructura entera de las respuestas de la persona a los reactivos de la escala. Esto se debe a que los
reactivos están ordenados por nivel de dificultad y la puntuación de la escala representa el nivel donde se falló. Desafortunadamente, las escalas perfectas de
Guttman nunca se logran en la práctica. Por consiguiente, es necesario estimar el error de reproductibilidad. Desde la primera presentación de los
procedimientos de construcción de escalas de Guttman, se han hecho muchos esfuerzos para extender, modificar y afinar el método, así como desarrollar
técnicas más eficientes y sencillas con el mismo propósito.
La discriminación escalar, desarrollada por Edwards y Kilpatrick. Es una técnica "nueva" solamente
porque combina los métodos de Thurstone, Likert y Guttman. Sostienen que los métodos de Thurstone y Likert proporcionan la base para seleccionar los
reactivos que se incluyen en una escala, mientras que el método de Guttman permite evaluar los reactivos; presentan también un procedimiento para
seleccionar reactivos, primero, por el método de jueces, de Thurstone, y después, sometiendo los reactivos conservados a los criterios de selección de
Likert. Los reactivos que satisfacen ambos grupos de criterios se examinan, finalmente, en cuanto a su reproductibilidad.
LA POSIBILIDAD DE MEDIR LAS ACTITUDES
El propósito de este trabajo es estudiar el problema de la medición de actitudes y opiniones, con miras a ofrecer una solución. El mismo
hecho de ofrecer una solución a un problema tan complejo como el de medir las diferencias de opinión o actitud sobre asuntos sociales en disputa, hace
evidente desde el principio que la solución está más o menos limitada y se aplica solamente bajo ciertas suposiciones que, sin embargo, serán también
descritas. Al proponerme hallar un método para medir las actitudes, he procurado echar a andar con las menos restricciones posibles porque, a veces, uno se
siente tentado a menospreciar tantos factores que desaparece el problema original. Yo espero que no se me acusará de eludir el problema.
Para medir las actitudes algunas suposiciones de sentido
común que serán expresadas, desde un principio, buscándose siempre que la discusión subsecuente no se vea ensombrecida a causa de ellas. Si el lector no
está dispuesto a aceptar estas suposiciones, entonces no tendremos nada que ofrecerle. Si las acepta, podemos proceder a describir algunos métodos de
medición que deben dar lugar a resultados interesantes. Es necesario expresar desde ahora lo que queremos significar
por los términos "actitud" y "opinión". Esto es del todo necesario porque la primera impresión es que estos dos conceptos no son susceptibles de medida en
ningún sentido real. Se aceptará que una actitud es un asunto complejo que no puede describirse totalmente con ningún índice numérico aislado. En cuanto al
problema de medir, esta afirmación es análoga a la observación de que una mesa ordinaria es una cosa compleja que no puede describirse totalmente con ningún
índice numérico aislado. De la misma manera, un hombre es de tal complejidad que no puede representarse completamente con un sólo índice. Sin embargo, no
vacilamos en decir que medimos la mesa. El contexto generalmente señala lo que nos proponemos medir de la mesa. Decimos sin vacilación que medimos a un
individuo cuando tomamos algunas medidas antropométricas de él. El contexto puede implicar correctamente qué aspecto del individuo estamos midiendo, sin
declaración explícita, por ejemplo, su índice cefálico, su altura o su peso. Justamente en ese mismo sentido hablamos aquí de medir las actitudes.
Expresaremos o implicaremos por el contexto qué aspecto de las actitudes, de las personas nos proponemos medir. El interrogante estriba en que tan legítimo es
decir que medimos actitudes como afirmar que medimos mesas u hombres.
El concepto de "actitud" se usará aquí para denotar la suma total de inclinaciones y sentimientos, prejuicios o distorsiones, nociones
preconcebidas, ideas, temores, amenazas y convicciones de un individuo acerca de cualquier asunto específico. La actitud de una persona acerca del pacifismo
significa todo lo que piensa y siente acerca de la paz y la guerra. Aceptase asimismo que esto es un asunto subjetivo y personal.
El concepto "opinión" significará aquí la expresión verbal de
la actitud. Si una persona dice que cometimos un error ál entrar en la guerra contra Alemania, ésa afirmación será considerada aquí como una opinión. El
término "opinión" se restringirá a la expresión verbal. Pero ¿de qué es una expresión? Supuestamente expresa una actitud. No tiene por qué haber dificultad
para entender el empleo de los dos términos. La expresión verbal es la opinión. Nuestra interpretación de la opinión expresada es que la actitud del individuo
es pro-germana. Una opinión simboliza una actitud. Nuestro siguiente punto se refiere a qué deseamos medir. Cuando una persona dice que cometimos un error al entrar a la guerra contra
Alemania, lo que nos interesa no es realmente la secuencia de palabras como tales y ni siquiera el significado inmediato que la oración implica, sino más
bien la actitud de quien la dijo, sus pensamientos y sentimientos acerca de los Estados Unidos, de la guerra y de Alemania. Es la actitud lo que realmente
interesa. La opinión tiene interés únicamente si la interpretamos como símbolo de la actitud. Por consiguiente, es alguna cosa propia de las actitudes lo que
deseamos medir. Usaremos las opiniones como medios para medir las actitudes.
Pero nos viene a la mente la incertidumbre de usar una opinión como índice de actitud, pues el individuo puede ser un embustero. Si no
deforma intencionalmente su actitud real sobre un asunto en disputa, puede modificar, sin embargo, su expresión, por razones de cortesía, especialmente en
situaciones donde la expresión franca de la actitud puede no ser bien recibida. Esto ha conducido a la idea de que, por encima de lo que dice, la acción de un
individuo es un índice más seguro de su actitud. Pero sus acciones también pueden ser distorsiones de su actitud. Un político comunica amistad y
hospitalidad en la acción manifiesta, mientras que esconde otra actitud que expresa más fielmente a un amigo íntimo. Ni sus opiniones ni sus actos
manifiestos constituyen, en ningún sentido, una guía infalible de las inclinaciones subjetivas y preferencias que constituyen su actitud. Por
consiguiente, debemos conformarnos con usar las opiniones, u otras formas de acción, como simples índices de actitud. Debe reconocerse que existe cierta
discrepancia, algún error de medida, entre la opinión o acción manifiesta que usamos como índice y la actitud que inferimos de tal índice.
Pero esta discrepancia entre el índice y la "verdad" es universal. Cuando desea saber la temperatura de su habitación, la persona ve el
termómetro y usa la lectura como índice de la temperatura, como si no hubiera error en el índice y como si hubiera una sola lectura que fuera la "correcta" de
la habitación. Cuando se desea determinar el volumen de un vaso de papel, se postula que el volumen es un atributo del vaso, aunque aquél sea, en realidad,
una abstracción. Se mide indirectamente observando las dimensiones del vaso o sumergiéndolo en agua para apreciar cuánto líquido desplaza. Estos dos
procedimientos dan dos índices que podrían no concordar exactamente. En casi cualquier situación de medición se postula un continuo abstracto como el volumen
o la temperatura; y la ubicación de la cosa medida dentro de ese continuo se realiza generalmente por medios indirectos, a través de uno o más índices. La
verdad se infiere solamente por la consistencia relativa de los diferentes índices, ya que nunca se conoce de modo directo. Y nos enfrentamos al mismo tipo
de situación cuando intentamos medir la actitud. Necesitamos postular una variable de actitud que es, prácticamente, semejante a todos los demás atributos
mensurables de la esencia de un continuo abstracto, y debemos encontrar uno o más índices, los cuales nos satisfarán en el grado en que tengan consistencia
interna. En el presente estudio mediremos la actitud del sujeto según
sea expresada por la aceptación o rechazo de opiniones. Pero este enunciado no significa que ese sujeto necesariamente actuará conforme a las opiniones que
haya apoyado. Aclaremos esta limitación. La medición de actitudes, expresada por las opiniones de un individuo, no constituye a la vez, y forzosamente la
predicción de lo que hará. Que sus opiniones expresadas y sus acciones sean inconsistentes, es algo que no nos concierne ahora, porque no manifestamos que
nos proponemos predecir la conducta abierta. Supondremos que es de interés saber lo que las personas dicen que creen aunque su conducta sea inconsistente con las
opiniones que expresen. Incluso en el caso de que distorsionen intencionalmente sus actitudes, por lo menos mediremos las actitudes que tratan de hacer creer a
los demás. Concedemos, por otra parte, que las actitudes de las personas
están sujetas a cambio. Cuando medimos la actitud de un individuo, sobre un asunto como el pacifismo, no afirmamos que tal medida sea en ningún sentido
una constante permanente o constitucional. Su actitud puede cambiar, por supuesto, de un día para otro; y es nuestra tarea medir tales cambios que acaso
resulten de causas desconocidas o de la presencia de algún factor persuasivo conocido, como la lectura de una disertación sobre el asunto en cuestión. Sin
embargo, tales fluctuaciones pueden también atribuirse, en parte, a error en las medidas mismas. Para aislar los errores del instrumento de medida, por la
fluctuación real de la actitud, debemos calcular el error estándar de medida de la escala misma, lo cual puede realizarse por métodos bien conocidos en la
medición mental. Supondremos que una escala de actitud se usa solamente en las
situaciones en que se puede esperar razonablemente que las personas digan la verdad sobre sus opiniones o convicciones. Si una escuela religiosa fuera
aplicar a sus estudiantes una escala de actitudes acerca de la iglesia, difícilmente se esperaría que los estudiantes inteligentes dijeran la verdad
acerca de sus convicciones, si éstas estuviesen desviadas de las creencias ortodoxas. Lo menos que podría hacerse sería analizar los resultados, si la
situación en que se expresasen las actitudes contuviera presión o amenaza implícita, basadas directamente en la actitud que se va a medir. De manera
similar sería difícil descubrir las actitudes sobre la libertad sexual por medio de un cuestionario escrito, debido a la presión universal a ocultar tales
actitudes cuando se desvían de las convenciones supuestas. Se admite que las escalas de actitud se usarán solamente en las situaciones que ofrezcan un mínimo
de presión sobre la actitud que va a medirse. Tales situaciones son bastante comunes.
Todo lo que podemos hacer con una escala de actitud es medir la actitud expresada efectivamente, con la comprensión plena de que el sujeto
puede estar escondiendo conscientemente su actitud verdadera o que la presión social de la situación le ha hecho creer realmente lo que está expresando. Este
es asunto de interpretación, y probablemente valioso en tanto se mide una actitud expresada en opiniones. Otro problema es el de interpretar en cada caso
el grado en que los sujetos han expresado lo que realmente creen. Todo lo que podemos hacer es reducir cuanto sea posible las condiciones que impiden que los
sujetos digan la verdad, o en vez de eso ajustar nuestras interpretaciones de acuerdo a esas condiciones.
Cuando discutimos opiniones, por ejemplo acerca de la prohibición del alcohol, pronto encontramos que estas opiniones son
multidimensionales, es decir, que no pueden representarse en un continuo lineal. Las diferentes opiniones no pueden describirse, completamente, sólo con "más" o
"menos". Se dispersan en muchas dimensiones, pero la misma idea de medida implica un continuo lineal de alguna clase como longitud, precio, volumen, peso,
edad. Cuando la idea de medida se aplica al logro académico, por ejemplo, es necesario forzar las variaciones cualitativas en una escala lineal académica de
alguna clase. Juzgamos, de manera semejante, cualidades como destreza mecánica, calidad de la escritura a mano y la cantidad de educación de un individuo, como
si estos rasgos se extendieran sobre una sola escala, aunque en el terreno de los hechos se dispersen en muchas direcciones. Cierto es que avanzamos
adecuadamente con el concepto de escala, al describir rasgos todavía cualitativos, como educación, posición social y económica o belleza. Pero se
impone una escala o continuo lineal cuando decimos que un individuo tiene más educación que otro o que una mujer es más bella que otra, aunque, si somos
presionados, admitimos que quizá el par de que constan cada una de las comparaciones tiene poco en común. Resulta claro que el continuo lineal
implícito en un juicio de "más o menos" puede ser conceptual; y no necesariamente ha de tener la existencia física de una regla.
Y lo mismo sucede con las actitudes. No hay que dudar en
compararlas por medio del tipo de juicio de "más o menos"; se dice, por ejemplo, que un individuo está más en favor de una prohibición que de otra; y tal juicio
comunica su significado claramente, con la implicación de una escala lineal en la que pueden ubicarse las personas o las opiniones.
LA VARIABLE DE ACTITUD
La primera restricción en el problema de la medición de actitudes es especificar una variable de actitud y hasta allí limitar la medida.
Vamos a ilustrarlo considerando la cuestión de la prohibición del alcohol y tomemos como variable de actitud el grado de restricción que debe imponerse a la
libertad individual en el consumo de esa bebida. Este grado de restricción puede considerarse un continuo que va desde la libertad completa y grado hasta la
restricción igualmente completa y absoluta, e incluiría, desde luego, actitudes neutrales e indiferentes.
Al recolectar muestras para elaborar una escala, pediríamos a cien personas que escribieran sus opiniones acerca de la prohibición.
Encontraremos entre ellas a quienes expresen la creencia de que la prohibición ha incrementado el uso del tabaco. Indudablemente esta es una opinión
concerniente a la prohibición, pero no sería útil en absoluto para medir la variable de actitud mencionada. Por tanto, sería inadecuada. Otra persona podría
expresar la opinión de que la prohibición ha eliminado una fuente importante de impuestos gubernamentales. Esta también es una opinión referente a la
producción, pero no pertenecería a la variable de actitud particular que hemos manifestado medir o evaluar por escala. Es preferible usar un criterio objetivo
y experimental para eliminar las opiniones que no pertenezcan al continuo especificado que se va a medir, y creo que tal criterio existe.
Esta restricción en el problema de la medición de actitudes
es necesaria por la misma naturaleza de la medida; y se presupone en toda medida ordinaria, por lo que debe quedar claro que se aplica también donde las
características multidimensionales todavía no se hayan separado abiertamente. Por ejemplo, sería casi ridículo decir que no puede medirse una mesa a menos que
uno diga o implique lo que se va a medir de ella, es decir, si es su altura, costo, belleza, grado de adecuación o el tiempo requerido para hacerla. El
contexto implica ordinariamente esta restricción en la medida. Cuando la noción de medida se aplica a un fenómeno tan complejo como las opiniones y actitudes,
también debemos restringirnos a un continuo específico o implicado dentro del cual se va a medir.
Para especificar la variable de actitud, el primer requisito es expresarla de tal modo que se la pueda aludir en términos de "más" y "menos",
como es el caso cuando comparamos las actitudes de las personas diciendo que una de ellas es más pacifista, que esta aboga más por la prohibición, que aquélla
apoya más fuertemente la pena capital, o que es más religiosa que otra persona.
La figura 1 representa la variable de actitud militarismo pacifismo, con una zona neutral. Una persona que generalmente habla en favor de
prepararse militarmente, por ejemplo, se representaría en algún punto a la derecha de la zona neutral. Una persona que está más interesada en el desarme se
representaría a la izquierda de la zona neutral. Es posible concebir una curva de frecuencia que represente la distribución de la actitud en un grupo
especificado sobre el asunto de pacifismo-militarismo.
Consideremos la ordenada de la distribución de frecuencia en un punto de la línea de base. El punto y su vecindad inmediata representa una
actitud, y deseamos saber relativamente qué tan común es ese grado de sentimiento en favor o en Pacifismo Naturalidad Militarismo
contra del pacifismo dentro del grupo en estudio. Es de interés secundario saber que una declaración particular de opinión es ratificada por cierta proporción de
ese grupo. Y solamente en el grado en que la opinión sea representativa de una actitud, será útil para nuestros propósitos. Posteriormente consideraremos la
posibilidad de que una opinión. declarada pueda ubicarse en la escala coma pacifista y, sin embargo, sea ratificada por una persona de simpatías
militaristas muy pronunciadas. En el grado en que la aseveración sea apoyada o rechazada por factores distintos a la variable de actitud que representa, tal
aseveración no servirá para nuestros propósitos. También consideraremos un criterio efectivo para descubrir semejantes aseveraciones de manera que puedan
eliminarse de la escala. Entonces, en nuestro estudio, trataremos con opiniones, no principalmente por su contenido cognoscitivo sino porque sirven de portadores
o símbolos de las actitudes de las personas que las expresa o respalda.
Hay alguna ambigüedad al usar el término actitud en plural. Una actitud se representa como un punto en el continuo de actitud. Consecuentemente, hay un
número infinito de actitudes que pueden representarse en la escala. Sin embargo, en la práctica no diferenciamos tan finamente. En realidad, una actitud,
prácticamente hablando, consiste en cierta amplitud o cercanía estrecha dentro de la escala. Cuando se obtiene una distribución de frecuencia de una variable
continua, como la estatura, clasificamos dicha variable en pasos o intervalos de clase, con propósitos descriptivos. La variable de actitud también puede
dividirse en intervalos de clase y contarse la frecuencia en cada intervalo. Cuando hablemos de "una" actitud, significaremos un punto o una vecindad en el
continuo de la actitud. Diferentes actitudes se considerarán no como un conjunto de entidades distintas sino como una serie de intervalos de clase en la
escala de actitud. UNA DISTRIBUCIÓN DE FRECUENCIA DE ACTITUDES
La principal argumentación ha sido hasta ahora mostrar que ya que en la conversación ordinaria describimos rápida y comprensiblemente a los individuos
como más o menos pacifistas o más o menos militaristas en actitud, podemos representar abiertamente esta linealidad en la forma de una escala
monodimensional; y así se ha hecho, en forma de diagrama, en la figura 1. Describiremos primero nuestro objetivo y después mostraremos cómo puede
adoptarse una unidad de medida racional para la escala entera.
Sea la línea base de la figura 1 la representación de una amplitud continua de actitudes, desde el pacifismo extremo, a la izquierda, hasta el militarismo
extremo a la derecha. Si se definieran varios pasos en semejante escala, la
actitud de una persona hacia el militarismo-pacifismo podría representarse por un punto de esa escala. La fuerza y dirección de las simpatías de un individuo
particular podrían indicarse por el punto a, que muestra opiniones más bien militaristas. Otro individuo podría quedar en el punto b, indicador de que,
aunque es ligeramente militarista en sus opiniones, no lo es al extremo de la persona que se colocó en el punto a. Una tercera persona se colocaría en el
punto c, indicándose así que es completamente militarista y que la diferencia entre a y c es muy pequeña. Es posible una interpretación similar que se
extendiera a cualquier punto de la escala continua, desde el extremo militarismo hasta el extremo pacifismo, con una región neutral o de indiferencia entre
ellos. Una segunda característica podría igualmente indicarse gráficamente por medio de
la escala, a saber, la amplitud de las opiniones que determinado individuo esté dispuesto a respaldar. Por supuesto, no debe esperarse que cada persona encuentre
solamente una sola opinión, a la que esté dispuesto a dar su apoyo, en la escala completa, ni tampoco que rechace todas las demás. En realidad, nosotros mismos
probablemente nos encontraríamos dispuestos a ratificar gran número de opiniones que cubren cierta amplitud de la escala. Entonces, es concebible que una persona
pacifista esté dispuesta a ratificar todas o la mayoría de las opiniones en la amplitud de "d a e" y que rechace como demasiado pacifistas la mayoría de las
opiniones a la izquierda de d, y que también rechace la amplitud entera de opiniones militaristas. Su actitud se indicaría entonces por el promedio o media
de la amplitud que ratifica, a menos que tenga el cuidado de seleccionar una opinión particular que represente muy cercanamente su propia actitud. La misma
clase de razonamiento puede extenderse con la misma certidumbre a la amplitud total de la escala, así que tendríamos por lo menos dos, o posiblemente tres,
características distintivas de cada persona con base en la escala. Estas características serían:
a) la posición media que ocupa en la escala;
b) la amplitud de opiniones que está dispuesto a aceptar, y
c) la opinión que selecciona porque representa con mayor aproximación su propia actitud sobre el
asunto planteado. Asimismo, sería posible describir a un grupo de individuos por medio de la
escala. Este tipo de descripción ha sido representado en forma de diagrama por el perfil de frecuencia.
Cualquier ordenada de la curva representaría el número de individuos, o el porcentaje del grupo total, que secunda la opinión correspondiente. Por ejemplo,
la ordenada, en b, representaría el número de personas del grupo que ratifican el grado de militarismo representado por el punto b de la escala. Una mirada a
la curva de frecuencia muestra que en el grupo ficticio de este diagrama, las opiniones militaristas son ratificadas más frecuentemente que las pacifistas.
Claro está que el área de este diagrama de frecuencia representa el número total de ratificaciones hechas por el grupo. El diagrama puede arreglarse de varias
maneras diferentes que estudiaremos por separado. En este momento, basta con que nos percatemos de que en una escala válida de opiniones es posible comparar
varios grupos diferentes de acuerdo a sus opiniones sobre una cuestión en disputa.
Un segundo tipo de comparación de grupo puede hacerse con respecto a la amplitud o extensión que presentan las superficies de frecuencia. Si uno de los grupos se
representa por un diagrama de frecuencia de considerable amplitud o dispersión, entonces ese grupo será más heterogéneo respecto al asunto planteado, que algún
otro grupo cuyo diagrama de frecuencia de actitudes presente una amplitud o dispersión más pequeña. Lo anterior no significa que la suposición de una
distribución normal, de uso frecuente en la elaboración de escalas educativas, tenga alguna aplicación aquí, porque no hay razón para suponer que un grupo de
personas esté distribuido normalmente en sus opiniones acerca de alguna cosa. Por consiguiente, es posible hacer cuatro tipos de descripciones por medio de una escala de actitudes. Estás son:
a) la actitud promedio o media de un individuo particular sobre el asunto en cuestión;
b) la amplitud de opiniones que está dispuesto a aceptar o a tolerar; c) la popularidad rélativa de cada actitud de la escala dentro de un grupo señalado como lo indica la
distribución de frecuencia de ese grupo, y d) el grado de homogeneidad o heterogeneidad de las actitudes de un grupo señalado acerca del asunto, como lo indica el grado de dispersión
o extensión de su distribución de frecuencia. Este es el objetivo. El centro del problema está en la unidad de medida de la línea base, que es lo que veremos en el siguiente articulo
Las estimaciones en el estudio de evaluación de psicólogos clínicos Los ejemplos hasta aquí presentados presentan un lamentable cuadro sobre la validez de las medidas de las diferencias individuales
consideradas. El caso típico exhibe una cantidad excesiva de varianza de método, que suele exceder la cantidad de varianza de rasgo. Este cuadro no se debe a un
esfuerzo deliberado de seleccionar ejemplos ostensiblemente malos. Los estudios no publicados muestran el mismo cuadro. Si parecen
más desalentadores que la tendencia general de los datos de validez informados en las revistas, puede ser porque la apariencia de validez que proporcionan los
valores aislados que se desprenden de la diagonal de validez es engañosa e imposible de interpretar al margen de la matriz total. Sin embargo, claro está
que pocos de los ejemplos clásicos de buena medición de las diferencias individuales intervienen y que en muchos de los casos la calidad de los datos
pudo haber magnificado los factores de aparato, etcétera. Un conjunto de datos de personalidad más ideal para ejemplificar el método, por tanto, se encontró en
la aplicación múltiple de un conjunto de escalas de estimación al estudiar la evaluación de los psicólogos clínicos (Kelly y Fiske, 1951).
En este estudio, la "escala de estimación A" contenía 22 rasgos referentes a "la conducta que puede observarse directamente en la
superficie". En el uso de la escala se instruyó a los estimadores para que "descartaran cualesquiera inferencias acerca de dinámicas o causas subyacentes". Los sujetos, estudiantes de psicología clínica de primer año, se
estimaron a sí mismos y también a sus tres compañeros de equipo con los que habían participado en varios procedimientos de evaluación y habían vivido
durante seis días. Se usó la mediana de las estimaciones de los tres compañeros de equipo para la puntuación de compañero de equipo. Los sujetos también fueron
estimados con respecto a los 22 rasgos por la dirección de evaluación. El análisis usa las estimaciones finales combinadas que fueron convenidas por tres
miembros de la dirección después de la discusión y revisión de la enorme cantidad de datos y las muchas otras estimaciones de cada sujeto.
Desafortunadamente, los miembros de la dirección vieron las estimaciones de sí mismo y las de los compañeros de equipo antes de hacer
las suyas, aunque presumiblemente fueron poco influidos por estos datos, pues tenían a su alcance otras señales de evidencia. (Kelly y Fiske, 1951). Las estimaciones de sí mismo y las de los compañeros
de equipo representan enteramente "métodos" distintos y se les puede dar mayor importancia al evaluar los datos que van a ser presentados.
En un análisis previo de estos datos (Fiske, 1949), cada uno de los tres triángulos heterorrasgo-monométodo fue computado y factorizado. Para
proporcionar una matriz multirrasgo-multimétodo, las 1 452 correlaciones de heterométodo fueron computadas especialmente para este informe. La matriz
completa de 66 X 66 con sus 2 145 coeficientes es obviamente demasiado grande para presentarla aquí, pero será usada en el análisis que sigue. Para
proporcionar una muestra ilustrativa, la tabla 12 presenta las interrelaciones entre cinco variables, seleccionando la que representa mejor cada uno de los
cinco factores recurrentes descubiertos en el análisis previo de las matrices monométodo de Fiske (1949). (Fueron escogidas independientemente de su validez
indicada en los bloques heterométodos. "Asertivo" -reflejado en el núm. 3- fue seleccionado para representar el factor recurrente 5, debido a que "locuaz"
también obtuvo una alta carga en el primer factor recurrente).
El cuadro presentado en la tabla 12 es
representativo de la mejor validez de las estimaciones de rasgo de personalidad que la psicología puede ofrecer actualmente. Es confortante advertir que el
cuadro es mejor que el de la mayoría de los previamente examinados. Nótese que los valores de validez de "asertivo" exceden los valores de heterorrasgo de los
triángulos monométodo y heterométodo. "Alegre", "de intereses amplios" y "serio"
tienen validez que excede los valores de heterorrasgo-heterométodo con dos excepciones. Solamente para "equilibrio inmutable" la evidencia de validez
parece trivial. La elevación de las confiabilidades por encima de los triángulos heterorrasgo- mono método es la evidencia más amplia de validez discriminante.
Una comparación de la tabla 12 con la matriz completa muestra que el procedimiento de una sola variable que represente cada factor ha
acrecentado la apariencia de validez, aunque no necesariamente de un modo engañoso. Donde varias variables son influidas altamente por el mismo factor, su
nivel "verdadero" de intercorrelación es alto. En estas condiciones, los errores de muestreo pueden hacer disminuir los valores de la diagonal de validez y
agrandar otros para producir excepciones ocasionales al cuadro de validez, tanto en la matriz heterorrasgo-monométodo como en los triángulos heterométodo-heterorrasgo.
En este caso, con una N de 124, el error de muestreo es apreciable, y de esta manera puede esperarse que se exagera el grado de invalidez.
Dentro de las secciones de monométodo, los errores de medida se correlacionan al elevar el nivel general de los valores encontrados, mientras
que dentro de los bloques de heterométodo, los errores de medida son independientes, y a lo largo de la diagonal de validez y los triángulos de
heterorrasgo la validez tiende a decrecer. Estos efectos, que también pueden ser establecidos en términos de factores de método o insignificancias comunes de
confusión operan fuertemente en estos datos, como probablemente en todos los datos que contienen estimaciones. Cuando diversas variables representan a cada
factor, ninguna de las variables satisface consistentemente el criterio de que los valores de validez exceden los valores correspondientes en los triángulos de
monométodo, cuando se examina la matriz completa. Como resumen del cuadro de validación con respecto a las
comparaciones de valores de validez con otros valores de heterométodo en cada bloque, se ha preparado la tabla 13. Para cada rasgo y para cada uno de los tres
bloques de heterométodo, el valor de fa diagonal de validez presenta el valor heterorrasgo más alto que lo incluye y el número de los 42 valores heterorrasgo
semejantes que exceden a la diagonal de validez en magnitud. (El número 42 procede de la agrupación de los 21 valores de las otras columnas y de los 21
valores de los otros renglones para la columna y el renglón que interceptan al valor diagonal dado).
Acerca del requisito de que la diagonal de validez exceda a todas las otras en su bloque de heterométodo, ninguno de los rasgos tiene un registro completamente
perfecto, aunque algunos se acercan bastante. "Asertivo" tiene solamente una excepción trivial en el bloque "compañeros de equipo-sí mismo". "Locuaz" tiene
casi un registro tan bueno como "imaginativo". Serio tiene solo dos excepciones inconsecuentes e "interés en las mujeres", tres. Estos rasgos se destacan como
sumamente válidos de la descripción de sí mismo y la reputación. Nótese que los coeficientes de validez reales de estos cuatro rasgos se extienden desde .22 a
.82, o si nos concentramos en el bloque "compañero de equipo-sí mismo", que seguramente representa métodos más independientes, desde .31 a .46. Aunque estos
son los mejores rasgos, parece que la mayoría de ellos tienen una validez más que fortuita. Todos los que tienen 10 o menos excepciones poseen un grado de
validez significativo en el nivel .001, estimado a bulto por la prueba de tos signos de una cola. Si tomamos el valor de la validez como fijo (ignorando
sus fluctuaciones muéstrales), podemos determinar si el número de valores más grandes que él en su renglón y columna es menor que el esperado sobre la
hipótesis de nulidad de que la mitad de los valores estará por encima de él. Este procedimiento requiere la suposición de que la posición (por encima o por
debajo del valor de la validez) de cualquiera de estos valores de comparación es independiente de la posición de cada uno de los demás, una suposición dudosa
cuando se emplean los métodos comunes y la varianza de rasgo. Con la excepción de una variable, todas satisficieron este nivel en el bloque "dirección-compañero de
equipo", todas menos cuatro en el bloque "dirección-sí mismo", todas menos cinco en el bloque más independiente, "compañero de equipo-sí mismo". Sin embargo, las
excepciones a la validez significativa no son paralelas de columna a columna, y solamente 12 de las 22 variables tienen validez significativa de .001 en los
tres bloques. Estas se indican por un asterisco en la tabla 13.
Este nivel general de alta significación de la validez no debe oscurecer el interesante problema creado por las excepciones ocasionales,
aun ante las mejores variables. Los excelentes rasgos de "asertivo" y "locuaz" proporcionan un caso a propósito. En término del análisis original de Fiske,
ambos tienen fuertes cargas en el factor recurrente "seguro de sí mismo" (representado por "asertivo" en la tabla 12). "Locuaz" también tuvo una fuerte
carga en el factor recurrente de "adaptabilidad social" (representado por "alegre" en la tabla 12). Esperaríamos, por consiguiente, una correlación alta
entre ellos, así como discriminación significativa. Incluso en el nivel del sentido común, la mayoría de los psicólogos esperarían que sus colegas
discriminen válidamente entre la asertividad o positividad (no sumisión) y la locuacidad. Sin embargo, en el bloque "compañero-sí mismo", "asertivo" estimado
por sí mismo correlaciona .48 con "locuaz" por compañeros de equipo, más altamente que cualquiera de sus valores de validez en este bloque, .43 y .46.
En términos del promedio de los valores de validez y la frecuencia de las excepciones, hay una clara tendencia del bloque
"dirección-compañero" a mostrar el más alto acuerdo. Esto puede atribuirse a varios factores. Ambos representan estimaciones desde el punto de vista externo.
Ambos son promediados para los tres jueces, y así se reducen al mínimo las distorsiones individuales e indudablemente se incrementan las confiabilidades.
Además, las estimaciones de los compañeros de equipo fueron asequibles a la dirección al hacer sus estimaciones. Otro efecto contribuyente a la convergencia
y discriminación menos adecuadas de las estimaciones de sí mismo fue un conjunto de respuestas hacia el polo favorable que redujo grandemente el rango de estas
medidas (Fiske, 1949). El análisis de los detalles de los casos de invalidez que se resumen en la tabla 13 muestra que la mayoría de los casos el
efecto es atribuible a la alta especificidad y baja comunalidad para la forma de estimación de sí mismo. En estos casos, la columna y el renglón que intersecan
la diagonal de validez baja son asimétricas hasta donde se relaciona el nivel general de correlación, hecho que apoya la condensación que proporciona la tabla
13. El psicólogo de la personalidad está inicialmente predispuesto a reinterpretar las estimaciones de sí mismo, a tratarlas como
síntomas en vez de interpretarlas literalmente. Se tuvo cuidado con los casos en que las estimaciones de sí mismo no fueron literalmente interpretables,
pero no dejaron de tener un significado de diagnóstico cuando se "tradujeron" apropiadamente. De cualquier modo, los casos de invalidez de las descripciones
de sí mismo del estudio de evaluación no son de este tipo, sino más bien se explican en términos de la ausencia de comunidad para una de las variables
involucradas. En general, donde estas descripciones de sí mismo son interpretables de alguna manera, lo son tan literalmente como las descripciones
de los compañeros de equipo. Tal hallazgo, por supuesto, puede reflejar un grado sustancial de penetración por parte de los sujetos.
El éxito general con respecto a la validación discriminante junto con los patrones factoriales paralelos del análisis inicial de Fiske de
las tres matrices intramétodo pareció justificar el análisis de la validez del patrón factorial en este caso. Un procedimiento posible consiste en hacer un
solo análisis de la matriz total de 66 x 66. Otros enfoques centrados en la factorización por separado de bloques de heterométodo, matriz por matriz,
también es sugerible. Pero tales métodos no solo serían extremadamente tediosos, sino, además, dejarían indeterminada la comparación precisa de la similitud del
patrón factorial. La correlación de las cargas factoriales sobre la población de variables fue empleada con este propósito por Fiske (1949), pero si bien
proporcionó la identificación de los factores recurrentes, ningún índice único total de la similitud del patrón factorial fue generado. Puesto que nuestro
interés inmediato era confirmar un patrón de interrelaciones y no describirlo, escogimos el método corto y eficiente: probar la similitud de los conjuntos de
valores de heterorrasgo mediante los coeficientes de correlación en los que cada anotación representaba el tamaño de los valores de los coeficientes de
heterorrasgo dados en dos matrices diferentes. Para la matriz completa, las correlaciones se basarían en el valor de N de las 22 x 21/2 ó 231 combinaciones
de heterorrasgo específicas. Las correlaciones se computaron entre las matrices monométodo "compañero de equipo" y "sí mismo", seleccionadas como de
independencia máxima. (Los valores que siguen fueron computados a partir de la matriz original de correlación y son un poco más altos que los que se habrían
obtenido de una matriz reflejada). La similitud entre las dos matrices monométodo fue de .84, lo que corrobora la similitud del patrón factorial entre
estas matrices que Fiske describe más completamente en el análisis factorial paralelo que hizo de ellas. Al realizar este análisis, el bloque de heterométodo
fue tratado como si estuviera dividido en dos por la diagonal de validez, de modo que los valores por encima y por debajo de la diagonal representaban la
validación más independiente del patrón de correlación de heterorrasgo. Se correlacionaron a .63, un valor que aunque es bajo, muestra un sensible grado de
confirmación. Examinemos ahora la cuestión de que el patrón con el que concuerdan los dos triángulos de heterométodo-heterorrasgo sea el mismo que se
encontró común a los dos triángulos monométodo. La matriz intra-compañero de equipo se correlacionó con los dos triángulos de heterométodo a .71 y .71. La
matriz intra-sí mismo se correlacionó a .57 y .63. Por tanto, en general, los resultados experimentales apoyan la validez del patrón de relaciones interrasgo.
Relación con la validez de constructo Aun cuando los criterios de validación presentados se encuentren explícita o
implícitamente en los estudios de la validez de constructo (Cronbach y Meehl, 1955; APA, 1954), el artículo se interesa primordialmente en la adecuación
de los tests como medidas de un constructo y no tanto en la adecuación de un constructo como lo determina la confirmación de asociaciones previstas
teóricamente que se hace por medio de las medidas de otros constructos. Antes de probar la relación entre un rasgo concreto y otros rasgos, se debe
tener confianza en las medidas de ese rasgo. La confianza puede provenir de la validación convergente y discriminante. En otras palabras, cualquier formulación
conceptual de un rasgo suele incluir implícitamente la proposición de que el rasgo es una tendencia a responder observable en más de una condición
experimental y el rasgo puede ser diferenciado significativamente de otros rasgos: La prueba de estas proposiciones debe ser anterior a la prueba de otras
proposiciones, de modo que evitemos la aceptación de conclusiones erróneas. Por ejemplo, un marco conceptual puede postular una gran correlación entre los
rasgos A y B y ninguna entre los rasgos A y C. Si el experimentador mide A y B por un método (por ejemplo, un cuestionario) y C por otro método (como la medida
de conducta abierta en una situación de prueba), sus hallazgos pueden ser consecuentes con su hipótesis únicamente como una función de la varianza común
de método a sus medidas de A y B, pero no a C. Se entiende que los requisitos de este artículo son adecuados
para los esfuerzos relativamente ateoréticos típicos de los tests y de la medición como para intentos más teóricos. Esta insistencia en los criterios
validacionales de nuestro nivel ateorético de la construcción del test, no es en absoluto incompatible con un reconocimiento de las bondades de
incrementar el grado de consideraciones teóricas que determinan todos los aspectos de un test y de la situación de prueba, como afirman Jessor y Hammond (Jessor
y Hammond, 1957). Relación con el operacionalismo. (Underwood 1957), en su efectiva presentación del punto de vista operacional¡sta, señala de modo
realista el tipo amorfo de teoría con la que trabaja la mayoría de los psicólogos. Compara la concepción "literaria" de un psicólogo con su definición
operacional representada por sus tests u otros instrumentos de medida. Reconoce la importancia de la definición literaria en la comunicación y producción de la
ciencia y advierte que la definición operacional "puede no medir en absoluto el proceso que se desea medir; puede medir incluso un objeto por completo
diferente". Sin embargo, no indica cómo saber que se comete ese error. Los requisitos de nuestro artículo pueden verse como
extensivos de la clase de operacionalismo que Underwood ha expresado. Al elaborador de test no se le pide engendrar de su concepción literaria o
constructo privado una formulación operacional, sino dos o aún más, cada una tan diferente en cuanto al vehículo de investigación como sea posíble. Además, se le
pide hacer explícita la distinción entre su nueva variable y otras variables, distinciones que intervienen en su definición literaria. Es aconsejable que en
los primeros esfuerzos de validación, antes de imprimirlos, aplique los métodos y los rasgos diferentes. Su definición literaria, su concepción, quedará mejor
representada en la concordancia de sus medidas independientes del rasgo. La matriz multirrasgo-multimétodo es un primer paso de importancia
práctica para evitar "el peligro... de que el investigador piense que al partir de una concepción artística o literaria... para llegar a la construcción de los
itemes de una escala que la mida, ha validado su concepción artística" (Underwood, 1957). En contraste con el operacionalismo individual que domina
en la psicología, abogan por un operacionalismo múltiple, un operacionalismo convergente (Garner, 1954; Garner, Hake y Eriksen, 1956), una triangulación
metodológica (Campbell, 1953, 1956), una delineación operacional (Campbell, 1954) y una validación convergente. La presentación de Underwood implica
desplazarse del concepto a la operación, cosa frecuente y característica de la ciencia. Se puede indicar lo mismo, sin embargo, al analizar una transición de
la operación al constructo. Para cualquier cuerpo de datos tomados de una sola operación hay una subínfinidad de interpretaciones posibles, es decir, una
subinfinidad de conceptos o combinaciones de conceptos que la representan. Una sola operación es equívoca como representativa de conceptos. De un modo análogo,
cuando examinamos el cuarto distorsionado de Ames desde un punto fijo y a través de un solo ojo, los datos del patrón retinal son equívocos en cuanto a la
subinfinidad de hexaedrones que puede engendrar el mismo patrón. La adición de un segundo punto de vista, a través del paralaje binocular, reduce mucho su
ambigüedad y limita considerablemente las construcciones de ambos conjuntos de datos. En el estudio de Garner (1954), las medidas de fraccionamiento de un solo
método fueron equívocas, es decir, tal vez eran función de la distancia fraccionada del estímulo de comparación del proceso de juicio. Un
operacionalismo convergente múltiple redujo la ambigüedad al señalar que la última conceptualización era la apropiada, y al revelar la preponderancia de una
varianza de los métodos. Lo mismo sucede en los estudios de aprendizaje: al identificar los constructos con los datos de respuesta de animales en un arreglo
operacional concreto hay ambigüedad, que se reduce operacionalmente al introducir pruebas de transposición, a saber, (as diferentes operaciones
proyectadas para hacer comparaciones entre las conceptualizaciones rivales (Campbell, 1954). El operacionalismo convergente de Garner y nuestra
insistencia en más de un método para medir cada concepto se separa de la primera posición de Bridgman: "si tenemos más de un conjunto de operaciones, hay más de
un concepto y estrictamente hay un nombre diferente para cada conjunto de operaciones" (Bridgman, 1927). En la etapa presente de la psicología,
el problema crucial consiste en la demostración de convergencia, aunque no de completa congruencia, entre dos conjuntos distintos de operaciones. Con solo un
método, no hay manera de distinguir la varianza de rasgo de la indeseada varianza de método. Cuando la medición y la conceptualización psicológicas
lleguen a estar mejor desarrolladas, puede ser muy adecuada la diferencia conceptual entre la unidad A1 de rasgo-método y la unidad A2 de rasgo-método,
donde el rasgo A se mide por diferentes métodos. Más probablemente, la varianza de método se concretará teóricamente en términos de un conjunto de constructos.
Entonces se sabrá que los procedimientos de medición suelen incluir varios constructos teóricos en
aplicación conjunta. Para que las medidas obtenidas estimen valores para un solo constructo bajo esta condición se requiere también la comparación de medidas
complejas que varían en su composición de rasgo, de manera algo semejante a una matriz multirrasgo. El método de unión de Mill de las semejanzas y las
diferencias abrevia demasiado la efectiva clarificación experimental de los conceptos. La evaluación de una motriz multirrasgo-multimétodo. La
evaluación de la matriz de correlación que se forma al intercorrelacionar varias unidades de rasgo-método, debe tener en consideración los factores que, según se
sabe, afectan la magnitud de las correlaciones. Un valor de la diagonal de validez debe ser evaluado a la luz de las confiabilidades de las dos medidas
involucradas; por ejemplo, una baja confiabilidad para el test A2 exagera la varianza de método manifiesta en el test A1. Además, el enfoque global supone
que el muestreo de los individuos es adecuado: la reducción de la muestra con respecto a uno o más rasgos harán disminuir los coeficientes de confiabilidad y
las intercorrelaciones que contengan estos rasgos. Aunque las restricciones de rango sobre todos los rasgos produce serias dificultades en la interpretación de
la matriz multirrasgo-multimétodo y deben evitarse siempre que se pueda, la presencia de diferentes grados de restricción en distintos rasgos es el peligro
más serio de la interpretación significativa. Se pueden desarrollar varios tratamientos estadísticos para
las matrices multirrasgomultimétodo. Se han considerado pruebas elementales de la elevación de un valor en la diagonal de validez por encima de los valores de
comparación en su renglón y columna. Se ha propuesto el uso de correlaciones entre las columnas de variables que miden el mismo rasgo, el análisis de
varianza y el análisis factorial. El desarrollo de tales métodos estadísticos está más allá del propósito de esta exposición. Los psicólogos no deben interesarse en evaluar los tests como
si fueran fijos y definitivos, sino más bien en desarrollar mejores tests. Un examen cuidadoso de una matriz multirrasgo-multimétodo indicará
al experimentador los pasos que debe dar; le indicará qué métodos debe descartar o reemplazar, los conceptos que necesitan una delineación más definida y los que
son más pobremente medidos a causa de la excesiva o desconcertante varianza de método. Los juicios de validez basados en tal matriz deben tener en cuenta la
etapa de desarrollo de los constructos, las relaciones postuladas entre ellos, el nivel de afinamiento técnico de los métodos, la relativa independencia de
estos y cualquier característica pertinente de la muestra de sujetos. Estamos proponiendo que el proceso de validación sea considerado un aspecto de un
programa de mejoramiento de los procedimientos de medición, y que los "coeficientes de validez" obtenidos en cualquier etapa del proceso sean
interpretados como ganancia sobre las etapas precedentes y señales de hacia dónde dirigir los esfuerzos ulteriores. El diseño de una matriz multirrasgo-multimétodo. Los
diferentes métodos y rasgos incluidos en una matriz de validación deben seleccionarse con cuidado. Los diversos métodos que miden cada rasgo deben ser
adecuados a cómo se ha conceptualizado el rasgo. Aunque esta perspectiva reducirá el rango de métodos adecuados, rara vez restringirá la medición a un
procedimiento operacional. Siempre que se pueda, los diversos métodos en una matriz
deben ser completamente independientes entre sí; no debe haber ninguna razón previa para creer que comparten varianza de método. Este requisito es necesario
para que los valores en los triángulos de hsterométodo-heterorrasgo se acerquen a cero. Si la naturaleza de los rasgos excluye la independencia de métodos,
deben hacerse esfuerzos para obtener diversidad en cuanto a las fuentes de datos y a los procesos de clasificación. De este modo, las clases de estímulos o las
situaciones de fondo, es decir, los contextos experimentales, deben ser diferentes. Además, las personas que proporcionen las observaciones deberán
tener diferentes papeles o los procedimientos de calificación deberán ser variados. Los planes para una matriz de validación deben tener en
cuenta la diferencia entre las interpretaciones con respecto a la convergencia y a la discriminación. Basta con demostrar convergencia entre dos métodos
claramente distintos que muestran poco traslapamiento en los triángulos de heterorrasgo-heterométodo. Mientras el acuerdo entre varios métodos sea
deseable, la convergencia de dos es un requisito mínimo satisfactorio. La validación discriminativa no se logra con facilidad. Así como es imposible
comprobar la hipótesis de nulidad, o que un objeto no existe, no se puede establecer que un rasgo, como es medido, se diferencia de todos los demás.
Solamente se puede mostrar que la medida del rasgo A tiene poco traslapamiento con las medidas de B y C, y ninguna generalización segura puede hacerse más allá
de B y C. Por ejemplo, el equilibrio social probablemente pudiera discriminarse fácilmente de los intereses estéticos, pero también debe ser diferenciado de
liderazgo. En cuanto a los rasgos relacionados y que se espera se correlacionen entre sí, las correlaciones de monométodo serán sustanciales y las
de heterométodo entre rasgos también serán positivas. Si se quiere facilidad e interpretación, es mejor incluir en la matriz por lo menos dos rasgos y
preferiblemente dos conjuntos de rasgos que sean postulados independientes entre sí. Muchas matrices multirrasgo-multimétodo no mostrarán validación convergente;
puede no haber ninguna relación entre dos métodos de medición de un rasgo. En esta situación común, el experimentador debe examinar las pruebas a favor de
varias alternativas: a) ningún método es adecuado para medir el rasgo; b) uno de
los dos métodos no mide realmente el rasgo. (Cuando las pruebas indican que un método no mide el rasgo postulado, puede indicar que mide otro rasgo. Las altas
correlaciones en los triángulos de heterorrasgo-heterométodo pueden ofrecer sugerencias a tales posibilidades).
c), el rasgo no es una unidad funcional, es decir, las tendencias de respuesta que intervienen son propias de los
atributos y no del rasgo de cada test. El fracaso al demostrar la convergencia puede llevar a desarrollos conceptuales en lugar de abandonar el test.
RESUMEN
Se propone un proceso de validación que utiliza una matriz de intercorrelaciones entre los tests que representan por lo menos dos rasgos, cada
uno medido por un mínimo de dos métodos. Las medidas del mismo rasgo deben correlacionarse más entre sí que con medidas de diferentes rasgos que involucren
distintos métodos. Idealmente, estos valores de validez también deben ser más altos que las correlaciones entre los diferentes rasgos medidos por el mismo método.
Ejemplos hallados en la bibliografía muestran que estas condiciones deseables,
como grupo, rara vez son satisfechas. Los factores de método o de aparato contribuyen grandemente a las medidas psicológicas.
Las nociones de convergencia entre las medidas independientes del mismo rasgo y
la discriminación entre las medidas de diferentes rasgos son comparadas con las formulaciones publicadas anteriormente, como la validez de constructo y el
operacionalismo convergente. Los problemas de la aplicación de este proceso de validación ya se consideraron.
BIBLIOGRAFIA
Las Validaciones Convergente y Discriminante Mediante la Matriz Multirrasgo-Multimétodo
La experiencia acumulada en la medida de las diferencias individuales durante
los últimos 50 años, señala que los tests han sido aceptados o descartados en cuanto a su validez gracias a muchas clases de experiencias de investigación.
Los criterios que sugiere este trabajo se encuentran en dichas evaluaciones acumulativas, así como también en los recientes estudios acerca de la validez.
Estos criterios se aclaran y aumentan su eficacia cuando se consideran conjuntamente en el contexto de una matriz multirrasgo-multimétodo. Los aspectos
más estudiados del proceso de validación son los siguientes:
1. La validación es característicamente convergente, es decir, una corroboración
por procedimientos de medición independientes. La independencia de los métodos es el denominador común de los principales tipos de validez (con la excepción de
la validez de contenido) en la medida en que se distinguen de la confiabilidad.
2. Ya sea para justificar las mediciones de nuevos rasgos, para la validación de
la interpretación de tests, o para el establecimiento de la validez de construcción, se requiere la validación discriminante, así como también la
validación convergente. Los tests pueden ser invalidados por tener correlaciones demasiado altas con otros, cuando la intención ha sido que difieran.
3. Cada test o cada tarea empleados con propósitos de medición es una unidad rasgo-método, una unión
del contenido de un rasgo particular con procedimientos de medida que no son propios de ese contenido. La varianza sistemática entre las puntuaciones de un
test puede deberse a la respuesta frente a las cualidades de la medición, así como de la respuesta al contenido del rasgo.
4. Para examinar la validez discriminante y para estimar las contribuciones relativas de la varianza del método y del rasgo, debe emplearse mós de un rasgo
y más de un método, en el proceso de validación. En muchos casos será conveniente realizarlo a través de una matriz multirrasgo-multimétodo , que
presenta todas las intercorrelaciones resultantes cuando cada uno de los diferentes rasgos se mide por cada uno de los distintos métodos.
Para ilustrar el proceso de validación sugerido, se presenta un ejemplo sintético en la tabla 1. En este ejemplo intervienen tres rasgos diferentes,
cada uno medido por tres métodos, que generan nueve variables distintas. Es conveniente nombrar las diferentes regiones de la matriz, como se hace en la
tabla 1. Las confiabilidades se mencionan en términos de tres diagonales de confiabilidad, una para cada método. Las confiabilidades también podrán
designarse como valores de monorrasgo-monométodo. El triángulo adyacente a cada diagonal de confiabilidad se llama triángulo heterorrasgo-monométodo. La
diagonal de confiabilidad y el triángulo adyacente heterorrasgo-mono método forman un bloque monométodo. Un bloque heterométodo está formado por una
diagonal de validez (que también puede designarse como valores de monorrasgo-heterométodo) y los dos triángulos heterorrasgo-heterométodo) que están a cada lado de ella.
Nótese que los dos triángulos heterorrasgo-heterométodo no son idénticos.
En términos de este diagrama, la cuestión de la validez radica en cuatro aspectos. En primer lugar, las anotaciones de la, diagonal de validez deben ser
significativamente diferentes de cero y suficientemente grandes para estimular un examen más amplio de la validez este requisito es una señal de validez
convergente. En segundo lugar, un valor de la diagonal de validez debe ser mayor que los de su columna y renglón en los triángulos heterorrasgo-heterométodo. Es
décir, el valor de la validez de una variable debe ser mayor que las correlaciones obtenidas entre esa variable y cualquier otra que no tenga en
común con ella el mismo rasgo ni el mismo método. Este requisito puede parecer demasiado insignificante y obvio para establecerlo; sin embargo, un estudio de
las publicaciones acerca del problema muestra que frecuentemente no queda satisfecho, aun cuando los coeficientes de validez son de magnitud considerable.
En la tabla 1 todos los valores de validez satisfacen este requisito. Un tercer desiderátum de sentido común es que una variable se correlacione en mayor grado
con esfuerzo independiente de medir el mismo rasgo que con mediciones de diferentes rasgos que emplean el mismo método. Ante una variable determinada, en
consecuencia, es necesario comparar los valores de sus diagonales de validez con los valores de sus triángulos heterorrasgo-monométodo. Ante las variables A1 B1
y C1, este requisito se satisface en cierta medida. En las otras variables, A2, A3, etcétera, no sucede de la misma manera y este es, posiblemente, el caso
típico de la investigación de las diferencias individuales, problema que veremos en seguida. Un cuarto desiderátum es que se exhiba el mismo patrón de
interrelaciones de rasgo en todos los triángulos heterorrasgo de los bloques mónométodo y heterométodo. Los datos ficticios de la tabla la satisfacen este
requisito en grado notable, a pesar de los diferentes niveles generales de correlación que intervienen en los varios triángulos heterorrasgo. Los tres
últimos criterios evidencian la validez discriminante. Antes de examinar las matrices multirrasgo-multimétodo existentes en la
bibliografía, veamos una explicación y justificación de este complejo de requisitos.
Convergencia de métodos independientes: distinción entre confiabilidad y validez Los
conceptos de confiabilidad y validez requieren que la concordancia entre las medidas sea demostrada. Un denominador común de la mayoría de los conceptos de
validez en contraste con el de confiabilidad es que el de la unión representa la convergencia de actitudes independientes: Se señala el concepto de independencia
con frases como "variable externa", "ejecución de criterio", "criterio conductual" (American Psychological Association, 1954) si se usan en conexión
con la validez concurrente y la predictiva. Con respecto a la validez de constructo se ha descrito de esta manera: "Numerosas predicciones acertadas que
tratan de "criterios" fenótípicamente diversos dan mayor peso a la pretensión de validez de constructo que las. ... predicciones que incluyen conductas muy
similares" (Cronbach y Meehl, 1955). La significación de la independencia sé repite en la mayoría de los estudios de la comprobación. Por ejemplo, Ayer, al
analizar la creencia del historiador en un suceso del pasado, dice: "Si estas fuentes son numerosas e independientes y si concuerdan entre sí, se tendrá
bastante confianza en que su narración es correcta". (Ayer, 1954 ). Al examinar la manera en que los conceptos científicos abstractos se ligan con las
operaciones, Feigl habla de una "fijación" por "triangulación en el espacio lógico" (Feigl 1958).
La independencia es, por supuesto, cuestión de grado, y en este sentido la confiabilidad y la validez pueden verse como las regiones de un continuo (Thurstone,
1937). La confiabilidad es el grado de unión entre dos esfuerzos para medir el mismo rasgo a través de la máxima similitud de los métodos. La validez está
representada por el grado de unión entre dos intentos de medir el mismo rasgo a través de la máxima diferencia de los métodos. Una confiabilidad de división en
mitades se asemeja más a un coeficiente de validez que una confiabilidad inmediata de test-retest, porque los ítemes o reactivos no son completamente
idénticos. Una correlación entre subtests no similares es probablemente una medida de confiabilidad, pero se acerca aún más a la región llamada validez.
Se puede llevar a cabo una evaluación de la validez aunque los dos métodos no sean enteramente independientes. En la tabla 1, por ejemplo, es posible que los
métodos 1 y 2 no sean enteramente independientes. Si los rasgos subyacentes A y B lo son por completo, entonces una correlación mínima de .10 en los triángulos
heterorrasgo-heterométodo reflejará la covarianza de método. ¿Qué pasará cuando el traslapamiento de varianza de método sea más alto? Todas las correlaciones en
el bloque de heterométodo se elevarán, incluyendo a la diagonal de validez. El bloque de heterométodos que incluye los métodos 2 y 3 en la tabla 1 es un
ejemplo de este caso. El grado de elevación de la diagonal de validez por encima de los triángulos heterorrasgo-heterométodo no deja de ser semejante y la
validez relativa aún puede evaluarse. Así pues, la interpretación absoluta de la diagonal de validez requiere una afortunada coincidencia de la independencia de
rasgos y la independencia de métodos, que representan los valores de cero en los triángulos heterorrasgo-heterométodo. Pero los valores de cero también pueden
ocurrir a través de una combinación de correlación negativa entre los rasgos y de correlación positiva entre los métodos, o viceversa. En la práctica, tal vez
no se puede esperar sino señales de validez relativa, es decir, de varianza común concreta de un rasgo más allá de la varianza común de método.
La validación discriminante. Mientras la base general para el juicio de invalidez suele consistir en las bajas correlaciones
de la diagonal de validez (por ejemplo, los tests de disposición-temperamento de Downey, Symonds, 1931), los tests también se invalidan debido a correlaciones
muy altas con otros tests destinados a medir objetos diferentes. El problema clásico de los tests de inteligencia social viene al caso. Dicha invalidez
ocurre cuando los valores de los triángulos heterorrasgo-heterométodo son tan altos como los de la diagonal de validez o también cuando dentro de un bloque
monométodo, los valores de heterorrasgo son tan altos como las confiabilidades. Loevinger, Gleser y Du-Bois (1953) han subrayado este requisito para el
desarrollo de subtests de máxima discriminación. Cuando se ha supuesto una dimensión de la personalidad al proponer una
construcción., el que propone invariablemente distingue entre la nueva dimensión y otras construcciones que se usan. No se puede definir sin implicar
distinciones, y la verificación de las distinciones es una parte importante del proceso de validación. En las discusiones acerca de la validez de construcción,
se han expresado términos como "desde este punto de vista, una baja correlación con la capacidad atlética puede ser justamente tan importante y alentadora como
una correlación alta con la comprensión de lectura" (APA, 1954). El test como unidad rasgo-método.
En cualquier instrumento de medición psicológica, hay formas o estímulos que se introducen
con intención de representar el rasgo que se intenta medir. Hay otras formas características del método que se emplea, formas que también podrían estar
presentes en los esfuerzos para medir rasgos completamente diferentes. El test, la escala de estimación u otro instrumento, casi inevitablemente producen
varianza sistemática en las respuestas debido a ambos grupos de factores. En el mismo grado en que las pequeñas varianzas del método contribuyen a las
puntuaciones obterüdas, éstas también son inválidas. Esta fuente de invalidez se advirtió por primera vez en los "efectos de halo" de
las estimaciones (Thorndike, 1920). Los estudios de las diferencias individuales entre animales de laboratorio revelaron los "factores de aparato", generalmente
más dominantes que los factores de procesos psicológicos (Tryon, 1942). En los tests de papel y lápiz, la varianza de los métodos se ha señalado en términos
como "factores de la forma del test", (Vernon, 1957, 1958) y "disposiciones de respuesta" (Cronbach, 1946, 1950; Lorge, I 1937). Cronbach se ha expresado en
forma muy clara: "La suposición que se suele hacer es... que el test mide un objeto que se determina por el contenido de los ítemes. Sin embargo, la
puntuación final. . , es un compuesto de los efectos resultantes del contenido del ítem y de los efectos resultantes de la forma del ítem usado". (Cronbach,
1946). "Las disposiciones de respuesta siempre disminuyen la validez lógica de un test... las de respuesta interfieren con las inferencias de los datos del
test". Si bien, E.L. Thorndike (1920) se inclinó a sostener la presencia de los efectos de halo al
comparar las correlaciones altas obtenidas con nociones de sentido común en relación a lo que deberían ser (por ejemplo, no era razonable que la
inteligencia y la calidad de la voz de un maestro se correlacionaran en un .63) y aun cuando gran parte de la evidencia de la varianza de la disposición de
respuesta es de la misma clase, la demostración clara de la presencia de la varianza de método requiere varios rasgos y varios métodos. También altas
correlaciones entre tests pueden explicarse como debidas a la semejanza básica de rasgos o a la varianza compartida del método. En la matriz multirrasgo-multimétodo,
la presencia de la varianza de método está indicada por la diferencia en el nivel de correlación entre los valores paralelos del bloque monométodo y de los
bloques heterométodo, si se supone que hay semejanza de confiabilidades entre todos los tests. Así, la contribución de la varianza de método en el test A1 de
la tabla 1 se indica por la elevación de rA1 B1 por encima de rA1 B2, la diferencia entre .51 y .22, etcétera. La
distinción entre rasgo y método interesa, por supuesto, a los propósitos de quien elabora el test. Lo que puede ser una indeseable respuesta de disposición
para un examinador, puede ser un rasgo para otro que desee medir la aquiescencia, el gusto por adoptar una
posición extrema o la tendencia a adjudicarse atributos socialmente deseables (Cronbach, 1946,1950; Edwards, 1957; Lorge, 1937).
Bibliografía existente acerca de matrices multirrasgo-multimétodo
Las matrices multirrasgo-multimétodo son raras en los estudios existentes sobre tests y medición. Más frecuentes son dos tipos de fragmentos: dos métodos y un
rasgo (valores individuales aislados en la diagonal de validez quizá acompañados por una o dos confiabilidades) y triángulos heterorrasgo-monométodo. Cualquier
fragmento podrá encubrir la inadecuación de nuestros actuales esfuerzos de medición, particularmente cuando no llaman la atención hacia la fuerza
preponderante de la varianza de métodos. Las pruebas de validez de un test presentadas aquí son quizá más pobres de lo que esperarían la mayoría de los
psicólogos. Una de las primeras matrices de esta clase la proporcionaron Kelley y Krey en
1934. Las opiniones realizadas por sus compañeros estudiantes proporcionaron, además de un método, puntuaciones en
un test de asociación de palabras. La tabla 2 presenta los datos de los cuatro rasgos más válidos. El cuadro es uno de los factores más fuertes del método,
particularmente entre las estimaciones de los compañeros, y casi de una invalidez total. Para una de las ocho medidas, el impulso escolar, el valor de
la diagonal de validez (.16) es más alto que todos los valores de heterorrasgo-heterométodo. La ausencia de la validez discriminante se indica más
ampliamente por la tendencia de los valores dentro de los triángulos monométodo
a aproximarse a las confiabilidades.
Uno de los primeros ejemplos de estudios de animales se encuentra en el examen de las pulsiones de Anderson (1937). La tabla 3 presenta una muestra de sus
datos. Repetidamente, las correlaciones más altas se encuentran entre diferentes construcciones con el mismo método, lo que señala el predominio de los factores
de aparato o de método característicos del campo de las diferencias individuales. La diagonal de validez del hambre es más alta que los valores
heteroconstructo-heterométodo. El valor de la diagonal del sexo no está en itálicas como coeficiente de validez, pues la medida de la caja de obstrucción
fue anterior a la oportunidad de sexo y la de la rueda de actualidad fue posterior a la oportunidad. Nótese que el alto nivel general de los valores
heterorrasgo-heterométodo podría deberse a la correlación de varianza de métodos entre los dos métodos o a la correlación de varianza de rasgo. Sobre una
base apriorística, sin embargo, los métodos parecen tan independientes como se deseen. El predominio de un factor de aparato en la rueda de actividad evidencia
el hecho de que la correlación entre hambre y sed (.87) es de la misma magnitud
que sus confiabilidades test-retest (.83 y .92, respectivamente).
El estudio de R.L. Thorndike (1936) acerca de la validez del Test de Inteligencia Social George Washington es el ejemplo clásico de invalidación por
alta correlación entre los rasgos. Contenía el cómputo de todas las interrelaciones entre las cinco subescalas del test de inteligencia social y las
cinco subescalas del Test de Agilidad Mental George Washington. El modelo exigiría que cada uno de los rasgos, inteligencia social y
agilidad mental, fueran medidos por lo menos con dos métodos. Si bien en el estudio no se intentó una simetría completa puede interpretarse así sin
demasiada distorsión. Para ambos rasgos existían subtests que empleaban la adquisición de conocimiento durante el periodo de
prueba (es decir, el aprendizaje o memoria), tests que involucraban comprensión
de pasajes en prosa y tests que exigían la actividad de dar definiciones. Si los tres subtests del Test de Inteligencia Social se
consideran como tres métodos de medición de la inteligencia social, sus intercorrelaciones (.30, .23 y .31) representan valores de validez que no son
solamente más bajos que sus correspondientes valores de monométodo, sino también más bajos que las correlaciones heterorrasgo-heterométodo, con lo que
proporcionan un cuadro que falla totalmente al establecer la inteligencia social como una dimensión distinta. Las diagonales de validez de agilidad
mental (.38, .58 y .48) igualan o exceden los valores monométodo en dos de tres casos y exceden todos los valores de control heterorrasgo-heterométodo. Estos
resultados ilustran las conclusiones generales de Thorndike en su análisis
factorial de la matriz total, 10 X 10.
Los datos de la tabla 4 pueden usarse para validar formas concretas del funcionamiento cognoscitivo, como las que miden los diferentes "métodos" que
representa el contenido de un test de inteligencia general por una parte y el de contenido social por la otra. La tabla 5 muestra un nuevo arreglo de los 15
valores con este propósito. Los valores de monométodo y las diagonales de validez intercambian sus lugares mientras los coeficientes de control de
heterorrasgo-heterométodo son los mismos en ambas tablas. Juzgados en contraste con estos últimos valores, la comprensión (.48) y el vocabulario (.47), pera no
la memoria (.31), exhiben cierta validez específica. Esta trasmutabilidad de la matriz de validación apoya las comparaciones dentro del bloque heterométodo como
las más pertinentes, en general, para los datos de validación e ilustra la intercambiabilidad potencial de los componentes de rasgo y método.
Algunas de las correlaciones en el talentoso estudio de Chi (1937) de los efectos de halo de las estimaciones se
adecuan a la matriz multirrasgo-multimétodo,
en la que cada evaluador puede considerarse como representante de un método diferente. Aun cuando el informe publicado no los hace asequibles en detalle
debido a que emplea valores promediados, de la comparación de sus tablas IV y VIII se infiere que las estimaciones del mismo rasgo hechas por evaluadores
diferentes fracasaron al no correlacionar más que las estimaciones de diferentes rasgos hechas por el mismo evaluador. La validez se exhibe en la medida en que
las correlaciones de la diagonal de validez del bloque heterométodo son más altas que los valores promedio heterorrasgo-heterométodo.
Campbell (1953, 1956) proporciona una matriz multirrasgo-multimétodo manifiestamente insatisfactoria con relación a la estimación de la conducta como
líderes de oficiales, hecha por sí mismos y por sus subordinados. Solamente 1 de las 11 variables (la conducta de reconocimiento) satisfizo el requerimiento de
proporcionar de la diagonal de validez, un valor más alto que cualquiera de los valores heterorrasgo-heterométodo, de .29. Ninguna de las variables tuvo valores
de validez más altos que los de heterorrasgo-heterométodo.
Un estudio de las actitudes ante la
autoridad y la no autoridad realizado por Burwen y Campbell (1957) contiene una compleja matriz multirrasgo-multimétodo de la cual se muestra un extracto
simétrico en la tabla 6. Hubo una fuerte varianza de método para la mayoría de los procedimientos del estudio. Se encontró validez primordialmente en el nivel
de los valores de la diagonal de validez mayores que los de heterorrasgo -heterométodo. Como se ve en la tabla 6, la actitud hacia el padre mostró esta clase de
validez, del mismo modo que la actitud hacia los compañeros, pero en un grado menor. La actitud hacia el patrón no mostró validez. No hubo evidencia de una
actitud generalizada hacia la autoridad que incluyera padre y patrón, aunque valores como la correlación de .64 entre padre y patrón, medidos por entrevista,
parecería confirmar la hipótesis de que se encuentran aislados.
Borgatta (1954) ha proporcionado un estudio complejo de multimétodo, del cual la tabla 7 es un extracto que ejemplifica la evaluación de dos rasgos por cuatro
métodos diferentes. Para todas las medidas excepto una, la correlación más alta es la de aparato, es decir, con el otro rasgo medido por el mismo método en
lugar del mismo rasgo medido por diferente método. Ninguno de los rasgos encuentra validación consistente para el requisito de que las diagonales de
validez excedan los valores control heterorrasgo-heterométodo. Como requisito mínimo, podría pedirse que la suma de los dos valores de la diagonal de validez
exceda la suma de los dos valores control, para proporcionar una comparación en la que las diferencias de confiabilidad o comunalidad sean burdamente "parcial¡zadas". Esta condición se logra al nivel puramente fortuito de tres veces en las
seis tétradas. Esta matriz proporciona una clase interesante de independencia metodológica. Las dos medidas "sociométricas de otros", si bien representan los
juicios del mismo grupo de los compañeros participantes, proceden de distintas tareas; la popularidad se basa en la expresión de cada participante de sus
preferencias de amistad, mientras que la expansividad se basa en lo que cada participante adivinó con respecto a las elecciones de otros participantes, de
las que se ha calculado la reputación de cada participante por la porción de simpatía de otras personas, es decir, la cualidad "expansiva". junto a esta
considerable independencia, la certidumbre de un factor de método es relativamente baja en comparación con los procedimientos de observación. De igual modo, las dos
medidas "sociométricas por sí mismo" representan tareas completamente distintas; la popularidad procede de las elecciones que estima le adjudicarán los otros; la
expansividad, del número de expresiones de atracción hacia otros que hace en la tarea sociométrica. En contraste, las medidas de popularidad y expansividad
según las observaciones de interacción de grupo y el juego de papeles no solamente implican los mismos observadores específicos, sino también que los
observadores estimaron el par de variables como parte de la misma tarea de estimación en cada situación. El grado aparente de varianza de método dentro de
cada una de las dos situaciones de observación y la varianza de método aparentemente compartida entre ellas es, en consecuencia, alta.
En otro artículo de Borgatta (1955), doce variables del proceso de interacción se midieron por medio de la observación cuantitativa en dos condiciones y un
test proyectivo. En este test, los estímulos fueron cuadros de grupos, para los cuales los sujetos generaron una serie de intercambios verbales que fueron
calificados después en las categorías de análisis del proceso de interacción. Como ejemplo, la tabla 8 presenta los cinco rasgos que tuvieron la más alta
media de comunidades en el análisis factorial total. Entre los dos métodos observacionales más semejantes, la validación es excelente; las diagonales de
validez son en general más altas que los valores de heterorrasgo de los bloques heterométodo y monométodo, casi intachablemente así para los incisos "da
opinión" y "da orientación". El patrón de correlación entre los rasgos también es generalmente confirmado. De mayor
interés, debido a su mayor independencia de métodos, son los bloques que contienen el test proyectivo. Aquí el cuadro de validez es mucho más pobre. El
inciso "da orientación" sale mejor, pues sus valores de validez de test proyectivo .35 y .33 son superados solamente por tres valores de monométodo y no
lo son por ninguno de los valores de heterorrasgo-heterométodo dentro de los bloques proyectivos.
El especialista en tests proyectivos puede objetar las expectativas implícitas de una correspondencia de uno a uno
entre la acción proyectada y la acción abierta. Las expectativas no deben atribuirse a Borgatta y no son necesarias para el método propuesto. Para el
modelo simétrico simple se ha supuesto que las medidas son denominadas en correspondencia con las correlaciones esperadas, es decir, en
relación con los rasgos que los tests afirman. Nótese que en la tabla 8, "da opinión" es el mejor pronóstico del test proyectivo de "manifiesta desacuerdo"
en conducta libre y en desempeño de errores. Si fuera asequible un fundamento teórico apropiado, los valores podrían considerarse de validez.
Mayo (1956) ha hecho un análisis de las puntuaciones de test y las estimaciones de esfuerzo e inteligencia, para juzgar la contribución del halo (una clase de
varianza de método) a las estimaciones. Como lo muestra la tabla 9, el cuadro de validez es ambiguo. El factor de método o efecto de halo en las estimaciones es
considerable aunque la correlación entre las dos estimaciones (.66) está muy por debajo de sus confiabilidades (.84 y .85). Las medidas objetivas no comparten un
traslapamiento apreciable de aparato porque fueron operaciones independientes. A pesar del argumento de Mayo acerca de que las estimaciones tienen alguna
varianza de rasgo válida, el valor heterorrasgo-heterométodo de .46 desprecia seriamente los notorios valores de validez de .46 y .40.
Cronbach (1949) y Vernon (1957, 1958) han estudiado la matriz multirrasgo-multimétodo de la tabla 10, basada en datos originalmente
presentados por H.S. Conrad. Con una técnica semejante, Vernon estima que el 61% de la varianza sistemática se debe a un factor general, a saber, que e1 21,5%
proviene de los factores de forma del test propios de las formas verbales o gráficas de los ítemes o reactivos y que solamente el 11,5% proviene de los
factores de contenido propios de contenidos eléctricos o mecánicos. Nótese que para los propósitos de estimación de la validez, la interpretación del factor
general, que estima a partir de valores de heterorrasgo-heterométodo de .49 y .45, es equívoca. Puede representar la varianza deseada de competencia, es
decir, componentes comunes a destrezas eléctricas y mecánicas que tal vez resultan de una experiencia general en almacenes industriales, de componentes
comunes de capacidad, del traslapamiento de situaciones de aprendizaje y de otras semejantes. Por otra parte, este factor general puede representar un
traslapamiento de factores de método, y deberse en ambos tests, a la presencia de formato de (temes o reactivns de elecraon múltiple, hojas de respuesta IBM, o
a la heterogenidad de los sujetos en cuanto a su escrupulosidad, su motivación para hacer tests y su adulteración al realizarlo. Mientras no se
introduzcan en la matriz de validación métodos aun más diferentes y rasgos aun más independientes, este factor continuará sin interpretación. Desde este punto
de vista, puede notarse que el 21,5% es muy pobre como estimación de la varianza total de la forma del test en los tests, pues representa solamente
componentes de la forma del test propios de los ítemes verbales o gráficos, es decir, componentes de la forma del test que no comparten las dos formas. De
igual forma, y sobre bases más esperadas que reales, el 11,5% de la varianza de contenido es una estimación muy pobre de la varianza verdadera total de rasgo
de los tests, pues representa solamente la varianza verdadera de rasgo que no comparten el conocimiento eléctrico y mecánico.
Carroll (1952) ha proporcionado datos sobre el inventario de Guilford-Martin de los factores STDCR y las estimaciones relacionadas, que pueden ser dispuestos de
una nueva manera en la matriz de la tabla 11. (La variable R ha sido invertida para reducir el número de correlaciones negativas). Puede pensarse que dos de
los métodos, las estimaciones de sí mismo y las puntuaciones de inventario, comparten varianza de método y que, por tanto, tienen una diagonal de validez
"inflada". Los bloques heterométodo más independientes que contienen las estimaciones de los compañeros tienen validez discriminante y convergente, con
diagonales de validez que promedian .33 (el inventario multiplicado por las estimaciones de compañeros) y .39 (las estimaciones de sí mismo multiplicado por
las estimaciones de los compañeros) en contraste con los valores de control heterorrasgo-heterométodo que promedian .14 y .16. Aunque no es del todo eficaz,
el cuadro es mejor que la mayoría de las matrices de validez que hemos visto. Nótese que las "estimaciones de sí mismo" muestran diagonales de validez
ligeramente más altas que las puntuaciones de inventario, a pesar de la mayor longitud e indudablemente mayor confiabüidad del segundo. Además, parece que un
factor de método falta casi totalmente en las estimaciones de sí mismo, mientras está fuertemente presente en el inventario, de manera que las estimaciones de sí
mismo quedan mejor cuando la verdadera varianza del rasgo se expresa como proporción de la varianza total confiable [como sugiere Vernon (1958)]. El
factor de método en el inventario de STDCR es indudablemente acrecentado por la calificación del mismo ítem o reactivo en varias escalas, lo que contribuye a la
varianza de error correlacionada, que puede reducirse sin perder confiabilidad mediante el recurso de agregar otros ítemes equivalentes y calificar cada ítem
solamente en una escala. Debe notarse que Carroll hace un uso explícito de la comparación de la diagonal de validez con los valores de
heterorrasgo-heterométodo como indicación de validez.
Análisis de reactivos y confiabilidad Las técnicas para determinar cuáles reactivos se deben conservar en una escala
se llaman técnicas de análisis de reactivos. Dicho en forma más sencilla, se seleccionan los reactivos que se correlacionan más estrechamente con los demás
reactivos de la escala. Obviamente, los reactivos que se correlacionan más con cada uno de los otros también se correlacionarán más estrechamente con la
puntuación total de la escala, que depende de la suma de aquéllos. El procedimiento más directo de análisis de reactivos tal vez sea la técnica de
correlación de reactivo con el total, en la que basta con seleccionar los reactivos que tengan las correlaciones más altas con la puntuación total.
Gran parte de la teoría del análisis de reactivos en la medición educativa se basa en reactivos dicotómicos y no policotómicos. Como esta última clase de
reactivos es más importante en la medición de actitudes, se omiten aquí las fórmulas de reactivo can el total respecto de dicotomías, que suelen presentarse
en las técnicas de análisis de reactivos. La mayoría de las fórmulas omiten, de la puntuación total, el reactivo en estudio, porque cuando éste se incluye la
correlación resultante del reactivo con el total es espuriamente alta (Zubin, 1934; Guilford, 1954; Henrysson, 1963). Sin embargo, recientemente Cureton
(1966) señaló que la confiabilidad de la escala total con el reactivo omitido varía inversamente a la confiabilidad de dicho reactivo. De esta manera, Cureton
sugiere que el reactivo omitido se reemplace con un reactivo razonablemente equivalente (paralelo) en la puntuación total. Hacer esto deja sin modificación
la confiabilidad de la escala total. Cureton demostró también que, si podemos suponer que la escala es homogénea factorialmente (monodimensional), entonces no
necesitamos realmente reemplazar el reactivo estudiado con uno razonablemente equivalente. Si pi,x es la correlación, no corregida de reactivo con el total
para el reactivo iésimo, Si = σ־i/σ־x, pxx' es la confiabilidad de la escala
total; entonces, de acuerdo con Cureton, la correlación corregida de reactivo con el total pi,x• para el reactivo i-ésimo es (21)
La fórmula (21) es cierta para todos los reactivos ya sean o no dicotómicos. Para usar (21) también necesitamos conocer la fórmula para las correlaciones no
corregidas de reactivo con el total. Dicha fórmula es (22)
donde j toma todos los valores, incluyendo
i. Usando la información de arriba,
podemos computar un ejemplo usando (21). Consultando la tabla 1, computaremos la
correlación de reactivo con el total para el reactivo 1. Empezaremos por
computar la correlación no
corregida. El numerador de (22) es sencillamente .534 + .115 +. . .
+ .129 = 1.55 Sustituyendo este valor en (22) obtenemos pi,x = 1.55/√.5341√ 12.508
= .597 que es la correlación no corregida de reactivo con el total. Vimos antes que pxx'=.70.
Calculando Si = √.534 / √12.508 = .206, podemos computar la correlación
corregida. Esta es
Nótese que la correlación no corregida es aproximadamente .15 más grande que la
corregida, que es una cantidad insignificante.
Cuando no se tiene una gran colección de reactivos, deben seleccionarse aquellos
que tengan las mejores correlaciones de reactivo con el total, en su escala. Sin
embargo, deben recordarse tres puntos importantes: Primero, como lo indica la
figura 1, la confiabilidad se incrementa sólo ligeramente al agregar reactivos
indefinidamente, así que por lo común se usarían no más de 15 reactivos en una
sola puntuación. Segundo, la fórmula (21) admite una sola dimensión que
fundamenta los reactivos y, a medida que se incrementa el número de estos, tal
suposición se vuelve cada vez menos sostenible. Tercero, cuanto mayor es el
número de reactivos, tanto más largo es el tiempo requerido para aplicar la
escala. Por tanto, se pueden tener muchos o pocos reactivos. Sin embargo, la
experiencia indica que lo último representa frecuentemente mayor problema que lo
primero.
Aunque este estudio de la confiabilidad es algo superficial, es suficiente para
proporcionar al investigador que desea elaborar una escala de actitud las
técnicas para estimar la confiabilidad de su instrumento de medida. Finalmente,
es importante percatarse de las limitaciones del método particular escogido. No
existe manera de determinar la confiabilidad exacta de un instrumento. Solamente
podemos obtener estimaciones y estas son adecuadas únicamente en el grado en que
se usen muestras adecuadas y en el grado en que se satisfagan las suposiciones
básicas de una técnica particular de estimación.
Pasaremos ahora al estudio del segundo aspecto importante para decidir el valor
de una escala de actitud: su validez.
VALIDEZ
La validez tiene varios significados diferentes. Sin embargo, puede darse una
definición muy general: La validez indica el grado en que un instrumento mide
la construcción que está en estudio. Así, un test de inteligencia verbal válido
es el que mide la inteligencia verbal y no alguna otra capacidad; una medida
válida de sociabilidad solamente mide ésta. Esto es, sin embargo, solo una
simplificación, pues la validez puede descomponerse en varios tipos. La
Asociación Norteamericana de Psicología (American Psychological Asociation)
(1966) en su Estándares de test y manuales educativos y psicológicos enumera
tres tipos:
a) validez de contenido;
b)validez relacionada con un criterio y
c)
validez de
construcción.
Validez de contenido
La validez de contenido se refiere al grado en que las puntuación o escala usada
representa el concepto acerca del cual se van a hacer generalizaciones. Aunque la
validez de contenido se considera cuidadosamente en la elaboración de tests de
aprovechamiento y de eficiencia, suele en cambio ignorársela en la elaboración
de escalas de actitudes. Muchos investigadores, dentro de la rama de medición de
actitudes, se han conformado con desarrollar un grupo de reactivos que, sobre
una base ad hoc, creen que miden lo que desean medir.
El investigador necesita examinar cuidadosamente la bibliografía respectiva para
determinar cómo han usado el concepto los diferentes autores. Además, aquél debe
confiar en sus propias observaciones y experiencias y preguntar si ofrecen
nuevas facetas del concepto en estudio. Entonces, puede elaborarse una serie de reactivos que midan
cada uno de los subestratos, del dominio del contenido, procedimiento conocido
como muestreo de un dominio de contenido, Los instrumentos de medida muestran
validez de contenido en el grado en que el muestreo del dominio del contenido
sea representativo de todos los estratos y en el grado en que los reactivos
elaborados exploren las sutilezas de significado dentro de cada uno de estos
estratos.
La alienación es, por ejemplo, un concepto que ha recibido gran atención; y
Seeman (1959) advierte que teóricos e investigadores lo han usado por lo menos
de cinco maneras diferentes: impotencia, carencia de significado, carencia de
normas, aislamiento y autoenajenación. Es fácil apreciar que alienación se
superpone al concepto de "anomia" (carencia de normas). Un poco de reflexión
produce otros conceptos que deben considerarse para elaborar una medida de la
alienación: apatía, disensión, extrañeza, privación de derechos, y así
sucesivamente. La cuestión aquí es que los investigadores usan volublemente la
alienación no obstante que tiene diferentes significados. Conceptualmente, la
alienación no es monodimensional en absoluto. Lo que quizá se necesita son
varias medidas, cada una de las cuales capte uno de los diversos significados
conferidos al concepto. Es probable que la validez de contenido se haya ignorado
por la enorme dificultad que lleva en sí la elaboración de una escala o un
conjunto de escalas que muestren un dominio de contenido. Pese a esto debe
aclararse definitivamente que las medidas ad hoc poco es lo que nos dicen acerca
de lo bien que una medida explora los diversos estratos del dominio de
contenido. Los diferentes investigadores que emplean el mismo término (por
ejemplo, alienación) pueden obtener resultados diferentes en la predicción de
variables dependientes sencillamente porque en realidad están midiendo
diferentes facetas de la construcción. Afirmaciones como "La inteligencia es lo
que miden los tests", representan un extremo en el operacionalismo, que, de ser
seguido, impediría el desarrollo de las ciencias sociales como verdaderas
ciencias. Cuando un investigador desarrolla una medida de alienación, le
corresponde también describir el fundamento (teoría e investigación) que
justifique llamar a una escala, elaborada con un conjunto particular de ítemes,
escala de "alienación".
La validez de contenido no es fácil de lograr en la mayoría de las puntuaciones
o escalas, ya que comúnmente no podemos enumerar todos los elementos de su
población (el dominio) y, por lo mismo, una muestra de ellos. Es imposible, de
ordinario, definir la población con rigor óptimo a menos que se elabore algo
semejante a un test de vocabulario, mediante el cual pueda usarse un diccionario
para enumerar la población. Por consiguiente, corresponde al investigador
explicar cómo ha determinado las fronteras del dominio en estudio. Es necesario
indicar cómo los reactivos utilizados aprehenden los diferentes significados que
los teóricos que lo han investigado le confieren a determinado concepto. Y deben
señalarse, además, las lagunas lógicas que haya en estas dos fuentes.
No hay un criterio estadístico aislado que pueda usarse para determinar si se ha
muestreado adecuadamente o no el dominio del concepto. Tampoco puede computarse
un sólo coeficiente de validez de contenido. Sin embargo, el investigador puede
tomar varias precauciones para estar seguro de la representación de los
diferentes matices de significado que haya dentro del dominio.
Primero, el dominio puede estratificarse en sus principales componentes. Uno
emplea simplemente los significados o facetas más importantes y evidentes del
concepto, procurando estar tan seguro como sea posible de que la estratificación
agota los significados del dominio. Uno puede decidir tomar cierto estrato y
dividirlo en subestratos, si el mencionado estrato no parece representar una
sola dimensión. De esta manera, la impotencia puede subdividirse en impotencia
política, económica y familiar, y así sucesivamente. Cuanto más se refinen estas
subáreas, tanto más fácil será elaborar posteriormente los reactivos.
Segundo, pueden escribirse varios reactivos para captar los
matices de significado asociados a cada estrato y subestrato. "Varios" significa
no menos de siete a diez reactivos. Se puede decidir cada vez no incluir un
reactivo en una escala después que se han reunido los datos; pero un reactivo
que no se incluyó se pierde para siempre. Esto es importante porque se encuentra
a menudo que varios reactivos no se comportaron de la manera esperada. Si
solamente se usan cinco reactivos para captar un estrato dado y se omiten dos
reactivos de la escala porque el análisis de reactivos indique que no se
correlacionan bien con los otros, debe construirse una escala de tres reactivos.
Como vimos en la sección sobre confiabilidad, el número de reactivos en la
escala de un investigador es importante para determinar la amplitud de su
estimación de la confiabilidad. Rara vez son muy confiables las escalas de tres
reactivos. Puede descubrirse que lo que se creyó un concepto monodimensional es
realmente bidimensional. Desafortunadamente, se puede terminar con sólo tres
reactivos para medir una dimensión y con dos para la otra. Cuando se tienen diez
reactivos y se encuentra con un grupo de tres reactivos, separado de los otros
siete, el grupo principal contendrá por lo menos siete reactivos.
Tercero se puede analizar los grupos de reactivos después que se han recogido
los datos para determinar si los reactivos elaborados para medir el significado
de un estrato dado están ya juntos. Determinar si los reactivos de un estrato se
correlacionan más estrechamente entre sí que con los reactivos de otros
estratos. La suposición que se hace es la siguiente: si un conjunto de reactivos
mide realmente un rasgo o actitud subyacente, entonces este rasgo o actitud
provoca la covariación entre los reactivos. Cuanto más altas sean las
correlaciones tanto mejores serán los reactivos que miden la misma construcción
subyacente. Se puede proceder de las maneras siguientes:
1. computar el promedio de las intercorrelaciones dentro de
un estrato y compararlo con la correlación promedio de estos mismos reactivos
con reactivos incluidos en los otros estratos. La correlación promedio dentro
del grupo debe ser más alta que las correlaciones promedio entre los grupos. Si
la correlación promedio entre los grupos es más alta que la correlación promedio
dentro de los grupos, los reactivos de un grupo, en promedio, pueden usarse para
predecir las respuestas a los reactivos de los otros estratos mejor de lo que
podrían predecir las respuestas a los reactivos dentro del estrato al que
pertenecen. Esto indicaría muy seguramente que uno o más de los reactivos del
grupo no pertenecen al estrato al que fueron asignados originalmente.
2. Verificar las intercorrelaciones de cada reactivo con cada
uno de los demás del estrato, y comparar estas correlaciones del reactivo con
las de los reactivos de los otros estratos. Cuando un reactivo se correlaciona
un poco más dentro de su propio estrato que dentro de otros, probablemente
pertenezca al estrato donde está. Cuando este no es el caso, es preciso
localizar el estrato con el que, en promedio, se correlaciona más altamente. Es
decir, averiguar dónde se ajustan mejor estadísticamente los reactivos. Sin
embargo es necesario decidir después si el contenído del reactivo mal colocado
concuerda con el del estrato al que se ha trasladado, ya que también debe
ajustar semánticamente en el estrato.
Un reactivo que se correlaciona casi igualmente bien en dos
estratos, por lo general no es un buen reactivo. No es conveniente porque está
en la frontera entre dos estratos. Incluirlo dentro de uno de los grupos
producirá una correlación algo más alta entre las dos puntuaciones, que si fuera
sencilla y enteramente omitido. En resumen, aunque no puede demostrarse la
validez de contenido con un sólo coeficiente, pueden aplicarse procedimientos
estadísticos y lógicos para asegurar que los reactivos tengan validez de
contenido.
Validez relacionada con un criterio
La validez relacionada con un criterio se determina
correlacionando la medida realizada con una medida directa de la característica
en investigación. Los criterios se dividen generalmente en concurrentes y
predictivos. Una escala de actitud diseñada para medir la ortodoxia religiosa
puede evaluarse concurrentemente preguntando sobre la asistencia a la iglesia.
Algunos instrumentos como los tests de actitud y de rendimiento, se diseñan
solamente con propósitos de predicción. Pueden usarse para predecir el éxito en
el trabajo o para predecir el éxito o fracaso en la universidad y así
sucesivamente. Determinar qué es concurrente y qué es predictivo no siempre
resulta fácil. Sin embargo, los criterios predictivos se reservan generalmente
para pronósticos de largo alcance.
Debe quedar claro que una escala que tenga validez
concurrente no necesariamente tendrá validez predictiva. Un conjunto de
reactivos, que mide las creencias políticas, puede correlacionarse en alto grado
con el partido por el que una persona cree que votará en noviembre. Sin embargo,
la escala puede correlacionarse algo menos con la conducta real del mismo
sujeto. Las actitudes cambian con el tiempo y, por tanto, la relación que
mantienen con la conducta es algo menos que de uno a uno.
En tanto que la validez de contenido no es demostrable con un
solo coeficiente, la relacionada con un criterio sí. Como se indicó
anteriormente, todo lo que hace el investigador es correlacionar su escala con
el criterio, y este coeficiente de correlación es el que se toma como
coeficiente de validez. Sin embargo, este coeficiente puede atenuarse por falta
de confiabilidad, ya en la escala o en el criterio mismo. El método de
corrección de no confiabilidad es la corrección por atenuación [fórmula (14)].
Por tanto, si una medida de ortodoxia religiosa tiene una confiabilidad de .8 y
la confiabilidad de la medida de asistencia a los servicios religiosos es .9, y
las dos medidas tienen entre sí una correlación de .6, la correlación verdadera
estimada entre las dos variables es de
.6 / √(.8) (.9) = .71. Es decir, la varianza de la
asistencia a la iglesia, explicada por la ortodoxia, aumenta aproximadamente el
14 % cuando se tiene en cuenta la falta de confiabilidad de las dos variables[
(.71)2 - (.60)2 = .14]. Como se indicó anteriormente, la correlación corregida
es solamente una estimación de la correlación verdadera entre las variables ya
que todos los componentes tienen distribuciones relativas a las muestras. Sin
embargo, cuando se tienen muestras grandes y buenas estimaciones de
confiabilidad, la correlación corregida entre una escala y un criterio puede
suministrar información útil acerca de la validez de dicha escala.
Muchas de las construcciones de interés en la investigación de actitudes no
tienen, ciertamente, un sólo criterio con el que pueda comprobarse la validez de
la medida que se posee. El "criterio" puede ser muchas veces una medida más
falsa de la construcción que la escala elaborada. Por ejemplo, este puede ser el
caso de las estimaciones de las características de personalidad hechas por
psiquiatras. Esta es una razón de lo indeseable que sería eliminar una escala
como medida inválida debido a una correlación cercana a cero, a menos que se
estuviera convencido relativamente de la validez del criterio mismo. En la
sección siguiente, consideraremos otros métodos de validación cuando no existe
un sólo criterio "sólido".
Validez de construcción
La validez de construcción se evalúa investigando qué
cualidades mide un test, es decir, determinando el grado en que ciertos
conceptos o construcciones explicatorias dan razón de la ejecución en el test
(Asociación Americana de Psicología, 1966, pág. 13). Las Recomendaciones
técnicas de la APA, indican además que los estudios de validez de construcción
se efectúan para validar la teoría que fundamenta la escala, puntuación o test
elaborado. El investigador valida sus escalas investigando si confirman o niegan
las hipótesis procedentes de una teoría que se basa en las construcciones. Por
supuesto, una de las limitaciones de este procedimiento es que la incapacidad
para predecir conforme a las hipótesis puede ser resultado de falta de validez
de construcción o de una teoría incorrecta. No obstante, aquí nos
desentenderemos de este problema.
La validez de construcción se desarrolló para reemplazar la
plétora de términos como "validez de aspecto", "validez lógica", "validez
intrínseca", "validez factorial" y "validez de rasgo", que habían ido surgiendo
al paso de los años. Estos conceptos tenían diferentes matices de significado,
pero todos estaban ligados por la noción de que un rasgo o construcción
subyacente explicaba la varianza de la medida obtenida. A diferencia de muchas
construcciones de las ciencias físicas, pocas de aquellas en las ciencias
sociales están definidas operacionalmente, es decir, no hay aceptación general
de conjuntos de operaciones como definiciones de construcciones. Cuando no hay
aceptación de definiciones operacionales dentro de una disciplina, los
investigadores se muestran a veces altaneros y exclaman: "anomia" es lo que
miden estos cinco reactivos". Sin embargo, cuando solo unos cuantos
investigadores de determinada ciencia están dispuestos a conformarse con la
definición operacional se sobreviene la confusión. Diferentes investigadores
usan el mismo nombre de una construcción (por ejemplo, "anomia"), pero cada uno
con significado algo diferente. Cuando esto sucede, las generalizaciones en
torno a la construcción son imposibles de hacer ya que realmente no hay una sola
construcción en investigación, sino una multitud de construcciones. Dado que no
están especificadas exactamente muchas de las construcciones de las ciencias
sociales, es improbable la aceptación de definiciones operacionales. Por tanto,
es relativamente raro que se pueda correlacionar su medida con alguna variable
de criterio real para evaluar su validez. En su lugar, son necesarios
procedimientos de validación más indirectos y esto señala la necesidad del
concepto de validez de construcción.
Debido a la falibilidad de cualquier criterio aislado,
necesitamos validar nuestra medida de X con varias medidas independientes, las
cuales midan supuestamente a X. Figurémonos, por ejemplo, que estamos
interesados en elaborar una escala para medir el grado de la tendencia a ser
conservador en lo económico. Podríamos elaborar diez reactivos que averigüen las
opiniones acerca del laissez-faire del gobierno, la ayuda gubernamental a la
educación y así sucesivamente, de parte de todos los individuos que contesten
directamente. Sin embargo, para validar la escala elaborada con estos diez
reactivos podríamos pedir a los tres mejores amigos de cada sujeto interrogado
que complete los reactivos en la forma que creen los completaría el sujeto. Una
tercera medida sería incluir una estimación personal, del sujeto acerca de la
semejanza de su propia filosofía con la de varios individuos bien conocidos y
podría sugerirse que la varianza en los diez reactivos se debería realmente no
al hecho de ser conservador económicamente sino a la clase social o a la
inteligencia. Podemos correlacionar nuestra medida original de conservadurismo
económico con las dos medidas independientes del mismo aspecto y con las medidas
de clase social y de inteligencia. Idealmente, las tres medidas independientes
de conservadurismo económico se correlacionarían estrechamente entre sí y,
además, la medida original no se correlacionaría grandemente con las medidas de
clase social y de inteligencia. Si tal sucediera, ello nos alentaría al grado de
aceptar la escala como una medida válida de conservadurismo económico. Sin
embargo, supongamos que encontramos no solamente altas correlaciones entre
nuestras tres medidas, sino también entre nuestra escala de clase social y de
inteligencia. Estas últimas correlaciones no invalidarían nuestra escala si por
razones teóricas esperáramos estas correlaciones. Es decir, si la teoría
política predice una alta correlación positiva entre conservadurismo económico y
clase social, y esto realmente sucede, se válida igualmente la medida. Sin
embargo, las correlaciones entre las tres medidas de conservadurismo económico
deben ser más altas que las correlaciones de la escala con otras variables, ya
que son medidas de la misma construcción.
También debe quedar claro que una escala no debe
correlacionarse mucho con medidas de contenido diferente. Este es un requisito
especialmente importante cuando se desarrollan varias escalas para medir las
diferentes facetas de un dominio multidimensional. Por ejemplo, si se encuentran
cinco facetas en el dominio de alienación, éstas no deben correlacionarse mucho
entre sí; en caso contrario, habría lugar a sospechar que el concepto no es
multidimensional después de todo y que los reactivos deben incluirse en una sola
puntuación. ¿Cuándo determinamos que las escalas se correlacionan demasiado
entre sí? Cuando hay varias medidas independientes de cada una de las cinco
dimensiones, las medidas independientes de la misma construcción deben
correlacionarse más entre sí que con cualquier medida de cualesquiera otras de
las construcciones. Un intento por validar escalas examinando de esta manera una
matriz de correlaciones, ha sido realizado por Campbell y Fiske (1959) y se
llama procedimiento de multirrasgo-multimétodo. En el capítulo 4 se expone
detalladamente el método, por lo que no lo tratamos aquí con amplitud.
Brevemente, Campbell y Fiske sugieren dos tipos de validación
no mencionadas explícitamente en las Recomendaciones técnicas de la APA, pero
que caen bajo el encabezado de validez de construcción. El primer tipo, la
validación convergente, es la confirmación de una relación por procedimientos
independientes de medida. Por ejemplo, si se estuviera interesado en estudiar el
prejuicio (digamos, en una situación de laboratorio), podrían obtenerse
estimaciones sobre sí mismo de parte de un sujeto mediante una serie de
reactivos que midieran actitudes hacia grupos minoritarios y, al mismo tiempo,
que se obtuvieran estimaciones de prejuicio, atribuibles al sujeto por sus tres
mejores amigos. Una tercera medida de prejuicio podría ser una reacción
fisiológica (por ejemplo, la presión sanguínea) al ver una película donde
individuos de varios grupos étnicos y raciales interaccionaran en una diversidad
de situaciones (por ejemplo, jugar a las cartas, citarse con personas del sexo
opuesto, y así sucesivamente). Podrían después correlacionarse estas tres
medidas separadas de prejuicio. Cuanto más altamente se correlacionaran entre sí
las medidas separadas, tanto mayor sería la validez convergente.
La segunda clase de procedimiento de validación, mencionada
por Campbell y Fiske, es la validación discriminante. La validación
discriminante no necesita establecerse cuando el dominio no es monodimensional.
Se refiere al hecho de que las escalas que se correlacionan demasiado alto entre
sí pueden estar midiendo la misma construcción y no diferentes. Así, si uno
elabora una medida y la llama "fatalismo", y después otra a la que denomina
"anomia", necesita demostrar que son construcciones diferentes correlacionando
entre sí las medidas y mostrando que la correlación es más baja que las
correlaciones entre medidas de la misma construcción. ¿Qué puede hacerse cuando
las medidas de construcciones diferentes se correlacionan demasiado alto? Pues,
sencillamente, deben verificarse las correlaciones de cada reactivo con cada uno
de los demás tanto dentro como entre los grupos. Los reactivos que se
correlacionan más alto dentro de otro grupo probablemente pertenezcan a aquél y
no al escogido originalmente.
Aunque el asunto parece haberse resuelto, ha habido mucha
controversia acerca de la posición lógica del concepto de validez de
construcción desde su aparición en la edición de 1954 de las Recomendaciones
técnicas. En particular, Bechtaldt (1959), que contestó no solamente a la
declaración de las Recomendaciones técnicas, sino también al estudio ampliado
del concepto realizado por Crombach y Meehl (1955), mantuvo que las definiciones
operacionales son necesarias desde el punto de vista filosófico y que la
introducción de un término como validez de construcción va en contra de la
metodología operacional.
RELACIÓN ENTRE CONFIABILIDAD Y VALIDEZ
Aunque las definiciones verbales de confiabilidad y validez
hacen una distinción muy clara de estos dos conceptos, hay casos donde esta
distinción está considerablemente oscurecida. Tal confusión se da especialmente
cuando se considera la consistencia interna como confiabilidad. Es patente que,
si se tienen n reactivos paralelos aplicados simultáneamente, estos proporcionan
al instante varios test-retests. No obstante, otro aspecto es que todas las
correlaciones entre estas variables manifiestas se deben a las correlaciones
entre cada una de ellas y alguna construcción, rasgo o factor subyacente. Estas
últimas correlaciones indicarían la validez de cada reactivo, dado que indican
el grado en que cada uno de ellos se correlaciona con lo que se desea medir, es
decir, la construcción subyacente. La relación entre estas dos perspectivas
sugiere la existencia de una estrecha relación entre confiabilidad y validez.
Como Lord y Novick lo demuestran, la relación está dada por
(23) P2xt = Pxx'.
El cuadrado del coeficiente de validez (donde la validez se define como la
correlación de una puntuación observada y su puntuación verdadera) es igual a la
confiabilidad de la escala. Sin embargo, Lord y Novick señalan además
que la validez determinada por la correlación de la puntuación con algún
criterio "externo" nunca puede exceder a la correlación de una puntuación
observada con su puntuación verdadera, es decir,
(24) Pxz
≤ PXT
√Pxx'
donde Z es el criterio. La implicación de (24) es clara: la correlación de una
escala con un criterio nunca puede exceder a la raíz cuadrada de la
confiabilidad de la escala. Así, si se tiene una medida con una confiabilidad
baja, digamos de .64, esa medida nunca se correlacionará a más de .8 con otra
medida. Esto demuestra que la confiabilidad y la validez van juntas. Si no se
puede medir confiablemente una actitud, nunca podrá predecir, con ella, ninguna
conducta real.
Sin embargo, es preciso cuidarse de no
interpretar erróneamente la fórmula (23). No es cierto que la validez de una
escala pueda determinarse simplemente obteniendo la raíz cuadrada de su
coeficiente de confiabilidad. Existen varias razones para tal negativa. Primero,
la raíz cuadrada del primer miembro de (23) es la correlación de la escala con
cualquier cosa que la escala mida. Y lo que realmente mida puede o no ser lo que
se desea que mida. Dicho de otra manera, (23) no nos dice nada acerca de la
validez de contenido o de construcción de la escala. Segundo, podemos obtener
solamente una estimación de la confiabilidad y, si usamos (23) para estimar la
validez, las dos estimaciones serán totalmente dependientes. Le corresponde al
investigador presentar fa validación independiente, conforme a Campbell y Fiske.
En realidad, ellos indican que el concepto de independencia es una manera de
distinguir la confiabilidad y la validez. La validez es la correlación entre
medidas de la misma construcción cuando dichas medidas son independientes al
máximo. La confiabilidad refleja el grado, de acuerdo entre métodos que guarden
entre sí la máyor semejanza posible.
Para resumir, existe sin
duda una relación íntima entre confiabilidad y validez, pero los procedimientos
de validación deben ser independientes de los que establecen la confiabilidad de
la escala.
RESUMEN
El objetivo de la ciencia es explicar
relaciones entre variables. El logro de este objetivo depende en gran parte de
la capacidad del investigador para medir sus variables con el menor error
posible. Como se indicó, los errores de medida tienden a distorsionar las
relaciones entre las variables. Además, necesita interesarse en que sus medidas
sean válidas, esto es, que midan lo que se proponen medir. Si van a medirse
relaciones hipotéticas entre las variables, el investigador necesita estar
seguro de que sus medidas de las variables sean confiables y válidas.
En este capítulo hemos procurado exponer
varias de las maneras diferentes cómo los investigadores comprenden los
conceptos de confiabilidad y validez, y de presentar las formas de estimar la
confiabilidad y la validez dados estos diferentes significados. No todos los
científicos concuerdan con las interpretaciones aquí ofrecidas y el lector debe
reconocer que aún se debaten estas cuestiones, aunque las Recomendaciones
técnicas (1954) de la Asociación Norteamericana de Psicología hayan contribuido
bastante a resolver esta controversia. Por ejemplo, una comparación interesante
entre el uso del término "validez" en 1951 y su uso actual puede hacerse leyendo
a Cureton (1951). Sin duda, la polémica en torno a los significados de
confiabilidad y validez continuará durante algún tiempo.
Finalmente, debe reconocerse nuevamente que
la discusión se ha restringido más que nada para facilitar la comprensión, de
una revisión algo superficial de los procedimientos de elaboración de tests.
Solamente el investigador agudo puede elaborar reactivos que sean a la vez
confiables y válidos y, por lo común, nadie se conforma con sus primeros
intentos de elaboración de una escala. Sin embargo, al parecer muchos
investigadores se conforman con sus instrumentos de "primera preparación" porque
muchas escalas de actitud se desarrollan y usan en una sola muestra. Pero, el
investigador escrupuloso determina la viabilidad del reactivo por medio del
muestreo y remuestreo de su población de sujetos, reemplazando reactivos en
algunos casos y revisándolos en otros, hasta que está razonablemente satisfecho
de que tiene una escala eficaz. Estos procedimientos de validación transversal
pueden significar que se empleen años para desarrollar medidas adecuadas. Pero
las medidas adecuadas son un prerrequisito para demostrar la utilidad de la
medición de actitudes.
BIBLIOGRAFIA Evaluación de la Confiabilidad y Validez en la Medición de Actitudes La medición es la condición necesaria de cualquier ciencia. Es preciso obtener
medidas de todas las variables contenidas en determinada aseveración teórica para que pueda evaluarse la validez de ésta. En las ciencias sociales, la
carencia de instrumentos de medición ha sido el obstáculo más serio para el desenvolvimiento de una ciencia explicativa y predictiva. A diferencia del
físico, que puede medir en gramos, centímetros y libras de presión por pulgada cuadrada, los científicos sociales se han tenido que conformar una y otra vez
con instrumentos que, a lo sumo, ordenan a los individuos en relación con una variable. En muchos casos, ni siquiera se ha dispuesto de los más elementales
aparatos de medida.
La medición no ha progresado rápidamente en las ciencias sociales por diversas razones. Quizá la más importante sea que los conceptos
sustentadores de la ciencia a menudo no están bien definidos. Con frecuencia los investigadores no concuerdan en cuanto al significado de conceptos confusos como
"alienación", "eficacia política" y "prejuicio". Para cubrir cada uno de estos contenidos se han elaborado varias medidas diferentes; pero hay escasas pruebas
de que las medidas que supuestamente cubren la misma construcción se correlacionen altamente con otra. Es decir, podría cuestionarse la validez de
las diferentes medidas. ¿Miden estos instrumentos lo que se proponen medir?
Es asimismo interesante preguntarse qué tan confiablemente son ordenados los individuos por, determinado instrumento de medida. Suponiendo
que aquéllos no cambien, ¿son ordenados de la misma manera al volverse a medir? Si no es así, el investigador nunca podrá estar seguro de conocer la verdadera
ordenación de los individuos en la variable.
La necesidad de evaluar la confiabilidad y la validez de las medidas resulta evidente. En la medición de actitudes existen varias técnicas
con respecto a tal evaluación. Constituyen estas técnicas la esencia del presente capítulo. No todos los métodos importantes pueden analizarse con el
detalle necesario para quien desea algo más que una introducción a estas áreas. Quienes deseen más amplia información pueden consultar a Lord y Novick (1968),
Horst (1966) y Gulliksen (1950).
Aunque no todos los experimentos de medición de actitudes son escalas o puntuaciones basadas en varios reactivos, muchos de aquéllos sí lo
son. Es decir, se supone que la escala usada es la suma de varios reactivos y no que es uno solo. Al hacer tal suposición, bastante de lo dicho sobre
confiabilidad y validez se convierte en análisis de reactivos. El análisis de reactivos es la selección de uno de estos para incluirlo en una escala de
puntuación fundada en la confiabilidad y la validez del mismo. Los detalles del análisis de reactivos constituyen una parte de lo que trataremos en esta
sección.
Comenzaremos por un análisis elemental de la teoría de la medición y continuaremos estudiando la confiabilidad y la validez para concluir
con una parte que relaciona entre sí confiabilidad y validez.
Errores de Medicion
La medición es la asignación de números a resultados conforme ciertas reglas. Puede asignarse arbitrariamente el número 0 a todos los hombres
y el número 1 a todas las mujeres; o asignarse el 0 a todas las personas de 1.20 m o menos de estatura; el 1, a los que estén entre 1.20 m y 1.30 m; el 2, a los
que miden entre 1.30 y 1.50 m y así sucesivamente. Estas reglas de correspondencia se llaman funciones. Obsérvese que en el último ejemplo la
medida es relativamente tosca En efecto, la medida original, la estatura en centímetros, es varias veces más afinada que la regla de correspondencia
empleada. En la investigación deben usarse las medidas más afinadas de que se disponga, toda vez que cuanto mejor sean aquéllas, con tanta mayor exactitud
podrán evaluarse las verdaderas relaciones subyacentes entre las dos variables. Adviértase que cuando se usan centímetros o la regla de correspondencia es más
elemental, puede afirmarse que cuanto mayor sea al número más alta será la persona; pero esto no es cierto en todos los niveles de medida. En el primer
ejemplo, el hecho de que los hombres sean 0 no nos dice nada acerca de sus posiciones relativas con respecto a las mujeres (aunque algunos hombres casados
pudieran molestarse por esta afirmación). Esto no significa otra cosa sino que en lo referente a algunas reglas de correspondencia uno no puede decir sino que
los resultados están o no en la misma clase nominal (medición de escala nominal). En otras, solamente puede decirse si un resultado es o no más grande
que, menor que, o igual a, otro resultado (medición de escala ordinal). En otras más, puede decirse exactamente cuántas unidades es mayor o menor un
resultado que otro (medición de escala intervolar). Finalmente, en pocos casos puede uno decir, además, que un resultado es n veces más grande o más pequeño
que otro (medición de escala de razón) . Algunos ejemplos pueden ayudar a entender la distinción entre estos cuatro niveles de medida. La asignación de
diferentes números para representar los 50 estados de la Unión Americana es una clasificación sin ordenación y es, por consiguiente, solo medición nominal.
Pedir a personas que escojan a tres conocidos y los ordenen por nivel de amistad, sería medición ordinal. En la medición de escala intervalar y de razón,
se supone que los intervalos entre los números están igualmente espaciados. Así, en una escala de temperatura Fahrenheit, la diferencia entre 25 y 26 grados es
igual a la diferencia entre 30 y 31 grados, es decir, un grado. Adviértase que en la ordenación de los amigos la diferencia de afecto entre los amigos 1 y 2
puede ser completamente diferente de la que hay entre los amigos 2 y 3. Es decir, en la medición ordinal los intervalos no tienen por qué ser iguales. La
medición de razón difiere de la medición intervalar en que las escalas de razón tienen puntos cero verdaderos y no arbitrarios. Las escalas Fahrenheit y
centígradas son medidas de intervalo, ya que ambas tienen puntos cero arbitrarios; no representan la carencia absoluta de temperatura. Sin embargo, la
escala Kelvin de temperatura tiene un punto cero absoluto, y es, por tanto, una escala de razón. Cuando es posible la medición de razón puede decirse que un
resultado es n veces mayor o menor que otro. Un muchacho de 1.60 m de estatura es el doble de alto que otro de 80 cm. Sin embargo, cuando hablamos de
temperaturas Fahrenheit no podemos decir que 60 grados sea el doble de calor que 30 grados. Los lectores interesados en estudiar más ampliamente las diferencias
entre estos niveles de medición pueden consultara Stevens (1951).
El estudio siguiente supone por lo menos la medición intervalar. Es evidente que pocas variables en las ciencias sociales pueden
medirse con una escala intervalar; y el lector puede preguntarse por qué entonces se presenta dicho material. La razón es sencilla: en la ciencia, rara
vez pueden satisfacerse exactamente las suposiciones implícitas en los instrumentos que se usan. Y, desafortunadamente, por lo común, cuanto más
poderoso es el instrumento para hacer inferencias científicas, tanto más difícil es satisfacer dichas suposiciones. Cuando determinado campo está en progreso
constante, los investigadores deben procurar elaborar instrumentos de medida que tengan características que se aproximen a los postulados que fundamentan su uso,
para no convertirse en puristas matemáticos que desechen tales instrumentos. Esta última posición es semejante al rigor mortis científico. Los científicos
sociales que han adoptado la primera posición han demostrado que los resultados obtenidos con la suposición de datos intervalares han sido fructíferos. Esa
suposición permite estimar el grado de asociación entre variables, y previene contra la simple estimación de si existe o no asociación.
Suponer medida intervalar donde solamente hay medida ordinal ocasionará algunos errores de medida. El resultado de los errores es
generalmente la atenuación de las relaciones entre las variables. Es decir, resultados comprobados perderán algo de su evidencia real. Es improbable, por
tanto, que la decisión de suponer medición intervalar cuando ésta no está presente conduzca a la sobreestimación espuria de resultados' . Nuestro estudio
dará ahora un tratamiento algo matemático de la medición y de los errores de medida.
La puntuación Xi observada, de una persona en un reactivo
individual puede considerarse una función de su puntuación verdadera Ti más el error de medida ei. La relación que une la puntuación observada con la
puntuación verdadera y el error se define entonces así:
Xi=Ti+ei
Es verdad que los errores de medida atenúan la asociación entre dos variables. Sin embargo, es posible obtener, en
el caso de k variables, correlaciones parciales y coeficientes de regresión inflados por errores de medida.
Después, se hacen las siguientes suposiciones:
(2a) E(ei) = 0 E representa el valor esperado o media "a la larga" de la variable y
ρ es la correlación entre dos variables en una población dada. La suposición 2a indica que la expectativa de los errores es 0. Se presentan errores positivos y
negativos, pero se espera que se supriman entre sí, a la larga, y que su media sea 0. Esto coincide con nuestra intuición de lo que significa error aleatorio.
La suposición 2b indica que la puntuación verdadera en determinada variable no se correlaciona con su error de medida; y la 2c indica que las puntuaciones
verdaderas de una variable no se correlacionan con los errores de una segunda variable. Finalmente, 2d afirma que los errores de las variables no están
correlacionados entre sí. De estas suposiciones se derivan varios resultados importantes. Primero, E(Xi) = E(Ti).
Es decir, el valor esperado de las puntuaciones observadas es igual al valor
esperado de las puntuaciones verdaderas. La importancia de esta relación es que la media de las puntuaciones observadas (un observable) es una estimación
imparcial de la media de las puntuaciones verdaderas (un no observable). Otro resultado importante es que
σ2Xi= σ2Ti + σ2ci
La varianza de las puntuaciones observadas es sencillamente la suma de la varianza de las puntuaciones verdaderas y de los errores. Claro está que
generalmente la varianza de sumas no es la simple suma de las varianzas individuales; sin embargo, en este caso es cierto, ya que,
según 2b, se supone que las puntuaciones verdaderas y los errores no están correlacionados. Usando estas definiciones, suposiciones y teoremas resultantes,
podemos pasar a discutir la teoría de la confiabilidad.
CONFIABILIDAD Cuando se ha construido un instrumento de medida se necesita saber qué tan
confiablemente ordena a los individuos. Si estos no pueden ser colocados confiablemente en la escala, ésta no poseerá ninguna utilidad científica, pues
los resultados que se basen en ella probablemente contengan grandes errores. ¿Qué significa confiabilidad? Su mejor sinónimo vez sea consistencia. Si no
suceden cambios verdaderos en la actitud que mantiene un individuo, ¿la escala de actitud lo coloca consistentemente en el mismo lugar en relación con otros?
Si la respuesta es no, la escala no es confiable. La confiabilidad no es, indudablemente, asunto de todo o nada; existen grados de confiabilidad.
La confiabilidad se define por un coeficiente de correlación. Más precisamente, la confiabilidad (σxx) se define como la correlación entre dos medidas
paralelas. Antes de analizar el fundamento de esta definición, consideremos lo siguiente. Supongamos que se
tiene dos medidas X y X' tales que X =T + e, X'= T + e' yσ2e=
σ2e´. Nótese que tanto X como X' son funciones de la misma puntuación verdadera y difieren
solamente por los diferentes errores de medida. Por esto se afirma que las medidas X y X' son paralelas. La correlación entre esas dos medidas paralelas
indica la confiabilidad de la medida de la variable en estudio. De la definición
de medidas paralelas, se obtienen dos resultados inmediatos que son: E(X) = E(X') Y
σ2X= σ2X'
Ahora bien, la confiabilidad de la medida está dada por
ρxx'=σxx'/σxσx'
= σ2T/σ2X'
donde σxx' es la covarianza
entre X y X'. Véase aquí que la confiabilidad de una medida es la razón de la varianza de la puntuación verdadera a la varianza total. Se advierte además que
0 ≤ σxσx'≤1.0. La confiabilidad será 0 cuando toda la varianza de la
puntuación verdadera está compuesta de error. Repárase en esto al observar que σ2Xi= σ2Ti + σ2ci
; por tanto, cuando toda la varianza de la puntuación verdadera es de error, es decir, σ2X= σ2e, se infiere que σ2T = 0, y
ρxx'= 0. Esto aclara también por qué la confiabilidad
será la unidad cuando no hay error. Aunque no damos aquí la prueba, puede demostrarse que si Y1, Y2, Y3 . . . son
medidas paralelas y Z es otra variable aleatoria diferente, entonces (8)
ρY1,Y2 =ρY1,Y3 =
ρY2,Y3 =... Y (9)
ρY1,Z =ρY2,Z =
ρY3,z =... Las igualdades de (8) indican que las intercorrelaciones entre todos los
reactivos paralelos son iguales. Esto indica que las confiabilidades de medida son independientes de las formas paralelas que se usan cuando éstas son
realmente paralelas. Y (9) indica además que las intercorrelaciones de todos los
tests paralelos a otra variable son iguales.
La regresión de puntuaciones verdaderas en puntuaciones observadas
Sería interesante saber lo bien que pueden predecirse las puntuaciones verdaderas a partir de las variables observadas. Fue demostrado por Lord y Novick
(1968) que βTX= ρXX' y
(11)Ť =
ρXX'X + (1- ρXX')μx'
donde βTXes un coeficiente de regresión Ť es la puntuación verdadera
pronosticada y X es la puntuación observada. Es decir, el coeficiente de regresión para predecir las puntuaciones verdaderas a partir de las puntuaciones
observadas es justamente el coeficiente de confiabilidad, y la intersección es 1 menos tantas veces el coeficiente de confiabilidad como la media de las
puntuaciones observadas. Se infiere de (11) que cuando la confiabilidad de una medida es alta, se da mucha importancia a las puntuaciones observadas y poca a
la media de grupo en la predicción de las puntuaciones verdaderas. Sin embargo, cuando una medida no es confiable, se pone poco énfasis en las puntuaciones
observadas y mucho en la media de grupo. La dispersión de los errores, llamada error estándar de medida, es (12) σe
=σx√1 - ρXX' Con él se pueden formar intervalos de confianza alrededor de la puntuación
verdadera de una persona. Véase que en (12) el error estándar de medida se acerca a 0 cuando la confiabilidad de la medida realizada se aproxima a la
unidad, como era de esperarse. Si se supone que los errores están distribuidos normalmente, puede decirse que para todas las personas con cierta puntuación
verdadera, la probabilidad de que la puntuación observada se encontrará dentro de más o menos k veces el error estándar de medida de la puntuación verdadera es
de por lo menos 1 - a, donde a es la probabilidad de un error de tipo 1 y k es una función de a . No obstante, es imposible construir semejante intervalo
alrededor de las puntuaciones observadas usando el error estándar de medida. También es posible computar la desviación estándar alrededor de la línea de regresión que se ajusta
a la predicción de las puntuaciones verdaderas a partir de las observadas. Este es el error estándar de estimación y se expresa por
(13) σe =σx√ρXX'
√1 - ρXX'
Puede demostrarse que, en general, el error estándar de estimación es menor que
el error estándar de medida. Esto sucede porque la última medida emplea en su derivación tanto la media de grupo como la confiabilidad, mientras que la
primera solamente usa la confiabilidad. La comparación de (12) y (13) muestra que difieren por el factor √ρXX' que debe
ser igual o menor que la unidad. Por tanto, (13) debe ser igualmente pequeña o menor que (12). Hemos visto cómo se define la confiabilidad y la forma en que
ésta influye en la predicción de la puntuación verdadera de un individuo. Ahora estudiaremos cómo la no confiabilidad afecta la correlación entre dos variables.
Atenuación debida a la no confiabilidad Como se indicó anteriormente, el error aleatorio posee el efecto de reducir la
relación entre dos variables. Puede probarse fácilmente que (14)
ρT1T2 = ρX1X2 √ρx1x1'ρx2x2' Es decir, la correlación verdadera entre las variables,
ρT1T2 disminuye debido a la no confiabilidad de ambas variables. Puesto que las confiabilidades de X1 y
X2 en (14) son necesariamente menores o iguales que la unidad, ρT1T2 debe ser mayor o igual que ρx1x2. Las dos serán iguales solamente cuando
ρx1x1' = ρx2x2' = 1.00. Por ejemplo, supongamos que
ρx1x2 = .5, y ρx1x1'= .8 y
ρx2x2'= .8. Sustituyendo estos valores en (14) obtenemos
ρT1T2 = .5√.64 = .625. De esta manera apreciamos cómo afecta la falta de confiabilidad la explicación de
la varianza de una variable por otra observando los coeficientes de determinación, es decir, comparando
ρ2T1T2 y ρ2x1x2 . Puesto que
ρ2T1T2 = .39 y ρ2x1x2 = .25, la no confiabilidad explica una disminución aproximada
del 14% de la varianza explicada. Desafortunadamente, muchas de nuestras escalas de actitudes tienen confiabilidades aún menores que .8, lo cual explica
por qué las correlaciones entre estas escalas y otras variables a menudo son muy bajas. Si los investigadores deben o no corregir las correlaciones observadas, por
atenuación debida a la falta de confiabilidad de las variables, ha sido objeto de innumerables debates. Haremos varias evaluaciones. Primero
ρT1T2 es un parámetro dé la población pero en realidad se opera con muestras y éstas solamente dan estimaciones de los parámetros. La estimación de
ρT1T2 puede ser particularmente errónea ya que no solamente son estimaciones las confiabilidades
en el denominador del segundo miembro de (14), sino que la correlación observada en el numerador es también una estimación. Así, dependiendo de qué tan estables
sean las estimaciones de cada uno de los tres parámetros, el valor de
ρT1T2 puede fluctuar ampliamente. Hacer la corrección por atenuación depende parcialmente de la confianza que se tenga en estas estimaciones.
Además, cuando se informan los resultados de un estudio de predicción,
generalmente no se corrige por atenuación. Los investigadores, por lo común, no están interesados en qué tan bien podría predecirse una medida si ésta fuera
confiable, sino qué tan bien se predice en realidad. No obstante, en el examen de la relación causal y en la estimación de la relación causal verdadera entre
dos variables, estaría a la orden la corrección de la atenuación, suponiéndose que existen buenas estimaciones de los parámetros. Por ejemplo, si se estuviera
interesado en predecir el activismo político de estudiantes universitarios a partir de una escala para medir la actitud hacia la autoridad, probablemente no
vendría a la imaginación la corrección de la atenuación. En este caso se desearía saber si puede determinarse quiénes serán los activistas y
evidentemente los errores de medición afectarían esta determinación. En contraste, si un investigador estuviera interesado en hacer una estimación de
cómo están relacionadas teóricamente estas dos variables es decir en ausencia de error, entonces, de confiar en sus estimaciones de confiabilidad;
podría corregir la atenuación.
Tipos de confiabilidad y su medición Hasta ahora solo hemos hecho una exposición teórica general de la confiabilidad.
Ahora se estudiarán formas concretas de medir la confiabilidad. Generalmente, las medidas de confiabilidad se dividen en dos grandes clases: medidas de
estabilidad y medidas de equivalencia. Medidas de estabilidad, La puntuación de una persona en una escala de actitud
puede variar de una medición a otra. El sujeto puede distraerse momentáneamente, entender equivocadamente el significado de un
reactivo, responder de maneras diversas en ocasiones distintas porque alguien más esté presente, y por otras múltiples causas. Todas estas fuentes de error
contribuirán a la falta de confiabilidad de una escala de actitud. Aquí, el problema consiste en como evaluar la cantidad de no confiabilidad de las medidas
tomadas. Una manera muy popular de evaluarla consiste en correlacionar las respuestas de las personas, en una ocasión, con sus respuestas dadas en otra
ocasión posterior. La confiabilidad evaluada correlacionando una medida a través del tiempo se llama medida de estabilidad o confiabilidad de test-retest.
Existen algunos problemas obvios en la estimación de la confiabilidad por test-retest: Pueden darse diferentes resultados según sea el lapso entre la medición y la
remedición. Mientras más largo sea el lapso, tanto menor será la estimación de la confiabilidad. Por esta razón, cuando el lapso es corto, las personas pueden
recordar cómo contestaron en la primera aplicación de los reactivos, para aparecer así como más consistentes de lo que son realmente. Para solucionar este
problema, algunos investigadores modifican el procedimiento de test-retest usando una segunda forma, paralela en cuanto a contenido a la usada en la
primera aplicación, si bien se usan reactivos diferentes. Cuando desarrolla un instrumento de medida, el investigador escribe doble número de reactivos para
medir determinado dominio de contenido. La mitad de los reactivos se usa en la primera forma y la otra mitad en la segunda. Si las formas son verdaderamente
paralelas, se correlacionarán exactamente, igual con otras variables cualesquiera. Además, las medias y las desviaciones estándar de las dos formas
serían idénticas y las intercorrelaciones entre los reactivos serían iguales en ambas versiones. Obviamente, es muy difícil, si no imposible, satisfacer estos
criterios, de lo que se infiere que pocas "formas paralelas" de tests son realmente paralelas. Sin embargo, es posible, por medio de una selección
cuidadosa de reactivos, elaborar dos formas que sean aproximadamente paralelas. Si no es posible hacerlo, entonces pueden correlacionarse las formas paralelas a
través del tiempo como medida de confiabilidad. El uso de formas paralelas reduce el grado en que por el recuerdo de sus respuestas anteriores los sujetos
provoquen estimaciones espuriamente altas de confiabilidad. Un segundo problema con las estimaciones de confiabilidad de test-retest es que
las puntuaciones verdaderas de los individuos tienen una probabilidad mas grade de cambiar realmente, cuanto más largo sea el intervalo de tiempo entre el test
y el retest. Claro está que si los individuos han cambiado verdaderamente una correlación baja de test-retest, ello no significa por fuerza que la
confiabilidad de la escala de actitud sea baja. En un trabajo reciente, Heise (1969) ha demostrado que con tres observaciones a través del tiempo es posible
distinguir entre cambio y falta de confiabilidad, si los intervalos entre las aplicaciones son iguales y si puede suponerse que los errores de medición no
están correlacionados a través del tiempo. Sin el uso de formas paralelas, esta última suposición sería muy difícil de satisfacer.
El coeficiente de confiabilidad se definió como (15)ρxx' =
ρ12ρ23 /
ρ13 donde los subíndices se refieren al periodo de medida. Heise ofrece un ejemplo
de Crowther (1965), en el que se usaron correlaciones entre puntuaciones en el test de inteligencia California Test of Mental Maturity en los grados tercero,
sexto y noveno para estimar la confiabilidad del CTMM. Las correlaciones fueron de r12 =.56, r23 =.65 y r13 = .52. Según la fórmula (15)
rxx'=.70. Adviértase que rxx' es algo mayor que todas las correlaciones individuales de test-retest, lo que demuestra que han ocurrido algunos cambios en la
inteligencia según la mide el CTMM. Además de dar una estimación de confiabilidad, el método ofrece coeficientes que
indican la cantidad de cambio del momento 1 al momento 2, del 2 al 3 y del 1 al 3. Heise designa sij a estos coeficientes y demuestra que s12 = ρ13 /
ρ23, s23 = ρ13 /
ρ12 y s13 = ρ12 /
ρ23. Para los datos de arriba, s12 = .80, s23 = .93, y s13 = .74, lo que indica que el CI medido cambia más entre los grados tercero y
sexto que entre los grados sexto y noveno, lo cual se ajusta a muestras expectativas. Heise ha proporcionado así una manera útil de separar la no
confiabilidad y el cambio cuando se tienen tres medidas de momentos diferentes. Otro problema que el investigador debe enfrentar cuando usa cualquier
procedimiento de test-retest es el llamado problema de reactividad (Campbell y Stanley, 1963; Webb, Campbell, Schwartz y Sechrest, 1966); ésta se refiere a que
la sensibilidad o inclinación del sujeto a responder a la variable en estudio puede hacerse más grande por el hecho de medirla. Preguntarle a un sujeto
sus opiniones-políticas en una ocasión puede aumentar su interés en los asuntos políticos e inducirlo a que discuta y lea acerca del tema y, por tanto,
que cambie con el paso del tiempo, cambio que no habría ocurrido en otra persona semejante en todos los demás aspectos pero que no hubiera sido entrevistada. En
esta situación, la correlación de test-retest es más baja porque ha ocurrido un cambio, no debido a una variable experimental, sino a la reactividad. Al
parecer, no hay solución sencilla a este problema. Debido a los problemas inherentes al procedimiento de test-retest para evaluar
la confiabilidad, muchos investigadores han abandonado las medidas de estabilidad por las llamadas medidas de equivalencia; estudiaremos ahora algunos
de estos métodos. Medidas de equivalencia. Se supone que cuando se juntan varios reactivos en
una misma escala de actitud, los reactivos miden la misma actitud básica. En este sentido, cada reactivo puede considerarse como una medida de la actitud.
Las estimaciones de confiabilidad que miden la equivalencia de cada reactivo en tanto indicador de una actitud fundamental se llaman, con razón, medidas de
equivalencia. El primer tipo de medidas de equivalencia que aparecieron fueron los métodos de división en mitades. En el método de división en mitades, se
divide él número total de reactivos por la mitad y las mitades se correlacionan para obtener una estimación de la confiabilidad. Por sólidas razones ha caído en
desuso este procedimiento. Algunos investigadores usaron los reactivos pares oponiéndolos a los impares; otros correlacionaron la primera mitad de la escala
con la segunda; y así sucesivamente. Cada una de estas divisiones podía dar, naturalmente, estimaciones diferentes de confiabilidad. En efecto, en una escala
de 2n reactivos de longitud, el número total de divisiones posibles es 2(n!) / 2(n!)(n!). En una escala de 10 reactivos, hay 126 divisiones posibles, y todas diferentes. Algunas darán
estimaciones de confiabilidad por encima de la confiabilidad verdadera y otras por debajo. Por tanto, las mitades de la división pueden estar lejos de ser
equivalentes. La mayoría de los investigadores que han usado la técnica de división en mitades
han aplicado generalmente la fórmula de predicción de Spearman-Brown a la correlación obtenida entre las dos partes. Esta fórmula fue descubierta
simultánea pero independientemente por Spearman (1910) y Brown (1910); y fue desarrollada para discernir el efecto del incremento de la longitud de una
medida. Como podía suponerse, cuanto mayor es el número de medidas independientes que se tienen de un fenómeno, tanto mayor es la confiabilidad de
una medida compuesta basada en estas medidas. Spearman y Brown mostraron que la confiabilidad de una escala que es n veces más larga que la escala original es
(16)ρxnxn' = nρxx' / 1+(n-1)ρxx'
donde ρxnxn' es la confiabilidad de la escala más larga. Sin embargo, aun cuando la fórmula de
predicción de Spearman-Brown indica que el incremento de longitud de la escala aumenta la confiabilidad, en ésta existe un punto en que comienza a disminuir.
Es obvio que cuanto más alta sea la confiabilidad inicial, tanto menor será el incremento de la confiabilidad como una función de los reactivos agregados.
La fórmula de Spearman-Brown se usa algunas veces con correlaciones de división en mitades
para obtener una estimación de la confiabilidad de la puntuación de 2 n reactivos. Esto requiere cierta explicación. En el cómputo de confiabilidad por
el método de división en mitades, el test completo (ambas mitades) debe aplicarse a todos los sujetos. De este modo, la correlación entre las mitades es
la estimación de la confiabilidad de una escala de solo la mitad de la escala realmente usada. La fórmula de predicción de Spearman-Brown se usa entonces para
estimar la confiabilidad de la escala completa, que tiene 2 n reactivos. Por ejemplo, supongamos que un investigador tiene 16 reactivos que se diseñaron para
explorar los sentimientos de eficacia política. Selecciona arbitrariamente 8 de los reactivos, los añade en una sola puntuación, los 8 restantes en una segunda
y los correlaciona. Una correlación razonable de las dos mitades sería .65. Sin embargo, el investigador desea emplear la escala completa de 16 reactivos como
un instrumento de medida y, por consiguiente, usa la fórmula de predicción de Spearman-Brown con n = 2. Sustituyendo ρxx'
=.65 y n = 2 en (15), se obtiene ρx2x2' = 2(.65)/(1 + .65) = .788, que es la estimación de confiabilidad de la escala de
actitud de 16 reactivos. Por la forma arbitraria en que se escogen las mitades, este procedimiento no se recomienda generalmente para determinar la
confiabilidad. Un segundo método de equivalencia se basa en la correlación de formas paralelas
basadas cada una en datos recogidos en un momento dado. Como se indicó cuando estudiamos los métodos de test-retest, las formas paralelas no son divisiones
arbitrarias de reactivos. Se supone que para cada reactivo de una forma hay otro exactamente paralelo en la segunda versión. El uso de formas paralelas está
limitado solamente por la dificultad de construirlas. Por esta razon, el método desarrollado por Kuder y Richardson (1937) es el método recomendado para
computar un coeficiente de equivalencia. Este método llamado de consistencia interna, examina la covarianza entre todos
los reactivos simultáneamente y no en una división particular y arbitraria. Las fórmulas de Kuder - Richardson y las generalizaciones qué provienen de ellas
siguen siendo el enfoque más popular de la confiabilidad. Las fórmulas originales fueron desarrolladas para reactivos dicotómicos solamente y se
denominaron KR20 y KR21, respectivamente. En ambas fórmulas, Kuder y Richardson supusieron que todos los reactivos eran paralelos, y en KR21, que la proporción
que contestó positivamente todos los reactivos era igual (algunas veces llamada "la dificultad" del reactivo). Sea n igual al número de reactivos dicotómicos en
una medida, pi la proporción que contestó positivamente el reactivo i y
ρ2x la varianza de la escala total, entonces
donde
μxes la media, piq¡ es la varianza del reactivo
i-ésimo (q¡ = 1 - pi) y ρx la varianza de la puntuación total. La fórmula (17) es la más general y, por
consiguiente, la más útil de las dos; es la que debe usarse para computaciones efectivas. Como ejemplo del uso de KR20, supongamos que se ha elaborado una
escala de cinco reactivos para medir la religiosidad, donde se pidió a los sujetos que expresaran ya acuerdo (respuesta "positiva") ya desacuerdo
(respuesta "negativa"), y donde el acuerdo con un reactivo se codificó como 1 y el desacuerdo como 0. Ahora bien, para computar ρxx necesitamos conocer también la varianza de la
puntuación total, ρ2x, que podría computarse de dos maneras. Primero, sumando
sencillamente las respuestas a los cinco reactivos de cada individuo en una sola puntuación y calculando después la varianza de esta nueva variable. La segunda
manera sería computar la varianza de la puntuación total a partir de las varianzas de reactivo de las covarianzas. Recuérdese que en reactivos
calificados con 0 o 1 la varianza del reactivo ¡ es dada por σi = piq¡, donde q¡ es 1 - pi. Además, la covarianza entre dos reactivos
i y j cualesquiera es σi = pij
- pipj ; donde pij es la proporción que contestó positivamente a los dos
reactivos i y j. Conociendo las varianzas y las covarianzas de los reactivos puede computarse la varianza de la puntuación total con el siguiente teorema
sobre la varianza de la suma de variables: (19)
Supongamos que computamos las proporciones, varianzas y covarianzas de los cinco reactivos y encontramos lo siguiente: Los valores de la diagonal principal son las varianzas de los reactivos y fuera
de dicha n n diagonal están sus covarianzas. Para computar ∑ni=1
ρ2x, que en este caso también es
∑ni=1pi
qi, sumamos la diagonal principal, es decir, .09 + .21 + .21 + .24 + .16 = .91. De manera
análoga,
2∑ni=1
∑nj=1 σij ,es simplemente dos veces la suma de los elementos que están
fuera de la diagonal, es decir, 2(.07 + .O5 + .04 + .08 + .11 + .08 + .04 + .07 + .13 + .11) = 2(.88) = 1.76. Por tanto,
ρ2x = .91 + 1.76 = 2.67. Vimos arriba que
∑ni=1pi
qi, =.91, que es simplemente otra expresión de la suma de la varianza de los reactivos.
Sustituyendo esta información en (17) tenemos:
ρxx' = 5/4 1 - .91 /2.67= .82 Es
decir, la confiabilidad de esta escala de cinco reactivos es .82.
Con el paso de los años se han sucedido varias fórmulas que son generalizaciones de la fórmula 20 de Kuder-Richardson (Jackson y Ferguson, 1941; Hoyt, 1941; y
Gulliksen, 1950); pero todas se han expuesto con diferentes suposiciones. La característica común a todas estas fórmulas es que permiten computar una
estimación de confiabilidad cuando los reactivos tienen k categorías de respuesta en lugar de solamente dos. Sin embargo, Novick y Lewis (1967)
demostraron que todas estas fórmulas hacían la suposición de que la puntuación verdadera de un individuo era exactamente igual en todos los reactivos o, por lo
menos, que sus puntuaciones verdaderas en los reactivos diferían entre sí solo por una constante, condición que llaman: tau-equívalencia esencial. Así, si se
tienen dos reactivos a y b, son esencialmente tau-equivalentes si Ta = Tb + c, donde c es una constante. Evidentemente si c = 0, por las primeras definiciones,
los reactivos son paralelos. Por tanto, la tau-equivalencia es una suposición menos restrictiva que la suposición de reactivos paralelos, ya que las
puntuaciones verdaderas pueden diferir, de un reactivo a otro, por una constante. Esto significa que cuando los reactivos son tau-equivalentes, KR20 y
las generalizaciones derivadas de ella son todas iguales a la confiabilidad de la puntuación total. En el grado en que estos reactivos no son tau-equivalentes,
estas fórmulas tienden a subestimar el coeficiente de confiabilidad, aunque no gravemente, a menos que los reactivos se aparten radicalmente de la
tau-equivalencia. La generalización de KR20 que ha obtenido la mayor popularidad es a la que Cronbach llamó cx (1951),
y es (20) Usando los datos
de un estudio de Ford, Borgatta y Bohrnstedt (1969), mostraremos aquí el uso de a. Para medir la cantidad de competitividad deseada para el personal nuevo, de
nivel universitario, contratado por una gran compañía, se diseñaron ciertos reactivos. Los siguientes son nueve de esos reactivos que se incorporaron en una
sola medida llamado afán competitivo: 1. Los incrementos de salario estarán estrictamente en relación con lo que usted
ha hecho por la empresa. 2. Se sabe que la empresa está comprometida en una fuerte competencia.
3. Se supone que las personas son despedidas tanto si no hacen algo bien como si no lo siguen haciendo bien. 4. Hay
oportunidades de ganar bonificaciones. 5. Se entablará y alentará la competencia.
6. El supervisor debe ser un severo crítico. 7. Se hace hincapié en el registro efectivo de la producción.
8. Los aumentos de sueldo tendrán que ver con el esfuerzo que ha realizado usted. 9. Las recompensas pueden ser
grandes, pero se sabe que muchas personas fallan o desertan.
Se obtuvo la matriz de covarianza que aparece en la tabla, que se basa en una muestra k de 869 hombres empleados. Para computar a, necesitamos
∑ki=1ρ2i,, que es
simplemente la suma de los elementos de la diagonal, es decir, (.534+ .411+ . . . + .679) = 4.68 . Además necesitamos computar σ2x, o sea, la varianza de la escala total.
El lector puede verificar en (19) que esta varianza es igual a la suma de los elementos de la diagonal principal más dos veces la suma de los elementos que no
están en la diagonal. Ya hemos determinado la suma de la diagonal. Ahora la suma de los elementos fuera de la diagonal (.115 + .168 + . . . +
.093) = 3.919 y el doble de esta suma es 7.828. Añádase esto a la suma de la diagonal y se obtiene σ2x= 12.508. Por
consiguiente, a = 9/8(1 - 4.68/12.508) = .70. Es decir, la estimación de la
confiabilidad de la consistencia interna en relación con la puntuación de afán competitivo es de .70. Dada esta estimación de confiabilidad, podemos usar (12)
para computar el error estándar de medida. En este ejemplo es σe = √12.508
√1 - .70 = 1.94. Ahora bien, si suponemos que los errores están distribuidos normalmente y deseamos estar seguros en un 99 % de que todas las personas con
puntuaciones verdaderas de Tx se encuentran dentro de k errores estándares de medida desde Tx, sabemos por la teoría de las distribuciones normales que k =
2.58 (Hays, 1963). Por tanto, si tomamos Tx = 15, los límites inferior y superior del intervalo de confianza son 15 - (2.58) (1.94) y 15 + (2.58)
(1.94) = 5.01 ó 9.99 y 20.01 respectivamente. Es decir, la probabilidad de que las personas con una puntuación verdadera de 15 tendrán una puntuación observada
que se encuentre entre 9.99 y 20.01, es de .99. Matriz de covarianza de
reactivos en la puntuación de "Afán de competencia" ( N = 869 Varones),
los valores subrayados en la diagonal son las varianzas de los reactivos También podemos sustituir en (11) para obtener la ecuación de regresión y
predecir así la puntuación verdadera de un individuo a partir de su puntuación observada. En este ejemplo, suponemos que Mx = 18 donde Mx es la media de la
escala, luego, la ecuación de regresión es
T =.70 + (.3) (18) = .70X + 5.4.
Un sujeto con una puntuación observada de 15 tendría una puntuación verdadera pronosticada de (.70) (15) + 5.4 = 15.9. El error estándar de estimación para
esta ecuación de predicción nos lo da (13), y en este ejemplo es de
√ 12.508 √.70 √1 - .70 = 1.62, que es la desviación estándar de los errores
alrededor de la línea de regresión.
En la mayoría de las investigaciones de actitudes no estamos interesados en la
predicción de la puntuación verdadera de un individuo porque generalmente solo se presenta la estimación de la confiabilidad. Sin embargo, el investigador debe saber que es posible la predicción individual y por esto se computó en el ejemplo anterior.
RELACIÓN DE LA RESPUESTA CON EL ATRIBUTO
Hemos visto varias técnicas de elaboración de escalas psicológicas, técnicas que son completamente distintas en procedimiento, pero
que difieren aún más en su fundamento filosófico. La técnica que usemos para evaluar por escala determinado atributo, ¿no es importante? Algunos psicólogos
sostienen que cualquier técnica puede conducir a una escala válida, siempre que describamos las operaciones particulares que nos condujeron a ella. Pero tal
posición es esencialmente conformista, ya que rehúsa enfrentar el problema de la naturaleza del atributo mismo y la relación de la escala obtenida con aquél.
En particular, es fundamental la diferencia de posición filosófica entre las técnicas manifiestas y las latentes. Las primeras confían
en la capacidad del sujeto para describir su experiencia de un atributo, por medio de números con las propiedades adecuadas de medición. Las técnicas
latentes no hacen tal suposición pero aceptan que sólo hay un atributo que afecta las respuestas, aunque no del modo simple de uno a uno.
Realmente hay muchas posiciones teóricas que se han tomado sobre la relación de la respuesta manifiesta y el atributo. Mientras que una discusión
tal no es necesariamente parte de un capítulo sobre elaboración de escalas psicológicas, la selección de la técnica no puede sino depender de las
suposiciones que el experimentador haga en torno a la relación de la respuesta y el atributo. En este sentido, las citadas suposiciones sí son parte del problema
de construcción de escalas.
Al clasificar las diferentes posiciones teóricas, podemos considerar que hay cuatro procesos críticos cuando se trata de medir por escala un atributo.
- Existen, en primer término, los objetos con los que supuestamente se corresponde el atributo; pero este no es idéntico al objeto. El objeto tendrá
muchas propiedades y aunque alguna de sus dimensiones físicas esté estrechamente relacionada con una de aquéllas, no hay ninguna razón para que los valores escalares del atributo deban corresponder a los de la dimensión física.
- Segundo, tenemos el atributo mismo. Existe como una abstracción del objeto, pero una abstracción que es experimentada, directamente y en la mayoría de los
casos, por un sujeto humano u observador. Son los valores escalares de este atributo lo que buscamos al elaborar escalas psicológicas y, como mencionamos
anteriormente, uno de los problemas principales es determinar qué propiedades de medición existen en ese atributo. Hacer esta pregunta es completamente diferente
a inquirir cómo está relacionado el atributo con una dimensión física o con las respuestas, porque deseamos conocer el atributo mismo y no podemos determinar
si, por ejemplo, el atributo tiene un cero verdadero o absoluto que muestre su vínculo con una dimensión física que tiene un cero absoluto.
- En un proceso mediatorio, es decir, un proceso que media entre el atributo y la respuesta que lo refleja. Hemos usado el término "proceso
mediatorio" como término general, si bien en casos específicos podríamos llamarlo variable interventora o construcción hipotética. Pero, como quiera que
se le llame, debemos considerar la posibilidad de su operación. Y, más importante aún, es que debemos considerar la posibilidad de que contribuya con
sus propias características para relacionar la respuesta y el atributo. En otras palabras, si existe un proceso mediatorio y deseamos conocer la naturaleza del
atributo, tendremos entonces que conocer algo de la naturaleza del proceso mediatorio también.
- Finalmente, tenemos el proceso mismo de respuesta, pero si,no lo hemos tratado hasta este momento no significa, de ninguna manera, que sea el menor de
nuestros problemas. Si debe usarse una respuesta para indicar las propiedades del atributo, es natural que nos interesemos por las propiedades del proceso
mismo de aquélla. Por ejemplo, si el atributo tiene propiedades intervalares, claro está que la respuesta también deba tener, por lo menos estas propiedades
para que indique correctamente las que pertenezcan al atributo. Y no es una conclusión decidida de antemano que las propiedades de los números, como las usa
el sujeto humano, tienen necesariamente las propiedades de razón de la escala de los números.
Como dijimos antes, casi todos los psicólogos concuerdan en que las respuestas pueden indicar por lo menos las propiedades ordinales de un
atributo. Cualesquiera que sean las distorsiones introducidas por un proceso mediatorio o por las peculiaridades del proceso mismo de respuesta serán
distorsiones de propiedades intervalares y de razón y no de propiedades ordinales. Por tal razón, la mayoría de las posiciones teóricas se han ocupado
principalmente de las propiedades intervalares y de razón del atributo o demostradas por las respuestas.
La respuesta como indicador directo del atributo
La suposición más sencilla que puede hacerse acerca de la relación entre respuesta y atributo es que aquélla indica directa y
correctamente las propiedades de éste. Si se supone que existe un proceso mediatorio, se presume también que éste es desviado por el proceso de respuesta.
Decir que esta suposición es la más sencilla no significa que sea la menos compleja, porque es muy difícil de probar. Consecuentemente, su validez es por
lo común de variedad aparente, es decir, vale por mandato del experimentador.
En años recientes, Stevens (1957) y algunos de sus colaboradores, han sido los principales expositores de esta posición, aunque el
primero se ha interesado casi exclusivamente por atributos psicofísicos, es decir, atributos sensoriales que tienen un continuo físico equivalente como la
brillantez, la sonoridad, etc. Ha apoyado, en lo que se refiere a elaboración de escalas, el uso de las técnicas manifiestas de razón, y aunque en principio
acepta la validez de cualquiera de estos métodos, sus últimos trabajos (Stevens, 1959) indican una fuerte preferencia por el método de estimación de magnitud.
Este fuerte hincapié en una técnica específica plantea algunas cuestiones, ya que esperaríamos que todas las técnicas de la misma clase
lógica fueran igualmente capaces de conducir a la misma escala psicológica. Dicho de otra manera, debe haber generalidad con respecto a la técnica.
Aún más, como señalamos anteriormente, una escala de razón debe predecir correctamente las propiedades de intervalo; y si aceptamos la
validez de las técnicas manifiestas de razón, también debemos esperar que las técnicas equivalentes manifiestas de intervalo, proporcionen la misma escala
psicológica dentro de los límites de la técnica. Pero las técnicas manifiestas de intervalo no proporcionan la comprobación cruzada que se requiere.
La razón de esta dificultad puede encontrarse en el problema de la naturaleza y propiedades del proceso mismo de la respuesta, ya que éste no
puede indicar exactamente las propiedades de un atributo, a menos que se use con precisión, con propiedades por lo menos tan potentes como las del mismo
atributo. Vimos en la figura 3 que los datos de Torgerson describían una relación inversa entre escalas de oscuridad y brillantez cuando se usaban
escalas de categorías numéricas. Torgerson obtuvo, asimismo, juicios con el método de estimación de magnitud. Tanto para la oscuridad como para la
brillantez, obtuvo escalas muy diferentes a las obtenidas con escalas de categorías numéricas, pero el logaritmo de la escala de estimación de magnitud
estuvo relacionado linealmente con la escala mencionada. Por otra parte, las escalas de claridad y de oscuridad obtenidas por medio de estimaciones de
magnitud estaban relacionadas de modo recíproco, y no inverso. Estos resultados de Torgerson aclaran que los sujetos humanos no usan escalas numéricas de la
misma manera cuando asignan categorías numéricas que cuando hacen estimaciones de magnitud. Además, si aceptáramos por sus propios méritos los resultados de
cada método, tendríamos que concluir que el atributo de oscuridad es el inverso del atributo de claridad, en un caso; pero que es el recíproco en el otro caso.
Estos mismos resultados esclarecen que la validez de las suposiciones requeridas en las técnicas manifiestas de razón o manifiestas de
intervalo es bastante dudosa. La comprobación mínima de la validez de las suposiciones no arroja resultados favorables y solamente podemos llegar a la
consecuencia de que no es evidente que las técnicas manifiestas sean válidas.
La respuesta como indicador del proceso mediatorio
La mayoría de los psicólogos modernos suponen que la respuesta es indicador de una variable interventora o proceso mediatorio.
Algunos suponen, sin embargo, que la respuesta es un indicador relativamente directo del proceso intermedio, y otros que puede estar relacionada pero muy
indirectamente. Estudiaremos primeramente esta primera clase de teorías y después las otras.
.- Proceso correlacionado. Una de las teorías más directas de que la respuesta está relacionada con un proceso mediatorio afirma
que aquélla se conecta directamente con un proceso que está correlacionado con el atributo. Existen muchos ejemplos de este punto de vista en la bibliografía
sobre escalas de destrezas, actitudes, etc. Por ejemplo, el efecto de halo es una descripción de la tendencia a evaluar personas en base a un atributo de
acuerdo con sus estimaciones previas en otro. De Soto (1961) ha señalado la tendencia de las personas a evaluar a los demás o a los objetos en un orden
consistentemente sencillo.
Más específicamente, en el dominio de los continuos psicofísicos, Warren (1958) desarrolló la teoría del juicio de correlato físico.
Sostiene básicamente que las respuestas que dan los sujetos no indican las propiedades del atributo mismo, sino que reflejan las propiedades de una
dimensión física correlacionada que el sujeto ha experimentado al usar los números.
Afirma, por ejemplo, que cuando los sujetos habían tenido experiencia directa en el uso de una escala numérica, sus respuestas de razón
manifiesta estarían relacionadas linealmente con el continuo físico subyacente. De esta manera, los juicios de peso estarán relacionados directamente con la
escala física de peso, porque todos tenemos experiencia de kilos y gramos. Warren aporta pruebas de que esto es así cuando se desecha el factor
contaminante de tamaño. De manera similar, los juicios de dulzura estarán relacionados directamente con la concentración física del edulcorante, porque
las personas han tenido experiencia con cantidades de azúcar. Y, por la misma razón, los juicios de distancia o longitud estarán relacionados directamente con
la dimensión física.
La mayoría de las personas no ha tenido experiencia directa con la dimensión física de intensidad, por ello no puede juzgar directamente
atributos como la brillantez o sonoridad. Pero hay una dimensión física relacionada estrechamente con la sonoridad y la brillantez y con la cual las
personas han tenido considerable experiencia: la distancia. Warren sostiene que los juicios de un medio de sonoridad o de brillantez son realmente juicios del
doble de la distancia equivalente; y presenta datos que muestran que los juicios de brillantez o sonoridad y distancia están relacionados. En otras palabras, un
sujeto afirma que determinado sonido es la mitad de sonoro que otro cuando su fuente parece estar dos veces más distante.
Las pruebas de Warren al respecto (véase Warren, Sersen y Pores, 1958, y Warren y Poulton, 1960) son convincentes y sugieren ciertamente
que los sujetos pueden aprender a usar numerales con propiedades de razón si lo hacen en base a una dimensión física que efectivamente posea esas propiedades.
Si pueden o no transferir esta destreza a descripciones de un atributo con el que no han tenido experiencia numéricá directa es un problema que está pendiente
de solución.
.- Proceso de interacción. Otro punto de vista acerca de la relación de la respuesta y el atributo es que hay un proceso mediatorio
que interacciona constantemente con el atributo, de manera que la respuesta a cualquier objeto de estímulo es una función conjunta del atributo y del proceso
mediatorio. Pese a que Helson y Michels no describieron sus funciones teóricas exactamente de esta manera es ésta una forma compatible de considerarlas.
Helson (1948, véase también 1959) formuló originalmente su teoría del nivel de adaptación, interesado más que nada en la determinación de
las condiciones de estímulo que conducen a un juicio "neutro" en una técnica de escala verbal de estimación. Sostuvo que el nivel de adaptación en determinado
instante es la media geométrica probada de todos los estímulos, pasados y presentes, y de sus efectos sobre el atributo que se juzga. El nivel de
adaptación cambia constantemente a medida que se experimentan nuevos objetos de estímulo. El juicio neutro, ya sea un rótulo verbal en una escala de estimación
o el valor medio en una escala numérica, siempre corresponderá a este nivel de adaptación.
Pero Helson sostuvo que todos los demás juicios se hacen en relación con tal nivel. Se interesó no sólo en el juicio neutro sino por todos
los juicios verbales o numéricos sobre la longitud entera de la escala. Expuso, en otras palabras, una teoría acerca de la relación entre las respuestas y el
atributo. Esta relación fue expresada matemáticamente en forma mucho más explícita por Michels y Helson (1949), quienes derivaron una relación entre las
respuestas y la intensidad del estímulo, que se corresponde formalmente con la ley de Fechner pero con esta diferencia importante: Fechner supuso que el origen
(en el sentido matemático) del atributo sensorial era el umbral absoluto, mientras que Michels y Helson sostienen que el origen es el nivel de adaptación.
Más específicamente, aseguraron que la primera categoría de respuesta (en una escala de categorías) correspondía a una magnitud de estímulo de 1 késimo por
debajo del nivel de adaptación (donde k es el número de categorías de juicio por debajo del neutro) y que todas las demás respuestas se ajustaban para satisfacer
este requisito.
Michels (1954) llegó a esta deducción al interpretar los juicios de fraccionamiento de brillantez sobre las mismas bases y,
posteriormente (Michels y Doser, 1955) hizo lo mismo con respecto a los juicios de sonoridad. Este no es el lugar para exponer la formulación matemática exacta
que usó Michels, lo que no resta importancia al punto de vista expresado por Helson y Michels acerca de la relación entre la respuesta y el atributo.
Debe recordarse que el nivel de adaptación está cambiando constantemente y que será diferente para cada conjunto de condiciones
experimentales. Por tanto, sostener que la respuesta es siempre relativa al nivel de adaptación significa que no hay relación invariable entre la respuesta
y el objeto de estímulo o el continuo físico subyacente. Podemos expresar esta posición ya sosteniendo que la escala del atributo no es estable, ya afirmando
que el nivel de adaptación es un proceso mediatorio que interacciona constantemente con el atributo (o posiblemente con el continuo de respuesta), de
manera que nunca podemos obtener experimentalmente una relación invariable entre estímulo y respuesta.
Indudablemente esta posición relativista con respecto a la elaboración de escalas psicológicas tiene considerable respaldo experimental,
porque la mayoría de los experimentos sobre medición por escalas no dan muestras de una relación invariable entre respuesta y dimensión física subyacente. Garner
(19546) ha mostrado, por ejemplo, que los juicios de fraccionamiento obtenidos con el método de estímulos constantes dependen casi completamente de la amplitud
de los estímulos de comparación presentados, es decir, del contexto de los estímulos que se presentan para ser juzgados. Sin embargo, aún sería posible que
hubiera un atributo estable significativo y que nuestro problema fuera determinar sus propiedades, procurando realizar operaciones experimentales que
tuvieran en cuenta estas características de respuesta y de juicio.
La respuesta como indicador indirecto del atributo.- La tercera posición importante acerca de la relación de respuesta y atributo
está en que la respuesta no refleja directamente las propiedades del atributo, ni siquiera a través de un proceso mediatorio, sino que está relacionada solo
directamente con el atributo. No se supone, en este caso, que las propiedades numéricas de la respuesta indiquen las propiedades numéricas del atributo.
Fundamentalmente todas las técnicas latentes se basan en tal suposición. Por ejemplo, en las comparaciones por pares normalizados ni siquiera
se pide a los sujetos que hagan algo más que un juicio ordinario. Y en los rangos normalizados de categorías, aunque los sujetos emplearan efectivamente
una respuesta intervalar, no se supone que esta propiedad se mantenga cuando se determinen los valores escalares. O sea que los sujetos pueden usar el método de
escalas de categorías numéricas, pero el experimentador supone después solamente la propiedad ordinal al elaborar su escala.
Aun en la técnica que usó Garner para elaborar una escala de sonoridad a partir de juicios de equisección y fraccionamiento se desistió del
supuesto de que la razón numérica indicada en las situaciones de fraccionamiento era la razón verdadera.
Claro está que si las propiedades numéricas de las respuestas no se consideran adecuadas para reflejar exactamente las propiedades del
atributo, deben hacerse algunas suposiciones para recobrar las propiedades numéricas de la escala; aquí se encuentra el aspecto fundamental del problema de
estas técnicas indirectas y latentes. Cuando se establecen tales suposiciones, éstas deben validarse antes de que podamos aceptar razonablemente que la escala
psicológica es significativa. En una técnica como la de rangos normalizados no se proporcionan medios para comprobar la validez de la suposición de normalidad;
pero en la mayoría de las técnicas, tales procedimientos sí son posibles. Por ejemplo, en las comparaciones por pares normalizados la capacidad de usar la
escala promedio para comprobar cada escala individual permite determinar cuándo no se aplica la suposición de normalidad.
En cierto sentido, estas técnicas suministran valores escalares de un atributo que es realmente una construcción hipotética. Puede o
no "existir"; pero su existencia supuesta y las propiedades expresadas permiten, a menudo, integrar una gran cantidad de datos.
RESUMEN No hemos podido evitar comentarios evaluativos tanto acerca
de las técnicas que hemos analizado como acerca de las diferentes posiciones teóricas concernientes a la relación entre respuesta y atributo. Sería
conveniente, sin embargo, establecer, a modo de resumen, lo que consideramos explícitamente que son los criterios por medio de los cuales deben evaluarse las
técnicas y algunas de las opiniones acerca de ellas.
Una escala psicológica e incluso el atributo mismo son conceptos que usa el experimentador porque le proporcionan el significado y la
generalidad que a su vez le permiten integrar un cuerpo más grande de datos o hechos en pocos principios de trabajo. La función total de tales conceptos en
una ciencia gira alrededor de la idea de generalidad. La ciencia no busca sencillamente datos, ni siquiera simples hechos. En su lugar busca hechos que
tengan algún grado de generalidad, de manera que no tengamos tantos hechos como acontecimientos posibles haya en el mundo. La generalidad puede existir en
muchas clases diferentes de cosas, y aquí es donde debemos considerar la evaluación de las técnicas: ¿de cuántas maneras diferentes suministran
generalidad las escalas? En tanto que existen muchas cosas diferentes de las que podríamos esperar finalidad, hay algunas que son de importancia capital en la
evaluación de las técnicas de elaboración de escalas.
.- Tiempo. Una escala psicológica debe ser invariable por lo menos a través del tiempo; pero no hemos hallado muchas dificultades en este
respecto, porque fa mayoría de las técnicas que han permanecido han demostrado poca varianza cuando se repite el experimento en diferente ocasión.
.- Sujetos. Como en el anterior, en este punto no existe mucha diferencia entre las técnicas. La mayoría de ellas prevén obtener datos de
varios sujetos diferentes, así que podemos estar bastante seguros de la invariabilidad a través de una población específica.
.- Objetos. Nos gustaría encontrar escalas psicológicas que; fuesen válidas para todos los estímulos u objetos que se presumen contienen el
atributo. Esto equivale a decir que la escala debe ser invariable en sus propiedades, independientemente de los objetos de estímulos particulares usados
para determinarla.
En este respecto, las técnicas manifiestas presentan una debilidad tangible. Efectivamente, esta es la esencia real de la posición de
Helson y Michels, de que en condiciones de estímulo diferentes la misma respuesta manifiesta cambiará aún para los mismos estímulos. Por lo mismo, la
escala de sonoridad que obtenemos con la técnica de fraccionamiento depende de los estímulos particulares que encuentra el sujeto (Michels y Doser, 1955, y
Garner, 1954b).
Por otra parte, Jones (1960) ha mostrado que el método de
intervalos sucesivos (rangos normalizados de categorías) es invariable aun
cuando se usen estímulos concretos diferentes para establecer la escala. Comparó
este método con las técnicas manifiestas de intervalo, pero su conclusión podría
extenderse a otras del mismo tipo. Jones mostró además la invariabilidad de la
técnica latente al hacer cambios en el continuo de respuesta empleado.
.- Método. En una sección anterior hicimos notar que debe
establecerse la generalidad con respecto a las respuestas, pero en forma más
amplia requerimos generalidad con respecto al método. Un método particular
especifica por lo común una clase de respuestas,' y mientras podamos cambiar los
valores numéricos efectivos dentro del mismo método básico, estaremos más
interesados en la generalidad a través de las clases de respuestas que solo a
través de los diferentes valores numéricos posibles.
Pero es más importante que una escala psicológica sea
invariable con respecto a métodos equivalentes lógicamente, o que un método
implique la posibilidad de otro. Cuando los sujetos pueden emitir juicios de
razón, pueden entonces también dar juicios de intervalo con respecto al mismo
atributo. Pero, como hemos visto, no obtenemos la misma escala psicológica
cuando se usan éstas técnicas diferentes. De hecho, esta dificultad ha conducido
a muchos investigadores a buscar la técnica "correcta". Pero una escala que es
exclusiva de un método particular se convierte en un concepto definido tan
estrecho que tiene poca utilidad general.
Garner (1958) ha sostenido, específicamente y por estas
razones, el uso de una escala latente de sonoridad basada en el criterio de
discriminabilidad, ya que el criterio implícito en la mayoría de las técnicas
latentes conserva su generalidad de un método a otro. Jones (1960) ha apoyado
este argumento en materiales de estímulo que no son de tipo psicofísico. En
efecto, las escalas psicológicas basadas en propiedades latentes de los datos se
corresponden mayormente con las escalas basadas en técnicas manifiestas de
intervalo, y no así con las basadas en técnicas manifiestas de razón.
Es por esto que la evidencia disponible indica que las
escalas latentes tienen mayor generalidad que las manifiestas, particularmente
las de esta clase que asumen la capacidad de los sujetos para usar propiedades
de razón. La razón de esto quizá sea en parte la observación que hicimos
anteriormente de que las técnicas latentes requieren suposiciones especiales;
pero el requerimiento de estas es bastante evidente para que la mayoría de los
investigadores se empeñen en establecer su validez.
Entonces, en el caso ideal, una escala debe poseer
generalidad en cuanto a tiempo, sujetos, objetos que reflejen el atributo, y
método. Como indicamos al final, el problema de generalidad a través de métodos
diferentes es en la actualidad el obstáculo más grande para el desenvolvimiento
de la medición por escalas psicológicas. Cuando señalamos que los procedimientos
latentes parecen proporcionar mayor generalidad que las técnicas manifiestas,
evadimos un problema muy real. No quisimos significar que las técnicas tenían
mayor éxito porque reflejaban procesos reales de las personas, que reflejaban
realmente las propiedades métricas de los atributos. No queríamos declararlo
porque no sabemos si la afirmación es verdadera o no.
Desde un punto de vista ideal, la escala de mayor generalidad
es la que a la vez posee la mayor correspondencia con los atributos internos y
con los proceso mediatorios. Tal escala surgiría solamente de una teoría de la
forma en que las personas hacen juicios acerca de su experiencia, cuando se
aplica la teoría al procedimiento empleado para elaborar la escala. Sería
injusto decir que no existe semejante teoría; la suposición de normalidad usada
en la mayoría de los procedimientos de elaboración de escalas latentes es
realmente el primer paso hacia tal teoría. Últimamente se han desarrollado
muchas teorías acerca del proceso de juicio; pero hasta la fecha poco es lo que
se ha hecho para aplicarlas a los problemas de construcción de escalas. Mientras
tanto, como hemos visto, se han desarrollado muchos procedimientos valiosos que
el psicólogo puede emplear en la medición de procesos psicológicos. BIBLIOGRAFIA LA SEGURIDAD EN AVIACIÓN: IMPORTANCIA DEL FACTOR HUMANO. XX
Técnicas de intervalo latente Existen muchas maneras lógicas de construir escalas psicológicas con propiedades
intervalares, las cuales se basan en propiedades latentes de los datos; como
ejemplo tenemos la técnica de despliegue de Coombs. Pero en el establecimiento
de escalas psicológicas todas las técnicas se basan primordialmente en la
aceptación de propiedades manifiestas ordinales, además de poseer propiedades
ordinales que se agregan después de una suposición secundaria acerca de la
distribución estadística de los valores escalares. Y la suposición común es que
los procesos psicológicos se distribuyen de acuerdo con la distribución normal.
Hace más de cien años, Fechner fue el primero en construir una escala
psicológica de intervalo basada en propiedades de intervalo latente de
intervalo. Integró las dan (jnd's) para obtener una escala de magnitudes
sensoriales, aplicando la suposición de que todas las dan son iguales en cuanto
a sensación. Este supuesto permitió construir una escala con propiedades de
intervalo. Thurstone (1927) extendió el
principio usado por Fechner para obtener una ley mucho más general. En realidad
Fechner había supuesto que las diferencias que se advierten con la misma
frecuencia constituyen diferencias psicológicas iguales, ya que una dan se
define como una proporción constante de juicios referentes a que un estímulo es
más grande que otro. Pero Fechner no hizo ninguna suposición acerca de la
distribución de los juicios. La generalización de Thurstone consistió en suponer
que el proceso psicológico que conduce a juicios de diferencia está distribuido
normalmente. De esta suposición puede deducirse la distancia psicológica si
conocemos la proporción de veces que un estímulo es seleccionado con respecto a
otro, pues hay una relación invariable entre las probabilidades y las
desviaciones normales o puntuaciones estándar. Así, si conocemos la proporción
de veces que A es preferido a B, podemos determinar la distancia entre A y B,
convirtiendo la proporción en la puntuación estándar equivalente en las tablas
de la curva normal. Thurstone desarrolló un modelo matemático completo basado en
esta Ley del juicio comparativo (nombre que se dio a los supuestos de
normalidad intervalar), pero para nuestros propósitos, el principio importante
es que pueden deducirse distancias psicológicas con propiedades de intervalo de
las proporciones de juicios ordinales.
Así, en todas las técnicas de intervalo latente, los datos manifiestos tienen
propiedades ordinales cuya validez se acepta. Aplicando el supuesto de la
distribución normal de los juicios o procesos psicológicos se obtienen
propiedades intervalares en la escala psicológica. Las diferencias entre las
diversas técnicas dependen de la naturaleza de los datos manifiestos.
Rangos normalizados. El procedimiento más simple para obtener una escala
manifiesta ordinal és pedir a vários sujetos que ordenen un conjunto de
estímulos. En los datos ilustrativos de la tabla 1 (v. marzo 07) pudimos sumar los rangos para
obtener el rango generalizado o promedio, pero señalamos que los estímulos
debían volverse a ordenar para evitar la implicación de que las diferencias
numéricas desiguales entre sumas sucesivas tienen algún significado intervalar.
El tamaño de estas diferencias puede carecer de significado, porque solo se
hicieron juicios ordinales y no conocemos la distancia intervalar entre los
rangos sucesivos.
No obstante, si suponemos que los estímulos están
distribuidos normalmente por valores escalares, entonces podemos construir una
escala de intervalo. El procedimiento que usamos es el siguiente: en nuestro
ejemplo teníamos cinco estímulos diferentes que había que ordenar. Si estos
estímulos están distribuidos normalmente, entonces nuestra mejor suposición de
trabajo consiste en que cada estímulo ocupa 1/5 del continuo total de valores
posibles. En otras palabras, el estímulo con el rango más bajo se encuentra
entre el 0 y el 20 % de la amplitud total de valores; el segundo estímulo está
entre el 20 y el 40 %; el tercero entre el 40 y el 60 %; el cuarto entre el 60 y
el 80 %; y el quinto entre el 80 y el 100 %. No sabemos exactamente en dónde se
encuentra cada estímulo, pero nuestra mejor estimación es que está en medio de
su amplitud de valores posibles. Supongamos que el primer estímulo está en el
percentil 10, el segundo en el percentil 30 y así sucesivamente hasta el último,
que está en el percentil 90. La puntuación estándar equivalente de cada
percentil se determina después a partir de tablas normales y estos valores se
aceptan como nuestra mejor estimación de los valores escalares de intervalo. Por
ejemplo, el rango normalizado de un rango de 1 es de + 1.28, que es la
desviación normal equivalente de 0.90.
Los rangos de cada uno de los cuatro estimadores se dan como
rangos normalizados, y ahora podemos tomar justamente la media de estos rangos
normalizados, ya que son valores promedio con propiedades intervalares. Estos
rangos normalizados medios se dan en la parte inferior de la tabla.
Como la escala está formada tanto por números positivos como negativos, es
difícil interpretarla. A menudo los números son transformados como si todos
fueran positivos. En el último renglón de la tabla se hizo esto y, además, se
multiplicaron por 10 para dispersarlos más. En una escala de intervalo todo lo
que debemos conservar es el tamaño relativo de las distancias entré los valores
escalares; y esto es lo que se ha logrado con dicha transformación. La escala
final se relaciona con la original por la fórmula
Y= 1OX+ 11.925.
En nuestro ejemplo, pedimos a los sujetos que evaluaran únicamente cinco
objetos. Cuando se evalúan más objetos, se sigue el mismo procedimiento, pero el
continuo total se divide en mayor número de pasos. Esto significa que, por
ejemplo, si tuviéramos 10 rangos, dividiríamos la amplitud total en 10 partes
iguales, de 0 a 10, de 10 a 20, etc. Y los puntos medios de estas amplitudes, 5,
15, 25, etc., se usarían para determinar el valor equivalente de desviación
normal. Por otra parte, la técnica se usaría justamente como ya se ilustró.
Comparaciones normalizadas por pares. La segunda técnica que estudiamos para
obtener escalas manifiestas ordinales fue la de comparaciones por pares, en la
que cada objeto es aparejado a todos los demás del conjunto. A un grupo de
sujetos se les pide que indiquen su preferencia por uno de los objetos de cada
par. Los datos obtenidos con esta técnica se presentan en la tabla 2, (v. Marzo
2007) donde cada
celdilla indica la proporción de veces que cada pintura se prefirió a las demás.
Estos datos pueden usarse para construir una escala de intervalo con la
suposición de normalización, si convertimos cada una de las proporciones en su
puntuación estándar equivalente, y a partir de estas puntuaciones computamos las
distancias medias, en unidades de puntuaciones estándar, entre estímulos sucesivos.
Y aquí, como en el caso de los rangos normalizados, se aceptaron las propiedades
manifiestas ordinales de los datos.
TABLA 5
Estimadores Joe Bill Andy Jack Sam
Jefe .53 1.28 0 -.53 -1.28
* Cada anotación es la puntuación estándar equivalente del rango dado en la
Tabla 1. La escala transformada (Y) se relaciona con la escala original (X) por
la fórmula Y = 10 X + 11.925. El fundamento de la
construcción de la escala es el siguiente: primero, consideremos cada columna de
la tabla 6. Los valores de la primera columna representan las puntuaciones de
desviación normal cuando cada pintura se compara con la primera. Ya que la
pintura con la cual se compararon cada una de las siete pinturas de esa columna
es constante, entonces, con la suposición normal-intervalar, los valores de esa
columna pueden usarse directamente como valores escalares de intervalo para
todas las pinturas. De manera totalmente arbitraria, se le asignó a la primera
pintura -el estándar- un valor escalar de 0; y este procedimiento es por entero
correcto, ya que solamente construimos una escala con propiedades de intervalo,
y tal tipo de escala no tiene cero absoluto o verdadero.
Desde el punto de vista estrictamente lógico, todo cuanto se necesita para
construir una escala latente de intervalo es una columna de datos de
comparación. Sin embargo, podríamos usar también cualquier columna en lugar de
la primera, porque en cada una de ellas se han comparado siete pinturas con una
sola estándar. En cada columna la escala que construyamos se asignaría, empero,
el valor de 0 a la pintura que se hubiera usado como estándar de comparación.
Ahora bien, si los datos fueran perfectamente confiables y válidas las
suposiciones que intervienen en una escala de intervalo, estas ocho escalas
serían exactamente iguales excepto por la posición arbitraria del punto cero.
Desde que la posición del valor cero es completamente arbitraria, podríamos
cambiar simplemente cada conjunto de valores escalares de manera que al mismo
estímulo se le diera el valor 0. Luego podríamos promediar los valores escalares
correspondientes a cada estímulo con el fin de obtener una escala más general.
Hay, sin embargo, una dificultad importante en este sencillo procedimiento, que
se ilustra en la tabla 6, y es que cada columna -con las ocho pinturas
diferentes empleadas como estándares- no proporciona un valor escalar efectivo
para cada una de las ocho pinturas, puesto que en casos extremos una pintura se
escoge o se prefiere en función de una o dos de las demás, todas o casi todas
las veces. En estos casos están indeterminadas las puntuaciones estándar.
Tenemos así ocho escalas diferentes en las ocho columnas; pero no a todos los
estímulos, dentro de cada columna, se les dan valores escalares.
TABLA 6
Comparaciones por pares normalizadas, usando los datos de la Tabla 2.
A B
C D
E F G
H
A
0 -.52 -1.08 -1.55
-1.55 - -
-
2.786 Las proporciones se tomaron como
estimaciones de la probabilidad de que cada pintura fuera preferida a cada una
de las demás, y los números que aquí se muestran son los equivalentes de
puntuación estándar de estas probabilidades. A la derecha, se ve la distancia
media en unidades de puntuación estándar entre las pinturas y la escala final,
donde se asignó un valor de 0 a la pintura menos preferida. Lo que debemos
hacer es determinar la diferencia entre cada par de estímulos adyacentes
calculando la diferencia promedio de valor escalar en todas las escalas donde
las dos pinturas de un par tuvieron valores escalares. Por ejemplo, las dos
pinturas A y B tienen valores escalares en las cinco primeras columnas, de modo
que podemos obtener cinco estimaciones de la diferencia entre A y B usando los
valores escalares de estas cinco columnas. La diferencia promedio entre los
valores escalares es, en estas cinco columnas, 592 unidades de puntuación
estándar. De manera
análoga, determinamos la diferencia promedio de valor escalar entre B y C,
usando las siete columnas donde hay valores escalares para estos estímulos, y
así sucesivamente, hasta obtener las diferencias de valores escalares entre
todos los estímulos contiguos; y en cada caso la diferencia es la media de todas
las diferencias que se obtuvieron para ese par de estímulos. Estas diferencias
medias se presentan en el lado derecho de la tabla 6.
Los valores escalares finales se obtuvieron después suponiendo las diferencias
de valores escalares sucesivos presentadas en la última columna de la tabla 6;
como en casos anteriores, podemos trasladar estos valores escalares para obtener
el punto 0 deseado. Podemos igualmente multiplicar los valores escalares; y
existen razones teóricas para multiplicarlos por, la raíz cuadrada de 2. Sin
embargo, es también correcto dejar los números en esta forma, ya que son
interpretables fácil y directamente en relación con las proporciones originales
de las que se obtuvieron.
El método de comparaciones por pares normalizadas, proporciona una prueba de
consistencia interna que no es factible con rangos normalizados. Se recordará
que podíamos considerar que cada columna de la tabla 6 proporcionaba una
estimación de los valores escalares de todos los estímulos; pero después usamos
las diferencias escalares medias para obtener nuestro conjunto final de valores
escalares. Cada escala separada debe corresponder, sin embargo, a esta escala
promedio dentro del error de medida esperado, cuando se ajusta el punto 0 de la
escala. Si usamos la escala promedio para predecir cada escala separada, podemos
convertir los valores escalares en proporciones esperadas; y si estas
predicciones no corresponden, otra vez dentro del error de medida, debemos
rechazar la suposición de que todos los valores escalares sean realmente
iguales. En tal caso existen muchos modelos alternos que podrían también usarse.
El más común es suponer que no son iguales las desviaciones estándar. En otras
palabras, mantenemos la suposición de normalidad, pero no la de que la
distribución normal de cada estímulo tiene la misma desviación estándar; pero no
es nuestro propósito entrar en detalle.
Rangos de categoría normalizados La tercera técnica para obtener escalas
manifiestas -ordinales es la de rangos de categoría. Pueden aquí usarse los
datos para elaborar una escala latente- intervalar si le asignamos el supuesto
de normalidad. Los datos que usaremos son los de la tabla 3, que corresponden al
método de rangos de categoría. Pueden, no obstante, usarse igualmente los datos
de los métodos de intervalos aparentemente iguales, de categorías numéricas o de
escalas de evaluación, si suponemos que la única propiedad manifiesta válida de
los datos obtenidos es la propiedad ordinal.
Se han sugerido muchas técnicas con diferentes nombres para elaborar escalas
intervalares latentes basadas en datos de categorías. Sin embargo, como señala
Guilford (1954), todas son básicamente iguales. Saffir (1937) fue el primero en
usar este método, basándose en una técnica desarrollada por Thurstone y lo
denominó método de categorías sucesivas. Guilford (1938) propuso otro método al
que llamó de elaboración absoluta de escala. Attneave (1949) propuso lo que él
llamó método de dicotomías clasificadas por grados; y Garner y Hake (1951)
describieron un método para construir una escala de discriminabilidad
equivalente. Pese a todo, estos métodos aplican los mismos principios
esenciales, que dependen principalmente de la suposición de normalidad para
crear una escala intervalar latente a partir de datos con propiedades
manifiestas-ordinales.
El primer paso para construir una escala intervalar latente se ilustra en la
misma tabla 3, donde el número debajo de cada par en cada celdilla es la
proporción acumulativa de veces que cada estímulo fue clasificado en la
categoría dada o en una inferior. Estas proporciones acumulativas deben
considerarse, por consiguiente, como la proporción de juicios que caen por
debajo del límite superior de cada rango de categorías. Naturalmente, todas las
proporciones acumulativas son iguales a 1.00 en los rangos categoriales más
altos, ya que cada patrón de estímulo recibió un rango de categoría de parte de
cada uno de los 20 jueces, y las proporciones deben sumar la unidad.
Podemos ahora suponer que estas proporciones están distribuidas normalmente;
convirtamos, pues, las proporciones acumulativas en proporciones estándar con
las tablas de la curva normal. Estos valores, presentados en la tabla 7, son los
valores escalares psicológicos supuestos de los límites superiores de las
categorías de respuesta, y el último rango de categoría (quinto) no tiene valor
porque la puntuación de desviación de la curva normal para una proporción de
1.00 está en más infinito.
Tenemos, mientras tanto, un valor escalar para el límite superior del intervalo
de cada rango de categoría excepto en los casos en que la proporción acumulativa
es 1.00 o un valor cercano. (Como es habitual no hemos usado valores
acumulativos mayores que .95 o menores que .05, debido a que el error
estadístico es muy grande en tales proporciones). Esto no obsta para considerar
que en cada límite superior intervalar también tenemos un valor escalar para
cada estímulo sucesivo. Así cada renglón nos proporciona un conjunto de valores
escalares de estímulo. Podemos obtener estimaciones de la diferencia escalar
promedio entre estímulos sucesivos en las columnas donde los estímulos de
cada par tienen valores efectivos, y podemos acumular estas diferencias promedio
para obtener una escala final dé los estímulos. Puede asignarse un valor de cero
a cualquier estímulo que escojamos. Este cálculo se ilustra en la tabla 7.
Patrones de estímulo Categoría
1 2 3 4 19 20 Se obtiene una prueba de la consistencia interna fundamentalmente de la misma
manera que en las comparaciones por pares normalizados. Podemos usar la escala
promedio para computar las diferencias entre los estímulos en los límites
superiores intervalares y convertirlas después en proporciones acumulativas.
Luego podemos compararlas con las proporciones originales y decidir si estuvo
operando la misma escala psicológica para todos los estímulos. Si no es así,
pueden usarse otros métodos, especialmente los que suponen desviaciones estándar
desiguales.
Técnicas de proporción manifiesta
Cualquier técnica basada en propiedades de razón manifiesta de las respuestas de
un sujeto o de un evaluador, debe hacer las suposiciones paralelas de que el
atributo en cuestión tiene efectivamente propiedades de razón y que los sujetos
pueden percibir y describir directamente estas propiedades. La propiedad de
razón, requiere, específicamente, que el atributo tenga un cero absoluto, ya que
sin éste una expresión de proporción carece totalmente de significado.
De ahí que las técnicas manifiestas de razón requieran en alguna forma que el
sujeto exprese una relación entre dos o más objetos estímulo en forma de
proporción. No es, de suyo, necesario que tales objetos sean lo que
ordinariamente llamamos estímulos, sino que pueden ser personas, si bien no deja
de ser cierto que las técnicas de proporción se han usado rara vez con estas
últimas.
Elaboración de razones. Probablemente la técnica más antigua de este tipo sea la
elaboración de razones. El método se ha llamado a menudo "fraccionamiento",
porque se le pide a un sujeto que elabore una magnitud de estímulo que sea una
fracción especificada de otro, pero como también se le puede pedir que elabore
un estímulo que sea múltiplo constante del otro, es preferible el término más
amplia de elaboración de razones.
Como acabamos de señalar, el procedimiento básico consiste en darle al sujeto un
estímulo estándar que se presume tiene el atributo considerado y en pedirle
después que elabore otro estímulo que mantenga una razón constante indicada con
el estándar. Este método es, desde luego, semejante al de equisección porque el
sujeto elabora un estímulo (podría elaborar una serie de estímulos) que guarda
una relación numérica indicada con un estándar. Como la equisección, el método
se adapta solamente a los atributos psicológicos que tienen una dimensión física
fácilmente manipulable que es la contraparte del atributo psicológico. La
sonoridad ha sido el atributo más usado, y nosotros también nos valdremos de
ella para ilustrar el método.
En su forma más simple, empezaríamos con un estímulo sonoro como estándar y
pediríamos a un sujeto que produjera un estímulo con la mitad de sonoridad. Si
asignamos arbitrariamente un numeral, por ejemplo 100, al estándar, entonces se
asignaría el numeral 50 al estímulo que según el sujeto fuese la mitad de
sonoro. Después usaríamos ese estímulo como estándar y pediríamos al sujeto que
produjera otro que fuera la mitad de sonoro de ese, y le asignaríamos el numeral
25. Continuando este fraccionamiento, obtendríamos sucesivamente una sonoridad
de 12.5, 6.25, etc.
En realidad, este sencillo procedimiento se usa rara vez debido a las posibles
desviaciones experimentales que pueden ocurrir con la disminución sucesiva de
sonoridad. El procedimiento usual, consiste en usar
una serie de estándares fijos, por ejemplo, cada uno de 10 db. Después cada
sujeto ajusta otro estímulo de la mitad de sonoridad de cada estándar. Los
estímulos estándar se usan al azar o contrabalanceadamente, y los diferentes
sujetos pueden producir varias veces cada estándar. Estos valores diversos se
promedian después para obtener una curva promedio que exprese 12 relación entre
la intensidad del estándar y la intensidad considerada como la mitad de sonora.
Luego se construyó la escala psicológica de sonoridad, por medio de
interpolaciones, para obtener las intensidades sucesivas de la mitad de
sonoridad. Podemos asignar arbitrariamente, por ejemplo, un valor de 100 a una
intensidad de 110 db y luego leer en la función la intensidad que se juzga, en
promedio, como la mitad de su sonoridad. A esta intensidad se le asigna un valor
escalar de 50 y después se determina, por interpolación, la intensidad que se
consideró como la mitad de la sonoridad de ésta. A esa intensidad se le da un
valor de 25 y después se usa para determinar la intensidad que se juzgó como la
mitad de sonora, etc., hasta llegar a intensidades tan bajas como las usadas
experimentalmente.
Los tipos de prueba de consistencia que permite este procedimiento se refieren
básicamente a la capacidad de los sujetos para usar correctamente las razones de
números. Por ejemplo, podíamos realizar exactamente este experimento excepto al
pedírsele al sujeto qué produjera un estímulo el doble de sonoro; o que
produjera estímulos de un tercio de sonoridad o aun del triple de sonoridad.
Cada uno de estos procedimientos debe conducir ciertamente a la misma escala de
sonoridad si se usan los números correctamente.
Estimación de magnitud. En la técnica de producción de razones, se le da
al sujeto un valor numérico y se le pide que ajuste los estímulos hasta
satisfacer el criterio. En la estimación de magnitud, como en las técnicas de
propiedades manifiestas intervalares de intervalos aparentemente iguales, de
escalas de categorías numéricas y de escalas de estimación, se proporcionan los
estímulos y se pide al sujeto que indique, en este caso siempre numéricamente,
las relaciones entre esos estímulos.
De entre los procedimientos de estimación de magnitud hay dos que pueden usarse.
- El primero consiste sencillamente en presentar un estímulo por vez y pedirle al
sujeto que indique su valor numérico usando cualquier módulo o unidad de medida.
Este es un procedimiento de estimación numérica directa y los valores escalares
son simplemente los valores numéricos medios obtenidos. Las propiedades de razón
de la escala dependen completamente de la suposición de que las propiedades de
razón fueron efectivamente usadas por los sujetos.
- El segundo procedimiento consiste en presentar un estímulo estándar
asignándole de antemano un valor numérico, que se convierte en el módulo o
unidad de medida. Se presentan después otros estímulos y se pide al sujeto que
indique el valor numérico que debe asignarle a cada uno de acuerdo con el módulo
estándar. Este puede presentarse cada vez que se proponga otro estímulo de
comparación, o bien puede presentarse sólo ocasionalmente.
Para una prueba de consistencia interna, es preferible usar por lo menos dos
estímulos estándar diferentes, ya sea de igual o diferente módulo numérico. En
la tabla 8 aparecen algunos datos ilustrativos de un experimento en que se
usaron dos estímulos estándar diferentes, cada uno con el mismo módulo numérico.
Los estímulos consistieron en pesos que el sujeto levantaba. Los valores que se
incluyen son los valores numéricos medios dados por los sujetos a cada uno de
los pesos. Cada uno
de estos dos conjuntos de datos puede usarse para construir una escala
psicológica de peso; también podemos convertirlos al mismo módulo numérico para
construir una sola escala compuesta. Multiplicamos (o dividimos) sencillamente
todos los números obtenidos con el segundo estándar de manera que el valor
numérico de este corresponda a su valor cuando es juzgado en relación con el
primer estándar. Una escala de razón permite cualquier transformación
multiplicativa, así que este cambio es completamente válido. Adviértase, sin
embargo, que no debemos agregar o sumar una constante a ninguna de las escalas,
porque en las escalas de razón no está permitida tal transformación. Si
tuviéramos que hacerlo para que concordaran las dos escalas comprobaríamos que
no se usaron los números como razones.
Estas dos escalas, transformadas al mismo módulo numérico, son las que aparecen
en la figura 6, y en nuestro ejemplo particular concuerdan perfectamente.
- El método de suma constante. Metfessel (1947) sugirió una tercera
técnica para obtener escalas de razón, la cual ha venido a llamarse método de
suma constante. Es análoga al método de comparación por pares excepto en que los
sujetos formulan juicios de razón, y no ordinales.
En la situación experimental tenemos un número fijo de estímulos para los que
deseamos hacer una escala relacionada con cierto atributo, y puesto que los
estímulos permanecen constantes, no es necesario que haya una dimensión física
correspondiente a dicho atributo. Cada estímulo es apareado con cada uno de los
demás para formar todos los pares posibles. Después se presentan los pares en
forma sucesiva al sujeto y se le pide a éste que asigne valores numéricos a los
dos objetos de estímulo del par. Hay en esta asignación numérica la restricción
de que la suma de los dos números usados debe ser igual a una constante,
generalmente de 100, fijada por el experimentador. Así, por ejemplo, un sujeto
puede decir que el estímulo A recibe un valor de 60 y el B un valor de 40. Ahora
bien, si un sujeto puede dividir una suma fija de esta manera, ello implica que
puede formar razones y podemos deducir que la razón numérica entre los valores escalares de los estímulos A y B es de 1.5 a 1. El sujeto puede hacer uno y
hasta varios juicios para cada par. Se usan, además, varios sujetos para dar generalidad a la escala.
Existen formas alternas de tratar los datos y es posible usarlos en su forma numérica directa. Sin embargo, Torgerson (1958), ha indicado un procedimiento de
gran sencillez aritmética y que conserva el fundamento del procedimiento, muy semejante al tratamiento de datos de comparaciones por pares normalizados.
La esencia del procedimiento consiste en la relación entre logaritmos v razones. Si tomamos logaritmos de los valores numéricos de una escala de razón, entonces
las diferencias logarítmicas iguales son equivalentes a las que fueron originalmente razones iguales, Así, una serie de valores numéricos sobre una
escala de razón de 1, 2, 4, 8 y 16 se convierte en los logaritmos 0, .3, .6, .9 y 1.2. Por tanto, si convertimos en logaritmos nuestros numerales de razón
obtenidos de los datos, podemos tratar con números donde una diferencia constante siempre significa una razón constante, independientemente de los
valores reales de los números originales. Nuestro procedimiento consiste, entonces, en tomar un par de números que da un
sujeto, expresarlos como una sola razón y luego convertir esta razón en su logaritmo equivalente. Los valores de 60 y 40 asignados a A y B se expresarán,
consecuentemente, como una razón de 1.5 a 1, con su logaritmo equivalente de 0.176. Y tendremos así que este valor representa la diferencia logarítmica entre
A y B, que es equivalente a la razón. En cada pareja de estímulos obtenemos la media de todas las diferencias logarítmicas, que se colocan en una tabla semejante a la tabla 9. En la diagonal
principal aparece el valor de cero porque se supone que, si cada estímulo fuera comparado consigo mismo, se obtendrían valores de 50 y 50, que darían una razón
de 1.0 y un logaritmo de 0. Esta tabla puede interpretarse exactamente de la misma manera que la tabla 6.
Cada columna de la tabla da una escala psicológica perfectamente válida, en la que todos los estímulos se han comparado con un solo estándar; pero este es
diferente en cada columna. Excepto por el error de medida estas escalas son iguales, aunque el punto cero sea diferente en cada una debido al diferente
estímulo estándar usado. Es entonces una escala de intervalo en forma logarítmica. Un cambio en el punto cero equivale aquí a la multiplicación por una constante.
El método de suma constante*
Bill Joe Andy Jack Sam Para obtener una escala promedio, podemos calcular, precisamente como en las comparaciones por pares normalizados, la diferencia promedio entre los valores
escalares de todos los pares de estímulos, independientemente del estándar. Si algunos estímulos recibieron los 100 puntos cuando se compararon con otros,
entonces no tenemos ninguna diferencia escalar, porque la razón es infinita. Obtenemos así el promedio sólo para diferencias reales de pares; después
agregamos estas diferencias para obtener la escala completa en forma logarítmica. Todo lo que se requiere es convertir estos valores a forma
numérica. Podemos, claro está, multiplicar estos números por el valor constante que queramos.
Nuestra prueba de consistencia interna se basa en el hecho de que cada estímulo se usó tanto de estándar como de comparación para cada uno de los demás
estímulos. En otras palabras, cada estímulo sirve de módulo, y un cambio en éste no debe afectar la escala, excepto en el caso de un multiplicador constante.
Cuando las escalas no son iguales, sabemos de inmediato que no es válida nuestra suposición de propiedades de razón.
Una técnica de razón latente Una escala con propiedades de medición más eficaces abarca todas las propiedades
de la escala más débil. Así, una escala de intervalo tiene también la propiedad ordinal y una escala de razón tiene propiedades intervalares además de las
ordinales. Este hecho indica que un procedimiento lógico para comprobar la consistencia interna de una escala es mostrar que la escala obtenida es
compatible con las propiedades de una escala de orden inferior. Para ser más específicos, supongamos que hemos elaborado una escala de sonoridad mediante una
de las tres técnicas manifiestas de razón. Es muy posible obtener una escala que sea consistente dentro de la estructura de la medición, pero puede no ser
compatible con las propiedades de una escala obtenida mediante una técnica manifiesta intervalar o latente intervalar. Como existen diferencias importantes
entre estas técnicas, particularmente cuando se emplean procedimientos latentes, no siempre podemos esperar consistencia entre ellas; y en algún grado dicha
falta de consistencia puede justificarse por las suposiciones fundamentalmente diferentes que intervienen.
Esto no impide que muchas de las técnicas manifiestas sean básicamente iguales y se apliquen a problemas de escalas intervalares o de razón con la única
diferencia de la capacidad asignada al sujeto para hacer uso de escalas con propiedades superiores (pero inclusivas). Por tanto, la técnica de producción de
razón es exactamente igual a la técnica de equisección, excepto en que en ésta se indica al sujeto que produzca intervalos iguales, mientras que en la primera
se le pide que produzca una razón dada. De manera similar, la técnica de estimación de magnitud es igual a las técnicas de categorías numéricas (y aún al
método de intervalos aparentemente iguales o escalas de estimación). En estos casos de técnicas análogas sería razonable suponer que una escala
basada en la técnica de razón puede predecir exactamente la escala basada en su técnica intervalar equivalente. Sin embargo, es raro que estos procedimientos
análogos conduzcan a la misma escala psicológica (véase Stevens y Galanter, 1957), hecho que debe plantear seria duda acerca de la validez de los
procedimientos manifiestos. Cuando suceden estas fallas de concordancia, no sabemos, positivamente, qué técnica es defectuosa o cuál de ellas es válida.
Pero a pesar de lo anterior y como Stevens (1951) lo ha mostrado lógicamente, es posible producir una escala con propiedades de razón que no requiera las mismas
suposiciones radicales acerca de las propiedades manifiestas de las respuestas que exigen las técnicas manifiestas de razón. Una escala de razón puede
elaborarse entonces con base en propiedades latentes de los datos. L =abx donde L es la función verdadera de sonoridad, a es cierta unidad arbitraria de
medida, b el valor de la razón desconocida y x el valor de la razón sucesiva. Podemos asignar a a el valor que queramos, de manera que sólo quede un valor
desconocido en el segundo miembro de esta ecuación. A partir de los datos del experimento de equiseccion, podemos también
determinar la función de sonoridad, pero no conocemos el valor de la constante de intersección, es decir la localización del punto cero. En forma de ecuación
sabemos que L=c(Y-d) donde L tiene el mismo significado que arriba, c es una unidad arbitraria de
medida, Y es el valor asignado a la sonoridad de los datos intervalares, y d es la intersección constante desconocida.
En realidad solamente tenemos dos términos desconocidos, el valor de la razón del experimento de fraccionamiento y el valor de la
intersección de los datos de equisección. Pero contamos con dos conjuntos de datos independientes y, por tanto, podemos calcular estos dos valores
desconocidos de manera que se llegue a la misma escala de sonoridad. No es necesario entrar aquí en los detalles del procedimiento aritmético usado para
determinar las estimaciones, pues lo más importante es que estas satisfagan la condición de una sola función de sonoridad. En consecuencia, este procedimiento,
como las técnicas de Guttman y Coombs, tiene por requisito principal la prueba de la consistencia interna; y no es posible escala psicológica alguna sin que
antes la prueba de consistencia interna haya mostrado la validez del supuesto atributo. Ha habido relativamente pocos intentos por usar las técnicas latentes
para elaborar escalas de razón de atributos psicológicos. Michels (1954) publicó una escala de brillantez basada en juicios de fraccionamiento y Michels y Doser
(1955) hicieron lo propio con una escala de sonoridad. Pero sus técnicas, que discutiremos con mayor amplitud más adelante, están más relacionadas con la
teorización acerca de la naturaleza de las escalas mismas que con el desarrollo de un método para elaborarlas.
Otras técnicas de medición El problema de medición en psicología es ubicuo. El análisis
de las técnicas para elaborar escalas psicológicas requiere considerable selección arbitraria, toda vez que los problemas de medición lógica asociados
con lo que hemos llamado elaboración de escalas preséntanse también en otras ramas de la psicología. Los psicólogos miden cosas tales como inteligencia,
habilidades, destrezas, actitudes, intereses, etc. Todo este cúmulo dé entidades puede considerarse problemático en la medición de atributos, no obstante la
existencia de algunas diferencias que nos llevan a excluirlas de nuestro análisis. Hemos estudiado problemas donde hay poca duda respecto a la
existencia de cierto atributo psicológico. Nuestro interés ha sido el de cómo determinar las propiedades escalares de un atributo, para obtener después un
conjunto de numerales para asignarlos a los objetos que contengan, en mayor o menor grado, el atributo. Además, nos hemos limitado a los casos donde el
atributo puede definirse como un solo continuo. No hemos analizado la medición de cosas como inteligencia y
habilidad porque se definen comúnmente en términos de tareas múltiples en donde la medida no pretende tener propiedades escalares asignables a un atributo. Por
ejemplo, el examen final de un curso de psicología tendrá muchos reactivos y la calificación final será la suma de los reactivos correctos. Pero no todos los
reactivos miden el mismo atributo y, en realidad, la mayoría de los exámenes se elaboran de manera que no lo midan, incluyéndose deliberadamente reactivos que
no están correlacionados. Tales tests hacen los problemas de medición no menos difíciles e intricados; pero son, simplemente, de distinta clase.
Por otra parte, muchas técnicas de medición extremadamente sutiles se interesan principalmente por establecer la existencia de continuos
subyacentes o atributos. Por ejemplo, el análisis factorial, como técnica, se interesa menos en las propiedades de medición de un atributo que en descubrir
cuantos de estos se presentan en un numero dado de personas y de tests. La técnica de Lazarsfeld, de análisis de estructura latente, también se ha omitido
por esta razón (quizás incorrectamente) dado que se ocupa mas de establecer la existencia de atributos que de medir sus cantidades.
LA SEGURIDAD EN AVIACIÓN: IMPORTANCIA DEL FACTOR HUMANO. XIX ALGUNAS TÉCNICAS DE CONSTRUCCIÓN DE ESCALAS
Cada problema que se presenta al hacer escalas fija distintos requisitos de técnica; esta es la razón por la que se han desarrollado distintas técnicas de
elaboración. Muchas diferencias de técnica se deben a diferencias en los atributos o en los objetos que se van a medir por medio de escalas. Estas
diferencias dificultan la agrupación significativa de las diferentes técnicas. Debemos encontrar maneras de organizar las técnicas para presentar un cuadro
claro. Podríamos organizarlas según la naturaleza del atributo, según la naturaleza de los objetos que se van a medir y hasta por la naturaleza de la
respuesta usada. Pero estos métodos no tienen en cuenta los aspectos conexos más importantes de una escala psicológica, a saber, cuáles son sus propiedades de
medición y cómo se relaciona la escala con el atributo subyacente. Se han organizado, por tanto, las técnicas según estos dos criterios importantes:
primero, las propiedades de medición de la escala, y segundo, si la escala se basa fundamentalmente en propiedades latentes o manifiestas de los datos. Para
describir los tipos de escalas, se emplean términos como "intervalo-manifiesto", que significa que la escala obtenida tiene propiedades
de intervalo y que estas propiedades eran inherentes a la respuesta manifiesta. Consistencia interna de las escalas.
Antes de describir las técnicas concretas, es conveniente hacer otro comentario acerca de los problemas experimentales de la elaboración de escalas psicológicas. Una buena
técnica experimental requiere la comprobación de la consistencia interna de los datos. El concepto de consistencia interna es importante y con frecuencia nos
referiremos a él. Básicamente se refiere a la validez de un procedimiento particular de elaboración de escalas o a la validez de la suposición de que se
puede hacer una escala para un atributo particular con las propiedades de la escala especificada.
La esencia del concepto es: si una escala tiene las propiedades supuestas, y si la técnica particular de su elaboración es válida para determinar estas
propiedades, entonces los resultados experimentales deben presentar ciertas relaciones internas compatibles con las propiedades que se le adjudican.
Supongamos, por ejemplo, que tratamos de establecer una escala ordinal para tres objetos, A, B y C. Si un gran número de sujetos concuerda en que A es más grande
que B y B es más grande que C, entonces también deben coincidir en que A es más grande que C, para que estos datos tengan consistencia interna. Si en lugar de
esto, todos concuerdan en que C es más grande que A, entonces tendremos un resultado confiable (confiable debido al acuerdo intersujeto); pero pondríamos
en duda la legitimidad de la escala debido a la falta de consistencia interna. Otro ejemplo, supongamos que hemos encontrado experimentalmente que A es dos
veces mayor que B y que B es dos veces mayor que C. Entonces, nuestro procedimiento experimental también debe indicar que A es cuatro veces mayor que
C. Si no sucede así, entonces rechazamos la suposición de que se haya logrado la escala de razón adecuada.
Aunque un conjunto de datos carezca de consistencia interna, no siempre estaremos seguros del por qué. Es posible que sea errónea la suposición de la
existencia de una escala con las propiedades especificadas. O es posible que nuestra técnica experimental sea inadecuada para determinar dicha escala. Si los
datos no tienen consistencia interna, a menudo se ensaya otra técnica para determinar si la técnica original es defectuosa y no la suposición acerca de las
propiedades del atributo mismo. Muchos procedimientos de elaboración de escalas contienen comprobaciones de la
consistencia interna como parte integral de la técnica misma. En particular, las técnicas latentes a menudo contienen y aún hacen hincapié en tales
comprobaciones debido a la importancia de la suposición de mensurabilidad por escala en estas técnicas. Con las técnicas manifiestas, estas comprobaciones
pueden y deben hacerse; pero ordinariamente implican realizar más de un experimento. Técnicas manifiestas ordinales
La propiedad ordinal de las escalas psicológicas es de aceptación tan común que todas las escalas que solo tienen propiedades ordinales se basan en datos
manifiestos. En otras palabras, las técnicas latentes no se usan por lo común para obtener escalas ordinales porque la mayoría de los experimentadores
consideran que el sujeto promedio es capaz para hacer juicios ordinales. Ordenación por rangos. Probablemente la más sencilla de todas las
técnicas de elaboración de escalas es la ordenación jerárquica simple. Se presenta a un sujeto un conjunto de estímulos para que juzgue, por ejemplo, su
valor estético; o a un supervisor se le pide que ordene a los empleados supervisados por él; o se le pide a un sujeto que juzgue la brillantez de varios
estímulos grises. En cada caso, si el número de objetos que se van a ordenar es relativamente pequeño, se pide simplemente al sujeto que ponga los objetos en
orden de rango o que asigne un número de orden a cada objeto. Estos números se consideran después como valores escalares. Con el fin de proporcionar alguna
generalidad a la escala y con ello ofrecer alguna comprobación de la validez de la suposición de que existe un atributo mensurable por escala, puede pedirse a
varios sujetos o estimadores que ordenen los mismos objetos. Los datos de la tabla 1 presentan las posiciones de un ejemplo hipotético donde cuatro
estimadores apreciaron cada uno a cinco trabajadores. Los números de orden se pueden sumar para ofrecer una escala de rangos compuestos, o se pueden calcular
promedios para cada trabajador, obteniéndose de tal modo un rango promedio. Sin embargo, debe estar claro que estos rangos promedio, con sus intervalos
numéricos desiguales entre los estímulos, no dan propiedades escalares superiores a las de las escalas ordinales. Para evitar cualquier interpretación
errónea del significado de estos rangos promedio, es conveniente reasignar números enteros de rango a los objetos, como se ha hecho en la tabla l.
Comparaciones por pares. Cuando tenemos un número relativamente pequeño de
objetos para ser colocados en orden, puede usarse una técnica ligeramente menos elaborada, que suministra una comprobación mejor de la consistencia interna de
las suposiciones ordinales. En esta técnica, los objetos, por ejemplo, diez, se agrupan en todas las parejas posibles (con diez objetos podemos hacer 45
parejas); después se presentan estas parejas, una a la vez, y se le pide al sujeto que diga cuál estímulo tiene mayor proporción del atributo, o qué
persona, por ejemplo, es más diestra como maquinista. Así, con esta técnica, en lugar de que cada sujeto ordene los diez objetos a la vez, ordena dos objetos en
cada una de las 45 parejas. La ventaja de esta técnica es que suministra una comprobación de la capacidad de
los sujetos para ordenar los estímulos, porque si todos los objetos tienen realmente un orden consistente para el sujeto, entonces muchos de los juicios
sobre los pares son predecibles a partir de otros. Por ejemplo, supongamos que un sujeto escoge a A como más grande que B y luego escoge a B como más grande
que C. Entonces es claro que también debe escoger a A como más grande que C, y si falla con más frecuencia de la predecible atribuyéndola al azar o al error,
rechazaríamos la suposición de que pueden ordenarse los sujetos con respecto al atributo especificado. La tabla 2 presenta un conjunto de datos hipotéticos resultantes de un
experimento de comparación por pares, expuestos en la forma usual. En esta tabla se enumeran los estímulos en la parte superior y a un lado, y cada celdilla
representa un solo par juzgado. El valor en una celdilla de la tabla indica la proporción de veces (de todos los sujetos que hacen las selecciones) que el
estímulo mencionado arriba fue preferido al estímulo indicado al lado. En el ejemplo, se pidió a 50 sujetos que seleccionaran entre pares de pinturas basándose en sus preferencias estéticas.
En esta ilustración, la pintura "A" fue preferida a la "B" por 35 de los 50 sujetos en una proporción de 70. Todos los sujetos prefirieron además la pintura
"A" a la pintura "H".
En este tipo de experimento, de ordenación simple, los datos de un solo sujeto podrían darnos los valores de rango de los objetos si sus selecciones por pareja
tuvieran consistencia interna. Sin embargo, podemos obtener mayor generalidad combinando las respuestas de los sujetos, como hemos hecho en el ejemplo. Con
solo sumar el número total (o proporción) de veces que cada objeto es seleccionado cuando se iguala con cada uno de los demás, tenemos una escala de
rangos promedio. Y nuevamente, como en la ordenación jerárquica, asignaremos a los estímulos números enteros de rango, ya que las diferencias entre los números
de selecciones no reflejan necesariamente diferencias en los intervalos entre los objetos. De esta manera tenemos aún una escala ordinal, basada en las
propiedades manifiestas ordinales de los juicios. Rangos de categoría. Tanto las técnicas de ordenación como la de comparaciones
por pares son factibles solamente cuando se va a establecer una escala para un número relativamente pequeño de objetos. Ya con unos 20 objetos se dificulta la
ordenación, y la comparación por pares (190, en este caso) es prohibitiva Debemos entonces recurrir a una técnica modificada de ordenación. En la técnica
de categorías de rango, se usan menos categorías de éste que el número de objetos que se van a juzgar. Por ejemplo, tenemos 60 estructuras diferentes de
estímulos que se van a juzgar por su calidad, pero pedimos a los jueces que usen solo cinco categorías diferentes de respuesta, y únicamente como rangos. En
nuestro ejemplo de la tabla 3, hay solo cinco categorías de rango, donde el rango "1 " significa las mejores estructuras, y el rango "5" las estructuras
más pobres. En esta técnica cada categoría de rango se usa con muchos
estímulos diferentes, pero los diferentes sujetos o jueces no asignan los rangos a los objetos estímulo de la misma manera exactamente. Así, cada estímulo tendrá
una distribución de categorías de rango. En esta distribución podemos computar un rango medio como lo hicimos en la tabla 3, pero esto es discutible porque las
categorías de rango no tienen propiedades de intervalo. Un procedimiento mejor, que también se presenta en la tabla 3, es calcular la mediana de los rangos
asignados a cada estímulo, por interpolación en la distribución acumulativa de frecuencias; estas medianas de rango se presentan en la tabla.
Vemos otra vez que la reasignación de números enteros de rango a los estímulos es adecuada, habida cuenta de que las diferencias en
mediana de rango no indican propiedades intervalares del atributo en cuestión. Análisis de escalograma de Guttman. Existen dos
técnicas de elaboración de escalas que conducen a escalas ordinales que dependan en algún grado de las propiedades latentes de los datos. Una es la técnica de
escalograma de Guttman (1950), que produce una escala en la que puede colocarse tanto a los objetos estímulo (generalmente reactivos de test) como a los
sujetos. Lo fundamental de la técnica es determinar la validez de la suposición ordinal con respecto a un atributo. Guttman sostiene que a menos que pueda
demostrarse que tanto los objetos como los sujetos pueden ordenarse con respecto a un solo atributo, no existe fundamento para intentar la elaboración de una
escala ordinal. Esta técnica es más adecuada con atributos tales como capacidades, donde puede suponerse que tanto los estímulos como los sujetos
muestran el atributo. La técnica de Guttman ha alcanzado caracteres en extremo sutiles, describimos sólo lo suficiente para presentar los principios básicos que
utiliza. Los tipos, de reactivos de estimulo que se usan en una escala de Guttman son por lo común los que pueden contestarse en forma dicotómica: aceptar o rechazar,
correcto o equivocado, etc. La principal limitación que impone esta técnica es que solamente deben usarse reactivos que puedan ordenarse en forma consistente
con respecto a preferencia o capacidad y también que los sujetos puedan ordenarse en forma consistente con respecto a los reactivos. El ejemplo que
hemos seleccionado se presenta en la tabla 4 y consiste en cinco preguntas de aritmética. Estos reactivos escogidos corresponden a un nivel
creciente de dificultad, pues el problema de la adición simple es más fácil que el problema de la adición de números con dos dígitos, y así sucesivamente. Si
estos reactivos representan efectivamente un continuo de un solo atributo, entonces los sujetos deben contestar correctamente todos los problemas más
fáciles que el más difícil que resolvieron, y deben fallar en todos los problemas más difíciles que el más fácil en que fallaron. Así, el sujeto que
contestó correctamente el último reactivo debe haber contestado correctamente todos los demás; y el sujeto que falló en el primero debe haber fallado en todos
los demás, porque son más difíciles.
Este requerimiento, de ordenación perfecta de los objetos de estímulo, significa que existen sólo seis puntuaciones posibles y cada puntuación representa un solo
tipo de escala de sujeto. Por supuesto, las seis puntuaciones posibles son los números desde el "0" hasta el "5", y cada número se asocia únicamente a un
patrón particular de respuestas correctas y erróneas. Así, un "3" significa que estos sujetos acertaron en el tercer reactivo y en todos los demás menos
difíciles, pero que fallaron en los últimos dos reactivos. Existen naturalmente muchas dificultades para establecer semejante escala con
reactivos más realistas y con reactivos que no se contesten en forma dicotómica; tales problemas se discuten en la obra de Stouffer y colaboradores (1950). Pero
el concepto básico de esta técnica no es difícil y tiene interés por su énfasis en la prueba de consistencia interna como requisito fundamental que debe
satisfacerse. Hemos advertido que la mayoría de las técnicas de elaboración de escalas disponen de alguna forma de prueba de consistencia interna que forma
parte de ellas; pero ninguna establece tan cabalmente la validez de la suposición fundamental que interviene en todo problema de dicha elaboración, a
saber, que existe realmente un atributo con las propiedades de medición adjudicadas o expresadas. Muy a menudo esta suposición sigue siendo eso, una
suposición, con escasa prueba de su validez. Técnica de despliegue de Coombs. Coombs (1950) ha descrito una técnica
para elaborar escalas que también ubica a los objetos estímulo y a los sujetos en el mismo atributo. Su técnica hace uso directo de la ordenación por parte de
los sujetos y en este respecto se basa en las propiedades manifiestas de los datos. Pero esta técnica, también permite, con datos suficientes, la
determinación de una ordenación de los intervalos, que conduce a lo que Coombs llama un tipo de escala métrica ordenada, intermedia entre las escalas con
propiedades ordinales y las escalas con propiedades intervalares. La mejor manera de explicar la técnica de despliegue es comenzar con el producto
final deseado y ver qué clases de datos se obtendrían si esta escala fuera realmente así. Tenemos, siguiendo la terminología de Coombs, una escala J
de algún atributo, en la que pueden ubicarse los estímulos y también la posición deseada o preferencia del sujeto. Por ejemplo, supongamos que tenemos cinco
niveles diferentes de concentración de azúcar en una bebida suave y que conocemos los valores escalares del atributo de dulzura, y también la posición
de preferencia de cada sujeto con respecto al mismo atributo. La figura 1 muestra dos posibilidades de escalas J. En la escala J1,
se sitúan cinco estímulos equidistantes; de esta manera hemos supuesto temporalmente que esos cinco estímulos constituyen una escala conocida de
intervalos iguales. Ahora bien, cada sujeto tendrá un grado de dulzura preferido; así que cada sujeto puede ubicarse en la escala. Los números arábigos
indican la amplitud dentro de la que puede estar la preferencia del sujeto, y cada amplitud tendrá un efecto diferente sobre las respuestas dadas por el
sujeto. En el experimento real pedimos a cada sujeto que ordene su preferencia por los
cinco niveles de dulzura, y suponemos que los ordenará según la cercanía de la dulzura efectiva con su dulzura preferida. Con esta suposición, podemos predecir
exactamente cuáles serán los lugares de orden de los cinco estímulos para cada amplitud de posiciones de preferencia posible. Las ordenaciones para cada
posición de preferencia son: 1 ABCDE 5 CDBEA En esta escala particular J, posiblemente no se presente ninguna otra ordenación,
y si en un experimento obtenemos solamente estas ordenaciones de todas las posibles ordenaciones de cinco objetos ( 5 o 120), entonces habremos aprendido
dos cosas: primero, sabemos que los estímulos pueden efectivamente ordenarse; y segundo, que podemos determinar la ordenación desplegando los diferentes rangos
de preferencia para obtener la escala original de los estímulos mismos. El término "desplegar" se usa porque, en efecto, cuando el sujeto hace sus
ordenaciones de preferencia, dobla la escala de dulzura usando como eje su propia posición en la escala, y al reconstruir ésta, nosotros, en efecto,
desplegamos las ordenaciones. Ahora veremos qué sucedería si los intervalos entre los estímulos sobre la
escala f no fueran desiguales. La escala J2 de la figura 1 presenta dicha escala hipotética y ahora nos preguntamos qué ordenaciones harían los sujetos si sus
posiciones de preferencia estuvieran en los intervalos indicados por los números arábigos. En este caso, podrían presentarse las siguientes ordenaciones de
preferencia: 1 ABCDE Donde hay más de una ordenación de preferencia posible para una amplitud dada de posiciones, la ordenación exacta de rango depende precisamente de la posición de
la preferencia del sujeto. En total, con este conjunto de valores escalares para el atributo de dulzura, pueden presentarse 11 ordenaciones diferentes y podemos
así reconstruir la ordenación de los estímulos desplegando las ordenaciones de preferencia. Aunque no entraremos en más detalles sobre la técnica de despliegue debe quedar
claro que en cualquier escala particular de dulzura, puede presentarse un número limitado de ordenaciones de preferencia posibles; y que si pedimos a suficientes
sujetos diferentes que ordenen los estímulos para obtener un gran número de posiciones de preferencia diferentes, entonces no solo podemos conocer la
ordenación de los estímulos, sino también ordenar los tamaños de los intervalos entre los estímulos. De esta manera podemos obtener una escala métrica de orden. Obsérvese que tanto en la técnica de Coombs como en la de Guttman la
consistencia, interna es la parte crítica del procedimiento. Además, en ambas técnicas se usa el mismo principio para determinar la consistencia interna:
limitar el número de resultados posibles que pueden suceder y que sean aceptables para satisfacer los requerimientos de medición de la escala. En la
técnica de Guttman, con reactivos dicotómicos, es posible que sucedan 2n patrones de resultados con n reactivos diferentes, pero solamente se
aceptan (n + 1) ; resultados que satisfacen los requerimientos ordinales. En la técnica de Coombs, existen n! maneras de ordenar n reactivos, pero en
cualquier escala de ordenación solamente se darán [1/2n(n - 1) + 1] ordenaciones posibles. En nuestro ejemplo de cinco estímulos, hay 120 maneras
de ordenar los estímulos pero solamente 11 maneras de una ordenación efectiva. Técnicas de intervalo manifiesto El
aspecto principal de las técnicas escalares de intervalo manifiesto es que se requiere una respuesta directa; y ya por las instrucciones dadas al sujeto o ya
por una suposición de parte del experimentador, los datos se tratan como si tuvieran propiedades intervalares. Las principales diferencias de técnica se
refieren a los tipos de objetos estímulo usados y a las limitaciones que imponen al procedimiento experimental.
Equisección. Supongamos que deseamos determinar los valores escalares psicológicos de estímulos que están en un continuo físico verdadero, donde puede
manipularse fácilmente para producir variación continua. No existen muchos continuos físicos de este tipo que interesen al psicólogo. Tanto la frecuencia
como la intensidad de los sonidos pueden manipularse así; y, con un aparato complejo, también la brillantez física y aún el matiz o la saturación. A lo
anterior agregamos el choque eléctrico, la vibración y la intensidad de los olores. En nuestro ejemplo, usaremos la
intensidad de los sonidos, y la sonoridad será el atributo psicológico cuya escala deseamos determinar. El procedimiento es muy sencillo: suministramos dos
sonidos de intensidad fija y pedimos al sujeto que ajuste la intensidad de otros sonidos hasta que los ordene dentro de una serie de intervalos iguales de
sonoridad. A cada uno de los sonidos obtenidos y a los dos sonidos que definieron la amplitud original de sonoridad, se les asignan valores numéricos separados por
intervalos iguales para estar de acuerdo con la suposición de que los sonidos producidos por el sujeto proporcionan una escala intervalar de sonoridad.
El número de estímulos que debe ajustar el sujeto lo decide el experimentador. En el caso límite, en que se suministran dos estímulos extremos y el sujeto
tiene que ajustar un solo estímulo al valor medio entre los dos, el método se llama "bisección", porque se pide al sujeto que bisecte un intervalo.
Con el fin de verificar la consistencia interna, es conveniente usar por lo menos dos conjuntos diferentes de valores para los estímulos extremos, fijos, y
hacer que las amplitudes se traslapen. En tal circunstancia, desearíamos usar suficientes estímulos dentro de cada amplitud para lograr un traslapamiento
sustancial en el número de estímulos comunes a ambos conjuntos. En los datos del ejemplo presentados en la figura 2, se emplearon siete estímulos (dos estímulos
extremos y cinco estímulos ajustables) y dos amplitudes de intensidad (de 50 a 90 db y 70 a 110 db de intensidad sonora). Se pidió a los mismos sujetos que
ajustaran cinco estímulos dentro de cada amplitud; los datos presentados en la figura 2 son los promedios de las intensidades ajustadas. En cada amplitud, se
asignaron valores numéricos de 3 a 9 a los siete estímulos. Esto se indica con puntos en la amplitud superior y con triángulos unidos con línea interrumpida en
la amplitud inferior. Para construir la
escala final, descrita por la línea continua, se redujo el tamaño del intervalo de la unidad en los datos de la amplitud inferior; y, sustrayendo una constante,
la curva entera se trasladó hacia abajo. Debe recordarse que en una escala de intervalo tenemos libertad para usar cualquier transformación lineal de los
valores escalares; y esto significa que podemos ajustar la intersección y la pendiente hasta lograr el mejor ajuste de los dos conjuntos de datos de
equisección traslapados. Es decir, usamos dos de los grados de libertad de los valores inferiores para establecer nuestra unidad de escala en los valores
superiores; y ahora debe estar claro por qué es mejor usar varios estímulos intermedios en equisección. Si tuviéramos solamente dos puntos de traslapamiento
y, por tanto, dos grados de libertad para determinar los valores escalares, podríamos asegurarnos de que las dos secciones de la curva se ajustaran dentro
de la amplitud de traslapamiento. Y sería todavía posible que las dos secciones proporcionaran una función aparentemente discontinua; pero una curva de forma
rara o quebrada sería, precisamente, la única verificación de la validez de la suposición intervalar. Por otra parte,
si tres o más valores de estímulos se traslapan, entonces la curvatura o la forma de la función puede considerarse la misma o diferente para la misma
amplitud de intensidades. Evidentemente si nuestra suposición de que puede formarse una escala de intervalo es válida, entonces debemos obtener la misma
escala para la misma amplitud de intensidades, independientemente de los estímulos extremos usados para obtener estos valores escalares particulares.
Podemos de este modo proporcionar una verificación de consistencia interna, y al mismo tiempo extender la amplitud de intensidad en la que obtenemos una escala
psicológica. Intervalos aparentemente iguales. Cuando los objetos para los que deseamos hacer una escala no pueden
medirse por una dimensión física continua, podemos recurrir entonces a otros procedimientos. Por ejemplo, supongamos que deseamos construir una escala de la
capacidad verbal de individuos tal como es juzgada por otras personas; o bien que deseamos una escala para la "bondad del patrón" de varios patrones
geométricos. En estos casos no podemos decir al sujeto o al juez que ajuste los estímulos para suministrar intervalos iguales, porque los estímulos son fijos y
no pueden ajustarse. En este caso podemos instruir al sujeto para que dé un número a cada estímulo, de manera que
los números que use estén separados por intervalos iguales. O, alternativamente, podríamos pedirle al sujeto que clasifique a los estímulos en categorías
adyacentes de modo que éstas satisfagan los requisitos intervalares. Los datos adoptarían exactamente la misma forma que los del método de categorías de rango,
como se ve en la tabla 3. La única diferencia radica en la indicación de que el sujeto use sus categorías como intervalos iguales y no como rangos. Sin embargo,
con la suposición de que lo hace así, es lícito usar el valor medio de categoría para cada estímulo en vez de la mediana, como se indicó antes.
Para contrastar el método de intervalos aparentemente iguales con el de equisección, advirtamos que en el último método los estímulos son escogidos o
colocados por el sujeto, a modo de definir una serie de puntos sobre el continuo del atributo y que luego se supone que son iguales los intervalos entre estos
puntos. Sin embargo, en los intervalos aparentemente iguales nunca tenemos estímulos que definan intervalos iguales como puntos sobre el continuo, ni los
valores de categoría ya sea usados o asignados lo hacen, dado que definen una amplitud de valores, y no puntos. En vez de eso, se supone que cada categoría de
respuesta proporciona una amplitud de valores, un intervalo, que es igual a todos los demás intervalos. Y también se supone, desde luego, que los intervalos
están en orden adecuado y son contiguos. Escalas de categorías numéricas. El método de intervalos aparentemente iguales
se usa comúnmente cuando debe juzgarse un gran número de estímulos y cada sujeto evalúa o juzga a cada estímulo sólo una vez. Un método semejante (en realidad,
idéntico lógicamente) se usa cuando se tienen relativamente pocos estímulos; pero cada uno de ellos es evaluado varias veces por cada sujeto, sobre una
escala numérica con la indicación de que use los valores escalares como una escala de intervalo. El término "escala de categorías" se aplica a menudo a este
método; y nosotros lo llamamos método de escalas de categorías numéricas para distinguirlo de los métodos en que se usan categorías verbales o que están
ordenadas espacialmente. Como ejemplo del uso de esta escala, la figura 3 presenta algunos datos de un experimento de
Torgerson (1960). Como estímulo se usaron 17 matices de papel gris neutro y cada uno fue juzgado cinco veces por cada uno de 16 sujetos. Los estímulos se
presentaron al azar y los sujetos evaluaron cada estímulo sobre una escala de 11 puntos (del 0 al 10); se les indicó que usaran la escala numérica como una
escala de intervalo. En un conjunto de experimentos juzgaron la claridad; aquí, los números más grandes indicaban mayor claridad. En otro conjunto juzgaron la
oscuridad, y ahora los números más grandes indicaban mayor oscuridad. En la figura 3 se aprecian las evaluaciones medias de categoría como una función de la
reflectancia, en cada tipo de juicio. En este experimento particular se demostró la consistencia interna por el hecho de que la función en el atributo de
claridad es la inversa de la función para el atributo de oscuridad. Esta comprobación, solo es posible, naturalmente, cuando los mismos estímulos pueden
juzgarse con respecto a dos atributos en que uno es el inverso del otro.
Escalas de evaluación verbal. Una última técnica digna de mención es la escala de evaluación verbal. El término "escala de evaluación" es muy general y puede
usarse para describir cualquier escala de respuestas a la que recurra el sujeto para efectuar una tarea de evaluación o de juicio. Una escala de evaluación
verbal difiere de un método de intervalos aparentemente iguales o de una escala de categorías numéricas solamente en que se usan rótulos verbales como
respuestas. La siguiente, por ejemplo, podría constituir una escala de siete categorías para juzgar la brillantez: completamente oscuro, muy oscuro, oscuro,
neutro, claro, muy claro, completamente claro. Si al resumir los datos asignamos numerales espaciados igualmente a estas categorías de respuesta y usamos
estadísticas métricas, en realidad asignamos propiedades intervalares a la escala. La única diferencia básica entre este método y otras técnicas
manifiestas intervalares es el tipo de escala de respuesta que se usa. La escala habitual de calificaciones mencionada al principio como ejemplo de
escala ordinal, trátase a menudo como si tuviera propiedades intervalares, como si fuera una escala de evaluación verbal. Esto sucede cuando se asignan números
arbitrarios a las calificaciones con el propósito de obtener promedios de puntuaciones de calificación. La suposición es que la distancia entre "A" y "B"
es igual a la distancia entre "D" y "E" -precisamente la suposición de la escala de intervalo- cuando se asignan números consecutivos a las calificaciones.
Pruebas de consistencia interna. Las técnicas de construcción de escalas basadas
en propiedades manifiestas de los datos no incluyen generalmente procedimientos de comprobación de la consistencia interna como un aspecto inherente de
aquéllas. En consecuencia, con estas técnicas debe suministrarse prueba de la consistencia interna realizando dos o más experimentos, que deben conducir
lógicamente a la misma escala resultante, ya sea total o parcialmente. El experimento de Torgerson, sobre juicios de claridad y oscuridad, ilustra un
método para comprobar la consistencia interna, pero obviamente tal comprobación depende tanto de la naturaleza de los estímulos como de la de los atributos. No
existe, por ejemplo, atributo inverso de lanzar, de destreza o de la mayoría de las aptitudes. La otra comprobación de
la consistencia interna, de uso sencillo, es la que mencionamos en la técnica de equisección, a saber, la duplicación del experimento con amplitudes diferentes
de estímulos, pero que se traslapan. En el caso del experimento de sonoridad teníamos una dimensión física que correspondía al atributo; esta es la razón por
la que pudimos seleccionar de antemano estímulos extremos fijos, y estábamos seguros de que se obtendrían valores escalares traslapados. El problema es
diferente cuando los estímulos son del tipo de objetos de arte, comidas cuyas preferencia relativa tratamos de evaluar o la sociabilidad de las personas. En
este caso, como vimos, se usa por lo común la técnica de intervalos aparentemente iguales, toda vez que no podemos dar a los sujetos control directo
sobre los estímulos. Es, posible un procedimiento equivalente a la prueba de consistencia usada en la equisección. Podemos realizar subexperimentos en los
que se dupliquen tres o más estímulos en conjuntos diferentes de estos. Entonces tendríamos la misma clase de prueba anterior en la que los valores escalares
asignados a los estímulos se transforman de manera que coincidan los que resulten ser comunes en subexperimentos diferentes. Si esto puede hacerse con
tres o más estímulos, habrá entonces evidencia clara de que es válida la propiedad intervalar asumida con respecto a las respuestas. Desafortunadamente
este tipo de prueba interna muy raramente se efectúa. LA SEGURIDAD EN AVIACIÓN: IMPORTANCIA DEL FACTOR HUMANO. XVIII PROBLEMAS Y MÉTODOS DE LA ELABORACIÓN DE ESCALAS PSICOLÓGICAS
Cuantificación, medición, elaboración de escalas, todas son palabras que connotan el uso de
números para describir fenómenos. Pero cualquiera que sea el término usado, la metodología cuantitativa ha sido la marca distintiva de una ciencia madura y así
sucede con la psicología. La metodología cuantitativa y la medición desempeñan funciones muy amplias en la psicología, de la misma manera que en cualquier otra
ciencia. Uno de los primeros usos de la metodología cuantitativa consiste en especificar
rigurosamente las condiciones que priven en un experimento, de modo que puedan reproducirse con fidelidad en otra ocasión y quizá por otro experimentador. Por
ejemplo, especificamos la intensidad física de una luz o de un estímulo de sonido en términos exactos, como forma para evitar confusión en otros psicólogos
experimentales que necesiten saber las condiciones de nuestro experimento. Además de la declaración precisa de las condiciones del experimento, el método cuantitativo
debe incluir también el tratamiento que haya de darse a los datos obtenidos. Necesitamos expresar nuestros resultados en forma que puedan comprobarse
exactamente por otro experimentador. Usamos técnicas estadísticas para describir los resultados de un experimento y también con gran frecuencia para estimar la
probabilidad de que se presenten los mismos resultados, dentro de un margen previsto de error, cuando se repita dicho experimento.
Podemos recurrir también a matemáticas, ya más abstractas, para expresar relaciones entre las variables dependiente e independiente, y el efecto de la
variable independiente sobre algún aspecto de la conducta. Una ecuación matemática puede resumir y presentar la mayoría de las relaciones entre
variables mucho más eficazmente y tal vez con mayor significado que la simple enumeración de las condiciones experimentales y los resultados. En años
recientes, la psicología ha hecho uso considerable de la matemática abstracta para describir los fenómenos, que estudia.
Estas aplicaciones del método cuantitativo no son exclusivas de la ciencia de la psicología ni el tema principal de este capítulo. Nos ocuparemos de la medición
de atributos psicológicos, campo de estudio que se ha denominado elaboración de escalas psicológicas.
LA NATURALEZA DE LOS ATRIBUTOS Atributo es una propiedad abstraída de la experiencia humana. Hay dos aspectos
importantes en esta definición, cada uno de los cuales entraña algunos problemas especiales en la medición de atributos, lo que ha hecho un tanto confusa la
naturaleza de la elaboración de escalas psicológicas. El primer aspecto es que el atributo es una propiedad abstraída de alguna cosa; y no la cosa misma. Este
hecho bastante interesante produce muchas dificultades en la medición; pero no es privativo de la medición psicológica. Cuando hablamos de medir alguna cosa en
una situación de la vida diaria, no hablamos realmente de medir un objeto o un suceso, sino alguna propiedad abstraída de uno y otro. Por ejemplo, cuando
medimos la longitud o el peso, no medimos el objeto que tiene la longitud o el peso, sino que medimos una propiedad abstraída o dimensión del objeto.
El segundo aspecto de nuestra definición es que un atributo se relaciona con la experiencia psicológica, lo que lo hace singularmente psicológico y crea
dificultades. Quizás podamos esclarecer este problema al contrastar un atributo (de experiencia) con una dimensión física que esté íntimamente relacionada con
la experiencia. Un sonido tiene intensidad física, la cual podemos medir aplicando técnicas estándar de medición física. Y podemos experimentar la
sonoridad; pero esta no es idéntica a la intensidad física. La sonoridad es algo que experimentamos; la intensidad es un aspecto del estímulo mismo.
Hablamos, casualmente, de la sonoridad de un sonido y no de la sonoridad de nuestra experiencia. Esto causa comúnmente poca confusión. Pero cuando nos
interesamos por la medición de la sonoridad, la distinción se vuelve importante, ya que necesitamos investigar las propiedades del atributo sonoridad, aunque no
podamos observar, en el sentido físico, la cosa que estamos tratando de medir. Esta distinción entre el atributo y la dimensión del objeto físico o
acontecimiento es fácil de apreciar en los casos en que hay una evidente contraparte física del atributo que nos interesa. En otros casos la distinción
es más sutil. Por ejemplo, cuando las personas son el estímulo que nos interesa y deseamos medir algo que llamamos capacidad de liderazgo o actitudes, a menudo
es difícil percatarse de que la medida que nos interesa no es la del estímulo externo sino la del atributo subyacente que se experimenta. En tales casos, la
distinción adquiere aún mayor importancia. LA NATURALEZA DE LA MEDICIÓN
Al elaborar escalas psicológicas el interés se centra en el desarrollo de escalas de medición para atributos psicológicos. Antes de presentar técnicas
concretas de medición, es conveniente analizar la naturaleza de la medición en términos generales y, después, algunos de los problemas especiales que reviste
la medición de atributos psicológicos. Medir, en sentido amplio, es asignar numerales a objetos, conforme a una regla
especificada. Pero esta definición es demasiado simple y aun confusa, a menos que consideremos los problemas especiales del uso de numerales. Los numerales
son únicamente símbolos -el "1 ", "2", "53", etc., que escribimos o imprimimos.
De esta manera, si el problema de la medición fuera simplemente asignar numerales a objetos mediante alguna regla, podríamos usar cualquier regla que
deseáramos, siempre que tal uso fuese consistente. La escala numérica
Los numerales representan, empero, una clase particular de escala: la escala numérica. El numeral "1" representa un solo objeto, el numeral "2" representa
dos objetos; y cada numeral que usamos tiene un significado directo en cuanto que representa un número de objetos o acontecimientos. La escala numérica es una
escala de contar y es la escala de medición más sencilla y elemental que tenemos. En sentido estricto, los numerales pueden tener cualesquiera de las propiedades
-matemáticas o de otra clase- que les asignemos. Pero, en vista de que los numerales representan la escala fundamental de los números, es común suponer que
tienen las propiedades de la escala de estos. Supongamos por ejemplo, que tenemos 12 objetos. Podemos realizar varias operaciones con estos objetos y
podemos también realizar las operaciones equivalentes con los numerales mismos. Podemos agregar 3 objetos a nuestros 12; si entonces, los contamos, tendremos 15
objetos. Pero podemos agregar el numeral "3" al numeral "12" y obtener así el mismo resultado con más rapidez. O podemos sustraer objetos o sus números
equivalentes y obtener de las dos maneras el mismo resultado. Podemos aún dividir los 12 objetos en dos grupos iguales y entonces al contar cada grupo
encontraremos que hay 6 objetos en cada uno, hecho que puede determinarse fácilmente haciendo la división en el papel.
La escala numérica tiene muchas propiedades; pero cuando les asignamos numerales a los atributos o bien le asignamos dimensiones diferentes de los números,
necesitamos ser cuidadosos para determinar qué propiedades de la escala numérica son aplicables. Este problema no tiene nada que ver con la determinación de las
propiedades de la escala de los números; lo que se impone es determinar las propiedades del atributo mismo y después asegurarnos de que los numerales se
asignan de manera que reflejen las propiedades de ese atributo. Algunas propiedades de las escalas
Hemos hecho breve alusión a ciertas propiedades de la escala numérica; pero las más importantes de ellas necesitan mayor explicación. Estas propiedades suelen
usarse para describir la naturaleza de una escala psicológica, ya que limitan la interpretación de los valores escalares.
Escalas nominales. La propiedad más sencilla y fundamental de la escala numérica es la de nombrar o identificar artículos u objetos. Como ejemplo
sencillo, podemos preguntar su sexo a varias personas y después asignarle a cada una el número clave "1" si dice que es masculino y el número "2" si es femenino.
Este uso de los numerales también es medición pero en sentido muy primitivo. Cumple, sin embargo, con el requisito de la asignación de números según una
regla. Pero adviértase que la única propiedad de la escala de los números que es aplicable aquí es la relación de identidad, a saber, que todos los objetos que
recibieron el mismo número tienen el mismo sexo. No podemos, en este caso, usar ninguna otra propiedad de la escala numérica. Por ejemplo, no podemos decir que
las mujeres son "más" que los hombres, o que son dos veces el número de hombres, aunque los numerales representen estas propiedades de la escala numérica.
Nótese, sin embargo, que podemos cambiar libremente los numerales asignados en tanto que se haga el cambio en todas las mujeres y en todos los hombres.
Podíamos haba llamado a las mujeres "1 " y a los hombres "2". La razón de esto es que la calidad que se "mide" no tiene ninguna otra propiedad mensurable que
la de identidad o equivalencia. El aspecto general que hemos ilustrado es sencillamente este: Las reglas permisibles paro asignar numerales a objetos
dependen de las propiedades del atributo que se mide, y no de las propiedades de la escala de los números. Por tanto no podemos determinar qué regias son
permisibles sin conocer algo de las propiedades del atributo mismo. Escalas ordinales. Una segunda propiedad de la escala numérica es la de
orden: el número "10" es más grande que el número "6", y también más grande que todos los números menores que 10. Es de notarse que esta propiedad supone la
propiedad nominal, toda vez que se usa el mismo numeral para todos los objetos que son idénticos.
En psicología, el uso más simple de las escalas ordinales aparece cuando ordenamos un conjunto de objetos con respecto a un atributo asignándole a cada
objeto un solo numeral que refleje su posición ordinal. Pero podemos usar también una escala de orden y asignar a diferentes objetos el mismo número de
orden. La escala de calificaciones escolares de "A", "B", "C", "D" y "F" es una
escala semejante, aun cuando se utilicen letras y no numerales, puesto que todas las calificaciones de "A" son mejores que todas las de "B", etc.
Con la escala nominal decimos que podemos transformar los numerales en cualquier modo que conserve la relación de identidad. En una escala ordinal podemos hacer
transformaciones bajo cualquier regla que conserve el orden original de los números asignados a los objetos. Es decir, una vez que se asigna un conjunto de
numerales, podemos cambiarlos libremente, escribiendo cualquier nuevo conjunto de números en tanto que estos sean una función monotónica positiva de los
números originales. Vemos así cómo el uso de la propiedad ordinal de la escala de los números para
asignar los numerales a los objetos depende de que el atributo mismo tenga la propiedad ordinal. Si es así, entonces podemos usar esta regla más restrictiva.
Escalas de intervalos. Una tercera propiedad de la escala numérica, aún más restrictiva, es la de igualdad de intervalos. Si agregamos 6 objetos a 24,
obtenemos 30 objetos; y los 6 objetos son los mismos que necesitamos agregar a 40 objetos para obtener 46. De esta manera la diferencia entre 30 y 24
representa la misma cantidad que la diferencia entre 46 y 40. Los intervalos numéricamente iguales representan diferencias iguales en número y cuando un
atributo tiene esta misma propiedad, entonces la regla para asignar numerales debe asegurar que se refleje adecuadamente esta propiedad. Adviértase que en el
anterior ejemplo numérico , podíamos cambiar todos los números con solo sumar una constante y esto no cambia el valor numérico de la diferencia; y una y otra
vez los intervalos seguirían siendo iguales. Cuando hablamos acerca de números efectivos, es claro que no podemos cambiar el
6 y seguir denotando la misma cosa, ya que 6 objetos adicionales son justamente eso, 6 más, ni más ni menos. Pero cuando representamos un atributo que no tiene
todas las propiedades de la escala de los números, aunque sí la propiedad de intervalos iguales, podríamos multiplicar todos nuestros numerales por una
constante y las dos diferencias aún serían iguales. Es decir, en escalas de intervalos, podemos transformar la nuestra por medio de cualquier función lineal
positiva -la cual es una transformación más restrictiva que la función monotónica positiva admisible en la escala ordinal. En forma matemática, está
permitido asignar cualquier nuevo conjunto de numerales, en tanto que se satisfaga la condición de que
y'= a + by donde y es el numeral original y y' es el numeral transformado. La condición
importante de la igualdad de diferencias se mantendrá aún con los nuevos números. La psicología nos proporciona incontables ejemplos de que puede asumirse la
propiedad ordinal de la escala de los números con respecto a un atributo psicológico; pero en lo que atañe a propiedades intervalares estamos en un
terreno mucho menos seguro y a menudo no puede probarse la propiedad intervalar. La escala de CI es un buen ejemplo de una escala supuesta de intervalo, toda vez
que la diferencia entre un CI de 120 y uno de 130 se supone igual a la diferencia entre los CI de 90 y 100. Hay que observar que la escala entera
podría trasladarse de modo que su centro fuera 200 y no 100; y esto no cambiaría ninguna de las propiedades de la escala. También podríamos duplicar todos los
números y no cambiaríamos la propiedad de igualdad de intervalos. Los numerales efectivos asignados son, entonces, completamente arbitrarios, pero tienen la
restricción de que la propiedad de intervalos iguales debe reflejarse en los numerales.
Escalas de razón. Una propiedad aún más restrictiva de la escala numérica es la de igualdad de razones. El numeral "10" es dos veces el numeral "5", así como
el numeral "90" es el doble del numeral "45". Por tanto, estas dos razones son iguales y asimismo sus contrapartes en la escala de los números, porque si en
cada caso se divide el número más grande en grupos que contengan cada uno al número respectivo más pequeño, habrá exactamente dos grupos. Esta propiedad
significa que las operaciones numéricas de multiplicación y división son aplicables al atributo que se mide y lo son en el caso de una escala de números.
Nótese que en este caso no tenemos libertad de transformar los números originales sumando o sustrayendo un número, porque si lo hiciéramos las razones dejarían de ser
iguales. Cuando tratamos con un atributo que tiene la propiedad de razón, podemos multiplicar todos los numerales por una constante sin que se afecte la
propiedad de razón. Lo que no podemos hacer es agregar o sustraer una constante. Por tanto, si tenemos una escala con propiedades de razón, podemos transformar
nuestros numerales de tal manera que y' = by donde y' es el numeral transformado del original y. En
la investigación psicológica hay pocos ejemplos de atributos que podamos asegurar que tienen la propiedad de razón. La dificultad proviene del problema
de un cero absoluto. Obsérvese que ninguna transformación admisible de una escala de razón cambia el punto cero de la escala, aunque esto sí sucede en una
escala de intervalo. En efecto, el requerimiento básico de una escala con propiedades de razón es que exista un cero absoluto, lo que significaría
literalmente que se carece por completo del atributo. Pero no basta con tener un punto cero en una escala a menos que también estemos seguros de que el cero
representa la carencia absoluta del atributo. En psicología, el problema es doble. Primero, no hay muchos atributos de los que
podamos suponer razonablemente que tienen un cero absoluto. Por ejemplo, ¿cuál sería el cero absoluto de la inteligencia? o ¿cuál es el cero absoluto de la
actitud hacia el partido republicano? Puede, sí, haber un sentimiento de neutralidad; y la posición neutral se usa corrientemente como el punto cero
sobre una escala; pero no representa la carencia absoluta del atributo. El cero es sencillamente una posición entre las actitudes positivas y negativas. O, en
un ejemplo más, ¿cuál sería el cero absoluto de arrojar? Es difícil describir lo que significamos por "ninguna cantidad de lanzamiento", ya que el lanzamiento
existe como diferencia, pero no estrictamente como magnitud. El otro aspecto del problema tiene que ver con nuestra capacidad para determinar
el cero verdadero o absoluto en el dado caso de que existiera lógicamente. Por ejemplo, consideremos el atributo psicológico de brillantez. Podemos producir
una condición de carencia de luz pero tal situación física no garantiza la falta absoluta de brillantez, ya que es posible obtener un negro más negro que el que
hayamos experimentado. En términos neurológicos, sabemos que la completa ausencia de luz no produce ausencia completa de actividad nerviosa (Kuffler,
FitzHugh y Barlow, 1957); de ahí que parezca muy razonable suponer que el negro psicológico absoluto nunca puede experimentarse. De la misma manera sucede con
cosas como la sonoridad, que probablemente nunca podamos experimentarlas directamente. La
escala de temperatura es un ejemplo físico de este problema. Se sabe desde hace tiempo que hay un cero absoluto de temperatura (el cual, por supuesto, no
corresponde al cero de las escalas Fahrenheit o centígrada); pero producir físicamente tal condición es un problema harto diferente. La existencia de un
cero absoluto pudo deducirse del comportamiento de las temperaturas mensurables, y se determinó finalmente su valor relativo a la escala centígrada. Pero,
históricamente, la tarea de obtener una escala de razón se dificultó por la incapacidad de trabajar directamente con el cero absoluto.
Este ejemplo señala otra manera de caracterizar una escala de razón; es aquélla en la que no pueden asignarse números negativos. Podemos ver que este es el caso
de contar objetos, como en la escala de los números, y de la escala Kelvin de temperatura. En cada caso carece de sentido hablar de un número de objetos menor
que cero o de una temperatura menor que cero absoluto. Otras propiedades de la escala. Las cuatro clases de escalas que hemos
analizado son ciertamente cuatro de los tipos más importantes que se emplean comúnmente, pero no significa de ninguna manera que sean las únicas posibles.
Hay muchas otras combinaciones de las propiedades de la escala numérica que también podrían ser propiedades de un atributo psicológico. Es posible, por
ejemplo, que sepamos que un intervalo, en una escala, es más grande que en otra, pero no podemos especificar exactamente cuánto más grande. En tal situación, no
solamente podríamos ordenar los objetos, sino también ordenar los intervalos entre los objetos. Coombs (1950) ha propuesto tal escala, que estudiaremos en
una sección posterior. También es posible tener una escala verdadera de razón para intervalos entre objetos, y no solamente una escala de intervalo para los
objetos mismos. Esta situación se presentaría si pudiéramos identificar y medir una diferencia de cero entre objetos y al mismo tiempo estuviéramos seguros de
las propiedades de razón de las diferencias. Eficacia y limitaciones de las escalas. Es muy frecuente hablar de la
eficacia de una escala, término que alude a los tipos de propiedades matemáticas que hemos estudiado. Una escala de razón es más eficaz que una escala de
intervalo porque no solamente nos indica los intervalos numéricos del atributo medido, sino que también nos habla de razones. Y una escala de intervalo es, a
su vez, más eficaz que una escala ordinal porque nos informa de todo lo de ésta, y además nos habla de intervalos. Los especialistas en escalas psicológicas
procuran por lo común inventar escalas que tengan cuando menos propiedades intervalares, aunque sea necesario hacer algunas suposiciones para obtener la
mayor eficacia. Existen algunas ventajas reales en la especificación mayor de un atributo, que dé lugar a las escalas de mayor alcance.
Hay, sin embargo, otro aspecto del problema que igualmente se considera al elaborar escalas: que el especialista encuentra más restringido para usar los
números en las escalas más eficaces. Como hemos visto en una escala tan débil como la nominal, la única restricción es que se use el mismo número para objetos
o cantidades idénticas de un atributo. Pero, en una escala ordinal, deben asignarse los números de manera que se reflejen las relaciones ordinales
inherentes al atributo medido; y esto mismo, en las escalas más poderosas, está aún más restringido. En la propia escala de los números, la escala más eficaz,
no tiene por supuesto ninguna alternativa, porque debe asignar los números a los atributos de la manera especificada exactamente: el número "10", por ejemplo,
puede usarse solamente para diez objetos, ni más ni menos. Una vez establecida, la escala de mayor alcance tiene mayor utilidad; pero el
especialista tiene mucho menos libertad para fijar los valores escalares. En efecto, siempre se encuentra en conflicto. Desea establecer una escala tan
eficaz como le sea posible, pero está mucho menos seguro de haberlo hecho con acierto que si hubiera intentado formular una escala más débil. La escala
resultante a menudo representa un ajuste entre una escala con el máximo alcance y otra con la mínima restricción para el especialista.
EL PROBLEMA BÁSICO DE LA ELABORACIÓN DE ESCALAS Cualquier experimento en el terreno de la elaboración de escalas se ocupa de
tres conjuntos de variables, que también es el principio para entender los diferentes papeles que desempeñan cada uno. En los casos más sencillos esto es
fácil de ver. Las tres variables son: los estímulos, el conjunto de objetos que hemos seleccionado; los sujetos, a quienes se presentarán los objetos; y las
respuestas que la situación experimental requiera. El papel que puede desempeñar cada una de estas variables en el proceso de elaborar escalas puede variar, pero
siempre se puede escoger un conjunto análogo de tres variables. Cada uno es importante y debe escogerse cuidadosamente.
Sería bueno recordar que el problema de formular escalas psicológicas es el de asignar numerales a un atributo, que es una propiedad abstracta y no debe
confundirse con el objeto mismo. Sin embargo, a menudo la única manera de especificar qué proporción del atributo corresponde a un numeral indicado es
señalar un objeto particular como ejemplo. Por tanto, como hecho práctico, concluimos asignando numerales a los objetos, pero nuestro propósito no es decir
que el objeto es el numeral, sino más bien que el objeto contiene el atributo en esa medida. Por otra
parte, mientras estamos interesados en el efecto de los objetos estímulo sobre las personas a quienes se presentan, la verdad es que todo lo que poseemos para
empezar son las respuestas que obtenemos de nuestros sujetos. Entonces en el proceso de construir escalas es necesario una doble cadena inferencial. Los
estímulos se escogen, primero, para representar de manera distintiva el mundo de los estímulos posibles; después, se toman las respuestas que reflejen, en
sentido significativo, la experiencia del sujeto. La respuesta debe reflejar también el aspecto del experimento que nos interesa. Esto no siempre es tan
fácil como podría parecer. Por ejemplo, la respuesta de un sujeto al efecto de ver una luz muy débil no siempre puede tomarse por su valor aparente, sino que
está determinada por muchos aspectos de la situación diferentes de la intensidad de la luz. Hemos
estado hablando de objetos considerándolos las fuentes del atributo, aunque en algunos de nuestros ejemplos hemos usado personas como objetos. En realidad, si
pensamos en los objetos como estímulos, podemos hacer escalas para cualquiera de las tres variables: los estímulos, los sujetos o las respuestas. No existe, por
ejemplo, una relación simple entre las respuestas dadas por el sujeto durante el experimento y la métrica subyacente del atributo. Ciertamente si las respuestas
son verbales y no numéricas, necesitamos incluir en escalas las respuestas antes de que podamos hacer lo mismo con los estímulos; en efecto, difícilmente puede
hacerse una cosa sin la otra. Si tratamos de asignar correctamente numerales a los estímulos, también podemos encontrar una escala numérica para las
respuestas, porque estamos buscando una relación funcional entre los estímulos y las respuestas. Es
también completamente posible que podamos determinar la cantidad de un atributo correspondiente al sujeto mismo. Este es comúnmente el caso que se presenta
cuando medimos actitudes. Aquí, la función de los objetos es proporcionar una forma en la que el sujeto exprese la cantidad del atributo que se halle en él
mismo y no en el objeto. Por ejemplo, si los objetos tienen una cantidad predeterminada del atributo, entonces podemos determinar la percepción que el
sujeto tiene de sí mismo, encontrando qué objetos aceptará como representativos de sí mismo o deseables para él. Abelson (1960) ha
expresado estas interrelaciones en otra forma. Distingue entre agentes, objetos y modos, que son las tres variables requeridas en el problema de establecer
escalas psicológicas. A pesar de que esta distinción sea algo ambigua, en principio es confiable. Ilustremos a grandes rasgos este punto, suponiendo que
deseamos hacer una escala de la sonoridad de varios ruidos de tránsito. Nuestro problema será entonces asignar numerales a los diferentes ruidos, que son los
objetos, de tal manera que el atributo subyacente se refleje adecuadamente. Pero debemos tener
un agente que defina al atributo, así que usamos uno o más sujetos para juzgar la sonoridad de los estímulos. Los sujetos son entonces los agentes a través de
los cuales determinamos los valores escalares que asignamos a los estímulos. El agente expresa, su juicio de cierta manera o modo, que es el conjunto real de
respuesta que se le permite usar. Esta es una manera útil de plantear el problema de la elaboración de escalas;
sin embargo, como veremos aquí está exageradamente simplificado (como la mayoría de las formas que describen los problemas construir de escalas psicológicas).
Hay algunas técnicas para elaborar escalas en que tanto los estímulos como los sujetos se ubican en sus escalas respectivas a partir de los mismos datos, así
que los objetos y los agentes desempeñan papeles intercambiables dentro del mismo problema. Y hay otros casos en que las escalas para estímulos y las
respuestas se establecen a partir del mismo conjunto de datos y realmente desempeñan papeles intercambiables como objetos y modos.
No obstante, debe quedar claro que nos interesa hacer escalas para un atributo, una abstracción de la percepción ya sea de estímulos, de personas o incluso de
respuestas. Dado que nuestro interés es el atributo abstraído, podemos confeccionarle una escala
fundándonos en una o más de estas tres variables básicas, algunas veces simultáneamente, o por lo menos a partir del mismo conjunto de datos.
El problema de la generalidad. Existe otra razón para que en nuestro esquema original de tres variables hayamos usado el término sujetos y no agentes, la
cual ilustra un problema que se presenta en toda investigación psicológica. En mayor grado que en otras ciencias, la psicología siempre tiene que hacer frente
a y procurar contestar la cuestión de la generalidad del resultado de un experimento, generalidad que no siempre se refiere a una población especificada
de individuos. Para elaborar la escala de sonoridad de los estímulos, podíamos usar solamente un sujeto como agente, con un solo modo de respuesta; pero no lo
hacemos así porque deseamos estar seguros de que la escala obtenida no es exclusivamente de nuestro sujeto. Empleamos, en consecuencia, varios sujetos, y
combinamos o promediamos los datos de ellos para tener la mayor generalidad posible que nos permitan los datos promedio. O, en su lugar, podemos buscar
diferencias entre los sujetos para determinar qué tan general es la aplicación de la escala. Si
nuestro propósito es establecer diferencias entre sujetos, entonces los objetos son a menudo los medios para establecer la generalidad; por ejemplo, si deseamos
saber si los sonidos parecen más sonoros a una persona que a otra. Pero comúnmente nos desagradaría sacar tal conclusión con base en juicios acerca de
un solo estímulo. En vez de eso, desearíamos saber si el sujeto A siempre estima los estímulos auditivos como más sonoros de lo que le parecen al sujeto B. Por
tanto, pueden usarse los sujetos o los objetos para establecer la generalidad. En otros casos más, deseamos establecer la generalidad a través de las
respuestas, ya que la escala que obtenemos no debe ser únicamente de un conjunto particular de respuestas posibles. Por ejemplo, si se pide a los sujetos que
juzguen la brillantez de una luz, la escala que obtengamos debe ser la misma ya sea que use respuestas entre cero y diez o entre cero y cien.
Propiedades latentes y manifiestas de las escalas. Los datos obtenidos para elaborar una escala psicológica pueden usarse de muchas maneras; pero
existen diferencias en cuanto al modo cómo puede elaborarse la escala, que son distintas a las que hemos estudiado; y una de las más importantes es la del uso
de las propiedades latentes o manifiestas para elaborar esa escala. Las propiedades manifiestas de los datos, son, como lo indica el término, las
propiedades evidentes fácilmente apreciables e interpretables. Las propiedades latentes son las que deben éxtraerse de los datos, inherentes a ellos, pero no
perceptibles fácilmente. Las propiedades latentes son tan importantes como las manifiestas y quizás un poco más. Las técnicas de elaboración de escalas
psicológicas se han inclinado cada vez más hacia el uso de las propiedades latentes, por diversas razones.
Cuando distinguimos entre escalas basadas en propiedades manifiestas y latentes de los datos, nos desentendemos de si los datos mismos tienen propiedades
manifiestas: todos los datos las tienen. Nuestro interés se relaciona con las propiedades de medición de la escala que elaboramos en conexión con las
propiedades de medición de los datos manifiestos. Las escalas basadas en propiedades latentes tendrán de ordinario propiedades de medición diferentes y a
menudo más poderosas que las propiedades de medición de las respuestas (los datos manifiestos). Indudablemente, el objetivo de la mayoría de las técnicas de
elaboración de escalas latentes es lograr parecidas propiedades eficaces de medición. Existen tres aspectos importantes en la elaboración de una escala
psicológica que atañen a la cuestión de si tenemos una escala basada en propiedades manifiestas o latentes.
Lo naturaleza de las respuestas del sujeto. La primera y a menudo más importante consideración se refiere a la naturaleza de la respuesta que se espera del
sujeto. Podemos pedirle que emplee tipos de respuesta de escala nominal, ordinal, intervalar o aún de razón, y si pretendemos que aplique las propiedades
manifiestas de los datos entonces podemos construir una escala que no haga suposiciones de medida de mayor eficacia que las que se permitió usar al sujeto.
Por ejemplo, si pedimos simplemente a los sujetos que ordenen varios estímulos por preferencia estética, entonces podemos construir una escala intervalar o de
razón que se base en las propiedades manifiestas de estos datos. La propiedad supuesta de la respuesta. No es necesario, por supuesto, que el
experimentador suponga que las respuestas tienen las propiedades de medición que se le dijo al sujeto que usara. Si se le indicó al sujeto que hiciera juicios de
razón de la brillantez de las luces, no necesitamos suponer que pudo hacerlo, podíamos suponer que sólo fue capaz de hacer juicios intervalares o quizás sólo
ordinales. Lógicamente, es posible suponer las propiedades más poderosas del continuo de la respuesta que usó el sujeto, aunque rara vez se hace. Por
ejemplo, podemos pedirle al sujeto que ordene un conjunto de estímulos y suponer luego que en realidad las posiciones de orden representan una escala de
intervalo. Si lo hiciéramos así estaríamos entonces explorando una propiedad latente de los números, ya que la propiedad intervalar no era evidente.
La propiedad supuesta de la escala. La escala elaborada finalmente no tendrá por fuerza la misma propiedad de medida que las respuestas usadas por el sujeto, y
ni siquiera las asumidas por el experimentador. Como adelante veremos, se puede suponer solamente que el sujeto dio respuestas ordinales, pero que a partir de
estas se elaboró una escala de intervalo, si se hacen algunas suposiciones adicionales al tratar los datos.
Cuando la naturaleza de la respuesta, sus propiedades asumidas y la propiedad supuesta de la escala son congruentes, tenemos entonces una escala basada en
propiedades manifiestas de los datos. Si no son congruentes, entonces la escala se basa en algún grado en propiedades latentes. Debe estar claro que la
distinción entre escalas latentes y manifiestas no es una dicotomía definida; existen más bien todos los grados de variación, desde escalas basadas total y
sencillamente en datos manifiestos, incluyendo escalas basadas parcialmente en propiedades latentes de los datos, hasta escalas que tienen poca relación con
propiedades evidentes o manifiestas de los datos. ¿Por qué escalas de propiedad latente?
La elaboración de una escala basada en datos manifiestos es básicamente tan simple y directa que podemos preguntarnos por qué se usan técnicas de propiedad
latente. Si podemos preguntar directamente a un sujeto qué tan fuerte es un sonido o qué tan bello es un árbol, ¿por qué no hacerlo así? y ¿por qué no se ha
hecho? La respuesta se encuentra en la misma naturaleza del problema de elaboración de escalas psicológicas.
En la elaboración de esta clase de escalas tratamos de asignar numerales que reflejen las propiedades de un atributo, la fracción que no podemos observar
directamente. Por consiguiente, cuando usamos datos manifiestos damos por supuesta la cuestión, quizá la más importante de todas, de si en efecto existe
tal atributo, y en ese caso, qué propiedades tiene. El uso de propiedades manifiestas de la respuesta requiere un par de suposiciones muy poderosas.
Necesitamos suponer que existe el atributo y que tiene las propiedades de medición que le asignamos, y también suponer que estas propiedades pueden ser
reflejadas directamente por el sujeto en su respuesta manifiesta. No es suficiente afirmar que tenemos una escala para un atributo, tan solo
porque podamos demostrar una relación funcional entre un conjunto de objetos y un conjunto de valores escalares. Antes que nada, debemos determinar cuáles son
las propiedades del atributo mismo (por ejemplo, ¿tiene un cero absoluto? ); y después qué numerales asignaremos a los objetos que posean tal propiedad. Es
decir, debemos establecer una relación entre el atributo mismo y algunos aspectos de la escala de los números.
Las escalas basadas en propiedades latentes de los datos son muy semejantes a las construcciones hipotéticas o variables interventoras (Green, 1954); se
construye matemáticamente para explicar relaciones entre otras variables. Rara vez estas escalas tienen propiedades más eficaces que las de una escala de
intervalo, pero es frecuente que esta propiedad se garantice en forma significativa. Una escala basada en datos manifiestos en que las respuestas
tienen propiedades de razón con frecuencia parece tener estas propiedades; pero la mayor eficacia de la escala de razón se logra a un costo considerable. Rara
vez hay evidencia de la significación del atributo asumido. La mayoría de las técnicas de escalas latentes han incorporado operaciones
convergentes experimentales o matemáticas (Garner, Hake y Eriksen, 1956). Las operaciones convergentes sirven para comprobar la legitimidad del concepto.
Porque, después de todo, un atributo (por definición no es observable directamente) es justamente eso, un concepto, y un concepto carece de
significado a menos que sea abstracto y general. Identificar un concepto a partir de una sola operación experimental o matemática es establecer la
significación por mandato, procedimiento que no es aceptable científicamente. Las técnicas latentes proporcionan así mayor generalidad, aunque a costa del
alcance de la medida. LA SEGURIDAD EN AVIACIÓN: IMPORTANCIA DEL FACTOR HUMANO. XVII
TRATAMIENTO MUESTRAS Medidas en que las inferencias se hacen a partir de la observación de conducta manifiesta.
Muchos investigadores han señalado la conveniencia de usar medidas en que la
conducta manifiesta hacia miembros de una clase de objetos sirva como base de inferencias sobre la actitud hacia dicha clase de objetos. Como sucede con las
medidas hechas por medio de informes sobre sí mismo, la base de inferencia es clara; y todas las definiciones de actitud especifican qué conducta puede
tomarse como indicador de actitud. Como en el caso de las medidas de autoinforme, la suposición común es que hay una correspondencia simple entre el carácter de
la conducta y el carácter de la actitud subyacente, por ejemplo, que la conducta amistosa hacia un miembro de una clase dada de objetos indica una actitud
favorable hacia tal clase de objetos. De este tipo de medidas ha habido un desarrollo menor que de medidas de informes
sobre sí mismo. Las situaciones capaces de producir conductas hacia un objeto actitudinal son más difíciles de inventar y estandarizar, a la vez que requieren
más tiempo y es más onerosa su aplicación; y no así con las medidas hechas por medio de informe sobre sí mismo. Aunque se han inventado algunas medidas de este
tipo, no se han usado lo suficiente para probar su fuerza y debilidad específicas, ni para estimular los esfuerzos por corregir sus defectos. Sin
embargo, el análisis de sus características proporciona medios para estimar su probable susceptibilidad a influencias diferentes de la actitud y las
posibilidades de reducir tal susceptibilidad.
Hasta ahora, el desarrollo de las medidas conductuales ha seguido tres
orientaciones generales. Una consiste en enfrentar a los sujetos a situaciones estandarizadas, cuyos arreglos se ocultan a dichos sujetos, con el fin de que
crean entonces que sus conductas tendrán consecuencias. En tales situaciones, el objeto actitudinal se representa de manera diferente a la presencia efectiva de
miembro de la clase de objetos. Por ejemplo, puede pedírsele a los sujetos que firmen una petición en favor de un instructor que fue despedido por pertenecer
al partido comunista; que contribuyan con dinero al mejoramiento de las condiciones de los trabajadores migratorios; que indiquen si estarían dispuestos
a tener por compañero de cuarto a un negro. DeFleur y Westie (1958) se propusieron establecer una medida de esta clase que se adaptara a diferentes
situaciones de prueba. En su procedimiento, que era parte de un programa más extenso de investigación, los sujetos blancos vieron varias transparencias que
presentaban a un joven negro y a una joven blanca, o a un joven blanco y a una joven negra, en una situación social; los sujetos describieron las fotografías y
contestaron preguntas concretas acerca de ellas. Al final de una entrevista que siguió a esta sesión se introdujo el procedimiento de medida que se está
describiendo. DeFleur y Westie describen el procedimiento como sigue: se dice al sujeto que se necesita otro grupo de transparencias semejantes para
investigaciones posteriores; se le pregunta si estaría dispuesto a ser fotografiado junto con un negro de sexo opuesto y después se le da "un contrato
de cesión de derechos por una fotografía estándar", que especifica la diversidad de usos que se podría dar a esa fotografía, y que van desde experimentos de
laboratorio, donde solamente seria vista por sociólogos profesionales, hasta campañas de publicidad en escala nacional que abogarían por la integración
racial. Finalmente se pidió a cada sujeto que autorizara con su firma los distintos usos de la fotografía. Los mencionados investigadores informaron que
los sujetos "percibieron uniformemente la situación conductual propuesta como una petición muy realista".
Semejantes medios difieren de las médidas basadas en informes sobre sí mismo
cuyo contenido es similar en que, en las medidas conductuales, el sujeto realiza efectivamente la conducta (firma una petición, hace una aportación, etc.), o se
le hace creer que su aceptación traerá consecuencias reales (se le pide posar para una fotografía que tendrá usos específicos, se le asigna a un negro de
compañero de cuarto, etc.). Otro procedimiento consiste en presentar al sujeto una situación preparada de
antemano y se le pide que desempeñe un papel, quizá que se comporte como lo haría en una situación semejante de la vida real, o bien que asuma la parte de
alguien o que actúe de una manera específica. Stanton y Litwak (1955) presentaron a padres adoptivos reales y potenciales situaciones de tensión
interpersonal en las que se les instruyó para que se comportaran de una manera determinada (definida de tal modo que no manifestaran tipos específicos de
conducta indeseable o neurótica); por ejemplo, en una escena se instruyó al sujeto para que desempeñara el papel de un hombre casado, que come con sus
padres; el investigador, que hace el papel de padre del sujeto, trata a su hijo como un niño, critica a su esposa y la ofende. Nuestros investigadores
encontraron que las estimaciones basadas en media hora de desempeño del papel fueron mejores pronosticadores de la conducta de los sujetos como padres
adoptivos (evaluados por trabajadores sociales que habían mantenido contacto con ellos) que las estimaciones basadas en 12 horas de entrevista intensiva con un
trabajador social adiestrado. Stanton, Back y Litwak (1956) informaron que un procedimiento de desempeño de papeles tuvo éxito en el descubrimiento de los
límites de los sentimientos positivos y negativos de parte de los habitantes de barrios bajos en Puerto Rico. Estos investigadores hicieron hincapié en la
importancia de diseñar la escena específicamente para producir respuestas correspondientes a la conducta o actitud particular en que esté interesado el
investigador. Un tercer enfoque conductual, empleado en el estudio de las actitudes hacia grupos
sociales, es pedir que se hagan selecciones sociométricas entre individuos donde figuren algunos miembros del grupo objeto, de la actitud preferiblemente en
circunstancias que induzcan a creer a los participantes que tales selecciones tendrán consecuencias en la forma de asignar subsecuentemente determinada
situación. Las primeras aplicaciones de esta técnica al estudio de las actitudes intergrupales fueron hechas en los estudios de Moreno (1943) y de Criswell
(1937, 1939), donde las estructuras de las selecciones hechas por niños escolares fueron analizadas basándose en el desarrollo de divisiones entre
líneas raciales. Más tarde, las técnicas sociométricas se han usado en la investigación para evaluar los efectos de ciertas experiencias sobre las
actitudes (por ejemplo, Mann, 1959a; Mussen, 1950a, 19506) y de las relaciones entre diferentes aspectos de las actitudes (por ejemplo, Mann, 19596).
Existen diferencias entre estos tres tipos de medidas conductuales -situaciones
que aparecen al sujeto como no preparadas, desempeño de papeles y selecciones sociométricas- en características que afectan la probabilidad de que las
respuestas manifiestas correspondan a respuestas que se presentarían si el sujeto no procurara presentar (a los otros o a sí mismo) cierta imagen de él
mismo. Primero, consideremos el grado en que su propósito es visible al sujeto. En el grado en que las situaciones pretendidamente no preparadas son aceptadas
como genuinas, el sujeto no las verá como diseñadas para obtener información acerca de sus actitudes; así, se elimina una posible fuente de presión para dar
respuestas que probablemente se consideren deseables. Sin embargo, las implicaciones de su conducta al revelar ciertas características pueden
evidenciarse a él; aun cuando acepte como genuina una pregunta acerca de su disposición a posar junto con un negro o a tener como compañero de cuarto a un
negro, puede darse cuenta de que una respuesta positiva lo presentará como no prejuiciado y una respuesta negativa como prejuiciado. Así, pese a percatarse de
que está siendo examinado, el individuo puede ser motivado a dar una respuesta que difiera de su respuesta espontánea y privada, para aparecer al examinador
como no prejuiciado o mantener la imagen de sí mismo como la de una persona cuyo comportamiento carece de prejuicios. El método de selección sociométrica
parecería ser semejante en estos aspectos, aunque acaso se suponga que, en ausencia de influencias especiales que llaman la atención hacia la pertenencia
de grupo racial o étnico, las implicaciones de las selecciones son probablemente menos aparentes. En el caso del desempeño de papel, el grado en que el propósito
de la situación y las implicaciones de las respuestas son claras depende, presumiblemente, de lo convincentemente que pueda presentarse la situación como
medida de alguna otra característica, tal como la capacidad de actuar.
Todos estos procedimientos conductuales tienen características cuya operación puede facilitar responder de manera que pueda considerarse indeseable. En muchas
situaciones, es posible justificar una respuesta negativa sobre bases neutrales o aceptables: uno no confía en firmar peticiones o no le gusta que le tomen
fotografías o prefiere a las personas A y B y no a X y Y porque comparten su interés por la música. O, en la situación de desempeño de papeles, su conducta
se conforma no por sus propias reacciones hacia el objeto actitudinal sino por su interés en los requerimientos dramáticos de la situación. (Sin embargo, en el
grado en que estas explicaciones alternas sean posibilidades reales, se introducen otros problemas acerca de la interpretación de la conducta como
indicador de la actitud en que esté interesado el investigador).
Algunas características de los métodos conductuales pueden reducir la probabilidad de que el individuo modifique su conducta a modo de ofrecer una
imagen aceptable de sí mismo. Cuando se espera que las respuestas tengan consecuencias reales, la previsión de tales consecuencias puede contrabalancear
el deseo de causar una buena impresión. En un cuestionario de distancia social, si uno desea presentarse (al examinador, a uno mismo o a ambos) como no
prejuiciado, hay poca presión efectiva en contra de la afirmación consistente en que uno estaría dispuesto a trabajar con un negro o a tener un compañero negro
de cuarto; pero si la pregunta se ubica dentro de un contexto en el que una contestación positiva se considere conducente a la asignación de un negro como
compañero de trabajo o de cuarto, uno necesita ponderar su disposición a aceptar esa consecuencia, contrastándola con el deseo de aparecer como no prejuiciado.
En el desempeño de papeles, la presión para dar respuesta rápida a situaciones de estímulo no previstas, probablemente disminuya el control consciente de la
conducta dirigida a producir la impresión deseada. Al enfrentarse a la necesidad de hacer o decir algo para que la situación continúe, el individuo posiblemente
no tenga tiempo de considerar la impresión que produce; en la medida que esto suceda, puede considerarse que este procedimiento disminuye la selección
consciente que de su respuesta hace el individuo. Por tanto, las medidas conductuales parecen menos suceptibles de distorsión de
respuesta que las simples medidas con autoinformes cuando se trata de presentar cierto cuadro de sí mismo. Pero son tan susceptibles por lo menos como los
informes de sí mismo a los efectos de otras influencias extrañas. Algunas veces se ha sugerido que el modelo de medidas conductuales estaría formado por
situaciones aparentemente no preparadas en las que se encuentre presente un miembro de la clase de objetos. Pero es claro que en situaciones de la vida
diaria (a las que este modelo procura aproximarse) la conducta no está determinada exclusivamente por la actitud hacia el presunto objeto actitudinal.
En el caso de la conducta hacia grupos minoritarios, la costumbre social es, por ejemplo, un determinante importante; en las comunidades con sistemas de
transportes segregados, casi todos los blancos -independientemente de sus actitudes hacia los negros o hacia la segregación- se sientan en la sección de
blancos, mientras que en las comunidades con sistemas de transporte no segregados, muy pocos blancos- independientemente de sus actitudes- rehusan
sentarse junto a los negros. Otros valores pueden anular las actitudes hacia el presunto objeto; un individuo que sienta repulsión a comer con negros, puede
hacerlo, no obstante, porque acaso crea que los ideales de la democracia, los principios religiosos de hermandad o la posición de los Estados Unidos en el
mundo requieren que todos los hombres sean tratados como iguales. Finalmente, pueden predominar otras características de los objetos individuales sobre su
identificación étnica en la determinación de su respuesta a ellos. Así, LaPiere (1934) concluyó que los factores que más influyeron en la conducta del personal
del hotel y del restaurante, hacia la pareja china con quien viajó, "no tenía nada que ver con la raza"; más bien, fue la calidad y condiciones de su vestido,
la apariencia de su equipaje, su limpieza y pulcritud y sobre todo sus maneras agradables y su seguridad lo que determinó las reacciones. Observaciones como
esta sugieren que, en el grado en que uno esté interesado en explorar disposiciones generalizadas hacia un grupo determinado, más bien que predecir la
conducta en situaciones complejas, las medidas conductuales que requieren respuesta a una representación simbólica del grupo pueden estar menos sujetas a
la influencia de factores extraños que las medidas que requieren respuesta a miembros del grupo que están presentes físicamente.
Campbell (1961) ha propuesto un procedimiento para usar medidas conductuales basadas en la premisa de que situaciones diferentes tienen distintos umbrales
para la manifestación de conducta hostil, de evitación o discriminatoria. Indica que, para obtener testimonios sobre la actitud de un individuo, es necesario
colocarlo en varias situaciones que difieran en umbrales; por ejemplo, situaciones que vayan desde comer con un negro en un restaurante de hombres de
negocios (que se supone es una situación con un umbral bajo para conducta no discriminatoria, es decir, que es fácil comportarse en ella de una manera no
prejuiciada), hasta rentar la propia casa a un negro (que se supone tiene un umbral alto para conducta no discriminatoria). La situación de umbral más bajo
en la que un individuo exhiba conducta discriminatoria indicaría su posición en una escala de actitud con respecto al grupo en cuestión. Semejante procedimiento
sería efectivo para tener en cuenta las presiones que sean constantes en todos o casi todos los individuos; pero nos parece que no eliminaría los efectos de las
diferencias de intensidad, en diferentes individuos, de influencias como el interés por la aprobación social, otros valores considerados también intrínsecos
de la situación, etc.
Medidas en que las inferencias se obtienen de la reacción individual a, o de, la interpretación de estímulos estructurados parcialmente.
La característica común de las técnicas de esta categoría es que, aun cuando es probable que no se procure disimular la referencia al objeto actitudinal, no se
le pide al sujeto que exprese sus reacciones directamente; está describiendo, ostensiblemente, una escena, un personaje o la conducta de una tercera persona.
Se le puede presentar la fotografía de un miembro de la clase del objeto (generalmente una persona de determinado grupo social) para después pedirle que
describa sus características; o se le puede presentar una escena en la que estén presentes los miembros de la clase del objeto y pedirle que la describa, que
cuente una historia acerca de ella, que describa la conducta de uno de los personajes, etc. El material de estímulo puede ser verbal y no fotográfico; por
ejemplo, se le puede pedir al sujeto que complete una oración referente a una tercera persona hipotética.
Las bases de inferencia acerca de las actitudes son las comunes a todos los tests proyectivos: las suposiciones de que la percepción de estímulos que no
están estructurados claramente resulta influida por las propias necesidades y disposiciones del que percibe; que al proporcionarle una explicación o
interpretación para la cual el estímulo presentado no ofrece una señal clara, el sujeto debe extraer de su propia experiencia o disposiciones o de sus propias
definiciones lo que sería probable o apropiado; que, al pedirle que atribuya formas de conducta a los demás, particularmente en condiciones de respuesta
rápida, la fuente más asequible de hipótesis es la propia disposición de respuesta del individuo. Como en el informe sobre sí mismo y en los tests
conductuales, la suposición común es que la respuesta expresada corresponde directamente a la actitud del individuo; por ejemplo, que la atribución de
características deseables a un miembro de determinado grupo representa una actitud favorable hacia ese grupo, que la interpretación de una escena en la que
hay hostilidad hacia un miembro de, un grupo dado representa una actitud hostil hacia el grupo, que la atribución de una respuesta positiva (o negativa) a una
tercera persona hipotética con respecto a determinado objeto refleja una disposición positiva (o negativa) hacia el objeto en cuestión.
Una razón importante para el desarrollo de tales técnicas es la suposición de que, al disimular el propósito del instrumento y las implicaciones de las
respuestas, disminuye la probabilidad de distorsión de las respuestas para presentar cierto cuadro de sí mismo. Se presentan al sujeto no como medidas de
actitud sino como tests de imaginación, fluidez verbal, capacidad para juzgar el carácter, la sensibilidad social o alguna otra característica semejante. Tanto
como el sujeto acepte estas explicaciones, es de suponerse que no solamente desconoce el propósito del test sino también que sus respuestas implican que
revela sus propias actitudes. Aun cuando el sujeto se dé cuenta de que está expresando su propia actitud, se presume que puede ser más fácil expresar
opiniones que pueden considerarse indeseables cuando uno no las reconoce explícitamente como propias. En algunos casos, las preguntas no son evaluativas;
de ahí que las implicaciones de una u otra respuesta no se hagan probablemente evidentes al sujeto; por ejemplo: "¿Qué está haciendo el individuo de color que
está en la esquina? " (Horowitz y Horowitz, 1938).
Sin embargo, se han planteado preguntas acerca de la validez de la suposición de que las respuestas, aun las espontáneas y no distorsionadas, reflejan la propia
actitud del individuo hacia el objeto. Pero, aunque parece haberse establecido que la respuesta de un individuo puede reflejar su propia disposición, no es
cierto que necesariamente la realice. En una escena en la que son ambiguos los papeles del negro y del blanco, el individuo que describe al negro como criado
puede reflejar así su propia disposición devaluativa hacia los negros; por otro lado, puede informar sencillamente de la organización más comúnmente observada
en nuestra cultura. De manera semejante, las respuestas que atribuye a una tercera persona hipotética pueden basarse ya sea en su propia disposición de
respuesta o en su estimación de cómo reaccionaría la mayoría de la gente en tal situación. Las tentativas por obtener
testimonios sobre si las respuestas a los instrumentos de este tipo reflejan en realidad las propias actitudes del individuo han seguido dos direcciones: examen
de la correspondencia entre las estimaciones basadas en estas medidas y las basadas en otras medidas (por lo común del tipo de informe de sí mismo); y
examen de datos obtenidos de instrumentos de esta clase basándose en las predicciones acerca de las estructuras de los resultados.
Varios estudios han encontrado correspondencia significativa entre resultados de medidas de este tipo y puntuaciones en medidas de informes de sí mismo.
Proshansky (1943) encontró correlaciones altas entre puntuaciones basadas en una escala estándar de informes sobre sí mismo para medir la actitud hacia el
trabajo organizado y las puntuaciones basadas en descripciones de cuadros ambiguos, de exposición breve y de situaciones sociales relacionadas.
Riddleberger y Motz (1957) encontraron que los sujetos con puntuación alta y los de puntuación baja en una medida con informes sobre sí mismo, de actitud hacia
los negros, diferían en sus explicaciones acerca de cómo habían entablado relación los miembros de un grupo interracial dibujado. Sommer (1954), con una
forma modificada de la adaptación de Brown (1957), del test de frustración de dibujos de Rosenzweig, pudo identificar con gran éxito no solamente a los
individuos que calificaron alto y a los que calificaron bajo en una escala de informe sobre sí mismo, de actitud hacia los negros, sino también a un subgrupo
al que se había instruido para que respondiera al test de frustración de cuadros como si no estuviera prejuiciado, aunque sus puntuaciones en el informe sobre sí
mismo eran desfavorables. Sin embargo, en vista de la suposición de que una característica importante de
los tests de este tipo es su relativa falta de susceptibilidad, comparada con la de medidas de informes de sí mismo, a los efectos de presentar cierta imagen de
sí mismos, su correspondencia con puntuaciones basadas en medidas de informe de sí mismo, es un criterio dudoso. Getzels (1951), admitiendo este hecho, planteó
el problema al predecir las condiciones en las que la complementación rápida de frases en tercera persona diferiría de la complementación, hecha por los mismos
sujetos, de las mismas frases presentadas en primera persona. Hizo dos predicciones: a) que las respuestas en primera y tercera persona diferirían en
los reactivos sujetos a normas sociales firmes que no estuvieran completamente internalizadas por todos los miembros del grupo; y que no diferirían en los
reactivos libres de tales normas; y b) que en el caso de los primeros reactivos, las contestaciones de mayor aceptación social serían dadas en la forma de
primera persona más que en la de tercera persona. Ambas predicciones fueron comprobadas claramente. Getzels reconoció la posibilidad de que las respuestas
en la forma de tercera persona se basaran en estimaciones de cómo respondería la mayoría de las personas antes que en las disposiciones de respuesta de los
propios sujetos. De conformidad con esto, pidió a los sujetos que estimaran cómo respondería la mayoría de las personas a los reactivos acerca de los negros, y
no encontró diferencia entre el promedio de las estimaciones hechas por aquellos cuyas respuestas de tercera persona habían sido favorables y el de aquellos
cuyas respuestas de tercera persona había sido desfavorable.
Varias técnicas en que interviene la percepción -en sentido literal- de material ambiguo o inestructurado pueden considerarse dentro de esta categoría. Por
ejemplo, varios psicólogos han estado investigando la posible relación de las actitudes con la percepción de estímulos presentados en condiciones
estereoscópicas de rivalidad binocular. Bagby (1957), al presentar pares de tarjetas que diferían en contenido cultural (por ejemplo, un torero y un jugador
de béisbol) a sujetos de México y de los Estados Unidos, encontró que los mexicanos tendían a ver la tarjeta de contenido mexicano y los norteamericanos
las de contenido familiar en los Estados Unidos. Pettigrew, Alport y Barnette, (1958), al presentar a residentes de Sudáfrica pares de fotografías de
individuos de diferentes grupos raciales, encontraron que los africanos se desviaron más consistentemente de otros grupos en sus respuestas, emplearon en
exceso las categorías de "europeo" y "africano" y muy poco las de "negro" o "indio". Un estudio
de Bray (1950) hizo uso de material visual no estructurado de una manera diferente. Haciendo uso del hallazgo de Sherif (1935) de que las estimaciones de
movimiento en el fenómeno autocinético son influídas notablemente por las estimaciones hechas por otros, Bray investigó los efectos de estimaciones de
compañeros que se identificaron como miembros de grupos minoritarios. Sostuvo la hipótesis de que el grado y dirección de tales efectos estaría influido por la
actitud del sujeto hacia el grupo minoritario. Aquí, el material perceptual no estructurado no se refería al objeto actitudinal, sino sencillamente
proporcionaba la oportunidad de expresar indirectamente una respuesta al objeto actitudinal, el miembro del grupo minoritario presente.
Persisten, pues, los problemas acerca de la naturaleza de las inferencias que pueden extraerse. Bray, por ejemplo, no encontró la relación directa que había
predicho entre la actitud hacia el grupo minoritario (medida por escalas de informes de sí mismo) y las respuestas a las estimaciones de los miembros del
grupo minoritario. En el caso de la rivalidad binocular, ¿de qué manera, en caso de haberla, la actitud influye en la percepción? ¿Ve uno la fotografía de
contenido más familiar? ¿Ve uno al miembro del grupo racial hacia el que se siente más a favor o hacia el que es más hostil o se siente más temeroso?
Preguntas como éstas señalan la necesidad de investigaciones ulteriores sobre la utilidad de estas técnicas como medidas de actitud y las direcciones de
investigación potencialmente fructíferas acerca de la relación entre las actitudes y la respuesta a varias clases de materiales en diferentes
condiciones.
Medidas en que las inferencias se extraen de la ejecución de tareas "objetivas" Los
procedimientos de esta categoría presentan al sujeto tareas concretas a realizarse; se presentan como tests de información o capacidad o simplemente
como tareas que deben hacerse. La suposición común a todas ellas es que la ejecución puede ser influída por la actitud y que una desviación sistemática en
la ejecución refleja la influencia de la actitud.
Por ejemplo, se puede pedir al sujeto que memorice material, parte del cual es favorable al objeto actitudinal, parte desfavorable y parte quizá neutral o no
relacionado con dicho objeto. La suposición consiste en que el material análogo a la posición del propio sujeto se aprenderá más rápidamente y se recordará por
más tiempo. Se ha obtenido comprobación empírica de esta suposición; por ejemplo, en un estudio de Levine y Murphy (1943), en el que se empleó material
acerca de la Unión Soviética y en otro de Jones y Kohler (1958) con aseveraciones acerca de la segregación. O se le da al sujeto un test de
"información", en el que por lo menos algunos de los reactivos se refieran al objeto actitudinal y no tengan respuestas correctas o éstas sean tan
desconocidas que pueda suponerse que, si acaso, unos cuantos sujetos conocerán las contestaciones acertadas; se proporcionan respuestas alternas que se cree
indican disposiciones relativamente favorables o desfavorables hacia el objeto. En este caso, la suposición es de que cuando el sujeto es forzado a adivinar en
preguntas claramente referentes a hechos precisos, es probable que escoja la alternativa más compatible con su propia disposición actitudinal. También esta
suposición se apoya en evidencias empíricas; por ejemplo, los estudios de Hammond (1948) y Weschler (1950) acerca de las actitudes hacia el trabajo y
hacia Rusia, y de Rankin y Campbell (1955) acerca de la actitud hacia los negros. O bien la tarea puede consistir en un test de "razonamiento", en que se
presentan silogismos u otras formas lógicas y se pide al sujeto que indique cuál de varias conclusiones puede extraerse correctamente. Los reactivos referentes
al objeto actitudinal están acompañados por reactivos semejantes de contenido neutral o abstracto; la calificación se hace conforme al número y dirección de
los errores en los reactivos correspondientes a la actitud en comparación con los reactivos de control. La suposición reside en que el razonamiento puede
estar dominado por la disposición actitudinal y así los errores en los reactivos pertinentes a la actitud reflejan la propia posición del individuo, cuando son
contestados correctamente los reactivos paralelos neutrales. Watson (1925), Morgan (1945) y Thistlethwaite (1950), entre otros, han desarrollado
instrumentos de este tipo. Thistlethwaite encontró diferencias significativas entre los estudiantes universitarios del norte y del sur en la frecuencia de
errores en reactivos referentes a negros (en comparación con los errores en los reactivos neutrales) y ninguna diferencia correspondiente en reactivos acerca de
judíos, mujeres o patriotismo. Otras medidas hacen hincapié en el material que va a ser juzgado o en el
resultado que se va a lograr y no en la capacidad de ejecución. Por ejemplo, se pide al sujeto que clasifique reactivos acerca del objeto actitudinal fundándose
en su posición sobre una escala de favorabilidad-desfavorabilidad, con el fin expreso de que ayude en la elaboración de una escala de Thurstone. En este caso,
la suposición es que la propia actitud del evaluador hacia el objeto particularmente si es extrema -influye en sus juicios acerca de la favorabilidad
de las aseveraciones acerca del objeto. No obstante la creencia inicial de que las estimaciones de reactivos en las escalas de Thurstone no son afectadas por
las propias actitudes de los evaluadores, varios estudios recientes (por ejemplo, Hovland y Sherif, 1952) han encontrado que sí existen tales efectos.
Parece razonable suponer que la mayoría de los sujetos acepta estas tareas por su valor aparente; se presume que solo quien tenga un conocimiento más que
ordin4rio de las técnicas de investigación de las ciencias sociales conocería sus implicaciones actitudinales. Hay entonces las bases suficientes para asumir
que son relativamente invulnerables a la distorsión de querer presentar la imagen deseada de sí mismo.
Hay, sin embargo, objeciones acerca del carácter de las inferencias obtenidas. Cuando un sujeto presenta distorsión notable y consistente, se puede inferir que
tiene una actitud hacia el objeto lo bastante fuerte para afectar su ejecución. Pero cuando tal distorsión no es consistente, ¿inferimos de ello que su actitud
no es fuerte o no es consistente? En otras palabras, ¿qué tan sensibles son esas medidas? ¿Es posible que los individuos con actitudes equivalentes difieran en
el grado en que su ejecución en semejantes tareas está influida por esas actitudes? Otro
problema es el relativo a la dirección en que la actitud influye en la respuesta e, inversamente, en el carácter de la inferencia que se obtiene de determinada
respuesta. Las respuestas pueden reflejar deseos o temores; un miembro del partido comunista puede sobreestimar el número de comunistas en los Estados
Unidos; pero también puede hacerlo un miembro de la Sociedad John Birch. Una persona que subestima el número de médicos negros en los Estados Unidos puede
hacerlo porque cree que los negros no tienen la capacidad para ser médicos, o porque cree que las oportunidades para que los negros obtengan preparación
médica son limitadas. Los juicios de favorabilidad o desfavorabilidad de las aseveraciones están
sujetos a un problema similar de interpretación. Hovland y Sherif (1952), empleando reactivos acerca de los negros, encontraron que las estimaciones
hechas por sujetos negros y por sujetos blancos que apoyaban activamente la integración racial, diferían de las estimaciones hechas por sujetos "promedio",
y por blancos racistas. No obstante, otros investigadores (por ejemplo, Manis, 1960; Weiss, 1959), empleando reactivos acerca de diferentes objetos
actitudinales, encontraron que los sujetos con actitudes extremas -ya sea favorables o desfavorables- presentaron estructuras semejantes de estimaciones,
que diferían de las hechas por sujetos con actitudes moderadas.
Como en la categoría anterior, estos problemas de interpretación señalan la necesidad de ser cuidadosos al inferir la actitud de un individuo a partir de un
solo test de esta clase; pero parece señalar también la probable utilidad de la investigación empírica ulterior acerca de la relación entre las puntuaciones
basadas en semejantes medidas y las basadas en tests que proporcionan otros principios de inferencia.
Otro grupo de medidas presentadas como tareas objetivas o tests de capacidad se enfoca hacia el grado en que el objeto actitudinal figura de manera destacada en
la organización que de su ambiente realiza el sujeto, es decir, su importancia para él. Las clases de datos apropiados para inferencia acerca de la importancia
de un objeto actitudinal difieren en parte de los tipos adecuados de inferencia acerca de la naturaleza o dirección de la actitud. Se han desarrollado
principalmente medidas de predominio con respecto a actitudes hacia grupos sociales. Son de dos tipos: técnicas para evaluar la tendencia a clasificar a
los individuos con fundamento en su pertenencia al grupo y técnicas para evaluar la tendencia a subordinar las diferencias individuales a la identificación con
el grupo. Una técnica para evaluar la tendencia a clasificar a los individuos por su
pertenencia de grupo, desarrollada por Horowitz y Horowitz (1938), puede presentarse como test de formación de conceptos. Consiste en presentar al sujeto
series de fotografías de individuos que difieren en raza, sexo, edad y posición socioeconómica, y luego pedirle que seleccione las que "deban ir juntas". Por
ejemplo, un conjunto puede contener fotografías de tres muchachos blancos, una muchacha blanca y un muchacho negro. Si el sujeto contesta que la muchacha
blanca no pertenece al grupo, véase en esto una indicación de que para dicho sujeto el sexo es una base de clasificación más importante que la raza; si
contesta que el muchacho negro no pertenece al grupo, se infiere que la raza es para él una categoría más importante que el sexo.
Otra técnica para evaluar la tendencia a clasificar los individuos según su pertenencia de grupo, presentada como test de memoria, implica la agrupación, en
el recuerdo, de símbolos verbales, para lo cual se proporcionan principios clasificatorios alternos. Esta técnica se apoya en el hallazgo realizado en
estudios de conducta verbal de que cuando se presentan al azar palabras sacadas de diferentes categorías, los sujetos tienden a recordarlas en grupos; se
recuerdan juntas palabras diferentes que representen una categoría dada aunque no estén próximas en la lista presentada. Para estudiar el predominio de la raza
como base de clasificación, se presentarían al sujeto, en orden aleatorio, los nombres de personas de diferentes categorías ocupacionales, por ejemplo,
jugadores de béisbol, músicos, políticos, actores; uno de los nombres en cada categoría correspondería a un negro. El grado en que se agrupan en el recuerdo
los nombres de negros proporciona la base de inferencia en cuanto al predominio de la raza como fundamento para clasificar a los individuos.
Una medida de la tendencia a subordinar las diferencias individuales a la identificación de grupo, desarrollada por Horowitz y Horowitz (1938), consiste
en presentar al sujeto varias fotografías de individuos de diferentes grupos étnicos y pedirle que identifique, en un gran número de fotografías, a los que
ya ha visto. La tarea se presenta como un uso de la percepción, la memoria o ambas. La calificación se hace conforme a la proporción de respuestas correctas
a los individuos de determinado grupo social dado en comparación con la proporción de respuestas correctas sobre individuos de otros grupos. En este
caso, la inferencia es que la exactitud para identificar o no fotografías de individuos de un grupo social dado, que ya se han visto anteriormente, disminuye
con la tendencia a subordinar las diferencias individuales a la identificación de grupo. Seeleman
(1940-41), empleando fotografías de blancos y negros, encontró una correlación alta entre las puntuaciones en esta medida y las puntuaciones en un cuestionario
de informes sobre sí mismo diseñado para medir la actitud hacia los negros, donde los sujetos con actitud menos favorable fueron menos precisos para
identificar las fotografías de negros que se habían mostrado previamente. El problema reside en saber si hay, en general, una correlación entre el predominio
de un objeto actitudinal y la favorabilidad de la disposición hacia él, problema interesante para investigarlo empíricamente.
Medidas en que las inferencias se obtienen de reacciones fisiológicas al objeto actitudinal o a representaciones de él.
En el extremo opuesto de las medidas que confían en el informe verbal del sujeto sobre sus creencias, sentimientos, etc., están las que confían en respuestas
fisiológicas no sujetas a control consciente. Pueden ser medidas de la reacción del sujeto -por ejemplo, la respuesta galvánica de la piel (RGP), o contracción
vascular- a la presencia de un miembro del grupo de objetos o a las representaciones pictóricas de situaciones en que intervienen miembros del grupo
de objetos. Por ejemplo, Rankin y Campbell (1955) compararon las RGP obtenidas cuando el experimentador era negro con las obtenidas cuando el experimentador
era blanco; Westie y DeFleur (1959) registraron la RGP, la contracción vascular del dedo, la amplitud y duración del latido del corazón y la duración del ciclo
cardíaco mientras los sujetos veían fotografías de blancos y negros en situaciones sociales. Hess y Polt (1960) fotografiaron la contracción pupilar en
respuesta a estímulos displacenteros y la dilatación pupilar al responder a estímulos placenteros.
Bien puede suceder que esas medidas impliquen respuestas, como la salivación, parpadeo, contracción vascular, que hayan sido condicionadas a un estímulo
verbal y, por un proceso de generalización semántica, aparezcan al responder a palabras, o bien que impliquen conceptos semejantes en significado al estímulo
original. Por ejemplo, Volkova (1953) informó de una serie de experimentos, en Rusia, en los que ciertos sujetos fueron condicionados a salivar en respuesta a
la palabra BUENO; subsecuentemente, aseveraciones como "el joven pionero ayuda a su camarada" produjeron salivación máxima, mientras que afirmaciones por el
estilo de "los fascistas destruyeron muchas ciudades" produjeron salivación mínima. En el caso
de respuestas fisiológicas incondicionadas a la presencia o a la representación del objeto actitudinal, la base de inferencia procede directamente del concepto
de actitud. Y como todas las definiciones de actitud in•I-luyen creencias, sentimientos y conducta manifiesta como indicadores de la actitud, todas las
definiciones, explícita o implícitamente, incluyen también respuestas fisiológicas. Se supone que la magnitud de la reacción fisiológica está
relacionada en forma directa y positiva con el grado de activación o intensidad del sentimiento; de esta manera, cuanto mayor es la respuesta fisiológica, tanto
más intensa o extrema se supone que es la actitud. Sin embargo, subsisten los problemas para inferir el carácter de la actitud que se refleja. La mayoría de
las medidas de reacción fisiológica solamente dan indicaciones directas del grado de activación; pero no revelan si la emoción correspondiente es placentera
o displacentera. En general, en los ensayos para evaluar las actitudes hacia grupos sociales por medio de la medida de reacciones fisiológicas, se ha
supuesto que la amplitud del afecto no va desde completamente favorable hasta completamente desfavorable sino que se extiende desde la aceptación o
neutralidad, hasta lo completamente desfavorable; se ha inferido así que cuanto mayor sea la respuesta fisiológica, tanto más desfavorable es la actitud. Si la
técnica de Hess de fotografía de la contracción-dilatación pudiera adaptarse al estudio de las actitudes, proporcionaría una base de inferencia mucho más firme
en lo referente a la dirección de la actitud, ya que la reacción que se mide presenta una respuesta diferencial a estímulos placenteros y displacenteros.
En el caso de las respuestas fisiológicas condicionadas, la base de inferencia es algo diferente, pues proviene de la teoría del aprendizaje. Una respuesta que
se ha condicionado a determinado estímulo tiende a generalizarse a estímulos que sean semejantes. De esta manera, si una respuesta que se ha condicionado al
concepto de "bueno" aparece cuando se presenta el objeto actitudinal, la inferencia es de que el sujeto considera bueno al objeto, es decir, que su
actitud hacia él es favorable; si la respuesta no aparece cuando se presenta el objeto actitudinal, se infiere que el sujeto no lo considera bueno, es decir,
que su actitud hacia él no es favorable. El propósito de las medidas fisiológicas puede o no ser evidente al sujeto. En
el estudio de Westie y DeFleur (1959), por ejemplo, se admite que los sujetos comprobaron que se estaban usando las medidas fisiológicas como indicadores de
sus reacciones a los cuadros interraciales. Por otra parte, en el experimento de Rankin y Campbell (1955), se hizo creer a los sujetos que estaban tomando parte
en un estudio de asociación de palabras y que sus RGP a las palabras estímulo (y no a los experimentadores negros y blancos) era lo que se estaba investigando.
Esté o no claro para el sujeto el verdadero propósito, el hecho de que las respuestas medidas no estén sujetas a control consciente parecería eliminar la
posibilidad de modificación de las respuestas para presentar cierta imagen falsa de sí mismo. Sin
embargo, las respuestas fisiológicas pueden ser muy sensibles a influencias diferentes de las que interesan al investigador, tanto a diferentes aspectos del
material de estímulo como a otras influencias ambientales. Es difícil controlar la situación experimental al extremo de que no intervengan otros factores como
posibles determinantes de la respuesta. Interrogantes como éstas señalan constantemente la necesidad de tener extremo
cuidado al sacar inferencias acerca de la actitud de un individuo dado a partir de una medida de este tipo. Pero, de la misma manera señalan las posibilidades
alentadoras de investigación empírica y la oportunidad de incrementar ampliamente nuestra comprensión de las actitudes y su relación con varios tipos
de respuesta, mediante el uso de instrumentos que producen diferentes tipos de prueba.
BIBLIOGRAFIA
El análisis factorial también puede ser muy útil a) para determinar la
dimensionalidad de un dominio y b) para seleccionar los reactivos que se ajusten
mejor a los diferentes estratos del dominio. Esta técnica proporciona la
correlación de cada reactivo con cada faceta del dominio (tales facetas se
llaman "factores"). Los reactivos que se correlacionan bastante con un sólo
factor reciben clara preferencia en la elaboración de escalas.
(2b)ρTiei=0
(2c) ρTiej= 0
(2d )
ρeiej=0.
1
2
3
4
5
pi
p2i
1
0.09
.07
.05
.04
.08
.9
.81
2
.21
.11
.08
.14
.7
.49
3
.21
.07
.17
.7
.49
4
.24
.11
.6
.36
5
.16
.8
.64
1
2
3
4
5
6
7
8
9
1
.534
.115
.168
.085
.118
.090
.167
.144
.129
2
.411
.114.
.062
.140
.080
.104
.065
.148
3
.814
.061
.118
.116
.177
.093
.272
4
.348
.087
.012
.103
.084
.054
5
.401
.072
.140
.123
.125
6
.465
.093
.052
.105
7
.645
.078
.127
8
.383
.093
9
.679
1954a "A technique and a scale for loudness measurement".
Journal of the Acoustical Society of America 26: 73-88.
1954b "Context effects and the validity of loudness scales".
Journal of Experimental Psychology 48: 218-224
1958 "Advantages of the discriminability criterion for a
loudness scale". Journal of the Acoustícal Society of America 30: 1005-1012.
1938 "The computation of psychological values from judgments in absolute
categories". Journal of Experimental Psychology 22: 34-42.
1954 Psychometric Methods. Segunda edición. Nueva York, McGrawHill Book Company,
Inc. Gulliksen, H.
1950 Theory of Mental Tests. Nueva York, John Wiley & Sons, Inc.
1948 "Adaptation-level as a basis for a quantitative theory of frames of references". Psychological Review 55: 297-313.
1959 "Adaptation-Level Theory". En la obra Psychology: A Study Of a Science. Vol. I. (Koch, S., di rector) Nueva York; McGrawHill Book Company, Inc.
1951 Mathematics, measurement, and psychophysics". En la obra de S.S. Stevesns (Director), Hand book of Experimental Psychology. Nueva York; John Wiley & Sons, Inc.
1957 "On the psychological law". Psychological Review 64: 153-181.
1959 "Cross-modality validation of subjective scales for loudness, vibration,
and electric shock". Journal of Experimental Psychology 57: 201-209.
1958 Theory and Methods of Scaling. Nueva York; John Wiley & Sons, I nc.
1960 Quantitative judgment scales. (Gulliksen, H„ y Messick, S , Directores)
Nueva York; John Wiley & Sons, Inc.
El procedimiento de rangos normalizados*
Superintendente 0 .53 1.28 -1.28 -.53
Administrador .53 1.28 -.53 0 -1.28
Psicólogo 0 .53 -.53 1.28 -1.28
Suma 1.06 - 3.62 .22 -.53 -4.37
Rango media normalizado .265 .905 .055 -.132 -1.092
Escala transformada 14.575 20.975 12.475 10.600 1.000
Pinturas
Diferencia media Valor escala
B
.52 0 -.31
-.77 -1.18 -1.41 -1.41
.592
2.194
C
1.08 .31 0
-.47 -.52 -1.08 -1.28
-1.55
.371
1.823
E
1.55 1.18 .52
.47 0
-.31 -.99 -1.28
.189
1.242
G
- 1.41 1.28
.92 .99
.36 0 .77
.381
.585
H
- -
1.55 1.41 1.28
1.28 .77 0
.585
0
Rangos categoriales normalizados, usando los datos de la tabla 3*
1 00 -.25 -.13 -.52 -1.28 -
2 .84 .67 .25 .13 -1.28 -1.28
3 1.04 1.28 .67 .67 -.67 -.84
4 - 1.28 1.28 1.04 .38 .25
5
- - - - - -
Diferencia media .060 .287 .187 .100
Valor escala 0 .060 .347 .534 10.310 10.410
* En este caso hemos usado las proporciones acumulativas para obtener valores de
puntuación estándar.
Bill 0 -.71 -.66 -.88 -1.17
Joe .71 0 -,15 -.36 -.59
Andy .66 .15 0 -.07 -.22
Jack .88 .36 .07 0 -.18
Sam 1.17 .59 .22 .18 0
Diferencia media .606 .182 .122 .206
Escala logarítmica 1.116 .510 .328 .206 0
Escala de razón 13.06 3.24 2.12 1.67 1
* Cada trabajador fue puesto a la par de cada uno de los demás; y los evaluadores dividieron el número 100 de manera que reflejara la proporción de la
ejecución efectiva. Las proporciones se convirtieron en logaritmos; el valor de cada celdilla es la media de los logaritmos, que equivale a la proporción
promedio del trabajador mencionado en la parte superior y el trabajador anotado a un lado de la tabla. Después, la diferencia media entre las columnas se
convierte, por adición sucesiva, en una escala (como en una escala de intervalo); la escala final es el antilogaritmo de cada valor.
Garner (1954) desarrolló y usó una técnica en la que aplicó exactamente lo
anterior a la sonoridad. Primero elaboramos dos escalas de sonoridad, la primera basada en producción de razones (específicamente, fraccionamiento a la mitad de
sonoridad) y la segunda basada en equisección. Pese a ello:, no hacemos la suposición de que la razón de un medio haya sido usada en realidad por los
sujetos, sino el supuesto. menos rotundo de que la proporción fue la misma en todos los juicios, pero que su valor se desconoce. Con esta suposición, podemos
determinar aún una función de la sonoridad, pero no conocemos la razón que se usó. Esta función está relacionada con la función verdadera de la sonoridad
(latente) por
2 BACDE 6 DCEBA
3 BCADE 7 DECBA
4 CBDAE 8 EDCBA
2 BACDE o BCADEo BCDAE
3 BCDEA o BCDAE
4 CBDEA o CDBEA
5 CDEBA
6 DCEBA
7 DECBA
8 EDCBA