El Factor Humano en la Aviación

Archivo 2007

Virgen de Loreto

Patrona de la Aviación

Este espacio está reservado para los artículos ya publicados

Índice General Artículos

Artículo diciembre 2007

LOS VALORES ESCALARES

UN CRITERIO OBJETIVO DE INADECUACIÓN

En la medida de lo posible, se han probado de forma objetiva este tipo de procedimientos; y se han retenido de forma intencionada algunas aseveraciones de opinión que eran abiertamente ambiguas o de la misma manera inadecuadas para una escala de actitud. Estas se han probado determinar en qué grado podían eliminarse por métodos objetivos. Difícilmente se llegaría a elaborar una escala de actitud útil, aplicando mecánicamente reglas de objetividad. Se puede vaticinar que prevalecerá indefinidamente cierta libertad en lo que concierne a los juicios de los investigadores; pero estos métodos únicamente alcanzarán éxito en la medida en que los juicios individuales del investigador, sobre material de esta clase, puedan comprobarse de modo objetivo.

El criterio de ambigüedad denota la extensión de una aseveración sobre la escala subjetiva de intervalos aparentemente iguales. Si 300 sujetos colocan una aseveración de opinión en intervalos muy diferentes de la escala citada, el valor Q de aquélla será grande y, por consiguiente, según este criterio objetivo, se la considerará ambigua, pues demuestra tener significados en extremo diversos, para los diferentes sujetos, a lo largo de la escala de actitud. De más está decir que aseveraciones así deben eliminarse. Por simple examen, es posible afirmar en general si una aseveración tendrá un valor Q grande, Es de observarse que este valor de una opinión no refleja las opiniones efectivas que los sujetos mantengan sobre el asunto en consideración. Estos únicamente clasifican las aseveraciones conforme a la actitud que encuentren en aquéllas, sin expresar de modo alguno sus propias actitudes.

Por otra parte, el criterio de inadecuación atiende a los registros de los votos efectivos. La lista completa de 130 afirmaciones se imprimió y luego se expuso a los 300 sujetos, a quienes se pidió marcar las opiniones que aprobaran o con las cuales estuvieran de acuerdo, y que dejaran en blanco las restantes. Se pasó después a estudiar las respuestas en lo referente a su consistencia interna. Cuando encontramos gran inconsistencia, la atribuimos al descuido de los sujetos que acaso hacían sus marcas al azar, o a defectos de las propias aseveraciones. En los experimentos presentados se encuentran cierta cantidad de inconsistencia a lo largo de toda la lista; podemos atribuirla, indudablemente y por lo menos en parte, a los sujetos mismos. Pero las inconsistencias varían con la aseveración seleccionada como base de comparación de las restantes; y tales diferencias se deben, principal y evidentemente, a defectos de las aseveraciones mismas. Así se han considerado; y se desarrolla un criterio de inadecuación que puede usarse ampliamente para eliminar las afirmaciones inadecuadas de la escala.

Este criterio se desarrolla como sigue: supongamos que una afirmación de poca ambigüedad se ubica correctamente en el punto 6 de la escala. Si un sujeto tiene una actitud que también se colocó correctamente en el punto 6 de la escala, entonces esperamos que marque esa afirmación. Otro sujeto, que se colocó en el punto 12, con menor probabilidad marcaría esa afirmación; de manera similar habría una probabilidad pequeña de que un sujeto en el punto 0 marcara la aseveración colocada en el 6 de la escala. Para hacer este tipo de análisis cuantitativo, se ha desarrollado un índice más bien neto de semejanza, que se basa en la votación de un número grande de sujetos. El índice de semejanza de un par de aseveraciones se basa en tres hechos, a saber, n_a = total de sujetos que ratifican la aseveración a en la comparación; n_b = número total de sujetos que ratifican la afirmación b en la comparación; n_ab = número total de sujetos que ratifican tanto a como b.

Si las dos aseveraciones a y b son prácticamente iguales en cuanto a las actitudes que reflejan, entonces esperamos encontrar que los sujetos que ratifican la afirmación a también ratificarán la b. Por consiguiente, este factor n_ab será el numerador del índice de semejanza. Por otra parte, las aseveraciones varían considerablemente en popularidad intrínseca aun cuando sean colocadas en puntos idénticos de la escala. Cuanto más popular es una aseveración, tanto mayor es el número de personas que la ratifica, pero no así cualquier otra. Para reducir el índice de semejanza a la misma base de popularidad en todas las aseveraciones, se divide el número de sujetos que ratifican ambas aseveraciones entre el producto del número total de ratificaciones con respecto a cada una de las dos aseveraciones, de manera que el índice de semejanza es

n_ab/n_a• n_b

Si tabulamos los índices de la aseveración a con cada uno de las demás en forma sucesiva, tendremos el factor común 1/n_a que puede descartarse, pues es una constante. Entonces tendremos:

índice de semejanza de la aseveración: a = C_a= n_ab/n_b

Este índice sirve para comparar la aseveración a con cada una de las demás. Es evidente que el valor máximo posible de este índice es la unidad y su valor mínimo, cero. Cuando todas las personas que ratifican la aseveración a también ratifican la k, el índice de semejanza es la unidad como debería ser porque las dos aseveraciones son entonces evidentemente muy semejantes en las actitudes que reflejan. Si, por otra parte, ninguno de los que ratifican la aseveración a ratifica la k, entonces el índice es cero; esto se deduce de que las dos aseveraciones son entonces evidentemente muy diferentes en cuanto a las actitudes que describen.

En la figura 1 tenemos una representación gráfica de los índices de semejanza de la aseveración 96 con cada una de las demás, y en contraste con el valor escalar de cada una de ellas. El valor escalar de la aseveración 96 se indica por la pequeña flecha sobre la línea superior del diagrama. Su índice de semejanza consigo misma, en condiciones ideales, sería la unidad. Se observa inmediatamente que los índices de la aseveración 96, con cada una de las demás aseveraciones, son muy bajos cuando éstas están alejadas de ella. Y esto es precisamente lo que se esperaba. Dicho de otra manera, quienes ratificaron la aseveración 96, que se colocó en 10.5, no ratifican a menudo las aseveraciones que están en los intervalos de clase cuatro o cinco, en el otro extremo de la escala. Los índices son más altos cuando la segunda aseveración se acerca al valor escalar de la aseveración 96. Cada círculo pequeño en este diagrama representa el índice de semejanza entre la aseveración 96 y otra, y está colocado inmediatamente por encima del valor escalar de esa segunda aseveración.

El criterio de inadecuación se manifiesta en el diagrama entero. Cuando los índices de semejanza son relativamente altos, cerca del valor escalar de la aseveración común o primera, y relativamente bajos para las aseveraciones que están lejos de dicha aseveración, la primera aseveración se considera satisfactoria. Esto significa sencillamente que no es tan probable que las personas que ratifican la aseveración 96 ratifiquen también las aseveraciones que están más alejadas del valor escalar 96. El aspecto de la figura 1 se considera satisfactorio y por consiguiente se conserva la afirmación 96.

Veamos un análisis semejante de una aseveración que fue descartada por el criterio de inadecuación. En la figura 2 aparecen los índices de semejanza de la aseveración 23. El valor escalar de esta aseveración también se indica por una pequeña flecha sobre la línea superior del diagrama. Considérese el pequeño círculo en el extremo izquierdo del diagrama. Es el índice de semejanza entre la aseveración 23 y la 101, que tiene un valor escalar de .02. El índice es de .56. Los otros círculos se ubicaron de manera semejante y representan el grado de semejanza entre la aseveración 23 y cada una de las demás.

Observese que las personas que ratifican la aseveración 23 ratifiquen tanto las afirmaciones en cualquier extremo de la escala como las próximas a la afirmación 23. Los puntos se dispersan más o menos horizontalmente en el diagrama. Esto indica que hay algo fundamentalmente erróneo en la aseveración 23 como índice de una actitud particular en la escala. Dicho de otra manera, si una persona ratifica esta afirmación no podemos decir nada acerca de su actitud hacia la iglesia, porque es probable que ratifique no solamente las afirmaciones dentro del intervalo de clase 4-5, sino también las que están en los extremos de la escala, hasta donde puede juzgarse por la propia afirmación 23. La aprobación de esta aseveración no nos ayuda, sin embargo, a ubicar al sujeto en un punto de la escala.

En la aseveración original se afirmaba lo siguiente: "Estoy interesado en una iglesia que es bella y que destaca el lado estético de la vida". Ahora podemos ver por qué esta afirmación es inadecuada para la variable de actitud que intentamos medir. Sin duda, el miembro devoto de la iglesia puede ratificar conscientemente esta afirmación, pues le interesa que la iglesia sea bella. Pero el ateo también puede ratificar la aseveración porque pueden interesarle los edificios bellos, incluyendo las iglesias, y asimismo interesarle la música religiosa aunque no tome en serio las funciones inherentes a la iglesia. La actitud reflejada por la afirmación 23 no es válida, por consiguiente, como índice de la variable de actitud que está implícita en la lista de aseveraciones como un todo. El hecho de que los índices de la figura 2 se dispersen más o menos horizontalmente a través de la escala entera constituye la razón objetiva para descartar la aseveración 23.

Veamos otras muestras que revelan el criterio de inadecuación en otras aseveraciones. En la figura 3 se han dibujado los índices de semejanza dé la aseveración 7. Esta aseveración se colocó en el 8.2 de la escala y los índices tienen valores muy bajos en el otro extremo de la misma. Por consiguiente, esta aseveración se retuvo en la escala final.

La figura 4 presenta un dibujo semejante para la aseveración 113 donde los índices de semejanza tienen valores bajos para las segundas aseveraciones en la mitad superior de la escala. Todos los índices están por encima de .90 en varios de los primeros intervalos de clase. Por consiguiente, la afirmación se conservó para la escala final.

La figura 5 muestra un dibujo semejante para la afirmación 49. Aquí nuevamente los índices se dispersan más o menos horizontalmente a través de la escala entera y, por consiguiente, se descartó la afirmación 49. Veamos la aseveración original. Dice lo siguiente: "Yo creo que uno no tiene que pertenecer a la iglesia para ser religioso". Es muy posible que un miembro devoto de la iglesia ratifique esta afirmación. También es posible que la persona no religiosa la ratifique como una aseveración de hecho, aunque no tenga interés en la iglesia ni en la religión. Es de esperarse que la proporción de ratificaciones a esta aseveración sea más alta en el extremo contrario de la escala y aso es lo que encontramos en la figura 5, pero la discriminación no es de ninguna manera suficiente. Los índices tienen aproximadamente el mismo nivel a lo largo de la escala y, por consiguiente, se descarta la aseveración.

La figura 6 presenta una discriminación satisfactoria para la aseveración 50 porque los índices están por encima de .90 próximos al valor escalar de la aseveración 50, señalado por la pequeña flecha, y descienden a valores inferiores en el otro extremo de la escala. Por tanto la afirmación se conserva.

La figura 7 es la gráfica de la afirmación 9, la cual se descarta porque los índices de semejanza no presentan suficiente variación en las diferentes partes de la escala. En efecto, la afirmación dice: "No creo que ir a la iglesia perjudique a nadie". Aquí, podemos suponer otra vez, fácilmente, que el miembro devoto de la iglesia reconocerá la verdad de esta afirmación. El votante contrario a la iglesia también esté posiblemente dispuesto a reconocer que asistir a la iglesia no perjudica a nadie. Este último grupo no ratificará con tanta facilidad la aseveración como el primero; pero el examen del diagrama indica claramente que la discriminación es insatisfactoria. Las personas, a través de toda la escala, ratifican esta aseveración aunque tengan sentimientos o ideas completamente diferentes para hacerlo. La simple ratificación de esta aseveración no nos ayuda a ubicar al votante en la escala; y es por esto que la aseveración se considera inadecuada para la escala, la cual está representada por la lista entera de aseveraciones.

Indudablemente sería posible cuantificar el criterio de inadecuación de manera mejor. Sin embargo, es conveniente esperar a que se tenga una formulación más general.

Se han unificado dos criterios objetivos para la selección y ubicación de las aseveraciones de opinión, que son: el criterio de ambigüedad, ó sea el valor Q, que se basa en el grado de uniformidad en la clasificación de las aseveraciones, y el criterio de inadecuación, que se basa en la consistencia de la votación o ratificación efectiva. Estas dos partes fueron realizadas en dos grupos diferentes de sujetos.

Una aseveración puede ser clasificada uniformemente por todos los sujetos y, no obstante, ser declarada inapropiada por el criterio de inadecuación. Esto se explica de la siguiente manera: cuando leemos una aseveración y después juzgamos la actitud que representaría, podemos concordar completamente y entonces le asignamos un valor Q, bajo, a la aseveración. Cuando pedimos a los sujetos que ratifiquen ésta, encontramos que algunos que difieren ampliamente en sus actitudes tienen razones muy diferentes para hacerlo. Esto es particularmente probable cuando la aseveración puede considerarse ya como una expresión de actitud, ya como descripción de un hecho. Por ejemplo, el devoto de la iglesia probablemente no apoye la aseveración "Ir a la iglesia no perjudica a nadie". Una persona que apoye espontáneamente esa aseveración no es probable que sea un devoto de la iglesia. La situación es muy diferente cuando la aseveración es elaborada por algún otro y presentada para ratificación como si fuera verdadera o falsa. En tal situación, el devoto de la iglesia puede reconocer la aseveración como verdadera, aunque naturalmente no expresa con ello sus propias actitudes. Esta distinción entre lo que decimos espontáneamente al expresar nuestras actitudes y lo que estamos dispuestos a reconocer o ratificar cuando es expresado por algún otro, probablemente explique el hecho de que el criterio de ambigüedad y el criterio de inadecuación no siempre eliminan las mismas aseveraciones.

De manera ideal, la escala debería construirse quizá solamente por medio de votación. Es posible plantear el problema de modo que los valores escalares de las aseveraciones puedan extraerse de los registros de votación efectiva. Si esto fuera posible, el procedimiento presente para establecer los valores escalares por clasificación sería inútil.

CRITERIOS INFORMALES PARA LA SELECCIÓN DE OPINIONES

En esta escala de actitud, se han formulado una lista de criterios informales que se usarán en la construcción de futuras escalas de actitudes. Por medio de estos criterios se encuentra que muchas de las opiniones de la escala experimental presente son defectuosas, y hay que tenerlas presentes al comenzar la construcción de nuestra propia escala, que no tenga, hasta donde sea posible, los defectos que vamos a describir.

La lista siguiente contiene algunos criterios informales para la selección de opiniones en la elaboración de una escala de actitud; no está completa y posiblemente se opine que no son defectuosas algunas de las características siguientes.

1. Hasta donde sea posible, las opiniones deben reflejar la actitud presente del sujeto y no sus actitudes pasadas. Expresando las opiniones en tiempo presente se evita que un sujeto pueda ratificar dos opiniones conflictivas, una referente a su actitud pasada y otra a la actual. El valor escalar del sujeto describiría, naturalmente, su actitud presente.

2. Se ha encontrado que las aseveraciones de significado doble tienden a ser ambiguas. El material debe redactarse de tal manera que cada opinión exprese hasta donde sea posible solamente un pensamiento o idea. El sujeto se confunde al leer una aseveración de doble significado en la que desea ratificar una idea pero no la otra. Ejemplo: "Yo creo en los ideales de la iglesia, pero estoy fastidiado de sectas". Tal vez esta afirmación fuera más útil si se dividiera en dos opiniones.

3. Uno debe evitar las afirmaciones que son aplicables evidentemente á un grupo muy restringido de sujetos. Ejemplo: "Yo voy a la iglesia porque me gusta la buena música". "Estoy en el coro y aprendo música y cantos corales". La primera aseveración puede ser ratificada por un grupo amplio de sujetos, pero la segunda pueden ratificarla solamente quienes son miembros del coro de una iglesia. Probablemente no vale la pena incluir, en una escala, opiniones que estén limitadas de ese modo por características relativas a hechos precisos. Lo que deseamos medir es la actitud y para hacerlo debemos evitar una influencia tan marcada en la amplitud de los posibles ratificadores. La afirmación precedente acaso mejoraría mucho para nuestros propósitos si solamente se mantuviera la primera afirmación, para incluirla en una escala.

4. Cada opinión elegida para la escala de actitud debería ser, preferentemente, de tipo tal que no pudieran ratificarla los sujetos de ambos extremos de la tabla. Tales opiniones serían eliminadas por los criterios objetivos; pero cuando este defecto es conspicuo la afirmación puede descartarse desde el principio. Probablemente siempre habría, además, cierto número de opiniones de la lista que tengan este defecto y que no sean reconocidas cuando las lee el investigador. Posteriormente, cuando son descartadas por los criterios objetivos, resulta generalmente fácil saber por qué fueron eliminadas estas aseveraciones. Dicho de otra manera, es más fácil tener una base objetiva para descartar una aseveración y después, al examinarla, ver por qué se descartó, que descubrir estas aseveraciones defectuosas mediante la lectura de la lista completa de aseveraciones originales.

5. Hasta donde sea posible, las aseveraciones, no deben contener conceptos relacionados y confusos. En el material de la escala de actitud presente tenemos varias aseveraciones que mencionan a la "religión verdadera" y a "la religión de Jesús". Probablemente es difícil interpretar estas aseveraciones, porque además de las afirmaciones acerca de la iglesia contienen conceptos relacionados que deberían evitarse siempre que sea posible. Ejemplo: "Yo creo que la iglesia permite las diferentes sectas para aparecer más grande que la religión verdadera". Una aseveración de este tipo puede reelaborarse para que solo se refiera a las diferencias de secta, demasiado recalcadas por las iglesias, según se afirma, sin incluir la incertidumbre de interpretación de la frase "religión verdadera".

6. Si las demás cosas son iguales, debe evitarse la jerga, respectiva excepto cuando sirva al propósito de describir una actitud en forma mas breve de la que podría lograrse de otra manera. Por ejemplo, decir que la mayoría de los sermones son "pura habladuría" puede justificarse si se considera una manera natural de expresar la actitud que se va a representar en la escala.

subir índice

Artículo noviembre 2007

MEDIDA DE LAS ACTITUDES

UNIDAD DE MEDIDA PARA LAS ACTITUDES

La única manera como podemos identificar las actitudes diferentes (los puntos en la línea base) es utilizando un conjunto de opiniones como marcas, en las diferentes partes o pasos de la escala. La escala final consistirá entonces en una serie de aseveraciones de opinión; y cada una de ellas estará ubicada en un punto particular en la línea base. Si comenzamos con suficientes aseveraciones quizá podamos seleccionar una lista de 20 0 30 opiniones escogidas, de manera que representen una serie de actitudes graduadas de manera uniforme. La separación entre las aseveraciones de opinión sucesivas sería entonces uniforme; pero la escala puede construirse también con una serie de opiniones ubicadas en la línea base aunque sus separaciones sean desiguales. Sin embargo, con el propósito de dibujar distribuciones de frecuencia, es conveniente que los pasos entre las aseveraciones escogidas sean uniformes por la amplitud entera de la escala.

Considérense las tres aseveraciones a, c y d en la figura 1. Las aseveraciones c y a se colocan muy juntas para indicar su extrema semejanza, mientras que las aseveraciones c y d se colocan con gran separación entre sí para apuntar lo diferentes que son. Es de esperarse que dos individuos colocados en los puntos c y a, respectivamente, concuerden extremadamente al discutir sobre pacifismo y militarismo. Por otra parte, pensamos que es muy fácil expresar la diferencia que hay entre las opiniones de una persona en d y otra en c. Las separaciones escalares de las opiniones deben concordar con nuestras impresiones de ellas.

Para determinar lo separadas que deben estar las aseveraciones en la escala final, las aplicamos a un grupo de varios cientos de personas, a quienes pedimos que ordenen las aseveraciones desde la más pacifista hasta la más militarista. No les preguntamos sus propias opiniones. Ese es un asunto por entero diferente. Lo que nos interesa es la elaboración de una escala con una unidad válida de medida. Puede haber cien aseveraciones en la lista original y se pide a varios cientos de personas que solamente arreglen las aseveraciones en orden jerárquico conforme a la variable de actitud señalada. Después es posible determinar la proporción de sujetos que consideran la afirmación a más militarista que la c. Si las dos afirmaciones representan actitudes muy similares, no debemos esperar un acuerdo perfecto en el orden jerárquico de las afirmaciones a y c. Si son idénticas en actitud, habrá cerca del 50% de sujetos que digan que la aseveración a es más militarista que la c, mientras que el otro 50% dirá que la aseveración c es más militarista que la a. Es posible usar la proporción de sujetos o jueces que coincidieron con respecto al orden jerárquico de dos afirmaciones cualesquiera como base de la medición efectiva.

Si el 90% de los jueces o sujetos dicen que la afirmación a es más militarista que la b (p_a>b = .90) y si solamente el 60% de los jueces dicen que la afirmación a es más militarista que la c(p_a>c =.60), entonces la separación escalar (a - c) es más corta que la separación escalar (a-b).La separación entre dos estímulos cualesquiera en la escala psicológica puede medirse con base en una ley del juicio comparativo.

Los métodos pormenorizados de manejo de los datos se publicarán conjuntamente con la construcción de cada escala particular. El resultado práctico de este procedimiento es una serie de aseveraciones de opinión colocadas a lo largo de la línea base de la figura 1. La interpretación de las distancias de la línea citada consiste en que la diferencia aparente entre dos opiniones cualesquiera será igual a la diferencia aparente entre otras dos opiniones cualesquiera que estén igualmente espaciadas en la escala. Dicho de otra manera, el cambio de opinión representado por la distancia de una unidad en la línea base parece ser, para la mayoría de las personas, igual al cambio de opinión representado por la distancia de una unidad en cualquiera otra parte de la escala. Los dos individuos que están separados por determinada distancia en la escala parecen diferir en sus actitudes, tanto como otros dos individuos cualesquiera que tengan la misma separación escalar. En este sentido, tenemos una línea base verdaderamente racional; y los diagramas de frecuencia erigidos en tal línea base son susceptibles de interpretación legítima como superficies de frecuencia.

En contraste con semejante línea base o escala racional está el sencillo procedimiento de enumerar solamente de diez a veinte opiniones, hacer que unos cuantos jueces las ordenen jerárquicamente, para después contar simplemente el número de adhesiones a cada aseveración. Esto puede hacerse, desde luego, siempre que no se interprete el diagrama resultante como una distribución de frecuencia de actitud. Si el diagrama se interpreta de esta manera, puede tomar cualquier forma que queramos con sólo agregar nuevas aseveraciones o eliminar algunas, arreglando la lista resultante en orden jerárquico aproximado, y uniformemente espaciado en la línea base. Los diagramas de opiniones de Allport no son en ninguna forma distribuciones de frecuencia. Deben considerarse como diagramas de barras donde se presenta la frecuencia con que fue respaldada cada una de las aseveraciones. Este método ha mejorado el procedimiento de Allport. Este trata virtualmente con órdenes jerárquicos, en este se pretende transformar en medida, con una unidad racional de medida. Los estudios pioneros de Allport en este campo deben ser leídos por todos los investigadores de este problema.

La unidad de medida de la escala de actitudes es la desviación estándar de la dispersión proyectada en la escala psicofísica de actitudes, por una aseveración de opinión, seleccionada como estándar. No importa qué afirmación se escoja como estándar; las escalas producidas por diferentes aseveraciones estándares tienen valores escalares proporcionales. Esta unidad mental de medida es aproximadamente semejante, pero no idéntica, a la llamada "diferencia apenas notable" de la medición psicofísica.

Puede elaborarse un diagrama semejante al de la figura 1 por lo menos de dos maneras diferentes. Puede hacerse que el área de la superficie de frecuencia represente al número total de votos o adhesiones de un grupo de personas, o bien puede representar el número total de individuos del grupo estudiado. Los diagramas de Allport se harían con el último principio si fueran elaborados sobre una línea base racional, de modo que pudiera medirse un área legítima. A cada sujeto se le pediría que seleccionara de la lista la aseveración que fuese más representativa de su propia actitud. En tal caso, por lo menos la suma de las ordenadas sería igual al número de personas del grupo. En este procedimiento se pide a cada sujeto que ratifique todas las afirmaciones con las que esté de acuerdo. Como se tiene una línea base racional, podemos inferir legítimamente que el área de la superficie equivale al número total de ratificaciones hechas por el grupo. Este procedimiento tiene la ventaja de que determina la amplitud de opinión que es aceptable para cada persona, lo cual tiene considerable interés, y no puede determinarse pidiendo al sujeto que ratifique solamente una de las aseveraciones de la lista. Las ordenadas del diagrama de frecuencia pueden dibujarse como proporciones del grupo total. Por consiguiente, se interpretarán como la probabilidad de que la aseveración dada sea ratificada por un miembro del grupo. En otras palabras, el diagrama de frecuencia describe la distribución de actitud del grupo completo; y la ordenada de cada punto de la línea base representa la popularidad relativa de esa actitud.

CONSTRUCCIÓN DE UNA ESCALA DE ACTITUD

Se han construido fundamentalmente tres escalas para medir la opinión por los principios descritos. Estas tres escalas se han diseñado para medir las actitudes en función de tres variables diferentes, a saber, pacifismo-militarismo, prohibición del alcohol y actitud hacia la iglesia. Dichas escalas se han construido por un procedimiento menos laborioso que aquel que aplica directamente la ley del juicio comparativo; en caso de obtenerse resultados consistentes, el nuevo método se hará extensivo a otras escalas.

El método es el siguiente. A varios grupos de personas se les pide que escriban sus opiniones sobre el asunto en cuestión; y se buscan en la bibliografía existente aseveraciones adecuadas y breves que puedan servir a los fines de la escala. Al editar este material se prepara una lista de 100 a 150 aseveraciones expresivas de actitudes que cubran lo mejor posible todas las graduaciones desde un extremo a otro de la escala. Algunas veces es necesario conceder atención especial a las aseveraciones neutras. Si una colección al azar de aseveraciones de opinión fallara en producir reactivos neutros existiría el peligro de que la escala se dividiera en dos partes. La amplitud total de actitudes debe cubrirse en toda su extensión, por lo que toca al estudio preliminar, a fin de asegurar que los órdenes jerárquicos de los diferentes lectores se traslapen a lo largo de la escala.

En la elaboración de la lista inicial de aseveraciones se aplican varios criterios prácticos en el primer trabajo de edición. Algunos de los criterios más importantes son los siguientes:

a) Las afirmaciones deben ser lo más cortas posible de manera que no fatiguen a los sujetos a quienes sé pida que lean la lista completa.

b) Las afirmaciones deben ser de tal tipo que puedan ser secundadas o rechazadas conforme a su concordancia o discrepancia con la actitud del lector. Algunas aseveraciones de una muestra al azar estarán redactadas de manera que el lector no pueda expresar ratificación o rechazo definido de ellas.

c) Cada aseveración debe prever que su aceptación o rechazo indique algo con respecto a la actitud del lector acerca del asunto en cuestión. Si, por ejemplo, se hace la afirmación de que la guerra es un aliciente para el genio inventivo, su aceptación o rechazo no dice nada con respecto a las tendencias pacifistas o militaristas del lector; puede éste considerar que la afirmación es un hecho indiscutible y simplemente la ratifica como un hecho, en cuyo caso tal respuesta no revela nada acerca de la propia actitud sobre el asunto. Sin embargo, solamente los ejemplos conspicuos de este efecto se eliminarían por análisis, porque se dispone de un criterio objetivo para descubrir tales afirmaciones, a. modo de eliminarlas automáticamente de la escala. El juicio personal debe reducirse al mínimo posible en este tipo de trabajo.

d) Las afirmaciones de doble significado deben evitarse excepto, quizá, como ejemplos de neutralidad cuando no parezca fácil obtener mejores afirmaciones neutras. Las afirmaciones de doble significado tienden a ser muy ambiguas.

e) Es necesario asegurarse de que por lo menos una rotunda mayoría de las afirmaciones pertenece realmente a la variable de actitud que se va a medir. Si se dejara en la serie un pequeño número de afirmaciones impropias ya sea en forma intencional o no intencional, aquéllas serían eliminadas automáticamente por un criterio objetivo; pero este no tendría éxito a menos que la mayoría de las afirmaciones formaran parte claramente de la variable estipulada.

Cuando la lista original se edita teniendo presentes estos criterios, quedan quizás de 80 a 100 aseveraciones, con las cuales formar una escala eficaz. Las aseveraciones resultantes se imprimen después en pequeñas tarjetas, a razón de una por tarjeta. Se pide a 200 o 300 sujetos que arreglen las aseveraciones en 11 grupos que vayan desde las opiniones completamente afirmativas hasta las completamente negativas. Las instrucciones detalladas se publicarán junto con la descripción de las escalas separadas. La tarea consiste esencialmente en clasificar las pequeñas tarjetas en 11 grupos de manera que parezcan estar igualmente espaciadas o graduadas. Solamente se rotulan los dos grupos extremos y el de en medio. Este último se destina a las opiniones neutrales. El lector debe decidir, sobre cada aseveración, cuál de los cinco grados subjetivos de afirmación o de negación es el implicado en ella, o, en su caso, si se trata de una opinión neutra.

Concluida la clasificación realizada por los 200 o 300 lectores, se prepara un diagrama similar al de la figura 2. Vamos a estudiarlo en una escala de pacifismo-militarismo a manera de ejemplo. En la línea base de este diagrama están representados los 11 intervalos aparentemente iguales de la variable de actitud. El intervalo neutral es el comprendido entre 5 y 6; el intervalo más pacifista va de 0 a 1 y el más militarista de 10 a 11. El diagrama es ficticio y se ha dibujado únicamente para ilustrar el principio que se aplica. La curva A indica la manera como podría ser clasificada una de las aseveraciones por parte de los 300 lectores. Ninguno la clasificó debajo del valor 3; la mitad de los lectores lo hizo por debajo del valor 6; y la totalidad, por debajo del valor 9. El valor escalar de la aseveración es el valor por debajo del cual fue colocada justamente por la mitad de los lectores. En otras palabras, el valor escalar asignado a la aseveración se selecciona de manera que la mitad de los lectores lo consideran más militarista que el valor asignado y la otra mitad menos militarista que el mismo valor. El cálculo numérico del valor escalar es similar al cálculo del umbral por medio de la hipótesis fi-gama en la medición psicofísica.

Habrá de notarse que algunas de las aseveraciones en los extremos de la escala no dan curvas ojivales completas; es por esto que la aseveración C está incompleta en el diagrama. Se comporta como si, para completarse, necesitara espacio más allá de los límites arbitrarios de la escala. Sin embargo, su valor escalar puede determinarse por aquél donde la curva fi-gama dibujada a través de las proporciones experimentales atraviesa el nivel del 50% que está en c. Pueden encontrarse otras aseveraciones, tales como D, que tienen valores escalares más allá de la amplitud arbitraria de la escala. También se les pueden asignar valores escalares, aunque menos exactos por el mismo procedimiento.

La situación es diferente en el otro extremo de la escala. La aseveración E tiene su valor escalar en e, pero, teniendo la escala el límite en el punto 11, la proporción experimental será de 1.00 en ese punto. Si la escala continuara más allá del punto 11, las proporciones continuarían elevándose gradualmente como lo indica la línea interrumpida. Las proporciones experimentales son todas, necesariamente, de 1.00 para el valor escalar 11 y, por consiguiente, esas proporciones finales deben ignorarse al ajustar las curvas fi-gama y al localizar los valores escalares de las aseveraciones.

VALIDEZ DE LA ESCALA

a) La escala debe trascender al grupo medido. Antes de aplicarse, este método de medición debe someterse a una prueba experimental decisiva, después de la cual pueda aceptarse su validez. Un instrumento de medida no debe ser afectado seriamente por el objeto, en su función de medir. En el mismo grado en que su función de medir resulte afectada o dañada, se limitará su validez. Si una regla de una medida diferente por el mero hecho de que lo que midió fue una alfombra, un cuadro o un pedazo de papel, entonces, en el grado de tal diferencia, estaría dañada la fidelidad de aquélla en tanto que instrumento de medida. La función del instrumento de medida debe ser independiente de cada uno de los miembros de la clase de objetos para la que fue diseñada.

Es preciso también que determinemos la amplitud de nuestro método para medir actitudes. La construcción y la aplicación de una escala de actitudes son dos tareas muy diferentes, cosa que debe tenerse en cuenta. Si la escala ha de ser válida, los valores escalares de las aseveraciones no deben ser afectados por las opiniones de quienes hayan colaborado en su construcción. Tal condición puede constituir una severa prueba en la práctica; pero el método de elaboración de escalas debe cumplir con dicho requisito para que merezca aceptarse como algo más que una simple descripción de la propia persona que la haya construido. De cualquier modo, en la misma proporción en que el método para elaborar la escala se vea afectado por las opiniones de los lectores que hayan contribuido a clasificar las aseveraciones originales, así podrá cuestionarse la validez o universalidad de la escala. Hasta no estar en poder de la prueba experimental al respecto, daremos por sentado que los valores escalares de las aseveraciones son independientes de la distribución de actitud, propia de los lectores que las clasifican. En otras palabras, nuestra suposición consiste en que dos afirmaciones de una escala de prohibición del alcohol serán tan fáciles o tan difíciles de discriminar, tanto para las personas que ingieran esa bebida como para las que no la ingieran. Dadas, pues, dos aseveraciones contiguas de tal escala, suponernos que la proporción de bebedores que manifiestan que la aseveración a expresa más simpatía hacia el alcohol que la aseveración b será esencialmente igual a la proporción correspondiente a las mismas aseveraciones, pero desde el punto de vista de un grupo de abstemios. Expresando aún de otra manera nuestra suposición, diremos que tan difícil es para un militarista convencido como para un pacifista intransigente decidir cuál de dos aseveraciones es la más promilitarista. Si declaramos que el 85% de los militaristas señala que la afirmación A es más militarista que la B, entonces, conforme a nuestro postulado fundamental, la misma proporción de pacifistas emitiría el mismo juicio. Y de ser correcta esta suposición, hallaremos, en consecuencia, que la escala es un instrumento de medición independiente de la actitud que se pretende evaluar.

La prueba experimental de esta suposición consiste sencillamente en elaborar dos escalas referentes al mismo asunto y con el mismo conjunto de aseveraciones. Una de dichas escalas se construiría con las respuestas de cientos de lectores simpatizantes del militarismo; y la otra escala, con las mismas aseveraciones, pero partiendo de las respuestas de otros varios cientos de pacifistas. Si los valores escalares de cada aseveración arrojan, prácticamente, resultados iguales en ambas escalas, la validez del método quedará así correctamente establecida. Pero todavía será necesario usar discretamente las escalas de opinión, habida cuenta de que podrían obtenerse, por ejemplo, resultados extraños con la escala de prohibición en un país donde la prohibición del alcohol no sea un problema.

b) Un criterio objetivo de ambigüedad. El análisis de las curvas de la figura 2 revela que algunas de las aseveraciones del diagrama ficticio son más ambiguas que otras. El grado de ambigüedad de una aseveración se aprecia de inmediato y puede medirse con precisión. La ambigüedad de una aseveración es la desviación estándard de la curva fi-gama de mejor ajuste, a través de las proporciones observadas. Cuanto mayor es la pendiente de la curva tanto menor es la amplitud de la escala sobre la cual hicieron su labor de clasificación los lectores y más clara y más precisa es la aseveración. Cuanto más suave es la pendiente de la curva, tanto más ambigua es la aseveración. De ahí que de las dos aseveraciones, A y B, del diagrama ficticio, la aseveración A sea la más ambigua.

En el caso de que se encuentre que la función fi-gama no describe adecuadamente las curvas de proporciones de la figura 2, el grado de ambigüedad puede medirse sin postular que las proporciones siguen la función fi-gama cuando se dibujan en la escala de actitud. Un método simple para medir la ambigüedad sería entonces determinar la distancia escalar entre el valor escalar donde la curva de proporciones tiene una ordenada de .25 y el valor escalar donde la misma curva tiene una ordenada de .75. También puede definirse el valor escalar de la aseveración misma sin suponer la función fi-gama, tomando el valor escalar donde la curva de proporciones llega a .50. Si no se encuentra proporción real en ese valor, puede interpolarse el valor escalar de la aseveración entre las proporciones experimentales inmediatamente por encima y por debajo del nivel de .50. Para hacer una escala de las aseveraciones cuyos valores escalares caen fuera de las diez divisiones de aquella, será necesario hacer algunas suposiciones con respecto a la naturaleza de la curva y probablemente se encuentre que en la mayoría de las situaciones la función fi-gama constituye una buena aproximación a la verdad.

c) Un criterio objetivo de inadecuación. Antes de que pueda hacerse la selección de los reactivos para la escala final, todavía debe aplicarse otro criterio: el criterio objetivo de inadecuación. Volviendo a la figura 1, consideremos dos afirmaciones que tengan valores escalares idénticos en el punto f. Supongamos, además, que estas dos afirmaciones se sometieron al juicio de grupo de lectores representados en el diagrama ficticio de la misma figura. Es completamente concebible, y sucede realmente, que una de estas afirmaciones sea secundada muy frecuentemente mientras que la otra solo lo sea rara vez, a pesar de que se hayan colocado adecuadamente en la escala, e impliquen el mismo grado de pacifismo o militarismo. La conclusión inevitable entonces es que la aprobación que un lector da a estas afirmaciones está determinada sólo parcialmente por el grado de pacifismo implicado y parcialmente por otros significados también implicados que pueden o no estar relacionados con la variable de actitud considerada. Es necesario, ahora, desde luego, seleccionar para la escala final de actitud las afirmaciones que son aprobadas o rechazadas fundamentalmente con base en el grado de pacifismo-militarismo que está implícito en ellas y eliminar aquéllas que son aceptadas o rechazadas frecuentemente según otros significados inadecuados más o menos sutiles.

Se dispone de un criterio objetivo para realizar esta eliminación automáticamente y sin introducir la ecuación personal del investigador. Fundamentalmente es el siguiente: suponemos que la lista total de alrededor de 100 afirmaciones se ha sometido a varios cientos de lectores para votación efectiva. No necesitan ser los mismos lectores que clasificaron las afirmaciones con el propósito de formular la escala. Se pide a estos lectores que marquen con un signo de más cada afirmación que ratifiquen y con un signo de menos cada afirmación que rechacen.

Si deseamos investigar el grado de inadecuación de una afirmación particular que, por ejemplo, podría tener un valor escalar de 4.0, en la figura 3, debemos primero determinar cuántos lectores la aprobaron. Encontramos, por ejemplo, que fueron 260 lectores. Este total se representa en el diagrama como el 100%, y levantamos tal ordenada en el valor escalar de dicha afirmación. Ahora podemos determinar la proporción de estos 260 lectores que también ratificaron cada una de las demás afirmaciones. Si los lectores aprobaron y rechazaron las afirmaciones basándose mayormente en el grado de pacifismo militarismo implicado, entonces los lectores que ratificaron afirmaciones próximas a 4.0, en la escala, no ratificarán a menudo las afirmaciones que están muy lejos de ese punto de la escala. Siguiendo el ejemplo, muy pocos ratificarían una afirmación que está ubicada en el punto 8.0 de la escala. Si una gran proporción de los 60 lectores que ratifican la aseveración básica en el 4.0 de la escala, también ratifica una afirmación en el punto 8.0 de la misma, debemos inferir entonces que su votación en estas dos afirmaciones ha sido influida por factores diferentes al grado de pacifismo implicado por dichas afirmaciones. Es posible representar gráficamente este tipo de análisis.

En este diagrama, cada una de las demás afirmaciones se representará por un punto. Su valor "x" será el valor escalar de la afirmación y su valor "y" será la proporción de los 260 lectores que la hayan aprobado. Por tanto, si de los 260 lectores que ratificaron la afirmación básica hubiera 130 que ratificaron la afirmación número 14, que tiene un valor escalar 5.0, por ejemplo, entonces la afirmación número 14 estará representada por el punto A de la figura 3.

Si la afirmación básica, cuyo grado de inadecuación está representado en la figura 3, es de carácter ideal, que la gente aceptará o rechazará debido principalmente a la actitud sobre el pacifismo que expresa, debemos esperar entonces que las 100 afirmaciones se representen por puntos más o menos elevados cerca de la línea interrumpida de la figura 3. Es obvio que el diagrama puede estar más contraído o más extendido, pero su aspecto general sería el de la figura 3. Si, por otra parte, la afirmación básica tiene implicaciones que conducen a su aceptación o rechazo, y son aquéllas completamente independientes del grado de pacifismo que expresan, hallaremos que la proporción de ratificaciones de las aseveraciones no sería una función continua de sus distancias escalares desde la afirmación básica. Así que el centenar de puntos podría dispersarse ampliamente en el diagrama. Este criterio de inadecuación es objetivo y probablemente pueda expresarse en forma algebraica precisa para eliminar totalmente la ecuación personal del investigador.

Se han desarrollado otros dos criterios objetivos de inadecuación. Se describirán junto con las escalas de actitudes que se están elaborando.

RESUMEN DEL MÉTODO DE ELABORACIÓN DE ESCALAS

Es posible ahora seleccionar las aseveraciones que habrán de incluirse en la escala final. Para una aplicación eficaz, debe seleccionarse una lista corta de 20 0 30 aseveraciones. Hemos descrito ya tres criterios para efectuar la selección mencionada. Estos criterios san:

1. Las aseveraciones de la escala final deben seleccionarse de manera que constituyan al máximo posible una serie graduada y uniforme de valores escalares.

2. Por medio del criterio objetivo de ambigüedad, se eliminan las afirmaciones que proyecten demasiada dispersión en el continuo de actitud. La medida objetiva de ambigüedad es la desviación estándar de la curva fi-gama, de mejor ajuste, que se ilustra en la figura 2.

3. Mediante los criterios objetivos de inadecuación, es posible eliminar, las afirmaciones cuya aceptación o rechazo provenga principalmente de factores diferentes al grado de la variable de actitud que representan. Uno de estos criterios se ilustra en la figura 3.

Los pasos para elaborar una escala de actitud pueden resumirse de la manera siguiente:

1. La especificación de la variable de actitud que se va a medir.

2. La recolección de una amplia variedad de opiniones acerca de la variable de actitud especificada.

3 La edición de este material en una lista de alrededor de cien breves aseveraciones de opinión.

4. La clasificación de las aseveraciones en una escala imaginaria que represente a la variable de actitud. Esta tarea deben realizarla cerca de 300 lectores.

5. Cálculo del valor escalar de cada aseveración.

6. Eliminación de algunas aseveraciones con el criterio de ambigüedad.

7.Eliminación de algunas aseveraciones con los criterios de inadecuación.

8. Selección de una lista pequeña de cerca de 20 aseveraciones graduadas uniformemente en la escala.

MEDICIÓN CON UNA ESCALA DE ACTITUD

La aplicación práctica de la técnica de medida presente consiste en mostrar la lista final de alrededor de 25 aseveraciones de opinión al grupo de interés, pidiéndoles a los sujetos que marquen con signos de más todas las aseveraciones con las que estén de acuerdo y con signos de menos aquéllas con las que discrepen. La calificación de cada persona es el valor escalar promedio de todas las afirmaciones que ha ratificado. Con el fin de que la escala sea efectiva en los extremos, es aconsejable que se extiendan las aseveraciones de la escala en ambas direcciones, mucho más allá de las actitudes que se encontrarán como valores medios de los individuos. Una vez determinada la calificación de cada persona, por la simple suma indicada, puede dibujarse una distribución de frecuencia con respecto a las actitudes de cualquier grupo especificado.

La confiabilidad de la escala puede determinarse preparando dos formas paralelas del mismo material y presentándolas a los mismos individuos. La correlación entre las dos calificaciones obtenidas por cada persona de un grupo indicará, entonces, la confiabilidad de la escala. Puesto que la heterogeneidad del grupo afecta al coeficiente de confiabilidad, es necesario especificar la desviación estándar de las puntuaciones del grupo donde se determinó el coeficiente de confiabilidad. También puede calcularse, por un procedimiento análogo, el error estándar de una puntuación individual.

La unidad de medida de la escala construida por el procedimiento descrito no es e{ error estándar discriminativo proyectado por una sola aseveración en el continuo psicológico. La unidad de medida puede obtenerse por la aplicación directa de la ley del juicio comparativo, aunque esto es mucho más laborioso que por el método descrito aquí. La unidad de fa escala presente es más arbitraria, a saber, un décimo de la amplitud del continuo psicológico que cubre la distancia que hay entre lo que los lectores consideran la ratificación y la negación absolutas de la lista particular de afirmaciones iniciales. Por supuesto, pueden determinarse los valores escalares junto con la confiabilidad de partes fraccionarias de esta unidad. Esperamos que pueda demostrarse experimentalmente que esta unidad es proporcional a una unidad de medida más precisa y universal que el error estándar universal de una sola aseveración de opinión.

Es lícito determinar la tendencia central de la distribución de frecuencia de las actitudes en un grupo. Después pueden compararse varios grupos de individuos con respecto a las medias de sus distribuciones de frecuencias respectivas de actitudes. Las diferencias entre las medias de las diferentes distribuciones pueden compararse directamente porque se ha establecido una línea base racional. Estas comparaciones no son posibles cuando se determinan las actitudes contando simplemente el número de ratificaciones para separarlas de las afirmaciones cuyas diferencias escalares no se han medido.

Además de especificar la media de actitud de cada uno de los diferentes grupos, también es posible medir su relativa heterogeneidad con respecto al asunto considerado. Es posible así, por medio de nuestros actuales métodos de medida, descubrir, por ejemplo, que un grupo es 1.6 veces más heterogéneo en sus actitudes acerca de la prohibición del alcohol que algún otro grupo. La heterogeneidad de un grupo se indica quizá mejor por la desviación estándar de los valores escalares de todas las opiniones que fueron ratificadas por el grupo como un todo y no por la desviación estándar de la distribución de las puntuaciones individuales medias. Quizás tengan que adoptarse nombres diferentes para estos dos tipos de medida.

La tolerancia que una persona revela en cualquier asunto particular también se puede sujetar a medición cuantitativa Es la desviación estándar de los valores escalares de las afirmaciones que ratifica. La tolerancia máxima posible es, naturalmente, la indiferencia completa, en la que todas las aseveraciones son ratificadas a lo largo de la amplitud entera de la escala.

Si se desea saber cuál de dos formas de apelación es la más efectiva en un asunto particular, puede determinarse usando la escala antes y después de aquéllas. La diferencia entre las puntuaciones individuales, antes y después, puede tabularse para medir el cambio promedio de actitud después de cualquier forma concreta de apelación.

La característica esencial del presente método de medida es la escala de opiniones, graduadas uniformemente, y ordenadas de manera que los pasos o intervalos iguales de la escala parezcan representar, para la mayoría de la gente, cambios igualmente notables de actitud.

subir índice

Artículo octubre 2007

LAS ACTITUDES PUEDEN MEDIRSE

GENERALIDADES

Fundándose en su experiencia en la medición de capacidades y rasgos, Thurstone propuso un método para medir la actitud. Se dijo que las aseveraciones de opinión simbolizaban las actitudes y estas podían medirse desarrollando escalas con tal tipo de aseveraciones. Con tales escalas los individuos podrían diferenciarse con respecto a sus actitudes de la misma manera que se podían determinar las diferencias individuales en inteligencia, capacidades o rasgos. Y así, en el principio de la historia de la medición de actitudes, Thurstone adoptó una posición que favorecía el uso de muestras de informes sobre sí mismo. Debido quizá al gran aprecio que los psicólogos tenían a Thurstone y a la creciente popularidad del operacionalismo entre los psicólogos, la técnica de aquel se adoptó rápidamente. También es importante hacer ver que su procedimiento de elaboración de escalas incorporó técnicas establecidas de la psicofísica.

El método de Thurstone, para elaborar escalas de actitud contenía varías suposiciones estadísticas no verificadas, por lo que su aplicación resultó en extremo laboriosa. En 1932, Likert publicó una monografía que procuró superar estas dos dificultades. Propuso un método más sencillo que no requería el empleo de suposiciones estadísticas sin verificar.

Si el método de Likert es adecuado, tal vez superior y alterno al método de Thurstone, ha sido asunto de discusión desde que apareció la citada monografía de Likert. Por desgracia, como a menudo ocurre en tales cuestiones, no hay corroboración empírica que pueda usarse para esclarecer el punto. Seiler y Hough han emprendido la búsqueda de tales pruebas empíricas. Mientras que persiste claramente la necesidad de investigación adicional antes de que la cuestión pueda resolverse, parecen estar ya esclarecidos dos asuntos:

a) "el método de Likert de calificación de una escala de actitud, con determinado numero de reactivos, produce consistentemente resultados más confiables que el método de Thurstone para calificar la escala"

b) el método de Likert para elaborar y calificar la escala requiere menos reactivos y produce la misina confiabilidad que el método de Thurstone.

Un psicólogo dijo una vez que, sin las dos guerras mundiales, la psicología social habría muerto en la infancia. Sea o no cierta esta afirmación, mientras estaba asignado al Departamento del Ejército el sociólogo Louis Gutman ideó un método de elaboración de escalas que se basa en suposiciones completamente diferentes a las de Thurstone y de Likert, además de tener un uso más diversificado. Su popularidad es mayor entre los investigadores de la actitud, pero es adecuado para medir por escala muchos otros universos de objetos.

Una de las limitaciones de los métodos de Thurstone y de Likert es que pueden obtenerse calificaciones idénticas de varias maneras. Así, no puede afirmarse que personas con la misma calificación, ya sea en una escala de Thurstone o de Likert, tengan la misma actitud. El método de elaboración de escalas, de Guttman, supera esta limitación, Conociendo la puntuación de una persona, en una escala perfecta de Guttman, es posible reproducir la estructura entera de las respuestas de la persona a los reactivos de la escala. Esto se debe a que los reactivos están ordenados por nivel de dificultad y la puntuación de la escala representa el nivel donde se falló. Desafortunadamente, las escalas perfectas de Guttman nunca se logran en la práctica. Por consiguiente, es necesario estimar el error de reproductibilidad. Desde la primera presentación de los procedimientos de construcción de escalas de Guttman, se han hecho muchos esfuerzos para extender, modificar y afinar el método, así como desarrollar técnicas más eficientes y sencillas con el mismo propósito.

La discriminación escalar, desarrollada por Edwards y Kilpatrick. Es una técnica "nueva" solamente porque combina los métodos de Thurstone, Likert y Guttman. Sostienen que los métodos de Thurstone y Likert proporcionan la base para seleccionar los reactivos que se incluyen en una escala, mientras que el método de Guttman permite evaluar los reactivos; presentan también un procedimiento para seleccionar reactivos, primero, por el método de jueces, de Thurstone, y después, sometiendo los reactivos conservados a los criterios de selección de Likert. Los reactivos que satisfacen ambos grupos de criterios se examinan, finalmente, en cuanto a su reproductibilidad.

LA POSIBILIDAD DE MEDIR LAS ACTITUDES

El propósito de este trabajo es estudiar el problema de la medición de actitudes y opiniones, con miras a ofrecer una solución. El mismo hecho de ofrecer una solución a un problema tan complejo como el de medir las diferencias de opinión o actitud sobre asuntos sociales en disputa, hace evidente desde el principio que la solución está más o menos limitada y se aplica solamente bajo ciertas suposiciones que, sin embargo, serán también descritas. Al proponerme hallar un método para medir las actitudes, he procurado echar a andar con las menos restricciones posibles porque, a veces, uno se siente tentado a menospreciar tantos factores que desaparece el problema original. Yo espero que no se me acusará de eludir el problema.

Para medir las actitudes algunas suposiciones de sentido común que serán expresadas, desde un principio, buscándose siempre que la discusión subsecuente no se vea ensombrecida a causa de ellas. Si el lector no está dispuesto a aceptar estas suposiciones, entonces no tendremos nada que ofrecerle. Si las acepta, podemos proceder a describir algunos métodos de medición que deben dar lugar a resultados interesantes.

Es necesario expresar desde ahora lo que queremos significar por los términos "actitud" y "opinión". Esto es del todo necesario porque la primera impresión es que estos dos conceptos no son susceptibles de medida en ningún sentido real. Se aceptará que una actitud es un asunto complejo que no puede describirse totalmente con ningún índice numérico aislado. En cuanto al problema de medir, esta afirmación es análoga a la observación de que una mesa ordinaria es una cosa compleja que no puede describirse totalmente con ningún índice numérico aislado. De la misma manera, un hombre es de tal complejidad que no puede representarse completamente con un sólo índice. Sin embargo, no vacilamos en decir que medimos la mesa. El contexto generalmente señala lo que nos proponemos medir de la mesa. Decimos sin vacilación que medimos a un individuo cuando tomamos algunas medidas antropométricas de él. El contexto puede implicar correctamente qué aspecto del individuo estamos midiendo, sin declaración explícita, por ejemplo, su índice cefálico, su altura o su peso. Justamente en ese mismo sentido hablamos aquí de medir las actitudes. Expresaremos o implicaremos por el contexto qué aspecto de las actitudes, de las personas nos proponemos medir. El interrogante estriba en que tan legítimo es decir que medimos actitudes como afirmar que medimos mesas u hombres.

El concepto de "actitud" se usará aquí para denotar la suma total de inclinaciones y sentimientos, prejuicios o distorsiones, nociones preconcebidas, ideas, temores, amenazas y convicciones de un individuo acerca de cualquier asunto específico. La actitud de una persona acerca del pacifismo significa todo lo que piensa y siente acerca de la paz y la guerra. Aceptase asimismo que esto es un asunto subjetivo y personal.

El concepto "opinión" significará aquí la expresión verbal de la actitud. Si una persona dice que cometimos un error ál entrar en la guerra contra Alemania, ésa afirmación será considerada aquí como una opinión. El término "opinión" se restringirá a la expresión verbal. Pero ¿de qué es una expresión? Supuestamente expresa una actitud. No tiene por qué haber dificultad para entender el empleo de los dos términos. La expresión verbal es la opinión. Nuestra interpretación de la opinión expresada es que la actitud del individuo es pro-germana. Una opinión simboliza una actitud.

Nuestro siguiente punto se refiere a qué deseamos medir. Cuando una persona dice que cometimos un error al entrar a la guerra contra Alemania, lo que nos interesa no es realmente la secuencia de palabras como tales y ni siquiera el significado inmediato que la oración implica, sino más bien la actitud de quien la dijo, sus pensamientos y sentimientos acerca de los Estados Unidos, de la guerra y de Alemania. Es la actitud lo que realmente interesa. La opinión tiene interés únicamente si la interpretamos como símbolo de la actitud. Por consiguiente, es alguna cosa propia de las actitudes lo que deseamos medir. Usaremos las opiniones como medios para medir las actitudes.

Pero nos viene a la mente la incertidumbre de usar una opinión como índice de actitud, pues el individuo puede ser un embustero. Si no deforma intencionalmente su actitud real sobre un asunto en disputa, puede modificar, sin embargo, su expresión, por razones de cortesía, especialmente en situaciones donde la expresión franca de la actitud puede no ser bien recibida. Esto ha conducido a la idea de que, por encima de lo que dice, la acción de un individuo es un índice más seguro de su actitud. Pero sus acciones también pueden ser distorsiones de su actitud. Un político comunica amistad y hospitalidad en la acción manifiesta, mientras que esconde otra actitud que expresa más fielmente a un amigo íntimo. Ni sus opiniones ni sus actos manifiestos constituyen, en ningún sentido, una guía infalible de las inclinaciones subjetivas y preferencias que constituyen su actitud. Por consiguiente, debemos conformarnos con usar las opiniones, u otras formas de acción, como simples índices de actitud. Debe reconocerse que existe cierta discrepancia, algún error de medida, entre la opinión o acción manifiesta que usamos como índice y la actitud que inferimos de tal índice.

Pero esta discrepancia entre el índice y la "verdad" es universal. Cuando desea saber la temperatura de su habitación, la persona ve el termómetro y usa la lectura como índice de la temperatura, como si no hubiera error en el índice y como si hubiera una sola lectura que fuera la "correcta" de la habitación. Cuando se desea determinar el volumen de un vaso de papel, se postula que el volumen es un atributo del vaso, aunque aquél sea, en realidad, una abstracción. Se mide indirectamente observando las dimensiones del vaso o sumergiéndolo en agua para apreciar cuánto líquido desplaza. Estos dos procedimientos dan dos índices que podrían no concordar exactamente. En casi cualquier situación de medición se postula un continuo abstracto como el volumen o la temperatura; y la ubicación de la cosa medida dentro de ese continuo se realiza generalmente por medios indirectos, a través de uno o más índices. La verdad se infiere solamente por la consistencia relativa de los diferentes índices, ya que nunca se conoce de modo directo. Y nos enfrentamos al mismo tipo de situación cuando intentamos medir la actitud. Necesitamos postular una variable de actitud que es, prácticamente, semejante a todos los demás atributos mensurables de la esencia de un continuo abstracto, y debemos encontrar uno o más índices, los cuales nos satisfarán en el grado en que tengan consistencia interna.

En el presente estudio mediremos la actitud del sujeto según sea expresada por la aceptación o rechazo de opiniones. Pero este enunciado no significa que ese sujeto necesariamente actuará conforme a las opiniones que haya apoyado. Aclaremos esta limitación. La medición de actitudes, expresada por las opiniones de un individuo, no constituye a la vez, y forzosamente la predicción de lo que hará. Que sus opiniones expresadas y sus acciones sean inconsistentes, es algo que no nos concierne ahora, porque no manifestamos que nos proponemos predecir la conducta abierta. Supondremos que es de interés saber lo que las personas dicen que creen aunque su conducta sea inconsistente con las opiniones que expresen. Incluso en el caso de que distorsionen intencionalmente sus actitudes, por lo menos mediremos las actitudes que tratan de hacer creer a los demás.

Concedemos, por otra parte, que las actitudes de las personas están sujetas a cambio. Cuando medimos la actitud de un individuo, sobre un asunto como el pacifismo, no afirmamos que tal medida sea en ningún sentido una constante permanente o constitucional. Su actitud puede cambiar, por supuesto, de un día para otro; y es nuestra tarea medir tales cambios que acaso resulten de causas desconocidas o de la presencia de algún factor persuasivo conocido, como la lectura de una disertación sobre el asunto en cuestión. Sin embargo, tales fluctuaciones pueden también atribuirse, en parte, a error en las medidas mismas. Para aislar los errores del instrumento de medida, por la fluctuación real de la actitud, debemos calcular el error estándar de medida de la escala misma, lo cual puede realizarse por métodos bien conocidos en la medición mental.

Supondremos que una escala de actitud se usa solamente en las situaciones en que se puede esperar razonablemente que las personas digan la verdad sobre sus opiniones o convicciones. Si una escuela religiosa fuera aplicar a sus estudiantes una escala de actitudes acerca de la iglesia, difícilmente se esperaría que los estudiantes inteligentes dijeran la verdad acerca de sus convicciones, si éstas estuviesen desviadas de las creencias ortodoxas. Lo menos que podría hacerse sería analizar los resultados, si la situación en que se expresasen las actitudes contuviera presión o amenaza implícita, basadas directamente en la actitud que se va a medir. De manera similar sería difícil descubrir las actitudes sobre la libertad sexual por medio de un cuestionario escrito, debido a la presión universal a ocultar tales actitudes cuando se desvían de las convenciones supuestas. Se admite que las escalas de actitud se usarán solamente en las situaciones que ofrezcan un mínimo de presión sobre la actitud que va a medirse. Tales situaciones son bastante comunes.

Todo lo que podemos hacer con una escala de actitud es medir la actitud expresada efectivamente, con la comprensión plena de que el sujeto puede estar escondiendo conscientemente su actitud verdadera o que la presión social de la situación le ha hecho creer realmente lo que está expresando. Este es asunto de interpretación, y probablemente valioso en tanto se mide una actitud expresada en opiniones. Otro problema es el de interpretar en cada caso el grado en que los sujetos han expresado lo que realmente creen. Todo lo que podemos hacer es reducir cuanto sea posible las condiciones que impiden que los sujetos digan la verdad, o en vez de eso ajustar nuestras interpretaciones de acuerdo a esas condiciones.

Cuando discutimos opiniones, por ejemplo acerca de la prohibición del alcohol, pronto encontramos que estas opiniones son multidimensionales, es decir, que no pueden representarse en un continuo lineal. Las diferentes opiniones no pueden describirse, completamente, sólo con "más" o "menos". Se dispersan en muchas dimensiones, pero la misma idea de medida implica un continuo lineal de alguna clase como longitud, precio, volumen, peso, edad. Cuando la idea de medida se aplica al logro académico, por ejemplo, es necesario forzar las variaciones cualitativas en una escala lineal académica de alguna clase. Juzgamos, de manera semejante, cualidades como destreza mecánica, calidad de la escritura a mano y la cantidad de educación de un individuo, como si estos rasgos se extendieran sobre una sola escala, aunque en el terreno de los hechos se dispersen en muchas direcciones. Cierto es que avanzamos adecuadamente con el concepto de escala, al describir rasgos todavía cualitativos, como educación, posición social y económica o belleza. Pero se impone una escala o continuo lineal cuando decimos que un individuo tiene más educación que otro o que una mujer es más bella que otra, aunque, si somos presionados, admitimos que quizá el par de que constan cada una de las comparaciones tiene poco en común. Resulta claro que el continuo lineal implícito en un juicio de "más o menos" puede ser conceptual; y no necesariamente ha de tener la existencia física de una regla.

Y lo mismo sucede con las actitudes. No hay que dudar en compararlas por medio del tipo de juicio de "más o menos"; se dice, por ejemplo, que un individuo está más en favor de una prohibición que de otra; y tal juicio comunica su significado claramente, con la implicación de una escala lineal en la que pueden ubicarse las personas o las opiniones.

LA VARIABLE DE ACTITUD

La primera restricción en el problema de la medición de actitudes es especificar una variable de actitud y hasta allí limitar la medida. Vamos a ilustrarlo considerando la cuestión de la prohibición del alcohol y tomemos como variable de actitud el grado de restricción que debe imponerse a la libertad individual en el consumo de esa bebida. Este grado de restricción puede considerarse un continuo que va desde la libertad completa y grado hasta la restricción igualmente completa y absoluta, e incluiría, desde luego, actitudes neutrales e indiferentes.

Al recolectar muestras para elaborar una escala, pediríamos a cien personas que escribieran sus opiniones acerca de la prohibición. Encontraremos entre ellas a quienes expresen la creencia de que la prohibición ha incrementado el uso del tabaco. Indudablemente esta es una opinión concerniente a la prohibición, pero no sería útil en absoluto para medir la variable de actitud mencionada. Por tanto, sería inadecuada. Otra persona podría expresar la opinión de que la prohibición ha eliminado una fuente importante de impuestos gubernamentales. Esta también es una opinión referente a la producción, pero no pertenecería a la variable de actitud particular que hemos manifestado medir o evaluar por escala. Es preferible usar un criterio objetivo y experimental para eliminar las opiniones que no pertenezcan al continuo especificado que se va a medir, y creo que tal criterio existe.

Esta restricción en el problema de la medición de actitudes es necesaria por la misma naturaleza de la medida; y se presupone en toda medida ordinaria, por lo que debe quedar claro que se aplica también donde las características multidimensionales todavía no se hayan separado abiertamente. Por ejemplo, sería casi ridículo decir que no puede medirse una mesa a menos que uno diga o implique lo que se va a medir de ella, es decir, si es su altura, costo, belleza, grado de adecuación o el tiempo requerido para hacerla. El contexto implica ordinariamente esta restricción en la medida. Cuando la noción de medida se aplica a un fenómeno tan complejo como las opiniones y actitudes, también debemos restringirnos a un continuo específico o implicado dentro del cual se va a medir.

Para especificar la variable de actitud, el primer requisito es expresarla de tal modo que se la pueda aludir en términos de "más" y "menos", como es el caso cuando comparamos las actitudes de las personas diciendo que una de ellas es más pacifista, que esta aboga más por la prohibición, que aquélla apoya más fuertemente la pena capital, o que es más religiosa que otra persona.

La figura 1 representa la variable de actitud militarismo pacifismo, con una zona neutral. Una persona que generalmente habla en favor de prepararse militarmente, por ejemplo, se representaría en algún punto a la derecha de la zona neutral. Una persona que está más interesada en el desarme se representaría a la izquierda de la zona neutral. Es posible concebir una curva de frecuencia que represente la distribución de la actitud en un grupo especificado sobre el asunto de pacifismo-militarismo.

Consideremos la ordenada de la distribución de frecuencia en un punto de la línea de base. El punto y su vecindad inmediata representa una actitud, y deseamos saber relativamente qué tan común es ese grado de sentimiento en favor o en Pacifismo Naturalidad Militarismo contra del pacifismo dentro del grupo en estudio. Es de interés secundario saber que una declaración particular de opinión es ratificada por cierta proporción de ese grupo. Y solamente en el grado en que la opinión sea representativa de una actitud, será útil para nuestros propósitos. Posteriormente consideraremos la posibilidad de que una opinión. declarada pueda ubicarse en la escala coma pacifista y, sin embargo, sea ratificada por una persona de simpatías militaristas muy pronunciadas. En el grado en que la aseveración sea apoyada o rechazada por factores distintos a la variable de actitud que representa, tal aseveración no servirá para nuestros propósitos. También consideraremos un criterio efectivo para descubrir semejantes aseveraciones de manera que puedan eliminarse de la escala. Entonces, en nuestro estudio, trataremos con opiniones, no principalmente por su contenido cognoscitivo sino porque sirven de portadores o símbolos de las actitudes de las personas que las expresa o respalda.

Hay alguna ambigüedad al usar el término actitud en plural. Una actitud se representa como un punto en el continuo de actitud. Consecuentemente, hay un número infinito de actitudes que pueden representarse en la escala. Sin embargo, en la práctica no diferenciamos tan finamente. En realidad, una actitud, prácticamente hablando, consiste en cierta amplitud o cercanía estrecha dentro de la escala. Cuando se obtiene una distribución de frecuencia de una variable continua, como la estatura, clasificamos dicha variable en pasos o intervalos de clase, con propósitos descriptivos. La variable de actitud también puede dividirse en intervalos de clase y contarse la frecuencia en cada intervalo. Cuando hablemos de "una" actitud, significaremos un punto o una vecindad en el continuo de la actitud. Diferentes actitudes se considerarán no como un conjunto de entidades distintas sino como una serie de intervalos de clase en la escala de actitud.

UNA DISTRIBUCIÓN DE FRECUENCIA DE ACTITUDES

La principal argumentación ha sido hasta ahora mostrar que ya que en la conversación ordinaria describimos rápida y comprensiblemente a los individuos como más o menos pacifistas o más o menos militaristas en actitud, podemos representar abiertamente esta linealidad en la forma de una escala monodimensional; y así se ha hecho, en forma de diagrama, en la figura 1. Describiremos primero nuestro objetivo y después mostraremos cómo puede adoptarse una unidad de medida racional para la escala entera.

Sea la línea base de la figura 1 la representación de una amplitud continua de actitudes, desde el pacifismo extremo, a la izquierda, hasta el militarismo extremo a la derecha.

Si se definieran varios pasos en semejante escala, la actitud de una persona hacia el militarismo-pacifismo podría representarse por un punto de esa escala. La fuerza y dirección de las simpatías de un individuo particular podrían indicarse por el punto a, que muestra opiniones más bien militaristas. Otro individuo podría quedar en el punto b, indicador de que, aunque es ligeramente militarista en sus opiniones, no lo es al extremo de la persona que se colocó en el punto a. Una tercera persona se colocaría en el punto c, indicándose así que es completamente militarista y que la diferencia entre a y c es muy pequeña. Es posible una interpretación similar que se extendiera a cualquier punto de la escala continua, desde el extremo militarismo hasta el extremo pacifismo, con una región neutral o de indiferencia entre ellos.

Una segunda característica podría igualmente indicarse gráficamente por medio de la escala, a saber, la amplitud de las opiniones que determinado individuo esté dispuesto a respaldar. Por supuesto, no debe esperarse que cada persona encuentre solamente una sola opinión, a la que esté dispuesto a dar su apoyo, en la escala completa, ni tampoco que rechace todas las demás. En realidad, nosotros mismos probablemente nos encontraríamos dispuestos a ratificar gran número de opiniones que cubren cierta amplitud de la escala. Entonces, es concebible que una persona pacifista esté dispuesta a ratificar todas o la mayoría de las opiniones en la amplitud de "d a e" y que rechace como demasiado pacifistas la mayoría de las opiniones a la izquierda de d, y que también rechace la amplitud entera de opiniones militaristas. Su actitud se indicaría entonces por el promedio o media de la amplitud que ratifica, a menos que tenga el cuidado de seleccionar una opinión particular que represente muy cercanamente su propia actitud. La misma clase de razonamiento puede extenderse con la misma certidumbre a la amplitud total de la escala, así que tendríamos por lo menos dos, o posiblemente tres, características distintivas de cada persona con base en la escala. Estas características serían:

a) la posición media que ocupa en la escala;

b) la amplitud de opiniones que está dispuesto a aceptar, y

c) la opinión que selecciona porque representa con mayor aproximación su propia actitud sobre el asunto planteado.

Asimismo, sería posible describir a un grupo de individuos por medio de la escala. Este tipo de descripción ha sido representado en forma de diagrama por el perfil de frecuencia.

Cualquier ordenada de la curva representaría el número de individuos, o el porcentaje del grupo total, que secunda la opinión correspondiente. Por ejemplo, la ordenada, en b, representaría el número de personas del grupo que ratifican el grado de militarismo representado por el punto b de la escala. Una mirada a la curva de frecuencia muestra que en el grupo ficticio de este diagrama, las opiniones militaristas son ratificadas más frecuentemente que las pacifistas. Claro está que el área de este diagrama de frecuencia representa el número total de ratificaciones hechas por el grupo. El diagrama puede arreglarse de varias maneras diferentes que estudiaremos por separado. En este momento, basta con que nos percatemos de que en una escala válida de opiniones es posible comparar varios grupos diferentes de acuerdo a sus opiniones sobre una cuestión en disputa.

Un segundo tipo de comparación de grupo puede hacerse con respecto a la amplitud o extensión que presentan las superficies de frecuencia. Si uno de los grupos se representa por un diagrama de frecuencia de considerable amplitud o dispersión, entonces ese grupo será más heterogéneo respecto al asunto planteado, que algún otro grupo cuyo diagrama de frecuencia de actitudes presente una amplitud o dispersión más pequeña. Lo anterior no significa que la suposición de una distribución normal, de uso frecuente en la elaboración de escalas educativas, tenga alguna aplicación aquí, porque no hay razón para suponer que un grupo de personas esté distribuido normalmente en sus opiniones acerca de alguna cosa.

Por consiguiente, es posible hacer cuatro tipos de descripciones por medio de una escala de actitudes. Estás son:

a) la actitud promedio o media de un individuo particular sobre el asunto en cuestión;

b) la amplitud de opiniones que está dispuesto a aceptar o a tolerar;

c) la popularidad rélativa de cada actitud de la escala dentro de un grupo señalado como lo indica la distribución de frecuencia de ese grupo, y

d) el grado de homogeneidad o heterogeneidad de las actitudes de un grupo señalado acerca del asunto, como lo indica el grado de dispersión o extensión de su distribución de frecuencia.

Este es el objetivo. El centro del problema está en la unidad de medida de la línea base, que es lo que veremos en el siguiente articulo

subir índice

Artículo septiembre 2007

Las estimaciones en el estudio de evaluación de psicólogos clínicos

Los ejemplos hasta aquí presentados presentan un lamentable cuadro sobre la validez de las medidas de las diferencias individuales consideradas. El caso típico exhibe una cantidad excesiva de varianza de método, que suele exceder la cantidad de varianza de rasgo. Este cuadro no se debe a un esfuerzo deliberado de seleccionar ejemplos ostensiblemente malos. Los estudios no publicados muestran el mismo cuadro. Si parecen más desalentadores que la tendencia general de los datos de validez informados en las revistas, puede ser porque la apariencia de validez que proporcionan los valores aislados que se desprenden de la diagonal de validez es engañosa e imposible de interpretar al margen de la matriz total. Sin embargo, claro está que pocos de los ejemplos clásicos de buena medición de las diferencias individuales intervienen y que en muchos de los casos la calidad de los datos pudo haber magnificado los factores de aparato, etcétera. Un conjunto de datos de personalidad más ideal para ejemplificar el método, por tanto, se encontró en la aplicación múltiple de un conjunto de escalas de estimación al estudiar la evaluación de los psicólogos clínicos (Kelly y Fiske, 1951).

En este estudio, la "escala de estimación A" contenía 22 rasgos referentes a "la conducta que puede observarse directamente en la superficie". En el uso de la escala se instruyó a los estimadores para que "descartaran cualesquiera inferencias acerca de dinámicas o causas subyacentes". Los sujetos, estudiantes de psicología clínica de primer año, se estimaron a sí mismos y también a sus tres compañeros de equipo con los que habían participado en varios procedimientos de evaluación y habían vivido durante seis días. Se usó la mediana de las estimaciones de los tres compañeros de equipo para la puntuación de compañero de equipo. Los sujetos también fueron estimados con respecto a los 22 rasgos por la dirección de evaluación. El análisis usa las estimaciones finales combinadas que fueron convenidas por tres miembros de la dirección después de la discusión y revisión de la enorme cantidad de datos y las muchas otras estimaciones de cada sujeto. Desafortunadamente, los miembros de la dirección vieron las estimaciones de sí mismo y las de los compañeros de equipo antes de hacer las suyas, aunque presumiblemente fueron poco influidos por estos datos, pues tenían a su alcance otras señales de evidencia. (Kelly y Fiske, 1951). Las estimaciones de sí mismo y las de los compañeros de equipo representan enteramente "métodos" distintos y se les puede dar mayor importancia al evaluar los datos que van a ser presentados.

En un análisis previo de estos datos (Fiske, 1949), cada uno de los tres triángulos heterorrasgo-monométodo fue computado y factorizado. Para proporcionar una matriz multirrasgo-multimétodo, las 1 452 correlaciones de heterométodo fueron computadas especialmente para este informe. La matriz completa de 66 X 66 con sus 2 145 coeficientes es obviamente demasiado grande para presentarla aquí, pero será usada en el análisis que sigue. Para proporcionar una muestra ilustrativa, la tabla 12 presenta las interrelaciones entre cinco variables, seleccionando la que representa mejor cada uno de los cinco factores recurrentes descubiertos en el análisis previo de las matrices monométodo de Fiske (1949). (Fueron escogidas independientemente de su validez indicada en los bloques heterométodos. "Asertivo" -reflejado en el núm. 3- fue seleccionado para representar el factor recurrente 5, debido a que "locuaz" también obtuvo una alta carga en el primer factor recurrente).

El cuadro presentado en la tabla 12 es representativo de la mejor validez de las estimaciones de rasgo de personalidad que la psicología puede ofrecer actualmente. Es confortante advertir que el cuadro es mejor que el de la mayoría de los previamente examinados. Nótese que los valores de validez de "asertivo" exceden los valores de heterorrasgo de los triángulos monométodo y heterométodo. "Alegre", "de intereses amplios" y "serio" tienen validez que excede los valores de heterorrasgo-heterométodo con dos excepciones. Solamente para "equilibrio inmutable" la evidencia de validez parece trivial. La elevación de las confiabilidades por encima de los triángulos heterorrasgo- mono método es la evidencia más amplia de validez discriminante.

Una comparación de la tabla 12 con la matriz completa muestra que el procedimiento de una sola variable que represente cada factor ha acrecentado la apariencia de validez, aunque no necesariamente de un modo engañoso. Donde varias variables son influidas altamente por el mismo factor, su nivel "verdadero" de intercorrelación es alto. En estas condiciones, los errores de muestreo pueden hacer disminuir los valores de la diagonal de validez y agrandar otros para producir excepciones ocasionales al cuadro de validez, tanto en la matriz heterorrasgo-monométodo como en los triángulos heterométodo-heterorrasgo. En este caso, con una N de 124, el error de muestreo es apreciable, y de esta manera puede esperarse que se exagera el grado de invalidez.

Dentro de las secciones de monométodo, los errores de medida se correlacionan al elevar el nivel general de los valores encontrados, mientras que dentro de los bloques de heterométodo, los errores de medida son independientes, y a lo largo de la diagonal de validez y los triángulos de heterorrasgo la validez tiende a decrecer. Estos efectos, que también pueden ser establecidos en términos de factores de método o insignificancias comunes de confusión operan fuertemente en estos datos, como probablemente en todos los datos que contienen estimaciones. Cuando diversas variables representan a cada factor, ninguna de las variables satisface consistentemente el criterio de que los valores de validez exceden los valores correspondientes en los triángulos de monométodo, cuando se examina la matriz completa.

Como resumen del cuadro de validación con respecto a las comparaciones de valores de validez con otros valores de heterométodo en cada bloque, se ha preparado la tabla 13. Para cada rasgo y para cada uno de los tres bloques de heterométodo, el valor de fa diagonal de validez presenta el valor heterorrasgo más alto que lo incluye y el número de los 42 valores heterorrasgo semejantes que exceden a la diagonal de validez en magnitud. (El número 42 procede de la agrupación de los 21 valores de las otras columnas y de los 21 valores de los otros renglones para la columna y el renglón que interceptan al valor diagonal dado).

Acerca del requisito de que la diagonal de validez exceda a todas las otras en su bloque de heterométodo, ninguno de los rasgos tiene un registro completamente perfecto, aunque algunos se acercan bastante. "Asertivo" tiene solamente una excepción trivial en el bloque "compañeros de equipo-sí mismo". "Locuaz" tiene casi un registro tan bueno como "imaginativo". Serio tiene solo dos excepciones inconsecuentes e "interés en las mujeres", tres. Estos rasgos se destacan como sumamente válidos de la descripción de sí mismo y la reputación. Nótese que los coeficientes de validez reales de estos cuatro rasgos se extienden desde .22 a .82, o si nos concentramos en el bloque "compañero de equipo-sí mismo", que seguramente representa métodos más independientes, desde .31 a .46. Aunque estos son los mejores rasgos, parece que la mayoría de ellos tienen una validez más que fortuita. Todos los que tienen 10 o menos excepciones poseen un grado de validez significativo en el nivel .001, estimado a bulto por la prueba de tos signos de una cola. Si tomamos el valor de la validez como fijo (ignorando sus fluctuaciones muéstrales), podemos determinar si el número de valores más grandes que él en su renglón y columna es menor que el esperado sobre la hipótesis de nulidad de que la mitad de los valores estará por encima de él. Este procedimiento requiere la suposición de que la posición (por encima o por debajo del valor de la validez) de cualquiera de estos valores de comparación es independiente de la posición de cada uno de los demás, una suposición dudosa cuando se emplean los métodos comunes y la varianza de rasgo. Con la excepción de una variable, todas satisficieron este nivel en el bloque "dirección-compañero de equipo", todas menos cuatro en el bloque "dirección-sí mismo", todas menos cinco en el bloque más independiente, "compañero de equipo-sí mismo". Sin embargo, las excepciones a la validez significativa no son paralelas de columna a columna, y solamente 12 de las 22 variables tienen validez significativa de .001 en los tres bloques. Estas se indican por un asterisco en la tabla 13.

Este nivel general de alta significación de la validez no debe oscurecer el interesante problema creado por las excepciones ocasionales, aun ante las mejores variables. Los excelentes rasgos de "asertivo" y "locuaz" proporcionan un caso a propósito. En término del análisis original de Fiske, ambos tienen fuertes cargas en el factor recurrente "seguro de sí mismo" (representado por "asertivo" en la tabla 12). "Locuaz" también tuvo una fuerte carga en el factor recurrente de "adaptabilidad social" (representado por "alegre" en la tabla 12). Esperaríamos, por consiguiente, una correlación alta entre ellos, así como discriminación significativa. Incluso en el nivel del sentido común, la mayoría de los psicólogos esperarían que sus colegas discriminen válidamente entre la asertividad o positividad (no sumisión) y la locuacidad. Sin embargo, en el bloque "compañero-sí mismo", "asertivo" estimado por sí mismo correlaciona .48 con "locuaz" por compañeros de equipo, más altamente que cualquiera de sus valores de validez en este bloque, .43 y .46.

En términos del promedio de los valores de validez y la frecuencia de las excepciones, hay una clara tendencia del bloque "dirección-compañero" a mostrar el más alto acuerdo. Esto puede atribuirse a varios factores. Ambos representan estimaciones desde el punto de vista externo. Ambos son promediados para los tres jueces, y así se reducen al mínimo las distorsiones individuales e indudablemente se incrementan las confiabilidades. Además, las estimaciones de los compañeros de equipo fueron asequibles a la dirección al hacer sus estimaciones. Otro efecto contribuyente a la convergencia y discriminación menos adecuadas de las estimaciones de sí mismo fue un conjunto de respuestas hacia el polo favorable que redujo grandemente el rango de estas medidas (Fiske, 1949). El análisis de los detalles de los casos de invalidez que se resumen en la tabla 13 muestra que la mayoría de los casos el efecto es atribuible a la alta especificidad y baja comunalidad para la forma de estimación de sí mismo. En estos casos, la columna y el renglón que intersecan la diagonal de validez baja son asimétricas hasta donde se relaciona el nivel general de correlación, hecho que apoya la condensación que proporciona la tabla 13.

El psicólogo de la personalidad está inicialmente predispuesto a reinterpretar las estimaciones de sí mismo, a tratarlas como síntomas en vez de interpretarlas literalmente. Se tuvo cuidado con los casos en que las estimaciones de sí mismo no fueron literalmente interpretables, pero no dejaron de tener un significado de diagnóstico cuando se "tradujeron" apropiadamente. De cualquier modo, los casos de invalidez de las descripciones de sí mismo del estudio de evaluación no son de este tipo, sino más bien se explican en términos de la ausencia de comunidad para una de las variables involucradas. En general, donde estas descripciones de sí mismo son interpretables de alguna manera, lo son tan literalmente como las descripciones de los compañeros de equipo. Tal hallazgo, por supuesto, puede reflejar un grado sustancial de penetración por parte de los sujetos.

El éxito general con respecto a la validación discriminante junto con los patrones factoriales paralelos del análisis inicial de Fiske de las tres matrices intramétodo pareció justificar el análisis de la validez del patrón factorial en este caso. Un procedimiento posible consiste en hacer un solo análisis de la matriz total de 66 x 66. Otros enfoques centrados en la factorización por separado de bloques de heterométodo, matriz por matriz, también es sugerible. Pero tales métodos no solo serían extremadamente tediosos, sino, además, dejarían indeterminada la comparación precisa de la similitud del patrón factorial. La correlación de las cargas factoriales sobre la población de variables fue empleada con este propósito por Fiske (1949), pero si bien proporcionó la identificación de los factores recurrentes, ningún índice único total de la similitud del patrón factorial fue generado. Puesto que nuestro interés inmediato era confirmar un patrón de interrelaciones y no describirlo, escogimos el método corto y eficiente: probar la similitud de los conjuntos de valores de heterorrasgo mediante los coeficientes de correlación en los que cada anotación representaba el tamaño de los valores de los coeficientes de heterorrasgo dados en dos matrices diferentes. Para la matriz completa, las correlaciones se basarían en el valor de N de las 22 x 21/2 ó 231 combinaciones de heterorrasgo específicas. Las correlaciones se computaron entre las matrices monométodo "compañero de equipo" y "sí mismo", seleccionadas como de independencia máxima. (Los valores que siguen fueron computados a partir de la matriz original de correlación y son un poco más altos que los que se habrían obtenido de una matriz reflejada). La similitud entre las dos matrices monométodo fue de .84, lo que corrobora la similitud del patrón factorial entre estas matrices que Fiske describe más completamente en el análisis factorial paralelo que hizo de ellas. Al realizar este análisis, el bloque de heterométodo fue tratado como si estuviera dividido en dos por la diagonal de validez, de modo que los valores por encima y por debajo de la diagonal representaban la validación más independiente del patrón de correlación de heterorrasgo. Se correlacionaron a .63, un valor que aunque es bajo, muestra un sensible grado de confirmación. Examinemos ahora la cuestión de que el patrón con el que concuerdan los dos triángulos de heterométodo-heterorrasgo sea el mismo que se encontró común a los dos triángulos monométodo. La matriz intra-compañero de equipo se correlacionó con los dos triángulos de heterométodo a .71 y .71. La matriz intra-sí mismo se correlacionó a .57 y .63. Por tanto, en general, los resultados experimentales apoyan la validez del patrón de relaciones interrasgo.

Relación con la validez de constructo

Aun cuando los criterios de validación presentados se encuentren explícita o implícitamente en los estudios de la validez de constructo (Cronbach y Meehl, 1955; APA, 1954), el artículo se interesa primordialmente en la adecuación de los tests como medidas de un constructo y no tanto en la adecuación de un constructo como lo determina la confirmación de asociaciones previstas teóricamente que se hace por medio de las medidas de otros constructos. Antes de probar la relación entre un rasgo concreto y otros rasgos, se debe tener confianza en las medidas de ese rasgo. La confianza puede provenir de la validación convergente y discriminante. En otras palabras, cualquier formulación conceptual de un rasgo suele incluir implícitamente la proposición de que el rasgo es una tendencia a responder observable en más de una condición experimental y el rasgo puede ser diferenciado significativamente de otros rasgos: La prueba de estas proposiciones debe ser anterior a la prueba de otras proposiciones, de modo que evitemos la aceptación de conclusiones erróneas. Por ejemplo, un marco conceptual puede postular una gran correlación entre los rasgos A y B y ninguna entre los rasgos A y C. Si el experimentador mide A y B por un método (por ejemplo, un cuestionario) y C por otro método (como la medida de conducta abierta en una situación de prueba), sus hallazgos pueden ser consecuentes con su hipótesis únicamente como una función de la varianza común de método a sus medidas de A y B, pero no a C.

Se entiende que los requisitos de este artículo son adecuados para los esfuerzos relativamente ateoréticos típicos de los tests y de la medición como para intentos más teóricos. Esta insistencia en los criterios validacionales de nuestro nivel ateorético de la construcción del test, no es en absoluto incompatible con un reconocimiento de las bondades de incrementar el grado de consideraciones teóricas que determinan todos los aspectos de un test y de la situación de prueba, como afirman Jessor y Hammond (Jessor y Hammond, 1957).

Relación con el operacionalismo. (Underwood 1957), en su efectiva presentación del punto de vista operacional¡sta, señala de modo realista el tipo amorfo de teoría con la que trabaja la mayoría de los psicólogos. Compara la concepción "literaria" de un psicólogo con su definición operacional representada por sus tests u otros instrumentos de medida. Reconoce la importancia de la definición literaria en la comunicación y producción de la ciencia y advierte que la definición operacional "puede no medir en absoluto el proceso que se desea medir; puede medir incluso un objeto por completo diferente". Sin embargo, no indica cómo saber que se comete ese error.

Los requisitos de nuestro artículo pueden verse como extensivos de la clase de operacionalismo que Underwood ha expresado. Al elaborador de test no se le pide engendrar de su concepción literaria o constructo privado una formulación operacional, sino dos o aún más, cada una tan diferente en cuanto al vehículo de investigación como sea posíble. Además, se le pide hacer explícita la distinción entre su nueva variable y otras variables, distinciones que intervienen en su definición literaria. Es aconsejable que en los primeros esfuerzos de validación, antes de imprimirlos, aplique los métodos y los rasgos diferentes. Su definición literaria, su concepción, quedará mejor representada en la concordancia de sus medidas independientes del rasgo. La matriz multirrasgo-multimétodo es un primer paso de importancia práctica para evitar "el peligro... de que el investigador piense que al partir de una concepción artística o literaria... para llegar a la construcción de los itemes de una escala que la mida, ha validado su concepción artística" (Underwood, 1957). En contraste con el operacionalismo individual que domina en la psicología, abogan por un operacionalismo múltiple, un operacionalismo convergente (Garner, 1954; Garner, Hake y Eriksen, 1956), una triangulación metodológica (Campbell, 1953, 1956), una delineación operacional (Campbell, 1954) y una validación convergente.

La presentación de Underwood implica desplazarse del concepto a la operación, cosa frecuente y característica de la ciencia. Se puede indicar lo mismo, sin embargo, al analizar una transición de la operación al constructo. Para cualquier cuerpo de datos tomados de una sola operación hay una subínfinidad de interpretaciones posibles, es decir, una subinfinidad de conceptos o combinaciones de conceptos que la representan. Una sola operación es equívoca como representativa de conceptos. De un modo análogo, cuando examinamos el cuarto distorsionado de Ames desde un punto fijo y a través de un solo ojo, los datos del patrón retinal son equívocos en cuanto a la subinfinidad de hexaedrones que puede engendrar el mismo patrón. La adición de un segundo punto de vista, a través del paralaje binocular, reduce mucho su ambigüedad y limita considerablemente las construcciones de ambos conjuntos de datos. En el estudio de Garner (1954), las medidas de fraccionamiento de un solo método fueron equívocas, es decir, tal vez eran función de la distancia fraccionada del estímulo de comparación del proceso de juicio. Un operacionalismo convergente múltiple redujo la ambigüedad al señalar que la última conceptualización era la apropiada, y al revelar la preponderancia de una varianza de los métodos. Lo mismo sucede en los estudios de aprendizaje: al identificar los constructos con los datos de respuesta de animales en un arreglo operacional concreto hay ambigüedad, que se reduce operacionalmente al introducir pruebas de transposición, a saber, (as diferentes operaciones proyectadas para hacer comparaciones entre las conceptualizaciones rivales (Campbell, 1954).

El operacionalismo convergente de Garner y nuestra insistencia en más de un método para medir cada concepto se separa de la primera posición de Bridgman: "si tenemos más de un conjunto de operaciones, hay más de un concepto y estrictamente hay un nombre diferente para cada conjunto de operaciones" (Bridgman, 1927). En la etapa presente de la psicología, el problema crucial consiste en la demostración de convergencia, aunque no de completa congruencia, entre dos conjuntos distintos de operaciones. Con solo un método, no hay manera de distinguir la varianza de rasgo de la indeseada varianza de método. Cuando la medición y la conceptualización psicológicas lleguen a estar mejor desarrolladas, puede ser muy adecuada la diferencia conceptual entre la unidad A1 de rasgo-método y la unidad A2 de rasgo-método, donde el rasgo A se mide por diferentes métodos. Más probablemente, la varianza de método se concretará teóricamente en términos de un conjunto de constructos. Entonces se sabrá que los procedimientos de medición suelen incluir varios constructos teóricos en aplicación conjunta. Para que las medidas obtenidas estimen valores para un solo constructo bajo esta condición se requiere también la comparación de medidas complejas que varían en su composición de rasgo, de manera algo semejante a una matriz multirrasgo. El método de unión de Mill de las semejanzas y las diferencias abrevia demasiado la efectiva clarificación experimental de los conceptos.

La evaluación de una motriz multirrasgo-multimétodo. La evaluación de la matriz de correlación que se forma al intercorrelacionar varias unidades de rasgo-método, debe tener en consideración los factores que, según se sabe, afectan la magnitud de las correlaciones. Un valor de la diagonal de validez debe ser evaluado a la luz de las confiabilidades de las dos medidas involucradas; por ejemplo, una baja confiabilidad para el test A₂ exagera la varianza de método manifiesta en el test A₁. Además, el enfoque global supone que el muestreo de los individuos es adecuado: la reducción de la muestra con respecto a uno o más rasgos harán disminuir los coeficientes de confiabilidad y las intercorrelaciones que contengan estos rasgos. Aunque las restricciones de rango sobre todos los rasgos produce serias dificultades en la interpretación de la matriz multirrasgo-multimétodo y deben evitarse siempre que se pueda, la presencia de diferentes grados de restricción en distintos rasgos es el peligro más serio de la interpretación significativa.

Se pueden desarrollar varios tratamientos estadísticos para las matrices multirrasgomultimétodo. Se han considerado pruebas elementales de la elevación de un valor en la diagonal de validez por encima de los valores de comparación en su renglón y columna. Se ha propuesto el uso de correlaciones entre las columnas de variables que miden el mismo rasgo, el análisis de varianza y el análisis factorial. El desarrollo de tales métodos estadísticos está más allá del propósito de esta exposición. Los psicólogos no deben interesarse en evaluar los tests como si fueran fijos y definitivos, sino más bien en desarrollar mejores tests. Un examen cuidadoso de una matriz multirrasgo-multimétodo indicará al experimentador los pasos que debe dar; le indicará qué métodos debe descartar o reemplazar, los conceptos que necesitan una delineación más definida y los que son más pobremente medidos a causa de la excesiva o desconcertante varianza de método. Los juicios de validez basados en tal matriz deben tener en cuenta la etapa de desarrollo de los constructos, las relaciones postuladas entre ellos, el nivel de afinamiento técnico de los métodos, la relativa independencia de estos y cualquier característica pertinente de la muestra de sujetos. Estamos proponiendo que el proceso de validación sea considerado un aspecto de un programa de mejoramiento de los procedimientos de medición, y que los "coeficientes de validez" obtenidos en cualquier etapa del proceso sean interpretados como ganancia sobre las etapas precedentes y señales de hacia dónde dirigir los esfuerzos ulteriores.

El diseño de una matriz multirrasgo-multimétodo. Los diferentes métodos y rasgos incluidos en una matriz de validación deben seleccionarse con cuidado. Los diversos métodos que miden cada rasgo deben ser adecuados a cómo se ha conceptualizado el rasgo. Aunque esta perspectiva reducirá el rango de métodos adecuados, rara vez restringirá la medición a un procedimiento operacional.

Siempre que se pueda, los diversos métodos en una matriz deben ser completamente independientes entre sí; no debe haber ninguna razón previa para creer que comparten varianza de método. Este requisito es necesario para que los valores en los triángulos de hsterométodo-heterorrasgo se acerquen a cero. Si la naturaleza de los rasgos excluye la independencia de métodos, deben hacerse esfuerzos para obtener diversidad en cuanto a las fuentes de datos y a los procesos de clasificación. De este modo, las clases de estímulos o las situaciones de fondo, es decir, los contextos experimentales, deben ser diferentes. Además, las personas que proporcionen las observaciones deberán tener diferentes papeles o los procedimientos de calificación deberán ser variados.

Los planes para una matriz de validación deben tener en cuenta la diferencia entre las interpretaciones con respecto a la convergencia y a la discriminación. Basta con demostrar convergencia entre dos métodos claramente distintos que muestran poco traslapamiento en los triángulos de heterorrasgo-heterométodo. Mientras el acuerdo entre varios métodos sea deseable, la convergencia de dos es un requisito mínimo satisfactorio. La validación discriminativa no se logra con facilidad. Así como es imposible comprobar la hipótesis de nulidad, o que un objeto no existe, no se puede establecer que un rasgo, como es medido, se diferencia de todos los demás. Solamente se puede mostrar que la medida del rasgo A tiene poco traslapamiento con las medidas de B y C, y ninguna generalización segura puede hacerse más allá de B y C. Por ejemplo, el equilibrio social probablemente pudiera discriminarse fácilmente de los intereses estéticos, pero también debe ser diferenciado de liderazgo.

En cuanto a los rasgos relacionados y que se espera se correlacionen entre sí, las correlaciones de monométodo serán sustanciales y las de heterométodo entre rasgos también serán positivas. Si se quiere facilidad e interpretación, es mejor incluir en la matriz por lo menos dos rasgos y preferiblemente dos conjuntos de rasgos que sean postulados independientes entre sí.

Muchas matrices multirrasgo-multimétodo no mostrarán validación convergente; puede no haber ninguna relación entre dos métodos de medición de un rasgo. En esta situación común, el experimentador debe examinar las pruebas a favor de varias alternativas:

a) ningún método es adecuado para medir el rasgo;

b) uno de los dos métodos no mide realmente el rasgo. (Cuando las pruebas indican que un método no mide el rasgo postulado, puede indicar que mide otro rasgo. Las altas correlaciones en los triángulos de heterorrasgo-heterométodo pueden ofrecer sugerencias a tales posibilidades).

c), el rasgo no es una unidad funcional, es decir, las tendencias de respuesta que intervienen son propias de los atributos y no del rasgo de cada test. El fracaso al demostrar la convergencia puede llevar a desarrollos conceptuales en lugar de abandonar el test.

RESUMEN

Se propone un proceso de validación que utiliza una matriz de intercorrelaciones entre los tests que representan por lo menos dos rasgos, cada uno medido por un mínimo de dos métodos. Las medidas del mismo rasgo deben correlacionarse más entre sí que con medidas de diferentes rasgos que involucren distintos métodos. Idealmente, estos valores de validez también deben ser más altos que las correlaciones entre los diferentes rasgos medidos por el mismo método.

Ejemplos hallados en la bibliografía muestran que estas condiciones deseables, como grupo, rara vez son satisfechas. Los factores de método o de aparato contribuyen grandemente a las medidas psicológicas.

Las nociones de convergencia entre las medidas independientes del mismo rasgo y la discriminación entre las medidas de diferentes rasgos son comparadas con las formulaciones publicadas anteriormente, como la validez de constructo y el operacionalismo convergente. Los problemas de la aplicación de este proceso de validación ya se consideraron.

BIBLIOGRAFIA

American Psychological Association. 1954 "Technical recommendations for psychological test and diagnostic techniques". Psychol. Bull., Suppl., 51, parte 2, págs. 1-38.

Anderson, E,E. 1937 "Interrelationship of drives in the male albino rat, I. I,ntercorrelations of measures of-drives". Journal of Comp. Psychol., 24, págs. 73-118.

Ayer, A.J. 1956 The problem of knowledge. Nueva York: St. Martin's Press.

Borgatta, E.F. 1954 "Analysis of social interaction and sociometric perception". Sociometry, 17, págs. 7-32.

Borgatta, E.F. 1955 "Analysis of social interaction: Actual, role-playing, and projective". 51, págs. 394-405.

Bridgman, P.W. 1927 The logic of modem physics. Nueva York: Macmillan.

Burwen, L.S, y Campbell, D.T. 1957 "The generality of attitudes toward authority and nonauthority figures". J. abnorm. Soc. Psychol. 54,24-31.

Campbell, D.T. 1953 A srudy of leadership among submarine officers. Columbus: Ohio State Univer. Res. Found.

Campbell, D.T. 1954 "Operational delineation of 'what is learned' via the transposition experiment". Psycho Rev„ 61, 167-174.

Campbell, D.T. 1956 Leadership and its effects upon the group. Monogr, núm. 83. Columbus: Ohio State Univer, Bur, Business Res.

Carroll, J. B. 1952 "Ratings on traits measured by a factored personality inventory". J. abnorm. soc Psychol., 47, 626-632.

Cronbach, L.J. 1946 "Response sets and test valídity". Educ. psycho% Meamst, 6, 475-494.

Cronbach, L.J. 1949 Essentials of psychological testing. Nueva York: Harper.

Cronbach, L.J. 1950 "Further evidence on response sets and test design". Educ. psychol. Measmt, 10, 3-31.

Cronbach, L.J. y Meehl, P.E. 1955 "Construct validity on psychological tests". Psychol. Bull., 52, 281-302.

Chi, P.L. 1937 'Statistical analysís of personality rating". J. exp. Educ. 5, 229-245.

Edwards, A.L. 1957 The social desirability variable in personality assessment and research. Nueva York: Dryden.

Feigl, H. 1958 "The mental and the physical". En H. Feigl, M. Scriven y G. Maxwell (Dirs.), Minnesota stu dies in the philosophy of science. Vol. II. Concepts, théories and the mind-body problem. Minneapolis: Univer. Minnesota Press.

Fiske, D.W. 1949 "Consistency of the factorial structures of personality ratings from different sources". J. ab norm, soc. Psychol., 44, 329-344.

Garner, W.R. 1954 "Context effects and the validity of loundness scales". J. exp. Psychol., 48, 218-224.

Garner, W.R., Hake,'H.W. y Eriksen, C.W. 1956 "Operaljbnism and the concept of perception". Psychol. Rev., 63,149-159.

Jessor, R. y Hammond, K.R. 1957 "Construct validity and the Taylor Anxiety Scale". Psychol. Bull., 54, 161-170.

Kelley, T.L. y Drey, A.C. 1934 Tests arrd measurements in the social sciences. Nueva York: Scribner.

Kelly, E.L. y Fiske, D.W. 1951 The prediction of performance in clinical psychology. Ann Arbor: Univer. of Michigan Press.

Loevinger, J., Gleser, G.C. y Dubois, P.H. 1953 "Maximizing the discriminating power of a multiple-score test". Psychometrika, 18-309-317.

Lorge, I. 1937 "Gen-like: Halo or reality? " Psychol. Bull., 34, 545-546.

Mayo, G. D. 1956 "Peer ratings and halo". Educ. psychol. Measmt., 16, 317-323.

Strang, R. 1930 "Relatíon of social intelligence to certain other factors". Sch. & Soc., 32, 268-272.

Symonds, P.M. 1931 Diagnosing personality and conduct. Nueva York: AppletonCentury.

Thorndike, E.L. 1920 "A constant error in psychological ratings". J, appl. Psychol., 4,25-29.

Thorndike, R.L. 1936 "Factor analysis of social and abstract intelligence". J, educ. Psycho%,27,231-233.

Thurstone, L.L. 1937 The reliability and validity of tests. Ann Arbor: Edwards.

Tryon, R.C. 1942 "-'Individual differences". En F.A. Moss (Dir,), Comparative Psycho%gy. (2a. ed.) Nueva York: Prentice-Hall, págs. 330-365.

Underwood, B.J. 1957 Psychological research. Nueva York: Appleton-Century-Crofts.

Vernon,P.E. 1957 "Educational ability and psychological factors". Address given to the Joint Education-Psychology Colloquim, Univer. of Illinoís, marzo 29.

Vernon, P.E.1958 Educational testing and testform factors. Princenton: Educational Testing Service. (Res. Bu ll. R B-58-3).

subir índice

Artículo agosto 2007

Las Validaciones Convergente y Discriminante Mediante la Matriz Multirrasgo-Multimétodo

La experiencia acumulada en la medida de las diferencias individuales durante los últimos 50 años, señala que los tests han sido aceptados o descartados en cuanto a su validez gracias a muchas clases de experiencias de investigación. Los criterios que sugiere este trabajo se encuentran en dichas evaluaciones acumulativas, así como también en los recientes estudios acerca de la validez. Estos criterios se aclaran y aumentan su eficacia cuando se consideran conjuntamente en el contexto de una matriz multirrasgo-multimétodo. Los aspectos más estudiados del proceso de validación son los siguientes:

1. La validación es característicamente convergente, es decir, una corroboración por procedimientos de medición independientes. La independencia de los métodos es el denominador común de los principales tipos de validez (con la excepción de la validez de contenido) en la medida en que se distinguen de la confiabilidad.

2. Ya sea para justificar las mediciones de nuevos rasgos, para la validación de la interpretación de tests, o para el establecimiento de la validez de construcción, se requiere la validación discriminante, así como también la validación convergente. Los tests pueden ser invalidados por tener correlaciones demasiado altas con otros, cuando la intención ha sido que difieran.

3. Cada test o cada tarea empleados con propósitos de medición es una unidad rasgo-método, una unión del contenido de un rasgo particular con procedimientos de medida que no son propios de ese contenido. La varianza sistemática entre las puntuaciones de un test puede deberse a la respuesta frente a las cualidades de la medición, así como de la respuesta al contenido del rasgo.

4. Para examinar la validez discriminante y para estimar las contribuciones relativas de la varianza del método y del rasgo, debe emplearse mós de un rasgo y más de un método, en el proceso de validación. En muchos casos será conveniente realizarlo a través de una matriz multirrasgo-multimétodo , que presenta todas las intercorrelaciones resultantes cuando cada uno de los diferentes rasgos se mide por cada uno de los distintos métodos.

Para ilustrar el proceso de validación sugerido, se presenta un ejemplo sintético en la tabla 1. En este ejemplo intervienen tres rasgos diferentes, cada uno medido por tres métodos, que generan nueve variables distintas. Es conveniente nombrar las diferentes regiones de la matriz, como se hace en la tabla 1. Las confiabilidades se mencionan en términos de tres diagonales de confiabilidad, una para cada método. Las confiabilidades también podrán designarse como valores de monorrasgo-monométodo. El triángulo adyacente a cada diagonal de confiabilidad se llama triángulo heterorrasgo-monométodo. La diagonal de confiabilidad y el triángulo adyacente heterorrasgo-mono método forman un bloque monométodo. Un bloque heterométodo está formado por una diagonal de validez (que también puede designarse como valores de monorrasgo-heterométodo) y los dos triángulos heterorrasgo-heterométodo) que están a cada lado de ella. Nótese que los dos triángulos heterorrasgo-heterométodo no son idénticos.

En términos de este diagrama, la cuestión de la validez radica en cuatro aspectos. En primer lugar, las anotaciones de la, diagonal de validez deben ser significativamente diferentes de cero y suficientemente grandes para estimular un examen más amplio de la validez este requisito es una señal de validez convergente. En segundo lugar, un valor de la diagonal de validez debe ser mayor que los de su columna y renglón en los triángulos heterorrasgo-heterométodo. Es décir, el valor de la validez de una variable debe ser mayor que las correlaciones obtenidas entre esa variable y cualquier otra que no tenga en común con ella el mismo rasgo ni el mismo método. Este requisito puede parecer demasiado insignificante y obvio para establecerlo; sin embargo, un estudio de las publicaciones acerca del problema muestra que frecuentemente no queda satisfecho, aun cuando los coeficientes de validez son de magnitud considerable. En la tabla 1 todos los valores de validez satisfacen este requisito. Un tercer desiderátum de sentido común es que una variable se correlacione en mayor grado con esfuerzo independiente de medir el mismo rasgo que con mediciones de diferentes rasgos que emplean el mismo método. Ante una variable determinada, en consecuencia, es necesario comparar los valores de sus diagonales de validez con los valores de sus triángulos heterorrasgo-monométodo. Ante las variables A1 B1 y C1, este requisito se satisface en cierta medida. En las otras variables, A2, A3, etcétera, no sucede de la misma manera y este es, posiblemente, el caso típico de la investigación de las diferencias individuales, problema que veremos en seguida. Un cuarto desiderátum es que se exhiba el mismo patrón de interrelaciones de rasgo en todos los triángulos heterorrasgo de los bloques mónométodo y heterométodo. Los datos ficticios de la tabla la satisfacen este requisito en grado notable, a pesar de los diferentes niveles generales de correlación que intervienen en los varios triángulos heterorrasgo. Los tres últimos criterios evidencian la validez discriminante.

Antes de examinar las matrices multirrasgo-multimétodo existentes en la bibliografía, veamos una explicación y justificación de este complejo de requisitos.

Convergencia de métodos independientes: distinción entre confiabilidad y validez

Los conceptos de confiabilidad y validez requieren que la concordancia entre las medidas sea demostrada. Un denominador común de la mayoría de los conceptos de validez en contraste con el de confiabilidad es que el de la unión representa la convergencia de actitudes independientes: Se señala el concepto de independencia con frases como "variable externa", "ejecución de criterio", "criterio conductual" (American Psychological Association, 1954) si se usan en conexión con la validez concurrente y la predictiva. Con respecto a la validez de constructo se ha descrito de esta manera: "Numerosas predicciones acertadas que tratan de "criterios" fenótípicamente diversos dan mayor peso a la pretensión de validez de constructo que las. ... predicciones que incluyen conductas muy similares" (Cronbach y Meehl, 1955). La significación de la independencia sé repite en la mayoría de los estudios de la comprobación. Por ejemplo, Ayer, al analizar la creencia del historiador en un suceso del pasado, dice: "Si estas fuentes son numerosas e independientes y si concuerdan entre sí, se tendrá bastante confianza en que su narración es correcta". (Ayer, 1954 ). Al examinar la manera en que los conceptos científicos abstractos se ligan con las operaciones, Feigl habla de una "fijación" por "triangulación en el espacio lógico" (Feigl 1958).

La independencia es, por supuesto, cuestión de grado, y en este sentido la confiabilidad y la validez pueden verse como las regiones de un continuo (Thurstone, 1937). La confiabilidad es el grado de unión entre dos esfuerzos para medir el mismo rasgo a través de la máxima similitud de los métodos. La validez está representada por el grado de unión entre dos intentos de medir el mismo rasgo a través de la máxima diferencia de los métodos. Una confiabilidad de división en mitades se asemeja más a un coeficiente de validez que una confiabilidad inmediata de test-retest, porque los ítemes o reactivos no son completamente idénticos. Una correlación entre subtests no similares es probablemente una medida de confiabilidad, pero se acerca aún más a la región llamada validez.

Se puede llevar a cabo una evaluación de la validez aunque los dos métodos no sean enteramente independientes. En la tabla 1, por ejemplo, es posible que los métodos 1 y 2 no sean enteramente independientes. Si los rasgos subyacentes A y B lo son por completo, entonces una correlación mínima de .10 en los triángulos heterorrasgo-heterométodo reflejará la covarianza de método. ¿Qué pasará cuando el traslapamiento de varianza de método sea más alto? Todas las correlaciones en el bloque de heterométodo se elevarán, incluyendo a la diagonal de validez. El bloque de heterométodos que incluye los métodos 2 y 3 en la tabla 1 es un ejemplo de este caso. El grado de elevación de la diagonal de validez por encima de los triángulos heterorrasgo-heterométodo no deja de ser semejante y la validez relativa aún puede evaluarse. Así pues, la interpretación absoluta de la diagonal de validez requiere una afortunada coincidencia de la independencia de rasgos y la independencia de métodos, que representan los valores de cero en los triángulos heterorrasgo-heterométodo. Pero los valores de cero también pueden ocurrir a través de una combinación de correlación negativa entre los rasgos y de correlación positiva entre los métodos, o viceversa. En la práctica, tal vez no se puede esperar sino señales de validez relativa, es decir, de varianza común concreta de un rasgo más allá de la varianza común de método.

La validación discriminante.

Mientras la base general para el juicio de invalidez suele consistir en las bajas correlaciones de la diagonal de validez (por ejemplo, los tests de disposición-temperamento de Downey, Symonds, 1931), los tests también se invalidan debido a correlaciones muy altas con otros tests destinados a medir objetos diferentes. El problema clásico de los tests de inteligencia social viene al caso. Dicha invalidez ocurre cuando los valores de los triángulos heterorrasgo-heterométodo son tan altos como los de la diagonal de validez o también cuando dentro de un bloque monométodo, los valores de heterorrasgo son tan altos como las confiabilidades. Loevinger, Gleser y Du-Bois (1953) han subrayado este requisito para el desarrollo de subtests de máxima discriminación.

Cuando se ha supuesto una dimensión de la personalidad al proponer una construcción., el que propone invariablemente distingue entre la nueva dimensión y otras construcciones que se usan. No se puede definir sin implicar distinciones, y la verificación de las distinciones es una parte importante del proceso de validación. En las discusiones acerca de la validez de construcción, se han expresado términos como "desde este punto de vista, una baja correlación con la capacidad atlética puede ser justamente tan importante y alentadora como una correlación alta con la comprensión de lectura" (APA, 1954).

El test como unidad rasgo-método.

En cualquier instrumento de medición psicológica, hay formas o estímulos que se introducen con intención de representar el rasgo que se intenta medir. Hay otras formas características del método que se emplea, formas que también podrían estar presentes en los esfuerzos para medir rasgos completamente diferentes. El test, la escala de estimación u otro instrumento, casi inevitablemente producen varianza sistemática en las respuestas debido a ambos grupos de factores. En el mismo grado en que las pequeñas varianzas del método contribuyen a las puntuaciones obterüdas, éstas también son inválidas.

Esta fuente de invalidez se advirtió por primera vez en los "efectos de halo" de las estimaciones (Thorndike, 1920). Los estudios de las diferencias individuales entre animales de laboratorio revelaron los "factores de aparato", generalmente más dominantes que los factores de procesos psicológicos (Tryon, 1942). En los tests de papel y lápiz, la varianza de los métodos se ha señalado en términos como "factores de la forma del test", (Vernon, 1957, 1958) y "disposiciones de respuesta" (Cronbach, 1946, 1950; Lorge, I 1937). Cronbach se ha expresado en forma muy clara: "La suposición que se suele hacer es... que el test mide un objeto que se determina por el contenido de los ítemes. Sin embargo, la puntuación final. . , es un compuesto de los efectos resultantes del contenido del ítem y de los efectos resultantes de la forma del ítem usado". (Cronbach, 1946). "Las disposiciones de respuesta siempre disminuyen la validez lógica de un test... las de respuesta interfieren con las inferencias de los datos del test".

Si bien, E.L. Thorndike (1920) se inclinó a sostener la presencia de los efectos de halo al comparar las correlaciones altas obtenidas con nociones de sentido común en relación a lo que deberían ser (por ejemplo, no era razonable que la inteligencia y la calidad de la voz de un maestro se correlacionaran en un .63) y aun cuando gran parte de la evidencia de la varianza de la disposición de respuesta es de la misma clase, la demostración clara de la presencia de la varianza de método requiere varios rasgos y varios métodos. También altas correlaciones entre tests pueden explicarse como debidas a la semejanza básica de rasgos o a la varianza compartida del método. En la matriz multirrasgo-multimétodo, la presencia de la varianza de método está indicada por la diferencia en el nivel de correlación entre los valores paralelos del bloque monométodo y de los bloques heterométodo, si se supone que hay semejanza de confiabilidades entre todos los tests. Así, la contribución de la varianza de método en el test A1 de la tabla 1 se indica por la elevación de r_{A1 B1} por encima de r_{A1 B2}, la diferencia entre .51 y .22, etcétera.

La distinción entre rasgo y método interesa, por supuesto, a los propósitos de quien elabora el test. Lo que puede ser una indeseable respuesta de disposición para un examinador, puede ser un rasgo para otro que desee medir la aquiescencia, el gusto por adoptar una posición extrema o la tendencia a adjudicarse atributos socialmente deseables (Cronbach, 1946,1950; Edwards, 1957; Lorge, 1937).

Bibliografía existente acerca de matrices multirrasgo-multimétodo

Las matrices multirrasgo-multimétodo son raras en los estudios existentes sobre tests y medición. Más frecuentes son dos tipos de fragmentos: dos métodos y un rasgo (valores individuales aislados en la diagonal de validez quizá acompañados por una o dos confiabilidades) y triángulos heterorrasgo-monométodo. Cualquier fragmento podrá encubrir la inadecuación de nuestros actuales esfuerzos de medición, particularmente cuando no llaman la atención hacia la fuerza preponderante de la varianza de métodos. Las pruebas de validez de un test presentadas aquí son quizá más pobres de lo que esperarían la mayoría de los psicólogos.

Una de las primeras matrices de esta clase la proporcionaron Kelley y Krey en 1934. Las opiniones realizadas por sus compañeros estudiantes proporcionaron, además de un método, puntuaciones en un test de asociación de palabras. La tabla 2 presenta los datos de los cuatro rasgos más válidos. El cuadro es uno de los factores más fuertes del método, particularmente entre las estimaciones de los compañeros, y casi de una invalidez total. Para una de las ocho medidas, el impulso escolar, el valor de la diagonal de validez (.16) es más alto que todos los valores de heterorrasgo-heterométodo. La ausencia de la validez discriminante se indica más ampliamente por la tendencia de los valores dentro de los triángulos monométodo a aproximarse a las confiabilidades.

Uno de los primeros ejemplos de estudios de animales se encuentra en el examen de las pulsiones de Anderson (1937). La tabla 3 presenta una muestra de sus datos. Repetidamente, las correlaciones más altas se encuentran entre diferentes construcciones con el mismo método, lo que señala el predominio de los factores de aparato o de método característicos del campo de las diferencias individuales. La diagonal de validez del hambre es más alta que los valores heteroconstructo-heterométodo. El valor de la diagonal del sexo no está en itálicas como coeficiente de validez, pues la medida de la caja de obstrucción fue anterior a la oportunidad de sexo y la de la rueda de actualidad fue posterior a la oportunidad. Nótese que el alto nivel general de los valores heterorrasgo-heterométodo podría deberse a la correlación de varianza de métodos entre los dos métodos o a la correlación de varianza de rasgo. Sobre una base apriorística, sin embargo, los métodos parecen tan independientes como se deseen. El predominio de un factor de aparato en la rueda de actividad evidencia el hecho de que la correlación entre hambre y sed (.87) es de la misma magnitud que sus confiabilidades test-retest (.83 y .92, respectivamente).

El estudio de R.L. Thorndike (1936) acerca de la validez del Test de Inteligencia Social George Washington es el ejemplo clásico de invalidación por alta correlación entre los rasgos. Contenía el cómputo de todas las interrelaciones entre las cinco subescalas del test de inteligencia social y las cinco subescalas del Test de Agilidad Mental George Washington. El modelo exigiría que cada uno de los rasgos, inteligencia social y agilidad mental, fueran medidos por lo menos con dos métodos. Si bien en el estudio no se intentó una simetría completa puede interpretarse así sin demasiada distorsión. Para ambos rasgos existían subtests que empleaban la adquisición de conocimiento durante el periodo de prueba (es decir, el aprendizaje o memoria), tests que involucraban comprensión de pasajes en prosa y tests que exigían la actividad de dar definiciones. Si los tres subtests del Test de Inteligencia Social se consideran como tres métodos de medición de la inteligencia social, sus intercorrelaciones (.30, .23 y .31) representan valores de validez que no son solamente más bajos que sus correspondientes valores de monométodo, sino también más bajos que las correlaciones heterorrasgo-heterométodo, con lo que proporcionan un cuadro que falla totalmente al establecer la inteligencia social como una dimensión distinta. Las diagonales de validez de agilidad mental (.38, .58 y .48) igualan o exceden los valores monométodo en dos de tres casos y exceden todos los valores de control heterorrasgo-heterométodo. Estos resultados ilustran las conclusiones generales de Thorndike en su análisis factorial de la matriz total, 10 X 10.

Los datos de la tabla 4 pueden usarse para validar formas concretas del funcionamiento cognoscitivo, como las que miden los diferentes "métodos" que representa el contenido de un test de inteligencia general por una parte y el de contenido social por la otra. La tabla 5 muestra un nuevo arreglo de los 15 valores con este propósito. Los valores de monométodo y las diagonales de validez intercambian sus lugares mientras los coeficientes de control de heterorrasgo-heterométodo son los mismos en ambas tablas. Juzgados en contraste con estos últimos valores, la comprensión (.48) y el vocabulario (.47), pera no la memoria (.31), exhiben cierta validez específica. Esta trasmutabilidad de la matriz de validación apoya las comparaciones dentro del bloque heterométodo como las más pertinentes, en general, para los datos de validación e ilustra la intercambiabilidad potencial de los componentes de rasgo y método.

Algunas de las correlaciones en el talentoso estudio de Chi (1937) de los efectos de halo de las estimaciones se adecuan a la matriz multirrasgo-multimétodo, en la que cada evaluador puede considerarse como representante de un método diferente. Aun cuando el informe publicado no los hace asequibles en detalle debido a que emplea valores promediados, de la comparación de sus tablas IV y VIII se infiere que las estimaciones del mismo rasgo hechas por evaluadores diferentes fracasaron al no correlacionar más que las estimaciones de diferentes rasgos hechas por el mismo evaluador. La validez se exhibe en la medida en que las correlaciones de la diagonal de validez del bloque heterométodo son más altas que los valores promedio heterorrasgo-heterométodo.

Campbell (1953, 1956) proporciona una matriz multirrasgo-multimétodo manifiestamente insatisfactoria con relación a la estimación de la conducta como líderes de oficiales, hecha por sí mismos y por sus subordinados. Solamente 1 de las 11 variables (la conducta de reconocimiento) satisfizo el requerimiento de proporcionar de la diagonal de validez, un valor más alto que cualquiera de los valores heterorrasgo-heterométodo, de .29. Ninguna de las variables tuvo valores de validez más altos que los de heterorrasgo-heterométodo.

Un estudio de las actitudes ante la autoridad y la no autoridad realizado por Burwen y Campbell (1957) contiene una compleja matriz multirrasgo-multimétodo de la cual se muestra un extracto simétrico en la tabla 6. Hubo una fuerte varianza de método para la mayoría de los procedimientos del estudio. Se encontró validez primordialmente en el nivel de los valores de la diagonal de validez mayores que los de heterorrasgo -heterométodo. Como se ve en la tabla 6, la actitud hacia el padre mostró esta clase de validez, del mismo modo que la actitud hacia los compañeros, pero en un grado menor. La actitud hacia el patrón no mostró validez. No hubo evidencia de una actitud generalizada hacia la autoridad que incluyera padre y patrón, aunque valores como la correlación de .64 entre padre y patrón, medidos por entrevista, parecería confirmar la hipótesis de que se encuentran aislados.

Borgatta (1954) ha proporcionado un estudio complejo de multimétodo, del cual la tabla 7 es un extracto que ejemplifica la evaluación de dos rasgos por cuatro métodos diferentes. Para todas las medidas excepto una, la correlación más alta es la de aparato, es decir, con el otro rasgo medido por el mismo método en lugar del mismo rasgo medido por diferente método. Ninguno de los rasgos encuentra validación consistente para el requisito de que las diagonales de validez excedan los valores control heterorrasgo-heterométodo. Como requisito mínimo, podría pedirse que la suma de los dos valores de la diagonal de validez exceda la suma de los dos valores control, para proporcionar una comparación en la que las diferencias de confiabilidad o comunalidad sean burdamente "parcial¡zadas". Esta condición se logra al nivel puramente fortuito de tres veces en las seis tétradas. Esta matriz proporciona una clase interesante de independencia metodológica. Las dos medidas "sociométricas de otros", si bien representan los juicios del mismo grupo de los compañeros participantes, proceden de distintas tareas; la popularidad se basa en la expresión de cada participante de sus preferencias de amistad, mientras que la expansividad se basa en lo que cada participante adivinó con respecto a las elecciones de otros participantes, de las que se ha calculado la reputación de cada participante por la porción de simpatía de otras personas, es decir, la cualidad "expansiva". junto a esta considerable independencia, la certidumbre de un factor de método es relativamente baja en comparación con los procedimientos de observación. De igual modo, las dos medidas "sociométricas por sí mismo" representan tareas completamente distintas; la popularidad procede de las elecciones que estima le adjudicarán los otros; la expansividad, del número de expresiones de atracción hacia otros que hace en la tarea sociométrica. En contraste, las medidas de popularidad y expansividad según las observaciones de interacción de grupo y el juego de papeles no solamente implican los mismos observadores específicos, sino también que los observadores estimaron el par de variables como parte de la misma tarea de estimación en cada situación. El grado aparente de varianza de método dentro de cada una de las dos situaciones de observación y la varianza de método aparentemente compartida entre ellas es, en consecuencia, alta.

En otro artículo de Borgatta (1955), doce variables del proceso de interacción se midieron por medio de la observación cuantitativa en dos condiciones y un test proyectivo. En este test, los estímulos fueron cuadros de grupos, para los cuales los sujetos generaron una serie de intercambios verbales que fueron calificados después en las categorías de análisis del proceso de interacción. Como ejemplo, la tabla 8 presenta los cinco rasgos que tuvieron la más alta media de comunidades en el análisis factorial total. Entre los dos métodos observacionales más semejantes, la validación es excelente; las diagonales de validez son en general más altas que los valores de heterorrasgo de los bloques heterométodo y monométodo, casi intachablemente así para los incisos "da opinión" y "da orientación". El patrón de correlación entre los rasgos también es generalmente confirmado.

De mayor interés, debido a su mayor independencia de métodos, son los bloques que contienen el test proyectivo. Aquí el cuadro de validez es mucho más pobre. El inciso "da orientación" sale mejor, pues sus valores de validez de test proyectivo .35 y .33 son superados solamente por tres valores de monométodo y no lo son por ninguno de los valores de heterorrasgo-heterométodo dentro de los bloques proyectivos.

El especialista en tests proyectivos puede objetar las expectativas implícitas de una correspondencia de uno a uno entre la acción proyectada y la acción abierta. Las expectativas no deben atribuirse a Borgatta y no son necesarias para el método propuesto. Para el modelo simétrico simple se ha supuesto que las medidas son denominadas en correspondencia con las correlaciones esperadas, es decir, en relación con los rasgos que los tests afirman. Nótese que en la tabla 8, "da opinión" es el mejor pronóstico del test proyectivo de "manifiesta desacuerdo" en conducta libre y en desempeño de errores. Si fuera asequible un fundamento teórico apropiado, los valores podrían considerarse de validez.

Mayo (1956) ha hecho un análisis de las puntuaciones de test y las estimaciones de esfuerzo e inteligencia, para juzgar la contribución del halo (una clase de varianza de método) a las estimaciones. Como lo muestra la tabla 9, el cuadro de validez es ambiguo. El factor de método o efecto de halo en las estimaciones es considerable aunque la correlación entre las dos estimaciones (.66) está muy por debajo de sus confiabilidades (.84 y .85). Las medidas objetivas no comparten un traslapamiento apreciable de aparato porque fueron operaciones independientes. A pesar del argumento de Mayo acerca de que las estimaciones tienen alguna varianza de rasgo válida, el valor heterorrasgo-heterométodo de .46 desprecia seriamente los notorios valores de validez de .46 y .40.

Cronbach (1949) y Vernon (1957, 1958) han estudiado la matriz multirrasgo-multimétodo de la tabla 10, basada en datos originalmente presentados por H.S. Conrad. Con una técnica semejante, Vernon estima que el 61% de la varianza sistemática se debe a un factor general, a saber, que e1 21,5% proviene de los factores de forma del test propios de las formas verbales o gráficas de los ítemes o reactivos y que solamente el 11,5% proviene de los factores de contenido propios de contenidos eléctricos o mecánicos. Nótese que para los propósitos de estimación de la validez, la interpretación del factor general, que estima a partir de valores de heterorrasgo-heterométodo de .49 y .45, es equívoca. Puede representar la varianza deseada de competencia, es decir, componentes comunes a destrezas eléctricas y mecánicas que tal vez resultan de una experiencia general en almacenes industriales, de componentes comunes de capacidad, del traslapamiento de situaciones de aprendizaje y de otras semejantes. Por otra parte, este factor general puede representar un traslapamiento de factores de método, y deberse en ambos tests, a la presencia de formato de (temes o reactivns de elecraon múltiple, hojas de respuesta IBM, o a la heterogenidad de los sujetos en cuanto a su escrupulosidad, su motivación para hacer tests y su adulteración al realizarlo. Mientras no se introduzcan en la matriz de validación métodos aun más diferentes y rasgos aun más independientes, este factor continuará sin interpretación. Desde este punto de vista, puede notarse que el 21,5% es muy pobre como estimación de la varianza total de la forma del test en los tests, pues representa solamente componentes de la forma del test propios de los ítemes verbales o gráficos, es decir, componentes de la forma del test que no comparten las dos formas. De igual forma, y sobre bases más esperadas que reales, el 11,5% de la varianza de contenido es una estimación muy pobre de la varianza verdadera total de rasgo de los tests, pues representa solamente la varianza verdadera de rasgo que no comparten el conocimiento eléctrico y mecánico.

Carroll (1952) ha proporcionado datos sobre el inventario de Guilford-Martin de los factores STDCR y las estimaciones relacionadas, que pueden ser dispuestos de una nueva manera en la matriz de la tabla 11. (La variable R ha sido invertida para reducir el número de correlaciones negativas). Puede pensarse que dos de los métodos, las estimaciones de sí mismo y las puntuaciones de inventario, comparten varianza de método y que, por tanto, tienen una diagonal de validez "inflada". Los bloques heterométodo más independientes que contienen las estimaciones de los compañeros tienen validez discriminante y convergente, con diagonales de validez que promedian .33 (el inventario multiplicado por las estimaciones de compañeros) y .39 (las estimaciones de sí mismo multiplicado por las estimaciones de los compañeros) en contraste con los valores de control heterorrasgo-heterométodo que promedian .14 y .16. Aunque no es del todo eficaz, el cuadro es mejor que la mayoría de las matrices de validez que hemos visto. Nótese que las "estimaciones de sí mismo" muestran diagonales de validez ligeramente más altas que las puntuaciones de inventario, a pesar de la mayor longitud e indudablemente mayor confiabüidad del segundo. Además, parece que un factor de método falta casi totalmente en las estimaciones de sí mismo, mientras está fuertemente presente en el inventario, de manera que las estimaciones de sí mismo quedan mejor cuando la verdadera varianza del rasgo se expresa como proporción de la varianza total confiable [como sugiere Vernon (1958)]. El factor de método en el inventario de STDCR es indudablemente acrecentado por la calificación del mismo ítem o reactivo en varias escalas, lo que contribuye a la varianza de error correlacionada, que puede reducirse sin perder confiabilidad mediante el recurso de agregar otros ítemes equivalentes y calificar cada ítem solamente en una escala. Debe notarse que Carroll hace un uso explícito de la comparación de la diagonal de validez con los valores de heterorrasgo-heterométodo como indicación de validez.

subir índice

Artículo julio 2007

Análisis de reactivos y confiabilidad

Las técnicas para determinar cuáles reactivos se deben conservar en una escala se llaman técnicas de análisis de reactivos. Dicho en forma más sencilla, se seleccionan los reactivos que se correlacionan más estrechamente con los demás reactivos de la escala. Obviamente, los reactivos que se correlacionan más con cada uno de los otros también se correlacionarán más estrechamente con la puntuación total de la escala, que depende de la suma de aquéllos. El procedimiento más directo de análisis de reactivos tal vez sea la técnica de correlación de reactivo con el total, en la que basta con seleccionar los reactivos que tengan las correlaciones más altas con la puntuación total.

Gran parte de la teoría del análisis de reactivos en la medición educativa se basa en reactivos dicotómicos y no policotómicos. Como esta última clase de reactivos es más importante en la medición de actitudes, se omiten aquí las fórmulas de reactivo can el total respecto de dicotomías, que suelen presentarse en las técnicas de análisis de reactivos. La mayoría de las fórmulas omiten, de la puntuación total, el reactivo en estudio, porque cuando éste se incluye la correlación resultante del reactivo con el total es espuriamente alta (Zubin, 1934; Guilford, 1954; Henrysson, 1963). Sin embargo, recientemente Cureton (1966) señaló que la confiabilidad de la escala total con el reactivo omitido varía inversamente a la confiabilidad de dicho reactivo. De esta manera, Cureton sugiere que el reactivo omitido se reemplace con un reactivo razonablemente equivalente (paralelo) en la puntuación total. Hacer esto deja sin modificación la confiabilidad de la escala total. Cureton demostró también que, si podemos suponer que la escala es homogénea factorialmente (monodimensional), entonces no necesitamos realmente reemplazar el reactivo estudiado con uno razonablemente equivalente. Si p_i,x es la correlación, no corregida de reactivo con el total para el reactivo iésimo, S_i = σ־i/σ־x, pxx' es la confiabilidad de la escala total; entonces, de acuerdo con Cureton, la correlación corregida de reactivo con el total pi,x• para el reactivo i-ésimo es

(21)

La fórmula (21) es cierta para todos los reactivos ya sean o no dicotómicos. Para usar (21) también necesitamos conocer la fórmula para las correlaciones no corregidas de reactivo con el total. Dicha fórmula es

(22)

donde j toma todos los valores, incluyendo i. Usando la información de arriba, podemos computar un ejemplo usando (21). Consultando la tabla 1, computaremos la correlación de reactivo con el total para el reactivo 1. Empezaremos por computar la correlación no corregida. El numerador de (22) es sencillamente .534 + .115 +. . . + .129 = 1.55

Sustituyendo este valor en (22) obtenemos

pi,x = 1.55/√.5341√ 12.508 = .597

que es la correlación no corregida de reactivo con el total. Vimos antes que pxx'=.70. Calculando Si = √.534 / √12.508 = .206, podemos computar la correlación corregida. Esta es

Nótese que la correlación no corregida es aproximadamente .15 más grande que la corregida, que es una cantidad insignificante.

Cuando no se tiene una gran colección de reactivos, deben seleccionarse aquellos que tengan las mejores correlaciones de reactivo con el total, en su escala. Sin embargo, deben recordarse tres puntos importantes: Primero, como lo indica la figura 1, la confiabilidad se incrementa sólo ligeramente al agregar reactivos indefinidamente, así que por lo común se usarían no más de 15 reactivos en una sola puntuación. Segundo, la fórmula (21) admite una sola dimensión que fundamenta los reactivos y, a medida que se incrementa el número de estos, tal suposición se vuelve cada vez menos sostenible. Tercero, cuanto mayor es el número de reactivos, tanto más largo es el tiempo requerido para aplicar la escala. Por tanto, se pueden tener muchos o pocos reactivos. Sin embargo, la experiencia indica que lo último representa frecuentemente mayor problema que lo primero.

Aunque este estudio de la confiabilidad es algo superficial, es suficiente para proporcionar al investigador que desea elaborar una escala de actitud las técnicas para estimar la confiabilidad de su instrumento de medida. Finalmente, es importante percatarse de las limitaciones del método particular escogido. No existe manera de determinar la confiabilidad exacta de un instrumento. Solamente podemos obtener estimaciones y estas son adecuadas únicamente en el grado en que se usen muestras adecuadas y en el grado en que se satisfagan las suposiciones básicas de una técnica particular de estimación.

Pasaremos ahora al estudio del segundo aspecto importante para decidir el valor de una escala de actitud: su validez.

VALIDEZ

La validez tiene varios significados diferentes. Sin embargo, puede darse una definición muy general: La validez indica el grado en que un instrumento mide la construcción que está en estudio. Así, un test de inteligencia verbal válido es el que mide la inteligencia verbal y no alguna otra capacidad; una medida válida de sociabilidad solamente mide ésta. Esto es, sin embargo, solo una simplificación, pues la validez puede descomponerse en varios tipos. La Asociación Norteamericana de Psicología (American Psychological Asociation) (1966) en su Estándares de test y manuales educativos y psicológicos enumera tres tipos:

a) validez de contenido;

b)validez relacionada con un criterio y

c) validez de construcción.

Validez de contenido

La validez de contenido se refiere al grado en que las puntuación o escala usada representa el concepto acerca del cual se van a hacer generalizaciones. Aunque la validez de contenido se considera cuidadosamente en la elaboración de tests de aprovechamiento y de eficiencia, suele en cambio ignorársela en la elaboración de escalas de actitudes. Muchos investigadores, dentro de la rama de medición de actitudes, se han conformado con desarrollar un grupo de reactivos que, sobre una base ad hoc, creen que miden lo que desean medir.

El investigador necesita examinar cuidadosamente la bibliografía respectiva para determinar cómo han usado el concepto los diferentes autores. Además, aquél debe confiar en sus propias observaciones y experiencias y preguntar si ofrecen nuevas facetas del concepto en estudio. Entonces, puede elaborarse una serie de reactivos que midan cada uno de los subestratos, del dominio del contenido, procedimiento conocido como muestreo de un dominio de contenido, Los instrumentos de medida muestran validez de contenido en el grado en que el muestreo del dominio del contenido sea representativo de todos los estratos y en el grado en que los reactivos elaborados exploren las sutilezas de significado dentro de cada uno de estos estratos.

La alienación es, por ejemplo, un concepto que ha recibido gran atención; y Seeman (1959) advierte que teóricos e investigadores lo han usado por lo menos de cinco maneras diferentes: impotencia, carencia de significado, carencia de normas, aislamiento y autoenajenación. Es fácil apreciar que alienación se superpone al concepto de "anomia" (carencia de normas). Un poco de reflexión produce otros conceptos que deben considerarse para elaborar una medida de la alienación: apatía, disensión, extrañeza, privación de derechos, y así sucesivamente. La cuestión aquí es que los investigadores usan volublemente la alienación no obstante que tiene diferentes significados. Conceptualmente, la alienación no es monodimensional en absoluto. Lo que quizá se necesita son varias medidas, cada una de las cuales capte uno de los diversos significados conferidos al concepto. Es probable que la validez de contenido se haya ignorado por la enorme dificultad que lleva en sí la elaboración de una escala o un conjunto de escalas que muestren un dominio de contenido. Pese a esto debe aclararse definitivamente que las medidas ad hoc poco es lo que nos dicen acerca de lo bien que una medida explora los diversos estratos del dominio de contenido. Los diferentes investigadores que emplean el mismo término (por ejemplo, alienación) pueden obtener resultados diferentes en la predicción de variables dependientes sencillamente porque en realidad están midiendo diferentes facetas de la construcción. Afirmaciones como "La inteligencia es lo que miden los tests", representan un extremo en el operacionalismo, que, de ser seguido, impediría el desarrollo de las ciencias sociales como verdaderas ciencias. Cuando un investigador desarrolla una medida de alienación, le corresponde también describir el fundamento (teoría e investigación) que justifique llamar a una escala, elaborada con un conjunto particular de ítemes, escala de "alienación".

La validez de contenido no es fácil de lograr en la mayoría de las puntuaciones o escalas, ya que comúnmente no podemos enumerar todos los elementos de su población (el dominio) y, por lo mismo, una muestra de ellos. Es imposible, de ordinario, definir la población con rigor óptimo a menos que se elabore algo semejante a un test de vocabulario, mediante el cual pueda usarse un diccionario para enumerar la población. Por consiguiente, corresponde al investigador explicar cómo ha determinado las fronteras del dominio en estudio. Es necesario indicar cómo los reactivos utilizados aprehenden los diferentes significados que los teóricos que lo han investigado le confieren a determinado concepto. Y deben señalarse, además, las lagunas lógicas que haya en estas dos fuentes.

No hay un criterio estadístico aislado que pueda usarse para determinar si se ha muestreado adecuadamente o no el dominio del concepto. Tampoco puede computarse un sólo coeficiente de validez de contenido. Sin embargo, el investigador puede tomar varias precauciones para estar seguro de la representación de los diferentes matices de significado que haya dentro del dominio.

Primero, el dominio puede estratificarse en sus principales componentes. Uno emplea simplemente los significados o facetas más importantes y evidentes del concepto, procurando estar tan seguro como sea posible de que la estratificación agota los significados del dominio. Uno puede decidir tomar cierto estrato y dividirlo en subestratos, si el mencionado estrato no parece representar una sola dimensión. De esta manera, la impotencia puede subdividirse en impotencia política, económica y familiar, y así sucesivamente. Cuanto más se refinen estas subáreas, tanto más fácil será elaborar posteriormente los reactivos.

Segundo, pueden escribirse varios reactivos para captar los matices de significado asociados a cada estrato y subestrato. "Varios" significa no menos de siete a diez reactivos. Se puede decidir cada vez no incluir un reactivo en una escala después que se han reunido los datos; pero un reactivo que no se incluyó se pierde para siempre. Esto es importante porque se encuentra a menudo que varios reactivos no se comportaron de la manera esperada. Si solamente se usan cinco reactivos para captar un estrato dado y se omiten dos reactivos de la escala porque el análisis de reactivos indique que no se correlacionan bien con los otros, debe construirse una escala de tres reactivos. Como vimos en la sección sobre confiabilidad, el número de reactivos en la escala de un investigador es importante para determinar la amplitud de su estimación de la confiabilidad. Rara vez son muy confiables las escalas de tres reactivos. Puede descubrirse que lo que se creyó un concepto monodimensional es realmente bidimensional. Desafortunadamente, se puede terminar con sólo tres reactivos para medir una dimensión y con dos para la otra. Cuando se tienen diez reactivos y se encuentra con un grupo de tres reactivos, separado de los otros siete, el grupo principal contendrá por lo menos siete reactivos.

Tercero se puede analizar los grupos de reactivos después que se han recogido los datos para determinar si los reactivos elaborados para medir el significado de un estrato dado están ya juntos. Determinar si los reactivos de un estrato se correlacionan más estrechamente entre sí que con los reactivos de otros estratos. La suposición que se hace es la siguiente: si un conjunto de reactivos mide realmente un rasgo o actitud subyacente, entonces este rasgo o actitud provoca la covariación entre los reactivos. Cuanto más altas sean las correlaciones tanto mejores serán los reactivos que miden la misma construcción subyacente. Se puede proceder de las maneras siguientes:

1. computar el promedio de las intercorrelaciones dentro de un estrato y compararlo con la correlación promedio de estos mismos reactivos con reactivos incluidos en los otros estratos. La correlación promedio dentro del grupo debe ser más alta que las correlaciones promedio entre los grupos. Si la correlación promedio entre los grupos es más alta que la correlación promedio dentro de los grupos, los reactivos de un grupo, en promedio, pueden usarse para predecir las respuestas a los reactivos de los otros estratos mejor de lo que podrían predecir las respuestas a los reactivos dentro del estrato al que pertenecen. Esto indicaría muy seguramente que uno o más de los reactivos del grupo no pertenecen al estrato al que fueron asignados originalmente.

2. Verificar las intercorrelaciones de cada reactivo con cada uno de los demás del estrato, y comparar estas correlaciones del reactivo con las de los reactivos de los otros estratos. Cuando un reactivo se correlaciona un poco más dentro de su propio estrato que dentro de otros, probablemente pertenezca al estrato donde está. Cuando este no es el caso, es preciso localizar el estrato con el que, en promedio, se correlaciona más altamente. Es decir, averiguar dónde se ajustan mejor estadísticamente los reactivos. Sin embargo es necesario decidir después si el contenído del reactivo mal colocado concuerda con el del estrato al que se ha trasladado, ya que también debe ajustar semánticamente en el estrato.

Un reactivo que se correlaciona casi igualmente bien en dos estratos, por lo general no es un buen reactivo. No es conveniente porque está en la frontera entre dos estratos. Incluirlo dentro de uno de los grupos producirá una correlación algo más alta entre las dos puntuaciones, que si fuera sencilla y enteramente omitido. En resumen, aunque no puede demostrarse la validez de contenido con un sólo coeficiente, pueden aplicarse procedimientos estadísticos y lógicos para asegurar que los reactivos tengan validez de contenido.

Validez relacionada con un criterio

La validez relacionada con un criterio se determina correlacionando la medida realizada con una medida directa de la característica en investigación. Los criterios se dividen generalmente en concurrentes y predictivos. Una escala de actitud diseñada para medir la ortodoxia religiosa puede evaluarse concurrentemente preguntando sobre la asistencia a la iglesia. Algunos instrumentos como los tests de actitud y de rendimiento, se diseñan solamente con propósitos de predicción. Pueden usarse para predecir el éxito en el trabajo o para predecir el éxito o fracaso en la universidad y así sucesivamente. Determinar qué es concurrente y qué es predictivo no siempre resulta fácil. Sin embargo, los criterios predictivos se reservan generalmente para pronósticos de largo alcance.

Debe quedar claro que una escala que tenga validez concurrente no necesariamente tendrá validez predictiva. Un conjunto de reactivos, que mide las creencias políticas, puede correlacionarse en alto grado con el partido por el que una persona cree que votará en noviembre. Sin embargo, la escala puede correlacionarse algo menos con la conducta real del mismo sujeto. Las actitudes cambian con el tiempo y, por tanto, la relación que mantienen con la conducta es algo menos que de uno a uno.

En tanto que la validez de contenido no es demostrable con un solo coeficiente, la relacionada con un criterio sí. Como se indicó anteriormente, todo lo que hace el investigador es correlacionar su escala con el criterio, y este coeficiente de correlación es el que se toma como coeficiente de validez. Sin embargo, este coeficiente puede atenuarse por falta de confiabilidad, ya en la escala o en el criterio mismo. El método de corrección de no confiabilidad es la corrección por atenuación [fórmula (14)]. Por tanto, si una medida de ortodoxia religiosa tiene una confiabilidad de .8 y la confiabilidad de la medida de asistencia a los servicios religiosos es .9, y las dos medidas tienen entre sí una correlación de .6, la correlación verdadera estimada entre las dos variables es de

.6 / √(.8) (.9) = .71. Es decir, la varianza de la asistencia a la iglesia, explicada por la ortodoxia, aumenta aproximadamente el 14 % cuando se tiene en cuenta la falta de confiabilidad de las dos variables[ (.71)² - (.60)² = .14]. Como se indicó anteriormente, la correlación corregida es solamente una estimación de la correlación verdadera entre las variables ya que todos los componentes tienen distribuciones relativas a las muestras. Sin embargo, cuando se tienen muestras grandes y buenas estimaciones de confiabilidad, la correlación corregida entre una escala y un criterio puede suministrar información útil acerca de la validez de dicha escala.

Muchas de las construcciones de interés en la investigación de actitudes no tienen, ciertamente, un sólo criterio con el que pueda comprobarse la validez de la medida que se posee. El "criterio" puede ser muchas veces una medida más falsa de la construcción que la escala elaborada. Por ejemplo, este puede ser el caso de las estimaciones de las características de personalidad hechas por psiquiatras. Esta es una razón de lo indeseable que sería eliminar una escala como medida inválida debido a una correlación cercana a cero, a menos que se estuviera convencido relativamente de la validez del criterio mismo. En la sección siguiente, consideraremos otros métodos de validación cuando no existe un sólo criterio "sólido".

Validez de construcción

La validez de construcción se evalúa investigando qué cualidades mide un test, es decir, determinando el grado en que ciertos conceptos o construcciones explicatorias dan razón de la ejecución en el test (Asociación Americana de Psicología, 1966, pág. 13). Las Recomendaciones técnicas de la APA, indican además que los estudios de validez de construcción se efectúan para validar la teoría que fundamenta la escala, puntuación o test elaborado. El investigador valida sus escalas investigando si confirman o niegan las hipótesis procedentes de una teoría que se basa en las construcciones. Por supuesto, una de las limitaciones de este procedimiento es que la incapacidad para predecir conforme a las hipótesis puede ser resultado de falta de validez de construcción o de una teoría incorrecta. No obstante, aquí nos desentenderemos de este problema.

La validez de construcción se desarrolló para reemplazar la plétora de términos como "validez de aspecto", "validez lógica", "validez intrínseca", "validez factorial" y "validez de rasgo", que habían ido surgiendo al paso de los años. Estos conceptos tenían diferentes matices de significado, pero todos estaban ligados por la noción de que un rasgo o construcción subyacente explicaba la varianza de la medida obtenida. A diferencia de muchas construcciones de las ciencias físicas, pocas de aquellas en las ciencias sociales están definidas operacionalmente, es decir, no hay aceptación general de conjuntos de operaciones como definiciones de construcciones. Cuando no hay aceptación de definiciones operacionales dentro de una disciplina, los investigadores se muestran a veces altaneros y exclaman: "anomia" es lo que miden estos cinco reactivos". Sin embargo, cuando solo unos cuantos investigadores de determinada ciencia están dispuestos a conformarse con la definición operacional se sobreviene la confusión. Diferentes investigadores usan el mismo nombre de una construcción (por ejemplo, "anomia"), pero cada uno con significado algo diferente. Cuando esto sucede, las generalizaciones en torno a la construcción son imposibles de hacer ya que realmente no hay una sola construcción en investigación, sino una multitud de construcciones. Dado que no están especificadas exactamente muchas de las construcciones de las ciencias sociales, es improbable la aceptación de definiciones operacionales. Por tanto, es relativamente raro que se pueda correlacionar su medida con alguna variable de criterio real para evaluar su validez. En su lugar, son necesarios procedimientos de validación más indirectos y esto señala la necesidad del concepto de validez de construcción.

Debido a la falibilidad de cualquier criterio aislado, necesitamos validar nuestra medida de X con varias medidas independientes, las cuales midan supuestamente a X. Figurémonos, por ejemplo, que estamos interesados en elaborar una escala para medir el grado de la tendencia a ser conservador en lo económico. Podríamos elaborar diez reactivos que averigüen las opiniones acerca del laissez-faire del gobierno, la ayuda gubernamental a la educación y así sucesivamente, de parte de todos los individuos que contesten directamente. Sin embargo, para validar la escala elaborada con estos diez reactivos podríamos pedir a los tres mejores amigos de cada sujeto interrogado que complete los reactivos en la forma que creen los completaría el sujeto. Una tercera medida sería incluir una estimación personal, del sujeto acerca de la semejanza de su propia filosofía con la de varios individuos bien conocidos y podría sugerirse que la varianza en los diez reactivos se debería realmente no al hecho de ser conservador económicamente sino a la clase social o a la inteligencia. Podemos correlacionar nuestra medida original de conservadurismo económico con las dos medidas independientes del mismo aspecto y con las medidas de clase social y de inteligencia. Idealmente, las tres medidas independientes de conservadurismo económico se correlacionarían estrechamente entre sí y, además, la medida original no se correlacionaría grandemente con las medidas de clase social y de inteligencia. Si tal sucediera, ello nos alentaría al grado de aceptar la escala como una medida válida de conservadurismo económico. Sin embargo, supongamos que encontramos no solamente altas correlaciones entre nuestras tres medidas, sino también entre nuestra escala de clase social y de inteligencia. Estas últimas correlaciones no invalidarían nuestra escala si por razones teóricas esperáramos estas correlaciones. Es decir, si la teoría política predice una alta correlación positiva entre conservadurismo económico y clase social, y esto realmente sucede, se válida igualmente la medida. Sin embargo, las correlaciones entre las tres medidas de conservadurismo económico deben ser más altas que las correlaciones de la escala con otras variables, ya que son medidas de la misma construcción.

También debe quedar claro que una escala no debe correlacionarse mucho con medidas de contenido diferente. Este es un requisito especialmente importante cuando se desarrollan varias escalas para medir las diferentes facetas de un dominio multidimensional. Por ejemplo, si se encuentran cinco facetas en el dominio de alienación, éstas no deben correlacionarse mucho entre sí; en caso contrario, habría lugar a sospechar que el concepto no es multidimensional después de todo y que los reactivos deben incluirse en una sola puntuación. ¿Cuándo determinamos que las escalas se correlacionan demasiado entre sí? Cuando hay varias medidas independientes de cada una de las cinco dimensiones, las medidas independientes de la misma construcción deben correlacionarse más entre sí que con cualquier medida de cualesquiera otras de las construcciones. Un intento por validar escalas examinando de esta manera una matriz de correlaciones, ha sido realizado por Campbell y Fiske (1959) y se llama procedimiento de multirrasgo-multimétodo. En el capítulo 4 se expone detalladamente el método, por lo que no lo tratamos aquí con amplitud.

Brevemente, Campbell y Fiske sugieren dos tipos de validación no mencionadas explícitamente en las Recomendaciones técnicas de la APA, pero que caen bajo el encabezado de validez de construcción. El primer tipo, la validación convergente, es la confirmación de una relación por procedimientos independientes de medida. Por ejemplo, si se estuviera interesado en estudiar el prejuicio (digamos, en una situación de laboratorio), podrían obtenerse estimaciones sobre sí mismo de parte de un sujeto mediante una serie de reactivos que midieran actitudes hacia grupos minoritarios y, al mismo tiempo, que se obtuvieran estimaciones de prejuicio, atribuibles al sujeto por sus tres mejores amigos. Una tercera medida de prejuicio podría ser una reacción fisiológica (por ejemplo, la presión sanguínea) al ver una película donde individuos de varios grupos étnicos y raciales interaccionaran en una diversidad de situaciones (por ejemplo, jugar a las cartas, citarse con personas del sexo opuesto, y así sucesivamente). Podrían después correlacionarse estas tres medidas separadas de prejuicio. Cuanto más altamente se correlacionaran entre sí las medidas separadas, tanto mayor sería la validez convergente.

La segunda clase de procedimiento de validación, mencionada por Campbell y Fiske, es la validación discriminante. La validación discriminante no necesita establecerse cuando el dominio no es monodimensional. Se refiere al hecho de que las escalas que se correlacionan demasiado alto entre sí pueden estar midiendo la misma construcción y no diferentes. Así, si uno elabora una medida y la llama "fatalismo", y después otra a la que denomina "anomia", necesita demostrar que son construcciones diferentes correlacionando entre sí las medidas y mostrando que la correlación es más baja que las correlaciones entre medidas de la misma construcción. ¿Qué puede hacerse cuando las medidas de construcciones diferentes se correlacionan demasiado alto? Pues, sencillamente, deben verificarse las correlaciones de cada reactivo con cada uno de los demás tanto dentro como entre los grupos. Los reactivos que se correlacionan más alto dentro de otro grupo probablemente pertenezcan a aquél y no al escogido originalmente.
El análisis factorial también puede ser muy útil a) para determinar la dimensionalidad de un dominio y b) para seleccionar los reactivos que se ajusten mejor a los diferentes estratos del dominio. Esta técnica proporciona la correlación de cada reactivo con cada faceta del dominio (tales facetas se llaman "factores"). Los reactivos que se correlacionan bastante con un sólo factor reciben clara preferencia en la elaboración de escalas.

Aunque el asunto parece haberse resuelto, ha habido mucha controversia acerca de la posición lógica del concepto de validez de construcción desde su aparición en la edición de 1954 de las Recomendaciones técnicas. En particular, Bechtaldt (1959), que contestó no solamente a la declaración de las Recomendaciones técnicas, sino también al estudio ampliado del concepto realizado por Crombach y Meehl (1955), mantuvo que las definiciones operacionales son necesarias desde el punto de vista filosófico y que la introducción de un término como validez de construcción va en contra de la metodología operacional.

RELACIÓN ENTRE CONFIABILIDAD Y VALIDEZ

Aunque las definiciones verbales de confiabilidad y validez hacen una distinción muy clara de estos dos conceptos, hay casos donde esta distinción está considerablemente oscurecida. Tal confusión se da especialmente cuando se considera la consistencia interna como confiabilidad. Es patente que, si se tienen n reactivos paralelos aplicados simultáneamente, estos proporcionan al instante varios test-retests. No obstante, otro aspecto es que todas las correlaciones entre estas variables manifiestas se deben a las correlaciones entre cada una de ellas y alguna construcción, rasgo o factor subyacente. Estas últimas correlaciones indicarían la validez de cada reactivo, dado que indican el grado en que cada uno de ellos se correlaciona con lo que se desea medir, es decir, la construcción subyacente. La relación entre estas dos perspectivas sugiere la existencia de una estrecha relación entre confiabilidad y validez. Como Lord y Novick lo demuestran, la relación está dada por

(23) P²_xt = P_xx'.

El cuadrado del coeficiente de validez (donde la validez se define como la correlación de una puntuación observada y su puntuación verdadera) es igual a la confiabilidad de la escala. Sin embargo, Lord y Novick señalan además que la validez determinada por la correlación de la puntuación con algún criterio "externo" nunca puede exceder a la correlación de una puntuación observada con su puntuación verdadera, es decir,

(24) P_xz≤ P_XT √P_xx'

donde Z es el criterio. La implicación de (24) es clara: la correlación de una escala con un criterio nunca puede exceder a la raíz cuadrada de la confiabilidad de la escala. Así, si se tiene una medida con una confiabilidad baja, digamos de .64, esa medida nunca se correlacionará a más de .8 con otra medida. Esto demuestra que la confiabilidad y la validez van juntas. Si no se puede medir confiablemente una actitud, nunca podrá predecir, con ella, ninguna conducta real.

Sin embargo, es preciso cuidarse de no interpretar erróneamente la fórmula (23). No es cierto que la validez de una escala pueda determinarse simplemente obteniendo la raíz cuadrada de su coeficiente de confiabilidad. Existen varias razones para tal negativa. Primero, la raíz cuadrada del primer miembro de (23) es la correlación de la escala con cualquier cosa que la escala mida. Y lo que realmente mida puede o no ser lo que se desea que mida. Dicho de otra manera, (23) no nos dice nada acerca de la validez de contenido o de construcción de la escala. Segundo, podemos obtener solamente una estimación de la confiabilidad y, si usamos (23) para estimar la validez, las dos estimaciones serán totalmente dependientes. Le corresponde al investigador presentar fa validación independiente, conforme a Campbell y Fiske. En realidad, ellos indican que el concepto de independencia es una manera de distinguir la confiabilidad y la validez. La validez es la correlación entre medidas de la misma construcción cuando dichas medidas son independientes al máximo. La confiabilidad refleja el grado, de acuerdo entre métodos que guarden entre sí la máyor semejanza posible.

Para resumir, existe sin duda una relación íntima entre confiabilidad y validez, pero los procedimientos de validación deben ser independientes de los que establecen la confiabilidad de la escala.

RESUMEN

El objetivo de la ciencia es explicar relaciones entre variables. El logro de este objetivo depende en gran parte de la capacidad del investigador para medir sus variables con el menor error posible. Como se indicó, los errores de medida tienden a distorsionar las relaciones entre las variables. Además, necesita interesarse en que sus medidas sean válidas, esto es, que midan lo que se proponen medir. Si van a medirse relaciones hipotéticas entre las variables, el investigador necesita estar seguro de que sus medidas de las variables sean confiables y válidas.

En este capítulo hemos procurado exponer varias de las maneras diferentes cómo los investigadores comprenden los conceptos de confiabilidad y validez, y de presentar las formas de estimar la confiabilidad y la validez dados estos diferentes significados. No todos los científicos concuerdan con las interpretaciones aquí ofrecidas y el lector debe reconocer que aún se debaten estas cuestiones, aunque las Recomendaciones técnicas (1954) de la Asociación Norteamericana de Psicología hayan contribuido bastante a resolver esta controversia. Por ejemplo, una comparación interesante entre el uso del término "validez" en 1951 y su uso actual puede hacerse leyendo a Cureton (1951). Sin duda, la polémica en torno a los significados de confiabilidad y validez continuará durante algún tiempo.

Finalmente, debe reconocerse nuevamente que la discusión se ha restringido más que nada para facilitar la comprensión, de una revisión algo superficial de los procedimientos de elaboración de tests. Solamente el investigador agudo puede elaborar reactivos que sean a la vez confiables y válidos y, por lo común, nadie se conforma con sus primeros intentos de elaboración de una escala. Sin embargo, al parecer muchos investigadores se conforman con sus instrumentos de "primera preparación" porque muchas escalas de actitud se desarrollan y usan en una sola muestra. Pero, el investigador escrupuloso determina la viabilidad del reactivo por medio del muestreo y remuestreo de su población de sujetos, reemplazando reactivos en algunos casos y revisándolos en otros, hasta que está razonablemente satisfecho de que tiene una escala eficaz. Estos procedimientos de validación transversal pueden significar que se empleen años para desarrollar medidas adecuadas. Pero las medidas adecuadas son un prerrequisito para demostrar la utilidad de la medición de actitudes.

BIBLIOGRAFIA

American Psychological Association 1954 Standards for Educational and Y Psychological Tests and Manuals. 1966 Washington, D.C.: APA.

Bechtoldt, H.P. 1959 "Construct validity: A critique". American Psychologist, 14:

Blalock, H:P. 1964 Causal Inferences in Nonexperimental Research. Chapel Hill: University of North Caros.

Bohrnstedt, G.W. 1969 "Observations on the measurement of change". En la obra de E.R. Borgatta (Director), Sociological Methodology: 1969. San Francisco: Jossey- Bass.

Brown, W. 1910 "Some experimental results in the correlation of mental abilities". British Journal of Psychology 3:

Campbell, D.T. 1960 "Recommendations for APA test standards regarding construct, trait, or discriminant va lidity". American Psychologist 15:

Campbell, D.T., y D.W. Fiske. 1959 "Convergent and discríminant validation by the multitraitmultimethod matrix". Psychological Bulletin 56:

Campbell, D.T., y J.C. Stanley. 1963 "Experimental and quasi-experimental designs for research on teaching".

Rand McNally.Cronbach, L.J. 1951 "Coefficient alpha and the interna¡ structure of tests". Psychometrika 16:

Cronbach, L.J., y P.E. Meehl. 1955 "Construct validity in psychological tests". Psychological Bulletin 52:

Crowther, B. 1965 "A sociological analysis of a chievement correlates". Tesis doctoral inédita, Madison: University of Wiseonsin.

American Council in Education. 1966 "Corrected item-test correlations". Psychometrika, 31:

DuBois, P.H. 1965 An lntroduction to Psychological Statistics. Nueva York; Harper and Row,

Ford, R.N., E.F. Bogartta, y G.W. Bohrnstedt. 1969 "Use of the Work Components Study (WCS) with new college level employees". Journal of Applied Psychology 53

Guilford, J.P. 1954 Psychometric Methods (segunda edición). Nueva York; McGrawHill.

Gulliksen, H. 1950 Theory of Mental Tests. Nueva York; Wiley.

Guttman, L. 1953 "Reliabílity formulas that do not assume experimental independence". Psychometrika 18:

Hays, W.L, 1963 Statistics for Psychologists. Nueva York; Holt, Rinehart, and Winston.

Heise, D.R. 1969 "Separating reliability and stability in test-retest correlations". American Sociological Review 34.

Henrysson, S. 1963 "Correction of item-total correlations in item analysis". Psychometrika 32:

Horst, P. 1966 Psychological Measurement and Prediction. Belmont; Wadsworth.

Hoyt, C. 1941 "Test reliability estimated by analysis of variance". Psychometríka 6

Jackson, R.W.B., y G.A. Ferguson. 1941 Studies of the Reliability of Tests. Bulletin 12, Department of Educational Research. Toronto; University of Toronto.

Kerlinger, F,N., y E. Kaya. 1959 "The construction and factor analytic validation of scales to measure attitudes toward educa tion". Educational and Psychological Measurement 19

Kuder, G.F., y M.W. Richardson. 1937 "The theory of the estimation of test reliability". Psychometrika 2

Lord, F.M., y M. R. Novick. 1968 Statistical Theories of Mental Test Scores. Reading; AddisonWesley.

Novick, M.R., y C. Lewis. 1967 "Coefficient alpha and the reliability of composite measurements". Psychometrika 32

Seeman, M. 1959 "On the meaning of alienation". American Sociological Review 24

Spearman, C. 1910 "Correlation calculated with faulty data". British Journal of Psychology 3:

Stevens, S.S. 1951 Mathematics, measurement, and psychophysics". En la obra de In S.S. Stevens (Director), Handbook of Experimental Psychology. Nueva York: Wiley.

Webb, E.J., D.T. CampbelF, R.D. Schwartz,y L.Sechrest. 1966 Unobstrusive Measures: Nonreactive Research in the Social Sciences. Chicago Rand Mchlally.

Zubin, J. 1934 "The method of internal consistency for selecting test items". Journal of Educational Psychology 25

subir índice

Artículo junio 2007

Evaluación de la Confiabilidad y Validez en la Medición de Actitudes

La medición es la condición necesaria de cualquier ciencia. Es preciso obtener medidas de todas las variables contenidas en determinada aseveración teórica para que pueda evaluarse la validez de ésta. En las ciencias sociales, la carencia de instrumentos de medición ha sido el obstáculo más serio para el desenvolvimiento de una ciencia explicativa y predictiva. A diferencia del físico, que puede medir en gramos, centímetros y libras de presión por pulgada cuadrada, los científicos sociales se han tenido que conformar una y otra vez con instrumentos que, a lo sumo, ordenan a los individuos en relación con una variable. En muchos casos, ni siquiera se ha dispuesto de los más elementales aparatos de medida.

La medición no ha progresado rápidamente en las ciencias sociales por diversas razones. Quizá la más importante sea que los conceptos sustentadores de la ciencia a menudo no están bien definidos. Con frecuencia los investigadores no concuerdan en cuanto al significado de conceptos confusos como "alienación", "eficacia política" y "prejuicio". Para cubrir cada uno de estos contenidos se han elaborado varias medidas diferentes; pero hay escasas pruebas de que las medidas que supuestamente cubren la misma construcción se correlacionen altamente con otra. Es decir, podría cuestionarse la validez de las diferentes medidas. ¿Miden estos instrumentos lo que se proponen medir?

Es asimismo interesante preguntarse qué tan confiablemente son ordenados los individuos por, determinado instrumento de medida. Suponiendo que aquéllos no cambien, ¿son ordenados de la misma manera al volverse a medir? Si no es así, el investigador nunca podrá estar seguro de conocer la verdadera ordenación de los individuos en la variable.

La necesidad de evaluar la confiabilidad y la validez de las medidas resulta evidente. En la medición de actitudes existen varias técnicas con respecto a tal evaluación. Constituyen estas técnicas la esencia del presente capítulo. No todos los métodos importantes pueden analizarse con el detalle necesario para quien desea algo más que una introducción a estas áreas. Quienes deseen más amplia información pueden consultar a Lord y Novick (1968), Horst (1966) y Gulliksen (1950).

Aunque no todos los experimentos de medición de actitudes son escalas o puntuaciones basadas en varios reactivos, muchos de aquéllos sí lo son. Es decir, se supone que la escala usada es la suma de varios reactivos y no que es uno solo. Al hacer tal suposición, bastante de lo dicho sobre confiabilidad y validez se convierte en análisis de reactivos. El análisis de reactivos es la selección de uno de estos para incluirlo en una escala de puntuación fundada en la confiabilidad y la validez del mismo. Los detalles del análisis de reactivos constituyen una parte de lo que trataremos en esta sección.

Comenzaremos por un análisis elemental de la teoría de la medición y continuaremos estudiando la confiabilidad y la validez para concluir con una parte que relaciona entre sí confiabilidad y validez.

Errores de Medicion

La medición es la asignación de números a resultados conforme ciertas reglas. Puede asignarse arbitrariamente el número 0 a todos los hombres y el número 1 a todas las mujeres; o asignarse el 0 a todas las personas de 1.20 m o menos de estatura; el 1, a los que estén entre 1.20 m y 1.30 m; el 2, a los que miden entre 1.30 y 1.50 m y así sucesivamente. Estas reglas de correspondencia se llaman funciones. Obsérvese que en el último ejemplo la medida es relativamente tosca En efecto, la medida original, la estatura en centímetros, es varias veces más afinada que la regla de correspondencia empleada. En la investigación deben usarse las medidas más afinadas de que se disponga, toda vez que cuanto mejor sean aquéllas, con tanta mayor exactitud podrán evaluarse las verdaderas relaciones subyacentes entre las dos variables. Adviértase que cuando se usan centímetros o la regla de correspondencia es más elemental, puede afirmarse que cuanto mayor sea al número más alta será la persona; pero esto no es cierto en todos los niveles de medida. En el primer ejemplo, el hecho de que los hombres sean 0 no nos dice nada acerca de sus posiciones relativas con respecto a las mujeres (aunque algunos hombres casados pudieran molestarse por esta afirmación). Esto no significa otra cosa sino que en lo referente a algunas reglas de correspondencia uno no puede decir sino que los resultados están o no en la misma clase nominal (medición de escala nominal). En otras, solamente puede decirse si un resultado es o no más grande que, menor que, o igual a, otro resultado (medición de escala ordinal). En otras más, puede decirse exactamente cuántas unidades es mayor o menor un resultado que otro (medición de escala intervolar). Finalmente, en pocos casos puede uno decir, además, que un resultado es n veces más grande o más pequeño que otro (medición de escala de razón) . Algunos ejemplos pueden ayudar a entender la distinción entre estos cuatro niveles de medida. La asignación de diferentes números para representar los 50 estados de la Unión Americana es una clasificación sin ordenación y es, por consiguiente, solo medición nominal. Pedir a personas que escojan a tres conocidos y los ordenen por nivel de amistad, sería medición ordinal. En la medición de escala intervalar y de razón, se supone que los intervalos entre los números están igualmente espaciados. Así, en una escala de temperatura Fahrenheit, la diferencia entre 25 y 26 grados es igual a la diferencia entre 30 y 31 grados, es decir, un grado. Adviértase que en la ordenación de los amigos la diferencia de afecto entre los amigos 1 y 2 puede ser completamente diferente de la que hay entre los amigos 2 y 3. Es decir, en la medición ordinal los intervalos no tienen por qué ser iguales. La medición de razón difiere de la medición intervalar en que las escalas de razón tienen puntos cero verdaderos y no arbitrarios. Las escalas Fahrenheit y centígradas son medidas de intervalo, ya que ambas tienen puntos cero arbitrarios; no representan la carencia absoluta de temperatura. Sin embargo, la escala Kelvin de temperatura tiene un punto cero absoluto, y es, por tanto, una escala de razón. Cuando es posible la medición de razón puede decirse que un resultado es n veces mayor o menor que otro. Un muchacho de 1.60 m de estatura es el doble de alto que otro de 80 cm. Sin embargo, cuando hablamos de temperaturas Fahrenheit no podemos decir que 60 grados sea el doble de calor que 30 grados. Los lectores interesados en estudiar más ampliamente las diferencias entre estos niveles de medición pueden consultara Stevens (1951).

El estudio siguiente supone por lo menos la medición intervalar. Es evidente que pocas variables en las ciencias sociales pueden medirse con una escala intervalar; y el lector puede preguntarse por qué entonces se presenta dicho material. La razón es sencilla: en la ciencia, rara vez pueden satisfacerse exactamente las suposiciones implícitas en los instrumentos que se usan. Y, desafortunadamente, por lo común, cuanto más poderoso es el instrumento para hacer inferencias científicas, tanto más difícil es satisfacer dichas suposiciones. Cuando determinado campo está en progreso constante, los investigadores deben procurar elaborar instrumentos de medida que tengan características que se aproximen a los postulados que fundamentan su uso, para no convertirse en puristas matemáticos que desechen tales instrumentos. Esta última posición es semejante al rigor mortis científico. Los científicos sociales que han adoptado la primera posición han demostrado que los resultados obtenidos con la suposición de datos intervalares han sido fructíferos. Esa suposición permite estimar el grado de asociación entre variables, y previene contra la simple estimación de si existe o no asociación.

Suponer medida intervalar donde solamente hay medida ordinal ocasionará algunos errores de medida. El resultado de los errores es generalmente la atenuación de las relaciones entre las variables. Es decir, resultados comprobados perderán algo de su evidencia real. Es improbable, por tanto, que la decisión de suponer medición intervalar cuando ésta no está presente conduzca a la sobreestimación espuria de resultados' . Nuestro estudio dará ahora un tratamiento algo matemático de la medición y de los errores de medida.

La puntuación X_i observada, de una persona en un reactivo individual puede considerarse una función de su puntuación verdadera T_i más el error de medida e_i. La relación que une la puntuación observada con la puntuación verdadera y el error se define entonces así:

X_i=T_i+e_i

Es verdad que los errores de medida atenúan la asociación entre dos variables. Sin embargo, es posible obtener, en el caso de k variables, correlaciones parciales y coeficientes de regresión inflados por errores de medida.

Después, se hacen las siguientes suposiciones:

(2a) E(ei) = 0
(2b)ρ_Tiei=0
(2c) ρ_Tiej= 0
(2d ) ρ_eiej=0.

E representa el valor esperado o media "a la larga" de la variable y ρ es la correlación entre dos variables en una población dada. La suposición 2a indica que la expectativa de los errores es 0. Se presentan errores positivos y negativos, pero se espera que se supriman entre sí, a la larga, y que su media sea 0. Esto coincide con nuestra intuición de lo que significa error aleatorio. La suposición 2b indica que la puntuación verdadera en determinada variable no se correlaciona con su error de medida; y la 2c indica que las puntuaciones verdaderas de una variable no se correlacionan con los errores de una segunda variable. Finalmente, 2d afirma que los errores de las variables no están correlacionados entre sí. De estas suposiciones se derivan varios resultados importantes. Primero,

E(X_i) = E(T_i).

Es decir, el valor esperado de las puntuaciones observadas es igual al valor esperado de las puntuaciones verdaderas. La importancia de esta relación es que la media de las puntuaciones observadas (un observable) es una estimación imparcial de la media de las puntuaciones verdaderas (un no observable). Otro resultado importante es que

σ²_Xi= σ²_Ti + σ²_ci

La varianza de las puntuaciones observadas es sencillamente la suma de la varianza de las puntuaciones verdaderas y de los errores. Claro está que generalmente la varianza de sumas no es la simple suma de las varianzas individuales; sin embargo, en este caso es cierto, ya que, según 2b, se supone que las puntuaciones verdaderas y los errores no están correlacionados. Usando estas definiciones, suposiciones y teoremas resultantes, podemos pasar a discutir la teoría de la confiabilidad.

CONFIABILIDAD

Cuando se ha construido un instrumento de medida se necesita saber qué tan confiablemente ordena a los individuos. Si estos no pueden ser colocados confiablemente en la escala, ésta no poseerá ninguna utilidad científica, pues los resultados que se basen en ella probablemente contengan grandes errores. ¿Qué significa confiabilidad? Su mejor sinónimo vez sea consistencia. Si no suceden cambios verdaderos en la actitud que mantiene un individuo, ¿la escala de actitud lo coloca consistentemente en el mismo lugar en relación con otros? Si la respuesta es no, la escala no es confiable. La confiabilidad no es, indudablemente, asunto de todo o nada; existen grados de confiabilidad.

La confiabilidad se define por un coeficiente de correlación. Más precisamente, la confiabilidad (σ_xx) se define como la correlación entre dos medidas paralelas. Antes de analizar el fundamento de esta definición, consideremos lo siguiente. Supongamos que se tiene dos medidas X y X' tales que X =T + e, X'= T + e' yσ²_e= σ²e´. Nótese que tanto X como X' son funciones de la misma puntuación verdadera y difieren solamente por los diferentes errores de medida. Por esto se afirma que las medidas X y X' son paralelas. La correlación entre esas dos medidas paralelas indica la confiabilidad de la medida de la variable en estudio. De la definición de medidas paralelas, se obtienen dos resultados inmediatos que son:

E(X) = E(X')

σ²_X= σ²_X'

Ahora bien, la confiabilidad de la medida está dada por

ρ_xx'=σ_xx'/σ_xσ_{x'
=}σ²_T/σ²_X'

donde σ_xx'es la covarianza entre X y X'. Véase aquí que la confiabilidad de una medida es la razón de la varianza de la puntuación verdadera a la varianza total. Se advierte además que 0 ≤ σ_xσ_x'≤1.0. La confiabilidad será 0 cuando toda la varianza de la puntuación verdadera está compuesta de error. Repárase en esto al observar que σ²_Xi= σ²_Ti + σ²_ci ; por tanto, cuando toda la varianza de la puntuación verdadera es de error, es decir, σ²_X= σ²_e,se infiere que σ²_T = 0, y ρ_xx'= 0. Esto aclara también por qué la confiabilidad será la unidad cuando no hay error.

Aunque no damos aquí la prueba, puede demostrarse que si Y1, Y2, Y3 . . . son medidas paralelas y Z es otra variable aleatoria diferente, entonces

(8) ρ_Y1,Y2=ρ_Y1,Y3= ρ_Y2,Y3=...

(9) ρ_Y1,Z=ρ_Y2,Z= ρ_Y3,z=...

Las igualdades de (8) indican que las intercorrelaciones entre todos los reactivos paralelos son iguales. Esto indica que las confiabilidades de medida son independientes de las formas paralelas que se usan cuando éstas son realmente paralelas. Y (9) indica además que las intercorrelaciones de todos los tests paralelos a otra variable son iguales.

La regresión de puntuaciones verdaderas en puntuaciones observadas

Sería interesante saber lo bien que pueden predecirse las puntuaciones verdaderas a partir de las variables observadas. Fue demostrado por Lord y Novick (1968) que

β_TX= ρ_XX'

(11)Ť = ρ_XX'X + (1- ρ_XX')μ_x'

donde β_TXes un coeficiente de regresión Ť es la puntuación verdadera pronosticada y X es la puntuación observada. Es decir, el coeficiente de regresión para predecir las puntuaciones verdaderas a partir de las puntuaciones observadas es justamente el coeficiente de confiabilidad, y la intersección es 1 menos tantas veces el coeficiente de confiabilidad como la media de las puntuaciones observadas. Se infiere de (11) que cuando la confiabilidad de una medida es alta, se da mucha importancia a las puntuaciones observadas y poca a la media de grupo en la predicción de las puntuaciones verdaderas. Sin embargo, cuando una medida no es confiable, se pone poco énfasis en las puntuaciones observadas y mucho en la media de grupo.

La dispersión de los errores, llamada error estándar de medida, es

(12) σ_{e
=}σ_x√1 - ρ_XX'

Con él se pueden formar intervalos de confianza alrededor de la puntuación verdadera de una persona. Véase que en (12) el error estándar de medida se acerca a 0 cuando la confiabilidad de la medida realizada se aproxima a la unidad, como era de esperarse. Si se supone que los errores están distribuidos normalmente, puede decirse que para todas las personas con cierta puntuación verdadera, la probabilidad de que la puntuación observada se encontrará dentro de más o menos k veces el error estándar de medida de la puntuación verdadera es de por lo menos 1 - a, donde a es la probabilidad de un error de tipo 1 y k es una función de a . No obstante, es imposible construir semejante intervalo alrededor de las puntuaciones observadas usando el error estándar de medida. También es posible computar la desviación estándar alrededor de la línea de regresión que se ajusta a la predicción de las puntuaciones verdaderas a partir de las observadas. Este es el error estándar de estimación y se expresa por

(13) σ_{e =}σ_x√ρ_XX' √1 - ρ_XX'

Puede demostrarse que, en general, el error estándar de estimación es menor que el error estándar de medida. Esto sucede porque la última medida emplea en su derivación tanto la media de grupo como la confiabilidad, mientras que la primera solamente usa la confiabilidad. La comparación de (12) y (13) muestra que difieren por el factor √ρ_XX' que debe ser igual o menor que la unidad. Por tanto, (13) debe ser igualmente pequeña o menor que (12). Hemos visto cómo se define la confiabilidad y la forma en que ésta influye en la predicción de la puntuación verdadera de un individuo. Ahora estudiaremos cómo la no confiabilidad afecta la correlación entre dos variables.

Atenuación debida a la no confiabilidad

Como se indicó anteriormente, el error aleatorio posee el efecto de reducir la relación entre dos variables. Puede probarse fácilmente que

(14) ρ_T1T2= ρ_X1X2 √ρ_x1x1'ρ_x2x2'

Es decir, la correlación verdadera entre las variables, ρ_T1T2 disminuye debido a la no confiabilidad de ambas variables. Puesto que las confiabilidades de X1 y X2 en (14) son necesariamente menores o iguales que la unidad, ρ_T1T2 debe ser mayor o igual que ρ_x1x2. Las dos serán iguales solamente cuando ρ_x1x1' = ρ_x2x2' = 1.00. Por ejemplo, supongamos que ρ_x1x2 = .5, y ρ_x1x1'= .8 y ρ_x2x2'= .8. Sustituyendo estos valores en (14) obtenemos ρ_T1T2 = .5√.64 = .625. De esta manera apreciamos cómo afecta la falta de confiabilidad la explicación de la varianza de una variable por otra observando los coeficientes de determinación, es decir, comparando ρ²_T1T2y ρ²_x1x2. Puesto que ρ²_T1T2= .39 y ρ²_x1x2 = .25, la no confiabilidad explica una disminución aproximada del 14% de la varianza explicada. Desafortunadamente, muchas de nuestras escalas de actitudes tienen confiabilidades aún menores que .8, lo cual explica por qué las correlaciones entre estas escalas y otras variables a menudo son muy bajas.

Si los investigadores deben o no corregir las correlaciones observadas, por atenuación debida a la falta de confiabilidad de las variables, ha sido objeto de innumerables debates. Haremos varias evaluaciones. Primero ρ_T1T2 es un parámetro dé la población pero en realidad se opera con muestras y éstas solamente dan estimaciones de los parámetros. La estimación de ρ_T1T2 puede ser particularmente errónea ya que no solamente son estimaciones las confiabilidades en el denominador del segundo miembro de (14), sino que la correlación observada en el numerador es también una estimación. Así, dependiendo de qué tan estables sean las estimaciones de cada uno de los tres parámetros, el valor de ρ_T1T2 puede fluctuar ampliamente. Hacer la corrección por atenuación depende parcialmente de la confianza que se tenga en estas estimaciones.

Además, cuando se informan los resultados de un estudio de predicción, generalmente no se corrige por atenuación. Los investigadores, por lo común, no están interesados en qué tan bien podría predecirse una medida si ésta fuera confiable, sino qué tan bien se predice en realidad. No obstante, en el examen de la relación causal y en la estimación de la relación causal verdadera entre dos variables, estaría a la orden la corrección de la atenuación, suponiéndose que existen buenas estimaciones de los parámetros. Por ejemplo, si se estuviera interesado en predecir el activismo político de estudiantes universitarios a partir de una escala para medir la actitud hacia la autoridad, probablemente no vendría a la imaginación la corrección de la atenuación. En este caso se desearía saber si puede determinarse quiénes serán los activistas y evidentemente los errores de medición afectarían esta determinación. En contraste, si un investigador estuviera interesado en hacer una estimación de cómo están relacionadas teóricamente estas dos variables es decir en ausencia de error, entonces, de confiar en sus estimaciones de confiabilidad; podría corregir la atenuación.

Tipos de confiabilidad y su medición

Hasta ahora solo hemos hecho una exposición teórica general de la confiabilidad. Ahora se estudiarán formas concretas de medir la confiabilidad. Generalmente, las medidas de confiabilidad se dividen en dos grandes clases: medidas de estabilidad y medidas de equivalencia.

Medidas de estabilidad, La puntuación de una persona en una escala de actitud puede variar de una medición a otra. El sujeto puede distraerse momentáneamente, entender equivocadamente el significado de un reactivo, responder de maneras diversas en ocasiones distintas porque alguien más esté presente, y por otras múltiples causas. Todas estas fuentes de error contribuirán a la falta de confiabilidad de una escala de actitud. Aquí, el problema consiste en como evaluar la cantidad de no confiabilidad de las medidas tomadas. Una manera muy popular de evaluarla consiste en correlacionar las respuestas de las personas, en una ocasión, con sus respuestas dadas en otra ocasión posterior. La confiabilidad evaluada correlacionando una medida a través del tiempo se llama medida de estabilidad o confiabilidad de test-retest.

Existen algunos problemas obvios en la estimación de la confiabilidad por test-retest: Pueden darse diferentes resultados según sea el lapso entre la medición y la remedición. Mientras más largo sea el lapso, tanto menor será la estimación de la confiabilidad. Por esta razón, cuando el lapso es corto, las personas pueden recordar cómo contestaron en la primera aplicación de los reactivos, para aparecer así como más consistentes de lo que son realmente. Para solucionar este problema, algunos investigadores modifican el procedimiento de test-retest usando una segunda forma, paralela en cuanto a contenido a la usada en la primera aplicación, si bien se usan reactivos diferentes. Cuando desarrolla un instrumento de medida, el investigador escribe doble número de reactivos para medir determinado dominio de contenido. La mitad de los reactivos se usa en la primera forma y la otra mitad en la segunda. Si las formas son verdaderamente paralelas, se correlacionarán exactamente, igual con otras variables cualesquiera. Además, las medias y las desviaciones estándar de las dos formas serían idénticas y las intercorrelaciones entre los reactivos serían iguales en ambas versiones. Obviamente, es muy difícil, si no imposible, satisfacer estos criterios, de lo que se infiere que pocas "formas paralelas" de tests son realmente paralelas. Sin embargo, es posible, por medio de una selección cuidadosa de reactivos, elaborar dos formas que sean aproximadamente paralelas. Si no es posible hacerlo, entonces pueden correlacionarse las formas paralelas a través del tiempo como medida de confiabilidad. El uso de formas paralelas reduce el grado en que por el recuerdo de sus respuestas anteriores los sujetos provoquen estimaciones espuriamente altas de confiabilidad.

Un segundo problema con las estimaciones de confiabilidad de test-retest es que las puntuaciones verdaderas de los individuos tienen una probabilidad mas grade de cambiar realmente, cuanto más largo sea el intervalo de tiempo entre el test y el retest. Claro está que si los individuos han cambiado verdaderamente una correlación baja de test-retest, ello no significa por fuerza que la confiabilidad de la escala de actitud sea baja. En un trabajo reciente, Heise (1969) ha demostrado que con tres observaciones a través del tiempo es posible distinguir entre cambio y falta de confiabilidad, si los intervalos entre las aplicaciones son iguales y si puede suponerse que los errores de medición no están correlacionados a través del tiempo. Sin el uso de formas paralelas, esta última suposición sería muy difícil de satisfacer.

El coeficiente de confiabilidad se definió como

(15)ρ_xx'= ρ₁₂ρ₂₃ / ρ₁₃

donde los subíndices se refieren al periodo de medida. Heise ofrece un ejemplo de Crowther (1965), en el que se usaron correlaciones entre puntuaciones en el test de inteligencia California Test of Mental Maturity en los grados tercero, sexto y noveno para estimar la confiabilidad del CTMM. Las correlaciones fueron de r₁₂ =.56, r₂₃ =.65 y r₁₃ = .52. Según la fórmula (15) r_xx'=.70. Adviértase que r_xx' es algo mayor que todas las correlaciones individuales de test-retest, lo que demuestra que han ocurrido algunos cambios en la inteligencia según la mide el CTMM.

Además de dar una estimación de confiabilidad, el método ofrece coeficientes que indican la cantidad de cambio del momento 1 al momento 2, del 2 al 3 y del 1 al 3. Heise designa s_ij a estos coeficientes y demuestra que s₁₂ = ρ₁₃ / ρ₂₃, s₂₃ = ρ₁₃ / ρ₁₂ y s₁₃ = ρ₁₂ / ρ₂₃.

Para los datos de arriba, s₁₂ = .80, s₂₃ = .93, y s₁₃ = .74, lo que indica que el CI medido cambia más entre los grados tercero y sexto que entre los grados sexto y noveno, lo cual se ajusta a muestras expectativas. Heise ha proporcionado así una manera útil de separar la no confiabilidad y el cambio cuando se tienen tres medidas de momentos diferentes.

Otro problema que el investigador debe enfrentar cuando usa cualquier procedimiento de test-retest es el llamado problema de reactividad (Campbell y Stanley, 1963; Webb, Campbell, Schwartz y Sechrest, 1966); ésta se refiere a que la sensibilidad o inclinación del sujeto a responder a la variable en estudio puede hacerse más grande por el hecho de medirla. Preguntarle a un sujeto sus opiniones-políticas en una ocasión puede aumentar su interés en los asuntos políticos e inducirlo a que discuta y lea acerca del tema y, por tanto, que cambie con el paso del tiempo, cambio que no habría ocurrido en otra persona semejante en todos los demás aspectos pero que no hubiera sido entrevistada. En esta situación, la correlación de test-retest es más baja porque ha ocurrido un cambio, no debido a una variable experimental, sino a la reactividad. Al parecer, no hay solución sencilla a este problema.

Debido a los problemas inherentes al procedimiento de test-retest para evaluar la confiabilidad, muchos investigadores han abandonado las medidas de estabilidad por las llamadas medidas de equivalencia; estudiaremos ahora algunos de estos métodos.

Medidas de equivalencia. Se supone que cuando se juntan varios reactivos en una misma escala de actitud, los reactivos miden la misma actitud básica. En este sentido, cada reactivo puede considerarse como una medida de la actitud. Las estimaciones de confiabilidad que miden la equivalencia de cada reactivo en tanto indicador de una actitud fundamental se llaman, con razón, medidas de equivalencia. El primer tipo de medidas de equivalencia que aparecieron fueron los métodos de división en mitades. En el método de división en mitades, se divide él número total de reactivos por la mitad y las mitades se correlacionan para obtener una estimación de la confiabilidad. Por sólidas razones ha caído en desuso este procedimiento. Algunos investigadores usaron los reactivos pares oponiéndolos a los impares; otros correlacionaron la primera mitad de la escala con la segunda; y así sucesivamente. Cada una de estas divisiones podía dar, naturalmente, estimaciones diferentes de confiabilidad. En efecto, en una escala de 2n reactivos de longitud, el número total de divisiones posibles es 2(n!) / 2(n!)(n!). En una escala de 10 reactivos, hay 126 divisiones posibles, y todas diferentes. Algunas darán estimaciones de confiabilidad por encima de la confiabilidad verdadera y otras por debajo. Por tanto, las mitades de la división pueden estar lejos de ser equivalentes.

La mayoría de los investigadores que han usado la técnica de división en mitades han aplicado generalmente la fórmula de predicción de Spearman-Brown a la correlación obtenida entre las dos partes. Esta fórmula fue descubierta simultánea pero independientemente por Spearman (1910) y Brown (1910); y fue desarrollada para discernir el efecto del incremento de la longitud de una medida. Como podía suponerse, cuanto mayor es el número de medidas independientes que se tienen de un fenómeno, tanto mayor es la confiabilidad de una medida compuesta basada en estas medidas. Spearman y Brown mostraron que la confiabilidad de una escala que es n veces más larga que la escala original es

(16)ρ_xnxn'= nρ_xx'/ 1+(n-1)ρ_xx'

donde ρ_xnxn' es la confiabilidad de la escala más larga. Sin embargo, aun cuando la fórmula de predicción de Spearman-Brown indica que el incremento de longitud de la escala aumenta la confiabilidad, en ésta existe un punto en que comienza a disminuir. Es obvio que cuanto más alta sea la confiabilidad inicial, tanto menor será el incremento de la confiabilidad como una función de los reactivos agregados.

La fórmula de Spearman-Brown se usa algunas veces con correlaciones de división en mitades para obtener una estimación de la confiabilidad de la puntuación de 2 n reactivos. Esto requiere cierta explicación. En el cómputo de confiabilidad por el método de división en mitades, el test completo (ambas mitades) debe aplicarse a todos los sujetos. De este modo, la correlación entre las mitades es la estimación de la confiabilidad de una escala de solo la mitad de la escala realmente usada. La fórmula de predicción de Spearman-Brown se usa entonces para estimar la confiabilidad de la escala completa, que tiene 2 n reactivos. Por ejemplo, supongamos que un investigador tiene 16 reactivos que se diseñaron para explorar los sentimientos de eficacia política. Selecciona arbitrariamente 8 de los reactivos, los añade en una sola puntuación, los 8 restantes en una segunda y los correlaciona. Una correlación razonable de las dos mitades sería .65. Sin embargo, el investigador desea emplear la escala completa de 16 reactivos como un instrumento de medida y, por consiguiente, usa la fórmula de predicción de Spearman-Brown con n = 2. Sustituyendo ρ_xx' =.65 y n = 2 en (15), se obtiene ρ_x2x2' = 2(.65)/(1 + .65) = .788, que es la estimación de confiabilidad de la escala de actitud de 16 reactivos. Por la forma arbitraria en que se escogen las mitades, este procedimiento no se recomienda generalmente para determinar la confiabilidad.

Un segundo método de equivalencia se basa en la correlación de formas paralelas basadas cada una en datos recogidos en un momento dado. Como se indicó cuando estudiamos los métodos de test-retest, las formas paralelas no son divisiones arbitrarias de reactivos. Se supone que para cada reactivo de una forma hay otro exactamente paralelo en la segunda versión. El uso de formas paralelas está limitado solamente por la dificultad de construirlas. Por esta razon, el método desarrollado por Kuder y Richardson (1937) es el método recomendado para computar un coeficiente de equivalencia.

Este método llamado de consistencia interna, examina la covarianza entre todos los reactivos simultáneamente y no en una división particular y arbitraria. Las fórmulas de Kuder - Richardson y las generalizaciones qué provienen de ellas siguen siendo el enfoque más popular de la confiabilidad. Las fórmulas originales fueron desarrolladas para reactivos dicotómicos solamente y se denominaron KR20 y KR21, respectivamente. En ambas fórmulas, Kuder y Richardson supusieron que todos los reactivos eran paralelos, y en KR21, que la proporción que contestó positivamente todos los reactivos era igual (algunas veces llamada "la dificultad" del reactivo). Sea n igual al número de reactivos dicotómicos en una medida, p_i la proporción que contestó positivamente el reactivo i y ρ²_x la varianza de la escala total, entonces

donde μ_xes la media, p_iq_¡ es la varianza del reactivo i-ésimo (q_¡ = 1 - p_i) y ρ_x la varianza de la puntuación total. La fórmula (17) es la más general y, por consiguiente, la más útil de las dos; es la que debe usarse para computaciones efectivas. Como ejemplo del uso de KR20, supongamos que se ha elaborado una escala de cinco reactivos para medir la religiosidad, donde se pidió a los sujetos que expresaran ya acuerdo (respuesta "positiva") ya desacuerdo (respuesta "negativa"), y donde el acuerdo con un reactivo se codificó como 1 y el desacuerdo como 0.

Ahora bien, para computar ρ_xxnecesitamos conocer también la varianza de la puntuación total, ρ²_x, que podría computarse de dos maneras. Primero, sumando sencillamente las respuestas a los cinco reactivos de cada individuo en una sola puntuación y calculando después la varianza de esta nueva variable. La segunda manera sería computar la varianza de la puntuación total a partir de las varianzas de reactivo de las covarianzas. Recuérdese que en reactivos calificados con 0 o 1 la varianza del reactivo ¡ es dada por σ_i = p_iq_¡, donde q_¡ es 1 - p_i. Además, la covarianza entre dos reactivos i y j cualesquiera es σ_i = p_{ij
-}p_ip_j ; donde p_ij es la proporción que contestó positivamente a los dos reactivos i y j. Conociendo las varianzas y las covarianzas de los reactivos puede computarse la varianza de la puntuación total con el siguiente teorema sobre la varianza de la suma de variables: (19)

Supongamos que computamos las proporciones, varianzas y covarianzas de los cinco reactivos y encontramos lo siguiente:

1 2 3 4 5 p_i p²_i

1 0.09 .07 .05 .04 .08 .9 .81

2 .21 .11 .08 .14 .7 .49

3 .21 .07 .17 .7 .49

4 .24 .11 .6 .36

5 .16 .8 .64

Los valores de la diagonal principal son las varianzas de los reactivos y fuera de dicha n n diagonal están sus covarianzas. Para computar ∑ⁿ_i=1 ρ²_x, que en este caso también es ∑ⁿ_i=1p_i q_i, sumamos la diagonal principal, es decir, .09 + .21 + .21 + .24 + .16 = .91. De manera análoga,

2∑ⁿ_i=1 ∑ⁿ_j=1 σ_ij,es simplemente dos veces la suma de los elementos que están fuera de la diagonal, es decir, 2(.07 + .O5 + .04 + .08 + .11 + .08 + .04 + .07 + .13 + .11) = 2(.88) = 1.76. Por tanto, ρ²_x = .91 + 1.76 = 2.67. Vimos arriba que ∑ⁿ_i=1p_i q_i, =.91, que es simplemente otra expresión de la suma de la varianza de los reactivos. Sustituyendo esta información en (17) tenemos:

ρ_xx' = 5/4 1 - .91 /2.67= .82

Es decir, la confiabilidad de esta escala de cinco reactivos es .82.

Con el paso de los años se han sucedido varias fórmulas que son generalizaciones de la fórmula 20 de Kuder-Richardson (Jackson y Ferguson, 1941; Hoyt, 1941; y Gulliksen, 1950); pero todas se han expuesto con diferentes suposiciones. La característica común a todas estas fórmulas es que permiten computar una estimación de confiabilidad cuando los reactivos tienen k categorías de respuesta en lugar de solamente dos. Sin embargo, Novick y Lewis (1967) demostraron que todas estas fórmulas hacían la suposición de que la puntuación verdadera de un individuo era exactamente igual en todos los reactivos o, por lo menos, que sus puntuaciones verdaderas en los reactivos diferían entre sí solo por una constante, condición que llaman: tau-equívalencia esencial. Así, si se tienen dos reactivos a y b, son esencialmente tau-equivalentes si Ta = Tb + c, donde c es una constante. Evidentemente si c = 0, por las primeras definiciones, los reactivos son paralelos. Por tanto, la tau-equivalencia es una suposición menos restrictiva que la suposición de reactivos paralelos, ya que las puntuaciones verdaderas pueden diferir, de un reactivo a otro, por una constante. Esto significa que cuando los reactivos son tau-equivalentes, KR20 y las generalizaciones derivadas de ella son todas iguales a la confiabilidad de la puntuación total. En el grado en que estos reactivos no son tau-equivalentes, estas fórmulas tienden a subestimar el coeficiente de confiabilidad, aunque no gravemente, a menos que los reactivos se aparten radicalmente de la tau-equivalencia.

La generalización de KR20 que ha obtenido la mayor popularidad es a la que Cronbach llamó cx (1951), y es

(20)

Usando los datos de un estudio de Ford, Borgatta y Bohrnstedt (1969), mostraremos aquí el uso de a. Para medir la cantidad de competitividad deseada para el personal nuevo, de nivel universitario, contratado por una gran compañía, se diseñaron ciertos reactivos. Los siguientes son nueve de esos reactivos que se incorporaron en una sola medida llamado afán competitivo:

1. Los incrementos de salario estarán estrictamente en relación con lo que usted ha hecho por la empresa.

2. Se sabe que la empresa está comprometida en una fuerte competencia.

3. Se supone que las personas son despedidas tanto si no hacen algo bien como si no lo siguen haciendo bien.

4. Hay oportunidades de ganar bonificaciones.

5. Se entablará y alentará la competencia.

6. El supervisor debe ser un severo crítico.

7. Se hace hincapié en el registro efectivo de la producción.

8. Los aumentos de sueldo tendrán que ver con el esfuerzo que ha realizado usted.

9. Las recompensas pueden ser grandes, pero se sabe que muchas personas fallan o desertan.

Se obtuvo la matriz de covarianza que aparece en la tabla, que se basa en una muestra k de 869 hombres empleados. Para computar a, necesitamos ∑^k_i=1ρ²_i,, que es simplemente la suma de los elementos de la diagonal, es decir, (.534+ .411+ . . . + .679) = 4.68 . Además necesitamos computar σ²_x, o sea, la varianza de la escala total. El lector puede verificar en (19) que esta varianza es igual a la suma de los elementos de la diagonal principal más dos veces la suma de los elementos que no están en la diagonal. Ya hemos determinado la suma de la diagonal. Ahora la suma de los elementos fuera de la diagonal (.115 + .168 + . . . + .093) = 3.919 y el doble de esta suma es 7.828. Añádase esto a la suma de la diagonal y se obtiene σ²_x= 12.508. Por consiguiente,

a = 9/8(1 - 4.68/12.508) = .70.

Es decir, la estimación de la confiabilidad de la consistencia interna en relación con la puntuación de afán competitivo es de .70. Dada esta estimación de confiabilidad, podemos usar (12) para computar el error estándar de medida. En este ejemplo es σ_e = √12.508 √1 - .70 = 1.94. Ahora bien, si suponemos que los errores están distribuidos normalmente y deseamos estar seguros en un 99 % de que todas las personas con puntuaciones verdaderas de Tx se encuentran dentro de k errores estándares de medida desde Tx, sabemos por la teoría de las distribuciones normales que k = 2.58 (Hays, 1963). Por tanto, si tomamos Tx = 15, los límites inferior y superior del intervalo de confianza son 15 - (2.58) (1.94) y 15 + (2.58) (1.94) = 5.01 ó 9.99 y 20.01 respectivamente. Es decir, la probabilidad de que las personas con una puntuación verdadera de 15 tendrán una puntuación observada que se encuentre entre 9.99 y 20.01, es de .99.

Matriz de covarianza de reactivos en la puntuación de "Afán de competencia" ( N = 869 Varones), los valores subrayados en la diagonal son las varianzas de los reactivos

1 2 3 4 5 6 7 8 9

1 .534 .115 .168 .085 .118 .090 .167 .144 .129

2 .411 .114. .062 .140 .080 .104 .065 .148

3 .814 .061 .118 .116 .177 .093 .272

4 .348 .087 .012 .103 .084 .054

5 .401 .072 .140 .123 .125

6 .465 .093 .052 .105

7 .645 .078 .127

8 .383 .093

9 .679

También podemos sustituir en (11) para obtener la ecuación de regresión y predecir así la puntuación verdadera de un individuo a partir de su puntuación observada. En este ejemplo, suponemos que M_x = 18 donde M_x es la media de la escala, luego, la ecuación de regresión es

T =.70 + (.3) (18) = .70X + 5.4.

Un sujeto con una puntuación observada de 15 tendría una puntuación verdadera pronosticada de (.70) (15) + 5.4 = 15.9. El error estándar de estimación para esta ecuación de predicción nos lo da (13), y en este ejemplo es de √ 12.508 √.70 √1 - .70 = 1.62, que es la desviación estándar de los errores alrededor de la línea de regresión.

En la mayoría de las investigaciones de actitudes no estamos interesados en la predicción de la puntuación verdadera de un individuo porque generalmente solo se presenta la estimación de la confiabilidad. Sin embargo, el investigador debe saber que es posible la predicción individual y por esto se computó en el ejemplo anterior.

subir índice

Artículo mayo 2007

RELACIÓN DE LA RESPUESTA CON EL ATRIBUTO

Hemos visto varias técnicas de elaboración de escalas psicológicas, técnicas que son completamente distintas en procedimiento, pero que difieren aún más en su fundamento filosófico. La técnica que usemos para evaluar por escala determinado atributo, ¿no es importante? Algunos psicólogos sostienen que cualquier técnica puede conducir a una escala válida, siempre que describamos las operaciones particulares que nos condujeron a ella. Pero tal posición es esencialmente conformista, ya que rehúsa enfrentar el problema de la naturaleza del atributo mismo y la relación de la escala obtenida con aquél.

En particular, es fundamental la diferencia de posición filosófica entre las técnicas manifiestas y las latentes. Las primeras confían en la capacidad del sujeto para describir su experiencia de un atributo, por medio de números con las propiedades adecuadas de medición. Las técnicas latentes no hacen tal suposición pero aceptan que sólo hay un atributo que afecta las respuestas, aunque no del modo simple de uno a uno.

Realmente hay muchas posiciones teóricas que se han tomado sobre la relación de la respuesta manifiesta y el atributo. Mientras que una discusión tal no es necesariamente parte de un capítulo sobre elaboración de escalas psicológicas, la selección de la técnica no puede sino depender de las suposiciones que el experimentador haga en torno a la relación de la respuesta y el atributo. En este sentido, las citadas suposiciones sí son parte del problema de construcción de escalas.

Al clasificar las diferentes posiciones teóricas, podemos considerar que hay cuatro procesos críticos cuando se trata de medir por escala un atributo.

- Existen, en primer término, los objetos con los que supuestamente se corresponde el atributo; pero este no es idéntico al objeto. El objeto tendrá muchas propiedades y aunque alguna de sus dimensiones físicas esté estrechamente relacionada con una de aquéllas, no hay ninguna razón para que los valores escalares del atributo deban corresponder a los de la dimensión física.

- Segundo, tenemos el atributo mismo. Existe como una abstracción del objeto, pero una abstracción que es experimentada, directamente y en la mayoría de los casos, por un sujeto humano u observador. Son los valores escalares de este atributo lo que buscamos al elaborar escalas psicológicas y, como mencionamos anteriormente, uno de los problemas principales es determinar qué propiedades de medición existen en ese atributo. Hacer esta pregunta es completamente diferente a inquirir cómo está relacionado el atributo con una dimensión física o con las respuestas, porque deseamos conocer el atributo mismo y no podemos determinar si, por ejemplo, el atributo tiene un cero verdadero o absoluto que muestre su vínculo con una dimensión física que tiene un cero absoluto.

- En un proceso mediatorio, es decir, un proceso que media entre el atributo y la respuesta que lo refleja. Hemos usado el término "proceso mediatorio" como término general, si bien en casos específicos podríamos llamarlo variable interventora o construcción hipotética. Pero, como quiera que se le llame, debemos considerar la posibilidad de su operación. Y, más importante aún, es que debemos considerar la posibilidad de que contribuya con sus propias características para relacionar la respuesta y el atributo. En otras palabras, si existe un proceso mediatorio y deseamos conocer la naturaleza del atributo, tendremos entonces que conocer algo de la naturaleza del proceso mediatorio también.

- Finalmente, tenemos el proceso mismo de respuesta, pero si,no lo hemos tratado hasta este momento no significa, de ninguna manera, que sea el menor de nuestros problemas. Si debe usarse una respuesta para indicar las propiedades del atributo, es natural que nos interesemos por las propiedades del proceso mismo de aquélla. Por ejemplo, si el atributo tiene propiedades intervalares, claro está que la respuesta también deba tener, por lo menos estas propiedades para que indique correctamente las que pertenezcan al atributo. Y no es una conclusión decidida de antemano que las propiedades de los números, como las usa el sujeto humano, tienen necesariamente las propiedades de razón de la escala de los números.

Como dijimos antes, casi todos los psicólogos concuerdan en que las respuestas pueden indicar por lo menos las propiedades ordinales de un atributo. Cualesquiera que sean las distorsiones introducidas por un proceso mediatorio o por las peculiaridades del proceso mismo de respuesta serán distorsiones de propiedades intervalares y de razón y no de propiedades ordinales. Por tal razón, la mayoría de las posiciones teóricas se han ocupado principalmente de las propiedades intervalares y de razón del atributo o demostradas por las respuestas.

La respuesta como indicador directo del atributo

La suposición más sencilla que puede hacerse acerca de la relación entre respuesta y atributo es que aquélla indica directa y correctamente las propiedades de éste. Si se supone que existe un proceso mediatorio, se presume también que éste es desviado por el proceso de respuesta. Decir que esta suposición es la más sencilla no significa que sea la menos compleja, porque es muy difícil de probar. Consecuentemente, su validez es por lo común de variedad aparente, es decir, vale por mandato del experimentador.

En años recientes, Stevens (1957) y algunos de sus colaboradores, han sido los principales expositores de esta posición, aunque el primero se ha interesado casi exclusivamente por atributos psicofísicos, es decir, atributos sensoriales que tienen un continuo físico equivalente como la brillantez, la sonoridad, etc. Ha apoyado, en lo que se refiere a elaboración de escalas, el uso de las técnicas manifiestas de razón, y aunque en principio acepta la validez de cualquiera de estos métodos, sus últimos trabajos (Stevens, 1959) indican una fuerte preferencia por el método de estimación de magnitud.

Este fuerte hincapié en una técnica específica plantea algunas cuestiones, ya que esperaríamos que todas las técnicas de la misma clase lógica fueran igualmente capaces de conducir a la misma escala psicológica. Dicho de otra manera, debe haber generalidad con respecto a la técnica.

Aún más, como señalamos anteriormente, una escala de razón debe predecir correctamente las propiedades de intervalo; y si aceptamos la validez de las técnicas manifiestas de razón, también debemos esperar que las técnicas equivalentes manifiestas de intervalo, proporcionen la misma escala psicológica dentro de los límites de la técnica. Pero las técnicas manifiestas de intervalo no proporcionan la comprobación cruzada que se requiere.

La razón de esta dificultad puede encontrarse en el problema de la naturaleza y propiedades del proceso mismo de la respuesta, ya que éste no puede indicar exactamente las propiedades de un atributo, a menos que se use con precisión, con propiedades por lo menos tan potentes como las del mismo atributo. Vimos en la figura 3 que los datos de Torgerson describían una relación inversa entre escalas de oscuridad y brillantez cuando se usaban escalas de categorías numéricas. Torgerson obtuvo, asimismo, juicios con el método de estimación de magnitud. Tanto para la oscuridad como para la brillantez, obtuvo escalas muy diferentes a las obtenidas con escalas de categorías numéricas, pero el logaritmo de la escala de estimación de magnitud estuvo relacionado linealmente con la escala mencionada. Por otra parte, las escalas de claridad y de oscuridad obtenidas por medio de estimaciones de magnitud estaban relacionadas de modo recíproco, y no inverso. Estos resultados de Torgerson aclaran que los sujetos humanos no usan escalas numéricas de la misma manera cuando asignan categorías numéricas que cuando hacen estimaciones de magnitud. Además, si aceptáramos por sus propios méritos los resultados de cada método, tendríamos que concluir que el atributo de oscuridad es el inverso del atributo de claridad, en un caso; pero que es el recíproco en el otro caso.

Estos mismos resultados esclarecen que la validez de las suposiciones requeridas en las técnicas manifiestas de razón o manifiestas de intervalo es bastante dudosa. La comprobación mínima de la validez de las suposiciones no arroja resultados favorables y solamente podemos llegar a la consecuencia de que no es evidente que las técnicas manifiestas sean válidas.

La respuesta como indicador del proceso mediatorio

La mayoría de los psicólogos modernos suponen que la respuesta es indicador de una variable interventora o proceso mediatorio. Algunos suponen, sin embargo, que la respuesta es un indicador relativamente directo del proceso intermedio, y otros que puede estar relacionada pero muy indirectamente. Estudiaremos primeramente esta primera clase de teorías y después las otras.

.- Proceso correlacionado. Una de las teorías más directas de que la respuesta está relacionada con un proceso mediatorio afirma que aquélla se conecta directamente con un proceso que está correlacionado con el atributo. Existen muchos ejemplos de este punto de vista en la bibliografía sobre escalas de destrezas, actitudes, etc. Por ejemplo, el efecto de halo es una descripción de la tendencia a evaluar personas en base a un atributo de acuerdo con sus estimaciones previas en otro. De Soto (1961) ha señalado la tendencia de las personas a evaluar a los demás o a los objetos en un orden consistentemente sencillo.

Más específicamente, en el dominio de los continuos psicofísicos, Warren (1958) desarrolló la teoría del juicio de correlato físico. Sostiene básicamente que las respuestas que dan los sujetos no indican las propiedades del atributo mismo, sino que reflejan las propiedades de una dimensión física correlacionada que el sujeto ha experimentado al usar los números.

Afirma, por ejemplo, que cuando los sujetos habían tenido experiencia directa en el uso de una escala numérica, sus respuestas de razón manifiesta estarían relacionadas linealmente con el continuo físico subyacente. De esta manera, los juicios de peso estarán relacionados directamente con la escala física de peso, porque todos tenemos experiencia de kilos y gramos. Warren aporta pruebas de que esto es así cuando se desecha el factor contaminante de tamaño. De manera similar, los juicios de dulzura estarán relacionados directamente con la concentración física del edulcorante, porque las personas han tenido experiencia con cantidades de azúcar. Y, por la misma razón, los juicios de distancia o longitud estarán relacionados directamente con la dimensión física.

La mayoría de las personas no ha tenido experiencia directa con la dimensión física de intensidad, por ello no puede juzgar directamente atributos como la brillantez o sonoridad. Pero hay una dimensión física relacionada estrechamente con la sonoridad y la brillantez y con la cual las personas han tenido considerable experiencia: la distancia. Warren sostiene que los juicios de un medio de sonoridad o de brillantez son realmente juicios del doble de la distancia equivalente; y presenta datos que muestran que los juicios de brillantez o sonoridad y distancia están relacionados. En otras palabras, un sujeto afirma que determinado sonido es la mitad de sonoro que otro cuando su fuente parece estar dos veces más distante.

Las pruebas de Warren al respecto (véase Warren, Sersen y Pores, 1958, y Warren y Poulton, 1960) son convincentes y sugieren ciertamente que los sujetos pueden aprender a usar numerales con propiedades de razón si lo hacen en base a una dimensión física que efectivamente posea esas propiedades. Si pueden o no transferir esta destreza a descripciones de un atributo con el que no han tenido experiencia numéricá directa es un problema que está pendiente de solución.

.- Proceso de interacción. Otro punto de vista acerca de la relación de la respuesta y el atributo es que hay un proceso mediatorio que interacciona constantemente con el atributo, de manera que la respuesta a cualquier objeto de estímulo es una función conjunta del atributo y del proceso mediatorio. Pese a que Helson y Michels no describieron sus funciones teóricas exactamente de esta manera es ésta una forma compatible de considerarlas.

Helson (1948, véase también 1959) formuló originalmente su teoría del nivel de adaptación, interesado más que nada en la determinación de las condiciones de estímulo que conducen a un juicio "neutro" en una técnica de escala verbal de estimación. Sostuvo que el nivel de adaptación en determinado instante es la media geométrica probada de todos los estímulos, pasados y presentes, y de sus efectos sobre el atributo que se juzga. El nivel de adaptación cambia constantemente a medida que se experimentan nuevos objetos de estímulo. El juicio neutro, ya sea un rótulo verbal en una escala de estimación o el valor medio en una escala numérica, siempre corresponderá a este nivel de adaptación.

Pero Helson sostuvo que todos los demás juicios se hacen en relación con tal nivel. Se interesó no sólo en el juicio neutro sino por todos los juicios verbales o numéricos sobre la longitud entera de la escala. Expuso, en otras palabras, una teoría acerca de la relación entre las respuestas y el atributo. Esta relación fue expresada matemáticamente en forma mucho más explícita por Michels y Helson (1949), quienes derivaron una relación entre las respuestas y la intensidad del estímulo, que se corresponde formalmente con la ley de Fechner pero con esta diferencia importante: Fechner supuso que el origen (en el sentido matemático) del atributo sensorial era el umbral absoluto, mientras que Michels y Helson sostienen que el origen es el nivel de adaptación. Más específicamente, aseguraron que la primera categoría de respuesta (en una escala de categorías) correspondía a una magnitud de estímulo de 1 késimo por debajo del nivel de adaptación (donde k es el número de categorías de juicio por debajo del neutro) y que todas las demás respuestas se ajustaban para satisfacer este requisito.

Michels (1954) llegó a esta deducción al interpretar los juicios de fraccionamiento de brillantez sobre las mismas bases y, posteriormente (Michels y Doser, 1955) hizo lo mismo con respecto a los juicios de sonoridad. Este no es el lugar para exponer la formulación matemática exacta que usó Michels, lo que no resta importancia al punto de vista expresado por Helson y Michels acerca de la relación entre la respuesta y el atributo.

Debe recordarse que el nivel de adaptación está cambiando constantemente y que será diferente para cada conjunto de condiciones experimentales. Por tanto, sostener que la respuesta es siempre relativa al nivel de adaptación significa que no hay relación invariable entre la respuesta y el objeto de estímulo o el continuo físico subyacente. Podemos expresar esta posición ya sosteniendo que la escala del atributo no es estable, ya afirmando que el nivel de adaptación es un proceso mediatorio que interacciona constantemente con el atributo (o posiblemente con el continuo de respuesta), de manera que nunca podemos obtener experimentalmente una relación invariable entre estímulo y respuesta.

Indudablemente esta posición relativista con respecto a la elaboración de escalas psicológicas tiene considerable respaldo experimental, porque la mayoría de los experimentos sobre medición por escalas no dan muestras de una relación invariable entre respuesta y dimensión física subyacente. Garner (19546) ha mostrado, por ejemplo, que los juicios de fraccionamiento obtenidos con el método de estímulos constantes dependen casi completamente de la amplitud de los estímulos de comparación presentados, es decir, del contexto de los estímulos que se presentan para ser juzgados. Sin embargo, aún sería posible que hubiera un atributo estable significativo y que nuestro problema fuera determinar sus propiedades, procurando realizar operaciones experimentales que tuvieran en cuenta estas características de respuesta y de juicio.

La respuesta como indicador indirecto del atributo.- La tercera posición importante acerca de la relación de respuesta y atributo está en que la respuesta no refleja directamente las propiedades del atributo, ni siquiera a través de un proceso mediatorio, sino que está relacionada solo directamente con el atributo. No se supone, en este caso, que las propiedades numéricas de la respuesta indiquen las propiedades numéricas del atributo.

Fundamentalmente todas las técnicas latentes se basan en tal suposición. Por ejemplo, en las comparaciones por pares normalizados ni siquiera se pide a los sujetos que hagan algo más que un juicio ordinario. Y en los rangos normalizados de categorías, aunque los sujetos emplearan efectivamente una respuesta intervalar, no se supone que esta propiedad se mantenga cuando se determinen los valores escalares. O sea que los sujetos pueden usar el método de escalas de categorías numéricas, pero el experimentador supone después solamente la propiedad ordinal al elaborar su escala.

Aun en la técnica que usó Garner para elaborar una escala de sonoridad a partir de juicios de equisección y fraccionamiento se desistió del supuesto de que la razón numérica indicada en las situaciones de fraccionamiento era la razón verdadera.

Claro está que si las propiedades numéricas de las respuestas no se consideran adecuadas para reflejar exactamente las propiedades del atributo, deben hacerse algunas suposiciones para recobrar las propiedades numéricas de la escala; aquí se encuentra el aspecto fundamental del problema de estas técnicas indirectas y latentes. Cuando se establecen tales suposiciones, éstas deben validarse antes de que podamos aceptar razonablemente que la escala psicológica es significativa. En una técnica como la de rangos normalizados no se proporcionan medios para comprobar la validez de la suposición de normalidad; pero en la mayoría de las técnicas, tales procedimientos sí son posibles. Por ejemplo, en las comparaciones por pares normalizados la capacidad de usar la escala promedio para comprobar cada escala individual permite determinar cuándo no se aplica la suposición de normalidad.

En cierto sentido, estas técnicas suministran valores escalares de un atributo que es realmente una construcción hipotética. Puede o no "existir"; pero su existencia supuesta y las propiedades expresadas permiten, a menudo, integrar una gran cantidad de datos.

RESUMEN

No hemos podido evitar comentarios evaluativos tanto acerca de las técnicas que hemos analizado como acerca de las diferentes posiciones teóricas concernientes a la relación entre respuesta y atributo. Sería conveniente, sin embargo, establecer, a modo de resumen, lo que consideramos explícitamente que son los criterios por medio de los cuales deben evaluarse las técnicas y algunas de las opiniones acerca de ellas.

Una escala psicológica e incluso el atributo mismo son conceptos que usa el experimentador porque le proporcionan el significado y la generalidad que a su vez le permiten integrar un cuerpo más grande de datos o hechos en pocos principios de trabajo. La función total de tales conceptos en una ciencia gira alrededor de la idea de generalidad. La ciencia no busca sencillamente datos, ni siquiera simples hechos. En su lugar busca hechos que tengan algún grado de generalidad, de manera que no tengamos tantos hechos como acontecimientos posibles haya en el mundo. La generalidad puede existir en muchas clases diferentes de cosas, y aquí es donde debemos considerar la evaluación de las técnicas: ¿de cuántas maneras diferentes suministran generalidad las escalas? En tanto que existen muchas cosas diferentes de las que podríamos esperar finalidad, hay algunas que son de importancia capital en la evaluación de las técnicas de elaboración de escalas.

.- Tiempo. Una escala psicológica debe ser invariable por lo menos a través del tiempo; pero no hemos hallado muchas dificultades en este respecto, porque fa mayoría de las técnicas que han permanecido han demostrado poca varianza cuando se repite el experimento en diferente ocasión.

.- Sujetos. Como en el anterior, en este punto no existe mucha diferencia entre las técnicas. La mayoría de ellas prevén obtener datos de varios sujetos diferentes, así que podemos estar bastante seguros de la invariabilidad a través de una población específica.

.- Objetos. Nos gustaría encontrar escalas psicológicas que; fuesen válidas para todos los estímulos u objetos que se presumen contienen el atributo. Esto equivale a decir que la escala debe ser invariable en sus propiedades, independientemente de los objetos de estímulos particulares usados para determinarla.

En este respecto, las técnicas manifiestas presentan una debilidad tangible. Efectivamente, esta es la esencia real de la posición de Helson y Michels, de que en condiciones de estímulo diferentes la misma respuesta manifiesta cambiará aún para los mismos estímulos. Por lo mismo, la escala de sonoridad que obtenemos con la técnica de fraccionamiento depende de los estímulos particulares que encuentra el sujeto (Michels y Doser, 1955, y Garner, 1954b).

Por otra parte, Jones (1960) ha mostrado que el método de intervalos sucesivos (rangos normalizados de categorías) es invariable aun cuando se usen estímulos concretos diferentes para establecer la escala. Comparó este método con las técnicas manifiestas de intervalo, pero su conclusión podría extenderse a otras del mismo tipo. Jones mostró además la invariabilidad de la técnica latente al hacer cambios en el continuo de respuesta empleado.

.- Método. En una sección anterior hicimos notar que debe establecerse la generalidad con respecto a las respuestas, pero en forma más amplia requerimos generalidad con respecto al método. Un método particular especifica por lo común una clase de respuestas,' y mientras podamos cambiar los valores numéricos efectivos dentro del mismo método básico, estaremos más interesados en la generalidad a través de las clases de respuestas que solo a través de los diferentes valores numéricos posibles.

Pero es más importante que una escala psicológica sea invariable con respecto a métodos equivalentes lógicamente, o que un método implique la posibilidad de otro. Cuando los sujetos pueden emitir juicios de razón, pueden entonces también dar juicios de intervalo con respecto al mismo atributo. Pero, como hemos visto, no obtenemos la misma escala psicológica cuando se usan éstas técnicas diferentes. De hecho, esta dificultad ha conducido a muchos investigadores a buscar la técnica "correcta". Pero una escala que es exclusiva de un método particular se convierte en un concepto definido tan estrecho que tiene poca utilidad general.

Garner (1958) ha sostenido, específicamente y por estas razones, el uso de una escala latente de sonoridad basada en el criterio de discriminabilidad, ya que el criterio implícito en la mayoría de las técnicas latentes conserva su generalidad de un método a otro. Jones (1960) ha apoyado este argumento en materiales de estímulo que no son de tipo psicofísico. En efecto, las escalas psicológicas basadas en propiedades latentes de los datos se corresponden mayormente con las escalas basadas en técnicas manifiestas de intervalo, y no así con las basadas en técnicas manifiestas de razón.

Es por esto que la evidencia disponible indica que las escalas latentes tienen mayor generalidad que las manifiestas, particularmente las de esta clase que asumen la capacidad de los sujetos para usar propiedades de razón. La razón de esto quizá sea en parte la observación que hicimos anteriormente de que las técnicas latentes requieren suposiciones especiales; pero el requerimiento de estas es bastante evidente para que la mayoría de los investigadores se empeñen en establecer su validez.

Entonces, en el caso ideal, una escala debe poseer generalidad en cuanto a tiempo, sujetos, objetos que reflejen el atributo, y método. Como indicamos al final, el problema de generalidad a través de métodos diferentes es en la actualidad el obstáculo más grande para el desenvolvimiento de la medición por escalas psicológicas. Cuando señalamos que los procedimientos latentes parecen proporcionar mayor generalidad que las técnicas manifiestas, evadimos un problema muy real. No quisimos significar que las técnicas tenían mayor éxito porque reflejaban procesos reales de las personas, que reflejaban realmente las propiedades métricas de los atributos. No queríamos declararlo porque no sabemos si la afirmación es verdadera o no.

Desde un punto de vista ideal, la escala de mayor generalidad es la que a la vez posee la mayor correspondencia con los atributos internos y con los proceso mediatorios. Tal escala surgiría solamente de una teoría de la forma en que las personas hacen juicios acerca de su experiencia, cuando se aplica la teoría al procedimiento empleado para elaborar la escala. Sería injusto decir que no existe semejante teoría; la suposición de normalidad usada en la mayoría de los procedimientos de elaboración de escalas latentes es realmente el primer paso hacia tal teoría. Últimamente se han desarrollado muchas teorías acerca del proceso de juicio; pero hasta la fecha poco es lo que se ha hecho para aplicarlas a los problemas de construcción de escalas. Mientras tanto, como hemos visto, se han desarrollado muchos procedimientos valiosos que el psicólogo puede emplear en la medición de procesos psicológicos.

BIBLIOGRAFIA

Abelson, R. P. 1960 "Scales derived by consideration of variance components in multiway tables", en la obra Psychological Scaling (Gulliksen, H., y Messick, S, directores) Nueva York, John Wiley & Sons, Inc.
Attneave, F. 1949 "A method of graded dichotomies for the scaling of judgments". Psychological Review 56: 334-340.
Coombs, C.H. 1950 "Psychological scaling without a unit of measurement". Psychological Review 57: 145-158.
DeSoto, C.B. 1961 "The predilection for single orderings". Journal of Abnormal and Social Psychology 62: 16-23
Garner, W.R.
    1954a "A technique and a scale for loudness measurement". Journal of the Acoustical Society of America 26: 73-88.
    1954b "Context effects and the validity of loudness scales". Journal of Experimental Psychology 48: 218-224
    1958 "Advantages of the discriminability criterion for a loudness scale". Journal of the Acoustícal Society of America 30: 1005-1012.
Garner, W.R. y H.W. Hake. 1951 "The amount of information in absolute judgments". Psycholoqical Review 58: 446-459.
Garner, W.R., H.W. Hake, y C.W. Eriksen. 1956 "Operationism and concept of perception ". Psychological Review 63: 149-159.
Green. B.F.C 1954 "Attitude measurement". En la obra de G. Lindzey (Director), Handbook of Social Psychology. Reading, Mass.: Addison Wesley Publishing Company.
Guilford, J.P.
1938 "The computation of psychological values from judgments in absolute categories". Journal of Experimental Psychology 22: 34-42.
1954 Psychometric Methods. Segunda edición. Nueva York, McGrawHill Book Company, Inc. Gulliksen, H.
1950 Theory of Mental Tests. Nueva York, John Wiley & Sons, Inc.
Guttman, L. 1950 Measurement and prediction. (Stouffer, S.A., y col.) Capítulos 2, 3, 6, 8 y 9. Princeton, New Jersey; Princeton University Press.
Helson, H.
1948 "Adaptation-level as a basis for a quantitative theory of frames of references". Psychological Review 55: 297-313.
1959 "Adaptation-Level Theory". En la obra Psychology: A Study Of a Science. Vol. I. (Koch, S., di rector) Nueva York; McGrawHill Book Company, Inc.
Jones, L.V. 1960 "Some invariant findings under the method of succesive intervals". En la obra Psychological Scaling (Gulliksen, H., y Messick, S., directores) Nueva York; John Wiley & Sons, Inc.
Kuffer, S.W., R. FitzHugh, y H.B. Barlow. 1957 "Maintained activity in the cat's retina in light and darkness". Journal of General Physíology 40: 683-702.
Metfessel, M. 1947 "A proposal for quantitative reporting of comparative judgments". Journal of Psychology 24: 229-235.
Michels, W.C. 1954 "An interpretation of the bril scale of subjective brightness". Journal of the Optical Society of America 44: 70-74.
Michels, W.C., y B.T. Doser 1955 "Rating scale method for comparative loudness measurement". Journal of ihe Acustical Society of America 27: 1173-1180.
Michels, W.C., y H. Helson. 1949 "A reformulation of the Fechner law in terms of adaptation-level applied to rating-scale data". American Journal of Psychology 62: 355-368.
Saffir, M .A. 1937 "A comparative study of scales constructed by three psychological methods". Psychometrika 2: 179-198.
Stevens, S.S.
1951 Mathematics, measurement, and psychophysics". En la obra de S.S. Stevesns (Director), Hand book of Experimental Psychology. Nueva York; John Wiley & Sons, Inc.
1957 "On the psychological law". Psychological Review 64: 153-181.
1959 "Cross-modality validation of subjective scales for loudness, vibration, and electric shock". Journal of Experimental Psychology 57: 201-209.
Stevens, S.S., y E.H. Galanter. 1957 "Ratio scales and category scales for a dozen perceptual continua". Journal of Experimental Psychology 54: 377-411.
Stouffer, S.A., L. Guttman, E.A. Suchman, P.F. Lazarsfeld, S.A. Star, y J.A. Clausen. 1950 Measurement and prediction. Vol. ¡V. Princeton, Nueva Jersey; Princeton University Press.
Thurstone, L.L. 1927 "A law of comparatíve judq~, ment". Psychological Review 34: 273-286.
Torgerson, W.S.
1958 Theory and Methods of Scaling. Nueva York; John Wiley & Sons, I nc.
1960 Quantitative judgment scales. (Gulliksen, H„ y Messick, S , Directores) Nueva York; John Wiley & Sons, Inc.
Warren, R,M, 1958 "A basis for judgment of sensory intensity". American Journal of Psychology 71: 675-687.
Warren, R.M., y E.C. Poulton. 1960 "Basis for lightness-judgment of grays". American Journal of Psychology 73: 380-387.
Warren, R.M., y E.A. Sersen, y E, Pores. 1958 "A basis for loudness-judgments". American Journal of Psychology 71: 700-709.

subir índice

Artículo abril 2007

LA SEGURIDAD EN AVIACIÓN: IMPORTANCIA DEL FACTOR HUMANO. XX

Técnicas de intervalo latente

Existen muchas maneras lógicas de construir escalas psicológicas con propiedades intervalares, las cuales se basan en propiedades latentes de los datos; como ejemplo tenemos la técnica de despliegue de Coombs. Pero en el establecimiento de escalas psicológicas todas las técnicas se basan primordialmente en la aceptación de propiedades manifiestas ordinales, además de poseer propiedades ordinales que se agregan después de una suposición secundaria acerca de la distribución estadística de los valores escalares. Y la suposición común es que los procesos psicológicos se distribuyen de acuerdo con la distribución normal.

Hace más de cien años, Fechner fue el primero en construir una escala psicológica de intervalo basada en propiedades de intervalo latente de intervalo. Integró las dan (jnd's) para obtener una escala de magnitudes sensoriales, aplicando la suposición de que todas las dan son iguales en cuanto a sensación. Este supuesto permitió construir una escala con propiedades de intervalo.

Thurstone (1927) extendió el principio usado por Fechner para obtener una ley mucho más general. En realidad Fechner había supuesto que las diferencias que se advierten con la misma frecuencia constituyen diferencias psicológicas iguales, ya que una dan se define como una proporción constante de juicios referentes a que un estímulo es más grande que otro. Pero Fechner no hizo ninguna suposición acerca de la distribución de los juicios. La generalización de Thurstone consistió en suponer que el proceso psicológico que conduce a juicios de diferencia está distribuido normalmente. De esta suposición puede deducirse la distancia psicológica si conocemos la proporción de veces que un estímulo es seleccionado con respecto a otro, pues hay una relación invariable entre las probabilidades y las desviaciones normales o puntuaciones estándar. Así, si conocemos la proporción de veces que A es preferido a B, podemos determinar la distancia entre A y B, convirtiendo la proporción en la puntuación estándar equivalente en las tablas de la curva normal. Thurstone desarrolló un modelo matemático completo basado en esta Ley del juicio comparativo (nombre que se dio a los supuestos de normalidad intervalar), pero para nuestros propósitos, el principio importante es que pueden deducirse distancias psicológicas con propiedades de intervalo de las proporciones de juicios ordinales.

Así, en todas las técnicas de intervalo latente, los datos manifiestos tienen propiedades ordinales cuya validez se acepta. Aplicando el supuesto de la distribución normal de los juicios o procesos psicológicos se obtienen propiedades intervalares en la escala psicológica. Las diferencias entre las diversas técnicas dependen de la naturaleza de los datos manifiestos.

Rangos normalizados. El procedimiento más simple para obtener una escala manifiesta ordinal és pedir a vários sujetos que ordenen un conjunto de estímulos. En los datos ilustrativos de la tabla 1 (v. marzo 07) pudimos sumar los rangos para obtener el rango generalizado o promedio, pero señalamos que los estímulos debían volverse a ordenar para evitar la implicación de que las diferencias numéricas desiguales entre sumas sucesivas tienen algún significado intervalar. El tamaño de estas diferencias puede carecer de significado, porque solo se hicieron juicios ordinales y no conocemos la distancia intervalar entre los rangos sucesivos.

No obstante, si suponemos que los estímulos están distribuidos normalmente por valores escalares, entonces podemos construir una escala de intervalo. El procedimiento que usamos es el siguiente: en nuestro ejemplo teníamos cinco estímulos diferentes que había que ordenar. Si estos estímulos están distribuidos normalmente, entonces nuestra mejor suposición de trabajo consiste en que cada estímulo ocupa 1/5 del continuo total de valores posibles. En otras palabras, el estímulo con el rango más bajo se encuentra entre el 0 y el 20 % de la amplitud total de valores; el segundo estímulo está entre el 20 y el 40 %; el tercero entre el 40 y el 60 %; el cuarto entre el 60 y el 80 %; y el quinto entre el 80 y el 100 %. No sabemos exactamente en dónde se encuentra cada estímulo, pero nuestra mejor estimación es que está en medio de su amplitud de valores posibles. Supongamos que el primer estímulo está en el percentil 10, el segundo en el percentil 30 y así sucesivamente hasta el último, que está en el percentil 90. La puntuación estándar equivalente de cada percentil se determina después a partir de tablas normales y estos valores se aceptan como nuestra mejor estimación de los valores escalares de intervalo. Por ejemplo, el rango normalizado de un rango de 1 es de + 1.28, que es la desviación normal equivalente de 0.90.

Los rangos de cada uno de los cuatro estimadores se dan como rangos normalizados, y ahora podemos tomar justamente la media de estos rangos normalizados, ya que son valores promedio con propiedades intervalares. Estos rangos normalizados medios se dan en la parte inferior de la tabla.

Como la escala está formada tanto por números positivos como negativos, es difícil interpretarla. A menudo los números son transformados como si todos fueran positivos. En el último renglón de la tabla se hizo esto y, además, se multiplicaron por 10 para dispersarlos más. En una escala de intervalo todo lo que debemos conservar es el tamaño relativo de las distancias entré los valores escalares; y esto es lo que se ha logrado con dicha transformación. La escala final se relaciona con la original por la fórmula

Y= 1OX+ 11.925.

En nuestro ejemplo, pedimos a los sujetos que evaluaran únicamente cinco objetos. Cuando se evalúan más objetos, se sigue el mismo procedimiento, pero el continuo total se divide en mayor número de pasos. Esto significa que, por ejemplo, si tuviéramos 10 rangos, dividiríamos la amplitud total en 10 partes iguales, de 0 a 10, de 10 a 20, etc. Y los puntos medios de estas amplitudes, 5, 15, 25, etc., se usarían para determinar el valor equivalente de desviación normal. Por otra parte, la técnica se usaría justamente como ya se ilustró.

Comparaciones normalizadas por pares. La segunda técnica que estudiamos para obtener escalas manifiestas ordinales fue la de comparaciones por pares, en la que cada objeto es aparejado a todos los demás del conjunto. A un grupo de sujetos se les pide que indiquen su preferencia por uno de los objetos de cada par. Los datos obtenidos con esta técnica se presentan en la tabla 2, (v. Marzo 2007) donde cada celdilla indica la proporción de veces que cada pintura se prefirió a las demás. Estos datos pueden usarse para construir una escala de intervalo con la suposición de normalización, si convertimos cada una de las proporciones en su puntuación estándar equivalente, y a partir de estas puntuaciones computamos las distancias medias, en unidades de puntuaciones estándar, entre estímulos sucesivos. Y aquí, como en el caso de los rangos normalizados, se aceptaron las propiedades manifiestas ordinales de los datos.

TABLA 5
El procedimiento de rangos normalizados*

Estimadores Joe Bill Andy Jack Sam

Jefe                             .53             1.28             0                 -.53             -1.28
Superintendente              0               .53             1.28             -1.28             -.53
Administrador                .53            1.28             -.53               0                -1.28
Psicólogo                         0                .53             -.53              1.28            -1.28
Suma                            1.06          - 3.62              .22              -.53            -4.37
Rango media normalizado .265            .905            .055            -.132           -1.092
Escala transformada     14.575        20.975        12.475          10.600            1.000

* Cada anotación es la puntuación estándar equivalente del rango dado en la Tabla 1. La escala transformada (Y) se relaciona con la escala original (X) por la fórmula Y = 10 X + 11.925.

El fundamento de la construcción de la escala es el siguiente: primero, consideremos cada columna de la tabla 6. Los valores de la primera columna representan las puntuaciones de desviación normal cuando cada pintura se compara con la primera. Ya que la pintura con la cual se compararon cada una de las siete pinturas de esa columna es constante, entonces, con la suposición normal-intervalar, los valores de esa columna pueden usarse directamente como valores escalares de intervalo para todas las pinturas. De manera totalmente arbitraria, se le asignó a la primera pintura -el estándar- un valor escalar de 0; y este procedimiento es por entero correcto, ya que solamente construimos una escala con propiedades de intervalo, y tal tipo de escala no tiene cero absoluto o verdadero.

Desde el punto de vista estrictamente lógico, todo cuanto se necesita para construir una escala latente de intervalo es una columna de datos de comparación. Sin embargo, podríamos usar también cualquier columna en lugar de la primera, porque en cada una de ellas se han comparado siete pinturas con una sola estándar. En cada columna la escala que construyamos se asignaría, empero, el valor de 0 a la pintura que se hubiera usado como estándar de comparación. Ahora bien, si los datos fueran perfectamente confiables y válidas las suposiciones que intervienen en una escala de intervalo, estas ocho escalas serían exactamente iguales excepto por la posición arbitraria del punto cero. Desde que la posición del valor cero es completamente arbitraria, podríamos cambiar simplemente cada conjunto de valores escalares de manera que al mismo estímulo se le diera el valor 0. Luego podríamos promediar los valores escalares correspondientes a cada estímulo con el fin de obtener una escala más general.

Hay, sin embargo, una dificultad importante en este sencillo procedimiento, que se ilustra en la tabla 6, y es que cada columna -con las ocho pinturas diferentes empleadas como estándares- no proporciona un valor escalar efectivo para cada una de las ocho pinturas, puesto que en casos extremos una pintura se escoge o se prefiere en función de una o dos de las demás, todas o casi todas las veces. En estos casos están indeterminadas las puntuaciones estándar. Tenemos así ocho escalas diferentes en las ocho columnas; pero no a todos los estímulos, dentro de cada columna, se les dan valores escalares.

TABLA 6

Comparaciones por pares normalizadas, usando los datos de la Tabla 2.
Pinturas Diferencia media Valor escala

A B C D E F G H

A               0     -.52    -1.08    -1.55    -1.55      -      -       -                                                       2.786
B              .52      0      -.31      -.77     -1.18    -1.41 -1.41   .592                                                 2.194
C              1.08   .31        0       -.47      -.52    -1.08 -1.28 -1.55                        .371                 1.823
D              1.55 .77       .47        0       -.47    -.36    -.92   -1.41                        .392                  .431
E              1.55   1.18     .52       .47        0      -.31    -.99   -1.28                        .189                  1.242
F               -      1.41      1.08     .36       .31         0    -.36   -1.28                        .276                 .966
G               -     1.41       1.28    .92       .99       .36     0      .77                         .381                  .585
H              -       -         1.55    1.41      1.28     1.28    .77      0                          .585                    0

Las proporciones se tomaron como estimaciones de la probabilidad de que cada pintura fuera preferida a cada una de las demás, y los números que aquí se muestran son los equivalentes de puntuación estándar de estas probabilidades. A la derecha, se ve la distancia media en unidades de puntuación estándar entre las pinturas y la escala final, donde se asignó un valor de 0 a la pintura menos preferida.

Lo que debemos hacer es determinar la diferencia entre cada par de estímulos adyacentes calculando la diferencia promedio de valor escalar en todas las escalas donde las dos pinturas de un par tuvieron valores escalares. Por ejemplo, las dos pinturas A y B tienen valores escalares en las cinco primeras columnas, de modo que podemos obtener cinco estimaciones de la diferencia entre A y B usando los valores escalares de estas cinco columnas. La diferencia promedio entre los valores escalares es, en estas cinco columnas, 592 unidades de puntuación estándar.

De manera análoga, determinamos la diferencia promedio de valor escalar entre B y C, usando las siete columnas donde hay valores escalares para estos estímulos, y así sucesivamente, hasta obtener las diferencias de valores escalares entre todos los estímulos contiguos; y en cada caso la diferencia es la media de todas las diferencias que se obtuvieron para ese par de estímulos. Estas diferencias medias se presentan en el lado derecho de la tabla 6.

Los valores escalares finales se obtuvieron después suponiendo las diferencias de valores escalares sucesivos presentadas en la última columna de la tabla 6; como en casos anteriores, podemos trasladar estos valores escalares para obtener el punto 0 deseado. Podemos igualmente multiplicar los valores escalares; y existen razones teóricas para multiplicarlos por, la raíz cuadrada de 2. Sin embargo, es también correcto dejar los números en esta forma, ya que son interpretables fácil y directamente en relación con las proporciones originales de las que se obtuvieron.

El método de comparaciones por pares normalizadas, proporciona una prueba de consistencia interna que no es factible con rangos normalizados. Se recordará que podíamos considerar que cada columna de la tabla 6 proporcionaba una estimación de los valores escalares de todos los estímulos; pero después usamos las diferencias escalares medias para obtener nuestro conjunto final de valores escalares. Cada escala separada debe corresponder, sin embargo, a esta escala promedio dentro del error de medida esperado, cuando se ajusta el punto 0 de la escala. Si usamos la escala promedio para predecir cada escala separada, podemos convertir los valores escalares en proporciones esperadas; y si estas predicciones no corresponden, otra vez dentro del error de medida, debemos rechazar la suposición de que todos los valores escalares sean realmente iguales. En tal caso existen muchos modelos alternos que podrían también usarse. El más común es suponer que no son iguales las desviaciones estándar. En otras palabras, mantenemos la suposición de normalidad, pero no la de que la distribución normal de cada estímulo tiene la misma desviación estándar; pero no es nuestro propósito entrar en detalle.

Rangos de categoría normalizados La tercera técnica para obtener escalas manifiestas -ordinales es la de rangos de categoría. Pueden aquí usarse los datos para elaborar una escala latente- intervalar si le asignamos el supuesto de normalidad. Los datos que usaremos son los de la tabla 3, que corresponden al método de rangos de categoría. Pueden, no obstante, usarse igualmente los datos de los métodos de intervalos aparentemente iguales, de categorías numéricas o de escalas de evaluación, si suponemos que la única propiedad manifiesta válida de los datos obtenidos es la propiedad ordinal.

Se han sugerido muchas técnicas con diferentes nombres para elaborar escalas intervalares latentes basadas en datos de categorías. Sin embargo, como señala Guilford (1954), todas son básicamente iguales. Saffir (1937) fue el primero en usar este método, basándose en una técnica desarrollada por Thurstone y lo denominó método de categorías sucesivas. Guilford (1938) propuso otro método al que llamó de elaboración absoluta de escala. Attneave (1949) propuso lo que él llamó método de dicotomías clasificadas por grados; y Garner y Hake (1951) describieron un método para construir una escala de discriminabilidad equivalente. Pese a todo, estos métodos aplican los mismos principios esenciales, que dependen principalmente de la suposición de normalidad para crear una escala intervalar latente a partir de datos con propiedades manifiestas-ordinales.

El primer paso para construir una escala intervalar latente se ilustra en la misma tabla 3, donde el número debajo de cada par en cada celdilla es la proporción acumulativa de veces que cada estímulo fue clasificado en la categoría dada o en una inferior. Estas proporciones acumulativas deben considerarse, por consiguiente, como la proporción de juicios que caen por debajo del límite superior de cada rango de categorías. Naturalmente, todas las proporciones acumulativas son iguales a 1.00 en los rangos categoriales más altos, ya que cada patrón de estímulo recibió un rango de categoría de parte de cada uno de los 20 jueces, y las proporciones deben sumar la unidad.

Podemos ahora suponer que estas proporciones están distribuidas normalmente; convirtamos, pues, las proporciones acumulativas en proporciones estándar con las tablas de la curva normal. Estos valores, presentados en la tabla 7, son los valores escalares psicológicos supuestos de los límites superiores de las categorías de respuesta, y el último rango de categoría (quinto) no tiene valor porque la puntuación de desviación de la curva normal para una proporción de 1.00 está en más infinito.

Tenemos, mientras tanto, un valor escalar para el límite superior del intervalo de cada rango de categoría excepto en los casos en que la proporción acumulativa es 1.00 o un valor cercano. (Como es habitual no hemos usado valores acumulativos mayores que .95 o menores que .05, debido a que el error estadístico es muy grande en tales proporciones). Esto no obsta para considerar que en cada límite superior intervalar también tenemos un valor escalar para cada estímulo sucesivo. Así cada renglón nos proporciona un conjunto de valores escalares de estímulo. Podemos obtener estimaciones de la diferencia escalar promedio entre estímulos sucesivos en las columnas donde los estímulos de cada par tienen valores efectivos, y podemos acumular estas diferencias promedio para obtener una escala final dé los estímulos. Puede asignarse un valor de cero a cualquier estímulo que escojamos. Este cálculo se ilustra en la tabla 7.

TABLA 7
Rangos categoriales normalizados, usando los datos de la tabla 3*

Patrones de estímulo

Categoría         1         2         3         4                 19             20
1                    00      -.25    -.13     -.52             -1.28              -
2                   .84       .67     .25      .13              -1.28          -1.28
3                  1.04     1.28     .67      .67               -.67           -.84
4                    -        1.28     1.28    1.04               .38             .25
5                    -           -         -         -                   -                 -
Diferencia media .060      .287    .187                         .100
Valor escala    0        .060    .347     .534           10.310         10.410
* En este caso hemos usado las proporciones acumulativas para obtener valores de puntuación estándar.

Se obtiene una prueba de la consistencia interna fundamentalmente de la misma manera que en las comparaciones por pares normalizados. Podemos usar la escala promedio para computar las diferencias entre los estímulos en los límites superiores intervalares y convertirlas después en proporciones acumulativas. Luego podemos compararlas con las proporciones originales y decidir si estuvo operando la misma escala psicológica para todos los estímulos. Si no es así, pueden usarse otros métodos, especialmente los que suponen desviaciones estándar desiguales.

Técnicas de proporción manifiesta

Cualquier técnica basada en propiedades de razón manifiesta de las respuestas de un sujeto o de un evaluador, debe hacer las suposiciones paralelas de que el atributo en cuestión tiene efectivamente propiedades de razón y que los sujetos pueden percibir y describir directamente estas propiedades. La propiedad de razón, requiere, específicamente, que el atributo tenga un cero absoluto, ya que sin éste una expresión de proporción carece totalmente de significado.

De ahí que las técnicas manifiestas de razón requieran en alguna forma que el sujeto exprese una relación entre dos o más objetos estímulo en forma de proporción. No es, de suyo, necesario que tales objetos sean lo que ordinariamente llamamos estímulos, sino que pueden ser personas, si bien no deja de ser cierto que las técnicas de proporción se han usado rara vez con estas últimas.

Elaboración de razones. Probablemente la técnica más antigua de este tipo sea la elaboración de razones. El método se ha llamado a menudo "fraccionamiento", porque se le pide a un sujeto que elabore una magnitud de estímulo que sea una fracción especificada de otro, pero como también se le puede pedir que elabore un estímulo que sea múltiplo constante del otro, es preferible el término más amplia de elaboración de razones.

Como acabamos de señalar, el procedimiento básico consiste en darle al sujeto un estímulo estándar que se presume tiene el atributo considerado y en pedirle después que elabore otro estímulo que mantenga una razón constante indicada con el estándar. Este método es, desde luego, semejante al de equisección porque el sujeto elabora un estímulo (podría elaborar una serie de estímulos) que guarda una relación numérica indicada con un estándar. Como la equisección, el método se adapta solamente a los atributos psicológicos que tienen una dimensión física fácilmente manipulable que es la contraparte del atributo psicológico. La sonoridad ha sido el atributo más usado, y nosotros también nos valdremos de ella para ilustrar el método.

En su forma más simple, empezaríamos con un estímulo sonoro como estándar y pediríamos a un sujeto que produjera un estímulo con la mitad de sonoridad. Si asignamos arbitrariamente un numeral, por ejemplo 100, al estándar, entonces se asignaría el numeral 50 al estímulo que según el sujeto fuese la mitad de sonoro. Después usaríamos ese estímulo como estándar y pediríamos al sujeto que produjera otro que fuera la mitad de sonoro de ese, y le asignaríamos el numeral 25. Continuando este fraccionamiento, obtendríamos sucesivamente una sonoridad de 12.5, 6.25, etc.

En realidad, este sencillo procedimiento se usa rara vez debido a las posibles desviaciones experimentales que pueden ocurrir con la disminución sucesiva de sonoridad. El procedimiento usual, consiste en usar una serie de estándares fijos, por ejemplo, cada uno de 10 db. Después cada sujeto ajusta otro estímulo de la mitad de sonoridad de cada estándar. Los estímulos estándar se usan al azar o contrabalanceadamente, y los diferentes sujetos pueden producir varias veces cada estándar. Estos valores diversos se promedian después para obtener una curva promedio que exprese 12 relación entre la intensidad del estándar y la intensidad considerada como la mitad de sonora.

Luego se construyó la escala psicológica de sonoridad, por medio de interpolaciones, para obtener las intensidades sucesivas de la mitad de sonoridad. Podemos asignar arbitrariamente, por ejemplo, un valor de 100 a una intensidad de 110 db y luego leer en la función la intensidad que se juzga, en promedio, como la mitad de su sonoridad. A esta intensidad se le asigna un valor escalar de 50 y después se determina, por interpolación, la intensidad que se consideró como la mitad de la sonoridad de ésta. A esa intensidad se le da un valor de 25 y después se usa para determinar la intensidad que se juzgó como la mitad de sonora, etc., hasta llegar a intensidades tan bajas como las usadas experimentalmente.

Los tipos de prueba de consistencia que permite este procedimiento se refieren básicamente a la capacidad de los sujetos para usar correctamente las razones de números. Por ejemplo, podíamos realizar exactamente este experimento excepto al pedírsele al sujeto qué produjera un estímulo el doble de sonoro; o que produjera estímulos de un tercio de sonoridad o aun del triple de sonoridad. Cada uno de estos procedimientos debe conducir ciertamente a la misma escala de sonoridad si se usan los números correctamente.

Estimación de magnitud. En la técnica de producción de razones, se le da al sujeto un valor numérico y se le pide que ajuste los estímulos hasta satisfacer el criterio. En la estimación de magnitud, como en las técnicas de propiedades manifiestas intervalares de intervalos aparentemente iguales, de escalas de categorías numéricas y de escalas de estimación, se proporcionan los estímulos y se pide al sujeto que indique, en este caso siempre numéricamente, las relaciones entre esos estímulos.

De entre los procedimientos de estimación de magnitud hay dos que pueden usarse.

- El primero consiste sencillamente en presentar un estímulo por vez y pedirle al sujeto que indique su valor numérico usando cualquier módulo o unidad de medida. Este es un procedimiento de estimación numérica directa y los valores escalares son simplemente los valores numéricos medios obtenidos. Las propiedades de razón de la escala dependen completamente de la suposición de que las propiedades de razón fueron efectivamente usadas por los sujetos.

- El segundo procedimiento consiste en presentar un estímulo estándar asignándole de antemano un valor numérico, que se convierte en el módulo o unidad de medida. Se presentan después otros estímulos y se pide al sujeto que indique el valor numérico que debe asignarle a cada uno de acuerdo con el módulo estándar. Este puede presentarse cada vez que se proponga otro estímulo de comparación, o bien puede presentarse sólo ocasionalmente.

Para una prueba de consistencia interna, es preferible usar por lo menos dos estímulos estándar diferentes, ya sea de igual o diferente módulo numérico. En la tabla 8 aparecen algunos datos ilustrativos de un experimento en que se usaron dos estímulos estándar diferentes, cada uno con el mismo módulo numérico. Los estímulos consistieron en pesos que el sujeto levantaba. Los valores que se incluyen son los valores numéricos medios dados por los sujetos a cada uno de los pesos.

Cada uno de estos dos conjuntos de datos puede usarse para construir una escala psicológica de peso; también podemos convertirlos al mismo módulo numérico para construir una sola escala compuesta. Multiplicamos (o dividimos) sencillamente todos los números obtenidos con el segundo estándar de manera que el valor numérico de este corresponda a su valor cuando es juzgado en relación con el primer estándar. Una escala de razón permite cualquier transformación multiplicativa, así que este cambio es completamente válido. Adviértase, sin embargo, que no debemos agregar o sumar una constante a ninguna de las escalas, porque en las escalas de razón no está permitida tal transformación. Si tuviéramos que hacerlo para que concordaran las dos escalas comprobaríamos que no se usaron los números como razones.

Estas dos escalas, transformadas al mismo módulo numérico, son las que aparecen en la figura 6, y en nuestro ejemplo particular concuerdan perfectamente.

- El método de suma constante. Metfessel (1947) sugirió una tercera técnica para obtener escalas de razón, la cual ha venido a llamarse método de suma constante. Es análoga al método de comparación por pares excepto en que los sujetos formulan juicios de razón, y no ordinales.

En la situación experimental tenemos un número fijo de estímulos para los que deseamos hacer una escala relacionada con cierto atributo, y puesto que los estímulos permanecen constantes, no es necesario que haya una dimensión física correspondiente a dicho atributo. Cada estímulo es apareado con cada uno de los demás para formar todos los pares posibles. Después se presentan los pares en forma sucesiva al sujeto y se le pide a éste que asigne valores numéricos a los dos objetos de estímulo del par. Hay en esta asignación numérica la restricción de que la suma de los dos números usados debe ser igual a una constante, generalmente de 100, fijada por el experimentador. Así, por ejemplo, un sujeto puede decir que el estímulo A recibe un valor de 60 y el B un valor de 40. Ahora bien, si un sujeto puede dividir una suma fija de esta manera, ello implica que puede formar razones y podemos deducir que la razón numérica entre los valores escalares de los estímulos A y B es de 1.5 a 1. El sujeto puede hacer uno y hasta varios juicios para cada par. Se usan, además, varios sujetos para dar generalidad a la escala.

Existen formas alternas de tratar los datos y es posible usarlos en su forma numérica directa. Sin embargo, Torgerson (1958), ha indicado un procedimiento de gran sencillez aritmética y que conserva el fundamento del procedimiento, muy semejante al tratamiento de datos de comparaciones por pares normalizados.

La esencia del procedimiento consiste en la relación entre logaritmos v razones. Si tomamos logaritmos de los valores numéricos de una escala de razón, entonces las diferencias logarítmicas iguales son equivalentes a las que fueron originalmente razones iguales, Así, una serie de valores numéricos sobre una escala de razón de 1, 2, 4, 8 y 16 se convierte en los logaritmos 0, .3, .6, .9 y 1.2. Por tanto, si convertimos en logaritmos nuestros numerales de razón obtenidos de los datos, podemos tratar con números donde una diferencia constante siempre significa una razón constante, independientemente de los valores reales de los números originales.

Nuestro procedimiento consiste, entonces, en tomar un par de números que da un sujeto, expresarlos como una sola razón y luego convertir esta razón en su logaritmo equivalente. Los valores de 60 y 40 asignados a A y B se expresarán, consecuentemente, como una razón de 1.5 a 1, con su logaritmo equivalente de 0.176. Y tendremos así que este valor representa la diferencia logarítmica entre A y B, que es equivalente a la razón.

En cada pareja de estímulos obtenemos la media de todas las diferencias logarítmicas, que se colocan en una tabla semejante a la tabla 9. En la diagonal principal aparece el valor de cero porque se supone que, si cada estímulo fuera comparado consigo mismo, se obtendrían valores de 50 y 50, que darían una razón de 1.0 y un logaritmo de 0.

Esta tabla puede interpretarse exactamente de la misma manera que la tabla 6. Cada columna de la tabla da una escala psicológica perfectamente válida, en la que todos los estímulos se han comparado con un solo estándar; pero este es diferente en cada columna. Excepto por el error de medida estas escalas son iguales, aunque el punto cero sea diferente en cada una debido al diferente estímulo estándar usado. Es entonces una escala de intervalo en forma logarítmica. Un cambio en el punto cero equivale aquí a la multiplicación por una constante.

TABLA 9

El método de suma constante*

                                        Bill             Joe             Andy             Jack             Sam
Bill                                    0              -.71              -.66              -.88              -1.17
Joe                                   .71               0               -,15              -.36              -.59
Andy                                .66             .15                  0               -.07              -.22
Jack                                .88             .36                .07               0                 -.18
Sam                                1.17             .59                .22              .18                  0
Diferencia media                     .606            .182              .122              .206
Escala logarítmica           1.116           .510               .328             .206               0
Escala de razón             13.06         3.24               2.12              1.67                 1
* Cada trabajador fue puesto a la par de cada uno de los demás; y los evaluadores dividieron el número 100 de manera que reflejara la proporción de la ejecución efectiva. Las proporciones se convirtieron en logaritmos; el valor de cada celdilla es la media de los logaritmos, que equivale a la proporción promedio del trabajador mencionado en la parte superior y el trabajador anotado a un lado de la tabla. Después, la diferencia media entre las columnas se convierte, por adición sucesiva, en una escala (como en una escala de intervalo); la escala final es el antilogaritmo de cada valor.

Para obtener una escala promedio, podemos calcular, precisamente como en las comparaciones por pares normalizados, la diferencia promedio entre los valores escalares de todos los pares de estímulos, independientemente del estándar. Si algunos estímulos recibieron los 100 puntos cuando se compararon con otros, entonces no tenemos ninguna diferencia escalar, porque la razón es infinita. Obtenemos así el promedio sólo para diferencias reales de pares; después agregamos estas diferencias para obtener la escala completa en forma logarítmica. Todo lo que se requiere es convertir estos valores a forma numérica. Podemos, claro está, multiplicar estos números por el valor constante que queramos.

Nuestra prueba de consistencia interna se basa en el hecho de que cada estímulo se usó tanto de estándar como de comparación para cada uno de los demás estímulos. En otras palabras, cada estímulo sirve de módulo, y un cambio en éste no debe afectar la escala, excepto en el caso de un multiplicador constante. Cuando las escalas no son iguales, sabemos de inmediato que no es válida nuestra suposición de propiedades de razón.

Una técnica de razón latente

Una escala con propiedades de medición más eficaces abarca todas las propiedades de la escala más débil. Así, una escala de intervalo tiene también la propiedad ordinal y una escala de razón tiene propiedades intervalares además de las ordinales. Este hecho indica que un procedimiento lógico para comprobar la consistencia interna de una escala es mostrar que la escala obtenida es compatible con las propiedades de una escala de orden inferior. Para ser más específicos, supongamos que hemos elaborado una escala de sonoridad mediante una de las tres técnicas manifiestas de razón. Es muy posible obtener una escala que sea consistente dentro de la estructura de la medición, pero puede no ser compatible con las propiedades de una escala obtenida mediante una técnica manifiesta intervalar o latente intervalar. Como existen diferencias importantes entre estas técnicas, particularmente cuando se emplean procedimientos latentes, no siempre podemos esperar consistencia entre ellas; y en algún grado dicha falta de consistencia puede justificarse por las suposiciones fundamentalmente diferentes que intervienen.

Esto no impide que muchas de las técnicas manifiestas sean básicamente iguales y se apliquen a problemas de escalas intervalares o de razón con la única diferencia de la capacidad asignada al sujeto para hacer uso de escalas con propiedades superiores (pero inclusivas). Por tanto, la técnica de producción de razón es exactamente igual a la técnica de equisección, excepto en que en ésta se indica al sujeto que produzca intervalos iguales, mientras que en la primera se le pide que produzca una razón dada. De manera similar, la técnica de estimación de magnitud es igual a las técnicas de categorías numéricas (y aún al método de intervalos aparentemente iguales o escalas de estimación).

En estos casos de técnicas análogas sería razonable suponer que una escala basada en la técnica de razón puede predecir exactamente la escala basada en su técnica intervalar equivalente. Sin embargo, es raro que estos procedimientos análogos conduzcan a la misma escala psicológica (véase Stevens y Galanter, 1957), hecho que debe plantear seria duda acerca de la validez de los procedimientos manifiestos. Cuando suceden estas fallas de concordancia, no sabemos, positivamente, qué técnica es defectuosa o cuál de ellas es válida.

Pero a pesar de lo anterior y como Stevens (1951) lo ha mostrado lógicamente, es posible producir una escala con propiedades de razón que no requiera las mismas suposiciones radicales acerca de las propiedades manifiestas de las respuestas que exigen las técnicas manifiestas de razón. Una escala de razón puede elaborarse entonces con base en propiedades latentes de los datos.
Garner (1954) desarrolló y usó una técnica en la que aplicó exactamente lo anterior a la sonoridad. Primero elaboramos dos escalas de sonoridad, la primera basada en producción de razones (específicamente, fraccionamiento a la mitad de sonoridad) y la segunda basada en equisección. Pese a ello:, no hacemos la suposición de que la razón de un medio haya sido usada en realidad por los sujetos, sino el supuesto. menos rotundo de que la proporción fue la misma en todos los juicios, pero que su valor se desconoce. Con esta suposición, podemos determinar aún una función de la sonoridad, pero no conocemos la razón que se usó. Esta función está relacionada con la función verdadera de la sonoridad (latente) por

L =ab^x

donde L es la función verdadera de sonoridad, a es cierta unidad arbitraria de medida, b el valor de la razón desconocida y x el valor de la razón sucesiva. Podemos asignar a a el valor que queramos, de manera que sólo quede un valor desconocido en el segundo miembro de esta ecuación.

A partir de los datos del experimento de equiseccion, podemos también determinar la función de sonoridad, pero no conocemos el valor de la constante de intersección, es decir la localización del punto cero. En forma de ecuación sabemos que

L=c(Y-d)

donde L tiene el mismo significado que arriba, c es una unidad arbitraria de medida, Y es el valor asignado a la sonoridad de los datos intervalares, y d es la intersección constante desconocida.

En realidad solamente tenemos dos términos desconocidos, el valor de la razón del experimento de fraccionamiento y el valor de la intersección de los datos de equisección. Pero contamos con dos conjuntos de datos independientes y, por tanto, podemos calcular estos dos valores desconocidos de manera que se llegue a la misma escala de sonoridad. No es necesario entrar aquí en los detalles del procedimiento aritmético usado para determinar las estimaciones, pues lo más importante es que estas satisfagan la condición de una sola función de sonoridad. En consecuencia, este procedimiento, como las técnicas de Guttman y Coombs, tiene por requisito principal la prueba de la consistencia interna; y no es posible escala psicológica alguna sin que antes la prueba de consistencia interna haya mostrado la validez del supuesto atributo. Ha habido relativamente pocos intentos por usar las técnicas latentes para elaborar escalas de razón de atributos psicológicos. Michels (1954) publicó una escala de brillantez basada en juicios de fraccionamiento y Michels y Doser (1955) hicieron lo propio con una escala de sonoridad. Pero sus técnicas, que discutiremos con mayor amplitud más adelante, están más relacionadas con la teorización acerca de la naturaleza de las escalas mismas que con el desarrollo de un método para elaborarlas.

Otras técnicas de medición

El problema de medición en psicología es ubicuo. El análisis de las técnicas para elaborar escalas psicológicas requiere considerable selección arbitraria, toda vez que los problemas de medición lógica asociados con lo que hemos llamado elaboración de escalas preséntanse también en otras ramas de la psicología.

Los psicólogos miden cosas tales como inteligencia, habilidades, destrezas, actitudes, intereses, etc. Todo este cúmulo dé entidades puede considerarse problemático en la medición de atributos, no obstante la existencia de algunas diferencias que nos llevan a excluirlas de nuestro análisis.

Hemos estudiado problemas donde hay poca duda respecto a la existencia de cierto atributo psicológico. Nuestro interés ha sido el de cómo determinar las propiedades escalares de un atributo, para obtener después un conjunto de numerales para asignarlos a los objetos que contengan, en mayor o menor grado, el atributo. Además, nos hemos limitado a los casos donde el atributo puede definirse como un solo continuo.

No hemos analizado la medición de cosas como inteligencia y habilidad porque se definen comúnmente en términos de tareas múltiples en donde la medida no pretende tener propiedades escalares asignables a un atributo. Por ejemplo, el examen final de un curso de psicología tendrá muchos reactivos y la calificación final será la suma de los reactivos correctos. Pero no todos los reactivos miden el mismo atributo y, en realidad, la mayoría de los exámenes se elaboran de manera que no lo midan, incluyéndose deliberadamente reactivos que no están correlacionados. Tales tests hacen los problemas de medición no menos difíciles e intricados; pero son, simplemente, de distinta clase.

Por otra parte, muchas técnicas de medición extremadamente sutiles se interesan principalmente por establecer la existencia de continuos subyacentes o atributos. Por ejemplo, el análisis factorial, como técnica, se interesa menos en las propiedades de medición de un atributo que en descubrir cuantos de estos se presentan en un numero dado de personas y de tests. La técnica de Lazarsfeld, de análisis de estructura latente, también se ha omitido por esta razón (quizás incorrectamente) dado que se ocupa mas de establecer la existencia de atributos que de medir sus cantidades.

subir índice

Artículo marzo 2007

LA SEGURIDAD EN AVIACIÓN: IMPORTANCIA DEL FACTOR HUMANO. XIX

ALGUNAS TÉCNICAS DE CONSTRUCCIÓN DE ESCALAS

Cada problema que se presenta al hacer escalas fija distintos requisitos de técnica; esta es la razón por la que se han desarrollado distintas técnicas de elaboración. Muchas diferencias de técnica se deben a diferencias en los atributos o en los objetos que se van a medir por medio de escalas. Estas diferencias dificultan la agrupación significativa de las diferentes técnicas. Debemos encontrar maneras de organizar las técnicas para presentar un cuadro claro. Podríamos organizarlas según la naturaleza del atributo, según la naturaleza de los objetos que se van a medir y hasta por la naturaleza de la respuesta usada. Pero estos métodos no tienen en cuenta los aspectos conexos más importantes de una escala psicológica, a saber, cuáles son sus propiedades de medición y cómo se relaciona la escala con el atributo subyacente.

Se han organizado, por tanto, las técnicas según estos dos criterios importantes: primero, las propiedades de medición de la escala, y segundo, si la escala se basa fundamentalmente en propiedades latentes o manifiestas de los datos. Para describir los tipos de escalas, se emplean términos como "intervalo-manifiesto", que significa que la escala obtenida tiene propiedades de intervalo y que estas propiedades eran inherentes a la respuesta manifiesta.

Consistencia interna de las escalas.

Antes de describir las técnicas concretas, es conveniente hacer otro comentario acerca de los problemas experimentales de la elaboración de escalas psicológicas. Una buena técnica experimental requiere la comprobación de la consistencia interna de los datos. El concepto de consistencia interna es importante y con frecuencia nos referiremos a él. Básicamente se refiere a la validez de un procedimiento particular de elaboración de escalas o a la validez de la suposición de que se puede hacer una escala para un atributo particular con las propiedades de la escala especificada.

La esencia del concepto es: si una escala tiene las propiedades supuestas, y si la técnica particular de su elaboración es válida para determinar estas propiedades, entonces los resultados experimentales deben presentar ciertas relaciones internas compatibles con las propiedades que se le adjudican. Supongamos, por ejemplo, que tratamos de establecer una escala ordinal para tres objetos, A, B y C. Si un gran número de sujetos concuerda en que A es más grande que B y B es más grande que C, entonces también deben coincidir en que A es más grande que C, para que estos datos tengan consistencia interna. Si en lugar de esto, todos concuerdan en que C es más grande que A, entonces tendremos un resultado confiable (confiable debido al acuerdo intersujeto); pero pondríamos en duda la legitimidad de la escala debido a la falta de consistencia interna. Otro ejemplo, supongamos que hemos encontrado experimentalmente que A es dos veces mayor que B y que B es dos veces mayor que C. Entonces, nuestro procedimiento experimental también debe indicar que A es cuatro veces mayor que C. Si no sucede así, entonces rechazamos la suposición de que se haya logrado la escala de razón adecuada.

Aunque un conjunto de datos carezca de consistencia interna, no siempre estaremos seguros del por qué. Es posible que sea errónea la suposición de la existencia de una escala con las propiedades especificadas. O es posible que nuestra técnica experimental sea inadecuada para determinar dicha escala. Si los datos no tienen consistencia interna, a menudo se ensaya otra técnica para determinar si la técnica original es defectuosa y no la suposición acerca de las propiedades del atributo mismo.

Muchos procedimientos de elaboración de escalas contienen comprobaciones de la consistencia interna como parte integral de la técnica misma. En particular, las técnicas latentes a menudo contienen y aún hacen hincapié en tales comprobaciones debido a la importancia de la suposición de mensurabilidad por escala en estas técnicas. Con las técnicas manifiestas, estas comprobaciones pueden y deben hacerse; pero ordinariamente implican realizar más de un experimento.

Técnicas manifiestas ordinales

La propiedad ordinal de las escalas psicológicas es de aceptación tan común que todas las escalas que solo tienen propiedades ordinales se basan en datos manifiestos. En otras palabras, las técnicas latentes no se usan por lo común para obtener escalas ordinales porque la mayoría de los experimentadores consideran que el sujeto promedio es capaz para hacer juicios ordinales.

Ordenación por rangos. Probablemente la más sencilla de todas las técnicas de elaboración de escalas es la ordenación jerárquica simple. Se presenta a un sujeto un conjunto de estímulos para que juzgue, por ejemplo, su valor estético; o a un supervisor se le pide que ordene a los empleados supervisados por él; o se le pide a un sujeto que juzgue la brillantez de varios estímulos grises. En cada caso, si el número de objetos que se van a ordenar es relativamente pequeño, se pide simplemente al sujeto que ponga los objetos en orden de rango o que asigne un número de orden a cada objeto. Estos números se consideran después como valores escalares. Con el fin de proporcionar alguna generalidad a la escala y con ello ofrecer alguna comprobación de la validez de la suposición de que existe un atributo mensurable por escala, puede pedirse a varios sujetos o estimadores que ordenen los mismos objetos. Los datos de la tabla 1 presentan las posiciones de un ejemplo hipotético donde cuatro estimadores apreciaron cada uno a cinco trabajadores. Los números de orden se pueden sumar para ofrecer una escala de rangos compuestos, o se pueden calcular promedios para cada trabajador, obteniéndose de tal modo un rango promedio. Sin embargo, debe estar claro que estos rangos promedio, con sus intervalos numéricos desiguales entre los estímulos, no dan propiedades escalares superiores a las de las escalas ordinales. Para evitar cualquier interpretación errónea del significado de estos rangos promedio, es conveniente reasignar números enteros de rango a los objetos, como se ha hecho en la tabla l.

Comparaciones por pares. Cuando tenemos un número relativamente pequeño de objetos para ser colocados en orden, puede usarse una técnica ligeramente menos elaborada, que suministra una comprobación mejor de la consistencia interna de las suposiciones ordinales. En esta técnica, los objetos, por ejemplo, diez, se agrupan en todas las parejas posibles (con diez objetos podemos hacer 45 parejas); después se presentan estas parejas, una a la vez, y se le pide al sujeto que diga cuál estímulo tiene mayor proporción del atributo, o qué persona, por ejemplo, es más diestra como maquinista. Así, con esta técnica, en lugar de que cada sujeto ordene los diez objetos a la vez, ordena dos objetos en cada una de las 45 parejas.

La ventaja de esta técnica es que suministra una comprobación de la capacidad de los sujetos para ordenar los estímulos, porque si todos los objetos tienen realmente un orden consistente para el sujeto, entonces muchos de los juicios sobre los pares son predecibles a partir de otros. Por ejemplo, supongamos que un sujeto escoge a A como más grande que B y luego escoge a B como más grande que C. Entonces es claro que también debe escoger a A como más grande que C, y si falla con más frecuencia de la predecible atribuyéndola al azar o al error, rechazaríamos la suposición de que pueden ordenarse los sujetos con respecto al atributo especificado.

La tabla 2 presenta un conjunto de datos hipotéticos resultantes de un experimento de comparación por pares, expuestos en la forma usual. En esta tabla se enumeran los estímulos en la parte superior y a un lado, y cada celdilla representa un solo par juzgado. El valor en una celdilla de la tabla indica la proporción de veces (de todos los sujetos que hacen las selecciones) que el estímulo mencionado arriba fue preferido al estímulo indicado al lado. En el ejemplo, se pidió a 50 sujetos que seleccionaran entre pares de pinturas basándose en sus preferencias estéticas. En esta ilustración, la pintura "A" fue preferida a la "B" por 35 de los 50 sujetos en una proporción de 70. Todos los sujetos prefirieron además la pintura "A" a la pintura "H".

En este tipo de experimento, de ordenación simple, los datos de un solo sujeto podrían darnos los valores de rango de los objetos si sus selecciones por pareja tuvieran consistencia interna. Sin embargo, podemos obtener mayor generalidad combinando las respuestas de los sujetos, como hemos hecho en el ejemplo. Con solo sumar el número total (o proporción) de veces que cada objeto es seleccionado cuando se iguala con cada uno de los demás, tenemos una escala de rangos promedio. Y nuevamente, como en la ordenación jerárquica, asignaremos a los estímulos números enteros de rango, ya que las diferencias entre los números de selecciones no reflejan necesariamente diferencias en los intervalos entre los objetos. De esta manera tenemos aún una escala ordinal, basada en las propiedades manifiestas ordinales de los juicios.

Rangos de categoría. Tanto las técnicas de ordenación como la de comparaciones por pares son factibles solamente cuando se va a establecer una escala para un número relativamente pequeño de objetos. Ya con unos 20 objetos se dificulta la ordenación, y la comparación por pares (190, en este caso) es prohibitiva Debemos entonces recurrir a una técnica modificada de ordenación. En la técnica de categorías de rango, se usan menos categorías de éste que el número de objetos que se van a juzgar. Por ejemplo, tenemos 60 estructuras diferentes de estímulos que se van a juzgar por su calidad, pero pedimos a los jueces que usen solo cinco categorías diferentes de respuesta, y únicamente como rangos. En nuestro ejemplo de la tabla 3, hay solo cinco categorías de rango, donde el rango "1 " significa las mejores estructuras, y el rango "5" las estructuras más pobres.

En esta técnica cada categoría de rango se usa con muchos estímulos diferentes, pero los diferentes sujetos o jueces no asignan los rangos a los objetos estímulo de la misma manera exactamente. Así, cada estímulo tendrá una distribución de categorías de rango. En esta distribución podemos computar un rango medio como lo hicimos en la tabla 3, pero esto es discutible porque las categorías de rango no tienen propiedades de intervalo. Un procedimiento mejor, que también se presenta en la tabla 3, es calcular la mediana de los rangos asignados a cada estímulo, por interpolación en la distribución acumulativa de frecuencias; estas medianas de rango se presentan en la tabla.

Vemos otra vez que la reasignación de números enteros de rango a los estímulos es adecuada, habida cuenta de que las diferencias en mediana de rango no indican propiedades intervalares del atributo en cuestión.

Análisis de escalograma de Guttman. Existen dos técnicas de elaboración de escalas que conducen a escalas ordinales que dependan en algún grado de las propiedades latentes de los datos. Una es la técnica de escalograma de Guttman (1950), que produce una escala en la que puede colocarse tanto a los objetos estímulo (generalmente reactivos de test) como a los sujetos. Lo fundamental de la técnica es determinar la validez de la suposición ordinal con respecto a un atributo. Guttman sostiene que a menos que pueda demostrarse que tanto los objetos como los sujetos pueden ordenarse con respecto a un solo atributo, no existe fundamento para intentar la elaboración de una escala ordinal. Esta técnica es más adecuada con atributos tales como capacidades, donde puede suponerse que tanto los estímulos como los sujetos muestran el atributo.

La técnica de Guttman ha alcanzado caracteres en extremo sutiles, describimos sólo lo suficiente para presentar los principios básicos que utiliza.

Los tipos, de reactivos de estimulo que se usan en una escala de Guttman son por lo común los que pueden contestarse en forma dicotómica: aceptar o rechazar, correcto o equivocado, etc. La principal limitación que impone esta técnica es que solamente deben usarse reactivos que puedan ordenarse en forma consistente con respecto a preferencia o capacidad y también que los sujetos puedan ordenarse en forma consistente con respecto a los reactivos. El ejemplo que hemos seleccionado se presenta en la tabla 4 y consiste en cinco preguntas de aritmética. Estos reactivos escogidos corresponden a un nivel creciente de dificultad, pues el problema de la adición simple es más fácil que el problema de la adición de números con dos dígitos, y así sucesivamente. Si estos reactivos representan efectivamente un continuo de un solo atributo, entonces los sujetos deben contestar correctamente todos los problemas más fáciles que el más difícil que resolvieron, y deben fallar en todos los problemas más difíciles que el más fácil en que fallaron. Así, el sujeto que contestó correctamente el último reactivo debe haber contestado correctamente todos los demás; y el sujeto que falló en el primero debe haber fallado en todos los demás, porque son más difíciles.

Este requerimiento, de ordenación perfecta de los objetos de estímulo, significa que existen sólo seis puntuaciones posibles y cada puntuación representa un solo tipo de escala de sujeto. Por supuesto, las seis puntuaciones posibles son los números desde el "0" hasta el "5", y cada número se asocia únicamente a un patrón particular de respuestas correctas y erróneas. Así, un "3" significa que estos sujetos acertaron en el tercer reactivo y en todos los demás menos difíciles, pero que fallaron en los últimos dos reactivos.

Existen naturalmente muchas dificultades para establecer semejante escala con reactivos más realistas y con reactivos que no se contesten en forma dicotómica; tales problemas se discuten en la obra de Stouffer y colaboradores (1950). Pero el concepto básico de esta técnica no es difícil y tiene interés por su énfasis en la prueba de consistencia interna como requisito fundamental que debe satisfacerse. Hemos advertido que la mayoría de las técnicas de elaboración de escalas disponen de alguna forma de prueba de consistencia interna que forma parte de ellas; pero ninguna establece tan cabalmente la validez de la suposición fundamental que interviene en todo problema de dicha elaboración, a saber, que existe realmente un atributo con las propiedades de medición adjudicadas o expresadas. Muy a menudo esta suposición sigue siendo eso, una suposición, con escasa prueba de su validez.

Técnica de despliegue de Coombs. Coombs (1950) ha descrito una técnica para elaborar escalas que también ubica a los objetos estímulo y a los sujetos en el mismo atributo. Su técnica hace uso directo de la ordenación por parte de los sujetos y en este respecto se basa en las propiedades manifiestas de los datos. Pero esta técnica, también permite, con datos suficientes, la determinación de una ordenación de los intervalos, que conduce a lo que Coombs llama un tipo de escala métrica ordenada, intermedia entre las escalas con propiedades ordinales y las escalas con propiedades intervalares.

La mejor manera de explicar la técnica de despliegue es comenzar con el producto final deseado y ver qué clases de datos se obtendrían si esta escala fuera realmente así. Tenemos, siguiendo la terminología de Coombs, una escala J de algún atributo, en la que pueden ubicarse los estímulos y también la posición deseada o preferencia del sujeto. Por ejemplo, supongamos que tenemos cinco niveles diferentes de concentración de azúcar en una bebida suave y que conocemos los valores escalares del atributo de dulzura, y también la posición de preferencia de cada sujeto con respecto al mismo atributo.

La figura 1 muestra dos posibilidades de escalas J. En la escala J₁, se sitúan cinco estímulos equidistantes; de esta manera hemos supuesto temporalmente que esos cinco estímulos constituyen una escala conocida de intervalos iguales. Ahora bien, cada sujeto tendrá un grado de dulzura preferido; así que cada sujeto puede ubicarse en la escala. Los números arábigos indican la amplitud dentro de la que puede estar la preferencia del sujeto, y cada amplitud tendrá un efecto diferente sobre las respuestas dadas por el sujeto.

En el experimento real pedimos a cada sujeto que ordene su preferencia por los cinco niveles de dulzura, y suponemos que los ordenará según la cercanía de la dulzura efectiva con su dulzura preferida. Con esta suposición, podemos predecir exactamente cuáles serán los lugares de orden de los cinco estímulos para cada amplitud de posiciones de preferencia posible. Las ordenaciones para cada posición de preferencia son:

1 ABCDE     5 CDBEA
2 BACDE     6 DCEBA
3 BCADE     7 DECBA
4 CBDAE     8 EDCBA

En esta escala particular J, posiblemente no se presente ninguna otra ordenación, y si en un experimento obtenemos solamente estas ordenaciones de todas las posibles ordenaciones de cinco objetos ( 5 o 120), entonces habremos aprendido dos cosas: primero, sabemos que los estímulos pueden efectivamente ordenarse; y segundo, que podemos determinar la ordenación desplegando los diferentes rangos de preferencia para obtener la escala original de los estímulos mismos. El término "desplegar" se usa porque, en efecto, cuando el sujeto hace sus ordenaciones de preferencia, dobla la escala de dulzura usando como eje su propia posición en la escala, y al reconstruir ésta, nosotros, en efecto, desplegamos las ordenaciones.

Ahora veremos qué sucedería si los intervalos entre los estímulos sobre la escala f no fueran desiguales. La escala J2 de la figura 1 presenta dicha escala hipotética y ahora nos preguntamos qué ordenaciones harían los sujetos si sus posiciones de preferencia estuvieran en los intervalos indicados por los números arábigos. En este caso, podrían presentarse las siguientes ordenaciones de preferencia:

1 ABCDE
2 BACDE o BCADEo BCDAE
3 BCDEA o BCDAE
4 CBDEA o CDBEA
5 CDEBA
6 DCEBA
7 DECBA
8 EDCBA

Donde hay más de una ordenación de preferencia posible para una amplitud dada de posiciones, la ordenación exacta de rango depende precisamente de la posición de la preferencia del sujeto. En total, con este conjunto de valores escalares para el atributo de dulzura, pueden presentarse 11 ordenaciones diferentes y podemos así reconstruir la ordenación de los estímulos desplegando las ordenaciones de preferencia.

Aunque no entraremos en más detalles sobre la técnica de despliegue debe quedar claro que en cualquier escala particular de dulzura, puede presentarse un número limitado de ordenaciones de preferencia posibles; y que si pedimos a suficientes sujetos diferentes que ordenen los estímulos para obtener un gran número de posiciones de preferencia diferentes, entonces no solo podemos conocer la ordenación de los estímulos, sino también ordenar los tamaños de los intervalos entre los estímulos. De esta manera podemos obtener una escala métrica de orden.

Obsérvese que tanto en la técnica de Coombs como en la de Guttman la consistencia, interna es la parte crítica del procedimiento. Además, en ambas técnicas se usa el mismo principio para determinar la consistencia interna: limitar el número de resultados posibles que pueden suceder y que sean aceptables para satisfacer los requerimientos de medición de la escala. En la técnica de Guttman, con reactivos dicotómicos, es posible que sucedan 2ⁿ patrones de resultados con n reactivos diferentes, pero solamente se aceptan (n + 1) ; resultados que satisfacen los requerimientos ordinales. En la técnica de Coombs, existen n! maneras de ordenar n reactivos, pero en cualquier escala de ordenación solamente se darán [1/2n(n - 1) + 1] ordenaciones posibles. En nuestro ejemplo de cinco estímulos, hay 120 maneras de ordenar los estímulos pero solamente 11 maneras de una ordenación efectiva.

Técnicas de intervalo manifiesto

El aspecto principal de las técnicas escalares de intervalo manifiesto es que se requiere una respuesta directa; y ya por las instrucciones dadas al sujeto o ya por una suposición de parte del experimentador, los datos se tratan como si tuvieran propiedades intervalares. Las principales diferencias de técnica se refieren a los tipos de objetos estímulo usados y a las limitaciones que imponen al procedimiento experimental.

Equisección. Supongamos que deseamos determinar los valores escalares psicológicos de estímulos que están en un continuo físico verdadero, donde puede manipularse fácilmente para producir variación continua. No existen muchos continuos físicos de este tipo que interesen al psicólogo. Tanto la frecuencia como la intensidad de los sonidos pueden manipularse así; y, con un aparato complejo, también la brillantez física y aún el matiz o la saturación. A lo anterior agregamos el choque eléctrico, la vibración y la intensidad de los olores.

En nuestro ejemplo, usaremos la intensidad de los sonidos, y la sonoridad será el atributo psicológico cuya escala deseamos determinar. El procedimiento es muy sencillo: suministramos dos sonidos de intensidad fija y pedimos al sujeto que ajuste la intensidad de otros sonidos hasta que los ordene dentro de una serie de intervalos iguales de sonoridad.

A cada uno de los sonidos obtenidos y a los dos sonidos que definieron la amplitud original de sonoridad, se les asignan valores numéricos separados por intervalos iguales para estar de acuerdo con la suposición de que los sonidos producidos por el sujeto proporcionan una escala intervalar de sonoridad.

El número de estímulos que debe ajustar el sujeto lo decide el experimentador. En el caso límite, en que se suministran dos estímulos extremos y el sujeto tiene que ajustar un solo estímulo al valor medio entre los dos, el método se llama "bisección", porque se pide al sujeto que bisecte un intervalo.

Con el fin de verificar la consistencia interna, es conveniente usar por lo menos dos conjuntos diferentes de valores para los estímulos extremos, fijos, y hacer que las amplitudes se traslapen. En tal circunstancia, desearíamos usar suficientes estímulos dentro de cada amplitud para lograr un traslapamiento sustancial en el número de estímulos comunes a ambos conjuntos. En los datos del ejemplo presentados en la figura 2, se emplearon siete estímulos (dos estímulos extremos y cinco estímulos ajustables) y dos amplitudes de intensidad (de 50 a 90 db y 70 a 110 db de intensidad sonora). Se pidió a los mismos sujetos que ajustaran cinco estímulos dentro de cada amplitud; los datos presentados en la figura 2 son los promedios de las intensidades ajustadas. En cada amplitud, se asignaron valores numéricos de 3 a 9 a los siete estímulos. Esto se indica con puntos en la amplitud superior y con triángulos unidos con línea interrumpida en la amplitud inferior.

Para construir la escala final, descrita por la línea continua, se redujo el tamaño del intervalo de la unidad en los datos de la amplitud inferior; y, sustrayendo una constante, la curva entera se trasladó hacia abajo. Debe recordarse que en una escala de intervalo tenemos libertad para usar cualquier transformación lineal de los valores escalares; y esto significa que podemos ajustar la intersección y la pendiente hasta lograr el mejor ajuste de los dos conjuntos de datos de equisección traslapados. Es decir, usamos dos de los grados de libertad de los valores inferiores para establecer nuestra unidad de escala en los valores superiores; y ahora debe estar claro por qué es mejor usar varios estímulos intermedios en equisección. Si tuviéramos solamente dos puntos de traslapamiento y, por tanto, dos grados de libertad para determinar los valores escalares, podríamos asegurarnos de que las dos secciones de la curva se ajustaran dentro de la amplitud de traslapamiento. Y sería todavía posible que las dos secciones proporcionaran una función aparentemente discontinua; pero una curva de forma rara o quebrada sería, precisamente, la única verificación de la validez de la suposición intervalar.

Por otra parte, si tres o más valores de estímulos se traslapan, entonces la curvatura o la forma de la función puede considerarse la misma o diferente para la misma amplitud de intensidades. Evidentemente si nuestra suposición de que puede formarse una escala de intervalo es válida, entonces debemos obtener la misma escala para la misma amplitud de intensidades, independientemente de los estímulos extremos usados para obtener estos valores escalares particulares. Podemos de este modo proporcionar una verificación de consistencia interna, y al mismo tiempo extender la amplitud de intensidad en la que obtenemos una escala psicológica.

Intervalos aparentemente iguales. Cuando los objetos para los que deseamos hacer una escala no pueden medirse por una dimensión física continua, podemos recurrir entonces a otros procedimientos. Por ejemplo, supongamos que deseamos construir una escala de la capacidad verbal de individuos tal como es juzgada por otras personas; o bien que deseamos una escala para la "bondad del patrón" de varios patrones geométricos. En estos casos no podemos decir al sujeto o al juez que ajuste los estímulos para suministrar intervalos iguales, porque los estímulos son fijos y no pueden ajustarse.

En este caso podemos instruir al sujeto para que dé un número a cada estímulo, de manera que los números que use estén separados por intervalos iguales. O, alternativamente, podríamos pedirle al sujeto que clasifique a los estímulos en categorías adyacentes de modo que éstas satisfagan los requisitos intervalares. Los datos adoptarían exactamente la misma forma que los del método de categorías de rango, como se ve en la tabla 3. La única diferencia radica en la indicación de que el sujeto use sus categorías como intervalos iguales y no como rangos. Sin embargo, con la suposición de que lo hace así, es lícito usar el valor medio de categoría para cada estímulo en vez de la mediana, como se indicó antes.

Para contrastar el método de intervalos aparentemente iguales con el de equisección, advirtamos que en el último método los estímulos son escogidos o colocados por el sujeto, a modo de definir una serie de puntos sobre el continuo del atributo y que luego se supone que son iguales los intervalos entre estos puntos. Sin embargo, en los intervalos aparentemente iguales nunca tenemos estímulos que definan intervalos iguales como puntos sobre el continuo, ni los valores de categoría ya sea usados o asignados lo hacen, dado que definen una amplitud de valores, y no puntos. En vez de eso, se supone que cada categoría de respuesta proporciona una amplitud de valores, un intervalo, que es igual a todos los demás intervalos. Y también se supone, desde luego, que los intervalos están en orden adecuado y son contiguos.

Escalas de categorías numéricas. El método de intervalos aparentemente iguales se usa comúnmente cuando debe juzgarse un gran número de estímulos y cada sujeto evalúa o juzga a cada estímulo sólo una vez. Un método semejante (en realidad, idéntico lógicamente) se usa cuando se tienen relativamente pocos estímulos; pero cada uno de ellos es evaluado varias veces por cada sujeto, sobre una escala numérica con la indicación de que use los valores escalares como una escala de intervalo. El término "escala de categorías" se aplica a menudo a este método; y nosotros lo llamamos método de escalas de categorías numéricas para distinguirlo de los métodos en que se usan categorías verbales o que están ordenadas espacialmente.

Como ejemplo del uso de esta escala, la figura 3 presenta algunos datos de un experimento de Torgerson (1960). Como estímulo se usaron 17 matices de papel gris neutro y cada uno fue juzgado cinco veces por cada uno de 16 sujetos. Los estímulos se presentaron al azar y los sujetos evaluaron cada estímulo sobre una escala de 11 puntos (del 0 al 10); se les indicó que usaran la escala numérica como una escala de intervalo. En un conjunto de experimentos juzgaron la claridad; aquí, los números más grandes indicaban mayor claridad. En otro conjunto juzgaron la oscuridad, y ahora los números más grandes indicaban mayor oscuridad. En la figura 3 se aprecian las evaluaciones medias de categoría como una función de la reflectancia, en cada tipo de juicio. En este experimento particular se demostró la consistencia interna por el hecho de que la función en el atributo de claridad es la inversa de la función para el atributo de oscuridad. Esta comprobación, solo es posible, naturalmente, cuando los mismos estímulos pueden juzgarse con respecto a dos atributos en que uno es el inverso del otro.

Escalas de evaluación verbal. Una última técnica digna de mención es la escala de evaluación verbal. El término "escala de evaluación" es muy general y puede usarse para describir cualquier escala de respuestas a la que recurra el sujeto para efectuar una tarea de evaluación o de juicio. Una escala de evaluación verbal difiere de un método de intervalos aparentemente iguales o de una escala de categorías numéricas solamente en que se usan rótulos verbales como respuestas. La siguiente, por ejemplo, podría constituir una escala de siete categorías para juzgar la brillantez: completamente oscuro, muy oscuro, oscuro, neutro, claro, muy claro, completamente claro. Si al resumir los datos asignamos numerales espaciados igualmente a estas categorías de respuesta y usamos estadísticas métricas, en realidad asignamos propiedades intervalares a la escala. La única diferencia básica entre este método y otras técnicas manifiestas intervalares es el tipo de escala de respuesta que se usa.

La escala habitual de calificaciones mencionada al principio como ejemplo de escala ordinal, trátase a menudo como si tuviera propiedades intervalares, como si fuera una escala de evaluación verbal. Esto sucede cuando se asignan números arbitrarios a las calificaciones con el propósito de obtener promedios de puntuaciones de calificación. La suposición es que la distancia entre "A" y "B" es igual a la distancia entre "D" y "E" -precisamente la suposición de la escala de intervalo- cuando se asignan números consecutivos a las calificaciones.

Pruebas de consistencia interna. Las técnicas de construcción de escalas basadas en propiedades manifiestas de los datos no incluyen generalmente procedimientos de comprobación de la consistencia interna como un aspecto inherente de aquéllas. En consecuencia, con estas técnicas debe suministrarse prueba de la consistencia interna realizando dos o más experimentos, que deben conducir lógicamente a la misma escala resultante, ya sea total o parcialmente.

El experimento de Torgerson, sobre juicios de claridad y oscuridad, ilustra un método para comprobar la consistencia interna, pero obviamente tal comprobación depende tanto de la naturaleza de los estímulos como de la de los atributos. No existe, por ejemplo, atributo inverso de lanzar, de destreza o de la mayoría de las aptitudes.

La otra comprobación de la consistencia interna, de uso sencillo, es la que mencionamos en la técnica de equisección, a saber, la duplicación del experimento con amplitudes diferentes de estímulos, pero que se traslapan. En el caso del experimento de sonoridad teníamos una dimensión física que correspondía al atributo; esta es la razón por la que pudimos seleccionar de antemano estímulos extremos fijos, y estábamos seguros de que se obtendrían valores escalares traslapados. El problema es diferente cuando los estímulos son del tipo de objetos de arte, comidas cuyas preferencia relativa tratamos de evaluar o la sociabilidad de las personas. En este caso, como vimos, se usa por lo común la técnica de intervalos aparentemente iguales, toda vez que no podemos dar a los sujetos control directo sobre los estímulos. Es, posible un procedimiento equivalente a la prueba de consistencia usada en la equisección. Podemos realizar subexperimentos en los que se dupliquen tres o más estímulos en conjuntos diferentes de estos. Entonces tendríamos la misma clase de prueba anterior en la que los valores escalares asignados a los estímulos se transforman de manera que coincidan los que resulten ser comunes en subexperimentos diferentes. Si esto puede hacerse con tres o más estímulos, habrá entonces evidencia clara de que es válida la propiedad intervalar asumida con respecto a las respuestas. Desafortunadamente este tipo de prueba interna muy raramente se efectúa.

subir índice

Artículo febrero 2007

LA SEGURIDAD EN AVIACIÓN: IMPORTANCIA DEL FACTOR HUMANO. XVIII

PROBLEMAS Y MÉTODOS DE LA ELABORACIÓN DE ESCALAS PSICOLÓGICAS

Cuantificación, medición, elaboración de escalas, todas son palabras que connotan el uso de números para describir fenómenos. Pero cualquiera que sea el término usado, la metodología cuantitativa ha sido la marca distintiva de una ciencia madura y así sucede con la psicología. La metodología cuantitativa y la medición desempeñan funciones muy amplias en la psicología, de la misma manera que en cualquier otra ciencia.

Uno de los primeros usos de la metodología cuantitativa consiste en especificar rigurosamente las condiciones que priven en un experimento, de modo que puedan reproducirse con fidelidad en otra ocasión y quizá por otro experimentador. Por ejemplo, especificamos la intensidad física de una luz o de un estímulo de sonido en términos exactos, como forma para evitar confusión en otros psicólogos experimentales que necesiten saber las condiciones de nuestro experimento.

Además de la declaración precisa de las condiciones del experimento, el método cuantitativo debe incluir también el tratamiento que haya de darse a los datos obtenidos. Necesitamos expresar nuestros resultados en forma que puedan comprobarse exactamente por otro experimentador. Usamos técnicas estadísticas para describir los resultados de un experimento y también con gran frecuencia para estimar la probabilidad de que se presenten los mismos resultados, dentro de un margen previsto de error, cuando se repita dicho experimento.

Podemos recurrir también a matemáticas, ya más abstractas, para expresar relaciones entre las variables dependiente e independiente, y el efecto de la variable independiente sobre algún aspecto de la conducta. Una ecuación matemática puede resumir y presentar la mayoría de las relaciones entre variables mucho más eficazmente y tal vez con mayor significado que la simple enumeración de las condiciones experimentales y los resultados. En años recientes, la psicología ha hecho uso considerable de la matemática abstracta para describir los fenómenos, que estudia.

Estas aplicaciones del método cuantitativo no son exclusivas de la ciencia de la psicología ni el tema principal de este capítulo. Nos ocuparemos de la medición de atributos psicológicos, campo de estudio que se ha denominado elaboración de escalas psicológicas.

LA NATURALEZA DE LOS ATRIBUTOS

Atributo es una propiedad abstraída de la experiencia humana. Hay dos aspectos importantes en esta definición, cada uno de los cuales entraña algunos problemas especiales en la medición de atributos, lo que ha hecho un tanto confusa la naturaleza de la elaboración de escalas psicológicas. El primer aspecto es que el atributo es una propiedad abstraída de alguna cosa; y no la cosa misma. Este hecho bastante interesante produce muchas dificultades en la medición; pero no es privativo de la medición psicológica. Cuando hablamos de medir alguna cosa en una situación de la vida diaria, no hablamos realmente de medir un objeto o un suceso, sino alguna propiedad abstraída de uno y otro. Por ejemplo, cuando medimos la longitud o el peso, no medimos el objeto que tiene la longitud o el peso, sino que medimos una propiedad abstraída o dimensión del objeto.

El segundo aspecto de nuestra definición es que un atributo se relaciona con la experiencia psicológica, lo que lo hace singularmente psicológico y crea dificultades. Quizás podamos esclarecer este problema al contrastar un atributo (de experiencia) con una dimensión física que esté íntimamente relacionada con la experiencia. Un sonido tiene intensidad física, la cual podemos medir aplicando técnicas estándar de medición física. Y podemos experimentar la sonoridad; pero esta no es idéntica a la intensidad física. La sonoridad es algo que experimentamos; la intensidad es un aspecto del estímulo mismo.

Hablamos, casualmente, de la sonoridad de un sonido y no de la sonoridad de nuestra experiencia. Esto causa comúnmente poca confusión. Pero cuando nos interesamos por la medición de la sonoridad, la distinción se vuelve importante, ya que necesitamos investigar las propiedades del atributo sonoridad, aunque no podamos observar, en el sentido físico, la cosa que estamos tratando de medir.

Esta distinción entre el atributo y la dimensión del objeto físico o acontecimiento es fácil de apreciar en los casos en que hay una evidente contraparte física del atributo que nos interesa. En otros casos la distinción es más sutil. Por ejemplo, cuando las personas son el estímulo que nos interesa y deseamos medir algo que llamamos capacidad de liderazgo o actitudes, a menudo es difícil percatarse de que la medida que nos interesa no es la del estímulo externo sino la del atributo subyacente que se experimenta. En tales casos, la distinción adquiere aún mayor importancia.

LA NATURALEZA DE LA MEDICIÓN

Al elaborar escalas psicológicas el interés se centra en el desarrollo de escalas de medición para atributos psicológicos. Antes de presentar técnicas concretas de medición, es conveniente analizar la naturaleza de la medición en términos generales y, después, algunos de los problemas especiales que reviste la medición de atributos psicológicos.

Medir, en sentido amplio, es asignar numerales a objetos, conforme a una regla especificada. Pero esta definición es demasiado simple y aun confusa, a menos que consideremos los problemas especiales del uso de numerales. Los numerales son únicamente símbolos -el "1 ", "2", "53", etc., que escribimos o imprimimos. De esta manera, si el problema de la medición fuera simplemente asignar numerales a objetos mediante alguna regla, podríamos usar cualquier regla que deseáramos, siempre que tal uso fuese consistente.

La escala numérica

Los numerales representan, empero, una clase particular de escala: la escala numérica. El numeral "1" representa un solo objeto, el numeral "2" representa dos objetos; y cada numeral que usamos tiene un significado directo en cuanto que representa un número de objetos o acontecimientos. La escala numérica es una escala de contar y es la escala de medición más sencilla y elemental que tenemos.

En sentido estricto, los numerales pueden tener cualesquiera de las propiedades -matemáticas o de otra clase- que les asignemos. Pero, en vista de que los numerales representan la escala fundamental de los números, es común suponer que tienen las propiedades de la escala de estos. Supongamos por ejemplo, que tenemos 12 objetos. Podemos realizar varias operaciones con estos objetos y podemos también realizar las operaciones equivalentes con los numerales mismos. Podemos agregar 3 objetos a nuestros 12; si entonces, los contamos, tendremos 15 objetos. Pero podemos agregar el numeral "3" al numeral "12" y obtener así el mismo resultado con más rapidez. O podemos sustraer objetos o sus números equivalentes y obtener de las dos maneras el mismo resultado. Podemos aún dividir los 12 objetos en dos grupos iguales y entonces al contar cada grupo encontraremos que hay 6 objetos en cada uno, hecho que puede determinarse fácilmente haciendo la división en el papel.

La escala numérica tiene muchas propiedades; pero cuando les asignamos numerales a los atributos o bien le asignamos dimensiones diferentes de los números, necesitamos ser cuidadosos para determinar qué propiedades de la escala numérica son aplicables. Este problema no tiene nada que ver con la determinación de las propiedades de la escala de los números; lo que se impone es determinar las propiedades del atributo mismo y después asegurarnos de que los numerales se asignan de manera que reflejen las propiedades de ese atributo.

Algunas propiedades de las escalas

Hemos hecho breve alusión a ciertas propiedades de la escala numérica; pero las más importantes de ellas necesitan mayor explicación. Estas propiedades suelen usarse para describir la naturaleza de una escala psicológica, ya que limitan la interpretación de los valores escalares.

Escalas nominales. La propiedad más sencilla y fundamental de la escala numérica es la de nombrar o identificar artículos u objetos. Como ejemplo sencillo, podemos preguntar su sexo a varias personas y después asignarle a cada una el número clave "1" si dice que es masculino y el número "2" si es femenino. Este uso de los numerales también es medición pero en sentido muy primitivo. Cumple, sin embargo, con el requisito de la asignación de números según una regla. Pero adviértase que la única propiedad de la escala de los números que es aplicable aquí es la relación de identidad, a saber, que todos los objetos que recibieron el mismo número tienen el mismo sexo. No podemos, en este caso, usar ninguna otra propiedad de la escala numérica. Por ejemplo, no podemos decir que las mujeres son "más" que los hombres, o que son dos veces el número de hombres, aunque los numerales representen estas propiedades de la escala numérica.

Nótese, sin embargo, que podemos cambiar libremente los numerales asignados en tanto que se haga el cambio en todas las mujeres y en todos los hombres. Podíamos haba llamado a las mujeres "1 " y a los hombres "2". La razón de esto es que la calidad que se "mide" no tiene ninguna otra propiedad mensurable que la de identidad o equivalencia. El aspecto general que hemos ilustrado es sencillamente este: Las reglas permisibles paro asignar numerales a objetos dependen de las propiedades del atributo que se mide, y no de las propiedades de la escala de los números. Por tanto no podemos determinar qué regias son permisibles sin conocer algo de las propiedades del atributo mismo.

Escalas ordinales. Una segunda propiedad de la escala numérica es la de orden: el número "10" es más grande que el número "6", y también más grande que todos los números menores que 10. Es de notarse que esta propiedad supone la propiedad nominal, toda vez que se usa el mismo numeral para todos los objetos que son idénticos.

En psicología, el uso más simple de las escalas ordinales aparece cuando ordenamos un conjunto de objetos con respecto a un atributo asignándole a cada objeto un solo numeral que refleje su posición ordinal. Pero podemos usar también una escala de orden y asignar a diferentes objetos el mismo número de orden. La escala de calificaciones escolares de "A", "B", "C", "D" y "F" es una escala semejante, aun cuando se utilicen letras y no numerales, puesto que todas las calificaciones de "A" son mejores que todas las de "B", etc.

Con la escala nominal decimos que podemos transformar los numerales en cualquier modo que conserve la relación de identidad. En una escala ordinal podemos hacer transformaciones bajo cualquier regla que conserve el orden original de los números asignados a los objetos. Es decir, una vez que se asigna un conjunto de numerales, podemos cambiarlos libremente, escribiendo cualquier nuevo conjunto de números en tanto que estos sean una función monotónica positiva de los números originales.

Vemos así cómo el uso de la propiedad ordinal de la escala de los números para asignar los numerales a los objetos depende de que el atributo mismo tenga la propiedad ordinal. Si es así, entonces podemos usar esta regla más restrictiva.

Escalas de intervalos. Una tercera propiedad de la escala numérica, aún más restrictiva, es la de igualdad de intervalos. Si agregamos 6 objetos a 24, obtenemos 30 objetos; y los 6 objetos son los mismos que necesitamos agregar a 40 objetos para obtener 46. De esta manera la diferencia entre 30 y 24 representa la misma cantidad que la diferencia entre 46 y 40. Los intervalos numéricamente iguales representan diferencias iguales en número y cuando un atributo tiene esta misma propiedad, entonces la regla para asignar numerales debe asegurar que se refleje adecuadamente esta propiedad. Adviértase que en el anterior ejemplo numérico , podíamos cambiar todos los números con solo sumar una constante y esto no cambia el valor numérico de la diferencia; y una y otra vez los intervalos seguirían siendo iguales.

Cuando hablamos acerca de números efectivos, es claro que no podemos cambiar el 6 y seguir denotando la misma cosa, ya que 6 objetos adicionales son justamente eso, 6 más, ni más ni menos. Pero cuando representamos un atributo que no tiene todas las propiedades de la escala de los números, aunque sí la propiedad de intervalos iguales, podríamos multiplicar todos nuestros numerales por una constante y las dos diferencias aún serían iguales. Es decir, en escalas de intervalos, podemos transformar la nuestra por medio de cualquier función lineal positiva -la cual es una transformación más restrictiva que la función monotónica positiva admisible en la escala ordinal. En forma matemática, está permitido asignar cualquier nuevo conjunto de numerales, en tanto que se satisfaga la condición de que

y'= a + by

donde y es el numeral original y y' es el numeral transformado. La condición importante de la igualdad de diferencias se mantendrá aún con los nuevos números.

La psicología nos proporciona incontables ejemplos de que puede asumirse la propiedad ordinal de la escala de los números con respecto a un atributo psicológico; pero en lo que atañe a propiedades intervalares estamos en un terreno mucho menos seguro y a menudo no puede probarse la propiedad intervalar.

La escala de CI es un buen ejemplo de una escala supuesta de intervalo, toda vez que la diferencia entre un CI de 120 y uno de 130 se supone igual a la diferencia entre los CI de 90 y 100. Hay que observar que la escala entera podría trasladarse de modo que su centro fuera 200 y no 100; y esto no cambiaría ninguna de las propiedades de la escala. También podríamos duplicar todos los números y no cambiaríamos la propiedad de igualdad de intervalos. Los numerales efectivos asignados son, entonces, completamente arbitrarios, pero tienen la restricción de que la propiedad de intervalos iguales debe reflejarse en los numerales.

Escalas de razón. Una propiedad aún más restrictiva de la escala numérica es la de igualdad de razones. El numeral "10" es dos veces el numeral "5", así como el numeral "90" es el doble del numeral "45". Por tanto, estas dos razones son iguales y asimismo sus contrapartes en la escala de los números, porque si en cada caso se divide el número más grande en grupos que contengan cada uno al número respectivo más pequeño, habrá exactamente dos grupos. Esta propiedad significa que las operaciones numéricas de multiplicación y división son aplicables al atributo que se mide y lo son en el caso de una escala de números.

Nótese que en este caso no tenemos libertad de transformar los números originales sumando o sustrayendo un número, porque si lo hiciéramos las razones dejarían de ser iguales. Cuando tratamos con un atributo que tiene la propiedad de razón, podemos multiplicar todos los numerales por una constante sin que se afecte la propiedad de razón. Lo que no podemos hacer es agregar o sustraer una constante. Por tanto, si tenemos una escala con propiedades de razón, podemos transformar nuestros numerales de tal manera que

y' = by

donde y' es el numeral transformado del original y.

En la investigación psicológica hay pocos ejemplos de atributos que podamos asegurar que tienen la propiedad de razón. La dificultad proviene del problema de un cero absoluto. Obsérvese que ninguna transformación admisible de una escala de razón cambia el punto cero de la escala, aunque esto sí sucede en una escala de intervalo. En efecto, el requerimiento básico de una escala con propiedades de razón es que exista un cero absoluto, lo que significaría literalmente que se carece por completo del atributo. Pero no basta con tener un punto cero en una escala a menos que también estemos seguros de que el cero representa la carencia absoluta del atributo.

En psicología, el problema es doble. Primero, no hay muchos atributos de los que podamos suponer razonablemente que tienen un cero absoluto. Por ejemplo, ¿cuál sería el cero absoluto de la inteligencia? o ¿cuál es el cero absoluto de la actitud hacia el partido republicano? Puede, sí, haber un sentimiento de neutralidad; y la posición neutral se usa corrientemente como el punto cero sobre una escala; pero no representa la carencia absoluta del atributo. El cero es sencillamente una posición entre las actitudes positivas y negativas. O, en un ejemplo más, ¿cuál sería el cero absoluto de arrojar? Es difícil describir lo que significamos por "ninguna cantidad de lanzamiento", ya que el lanzamiento existe como diferencia, pero no estrictamente como magnitud.

El otro aspecto del problema tiene que ver con nuestra capacidad para determinar el cero verdadero o absoluto en el dado caso de que existiera lógicamente. Por ejemplo, consideremos el atributo psicológico de brillantez. Podemos producir una condición de carencia de luz pero tal situación física no garantiza la falta absoluta de brillantez, ya que es posible obtener un negro más negro que el que hayamos experimentado. En términos neurológicos, sabemos que la completa ausencia de luz no produce ausencia completa de actividad nerviosa (Kuffler, FitzHugh y Barlow, 1957); de ahí que parezca muy razonable suponer que el negro psicológico absoluto nunca puede experimentarse. De la misma manera sucede con cosas como la sonoridad, que probablemente nunca podamos experimentarlas directamente.

La escala de temperatura es un ejemplo físico de este problema. Se sabe desde hace tiempo que hay un cero absoluto de temperatura (el cual, por supuesto, no corresponde al cero de las escalas Fahrenheit o centígrada); pero producir físicamente tal condición es un problema harto diferente. La existencia de un cero absoluto pudo deducirse del comportamiento de las temperaturas mensurables, y se determinó finalmente su valor relativo a la escala centígrada. Pero, históricamente, la tarea de obtener una escala de razón se dificultó por la incapacidad de trabajar directamente con el cero absoluto.

Este ejemplo señala otra manera de caracterizar una escala de razón; es aquélla en la que no pueden asignarse números negativos. Podemos ver que este es el caso de contar objetos, como en la escala de los números, y de la escala Kelvin de temperatura. En cada caso carece de sentido hablar de un número de objetos menor que cero o de una temperatura menor que cero absoluto.

Otras propiedades de la escala. Las cuatro clases de escalas que hemos analizado son ciertamente cuatro de los tipos más importantes que se emplean comúnmente, pero no significa de ninguna manera que sean las únicas posibles. Hay muchas otras combinaciones de las propiedades de la escala numérica que también podrían ser propiedades de un atributo psicológico. Es posible, por ejemplo, que sepamos que un intervalo, en una escala, es más grande que en otra, pero no podemos especificar exactamente cuánto más grande. En tal situación, no solamente podríamos ordenar los objetos, sino también ordenar los intervalos entre los objetos. Coombs (1950) ha propuesto tal escala, que estudiaremos en una sección posterior. También es posible tener una escala verdadera de razón para intervalos entre objetos, y no solamente una escala de intervalo para los objetos mismos. Esta situación se presentaría si pudiéramos identificar y medir una diferencia de cero entre objetos y al mismo tiempo estuviéramos seguros de las propiedades de razón de las diferencias.

Eficacia y limitaciones de las escalas. Es muy frecuente hablar de la eficacia de una escala, término que alude a los tipos de propiedades matemáticas que hemos estudiado. Una escala de razón es más eficaz que una escala de intervalo porque no solamente nos indica los intervalos numéricos del atributo medido, sino que también nos habla de razones. Y una escala de intervalo es, a su vez, más eficaz que una escala ordinal porque nos informa de todo lo de ésta, y además nos habla de intervalos. Los especialistas en escalas psicológicas procuran por lo común inventar escalas que tengan cuando menos propiedades intervalares, aunque sea necesario hacer algunas suposiciones para obtener la mayor eficacia. Existen algunas ventajas reales en la especificación mayor de un atributo, que dé lugar a las escalas de mayor alcance.

Hay, sin embargo, otro aspecto del problema que igualmente se considera al elaborar escalas: que el especialista encuentra más restringido para usar los números en las escalas más eficaces. Como hemos visto en una escala tan débil como la nominal, la única restricción es que se use el mismo número para objetos o cantidades idénticas de un atributo. Pero, en una escala ordinal, deben asignarse los números de manera que se reflejen las relaciones ordinales inherentes al atributo medido; y esto mismo, en las escalas más poderosas, está aún más restringido. En la propia escala de los números, la escala más eficaz, no tiene por supuesto ninguna alternativa, porque debe asignar los números a los atributos de la manera especificada exactamente: el número "10", por ejemplo, puede usarse solamente para diez objetos, ni más ni menos.

Una vez establecida, la escala de mayor alcance tiene mayor utilidad; pero el especialista tiene mucho menos libertad para fijar los valores escalares. En efecto, siempre se encuentra en conflicto. Desea establecer una escala tan eficaz como le sea posible, pero está mucho menos seguro de haberlo hecho con acierto que si hubiera intentado formular una escala más débil. La escala resultante a menudo representa un ajuste entre una escala con el máximo alcance y otra con la mínima restricción para el especialista.

EL PROBLEMA BÁSICO DE LA ELABORACIÓN DE ESCALAS

Cualquier experimento en el terreno de la elaboración de escalas se ocupa de tres conjuntos de variables, que también es el principio para entender los diferentes papeles que desempeñan cada uno. En los casos más sencillos esto es fácil de ver. Las tres variables son: los estímulos, el conjunto de objetos que hemos seleccionado; los sujetos, a quienes se presentarán los objetos; y las respuestas que la situación experimental requiera. El papel que puede desempeñar cada una de estas variables en el proceso de elaborar escalas puede variar, pero siempre se puede escoger un conjunto análogo de tres variables. Cada uno es importante y debe escogerse cuidadosamente.

Sería bueno recordar que el problema de formular escalas psicológicas es el de asignar numerales a un atributo, que es una propiedad abstracta y no debe confundirse con el objeto mismo. Sin embargo, a menudo la única manera de especificar qué proporción del atributo corresponde a un numeral indicado es señalar un objeto particular como ejemplo. Por tanto, como hecho práctico, concluimos asignando numerales a los objetos, pero nuestro propósito no es decir que el objeto es el numeral, sino más bien que el objeto contiene el atributo en esa medida.

Por otra parte, mientras estamos interesados en el efecto de los objetos estímulo sobre las personas a quienes se presentan, la verdad es que todo lo que poseemos para empezar son las respuestas que obtenemos de nuestros sujetos. Entonces en el proceso de construir escalas es necesario una doble cadena inferencial. Los estímulos se escogen, primero, para representar de manera distintiva el mundo de los estímulos posibles; después, se toman las respuestas que reflejen, en sentido significativo, la experiencia del sujeto. La respuesta debe reflejar también el aspecto del experimento que nos interesa. Esto no siempre es tan fácil como podría parecer. Por ejemplo, la respuesta de un sujeto al efecto de ver una luz muy débil no siempre puede tomarse por su valor aparente, sino que está determinada por muchos aspectos de la situación diferentes de la intensidad de la luz.

Hemos estado hablando de objetos considerándolos las fuentes del atributo, aunque en algunos de nuestros ejemplos hemos usado personas como objetos. En realidad, si pensamos en los objetos como estímulos, podemos hacer escalas para cualquiera de las tres variables: los estímulos, los sujetos o las respuestas. No existe, por ejemplo, una relación simple entre las respuestas dadas por el sujeto durante el experimento y la métrica subyacente del atributo. Ciertamente si las respuestas son verbales y no numéricas, necesitamos incluir en escalas las respuestas antes de que podamos hacer lo mismo con los estímulos; en efecto, difícilmente puede hacerse una cosa sin la otra. Si tratamos de asignar correctamente numerales a los estímulos, también podemos encontrar una escala numérica para las respuestas, porque estamos buscando una relación funcional entre los estímulos y las respuestas.

Es también completamente posible que podamos determinar la cantidad de un atributo correspondiente al sujeto mismo. Este es comúnmente el caso que se presenta cuando medimos actitudes. Aquí, la función de los objetos es proporcionar una forma en la que el sujeto exprese la cantidad del atributo que se halle en él mismo y no en el objeto. Por ejemplo, si los objetos tienen una cantidad predeterminada del atributo, entonces podemos determinar la percepción que el sujeto tiene de sí mismo, encontrando qué objetos aceptará como representativos de sí mismo o deseables para él.

Abelson (1960) ha expresado estas interrelaciones en otra forma. Distingue entre agentes, objetos y modos, que son las tres variables requeridas en el problema de establecer escalas psicológicas. A pesar de que esta distinción sea algo ambigua, en principio es confiable. Ilustremos a grandes rasgos este punto, suponiendo que deseamos hacer una escala de la sonoridad de varios ruidos de tránsito. Nuestro problema será entonces asignar numerales a los diferentes ruidos, que son los objetos, de tal manera que el atributo subyacente se refleje adecuadamente.

Pero debemos tener un agente que defina al atributo, así que usamos uno o más sujetos para juzgar la sonoridad de los estímulos. Los sujetos son entonces los agentes a través de los cuales determinamos los valores escalares que asignamos a los estímulos.

El agente expresa, su juicio de cierta manera o modo, que es el conjunto real de respuesta que se le permite usar.

Esta es una manera útil de plantear el problema de la elaboración de escalas; sin embargo, como veremos aquí está exageradamente simplificado (como la mayoría de las formas que describen los problemas construir de escalas psicológicas). Hay algunas técnicas para elaborar escalas en que tanto los estímulos como los sujetos se ubican en sus escalas respectivas a partir de los mismos datos, así que los objetos y los agentes desempeñan papeles intercambiables dentro del mismo problema. Y hay otros casos en que las escalas para estímulos y las respuestas se establecen a partir del mismo conjunto de datos y realmente desempeñan papeles intercambiables como objetos y modos.

No obstante, debe quedar claro que nos interesa hacer escalas para un atributo, una abstracción de la percepción ya sea de estímulos, de personas o incluso de respuestas.

Dado que nuestro interés es el atributo abstraído, podemos confeccionarle una escala fundándonos en una o más de estas tres variables básicas, algunas veces simultáneamente, o por lo menos a partir del mismo conjunto de datos.

El problema de la generalidad. Existe otra razón para que en nuestro esquema original de tres variables hayamos usado el término sujetos y no agentes, la cual ilustra un problema que se presenta en toda investigación psicológica. En mayor grado que en otras ciencias, la psicología siempre tiene que hacer frente a y procurar contestar la cuestión de la generalidad del resultado de un experimento, generalidad que no siempre se refiere a una población especificada de individuos. Para elaborar la escala de sonoridad de los estímulos, podíamos usar solamente un sujeto como agente, con un solo modo de respuesta; pero no lo hacemos así porque deseamos estar seguros de que la escala obtenida no es exclusivamente de nuestro sujeto. Empleamos, en consecuencia, varios sujetos, y combinamos o promediamos los datos de ellos para tener la mayor generalidad posible que nos permitan los datos promedio. O, en su lugar, podemos buscar diferencias entre los sujetos para determinar qué tan general es la aplicación de la escala.

Si nuestro propósito es establecer diferencias entre sujetos, entonces los objetos son a menudo los medios para establecer la generalidad; por ejemplo, si deseamos saber si los sonidos parecen más sonoros a una persona que a otra. Pero comúnmente nos desagradaría sacar tal conclusión con base en juicios acerca de un solo estímulo. En vez de eso, desearíamos saber si el sujeto A siempre estima los estímulos auditivos como más sonoros de lo que le parecen al sujeto B. Por tanto, pueden usarse los sujetos o los objetos para establecer la generalidad. En otros casos más, deseamos establecer la generalidad a través de las respuestas, ya que la escala que obtenemos no debe ser únicamente de un conjunto particular de respuestas posibles. Por ejemplo, si se pide a los sujetos que juzguen la brillantez de una luz, la escala que obtengamos debe ser la misma ya sea que use respuestas entre cero y diez o entre cero y cien.

Propiedades latentes y manifiestas de las escalas. Los datos obtenidos para elaborar una escala psicológica pueden usarse de muchas maneras; pero existen diferencias en cuanto al modo cómo puede elaborarse la escala, que son distintas a las que hemos estudiado; y una de las más importantes es la del uso de las propiedades latentes o manifiestas para elaborar esa escala.

Las propiedades manifiestas de los datos, son, como lo indica el término, las propiedades evidentes fácilmente apreciables e interpretables. Las propiedades latentes son las que deben éxtraerse de los datos, inherentes a ellos, pero no perceptibles fácilmente. Las propiedades latentes son tan importantes como las manifiestas y quizás un poco más. Las técnicas de elaboración de escalas psicológicas se han inclinado cada vez más hacia el uso de las propiedades latentes, por diversas razones.

Cuando distinguimos entre escalas basadas en propiedades manifiestas y latentes de los datos, nos desentendemos de si los datos mismos tienen propiedades manifiestas: todos los datos las tienen. Nuestro interés se relaciona con las propiedades de medición de la escala que elaboramos en conexión con las propiedades de medición de los datos manifiestos. Las escalas basadas en propiedades latentes tendrán de ordinario propiedades de medición diferentes y a menudo más poderosas que las propiedades de medición de las respuestas (los datos manifiestos). Indudablemente, el objetivo de la mayoría de las técnicas de elaboración de escalas latentes es lograr parecidas propiedades eficaces de medición. Existen tres aspectos importantes en la elaboración de una escala psicológica que atañen a la cuestión de si tenemos una escala basada en propiedades manifiestas o latentes.

Lo naturaleza de las respuestas del sujeto. La primera y a menudo más importante consideración se refiere a la naturaleza de la respuesta que se espera del sujeto. Podemos pedirle que emplee tipos de respuesta de escala nominal, ordinal, intervalar o aún de razón, y si pretendemos que aplique las propiedades manifiestas de los datos entonces podemos construir una escala que no haga suposiciones de medida de mayor eficacia que las que se permitió usar al sujeto. Por ejemplo, si pedimos simplemente a los sujetos que ordenen varios estímulos por preferencia estética, entonces podemos construir una escala intervalar o de razón que se base en las propiedades manifiestas de estos datos.

La propiedad supuesta de la respuesta. No es necesario, por supuesto, que el experimentador suponga que las respuestas tienen las propiedades de medición que se le dijo al sujeto que usara. Si se le indicó al sujeto que hiciera juicios de razón de la brillantez de las luces, no necesitamos suponer que pudo hacerlo, podíamos suponer que sólo fue capaz de hacer juicios intervalares o quizás sólo ordinales. Lógicamente, es posible suponer las propiedades más poderosas del continuo de la respuesta que usó el sujeto, aunque rara vez se hace. Por ejemplo, podemos pedirle al sujeto que ordene un conjunto de estímulos y suponer luego que en realidad las posiciones de orden representan una escala de intervalo. Si lo hiciéramos así estaríamos entonces explorando una propiedad latente de los números, ya que la propiedad intervalar no era evidente.

La propiedad supuesta de la escala. La escala elaborada finalmente no tendrá por fuerza la misma propiedad de medida que las respuestas usadas por el sujeto, y ni siquiera las asumidas por el experimentador. Como adelante veremos, se puede suponer solamente que el sujeto dio respuestas ordinales, pero que a partir de estas se elaboró una escala de intervalo, si se hacen algunas suposiciones adicionales al tratar los datos.

Cuando la naturaleza de la respuesta, sus propiedades asumidas y la propiedad supuesta de la escala son congruentes, tenemos entonces una escala basada en propiedades manifiestas de los datos. Si no son congruentes, entonces la escala se basa en algún grado en propiedades latentes. Debe estar claro que la distinción entre escalas latentes y manifiestas no es una dicotomía definida; existen más bien todos los grados de variación, desde escalas basadas total y sencillamente en datos manifiestos, incluyendo escalas basadas parcialmente en propiedades latentes de los datos, hasta escalas que tienen poca relación con propiedades evidentes o manifiestas de los datos.

¿Por qué escalas de propiedad latente?

La elaboración de una escala basada en datos manifiestos es básicamente tan simple y directa que podemos preguntarnos por qué se usan técnicas de propiedad latente. Si podemos preguntar directamente a un sujeto qué tan fuerte es un sonido o qué tan bello es un árbol, ¿por qué no hacerlo así? y ¿por qué no se ha hecho? La respuesta se encuentra en la misma naturaleza del problema de elaboración de escalas psicológicas.

En la elaboración de esta clase de escalas tratamos de asignar numerales que reflejen las propiedades de un atributo, la fracción que no podemos observar directamente. Por consiguiente, cuando usamos datos manifiestos damos por supuesta la cuestión, quizá la más importante de todas, de si en efecto existe tal atributo, y en ese caso, qué propiedades tiene. El uso de propiedades manifiestas de la respuesta requiere un par de suposiciones muy poderosas. Necesitamos suponer que existe el atributo y que tiene las propiedades de medición que le asignamos, y también suponer que estas propiedades pueden ser reflejadas directamente por el sujeto en su respuesta manifiesta.

No es suficiente afirmar que tenemos una escala para un atributo, tan solo porque podamos demostrar una relación funcional entre un conjunto de objetos y un conjunto de valores escalares. Antes que nada, debemos determinar cuáles son las propiedades del atributo mismo (por ejemplo, ¿tiene un cero absoluto? ); y después qué numerales asignaremos a los objetos que posean tal propiedad. Es decir, debemos establecer una relación entre el atributo mismo y algunos aspectos de la escala de los números.

Las escalas basadas en propiedades latentes de los datos son muy semejantes a las construcciones hipotéticas o variables interventoras (Green, 1954); se construye matemáticamente para explicar relaciones entre otras variables. Rara vez estas escalas tienen propiedades más eficaces que las de una escala de intervalo, pero es frecuente que esta propiedad se garantice en forma significativa. Una escala basada en datos manifiestos en que las respuestas tienen propiedades de razón con frecuencia parece tener estas propiedades; pero la mayor eficacia de la escala de razón se logra a un costo considerable. Rara vez hay evidencia de la significación del atributo asumido.

La mayoría de las técnicas de escalas latentes han incorporado operaciones convergentes experimentales o matemáticas (Garner, Hake y Eriksen, 1956). Las operaciones convergentes sirven para comprobar la legitimidad del concepto. Porque, después de todo, un atributo (por definición no es observable directamente) es justamente eso, un concepto, y un concepto carece de significado a menos que sea abstracto y general. Identificar un concepto a partir de una sola operación experimental o matemática es establecer la significación por mandato, procedimiento que no es aceptable científicamente. Las técnicas latentes proporcionan así mayor generalidad, aunque a costa del alcance de la medida.

subir índice

Artículo enero 2007

LA SEGURIDAD EN AVIACIÓN: IMPORTANCIA DEL FACTOR HUMANO. XVII

TRATAMIENTO MUESTRAS

Medidas en que las inferencias se hacen a partir de la observación de conducta manifiesta.

Muchos investigadores han señalado la conveniencia de usar medidas en que la conducta manifiesta hacia miembros de una clase de objetos sirva como base de inferencias sobre la actitud hacia dicha clase de objetos. Como sucede con las medidas hechas por medio de informes sobre sí mismo, la base de inferencia es clara; y todas las definiciones de actitud especifican qué conducta puede tomarse como indicador de actitud. Como en el caso de las medidas de autoinforme, la suposición común es que hay una correspondencia simple entre el carácter de la conducta y el carácter de la actitud subyacente, por ejemplo, que la conducta amistosa hacia un miembro de una clase dada de objetos indica una actitud favorable hacia tal clase de objetos.

De este tipo de medidas ha habido un desarrollo menor que de medidas de informes sobre sí mismo. Las situaciones capaces de producir conductas hacia un objeto actitudinal son más difíciles de inventar y estandarizar, a la vez que requieren más tiempo y es más onerosa su aplicación; y no así con las medidas hechas por medio de informe sobre sí mismo. Aunque se han inventado algunas medidas de este tipo, no se han usado lo suficiente para probar su fuerza y debilidad específicas, ni para estimular los esfuerzos por corregir sus defectos. Sin embargo, el análisis de sus características proporciona medios para estimar su probable susceptibilidad a influencias diferentes de la actitud y las posibilidades de reducir tal susceptibilidad.

Hasta ahora, el desarrollo de las medidas conductuales ha seguido tres orientaciones generales. Una consiste en enfrentar a los sujetos a situaciones estandarizadas, cuyos arreglos se ocultan a dichos sujetos, con el fin de que crean entonces que sus conductas tendrán consecuencias. En tales situaciones, el objeto actitudinal se representa de manera diferente a la presencia efectiva de miembro de la clase de objetos. Por ejemplo, puede pedírsele a los sujetos que firmen una petición en favor de un instructor que fue despedido por pertenecer al partido comunista; que contribuyan con dinero al mejoramiento de las condiciones de los trabajadores migratorios; que indiquen si estarían dispuestos a tener por compañero de cuarto a un negro. DeFleur y Westie (1958) se propusieron establecer una medida de esta clase que se adaptara a diferentes situaciones de prueba. En su procedimiento, que era parte de un programa más extenso de investigación, los sujetos blancos vieron varias transparencias que presentaban a un joven negro y a una joven blanca, o a un joven blanco y a una joven negra, en una situación social; los sujetos describieron las fotografías y contestaron preguntas concretas acerca de ellas. Al final de una entrevista que siguió a esta sesión se introdujo el procedimiento de medida que se está describiendo. DeFleur y Westie describen el procedimiento como sigue: se dice al sujeto que se necesita otro grupo de transparencias semejantes para investigaciones posteriores; se le pregunta si estaría dispuesto a ser fotografiado junto con un negro de sexo opuesto y después se le da "un contrato de cesión de derechos por una fotografía estándar", que especifica la diversidad de usos que se podría dar a esa fotografía, y que van desde experimentos de laboratorio, donde solamente seria vista por sociólogos profesionales, hasta campañas de publicidad en escala nacional que abogarían por la integración racial. Finalmente se pidió a cada sujeto que autorizara con su firma los distintos usos de la fotografía. Los mencionados investigadores informaron que los sujetos "percibieron uniformemente la situación conductual propuesta como una petición muy realista".

Semejantes medios difieren de las médidas basadas en informes sobre sí mismo cuyo contenido es similar en que, en las medidas conductuales, el sujeto realiza efectivamente la conducta (firma una petición, hace una aportación, etc.), o se le hace creer que su aceptación traerá consecuencias reales (se le pide posar para una fotografía que tendrá usos específicos, se le asigna a un negro de compañero de cuarto, etc.).

Otro procedimiento consiste en presentar al sujeto una situación preparada de antemano y se le pide que desempeñe un papel, quizá que se comporte como lo haría en una situación semejante de la vida real, o bien que asuma la parte de alguien o que actúe de una manera específica. Stanton y Litwak (1955) presentaron a padres adoptivos reales y potenciales situaciones de tensión interpersonal en las que se les instruyó para que se comportaran de una manera determinada (definida de tal modo que no manifestaran tipos específicos de conducta indeseable o neurótica); por ejemplo, en una escena se instruyó al sujeto para que desempeñara el papel de un hombre casado, que come con sus padres; el investigador, que hace el papel de padre del sujeto, trata a su hijo como un niño, critica a su esposa y la ofende. Nuestros investigadores encontraron que las estimaciones basadas en media hora de desempeño del papel fueron mejores pronosticadores de la conducta de los sujetos como padres adoptivos (evaluados por trabajadores sociales que habían mantenido contacto con ellos) que las estimaciones basadas en 12 horas de entrevista intensiva con un trabajador social adiestrado. Stanton, Back y Litwak (1956) informaron que un procedimiento de desempeño de papeles tuvo éxito en el descubrimiento de los límites de los sentimientos positivos y negativos de parte de los habitantes de barrios bajos en Puerto Rico. Estos investigadores hicieron hincapié en la importancia de diseñar la escena específicamente para producir respuestas correspondientes a la conducta o actitud particular en que esté interesado el investigador.

Un tercer enfoque conductual, empleado en el estudio de las actitudes hacia grupos sociales, es pedir que se hagan selecciones sociométricas entre individuos donde figuren algunos miembros del grupo objeto, de la actitud preferiblemente en circunstancias que induzcan a creer a los participantes que tales selecciones tendrán consecuencias en la forma de asignar subsecuentemente determinada situación. Las primeras aplicaciones de esta técnica al estudio de las actitudes intergrupales fueron hechas en los estudios de Moreno (1943) y de Criswell (1937, 1939), donde las estructuras de las selecciones hechas por niños escolares fueron analizadas basándose en el desarrollo de divisiones entre líneas raciales. Más tarde, las técnicas sociométricas se han usado en la investigación para evaluar los efectos de ciertas experiencias sobre las actitudes (por ejemplo, Mann, 1959a; Mussen, 1950a, 19506) y de las relaciones entre diferentes aspectos de las actitudes (por ejemplo, Mann, 19596).

Existen diferencias entre estos tres tipos de medidas conductuales -situaciones que aparecen al sujeto como no preparadas, desempeño de papeles y selecciones sociométricas- en características que afectan la probabilidad de que las respuestas manifiestas correspondan a respuestas que se presentarían si el sujeto no procurara presentar (a los otros o a sí mismo) cierta imagen de él mismo. Primero, consideremos el grado en que su propósito es visible al sujeto. En el grado en que las situaciones pretendidamente no preparadas son aceptadas como genuinas, el sujeto no las verá como diseñadas para obtener información acerca de sus actitudes; así, se elimina una posible fuente de presión para dar respuestas que probablemente se consideren deseables. Sin embargo, las implicaciones de su conducta al revelar ciertas características pueden evidenciarse a él; aun cuando acepte como genuina una pregunta acerca de su disposición a posar junto con un negro o a tener como compañero de cuarto a un negro, puede darse cuenta de que una respuesta positiva lo presentará como no prejuiciado y una respuesta negativa como prejuiciado. Así, pese a percatarse de que está siendo examinado, el individuo puede ser motivado a dar una respuesta que difiera de su respuesta espontánea y privada, para aparecer al examinador como no prejuiciado o mantener la imagen de sí mismo como la de una persona cuyo comportamiento carece de prejuicios. El método de selección sociométrica parecería ser semejante en estos aspectos, aunque acaso se suponga que, en ausencia de influencias especiales que llaman la atención hacia la pertenencia de grupo racial o étnico, las implicaciones de las selecciones son probablemente menos aparentes. En el caso del desempeño de papel, el grado en que el propósito de la situación y las implicaciones de las respuestas son claras depende, presumiblemente, de lo convincentemente que pueda presentarse la situación como medida de alguna otra característica, tal como la capacidad de actuar.

Todos estos procedimientos conductuales tienen características cuya operación puede facilitar responder de manera que pueda considerarse indeseable. En muchas situaciones, es posible justificar una respuesta negativa sobre bases neutrales o aceptables: uno no confía en firmar peticiones o no le gusta que le tomen fotografías o prefiere a las personas A y B y no a X y Y porque comparten su interés por la música. O, en la situación de desempeño de papeles, su conducta se conforma no por sus propias reacciones hacia el objeto actitudinal sino por su interés en los requerimientos dramáticos de la situación. (Sin embargo, en el grado en que estas explicaciones alternas sean posibilidades reales, se introducen otros problemas acerca de la interpretación de la conducta como indicador de la actitud en que esté interesado el investigador).

Algunas características de los métodos conductuales pueden reducir la probabilidad de que el individuo modifique su conducta a modo de ofrecer una imagen aceptable de sí mismo. Cuando se espera que las respuestas tengan consecuencias reales, la previsión de tales consecuencias puede contrabalancear el deseo de causar una buena impresión. En un cuestionario de distancia social, si uno desea presentarse (al examinador, a uno mismo o a ambos) como no prejuiciado, hay poca presión efectiva en contra de la afirmación consistente en que uno estaría dispuesto a trabajar con un negro o a tener un compañero negro de cuarto; pero si la pregunta se ubica dentro de un contexto en el que una contestación positiva se considere conducente a la asignación de un negro como compañero de trabajo o de cuarto, uno necesita ponderar su disposición a aceptar esa consecuencia, contrastándola con el deseo de aparecer como no prejuiciado. En el desempeño de papeles, la presión para dar respuesta rápida a situaciones de estímulo no previstas, probablemente disminuya el control consciente de la conducta dirigida a producir la impresión deseada. Al enfrentarse a la necesidad de hacer o decir algo para que la situación continúe, el individuo posiblemente no tenga tiempo de considerar la impresión que produce; en la medida que esto suceda, puede considerarse que este procedimiento disminuye la selección consciente que de su respuesta hace el individuo.

Por tanto, las medidas conductuales parecen menos suceptibles de distorsión de respuesta que las simples medidas con autoinformes cuando se trata de presentar cierto cuadro de sí mismo. Pero son tan susceptibles por lo menos como los informes de sí mismo a los efectos de otras influencias extrañas. Algunas veces se ha sugerido que el modelo de medidas conductuales estaría formado por situaciones aparentemente no preparadas en las que se encuentre presente un miembro de la clase de objetos. Pero es claro que en situaciones de la vida diaria (a las que este modelo procura aproximarse) la conducta no está determinada exclusivamente por la actitud hacia el presunto objeto actitudinal. En el caso de la conducta hacia grupos minoritarios, la costumbre social es, por ejemplo, un determinante importante; en las comunidades con sistemas de transportes segregados, casi todos los blancos -independientemente de sus actitudes hacia los negros o hacia la segregación- se sientan en la sección de blancos, mientras que en las comunidades con sistemas de transporte no segregados, muy pocos blancos- independientemente de sus actitudes- rehusan sentarse junto a los negros. Otros valores pueden anular las actitudes hacia el presunto objeto; un individuo que sienta repulsión a comer con negros, puede hacerlo, no obstante, porque acaso crea que los ideales de la democracia, los principios religiosos de hermandad o la posición de los Estados Unidos en el mundo requieren que todos los hombres sean tratados como iguales. Finalmente, pueden predominar otras características de los objetos individuales sobre su identificación étnica en la determinación de su respuesta a ellos. Así, LaPiere (1934) concluyó que los factores que más influyeron en la conducta del personal del hotel y del restaurante, hacia la pareja china con quien viajó, "no tenía nada que ver con la raza"; más bien, fue la calidad y condiciones de su vestido, la apariencia de su equipaje, su limpieza y pulcritud y sobre todo sus maneras agradables y su seguridad lo que determinó las reacciones. Observaciones como esta sugieren que, en el grado en que uno esté interesado en explorar disposiciones generalizadas hacia un grupo determinado, más bien que predecir la conducta en situaciones complejas, las medidas conductuales que requieren respuesta a una representación simbólica del grupo pueden estar menos sujetas a la influencia de factores extraños que las medidas que requieren respuesta a miembros del grupo que están presentes físicamente.

Campbell (1961) ha propuesto un procedimiento para usar medidas conductuales basadas en la premisa de que situaciones diferentes tienen distintos umbrales para la manifestación de conducta hostil, de evitación o discriminatoria. Indica que, para obtener testimonios sobre la actitud de un individuo, es necesario colocarlo en varias situaciones que difieran en umbrales; por ejemplo, situaciones que vayan desde comer con un negro en un restaurante de hombres de negocios (que se supone es una situación con un umbral bajo para conducta no discriminatoria, es decir, que es fácil comportarse en ella de una manera no prejuiciada), hasta rentar la propia casa a un negro (que se supone tiene un umbral alto para conducta no discriminatoria). La situación de umbral más bajo en la que un individuo exhiba conducta discriminatoria indicaría su posición en una escala de actitud con respecto al grupo en cuestión. Semejante procedimiento sería efectivo para tener en cuenta las presiones que sean constantes en todos o casi todos los individuos; pero nos parece que no eliminaría los efectos de las diferencias de intensidad, en diferentes individuos, de influencias como el interés por la aprobación social, otros valores considerados también intrínsecos de la situación, etc.

Medidas en que las inferencias se obtienen de la reacción individual a, o de, la interpretación de estímulos estructurados parcialmente.

La característica común de las técnicas de esta categoría es que, aun cuando es probable que no se procure disimular la referencia al objeto actitudinal, no se le pide al sujeto que exprese sus reacciones directamente; está describiendo, ostensiblemente, una escena, un personaje o la conducta de una tercera persona. Se le puede presentar la fotografía de un miembro de la clase del objeto (generalmente una persona de determinado grupo social) para después pedirle que describa sus características; o se le puede presentar una escena en la que estén presentes los miembros de la clase del objeto y pedirle que la describa, que cuente una historia acerca de ella, que describa la conducta de uno de los personajes, etc. El material de estímulo puede ser verbal y no fotográfico; por ejemplo, se le puede pedir al sujeto que complete una oración referente a una tercera persona hipotética.

Las bases de inferencia acerca de las actitudes son las comunes a todos los tests proyectivos: las suposiciones de que la percepción de estímulos que no están estructurados claramente resulta influida por las propias necesidades y disposiciones del que percibe; que al proporcionarle una explicación o interpretación para la cual el estímulo presentado no ofrece una señal clara, el sujeto debe extraer de su propia experiencia o disposiciones o de sus propias definiciones lo que sería probable o apropiado; que, al pedirle que atribuya formas de conducta a los demás, particularmente en condiciones de respuesta rápida, la fuente más asequible de hipótesis es la propia disposición de respuesta del individuo. Como en el informe sobre sí mismo y en los tests conductuales, la suposición común es que la respuesta expresada corresponde directamente a la actitud del individuo; por ejemplo, que la atribución de características deseables a un miembro de determinado grupo representa una actitud favorable hacia ese grupo, que la interpretación de una escena en la que hay hostilidad hacia un miembro de, un grupo dado representa una actitud hostil hacia el grupo, que la atribución de una respuesta positiva (o negativa) a una tercera persona hipotética con respecto a determinado objeto refleja una disposición positiva (o negativa) hacia el objeto en cuestión.

Una razón importante para el desarrollo de tales técnicas es la suposición de que, al disimular el propósito del instrumento y las implicaciones de las respuestas, disminuye la probabilidad de distorsión de las respuestas para presentar cierto cuadro de sí mismo. Se presentan al sujeto no como medidas de actitud sino como tests de imaginación, fluidez verbal, capacidad para juzgar el carácter, la sensibilidad social o alguna otra característica semejante. Tanto como el sujeto acepte estas explicaciones, es de suponerse que no solamente desconoce el propósito del test sino también que sus respuestas implican que revela sus propias actitudes. Aun cuando el sujeto se dé cuenta de que está expresando su propia actitud, se presume que puede ser más fácil expresar opiniones que pueden considerarse indeseables cuando uno no las reconoce explícitamente como propias. En algunos casos, las preguntas no son evaluativas; de ahí que las implicaciones de una u otra respuesta no se hagan probablemente evidentes al sujeto; por ejemplo: "¿Qué está haciendo el individuo de color que está en la esquina? " (Horowitz y Horowitz, 1938).

Sin embargo, se han planteado preguntas acerca de la validez de la suposición de que las respuestas, aun las espontáneas y no distorsionadas, reflejan la propia actitud del individuo hacia el objeto. Pero, aunque parece haberse establecido que la respuesta de un individuo puede reflejar su propia disposición, no es cierto que necesariamente la realice. En una escena en la que son ambiguos los papeles del negro y del blanco, el individuo que describe al negro como criado puede reflejar así su propia disposición devaluativa hacia los negros; por otro lado, puede informar sencillamente de la organización más comúnmente observada en nuestra cultura. De manera semejante, las respuestas que atribuye a una tercera persona hipotética pueden basarse ya sea en su propia disposición de respuesta o en su estimación de cómo reaccionaría la mayoría de la gente en tal situación.

Las tentativas por obtener testimonios sobre si las respuestas a los instrumentos de este tipo reflejan en realidad las propias actitudes del individuo han seguido dos direcciones: examen de la correspondencia entre las estimaciones basadas en estas medidas y las basadas en otras medidas (por lo común del tipo de informe de sí mismo); y examen de datos obtenidos de instrumentos de esta clase basándose en las predicciones acerca de las estructuras de los resultados.

Varios estudios han encontrado correspondencia significativa entre resultados de medidas de este tipo y puntuaciones en medidas de informes de sí mismo. Proshansky (1943) encontró correlaciones altas entre puntuaciones basadas en una escala estándar de informes sobre sí mismo para medir la actitud hacia el trabajo organizado y las puntuaciones basadas en descripciones de cuadros ambiguos, de exposición breve y de situaciones sociales relacionadas. Riddleberger y Motz (1957) encontraron que los sujetos con puntuación alta y los de puntuación baja en una medida con informes sobre sí mismo, de actitud hacia los negros, diferían en sus explicaciones acerca de cómo habían entablado relación los miembros de un grupo interracial dibujado. Sommer (1954), con una forma modificada de la adaptación de Brown (1957), del test de frustración de dibujos de Rosenzweig, pudo identificar con gran éxito no solamente a los individuos que calificaron alto y a los que calificaron bajo en una escala de informe sobre sí mismo, de actitud hacia los negros, sino también a un subgrupo al que se había instruido para que respondiera al test de frustración de cuadros como si no estuviera prejuiciado, aunque sus puntuaciones en el informe sobre sí mismo eran desfavorables.

Sin embargo, en vista de la suposición de que una característica importante de los tests de este tipo es su relativa falta de susceptibilidad, comparada con la de medidas de informes de sí mismo, a los efectos de presentar cierta imagen de sí mismos, su correspondencia con puntuaciones basadas en medidas de informe de sí mismo, es un criterio dudoso. Getzels (1951), admitiendo este hecho, planteó el problema al predecir las condiciones en las que la complementación rápida de frases en tercera persona diferiría de la complementación, hecha por los mismos sujetos, de las mismas frases presentadas en primera persona. Hizo dos predicciones: a) que las respuestas en primera y tercera persona diferirían en los reactivos sujetos a normas sociales firmes que no estuvieran completamente internalizadas por todos los miembros del grupo; y que no diferirían en los reactivos libres de tales normas; y b) que en el caso de los primeros reactivos, las contestaciones de mayor aceptación social serían dadas en la forma de primera persona más que en la de tercera persona. Ambas predicciones fueron comprobadas claramente. Getzels reconoció la posibilidad de que las respuestas en la forma de tercera persona se basaran en estimaciones de cómo respondería la mayoría de las personas antes que en las disposiciones de respuesta de los propios sujetos. De conformidad con esto, pidió a los sujetos que estimaran cómo respondería la mayoría de las personas a los reactivos acerca de los negros, y no encontró diferencia entre el promedio de las estimaciones hechas por aquellos cuyas respuestas de tercera persona habían sido favorables y el de aquellos cuyas respuestas de tercera persona había sido desfavorable.

Varias técnicas en que interviene la percepción -en sentido literal- de material ambiguo o inestructurado pueden considerarse dentro de esta categoría. Por ejemplo, varios psicólogos han estado investigando la posible relación de las actitudes con la percepción de estímulos presentados en condiciones estereoscópicas de rivalidad binocular. Bagby (1957), al presentar pares de tarjetas que diferían en contenido cultural (por ejemplo, un torero y un jugador de béisbol) a sujetos de México y de los Estados Unidos, encontró que los mexicanos tendían a ver la tarjeta de contenido mexicano y los norteamericanos las de contenido familiar en los Estados Unidos. Pettigrew, Alport y Barnette, (1958), al presentar a residentes de Sudáfrica pares de fotografías de individuos de diferentes grupos raciales, encontraron que los africanos se desviaron más consistentemente de otros grupos en sus respuestas, emplearon en exceso las categorías de "europeo" y "africano" y muy poco las de "negro" o "indio".

Un estudio de Bray (1950) hizo uso de material visual no estructurado de una manera diferente. Haciendo uso del hallazgo de Sherif (1935) de que las estimaciones de movimiento en el fenómeno autocinético son influídas notablemente por las estimaciones hechas por otros, Bray investigó los efectos de estimaciones de compañeros que se identificaron como miembros de grupos minoritarios. Sostuvo la hipótesis de que el grado y dirección de tales efectos estaría influido por la actitud del sujeto hacia el grupo minoritario. Aquí, el material perceptual no estructurado no se refería al objeto actitudinal, sino sencillamente proporcionaba la oportunidad de expresar indirectamente una respuesta al objeto actitudinal, el miembro del grupo minoritario presente.

Persisten, pues, los problemas acerca de la naturaleza de las inferencias que pueden extraerse. Bray, por ejemplo, no encontró la relación directa que había predicho entre la actitud hacia el grupo minoritario (medida por escalas de informes de sí mismo) y las respuestas a las estimaciones de los miembros del grupo minoritario. En el caso de la rivalidad binocular, ¿de qué manera, en caso de haberla, la actitud influye en la percepción? ¿Ve uno la fotografía de contenido más familiar? ¿Ve uno al miembro del grupo racial hacia el que se siente más a favor o hacia el que es más hostil o se siente más temeroso?

Preguntas como éstas señalan la necesidad de investigaciones ulteriores sobre la utilidad de estas técnicas como medidas de actitud y las direcciones de investigación potencialmente fructíferas acerca de la relación entre las actitudes y la respuesta a varias clases de materiales en diferentes condiciones.

Medidas en que las inferencias se extraen de la ejecución de tareas "objetivas"

Los procedimientos de esta categoría presentan al sujeto tareas concretas a realizarse; se presentan como tests de información o capacidad o simplemente como tareas que deben hacerse. La suposición común a todas ellas es que la ejecución puede ser influída por la actitud y que una desviación sistemática en la ejecución refleja la influencia de la actitud.

Por ejemplo, se puede pedir al sujeto que memorice material, parte del cual es favorable al objeto actitudinal, parte desfavorable y parte quizá neutral o no relacionado con dicho objeto. La suposición consiste en que el material análogo a la posición del propio sujeto se aprenderá más rápidamente y se recordará por más tiempo. Se ha obtenido comprobación empírica de esta suposición; por ejemplo, en un estudio de Levine y Murphy (1943), en el que se empleó material acerca de la Unión Soviética y en otro de Jones y Kohler (1958) con aseveraciones acerca de la segregación. O se le da al sujeto un test de "información", en el que por lo menos algunos de los reactivos se refieran al objeto actitudinal y no tengan respuestas correctas o éstas sean tan desconocidas que pueda suponerse que, si acaso, unos cuantos sujetos conocerán las contestaciones acertadas; se proporcionan respuestas alternas que se cree indican disposiciones relativamente favorables o desfavorables hacia el objeto. En este caso, la suposición es de que cuando el sujeto es forzado a adivinar en preguntas claramente referentes a hechos precisos, es probable que escoja la alternativa más compatible con su propia disposición actitudinal. También esta suposición se apoya en evidencias empíricas; por ejemplo, los estudios de Hammond (1948) y Weschler (1950) acerca de las actitudes hacia el trabajo y hacia Rusia, y de Rankin y Campbell (1955) acerca de la actitud hacia los negros. O bien la tarea puede consistir en un test de "razonamiento", en que se presentan silogismos u otras formas lógicas y se pide al sujeto que indique cuál de varias conclusiones puede extraerse correctamente. Los reactivos referentes al objeto actitudinal están acompañados por reactivos semejantes de contenido neutral o abstracto; la calificación se hace conforme al número y dirección de los errores en los reactivos correspondientes a la actitud en comparación con los reactivos de control. La suposición reside en que el razonamiento puede estar dominado por la disposición actitudinal y así los errores en los reactivos pertinentes a la actitud reflejan la propia posición del individuo, cuando son contestados correctamente los reactivos paralelos neutrales. Watson (1925), Morgan (1945) y Thistlethwaite (1950), entre otros, han desarrollado instrumentos de este tipo. Thistlethwaite encontró diferencias significativas entre los estudiantes universitarios del norte y del sur en la frecuencia de errores en reactivos referentes a negros (en comparación con los errores en los reactivos neutrales) y ninguna diferencia correspondiente en reactivos acerca de judíos, mujeres o patriotismo.

Otras medidas hacen hincapié en el material que va a ser juzgado o en el resultado que se va a lograr y no en la capacidad de ejecución. Por ejemplo, se pide al sujeto que clasifique reactivos acerca del objeto actitudinal fundándose en su posición sobre una escala de favorabilidad-desfavorabilidad, con el fin expreso de que ayude en la elaboración de una escala de Thurstone. En este caso, la suposición es que la propia actitud del evaluador hacia el objeto particularmente si es extrema -influye en sus juicios acerca de la favorabilidad de las aseveraciones acerca del objeto. No obstante la creencia inicial de que las estimaciones de reactivos en las escalas de Thurstone no son afectadas por las propias actitudes de los evaluadores, varios estudios recientes (por ejemplo, Hovland y Sherif, 1952) han encontrado que sí existen tales efectos.

Parece razonable suponer que la mayoría de los sujetos acepta estas tareas por su valor aparente; se presume que solo quien tenga un conocimiento más que ordin4rio de las técnicas de investigación de las ciencias sociales conocería sus implicaciones actitudinales. Hay entonces las bases suficientes para asumir que son relativamente invulnerables a la distorsión de querer presentar la imagen deseada de sí mismo.

Hay, sin embargo, objeciones acerca del carácter de las inferencias obtenidas. Cuando un sujeto presenta distorsión notable y consistente, se puede inferir que tiene una actitud hacia el objeto lo bastante fuerte para afectar su ejecución. Pero cuando tal distorsión no es consistente, ¿inferimos de ello que su actitud no es fuerte o no es consistente? En otras palabras, ¿qué tan sensibles son esas medidas? ¿Es posible que los individuos con actitudes equivalentes difieran en el grado en que su ejecución en semejantes tareas está influida por esas actitudes?

Otro problema es el relativo a la dirección en que la actitud influye en la respuesta e, inversamente, en el carácter de la inferencia que se obtiene de determinada respuesta. Las respuestas pueden reflejar deseos o temores; un miembro del partido comunista puede sobreestimar el número de comunistas en los Estados Unidos; pero también puede hacerlo un miembro de la Sociedad John Birch. Una persona que subestima el número de médicos negros en los Estados Unidos puede hacerlo porque cree que los negros no tienen la capacidad para ser médicos, o porque cree que las oportunidades para que los negros obtengan preparación médica son limitadas.

Los juicios de favorabilidad o desfavorabilidad de las aseveraciones están sujetos a un problema similar de interpretación. Hovland y Sherif (1952), empleando reactivos acerca de los negros, encontraron que las estimaciones hechas por sujetos negros y por sujetos blancos que apoyaban activamente la integración racial, diferían de las estimaciones hechas por sujetos "promedio", y por blancos racistas. No obstante, otros investigadores (por ejemplo, Manis, 1960; Weiss, 1959), empleando reactivos acerca de diferentes objetos actitudinales, encontraron que los sujetos con actitudes extremas -ya sea favorables o desfavorables- presentaron estructuras semejantes de estimaciones, que diferían de las hechas por sujetos con actitudes moderadas.

Como en la categoría anterior, estos problemas de interpretación señalan la necesidad de ser cuidadosos al inferir la actitud de un individuo a partir de un solo test de esta clase; pero parece señalar también la probable utilidad de la investigación empírica ulterior acerca de la relación entre las puntuaciones basadas en semejantes medidas y las basadas en tests que proporcionan otros principios de inferencia.

Otro grupo de medidas presentadas como tareas objetivas o tests de capacidad se enfoca hacia el grado en que el objeto actitudinal figura de manera destacada en la organización que de su ambiente realiza el sujeto, es decir, su importancia para él. Las clases de datos apropiados para inferencia acerca de la importancia de un objeto actitudinal difieren en parte de los tipos adecuados de inferencia acerca de la naturaleza o dirección de la actitud. Se han desarrollado principalmente medidas de predominio con respecto a actitudes hacia grupos sociales. Son de dos tipos: técnicas para evaluar la tendencia a clasificar a los individuos con fundamento en su pertenencia al grupo y técnicas para evaluar la tendencia a subordinar las diferencias individuales a la identificación con el grupo.

Una técnica para evaluar la tendencia a clasificar a los individuos por su pertenencia de grupo, desarrollada por Horowitz y Horowitz (1938), puede presentarse como test de formación de conceptos. Consiste en presentar al sujeto series de fotografías de individuos que difieren en raza, sexo, edad y posición socioeconómica, y luego pedirle que seleccione las que "deban ir juntas". Por ejemplo, un conjunto puede contener fotografías de tres muchachos blancos, una muchacha blanca y un muchacho negro. Si el sujeto contesta que la muchacha blanca no pertenece al grupo, véase en esto una indicación de que para dicho sujeto el sexo es una base de clasificación más importante que la raza; si contesta que el muchacho negro no pertenece al grupo, se infiere que la raza es para él una categoría más importante que el sexo.

Otra técnica para evaluar la tendencia a clasificar los individuos según su pertenencia de grupo, presentada como test de memoria, implica la agrupación, en el recuerdo, de símbolos verbales, para lo cual se proporcionan principios clasificatorios alternos. Esta técnica se apoya en el hallazgo realizado en estudios de conducta verbal de que cuando se presentan al azar palabras sacadas de diferentes categorías, los sujetos tienden a recordarlas en grupos; se recuerdan juntas palabras diferentes que representen una categoría dada aunque no estén próximas en la lista presentada. Para estudiar el predominio de la raza como base de clasificación, se presentarían al sujeto, en orden aleatorio, los nombres de personas de diferentes categorías ocupacionales, por ejemplo, jugadores de béisbol, músicos, políticos, actores; uno de los nombres en cada categoría correspondería a un negro. El grado en que se agrupan en el recuerdo los nombres de negros proporciona la base de inferencia en cuanto al predominio de la raza como fundamento para clasificar a los individuos.

Una medida de la tendencia a subordinar las diferencias individuales a la identificación de grupo, desarrollada por Horowitz y Horowitz (1938), consiste en presentar al sujeto varias fotografías de individuos de diferentes grupos étnicos y pedirle que identifique, en un gran número de fotografías, a los que ya ha visto. La tarea se presenta como un uso de la percepción, la memoria o ambas. La calificación se hace conforme a la proporción de respuestas correctas a los individuos de determinado grupo social dado en comparación con la proporción de respuestas correctas sobre individuos de otros grupos. En este caso, la inferencia es que la exactitud para identificar o no fotografías de individuos de un grupo social dado, que ya se han visto anteriormente, disminuye con la tendencia a subordinar las diferencias individuales a la identificación de grupo.

Seeleman (1940-41), empleando fotografías de blancos y negros, encontró una correlación alta entre las puntuaciones en esta medida y las puntuaciones en un cuestionario de informes sobre sí mismo diseñado para medir la actitud hacia los negros, donde los sujetos con actitud menos favorable fueron menos precisos para identificar las fotografías de negros que se habían mostrado previamente. El problema reside en saber si hay, en general, una correlación entre el predominio de un objeto actitudinal y la favorabilidad de la disposición hacia él, problema interesante para investigarlo empíricamente.

Medidas en que las inferencias se obtienen de reacciones fisiológicas al objeto actitudinal o a representaciones de él.

En el extremo opuesto de las medidas que confían en el informe verbal del sujeto sobre sus creencias, sentimientos, etc., están las que confían en respuestas fisiológicas no sujetas a control consciente. Pueden ser medidas de la reacción del sujeto -por ejemplo, la respuesta galvánica de la piel (RGP), o contracción vascular- a la presencia de un miembro del grupo de objetos o a las representaciones pictóricas de situaciones en que intervienen miembros del grupo de objetos. Por ejemplo, Rankin y Campbell (1955) compararon las RGP obtenidas cuando el experimentador era negro con las obtenidas cuando el experimentador era blanco; Westie y DeFleur (1959) registraron la RGP, la contracción vascular del dedo, la amplitud y duración del latido del corazón y la duración del ciclo cardíaco mientras los sujetos veían fotografías de blancos y negros en situaciones sociales. Hess y Polt (1960) fotografiaron la contracción pupilar en respuesta a estímulos displacenteros y la dilatación pupilar al responder a estímulos placenteros.

Bien puede suceder que esas medidas impliquen respuestas, como la salivación, parpadeo, contracción vascular, que hayan sido condicionadas a un estímulo verbal y, por un proceso de generalización semántica, aparezcan al responder a palabras, o bien que impliquen conceptos semejantes en significado al estímulo original. Por ejemplo, Volkova (1953) informó de una serie de experimentos, en Rusia, en los que ciertos sujetos fueron condicionados a salivar en respuesta a la palabra BUENO; subsecuentemente, aseveraciones como "el joven pionero ayuda a su camarada" produjeron salivación máxima, mientras que afirmaciones por el estilo de "los fascistas destruyeron muchas ciudades" produjeron salivación mínima.

En el caso de respuestas fisiológicas incondicionadas a la presencia o a la representación del objeto actitudinal, la base de inferencia procede directamente del concepto de actitud. Y como todas las definiciones de actitud in•I-luyen creencias, sentimientos y conducta manifiesta como indicadores de la actitud, todas las definiciones, explícita o implícitamente, incluyen también respuestas fisiológicas. Se supone que la magnitud de la reacción fisiológica está relacionada en forma directa y positiva con el grado de activación o intensidad del sentimiento; de esta manera, cuanto mayor es la respuesta fisiológica, tanto más intensa o extrema se supone que es la actitud. Sin embargo, subsisten los problemas para inferir el carácter de la actitud que se refleja. La mayoría de las medidas de reacción fisiológica solamente dan indicaciones directas del grado de activación; pero no revelan si la emoción correspondiente es placentera o displacentera. En general, en los ensayos para evaluar las actitudes hacia grupos sociales por medio de la medida de reacciones fisiológicas, se ha supuesto que la amplitud del afecto no va desde completamente favorable hasta completamente desfavorable sino que se extiende desde la aceptación o neutralidad, hasta lo completamente desfavorable; se ha inferido así que cuanto mayor sea la respuesta fisiológica, tanto más desfavorable es la actitud. Si la técnica de Hess de fotografía de la contracción-dilatación pudiera adaptarse al estudio de las actitudes, proporcionaría una base de inferencia mucho más firme en lo referente a la dirección de la actitud, ya que la reacción que se mide presenta una respuesta diferencial a estímulos placenteros y displacenteros.

En el caso de las respuestas fisiológicas condicionadas, la base de inferencia es algo diferente, pues proviene de la teoría del aprendizaje. Una respuesta que se ha condicionado a determinado estímulo tiende a generalizarse a estímulos que sean semejantes. De esta manera, si una respuesta que se ha condicionado al concepto de "bueno" aparece cuando se presenta el objeto actitudinal, la inferencia es de que el sujeto considera bueno al objeto, es decir, que su actitud hacia él es favorable; si la respuesta no aparece cuando se presenta el objeto actitudinal, se infiere que el sujeto no lo considera bueno, es decir, que su actitud hacia él no es favorable.

El propósito de las medidas fisiológicas puede o no ser evidente al sujeto. En el estudio de Westie y DeFleur (1959), por ejemplo, se admite que los sujetos comprobaron que se estaban usando las medidas fisiológicas como indicadores de sus reacciones a los cuadros interraciales. Por otra parte, en el experimento de Rankin y Campbell (1955), se hizo creer a los sujetos que estaban tomando parte en un estudio de asociación de palabras y que sus RGP a las palabras estímulo (y no a los experimentadores negros y blancos) era lo que se estaba investigando. Esté o no claro para el sujeto el verdadero propósito, el hecho de que las respuestas medidas no estén sujetas a control consciente parecería eliminar la posibilidad de modificación de las respuestas para presentar cierta imagen falsa de sí mismo.

Sin embargo, las respuestas fisiológicas pueden ser muy sensibles a influencias diferentes de las que interesan al investigador, tanto a diferentes aspectos del material de estímulo como a otras influencias ambientales. Es difícil controlar la situación experimental al extremo de que no intervengan otros factores como posibles determinantes de la respuesta. Interrogantes como éstas señalan constantemente la necesidad de tener extremo cuidado al sacar inferencias acerca de la actitud de un individuo dado a partir de una medida de este tipo. Pero, de la misma manera señalan las posibilidades alentadoras de investigación empírica y la oportunidad de incrementar ampliamente nuestra comprensión de las actitudes y su relación con varios tipos de respuesta, mediante el uso de instrumentos que producen diferentes tipos de prueba.

BIBLIOGRAFIA

Adorno, T.W., Else Frenkel-Brunswik, D.J. Levinson, y R.N. Sanford. 1950 The Authoritarian Personality. Nueva York:
Harper. 1957 "A cross-cultural study of perceptual predominance in binocular rivalry". Journal of Abnormal Social Psychology 54:
Bass, B.M. 1955 "Authoritarianism or acquiescence? " Journal of Abnormal Social Psychology 51:
Bray, D. 1950 "The prediction of behavior from two attitude scales". Journal of Abnormal Social Psychology 45:
Brown, J.F. "A modification of the Rosenweig Picture-Frustration Test to study hostile interracial attitudes". Journal of Psychology 24:
Campbell, D.T. 1950 "The indirect assessment of social attitudes". Psychological Bulletin 47:
Cronbach, L.J. 1946 "Response sets and test validity". Educational and Psychological Measurement 6:
DeFleur, M.L., y F.R. Westie. 1958 "Verbal attitudes and overt acts: An experiment on the salience of attitudes". American Sociological Review 23
Deri, Susan, Dorothy Dinnerstein, J. Harding, y A.D. Pepitone. 1948 "Techniques for the diagnosis and measurement of intergroup attitudes and behavior". Psychological Bulletin 45:
Edwards, A.L. 1953 "The relationship between the judged desirability of a trait and the probability that the trait will be endorsed". Journal of Applied Psychology 37
Edwards, A.L 1957 The Social Desirability Variable in Personality Assessment and Research. Nueva York: Dryden Press.
Getzels. J.W. 1951 "The assessment of personality and prejudice by the method of paired direct and projective questions". Disertación doctoral inédita. Harvard University.
Hammond, K.R. 1948 "Measuring attitude by errorchoice: An indirect method". Journal of Abnormal and Social Psychology 43
Hess, E.H., y J.M. Polt. 1960 "Pupil size as related to interest value of visual stimuli" Science, 132:
Hovland, CA., y M. Sherif. 1952 "Judgmental phenomena and scales of attitude measurement: Item displacement in Thurstone scales". Journal of Abnormal and Social Psychology 47
Jones, E.r_., y Rika Kohler. 1958 "The effects of plausibility on the learning of controversial statements". Journal of Abnormal and Social Psychology 57
Kinsey, A.C., W.B. Pomeroy, y C.E. Martin. 1948 Sexual behavior in the Human Male. Filadelfia, Pa.
Levine, J.M., y G. Murphy. 1943 "The learning and forgetting of controversia¡ material". Journal of Abnormal and Social Psychology 38:
Manis, M. 1960 "The interpretation of opinion statements as a function of recipient attitude". Journal of Abnormal and Social Psychology 60:
Pettigrew, T.F., G.W. Allport, y E.0. Barnett. 1958 Binocular resolution and perception of race in South Africa". British Journal of Pi;ychology 49:
Proshansky, H.M. 1943 "A projectíve method for the study of attitudes". Journal of Abnormal and Social Psychology 38:
Riddleberger, Alice, B., y Annabelle B. Motz. 1957 "Prejudice and perception". American Journal of Sociology 62:
Seeleman, Virginia. 1940 "The influence of attitude upon the remembering of pictorial material". Archives of Psychology, Nueva York 36 (núm. 258).
Sherif, M. 1935 "A study of some social factors in perception". Archives of Psychology, Nueva York núm. 187.
Staton, H.R., y E. Litwak. 1955 "Toward the development of a short form test of interpersonal competence". American Sociological Review 20:
Taylor, J.B. 1961 "What do attitude scales measure: The problem of social desirability". Journal of Abnormal and Social Psychology 62:
Thistlethwaite, D. 1950 "Attitude and structure as factors in the distortion of reasoning". Journal of Abnormal and Social Psychology 45:
Volkova, B.D. 1953 "Some characteristícs of conditioned reflex formation to verbal stimuli in children". Sechenov Psychological Journal, URSS, 39:
Watson, G.B. 1925 "The measurement of fairmindedness". Teachers College, Columbia University Contributions to Education núm. 176.
Weiss, W, 1959 "The effects on opinions of a change in scale judgments". Journal of Abnormal and Social Psychology 58
Weschler, I,R, 1950 "An investigation of attitudes toward labor and management by means of the error-choice method". Journal of Social Psychology 32:
Weschler, I.R., y R.E. Bernberg. 1950 "Indirect methods of attitude measurement". lnternational Journal of Opinión and Attitude Research 4: 2
Westie, F. R. 1953 "A tech nique for the measurement of race attitudes". American Sociological Review 18:
Westie, F.R., y M.L. DeFleur. 1959 "Autonomic responses and their relationship to race attitudes". Journal of Abnormal and Social Psychology 58:

subir índice

	1	2	3	4	5	p_i	p²_i
1	0.09	.07	.05	.04	.08	.9	.81
2		.21	.11	.08	.14	.7	.49
3			.21	.07	.17	.7	.49
4				.24	.11	.6	.36
5					.16	.8	.64

	1	2	3	4	5	6	7	8	9
1	.534	.115	.168	.085	.118	.090	.167	.144	.129
2		.411	.114.	.062	.140	.080	.104	.065	.148
3			.814	.061	.118	.116	.177	.093	.272
4				.348	.087	.012	.103	.084	.054
5					.401	.072	.140	.123	.125
6						.465	.093	.052	.105
7							.645	.078	.127
8								.383	.093
9									.679