El Factor Humano en la Aviación

Archivo 2008

Virgen de Loreto

Patrona de la Aviación

Este espacio está reservado para los artículos ya publicados

Índice General Artículos

Articulo Diciembre 2008

UNA TÉCNICA PARA ELABORAR ESCALAS DE ACTITUDES (II)

TÉCNICAS DE INFORMES SOBRE SI MISMO

El diferencial semántico no se concibió originalmente para medir actitudes. El propósito inicial de Osgoad y colaboradores se encaminó hacia la exploración de las dimensiones del significado. Este esfuerzo fue alentado por el rápido perfeccionamiento de las computadoras que pronto se convirtieron en invaluable ayuda para los tediosos cálculos del análisis factorial. Que ha dado lugar al nuevo enfoque, en la semántica experimental, en la medición de actitudes.

El diferencia¡ semántico no mide las reacciones de los individuos a objetos semánticos. Esto se consigue por estimaciones del objeto sobre varias escalas sencillas de estimación, definidas por adjetivos bipolares; por ejemplo Bueno-Malo, Bonito-Feo, Caliente-Frio. Las estimaciones de cada objeto se correlacionan y analizan factorialmente para determinar las dimensiones del significado.

Numerosas repeticiones dé éste procedimiento han contribuido a demostrar la estabilidad de las tres dimensiones siguientes: la evaluativa; la de potencia y la de actividad. Teniendo en cuenta que la actitud comprende claramente una respuesta evaluativa con respecto a un objeto de actitud, la aplicación del diferencial semántico a la medición de actitudes se ha iniciado con gran entusiasmo. Osgood, Tanenbaum y Suci, en su libro "La medición del significado", definen su posición con respecto a la adaptación del diferencial semántico a la medición de actitudes.

Desde sus comienzos, el diferencial semántico ha cobrado extraordinaria popularidad entre los investigadores de la rama. Por ello no deja de causar cierta sorpresa el hecho de que nadie, hasta ahora, haya resumido y examinado críticamente su uso como método de medición de actitudes. A petición del director, David R. Heise escribió la revisión crítica. Esta es la única revisión completa de que se dispone hasta la fecha y, por lo mismo será especialmente útil para quienes se interesen por la aplicación del tan citado diferencial semántico.

¿Cómo se sabe si los reactivos seleccionados para una medición de actitudes basada en informes acerca de sí mismo reflejan la actitud que se supone están explorando? O, más sencillamente, ¿cómo puede establecerse si todos esos reactivos captan la misma dimensión de actitud, cualquiera que sea? La validez de contenido, o lógica, de los reactivos de una escala de reactivos múltiples se hace generalmente sobre una base a priori y a primera vista.

Mas adelante veremos dos métodos para establecer definiciones operacionales válidas de escalas de reactivos múltiples. Kerlinger y Kaya demuestran la utilidad del análisis factorial para probar la monodimensionalidad de los reactivos que se tenga planeado incluir en una escala. Lingoes da a conocer un procedimiento de computación para seleccionar grupos de reactivos monodimensionales a partir de una serie de reactivos dicotómicos que pueden tratarse posteriormente como una escala de Guttman.

Tradicionalmente, la medición de actitudes ha significado ubicar individuos a lo largo de un continuo único de actitud, generalmente sobre una dimensión evaluativa. De ahí los grandes esfuerzos que se han dedicado al desarrollo de escalas monodimensionales. Ha sido costumbre pensar que las personas son más o menos favorables, pro o anti, positivas o negativas, hacia determinado objeto de actitud.

Recientemente la atención se ha dirigido al estudio de cómo ubicar los objetos en un espacio multidimensional. Esta via es prometedora, si bien sus progresos han sido lentos tal vez por la preparación técnica que se requiere para ingresar al campo de la elaboración de escalas multidimensionales.

John Ross ha preparado una introducción, tan admirable como técnicamente exacta, a la elaboración de escalas multidimensionales. Naturalmente que tal clase de escalas no tiene por qué limitarse a los datos de informes sobre sí mismo. Como eñala Ross, puede esclarecer los aspectos teóricos de la actitud a la vez que mejorar la medición de actitudes.

Otra de las contribuciones recientes, digna de tenerse en cuenta dentro de la medición de actitudes, es el "Enfoque de juicio social - implicación", de Sherif y Sherif, que se basa en los hallazgos del estudio experimental del juicio -psicofísico y social- y en los de compromiso del si-mismo o del yo. Este enfoque permite tanto una estructura teórica de las actitudes, basada sólidamente en investigaciones experimentales, como una técnica interesante de medición. Y como tal merece atenta consideración por parte de los investigadores de actitudes.

MEDICIÓN DE ACTITUDES

Uno de los resultados secundarios pero importantes de la investigación en semántica experimental, es un nuevo enfoque y fundamento de la medición de actitudes. Ha sido posible identificar la "actitud" como una de las dimensiones importantes del significado general y con ello extender los procedimientos de medición del diferencial semántico a uno de los campos primarios de la psicología social.

Al trabajar en este campo con el mencionado diferencial se han encontrado evidencias de un principio general que gobierna algunos aspectos del proceso cognoscitivo o sea un principio de congruencia. Aunque la operación de este principio no se limita necesariamente a la dimensión actitudinal del espacio del significado, se encuentra primeramente relacionado con la investigación sobre medición de actitudes y, por consiguiente, se usa dentro de este contexto.

Una definición de actitud

A pesar de la gran cantidad de definiciones de "actitud" en la ciencia social contemporánea, es evidente cierto consenso y acuerdo, particularmente en lo que se refiere a las propiedades principales de aquéllas. La mayoría de las autoridades en la materia están de acuerdo en que las actitudes se aprenden y permanecen implícitas; son estados inferidos del organismo que, al parecer, se adquieren de manera muy semejante a como lo hacen otras actividades internas aprendidas. Son, al mismo tiempo, predisposiciones a responder; pero se distinguen de otros estados similares en que predisponen a una respuesta evaluativa.

Por tanto, las actitudes se describen como "tendencias de acercamiento o evitación", o como "favorables o desfavorables", y así sucesivamente. Esta noción se relaciona con otra opinión compartida: que las actitudes pueden adscribirse a un continuo básico bipolar, con un punto de referencia neutral o cero, lo que implica que tienen dirección e intensidad y a la vez proporcionan una base para obtener índices cuantitativos de ellas. Para usar una nomenclatura diferente, las actitudes son procesos implícitos que tienen propiedades recíprocamente antagónicas y que varían de intensidad.

Esta caracterización de la actitud como un proceso aprendido implícito, que es potencialmente bipolar, varía en su intensidad y media la conducta evaluativa, sugiere que la actitud es parte para algunos especialistas, la parte principal de la actividad interna de mediación que opera entre la mayoría de las estructuras de estímulo y de respuesta. Esta identificación de la actitud con la actividad mediatoria, ha sido hecha más explícita por Doob (1947), quien al situarla dentro de la estructura de la teoría hulliana de la conducta, la identificó con el "acto puro de estímulo" en tanto que mecanismo mediador.

Sin embargo, aunque deficiente, es esta una identificación y localización de la actitud en sí, dentro de este sistema general de actividad de mediación. Nuestro trabajo en la medición semántica parece sugerir tal identificación: si la actitud consiste en una porción de la actividad interna de mediación es, entonces, por inferencia de nuestro modelo teórico, parte de la estructura semántica de un individuo y puede indicarse en correspondencia. Luego, el análisis factorial del significado puede suministrar la base para extraer este componente actitudinal del significado.

En todos los análisis factoriales realizados hasta la fecha; ha aparecido invariablemente un factor de naturaleza evaluativa fácilmente identificable; por lo común, ha sido el factor dominante, que explica la mayor proporción de la varianza total. A pesar de los diferentes conceptos y criterios para seleccionar las escalas se obtuvieron consecuentemente valores altos y restrictivos en relación a este factor y con respecto a escalas como bueno-malo, justo-injusto y valioso-inútil, mientras que escalas que eran intuitivamente de naturaleza no evaluativa, como rápido-lento, estable-mudable y pesado-ligero, por lo común tuvieron valores pequeños o despreciables con respecto a este factor. Parece razonable identificar la actitud, como se concibe generalmente en el lenguaje común y corriente y en el científico, con la dimensión evaluativa del espacio semántico total, según se la aísla en la factorialización de juicios significativos.

Fundados en las operaciones de medida con el diferencial semántico, se ha definido el significado de un concepto como su ubicación en un punto del espacio semántico multidimensional. Seguidamente, se define la actitud hacia un concepto como la proyección de aquel punto sobre la dimensión evaluativa de dicho espacio. Obviamente, cada punto del espacio semántico tiene un componente evaluativo (aunque el componente puede tener magnitud cero, cuando los juicios evaluativos son neutrales) y, por consiguiente, cada concepto debe tener un componente actitudinal como parte de su significado total.

Esto no implica que la dimensión evaluativa o actitudinal sea inevitablemente estable en orientación con respecto a otras dimensiones del espacio; según sea el concepto o conjunto de conceptos que se juzguen, pueden hacerse rotar escalas "puramente" evaluativos, como bueno-malo, de manera que queden alineadas con el factor de potencia, el factor de "adiencia sensorial",, factor que dispone al organismo a la acción continua de un estímulo y así sucesivamente. En otras palabras, el tipo de evaluación puede cambiar con el marco de referencia determinado por los conceptos (por ejemplo, político, estético, etc.).

Procedimiento de medición con el diferencial semántico

Conforme a la definición y fundamento dados anteriormente para medir la actitud, se usarían grupos de escalas con valores altos del factor evaluativo a través de conceptos con valores despreciables de otros factores, según lo determinaran nuestros diferentes estudios de análisis factorial. Así, se usarían escalas como bueno-malo, optimista-pesimista y positivo-negativo y no escalas como tierno-cruel, fuerte-débil o bello-feo, porque éstas resultarían generalmente menos evaluativas a medida que se hace variar el concepto que se juzga.

Sin embargo, dado que el trabajo de factorialización de concepto a concepto en que se basan los principios presentes no se realizó en el momento en que se emprendieron la mayoría de las medidas de actitud no siempre se cumplieron este criterio ideal. Para propósitos de consistencia de calificación, se asignan uniformemente a los polos desfavorables de nuestras escalas evaluativas (por ejemplo, molo, injusto, insignificante, etc.) la puntuación "1 " y a los polos favorables (bueno, justo, valioso) la puntuación "7", esto independientemente de la presentación de las escalas a los sujetos en el diferencial gráfico, donde deben distribuirse aleatoriamente respecto a la dirección.

A continuación se suman simplemente todas las estimaciones evaluativas para obtener la "puntuación" de actitud. Un método más afinado sería valorar cada escala con base en su carga de factor evaluativo con respecto a los conceptos que se juzgan; pero esto sería sumamente laborioso y, si las escalas son "puramente" evaluativas, como se definieron arriba, es seguro que se mejoraría muy poco la precisión del instrumento. También debe señalarse que en la práctica incluimos por lo común un número considerable de escalas que representan otros factores; se hace esto tanto para oscurecer el propósito de la medición como para proporcionar información adicional sobre el significado del concepto como un todo, además de la actitud hacia él.

Las propiedades principales de la actitud que se espera indique cualquier técnica de medición se estudian cómodamente por este procedimiento. La dirección de la actitud favorable o desfavorable, queda indicada sencillamente en términos bipolares; si la puntuación cae más cerca de los polos favorables, entonces se considera favorable la actitud, y viceversa. Una puntuación que cae en el origen, definido por el "4" de las escalas, se considera un índice de neutralidad de la actitud. La intensidad de la actitud se indica por la distancia al origen de la puntuación sobre la dimensión evaluativa; es decir, por la polarización de la puntuación de actitud.

Aunque en una escala existen solamente tres niveles de intensidad, "ligeramente", "bastante", y "extremadamente", en cualquier dirección, la suma en varias escalas evaluativas produce grados más afinados de intensidad. Por ejemplo, si se usan seis escalas tenemos una amplitud de puntuaciones posibles desde seis (la más desfavorable), pasando por 24 (exactamente neutral) hasta 42 (la más favorable), aparte de 18 grados de intensidad de puntuación de actitud en cada dirección. Con base en un trabajo anterior Katz, y Cantril, se supuso que una puntuación neutral es de intensidad mínima en cuanto a actitud. La monodimensionalidad de la escala de actitud resulta automáticamente de los procedimientos analítico factoriales a partir de los cuales se seleccionan las escalas.

Si las escalas usadas se seleccionan teniendo en cuenta que todas tienen valores puros y altos del mismo factor -idealmente mantienen esta consistencia a través de varios análisis factoriales- debe lograrse monodimensionalidad. En otras palabras, el análisis factorial es, en sí mismo, un método para probar la monodimensionalidad de los reactivos o escalas que forman un test.

Evaluación del diferencial como medida de actitud

Confiabilidad.

Tannenbaum (1953) obtuvo datos de confiabilidad test-retest. Empleando seis conceptos (Lideres sindicales, "The Chicago Tribune", Senador Robert Taft, Apuestas legalizadas, Arte abstracto y Programas universitarios acelerados) fueron juzgados en relación a seis escalas evaluativas (bueno-malo, justo-injusto, valioso-insignificante, sabroso-desagradable, limpio sucio y placentero-molesto) por 135 sujetos en dos ocasiones separadas entre sí por cinco semanas.

Se computaron puntuaciones de actitud sumando las seis escalas, después de realinearlas de acuerdo con una dirección evaluativa constante. Los coeficientes de test-retest variaron desde .87 a .93, con una r media (computada por medio de la transformación z) de .91. En otro estudio, se obtuvieron datos adicionales de confiabilidad, que confirman estos; aparecen en la tabla 1.

Tabla 1.- Coeficientes de confiabilidad de las puntuaciones de actitud del diferencial semantico (D) y de las puntuaciones de las escalas de Thurstone (T). Los subíndices 1 y 2 se refieren al primero y segundo examen

Objeto de actitud r_s1t₁ r_s2t₂ r_t1t2 r_s1s2

La iglesia .74 .76 .81 .83

La pena capital .81 .77 .78 .91

Los negros .82 .81 .87 .87

Validez.

La dimensión evaluativa del diferencial semántico muestra una validez bastante razonable como medida de actitud. Por ejemplo, Suci (1952) pudo diferenciar entre etnocéntricos altos y bajos, determinados independientemente a partir de la escala E de los estudios de personalidad autoritaria, con base en sus estimaciones de varios grupos étnicos en las escalas evaluativas del diferencial.

Similarmente, se encontró que las estimaciones de las escalas evaluativas discriminan en las formas esperadas entre matices de preferencia política, en un estudio de Suci de la conducta del votante y en un estudio de simbolismo pictórico político de Tannenbaum y Kerrick.

Sin embargo, a diferencia de la medida del significado en general, en el caso de la actitud tenemos otros instrumentos de medida desarrollados independientemente y con respecto a los cuales se puede evaluar esta técnica.

Veamos dos de estas comparaciones; la primera, con las escalas de Thurstone; y la segunda, con una escala del tipo de Guttman.

Comparación con los escalas de Thurstone.

Se evaluaron tres conceptos (Los Negros, La Iglesia y La pena capital) con respecto a una serie de escalas, que incluían cinco puramente evaluativas (justo-injusto, valioso-insignificante, placenter-omolesto, limpio- sucio y bueno-malo). Además, los sujetos indicaron sus actitudes en escalas de Thurstone diseñadas especialmente para medir estos objetos de actitud ; la escala estándar para la iglesia, la forma B de la escala de los negros y la forma A de la escala de la pena capital de Thurstone.

Los sujetos fueron divididos en dos grupos antes de someterlos a las pruebas: a uno de los grupos (N=23) se le dio primero la forma del diferencial semántico; y una hora después los tests de Thurstone. El otro grupo (N=27) recibió las mismas pruebas pero en orden contrario. Dos semanas después de esta sesión inicial, a los sujetos se les aplicaron nuevamente ambos tests, pero en esta ocasión se invirtieron los órdenes respectivos. La segunda sesión se llevó a cabo para obtener información de confiabilidad sobre ambos tipos de instrumentos de medición de las actitudes.

Las columnas (1) y (2) de la tabla 1 muestran las correlaciones momento-producto entre las puntuaciones escalares del diferencial semántico (d) y de Thurstone (t) con respecto a tres objetos de juicio, en la sesión inicial de examen (r_d1t1,) y en la segunda sesión (r_d2t2); en las columnas (3) y (4) se ofrecen los coeficientes de confiabilidad de test-retest con respecto a las escalas de Thurstone (r_t1t2) y las puntuaciones evaluativas en el diferencial (r_d1d2), nuevamente para cada uno de los tres conceptos juzgados.

Puede verse que las confiabilidades de los dos instrumentos son altas y equivalentes. La correlación entre las puntuaciones del diferencial semántico y las puntuaciones correspondientes de Thurstone es significativamente más grande de la que podría atribuirse al azar (p < .01) en cada caso; y en ninguno de estos la correlación entre las técnicas fue significativamente menor que el coeficiente de confiabilidad del test de Thurstone.

Las diferencias en las correlaciones entre ambas técnicas, de la primera a la segunda sesión de examen, están dentro de los límites del azar. Claro está que cualquiera que sea lo que midan las escalas de Thurstone, el factor evaluativo del diferencial semántico mide más o menos lo mismo. Ciertamente, cuando los seis coeficientes de validez se corrigen por atenuación, se elevan a .90 o más.

Comparación con una escala de Guttman.

En una revisión para examinar la validez del factor evaluativo del diferencial como medida de actitud en contraste con una escala del tipo de Guttman. Se construyó una escala de 14 reactivos, del tipo Guttman (coeficiente de reproductibilidad de .92), con gran inversión de tiempo y trabajo, para evaluar las actitudes de los agricultores hacia la práctica agrícola de la rotación de cultivos. Aproximadamente al mismo tiempo se usó el diferencial semántico en conexión con una serie de programas de televisión que trataban de prácticas agrícolas y uno de los conceptos incluidos fue la rotación de cultivos.

Aunque estos estudios se realizaron independientemente, se encontró que 28 sujetos habían sido sometidos a ambos instrumentos de examen. La escala de Guttman se había aplicado primero en todos los casos y el lapso entre los dos exámenes varió considerablemente, desde solo tres días hasta casi cuatro semanas. Con las puntuaciones de actitud, en el diferencial, obtenidas sumando las tres escalas evaluativas que se emplearon (bueno-malo, justo-injusto y valioso-insignificante) la correlación de orden de rango entre los dos instrumentos fue muy significativa (rho = .78; p < .01). Por lo que se puede decir que la escala de Guttman y las escalas evaluativas del diferencial miden en alto grado la misma cosa.

Los resultados de estos dos estudios corroboran la noción de que el factor evaluativo del diferencial semántico es un índice de actitud. Además, es un método de evaluación de actitudes relativamente fácil de aplicar y calificar. Aunque no explora mucho el contenido de una actitud en el sentido del significado denotativo (por ejemplo, las reacciones específicas que presentarían personas con diferentes actitudes, las aseveraciones específicas que podrían aceptar), parece proporcionar un índice de la ubicación del objeto de actitud a lo largo de un continuo evaluativo general. Si el diferencial semántico en conjunto puede proporcionar un cuadro de mayor riqueza del significado del objeto de actitud que la dimensión evaluativa solamente en conjunto puede proporcionar un cuadro de mayor riqueza del significado del objeto de actitud que la dimensión evaluativa solamente, en un punto que se verá mas tarde.

subir índice

Articulo Noviembre 2008

UNA TÉCNICA PARA ELABORAR ESCALAS DE ACTITUDES (II)

Análisis de reactivos

Los 83 reactivos se adaptaron a respuestas del tipo de Likert. Cada uno de ellos fue seguido por una escala obligatoria de 6 puntos (completamente de acuerdo, de acuerdo, ligeramente de acuerdo, ligeramente en desacuerdo, en desacuerdo, completamente en desacuerdo). Se pidió a los sujetos que marcaran en cada reactivo la expresión que describiera mejor su propia actitud hacia aquél. En total, 355 sujetos llenaron el cuestionario: 245 de clases de sociología, psicología e idiomas, de la Universidad de Washington; 60 de una preparatoria local y 50 de una escuela de policías. De los 355 cuestionarios quedaron 346, porque 9 de ellos estaban incompletos o tenían más de una respuesta en algún reactivo.

La calificación se hizo de acuerdo con el método general de Likert, asignándose valores de 0 a 5 a las 6 categorías de respuesta; el valor 5 fue para la respuesta completamente de acuerdo, en el caso de reactivos que expresaban una opinión favorable sobre la ciencia; y también para la respuesta completamente en desacuerdo en los reactivos que expresaban una opinión desfavorable sobre la ciencia. En cuanto a los 6 reactivos dentro del intervalo escalar de 4.0 a 4.9, la asignación de valores se hizo basándose en que el valor escalar del reactivo fuera mayor o menor que 4.5.

A cada sujeto se le sumaron los valores de las respuestas en los 83 reactivos individuales y se dibujó una distribución de frecuencia de las puntuaciones resultantes. La amplitud obtenida de las puntuaciones fue solamente el 64% de la amplitud posible (la obtenida de 140-405, la posible de 0-415) con una gran giba en el extremo superior (favorable) de la distribución.

Se escogieron dos grupos de criterio, aproximadamente el 27% superior e inferior, sobre la base de las puntuaciones totales. La amplitud de las puntuaciones con respecto a los 94 cuestionarios inferiores fue de 140 a 300 y los 94 superiores tuvieron puntuaciones desde 343 hasta 405. Las 83 aseveraciones se sometieron entonces a análisis de reactivos. Para cada una, se tabularon las frecuencias en cada una de las categorías de respuesta tanto para el grupo superior como para el inferior. Las 6 categorías se redujeron a 2, combinando las categorías 0, 1, 2, 3 y 4. Esta agrupación fue necesaria porque los sujetos dieron respuestas predominantemente favorables a los reactivos. Si el universo de contenido hubiera sido la actitud hacia los sindicatos, se hubiera esperado una distribución más simétrica de las respuestas y, consecuentemente, una agrupación diferente de las categorías. A partir de las tablas de 2 x 2 resultantes, se calcularon los coeficientes fi (11) (Φ), que variaron desde 16 a 0.78. Los nomogramas de Guilford y las tablas preparadas por Jurgensen simplifican estos cálculos.

Los 83 reactivos se dibujaron en una distribución bivariada con los valores (Φ) sobre el eje Y y los valores escalares sobre el eje X. Una gráfica de los valores de fi, en contraste con los valores de Q, no indicó relación discernible; y la variabilidad dentro de las columnas fue aproximadamente igual a la variabilidad total. Esto indicaría que en el procedimiento de discriminación escalar seguido, el análisis de fi vigoriza el proceso de selección de reactivos cuando se usan reactivos con valores de Q semejantes. En este momento se han eliminado ya el 50% de los reactivos con los valores de Q mayores.

Se seleccionaron de cada mitad del intervalo escalar los 4 reactivos con los mayores coeficientes fi; debido a los huecos mencionados en el continuo de la escala solamente se abarcaron los intervalos entre .5 y 2.5 y entre 6.5 y 8.0. No se seleccionaron reactivos entre los controles "neutrales" en el intervalo escalar de 4.0 a 4.9. Los 28 reactivos así seleccionados se asignaron a las formas A y B de los cuestionarios, alternándose los valores escalares entre ambas formas.

Las escalas finales fueron de 14 reactivos cada una, con reactivos aproximadamente iguales en cuanto a valores escalares de Thurstone, valores Q y valores fi. En las formas A y B, respectivamente, los valores escalares medios de los 14 reactivos fueron 3.85 y 3.91, los valores Q medios fueron .90 y .92. Los coeficientes fi de los reactivos, en la forma A, variaron entre .58 y .78 con un valor mediano de .65; en la forma B variaron desde .58 a .76 con un valor mediano de .66. Solamente 1 de los 10 reactivos de control restantes tuvo un valor fi por encima de .58. Fue precisamente uno de los 6 reactivos "neutrales" el que tuvo un valor fi de .61. Los demás reactivos de control serían rechazados según el criterio fi.

CONFIABILIDAD Y REPRODUCTIBILIDAD DE LA ESCALA

El coeficiente de confiabilidad de las dos formas de la escala, de 14 reactivos, cada una, calculado según las respuestas de 248 sujetos nuevos fue de .81, no corregido. Para ambas formas del test se restringió completamente la amplitud de las puntuaciones, de 30 a 70 en cada caso, con amplitudes posibles de 0 a 70. Dentro de esta amplitud restringida se presentó una giba en el extremo superior o favorable. La puntuación media con respecto a la forma A fue de 58.22 y la desviación estándar de 7.33. En cuanto a la forma B, la media fue de 57.20 y la desviación estándar de 7..79.

Se realizó el análisis escalar basado en la ejecución de una muestra de 87 sujetos extraídos de un grupo mayor de 248, en ambas formas del test por medio de la técnica de Cornell (11). Se obtuvo un coeficiente de reproductibilidad de 87.5% con respecto a la forma A y un coeficiente de 87.2% para la forma B. Las categorías de respuesta en cada caso se dicotomizaron.. Se establecieron puntos de corte y se observo la regla de Guttman de que "ninguna categoría debe tener mayor número de errores que de aciertos". La amplitud de la categoría de respuesta modal fue de .51 a .82 en la forma A. El valor medio de las categorías modales, .57, que es el valor mínimo del coeficiente de reproductibilidad para este conjunto de reactivos en la muestra usada, puede compararse con el coeficiente observado de reproductibilidad del 87.5%. Este es el límite inferior porque la reproductibilidad de cualquier reactivo no puede ser menor que la frecuencia de la categoría modal. El método para computar el valor mínimo del coeficiente supone independencia entre los reactivos. En cuanto a la forma B, la amplitud de las categorías modales fue de .52 a .67. El valor medio, que es nuevamente el límite inferior del coeficiente de reproductibilidad, fue de .57, mientras que el valor observado del mismo coeficiente fue del 87.2%.

Los dos valores observados del coeficiente de reproductibilidad son suficientemente altos para ofrecer pruebas de que una sola variable dominante está comprendida en los grupos de reactivos o que, dicho de otra manera, existe monodimensionalidad. Se dice que tales grupos de reactivos son adaptables a una escala o que constituyen una escala. Los coeficientes de reproducibilidad también significan que es posible reproducir las respuestas a los reactivos a partir de las puntuaciones de orden jerárquico con el grado de exactitud indicado por el valor de aquellos mismos.

El error de reproductibilidad presente es sencillamente igual a 1.00 menos el coeficiente observado de reproductibitidad. Si puede suponerse que tal error es al azar, entonces estos grupos de reactivos poseen una propiedad importante: la simple correlación entre las puntuaciones de orden jerárquico y un criterio externo será igual a la correlación múltiple entre los reactivos y el criterio externo. Y esto, a su vez, significa que la eficiencia de la predicción se hace máxima por la simple correlación.

Sería igualmente verídico que en el caso de grupos de reactivos que satisfacen los criterios exigidos para las escalas, la interpretación de las puntuaciones de orden jerárquico no es ambigua, y que es posible hacer afirmaciones significativas tocante a que un sujeto es superior (más favorable) que otro en la variable en cuestión. En el caso de escalas perfectas, donde el coeficiente de reproductibilidad es la unidad, se infiere igualmente que un individuo con una puntuación de orden jerárquico baja no daría una respuesta más favorable a cierto reactivo que cualquier persona con una puntuación de orden jerárquico más alta.

Esto no sería cierto en un test que incluyese más de una variable. Supongamos, por ejemplo, que un test comprende dos variables. Entonces un sujeto puede obtener determinada puntuación superior en una variable e inferior en la otra. Otro sujeto podría obtener la misma puntuación y ser superior en la segunda variable e inferior en la primera. A partir de las puntuaciones de orden jerárquico únicamente, sería imposible indicar las posiciones relativas de los sujetos en las dos variables; y, por tanto, es ambigua la interpretación de la puntuación compuesta. Podrían hacerse afirmaciones de "mayor y menor que"; pero no sabriamos a qué se referiría el "mayor y menor que", porque al incrementar o disminuir el número de reactivos relacionados con una de las variables, podrían alterarse las puntuaciones de orden jerárquico de los sujetos, no significa esto que las escalas multidimensionales carezcan de valor. Esto no sería verdadero en un test donde todos los reactivos pertenecieran a un sólo continuo, es decir, en un test monodimensional. En tal tipo de test, el incremento del número de reactivos no cambiaría las puntuaciones jerárquicas de los sujetos.

RESUMEN

Al método de discriminación escalar descrito ha recibido el nombre, por usar el procedimiento de elaboración de escalas de Thurstone; y reserva el procedimiento de Likert para evaluar el poder discriminativo de los reactivos individuales. Además, los reactivos seleccionados por el método de discriminación escalar, producen coeficientes de reproductibilidad satisfactorios y satisfacen los requisitos del análisis escalar de Guttman. El método de discriminación escalar es esencialmente una síntesis de los métodos de evaluación de reactivos de Thurstone, Likert y Guttman. También posee ciertas ventajas que no están presentes en ninguno de estos métodos, considerados separadamente.

Por ejemplo el método de discriminación escalar elimina los reactivos menos discriminantes en una muestra grande, tarea en la que falla el metodo de Thurstone solo. El problema no resuelto en el procedimiento de Thurstone es el de seleccionar dentro de cada intervalo escalar los reactivos más discriminantes. Los reactivos dentro de cualquier intervalo escalar pueden presentar un alto grado de variabilidad con respecto a una medida de discriminación. Por ejemplo, encontramos dentro de un sólo intervalo reactivos con valores fi que van desde .24 a .78. Que el criterio Q de Thurstone no ayuda materialmente a la selección de los reactivos discriminantes, lo índica la gráfica de los valores de fi contra los valores de Q, después que se ha rechazado el 50% de los reactivos con los valores Q mayores. En tal circunstancia, los reactivos con valores de Q, desde 1.00 hasta 1.09, tuvieron valores fi que oscilaban entre .32 y .76. El método de Thurstone, por la inclusión de reactivos "neutrales", tiende también a disminuir la confiabilidad y la reproductibilidad del grupo de reactivos seleccionado finalmente.

Por tanto, cuando seleccionamos reactivos únicamente por la técnica de Thurstone, no tenemos base para seleccionar reactivos con valores escalares y valores Q semejantes, pese a que estos reactivos no sean igualmente valiosos para la medición de actitudes. Disponiendo de alguna medida del poder discriminante de los reactivos, la selección se vuelve objetiva así como ventajosa por lo que se refiere a la escala misma.

La ventaja del método de discriminación escalar con respecto al procedimiento de Guttman se basa esencialmente en el hecho de qué hemos suministrado una base objetiva para la selección de un conjunto de reactivos que después son examinados en cuanto a su adaptabilidad a la escala. Es posible que el método de discriminación escalar no siempre produzca un conjunto de reactivos con un coeficiente de reproductibilidad satisfactorio. Pero ésta no es una objeción mayor a la técnica, sino tan sólo la manifestación del hecho de que un conjunto de reactivos seleccionados intuitivamente no siempre será adaptable a una escala. Al parecer, el método de discriminación escalar ofrece mayor garantía de factibilidad de una escala que cualquier técnica intuitiva, como la aplicada por Guttman.

Además, el conjunto de reactivos seleccionado por la técnica de discriminación escalar suministra una amplitud mayor de contenido que los reactivos intuitivos de Guttman. Por el método de discriminación escalar, obtenemos reactivos que no son primordialmente expresiones múltiples de la misma pregunta, como a menudo sucede cuando la selección de un conjunto de reactivos que van a ser examinados en cuanto a su adaptabilidad a la escala se deja a la experiencia del investigador.

BIBLIOGRAFIA

Ballin, M., y P.R. Farnsworth. 1941 "A graphic rating method for determining the scale values of statements in measuring social attitudes". Journal of Social Psychology 13

Clark, K.E., y P.H. Kreidt. 1947 "An application of Guttman's new scaling techniques to an attitude questionnaire". Educational and Psychology Measurement, 1948 8, verano, núm. 2.

Edwards, A.L., y K.C. Kenney. 1946 "A comparison of the Thurstone and Likert trchniques of attitude scale constructíon". Journal of Applied Psychology 30.

Edwards, A.L. 1946 "A critique of "neutral" items in attitude scales constructed by the method of equal appearing intervales". Psychological Review 53

Edwards, A.L., y F.P. Kilpatrick. 1947 "The scale-discrimination method for measuring social attitudes". American Psychologist 2:

Edwards, A.L., y F.P. Kilpatrick. 1948 "Scale analysis and the measurement of social attitudes". Psychometrika 13, junio.

Festinger, L. 1947 "The treatment of qualitative data by "scale analysis". Psychological Bulletin 44.

Guilford, J.P. 1941 "The phi coefficient and chi-square as indices of item valid. Psychometrika 6

Guttman, L. 1944 "A basis for scaling qualitative data". Amerícan Sociological Review 9

Guttman, L. 1945 "Questions and Answers About Scale Analysís". Research Branch, Information and Education Division, Army Service Forces, Report D-2.

Guttman, L. 1946 "The Cornell technique for scale and intensity analysis".

Guttman, L. 1947 "On Festinger's evaluation of scale analysis". Psychological Bulletin 44.

Jurgensen, C.E. 1947 "Table for determining phi coefficients". Psychometrika 12.

Likert, R. 1932 "A technique for the measurement of attitudes". Archives of Psychology. Nueva York, núm. 140.

Seashore, R.H., y K. Hevner, 1933 "A time-saving device for the construction of attitude scales" Journal of Social Psychology 4.

Thurstone, L.L., y E.J. Chave. The Measurement of Attitude. Chicago, University of Chicago Press.

subir índice

Articulo Octubre 2008

UNA TÉCNICA PARA ELABORAR ESCALAS DE ACTITUDES (I)

En artículos anteriores, se ha pasado revista a varios de los métodos que se siguen para elaborar escalas de actitudes; el método de intervalos aparentemente iguales, desarrollado por Thurstone; el método de estimaciones sumatorias, desarrollado por Likert y el método de análisis escalar creado por Guttman. El método de intervalos aparentemente iguales y el de estimaciones sumatorias son similares en cuanto que suministran técnicas para seleccionar, de un numero grande de reactivos, un conjunto que constituye el instrumento de medida. El análisis escalar difiere de estos dos métodos en que se ocupa de la evaluación de un conjunto de reactivos, después de que estos, de uno u otro modo, ya han sido seleccionados.

En el método de intervalos aparentemente iguales, un grupo de peritos clasifica reactivos de opinión en 9 u 11 categorías que constituyen un continuo que varia de desfavorable a favorable. El valor escalar de cada reactivo se determina por el punto del continuo, por encima y por debajo, en el cual el 50% de los peritos colocan tal reactivo. La dispersión de las estimaciones de los peritos se mide por Q, la amplitud intercuartilar. Un valor de Q alto para un reactivo indica que los peritos están en desacuerdo con la ubicación del reactivo en el continuo, lo que a su vez significa que el reactivo es ambiguo. Tanto los valores de Q como los escalares se usan en la selección de reactivos para el test de actitud. Con tal propósito se seleccionan aproximadamente 20 reactivos con valores escalares espaciados igualmente a lo largo del continuo y con valores de Q pequeños. Se determinan las puntuaciones del test hallando la mediana de los valores escalares de los reactivos con los que esta de acuerdo el sujeto.

En el método de estimaciones sumatorias se seleccionan reactivos con un criterio de consistencia interna. Los sujetos indican si están: completamente de acuerdo, de acuerdo, en duda, en desacuerdo o completamente en desacuerdo, con cada reactivo. Se asignan valores numéricos a estas categorías de respuesta usando los enteros sucesivos de 0 a 4; el valor más alto se asigna consecuentemente a la categoría que indica la actitud más favorable. Se selecciona un grupo superior y uno inferior, con base en las puntuaciones totales obtenidas de la suma de los valores de los reactivos. Después se comparan las respuestas de estos dos grupos en los reactivos individuales; y los 20 reactivos más discriminantes o poco más o menos se seleccionan para el test de actitud. Una puntuación de actitud en este test se determina sumando los valores asignados a las respuestas del sujeto a los 20 reactivos.

En el análisis escalar, se prueba un conjunto completo de reactivos para determinar si, como grupo, constituyen una escala en el sentido de que a partir de la puntuación de orden jerárquico sea posible reproducir la respuesta de un sujeto a los reactivos individuales. El grado en que esto es posible se expresa por el coeficiente de reproductibilidad. Aunque ordinariamente Guttman emplea de 10 a 12 reactivos, para explicar con claridad ate coeficiente supongamos que tenemos tres reactivos, cada uno con sólo dos categorías de respuesta: de acuerdo y en desacuerdo. Supondremos que la respuesta "de acuerdo", en cada caso, representa una actitud favorable y la respuesta "en desacuerdo" una actitud desfavorable. Se asigna el valor 0 a la respuesta en desacuerdo y el valor 1 a la respuesta de acuerdo. Supongamos también que con respecto al primer reactivo tenemos en nuestra muestra 10 sujetos con valor 1, y 90 con valor 0; con respecto al segundo reactivo tenemos 20 sujetos con valores de 1, y 80 con valores de 0; y para el tercer reactivo tenemos 40 con valores de 1, y 60 con valores de 0.

En el caso de reproductibilidad perfecta, los 10 sujetos con valor 1 en el primer reactivo serán los 10 sujetos con las puntuaciones de orden jerárquico más altas. Estos 10 sujetos también estarán comprendidos en los 20 que tienen valor 1 en el segundo reactivo; y estos 20 a su vez estarán comprendidos en los 40 que tienen valor 1 en el tercer reactivo. En la misma forma sería cierto que solamente se presentarían 4 patrones de respuesta de reactivo, si el conjunto de estos fuera perfectamente reproductible. Tocante a la muestra disponible, los patrones y puntuaciones asociadas a ello; serían: AAA-3; DAA-2; DDA-1; DDD-0. Establecido que todas las respuestas podrían predecirse perfectamente a partir de las puntuaciones, en este caso, el coeficiente de reproductibilidad sería del 100%. Sin embargo, rara vez se obtiene una reproductibilidad perfecta y en la práctica se considera satisfactorio un coeficiente del 85% o más, para que un conjunto de reactivos constituya una escala. Se han desarrollado varias técnicas para computar el coeficiente de reproductibilidad, que han sido documentadas por Festinger, Clark y Kreidt y Guttman.

Además del coeficiente de reproductibilidad (10, 12), existen otros criterios que se aplican para determinar si un conjunto de reactivos constituye una escala. Sin embargo, poco se ha publicado tocante a los casos en que se han aplicado empíricamente estos criterios a un conjunto concreto de datos. El coeficiente de reproductibilidad ha sido destacado en todas las publicaciones de Guttman, quizá porque se considera una condición primaria e inevitable, pero insuficiente, de una escala.

El análisis escalar, en el sentido antes mencionado, se convierte entonces en una técnica secundaria dentro del problema de la selección de reactivos; esto no niega la importancia de la teoría que fundamenta el análisis escalar. Lo importante es obtener un conjunto de reactivos que den alguna seguridad al investigador de que formarán una escala cuando se aplique una técnica particular para probar su adaptabilidad a una escala. Hasta época reciente, el problema de la selección de reactivos en el análisis escalar parece haberse dejado a la intuición y experiencia del investigador. Las únicas reglas prácticas sugieren que uno debe expresar, sencillamente, la misma pregunta, de maneras ligeramente diferentes, o que uno debe buscar reactivos cuyo contenido sea lo más homogéneo posible.

Esta última recomendación implica que, si estuviéramos interesados en el problema de la actitud hacia los negros, deberíamos dividir este universo de contenido en subuniversos que constituyeran tal vez áreas tales como la actitud hacia los negros en restaurantes; la actitud hacia los negros como residente en la comunidad, como votantes y como patrones; la actitud hacia los negros en los transportes públicos y así sucesivamente. Pero aún aquí encontramos que la actitud hacia los negros, digamos en los transportes públicos, puede dividirse en áreas de contenido aún más homogéneas al especificar los transportes: tranvías, autobuses, trenes, aviones, etc. Cada una de estas áreas de contenido quizás pueda dividirse en otras aún más homogéneas y vendríamos a terminar seguramente como !o indica Festinger, con múltiples expresiones de la misma pregunta; y así nuestras dos reglas no son sino una.

Cualquier técnica que nos permitiera seleccionar un conjunto de reactivos del conjunto más grande de posibles reactivos, con cierta seguridad en que el conjunto seleccionado llenaría los requisitos del análisis escalar, sería de gran valor. En este artículo se describe una técnica que ha tenido éxito en la tarea. Por razones que se conocerán más adelante, hemos llamado a esta técnica "método de discriminación escalar para elaborar escalas de actitud".

LA TÉCNICA DE DISCRIMINACIÓN ESCALAR

El método de discriminación escalar se basa en investigaciones previas que mostraron que el punto de corte (el punto de corte de un reactivo indica el lugar de las puntuaciones de orden jerárquico de los sujetos donde la respuesta más común cambia de una categoría (de acuerdo) a la siguiente (en desacuerdo). Entre los puntos de corte de una escala perfecta, todas las respuestas caen en la misma categoría.), de un reactivo está relacionado con el valor escalar thurstoniano del reactivo; y que su reproductibilidad (la reproductibilidad de un reactivo se mide por el grado en que pueden reproducirse las respuestas al reactivo a partir de las puntuaciones de orden jerárquico de los sujetos) se vincula con su poder discriminativo.

Este, como ya se hizo notar, no es, contra lo que pudiese parecer a primera vista, solamente una función del valor escalar del reactivo. Puede demostrarse expeditamente que reactivos con valores escalares thurstonianos y valores de Q semejantes pueden diferir grandemente en su eficacia para diferenciar los que tienen actitudes favorables de los de actitudes desfaborables. Por ejemplo, el reactivo extremo: "Todos los xxxx deben ser ejecutados" indudablemente presentaría un valor escalar en un extremo del continuo y un valor Q claramente pequeño. Pero este reactivo no establecerá diferencia entre los que tienen actitudes favorables o desfavorables hacia los xxxx por la evidente razón de que ambos grupos probablemente reaccionarían a él del mismo modo.

Se reunieron aseveraciones de opinión sobre ciencia, de muy diversas fuentes. Se consultaron libros y ensayos. Se pidió a individuos que expresaran sus opiniones en breves afirmaciones escritas; y se lograron reunir 266 aseveraciones sobre el particular. En la edición de estos reactivos, se atendió especialmente a la eliminación de aquellos reactivos que:

eran propensos a ser ratificados por individuos con actitudes opuestas;
se referían a hechos precisos o podían interpretarse como tales;
obviamente no tenían relación con el asunto considerado;
parecía probable que todos o ninguno los ratificara;
parecían estar sujetos a varias interpretaciones por alguna razón;
contenía una o varias palabras no corrientes en el vocabulario de los estudiantes universitarios.

Gracias al cuidado con que se realizó la recolección y la edición de las aseveraciones, la mayoría de las 155 seleccionadas finalmente expresaron una opinión claramente favorable o desfavorable hacia la ciencia.

Otros 13 reactivos, que pudiésemos llamar de control, se agregaron a los 155 originales. Estos 13 últimos se agregaron para determinar lo que les sucedía a lo largo de las diferentes etapas del método de discriminación escalar. De los 13 reactivos, 7 se juzgaron "neutrales", en el sentido de Thurstone; 2 podían interpretarse como relativos a hechos precisos; uno se consideró demasiado extremo para recibir muchas ratificaciones, otro se juzgó ambiguo porque las palabras "scientific holiday" (festividad científica) podrían interpretarse como una moratoria o como una celebración; otro más se consideró ambiguo porque comprendía más de una dimensión; y un último se consideró inadecuado. Había, en consecuencia, 168 reactivos que se emplearon para probar el método de discriminación escalar de elaboración de escalas. Debe recalcarse que la inclusión de reactivos de "control" no se considera parte del procedimiento de discriminación escalar

Determinación de los valores escalares y valores Q de los reactivos

Se prepararon sobres numerados del 1 al 110. En cada sobre se colocó un conjunto de tarjetas de 8 x 12 cm. marcadas con las letras A, B, C, D, E, F, G, H, I y un paquete de tiras de papel de 5 X 10 cm aproximadamente. En cada tira de papel, se imprimió uno de los 168 reactivos junto con el número del reactivo. En cada caso se barajó el paquete de tiras de modo que los reactivos quedaran absolutamente desordenados. Se entregaron los sobres a un grupo de estudiantes de la clase de psicología elemental, junto con las instrucciones que describen el procedimiento de clasificación de Thurstone, y se les pidió que clasificaran los reactivos de acuerdo con las instrucciones.

Se examinaron las clasificaciones de cada sujeto y se descartaron aquéllos cuyas clasificaciones presentaban inversiones obvias del continuo o que no atendieron las instrucciones. Sobre esta base se quedaron con 82 grupos de juicios.

Se tabularon las frecuencias de juicio en cada una de las 9 categorías con respecto a cada reactivo; se transformaron en frecuencias acumulativas y después en proporciones acumulativas, ( Esta tarea fue muy laboriosa. Casi 14000 tiras de papel tuvieron que clasificarse para después ser tabuladas. Algunas técnicas de juicio similares a las empleadas por Ballin y Famworth o Seashore y Hevner reducirían mucho este trabajo, pero aún así la tarea no es sencilla. Varios métodos que simplifican el proceso de juicio se están usando actualmente).

Se dibujó la ojiva correspondiente a cada reactivo; las proporciones acumulativas se colocaron en el eje de las ordenadas y los valores escalares en el eje de las abscisas. Estos valores se escribieron con dos cifras decimales (el segundo decimal fue solamente una aproximación) las cuales se obtuvieron trazando una perpendicular a la línea base de los valores escalares en el punto donde la curva de proporción acumulativa cruzó la marca del 50%. De manera similar se determinaron valores Q trazando perpendiculares en los niveles del 25 y 75%; Q era la distancia entre estos dos puntos, o sea la amplitud intercuartilar; (Esta operación se simplificó estableciendo una gráfica maestra con las proporciones acumulativas en el eje Y y los valores escalares en el eje X. Se enrolló la gráfica en una placa de vidrio granulado que se adaptó a una caja de madera cerrada que contenía un bulbo de 100 vatios. Luego se colocó papel para dibujar sobre dicha gráfica y se representaron rápidamente las ojivas de los reactivos individuales.)

Posteriormente se dibujaron los 168 reactivos en una distribución bivariada de acuerdo con los valores escalares y de Q; los valores escalares se representaron en la línea base. La distribución de estos adquirió la forma bimodal. Hubo muy pocos reactivos en la zona "neutral" (ninguno entre 5.0 y 5.9); las categorías modales iban de 1.0 a 1.9 y de 7.0 a 7.9. Los valores Q de los 7 reactivos que cayeron en el intervalo escalar "neutral" (de 4.0 a 4.9) fueron muy bajos; 6 de ellos cayeron por debajo del valor Q mediano de los 168 reactivos. Estos 7 reactivos fueron los de "control", descritos anteriormente.

Se dibujó una línea a través de la distribución aproximadamente en la mediana de los valores Q de todos los reactivos, en 1.29. Todos los reactivos con valores Q por encima de este punto fueron rechazados. A partir de este momento trabajamos solamente con los 83 reactivos restantes, o sea aproximadamente el 50% del conjunto inicial de reactivos con el menor grado de ambigüedad según es medida por Q. Uno de los reactivos de control "neutral" se eliminó por medio de este estándar; pero 6 fueron aceptables. Estos 6 reactivos tuvieron valores escalares entre 4.0 y 4.9. Ningún reactivo se encontró en el intervalo escalar de 5.0 a 5.9 y el criterio de Q eliminó a todos los que estuvieran dentro del intervalo de 3.0 a 3.9. Uno de los 2 reactivos referente a hechos precisos fue eliminado por el criterio de Q y también se eliminó el reactivo ambiguo con las palabras "scientific holiday". Los 10 reactivos restantes de control se consideraron aceptables por medio del criterio Q.

subir índice

Articulo Septiembre 2008

COMO ELABORAR ESCALAS TECNICAS DE GUTTMAN

LA FUNCIÓN DE INTENSIDAD.

Guttman (1954) concibió dos métodos para ordenar a los individuos sobre un continuo de contenido. Uno de ellos, que se utiliza habitualmente y queda sobreentendido, hace uso de los marginales de respuesta, que se observan en los reactivos seleccionados a partir de un universo de actitud, para obtener puntos de corte o para establecer rangos de contenido.

El otro método utiliza puntos de torsión de las regresiones de los componentes principales superiores de actitudes mensurables, para obtener los diferentes puntos de corte.

Con base en un modelo matemático, se han propuesto cuatro variables psicológicas como componentes principales de actitudes mensurables por escala.

contenido,
intensidad,
cierre e
involución

La intensidad, segundo componente, se concibe como un medio para obtener una dicotomía de los sujetos, a lo largo de un continuo de contenido, en actitudes positivas y negativas.

El tercer componente, identificado provisionalmente como cierre, se pretende que discrimina entre los sujetos dentro de la dicotomía positiva-negativa. Por tanto, se considera que la función del tercer componente es la de colocar a los sujetos en posiciones de positivo extremo, positivo moderado, negativo moderado y negativo extremo.

Se supone que cada componente principal superior da lugar a puntos de corte teóricamente más objetivos y más significativos.

El análisis matemático, de Guttman, propone un número infinito de componentes principales para las escalas perfectas. Este análisis matemático, que usa el criterio de consistencia interna máxima, en el sentido de mínimos cuadrados, predice también el tipo de curva obtenida cuando la regresión de un componente se dibuja sobre el orden jerárquico original de las escalas perfectas.

En relación con éstas, la primera mejor solución produce una relación lineal. La segunda mejor solución establece el segundo componente, que da una curva en forma de U y un solo punto de inflexión. Se obtiene un punto de torsión adicional para cada solución o componente superior sucesivo.

Aunque Guttman informa de cierto grado de éxito en la prueba del cierre y de la involución como referentes empíricas de los componentes matemáticos tercero y cuarto, la investigación subsecuente indica que estas variables componentes y otras más que ha propuesto no satisfacen los criterios fijados por el modelo matemático (Henry, 1957; Riland, 1959; Dotson, 1962). Sin embargo, es común que se establezca el contenido y la intensidad.

El primer componente es el del contenido con respecto a un universo específico de actitud. Por ejemplo, la actitud entre los blancos sureños hacia la segregación de los negros podría ser ese universo mensurable de contenido.

El segundo componente, considerado generalmente, es la intensidad con que se mantiene la actitud. Cuando se dibuja la intensidad de la actitud en contraste con su rango de contenido, debe obtenerse una curva en forma de U, en la que los sujetos más negativos y los más positivos muestran intensidades altas. La investigación empírica sugiere que el punto de torsión de la curva de intensidad indica un "punto de indiferencia" o punto cero, en el orden jerárquico fundamental. Guttman, (1954) además, sostiene que el punto de inflexión separa a los sujetos en tipos escalares positivos o negativos, según a qué lado del punto cero estén ubicados.

Brim adopta una posición diferente. Indica que "las respuestas de contenido a las preguntas de actitud se basan en una clase de expectativas P1, que se refieren a probabilidades acerca de la satisfacción que se logrará en varios estados de cosas" (1955,). El cree que la intensidad o "fuerza del sentimiento" es equivalente a una estimación P2 de que la primera expectativa es correcta". Brim indica que el punto de torsión de la curva de intensidad señala a los sujetos que no saben si deberían o no estar satisfechos con el estado de cosas que describen los reactivos. De esta manera, los sujetos que caen en tipos escalares a un lado del punto cero se definen como aquéllos que estiman la probabilidad de satisfacción superior al 50%. Los que caen al otro lado (negativo) se definen como aquéllos que estiman la probabilidad de satisfacción inferior al 50%. Esta es en esencia la discusión de Brim y Guttman, muchos investigadores adoptan la posición de Henry:

Si se acepta que el punto cero define a aquéllos que no saben cuál sería su satisfacción probable -por consiguiente, la estiman 50-50 de acuerdo con un principio de "equiprobable por defecto de la ignorancia"- o que define a aquéllos que no les interesa o son indiferentes, parece que nos hallamos ante una técnica útil para separar los favorables de los desfavorables (1957).

Pueden obtenerse medidas de intensidad ya sea por la técnica de doblado o por la de bipartición, ninguna de las cuales forma escalas en el sentido de Guttman (Suchman, 1950). La técnica de doblado implica el uso de reactivos que midan las dimensiones de contenido e intensidad simultáneamente. Para obtener puntuaciones de intensidad mediante esta técnica, con reactivos compuestos de seis categorías de respuesta, las categorías positiva extrema y negativa extrema se combinan o "doblan" para obtener valores de intensidad más altos; las categorías positiva media y negativa media se combinan para formar una puntuación de intensidad baja; y las respuestas positiva mínima y negativa mínima se doblan para formar el valor de intensidad más bajo. Se asignan después valores arbitrarios, por ejemplo 2, 1 y 0 a las tres categorías de intensidades respectivamente. De esta manera se da a cada sujeto una puntuación de intensidad con respecto a cada reactivo; y finalmente se suman las distintas puntuaciones de intensidad de cada individuo.

La técnica de bipartición emplea una pregunta de intensidad diferente, con respecto a cada pregunta de contenido. Por ejemplo, después de un reactivo de contenido se formula una pregunta de intensidad como ésta: "¿Qué tan profundo es su sentimiento con respecto a X? " Se utilizan opciones de respuesta del tipo 1. "muy profundo", 2. "mediano" y 3. "leve"; luego se asignan valores arbitrarios y se suman según la respuesta de cada sujeto, como en la técnica de doblar. De ambos métodos, la técnica de doblado tiene la cualidad de economizar espacio en un cuestionario; sin embargo, la técnica de bipartición proporciona mayor rigor, en la medición debido a la independencia de las medidas de contenido e intensidad.

La tabulación transversal de las puntuaciones de intensidad y contenido de todos los sujetos, sirve para ubicar el punto de indiferencia o punto cero en el continuo del contenido. Después de colocar a los sujetos en los tipos escalares definidos por los puntos de corte, resultantes de la observación de marginales de respuesta en reactivos de contenido, se computa el rango mediano de intensidad para cada rango de contenido. La curva de estas medianas se usa como una aproximación a la curva de regresión del segundo componente intrínseco. "Se usan las medianas y no las medias aritméticas o promedios similares, porque aquéllas son independientes de cualquier métrica, excepto del orden jerárquico" (Suchman, 1950).

Los valores correspondientes a los puntos dibujados se determinan de la siguiente manera:

Se computan porcentajes acumulativos con respecto a las frecuencias totales tanto de contenido como de intensidad, acumulando del negativo al positivo en contenido y del menor al mayor en intensidad. Para determinar el valor de contenido que se va a dibujar, calculamos el punto medio del intervalo de percentiles correspondiente a cada rango de contenido. El valor de intensidad que se dibuja es el percentil de intensidad mediano del rango de contenido. . . (Suchman, 1950).

Para determinar la mediana de datos agrupados; es aplicable la fórmula general:

Mediana = l_x + (N/2 - f_xacu/f_x)(i)

donde l_x es el límite inferior del intervalo que contiene a la mediana, N es el número de casos incluidos en el análisis, f_xacu es la suma acumulativa de las frecuencias absolutas hacia arriba, sin incluir el intervalo que contiene la mediana, f_x es la frecuencia absoluta en el intervalo que contiene la mediana e i es el tamaño del intervalo. Como ejemplo, véanse la tabla 1 y la figura 2, que ilustran este punto.

Para computar la puntuación mediana de intensidad para el tipo escalar 0, en la tabla 1, los valores que se sustituyen en la fórmula son:

Mediana = 49 + (209/2 - 68 )/51 (69 -49) = 49 + (.71) (20) = 63.

Este valor mediano de intensidad se dibuja después para representar el punto medio de rango 0 de contenido, en la figura 2. Cuando se dibuja el valor mediano de la intensidad de cada uno de los rangos de contenido, se obtiene una curva de regresión en forma de U o J (figura 2). El punto cero o zona de indiferencia, en la figura 2, se ubica en el tipo escalar 2. De esta manera, los tipos escalares 0 y 1 se definen como negativos y los tipos escalares 3 y 4 como positivos.

El procedimiento anterior hace uso de la regresión de intensidad sobre el contenido para identificar la zona de indiferencia. Una ubicación más precisa del punto cero puede obtenerse por medio de lo que Guttman llama la técnica de "punta de flecha", en la que la colocación se determina por la regresión del contenido sobre la intensidad. "La estimación que se emplea es el percentil mediano de contenido del subgrupo con el rango de intensidad más pequeño (seleccionando, por ejemplo, no menos de 100 personas con este grupo de intensidad menor, a fin de conservar la confiabilidad del muestreo)" (Guttman, 1954).

Usando la misma fórmula general anterior para calcular la mediana de datos agrupados, se determina el punto cero correspondiente a los datos de la tabla 1, combinando los rangos de intensidad menores para proporcionar un número suficiente de observaciones. Combinando los rangos originales de intensidad 0, 1 y 2, se colocan 146 sujetos en la categoría de intensidad más pequeña. La mediana cae en el rango de contenido que incluye el caso número 73. Sumando transversalmente los rangos de contenido, se encuentra que la mediana cae en el rango 2 de contenido. La mediana del percentil de contenido correspondiente al rango de intensidad más pequeño, en este caso, se obtiene entonces como sigue:

Por tanto, para estos datos el punto cero se ubica en el percentil 57; y puede concluirse que aproximadamente el 57% de los sujetos fueron negativos en su actitud y el 43% positivos.

El punto de corte o punto cero, definido por la función de intensidad, tiene la propiedad de invarianza, es decir, no depende de la muestra de reactivos que se use. La invarianza del punto cero se ha demostrado empíricamente al comparar los análisis de intensidad de dos conjuntos de reactivos procedentes del mismo universo de contenido. Aunque un conjunto de reactivos estaba inclinado negativamente y el otro positivamente, se obtuvo la misma curva de intensidad para ambos grupos de datos (Schuman, 1950).

El punto de torsión de la curva de intensidad tiene la propiedad de invarianza, porque la métrica de contenido o de intensidad puede ampliarse o contraerse "y el punto de torsión seguirá en el mismo porcentil" (Guttman, 1954). Sin embargo, puede esperarse que el punto cero varíe de un estudio de población a otro y que varíe en una población a través del tiempo. Por consiguiente, el análisis de intensidad es útil para comparar dos poblaciones y para medir el cambio en una población a través del tiempo.

Han transcurrido ya varios años desde que Guttman desarrolló la teoría de los componentes principales de actitudes mensurables por escala. Durante este tiempo se ha realizado poco con respecto al aislamiento e identificación de referentes empíricos para los componentes tercero y cuarto. Los años venideros pueden demostrar que el modelo de Guttman no produce mejor ajuste con el mundo empírico; sin embargo, la utilidad de la intensidad y su ajuste al modelo matemático sugiere la validez del modelo entero. Se considera que los puntos de torsión de cada una de las curvas de regresión de los componentes superiores poseen la misma propiedad de invarianza que el punto de torsión de la curva de intensidad. Además, el modelo es más preciso con respecto a la relación entre los puntos de torsión de un conjunto de componentes (Guttman, 1954). De esta manera, se suministran al investigador criterios para aceptar o rechazar variables como componentes empíricos tercero y cuarto de actitudes mensurables por escala. La investigación futura en la teoría de componentes puede ser muy provechosa. Indudablemente, son grandes los beneficios potenciales que ofrece la identificación de correlatos de los componentes para el perfeccionamiento de la medición cualitativa.

BIBLIOGRAFIA
Borgatta, Edgar F. 1955 "An error ratio for scalogram analysis". Public Opinion Quarterly 19 (Primavera) : 96-100.
Borgatta, Edgar F., y D.G. Hays. 1952 "Some limitations on the arbitrary classification of non-scale response patterns in a Guttman escale". Public Opínion Quarterly 16 (Spring):410-416.
Brim, Orville G., Jr. 1955 "Attitude content-intensity and probability expectations" American Sociological Review 20 (febrero) : 68-76.
Chilton, Roland J. 1966 "Computer generated data and ther statistical significance of scalogram". Sociometry 29 Qunio) : 175-181.
Dotson, Louis. 1962 "An empirical study of attitude component theory". Public Opinion Quarterly 26 (Primavera): 227-235.
Goodman, Leo A. 1959 "Simple statistical methods for scalogram analysis". Psychometrika 24 (marzo): 29-43.
Guttman, Louis. 1941 The quantification of a class of attributes: a theory and method of scale construction". Págs. 319-348 en la obra de P. Horst y col. The Prediction of Personal Adjustment, Nueva York, Social Science Research Council.
1947 "The Cornell technique for scale and intensity analysis", Educational and Psychological Measurement 7 (Verano): 247-280.
1950 "The basis for scalogram analysis". En la obra de Samuel A. Stouffer y col. Measurement and Prediction. Princeton; Princeton University Press, 60-90.
1954 "The principal components of scalable attitude". Págs. 216-257, en la obra de Paul F. Lazarsfeld (director), Mathematical Thinking in the Social Sciences. Glencoe, Illinois; The Free Press.
Henry, Amdrew F. 1952 "A method of classifying nonscale response patterns in a Guttman scale". Public Opinion Quarterly 16 (Primavera): 94-106.
1957 "An empirícal study of attitude components". Social Forces 36 (octubre) : 26-31.
Menzel, Herbert. 1953 "A new coefficient for scalogram analysis". Public Opinion Quarterly 17 (Verano): 268-280.
Riland, Lane H. 1959 "Relationship of the Guttman components of attitude intensity and personal involvement". Journal of Applied Psychology 43 (agosto). 279-284,
Riley, Matilda White, John W. Riley, Jr., y Jackson Toby. 1954 Sociological Studies in Scale Analysis. New Brunswick, New Jersey;
Rutgers University Press. Sagi, Phillip C, 1959 "A statistical test for a coefficient of reproducibility". Psychometrika 24 (marzo): 19-27.
Schuessler, Karl F. 1961 "A note on statistical significance of scalogram". Sociometry 24 (septiembre) : 312-318.
Suchman, Edward A, 1950 "The scalogram board technique for scale analysis". Págs. 91-121 en la obra de S.A. Stouffer y col. Studies in Social Psychology in World War ll. Measurement and Prediction, vol. 4, Princeton; Princeton University Press.
1950 "The intensity component in attitude and opinion research". Págs. 213-276, en la obra de S.A. Stouffer y col, Studies in Social Psychology in World War ll, vol. 4 Measurement and Prediction. Princeton; Princeton University Press.
Toby, Jackson, y Marcia L. Toby. 1954 "A method of selecting dichotomous items by cross-tabulation". Págs. 339-355 en la obra de M. Riley, y col., Sociological Studies in Scale Analysis. New Brunswick, New Jersey; Rutgers University Press.

subir índice

Artículo Agosto 2008

COMO ELABORAR ESCALAS TECNICAS DE GUTTMAN

Introduccion.

Desde los primeros trabajos de Guttman, la escala monodimensional ha sido ampliamente usada por sociólogos y psicólogos sociales. Su utilidad se revela no solamente por el número de científicos sociales que la han empleado sino por el número de mediciones diferentes para las que se ha adaptado. Aunque desde su aparición han transcurrido ya medio siglo, que ha servido para evaluar exactamente su contribución a la sociología y a la psicología social.

Es verdad que la técnica de Guttman permite el tratamiento de datos cualitativos sin hacer la discutible conversión a datos cuantitativos como se hace en algunas otras técnicas de elaboración de escalas. De esta manera, los investigadores han reducido al mínimo las interpretaciones erróneas, al evitar suposiciones de medida equivocadas. Pero lo más importante para el desarrollo de la ciencia conductual es que el modelo de Guttman contenga cierto mecanismo intrínseco (el coeficiente de reproductibilidad) por el cual uno se ve obligado a examinar la consistencia interna de los reactivos que componen la escala.

Este mecanismo compele la atención hacia lo que realmente se está midiendo. Aunque en ocasiones se han obtenido medidas "estériles", no obstante las pruebas de consistencia interna, generalmente los requerimientos de reproductibilidad han favorecido la mayor claridad conceptual. Es, indudablemente, difícil examinar la consistencia interna de un conjunto de reactivos sin ocuparnos de lo que realmente se está midiendo o, por lo menos, de lo que se está haciendo variar en los reactivos, para explicar la variación de las frecuencias de respuesta, de tos reactivos. Es asimismo inevitable la obtención de mayor claridad conceptual sobre el requerimiento de que, cada vez que se use una escala, su consistencia interna haya de ser reexaminada. Así, cuando con un conjunto de reactivos puede hacerse una escala para un grupo pero no para otro, o suceda lo anterior con un grupo particular en el tiempo 1 pero no en el tiempo 2, es preciso explicar el porqué. La técnica de Guttman ha suministrado además un modelo para la organización de datos colectivos y otros no actitudinales (Rifey y colaboradores, 1954). Ha habido y han sido estimulados los considerables esfuerzos por mejorar el procedimiento original, de Guttman, para elaborar escalas.

La mayoría de las mejoras al método de Guttman para construir escalas, desde los últimos años de la década del 40, se han concentrado en las técnicas para evaluar una escala (es decir, las técnicas para determinar con más precisión el grado en que un conjunto de reactivos se convierte en una escala eficaz) y en la mecánica de la elaboración de escalas cuando se utiliza equipo electrónico de procesamiento de datos.

Aunque parece que existe mayor interés en los criterios del reconocimiento de errores que en los criterios de prevención de los mismos, en la construcción de escalas ha habido notables aportaciones. Entre ellas se han seleccionado para su estudio:

1, la mecánica de la elaboración de escalas, de Guttman,
2. la ubicación de tipos de error,
3. los métodos para estimar la consistencia interna,
4. las pruebas de significación y
5. la función de intensidad.

La mecánica de Guttman de elaboración de Escalas

La noción básica de la escala de Guttman o acumulativa es que entre los reactivos que forman la escala existe una relación interna tal, que una persona que ratifica o concuerda con un reactivo que ocupa una posición escalar dada, ratificará todos los reactivos que estén por debajo de ella en la escala. Si se sabe que una persona ratificó tres reactivos de una escala compuesta de cuatro, se sabe también cuáles fueron los tres reactivos que ella ratificó. Por otra parte, todos los individuos que ratifiquen solamente tres reactivos, ratificarán los mismos tres. De esta manera, es posible ordenar a los individuos en categorías o posiciones relativas definidas por las posiciones de los reactivos ratificados. Es cierto, empero, que estas cualidades de la escala de Guttman se deterioran a medida que disminuye la consistencia interna.

Se han inventado varias técnicas para elaborar escalas de Guttman. En el trabajo inicial se usó la técnica de tablas de escalograma (Suchman, 1950). En este procedimiento se usaba una tabla compuesta de una serie de tablillas movibles en las que se colocaban marcas que representaban las respuestas de los sujetos a cada reactivo. Las tablillas podían manipularse de tal manera que se podía determinar visualmente la consistencia interna de los reactivos que componían la escala.

Se han desarrollado otras técnicas, que incluyen la técnica de Cornell (Guttman, 1947), el método de cuadrados mínimos (Guttman, 1941) y la técnica de tabulación transversal (Toby y Toby, 1954), así como varias modificaciones de ellas para usarlas con equipo de procesamiento de datos y computadoras electrónicas.

En algunas técnicas se emplean valores asignados arbitrariamente, los cuales se suman para obtener una puntuación escalar para cada sujeto; en otras técnicas no se hace así. Pueden usarse valores, pero nada se gana con ello. A Stauffer se le da crédito por el desarrollo de una técnica que no usa un sistema de valores. En esta técnica se determinan puntos de corte con respecto a reactivos de respuesta múltiple tratados en forma dicotómica al tabular transversalmente cada reactivo con todos los demás. Se desarrolló con el fin de usarse en un clasificador electrónico de tarjetas, pero puede adaptarse fácilmente para usarse con computadoras. Debido a su sencillez, este método, algo modificado, se resume más abajo. En esta técnica, como en otras que también se usan para construir escalas de Guttman, debe predecirse el orden jerárquico de los reactivos antes de que los datos sean examinados. Al reactivo más difícil (o el menos favorable) debe asignársele el rango 1, al siguiente más difícil, el rango 2,. . ., y al menos difícil, el rango n.

De esta manera, la confianza en una escala se incrementa en la medida en que la predicción del orden jerárquico de los reactivos se fundamente en los datos. Para verificar la predicción del orden jerárquico, se determina la frecuencia de respuestas de cada categoría de respuesta con respecto a cada reactivo. Por ejemplo, si cada reactivo tiene cinco opciones de respuesta, de "completamente de acuerdo", "de acuerdo", "en duda", "en desacuerdo" y "completamente en desacuerdo", determínese la distribución de respuestas de cada reactivo y conviértanse en porcentajes acumulativos desde la más positiva hasta la más negativa.

En el paso siguiente, esta información servirá para seleccionar los puntos de corte de los reactivos de selección múltiple que son tratados dicotómicamente. Cuando los reactivos son verdaderamente dicotómicos, por ejemplo, si-no, de acuerdo-desacuerdo, se pueden determinar directamente los porcentajes acumulativos.

El paso siguiente es decidir lo que se considerará una ratificación (+) en cada reactivo. Generalmente, en un reactivo con las cinco opciones de respuesta anteriores, marcar ya sea "completamente de acuerdo" o "de acuerdo" se interpretaría como ratificación (+). Marcar cualquiera de las opciones restantes se consideraría como no ratificación (-) del reactivo. Con reactivos verdaderamente dicotómicos esto es muy sencillo; con reactivos de opción múltiple no lo es.

El punto de corte de un reactivo es el punto dentro de las opciones ordenadas, que separa la ratificación de la no ratificación. En este ejemplo, el punto de corte está entre "de acuerdo" y "en duda". Hay ocasiones en que se desea trasladar el punto de corte. Esto, obviamente, cambia la proporción de sujetos que ratifican el reactivo. Al mover el punto de corte hacia abajo, aumenta el porcentaje de ratificación; al moverlo hacia arriba, disminuye.

Existen, básicamente, dos razones para cambiar el punto de corte de un reactivo. Primero, porque puede ser conveniente cambiar la distribución marginal de los reactivos. Por ejemplo, la distribución podría ser de 20, 30, 60, 80% de ratificación, con el punto de corte entre "de acuerdo" y "en duda", con respecto a todos los reactivos. Al trasladar el punto de corte al reactivo del 30%, para incluir "en duda" como ratificación, puede convertirse ese reactivo en uno de 40%. Esta es una distribución marginal, preferible por razones que serán descritas más adelante. Segundo, al trasladar el punto de corte de un reactivo a veces es posible convertir un reactivo impropio de la escala en uno adecuado.

Manteniendo constante, en la medida de lo posible, el punto de corte de respuesta (por ejemplo, entre las respuestas "de acuerdo" y "en duda" en el grupo de opciones anterior), el investigador debe seleccionar los reactivos que hagan máxima la distancia entre los reactivos marginales (la proporción de sujetos que ratifican el reactivo). Por ejemplo, una escala de cuatro reactivos debe contener reactivos marginales de 20, 40, 60 y 80%. Cuanto más separados estén los marginales, tanto menos probable es una inversión del orden de los reactivos del preexamen al estudio final, o en dos aplicaciones cualesquiera de la escala. Deben evitarse asimismo reactivos con marginales extremos. Los reactivos necesariamente tienen reproductibilidades iguales a la respuesta modal (ya sea + o -). Esto quiere decir que reactivos con marginales más grandes del 80% o de menos del 20% pueden infundir excesiva confianza en la factibilidad de hacer una escala del universo de contenido que se esté considerando.

En el conjunto de reactivos de ensayo seleccionado, cada uno de aquéllos debe contrastar con cada uno de los demás para determinar si los reactivos se ajustan entre sí suficientemente para ser compatibles con el modelo de Guttman. En el caso de una relación perfecta entre dos reactivos, donde uno es más difícil de ratificar que el otro, todos los sujetos que ratifican el reactivo con el marginal más pequeño (el más difícil) deben ratificar también el menos difícil.

El grado en que los reactivos satisfacen esta relación perfecta se refleja en la "celdilla de error" de cada tabla cuádruple (véase figura 1). Ninguna celdilla de error debe contener más del 10% del número total de sujetos. Y las celdillas de la diagonal principal (+ +) y (- -) de cada tabla deben contener al menos tantos casos como los que se encuentran en la celdilla de error (Toby y Toby, 1954). El error del reactivo es la proporción de sujetos que ratifican el reactivo más difícil pero que fallan en el reactivo más fácil.

Una vez establecido el punto de corte de cada reactivo y su error, necesitan obtenerse los patrones de respuesta. Esto se logra determinando las respuestas de cada sujeto en todos los reactivos. La sucesión de observaciones comienza con el reactivo menos frecuentemente ratificado y continúa con los demás, en orden descendente de dificultad. Si se usa un clasificador de tarjetas y se tratan los reactivos en forma dicotómica, el primer paso de las tarjetas por la máquina producirá dos grupos de tarjetas: uno representa a los sujetos que ratificaron el reactivo (+) y el otro, a aquéllos que no lo ratificaron (-).

Cada grupo se corre después al segundo reactivo según su grado de dificultad. Esto puede producir cuatro grupos que representan a quienes: 1. ratificaron el reactivo más difícil y el siguiente más difícil (+ +); 2. ratificaron el reactivo más difícil pero no el siguiente (+ -); 3. no ratificaron el primero pero sí el segundo (- +), y 4. no ratificaron ninguno de los dos (- -). Luego, cada uno de estos grupos se corre al reactivo con la tercera frecuencia más baja de ratificación, lo que podría generar ocho patrones de respuesta: 1. +++, 2. ++-, 3. +-+, 4. +- -, 5. -++, 6. -+-, 7. - -+, y 8. - - -. E I procedimiento se continúa hasta concluir el examen de todos los reactivos que componen la escala. El número de patrones posibles de respuesta es una función del número de reactivos.

Con respecto a reactivos dicotómicos, el número de patrones de respuesta posibles es 2ⁿ, donde n es igual al número de reactivos. Entonces una escala de cuatro reactivos puede producir 16 patrones de respuesta (2⁴) y una escala de ocho reactivos, 256 (2⁸). Sin embargo, del número de patrones de respuesta posibles, solamente n + 1 son tipos perfectos o puros, es decir, patrones de respuesta que indican tal consistencia de respuesta que si se ratifica un reactivo en determinada posición escalar, todos los reactivos por debajo de él también lo serán. Por ejemplo, en una escala de cuatro reactivos, los patrones de respuesta ++++, -+++, --++, - - -+ y - - - - son tipos puros. Los otros patrones donde se advierten fallas en presentar consistencia de respuesta son tipos no escalares o de error.

La colocación de los Tipos de Error

Habida cuenta de que, en realidad, la escala perfecta es sólo aproximada, inevitablemente existen algunos patrones de respuesta que no son tipos aptos para una escala y deben asignarse a patrones de respuesta perfectos o puros. Existen varios métodos para clasificar las respuestas no escalares.

El primer criterio que se usa en este procedimiento es reducir al mínimo el error. En sentido estricto, el sujeto ha cometido error cuando se desvía en su patrón de respuesta del tipo escalar puro. El problema consiste entonces en colocar su patrón de respuesta en uno de los tipos escalares puros, de manera que su desviación produzca la mínima cantidad de error. Por ejemplo, usando este criterio, el patrón -+- - (del más al menos difícil, de izquierda a derecha) puede asignarse solamente al tipo escalar 0 (----). Cualquier otra asignación daría dos o más errores. Si fuera colocado en el grupo escalar 1 (-- -+), se admitirían dos errores asociados a los reactivos 2 y 4. Si se colocara en el tipo escalar 2, contendría tres errores que abarcarían los reactivos 2, 3 y 4.

El criterio de error mínimo resolverá el problema de clasificar las respuestas no escalares cuando no sea posible más que una asignación. Sin embargo, hay patrones que pueden clasificarse en dos o más tipos escalares empleando este criterio. La respuesta +-++ podría considerarse ya sea como el tipo escalar 2 (--++), con un error asociado al primer reactivo, o como el tipo escalar 4 (++++), donde el segundo reactivo explica un error.

En aquellos casos en que el criterio de error mínimo asigna un patrón de respuesta a dos o más tipos escalares, se han desarrollado varias soluciones. Cuando hay razón para creer en la presencia de error de respuesta sistemático en los reactivos con los marginales más grande y más pequeño, podría emplearse la técnica del valor medio, la cual confiere mayor valor a los reactivos intermedios. La decisión con respecto a la colocación de respuestas clasificadas ambiguamente, por el criterio de error mínimo, se determina con las respuestas a los reactivos intermedios. Por ejemplo, el patrón +-++ podría colocarse ya sea en el tipo escalar 2, o en el 4, con un error. Si se colocara en el tipo escalar 2, el reactivo 1, un reactivo extremo, explicaría el error. La asignación al tipo escalar 4 colocaría el error en el reactivo 2. Si el análisis de reactivos descrito anteriormente hubiera indicado que el reactivo 1 estaba sujeto a error considerable, suponer una probabilidad de error más grande en el reactivo 1 que en el 2 quedaría justificado. Por consiguiente, se tomaría la decisión, con base en la confiabilidad más grande del reactivo 2, de asignar el patrón de respuesta al tipo escalar 2, dándosele así un valor mayor al reactivo intermedio. (Henry, 1952).

Una segunda solución de la clasificación ambigua es la técnica de valor extremo. Supuestamente puede usarse cuando se sospecha de los reactivos intermedios. En el ejemplo anterior, la respuesta +-++ se colocaría en el tipo escalar 4 cuando se usara la técnica de valor extremo en virtud de las diferentes suposiciones con respecto a la ubicación del error. (Henry, 1952).

Una solución alterna, el método de la distribución de tipos escalares perfectos, se ha convertido tal vez en la técnica empleada más frecuentemente para clasificar patrones que se asignan a dos o más tipos escalares por medio de la solución del error mínimo. De este método, se dice que "predice las soluciones de `Distancia Latente Modificada' con mucho mayor eficiencia... (Henry, 1952)" que las técnicas de valor extremo o de valor medio y es mucho menos complejo que la técnica de distancia latente desarrollada por Lazarsfeld.

La solución de la distribución de tipos escalares perfectos es seleccionar entre ellos los tipos escalares señalados por el criterio de error mínimo, es decir, el tipo escalar con la frecuencia mayor. Se hace el señalamiento por este tipo escalar si la diferencia entre las frecuencias de dos tipos puros es estadísticamente significativa (ji cuadrada, 1 g.l., a nivel de .10) (Henry, 1952).

En el ejemplo el patrón +-++ podría colocarse en los tipos escalares 2 o 4 con un error. Si el tipo escalar 2 contuviera 98 casos y el tipo escalar 4 fueran 32 casos, el patrón se clasificaría como tipo escalar 2, porque ocurrió con mayor frecuencia. Cuando se usa esta técnica, el tipo no escalar se asigna al tipo puro del que tiene mayor probabilidad de desviarse.

Otra solución al problema de clasificar los tipos no escalares cuando el criterio de error mínimo es ambiguo, es la técnica de señalamiento de la clase media, sugerida por Borgatta y Hays (1952). Esta técnica coloca un patrón ambiguo de respuesta en medio de las dos clases más extremas determinadas mediante el criterio de error mínimo. Borgatta y Hays señalan el cuidado que debe tenerse con cada una de las técnicas arbitrarias anteriores con respecto a la clasificación de patrones de respuesta no escalares; ellos recomiendan, en lo posible, el análisis de distancia latente más complejo.

Métodos para estimar la Consistencia Interna

La estimación de la consistencia interna de un conjunto de reactivos viene después de la colocación de los tipos no escalares. Como método para el propósito mencionado, Guttman (1950) propuso el coeficiente de reproductibilidad 1 - (error total de colocación/sujetos sujetos X reactivos) y fijó algo arbitrariamente un mínimo de .90 como necesario para suponer monodimensionalidad. De acuerdo con este estándar, la cantidad de error tolerado no excede al 10%.

El coeficiente de reproductibilidad ha sido y continúa siendo la estimación más frecuentemente usada de consistencia interna, aunque sus limitaciones sean reconocidas. Como demostraron Menzel (1953) y Borgatta (1955); no se aproxima a cero en ausencia de consistencia interna. Para entender esta debilidad basta darse cuenta que un sólo reactivo no puede tener más error que su respuesta modal. Por ejemplo, un reactivo ratificado por el 80% de los sujetos puede tener un máximo de 20% de error. De esta manera, un conjunto de reactivos sin consistencia interna tendrá, necesariamente, cierta reproductibilidad, de acuerdo con la estimación de Guttman.

Considerándose que la reproductibilidad es una función de a) reactivos extremos, b) individuos extremos y c) la adaptabilidad de los reactivos -con respecto a los sujetos- a una escala, Menzel propuso como medida más satisfactoria el coeficiente de adaptabilidad á la escala 1 - (error total de colocación /error máximo ). El error máximo se calcula con base en la diferencia entre el total de respuestas y la suma de las categorías modales ya sea de los reactivos o de los sujetos. La menor de las dos diferencias se usa para estimar el valor máximo, al parecer para evitar la sobreestimación de la consistencia interna. Menzel indica que el límite inferior de un coeficiente satisfactorio de adaptabilidad a la escala se encuentra .60 y .65.

El coeficiente de adaptabilidad a la escala, de Menzel, es una dudosa mejora sobre el coeficiente de reproductibilidad pues posee las mismas limitaciones. Como demostró Borgatta, el índice de Menzel también fracasa en aproximarse a cero en ausencia de un contenido común en los reactivos.

Borgatta propuso, como sustituto, la proporción de error: Este índice varía de cero a uno y puede compararse a las proporciones de error de otras escalas. La proporción de error es la "proporción de errores en la escala dividida entre el número máximo de errores en una escala con las mismas frecuencias marginales" (Borgatta, 1955). El número máximo de errores se calcula utilizando la ley de probabilidades independientes para determinar las frecuencias esperadas de cada tipo no escalar, a partir de las marginales de cada reactivo.

Así, para determinar la frecuencia esperada del tipo escalar 4 (++++), en una escala de cuatro reactivos con marginales de 20, 40, 60 y 80% se multiplican los marginales (.20 X .40 X .60 X .80), para obtener la proporción esperada en el tipo escalar (en este caso .0384), la cual a su vez se multiplica por el número de sujetos, En cuanto a los tipos no escalares, la frecuencia esperada debe multiplicarse por el número de errores de señalamiento, para determinar la suma de estos errores con respecto a la distribución esperada. Esta suma se usa como número máximo de errores.

Por ejemplo, en una escala de cuatro reactivos con marginales (la proporción de respuestas de +) de 20, 40, 60 y 80% , la frecuencia esperada del patrón de respuesta -+-- se determina multiplicando la proporción de respuesta de - (.80), para el primer reactivo, por la proporción de respuestas de + (.40) para el segundo reactivo, por la proporción de respuestas de - (.40) para el tercer reactivo, por la proporción de respuestas de - (.20) para el cuarto reactivo. Este producto (.026) se multiplica después por el número total de sujetos (N) para determinar el número de éstos de quienes se espera tengan el tipo no escalar -+--. La frecuencia esperada debe multiplicarse después por el número de errores de correlación. En este caso el patrón -+-- puede asignarse al tipo escalar 0 (- - - -) con un error. Por tanto, el número total de errores de colocación esperados con respecto a este patrón de respuesta, suponiendo que N sea 2 000 es:

(.80) (.40) (.20) _ .026
.026 X 2000 = 52
52x1=52

Este procedimiento se sigue con cada tipo escalar; y la suma de los errores de colocación esperados con respecto a los tipos no escalares se usa como número máximo de errores en la computación de la proporción de error,

número de errores
número máximo de errores

donde el número de errores es la suma de errores de colocación observados. Por tanto, la proporción de error será de 1.00 cuando el número de errores de colocación sea igual al número máximo de errores y será 0.00 cuando no haya errores de colocación.

Consecuentemente, cuanto menor es la proporción, tanto mayor es la consistencia interna. La proporción de error parece que significa una mejora determinante con respecto al coeficiente de reproductibilidad y al coeficiente de adaptabilidad a la escala. Sin embargo, acaso deba usarse la proporción de error junto con la medida de Guttman, en beneficio de quienes no están familiarizados con el índice de Borgatta.

Pruebas significativas

Ninguna de las anteriores estimaciones de consistencia interna -el coeficiente de escalabilidad, el coeficiente de reproductibilidad, y la proporción de error- son pruebas de importancia estadística. Los problemas de la estabilidad de los datos o de si los patrones observados son o no resultado del azar, no se han resuelto satisfactoriamente, aunque varios investigadores han dedicado sus energías a buscar una solución. Intentos notables han sido realizados por Sagi (1959), Goodman (1959), Schuessler (1961) y Chilton (1966).

El problema ha sido atacado de varias maneras, desde el punto de vista de una prueba significativa de ji cuadrada (Schuessler) hasta la demostración, por medio de datos generados por computadoras, de que los coeficientes de reproducibilidad están distribuidos normalmente (Chilton).

Como lo indicaron Sagi y Chilton, deben hacerse estas pruebas antes de la depuración de una escala, pues primordialmente sirven de instrumentos para determinar qué posibilidad de éxito tendrán los esfuerzos ulteriores para desarrollar una escala a partir de un conjunto de reactivos. Las distribuciones de muestreo de estos índices constituye uno de los aspectos de la elaboración de escalas, de Guttman, que todavía no se ha desarrollado. La clarificación de estas distribuciones de muestreo es indispensable; y una contribución decisiva a nuestro conocimiento de la medición de actitudes será el establecimiento de dichas distribuciones.

subir índice

Artículo Julio 2008

LA TÉCNICA CORNELL PARA EL ANÁLISIS DE ESCALAS Y DE INTENSIDAD

Análisis de intensidad

Cómo diferenciar los personas "favorables" de las `desfavorables". En virtud de que la opinión acerca del libro Una Nación de Naciones es suficientemente factible de ser medida, es significativo decir que a un estudiante el libro le parece mejor que a otro. Existe una ordenación jerárquica significativa de los estudiantes de acuerdo con su opinión del libro. Este orden se expresa por las puntuaciones escalares asignadas en el segundo ensayo. Un estudiante con una puntuación más alta que otro expresa las mismas cosas o mejores acerca del libro (dentro del error escalar).

Existe una pregunta ulterior de sumo interés para el investigador. Dado que los individuos pueden ser ordenados de acuerdo con su grado de favorabilidad ¿hay algún punto de corte en este orden jerárquico, de tal manera que podamos decir que todas las personas a la derecha de ese punto son "favorables" y todas las personas a la izquierda son "desfavorables"? Una persona puede ser más favorable que otra, no obstante que ambas sean favorables. La sola obtención de un orden jerárquico no distingue entre ser favorable o desfavorable; meramente refleja que se es más favorable y menos favorable y no dice si se ha alcanzado un punto después del cual el ser menos favorable significa realmente ser "desfavorable".

Se da una respuesta objetiva a este problema mediante la función de intensidad.

La teoría del análisis de intensidad será explicada con todos sus pormenores en la próxima publicación de la División de Investigación. Para nuestros propósitos, todo lo que necesitamos saber es que proporciona una solución al problema tradicional de la "disposición". No importa cómo sean expresadas o "cargadas" las preguntas, el uso de la función de intensidad dará al grupo la misma proporción de favorable y desfavorable. La función de intensidad establece un punto cero invariante para actitudes y opiniones.

Hay varias técnicas para obtener la intensidad de un cuestionario. La primera es la técnica de doblar y la segunda, la de bipartición. La técnica de doblado es teóricamente menos admisible que la de bipartición. Tiene sin embargo, algunas ventajas prácticas en ciertos casos.

La técnica de doblar. La técnica de doblar consiste sencillamente en recalificar el contenido de las preguntas para obtener una puntuación de Intensidad. Esto es muy fácil, a causa de la forma de la pregunta empleada para estudiar las opiniones sobre Una Nación de Naciones. Se asignan los siguientes pesos a la lista de confrontación de respuestas: "Completamente de acuerdo" y "Completamente en desacuerdo" reciben un valor 2; "De acuerdo" y "En desacuerdo" reciben el valor 1; y "En duda" recibe el valor 0. Estos valores pueden escribirse en tiras de papel para poder ponerlos en la tabla 1 y agregarlos allí para obtener así una puntuación de intensidad para cada persona.

Así, las respuestas aparentemente más intensas reciben valores mayores; y las aparentemente menos intensas reciben valores menores, independientemente de que las respuestas parezcan "favorables" o "desfavorables".

Valorar así las respuestas significa que, para obtener una puntuación de intensidad, combinamos, de hecho, los extremos opuestos de la lista de confrontación, de modo que no hay sino tres categorías (combinadas) de intensidad por pregunta. La intensidad, obtenida por este medio, no es en general factible de ubicarse en una escala. En vez de ello, forma lo que se llama una "quasi" escala. En una "quasi" escala no hay ninguna relación exacta entre la respuesta de una persona a cada pregunta y su puntuación en todas las demás; en su lugar, hay un gradiente. Cuanto mayor es la puntuación de una persona, tanto más probable es que dé una respuesta altamente valorada en cada reactivo, pero no existe la clara certeza de que así ocurra en el caso de una escala. Tal puede advertirse en nuestro ejemplo. Al arreglar los datos en un escalograma, de acuerdo con la puntuación total de intensidad, obtenemos la configuración que se ofrece en la tabla 4. Cada pregunta tiene ahora tres categorías que representan los tres pasos de intensidad. Hay un gradiente de densidad de las respuestas. No hay líneas definidas en las columnas de las categorías y, no obstante, disminuyen gradualmente las densidades que mezclan una categoría con la siguiente. La combinación de categorías no producirá, sin embargo, un patrón mensurable.

De acuerdo con la teoría básica del análisis de intensidad, ésta debe ser una variable perfectamente mensurable por escala. Las ecuaciones del análisis escalar muestran que, en toda escala de contenido, hay un segundo componente que es una función de las puntuaciones escalares en forma de U o J. Este componente se ha identificado como la función de intensidad de la escala de contenido. Lo que intentamos hacer es obtener esta intensidad por medio de métodos empíricos directos. El hecho de que nuestra intensidad observada no sea perfectamente mensurable por escala muestra que no es la intensidad intrínseca pura lo que estamos buscando. Tampoco se ha encontrado ninguna manera perfecta de obtener la intensidad; pero se logran resultados satisfactorios hasta con técnicas de intensidad imperfectas. En vez de una función perfecta de intensidad, obtendremos una en la que es posible obtener un error considerable en su relación con las puntuaciones de la escala de contenido.

Trazo de la intensidad en contraste con el contenido. La función empírica de intensidad se obtiene ordenando las puntuaciones de intensidad resultantes en contraste con las puntuaciones de contenido, obtenidas en la sección anterior durante el segundo ensayo de contenido. El diagrama de dispersión se presenta en la tabla 5. La frecuencia, en letras cursivas, en cada columna de la tabla 5, corresponde a la posición de la mediana de intensidad de las columnas respectivas. Si se estuviera midiendo la intensidad intrínseca pura con esta técnica, no habría dispersión alrededor de estas medianas; pero la intensidad sería entonces una función perfecta de las puntuaciones de contenido en forma de U o J. No obstante la presencia de error, la forma aproximada de la función verdadera de intensidad es clara a partir de la forma de la curva que pasa por las medianas de las columnas. La curva desciende desde la derecha, o sea de las puntuaciones más favorables de contenido, alcanza su punto más bajo en el segundo intervalo de la izquierda (puntuaciones de contenido de 3-5) y después vuelve a elevarse en el primer intervalo de la izquierda. En consecuencia, las puntuaciones de contenido 3-5 deben formar el intervalo aproximado que contiene la puntuación 0 de la actitud. Puede decirse que los estudiantes a la izquierda de este intervalo tienen actitudes negativas hacia el libro de texto y los que están a la derecha tienen actitudes positivas hacia él. Los estudiantes en el intervalo 3-5 no pueden dividirse en positivos y negativos sin la ayuda de preguntas adicionales que hagan distinciones más precisas entre sus rangos.

Con base en la tabla 5 podemos concluir, entonces, que aproximadamente a 8 estudiantes no les gustó el libro de texto, a 35 sí les gustó, mientras que 7 estudiantes mantuvieron una posición intermedia. Esta división de los estudiantes en actitudes favorables y desfavorables no depende de la manera particular como se expresaron las preguntas. La misma curva de intensidad, con la misma proporción a la derecha y a la izquierda del punto cero, se habría obtenido si hubiéramos usado otras preguntas u otra forma de expresarlas, con tal que éstas fueran susceptibles de medición escalar con las preguntas presentes.

Necesidad de una muestra más grande de personas. Es preciso hacer una advertencia importante. El ejemplo empleado debe considerarse muy afortunado para los fines de esta exposición. Ciertamente es raro encontrar un error tan bajo como el que tenemos en la función de intensidad, lo cual da margen a que aparezcan claramente la curva de intensidad y el punto cero con base en una pequeña muestra de 50 casos. En general, es muy difícil que esto suceda. Para realizar sobre seguro un análisis de intensidad, cuando hay un error sustancial -que es el caso habitual- generalmente se necesitan de uno a tres mil casos para obtener medianas estables. Para realizar el análisis de escalograma es también más seguro utilizar más de 50 casos. Lo deseable es utilizar un mínimo de cien casos en el pre-test, así como una docena de reactivos o poco más o menos, en lugar de los siete de nuestro ejemplo. Si el pre-test ha demostrado que para el universo de reactivos es factible hacer una escala, debe hacerse el estudio final con el número acostumbrado de casos que se emplean en las encuestas de opinión, en caso de que se quieran obtener resultados confiables con respecto a la intensidad. La hipótesis de factibilidad de la escala puede probarse en pre-test con un número relativamente pequeño de personas teniéndose en cuenta su carácter especializado. Sin embargo, las proporciones de la población en un rango dado o a un lado del punto cero están sujetas al error de muestreo ordinario; para llegar a resultados confiables con respecto a ellas, deben usarse muestras más grandes.

Desventajas de la técnica de doblar. La técnica de doblar aplicada ala intensidad tiene dos desventajas teóricas, así como álgunas de orden práctico. Primero, las puntuaciones obtenidas por medio de ella no son independientes, experimentalmente, de las puntuaciones de contenido, pues se sirven de las mismas respuestas con respecto a ambas puntuaciones. Esto puede producir una relación algo espuria entre aquéllas. Segundo, se supone que "Completamente de acuerdo" y "Completamente en desacuerdo" son aproximadamente iguales en intensidad y opuestas en dirección; y lo mismo puede decirse de "De acuerdo" y "En desacuerdo", mientras que se supone que "En duda" está aproximadamente en el punto cero. Dichas suposiciones no necesitan ser ciertas en forma absoluta. De hecho, la falsedad ocasional de estas suposiciones es una contribución al error de las puntuaciones de intensidad obtenidas.

Si las suposiciones fueran verdaderas, las cosas serían mucho más fáciles para los investigadores. No sería necesario formular una serie de preguntas para obtener un intervalo de cero, porque la categoría "En duda", con respecto a cualquier pregunta, suministraría tal intervalo. Pero claro está que en una serie de preguntas sobre el mismo asunto las personas que están "En duda", sobre una pregunta, pueden estar "De acuerdo" en otra. Únicamente porque no podemos interpretar la inclinación de una pregunta al examinar su contenido, es que una técnica como esa necesita de la función de intensidad.

No obstante que la técnica de doblar posea dos desventajas teóricas, parece promediar los errores implícitos en la violación de las suposiciones anteriores y suministrar una curva adecuada de forma U o J en muchos casos.

Se le ha encontrado una desventaja práctica a la técnica de doblar, en las situaciones de entrevistas de personas en la calle, donde las personas evitarían casi en absoluto las categorías "Completamente", de modo que no podría obtenerse mucha diferenciación de intensidad. En tal caso es necesaria una técnica de bipartición. Una ventaja de la técnica de doblar sobre la técnica de bipartición es que requiere menos espacio y tiempo para la aplicación de los cuestionarios.

subir índice

Artículo Junio 2008

LA TECNICA CORNELL PARA EL ANÁLISIS DE ESCALAS Y DE INTENSIDAD

La representación de la gráfica de barras

La técnica de Cornell es un procedimiento para probar la hipótesis de que un universo de datos de cualidades es una escala con respecto a determinada población de personas, por el método de escalograma. Extendiéndose su uso a probar la hipótesis de qué los datos forman una "cuasi" escala. De las varias técnicas existentes para análisis de escalograma, la descrita aquí parece ser una de las más sencillas y convenientes para uso general. No requiere equipo especial; se vale de sencillos procedimientos de oficina, que pueden ser realizados cómodamente por personas sin preparación estadística.

Las diversas técnicas mencionadas realizan el mismo trabajo, puesto que usan la misma teoría del escalograma; difieren solamente en la manera de llevarla a la práctica.

En una primera técnica se emplearon las complicadas computaciones de los cuadrados mínimos. El procedimiento empleado por la División de Investigación de la Universidad de Pennsylvania involucra el uso de tablas de escalograma, inventadas especialmente por el autor para este propósito; estas tablas son sencillas de calcularse y fáciles de operar. Otro miembro de la División de Investigación ha inventado una técnica de tabulación. La técnica de Cornell fue inventada por el autor, al principio con fines didácticos, pero posteriormente ha demostrado su utilidad en propósitos generales de investigación.

Los pasos iniciales son comunes a todas. Se comienza definiendo el universo de contenido que se va a estudiar. En un estudio de actitud u opinión, esto significa decidir el contenido general de las preguntas que se van a formular. Como segundo paso, se define la población de individuos. En una encuesta de actitud u opinión significa la delimitación de la clase de personas que se van a entrevistar.

Vienen inmediatamente dos tipos de problemas de muestreo. Uno es el problema ordinario del muestreo aleatorio de personas y otro, el muestreo de reactivos. En estos dos problemas es conveniente distinguir entre la etapa de pre-test de un estudio y la encuesta final. Pueden emplearse mucho menos personas en el pre-test que en la encuesta final; pero pueden usarse menos reactivos en ésta y más en el pre-test.

En el pre-test de una encuesta, alrededor de 100 personas constituyen por lo común una muestra adecuada de la población para probar la hipótesis de factibilidad de la escala. Si se acepta la hipótesis, los reactivos pueden usarse entonces en el estudio final de 3,000 personas generales poco más a menos, para obtener proporciones confiables dentro de cada rango escalar.

El otro problema de muestreo es de naturaleza completamente diferente; consiste en muestrear el universo de contenido. En una encuesta de actitud u opinión se hace elaborando algunas preguntas que tienen el contenido general requerido. En un pre-test, cerca de una docena de preguntas constituyen generalmente un muestreo adecuado de contenido. Toda vez que las preguntas son elaboradas por los investigadores, no encajan en ningún esquema estándar de muestreo aleatorio y la teoría estándar de este muestreo no se aplica en este caso. En su lugar, la teoría del análisis escalar muestra que casi cualquier muestra de alrededor de una docena de preguntas tomadas del universo es adecuada para probar la hipótesis de que el universo es factible de ser evaluado por escala, con tal que la amplitud de contenido deseada sea cubierta por las preguntas. Si se acepta la hipótesis de que es posible una escala para ese universo, podrán usarse menos preguntas en el estudio final en caso de que se necesiten efectivamente menos rangos para los propósitos de la investigación.

Habiendo definido el universo de contenido y la población de individuos y habiendo sacado una muestra de cada uno, el quinto paso es observar a cada persona de la muestra en cada reactivo o pregunta de la muestra de estos. En una encuesta de actitud u opinión, en que se usan cuestionarios, lo anterior quiere decir que cada persona da sus respuestas a cada pregunta del cuestionario.

La hipótesis de factibilidad de lo escala. El problema ahora es probar la hipótesis, con base en los datos de la muestra de prueba, de que el universo entero de reactivos forma una escala con respecto a la población de individuos. Revisemos lo que implica esta hipótesis para entender lo que trata de hacer la técnica de análisis.

Se dice que el universo es mensurable por escala con respecto a la población si es posible ordenar a las personas de mayor o menor, de manera que a partir del rango de una persona solamente podamos reproducir su respuesta a cada uno de los reactivos de un modo sencillo. Se entiende que en la práctica no se espera encontrar escalas perfectas. Se considera que los datos son suficientemente adaptables a la es-escala si son reproductibles en cerca del 90% y si se satisfacen otras condiciones (que serán explicadas posteriormente). Para mayor claridad, sin embargo, consideremos primero una escala hipotética perfecta.

Supongamos que una pregunta perteneciente al universo, concerniente a cierto asunto político, es formulada a una población y que las respuestas son las siguientes:

De acuerdo 60%
En duda 100%
En desacuerdo 30%

Si "En desacuerdo" significa una opinión más favorable que "En duda" y "En duda" más favorable que "En desacuerdo", y si el universo es perfectamente adaptable a una escala, lo siguiente debe ser verdadero. El 60% superior de la gente debe estar formado por quienes contestaron "De acuerdo"; el siguiente 10%, por quienes contestaron "En duda"; y el 30% inferior, por quienes contestaron "En desacuerdo". Si se formula otra pregunta de este universo mensurable por escala y las respuestas son un 20% de "Si"' y un 80% de "No", y si "Sí" indica una respuesta más favorable que "No", entonces el 20% superior de las personas debe haber dicho "Si"' y el 80% inferior debe haber contestado "No". Del rango de una persona podemos deducir ahora cuál debe ser su respuesta a cada una de estas dos preguntas. Cualquier persona en el 20% superior de la población debe haber contestado "De acuerdo" a la primera pregunta y "Sí" a la segunda. Cualquier persona por debajo del 20% superior, pero no por debajo del 60% superior, contestó "De acuerdo" a la primera pregunta y "No" a la segunda. Cualquier persona por debajo del 60%° superior pero no del 70 contestó "En duda" a la primera pregunta y "No" a la segunda, y las personas restantes, el 30% inferior, contestaron "En desacuerdo" a la primera pregunta y "No" a la segunda.

Las diferentes técnicas de análisis de escalograma son procedimientos para encontrar el orden jerárquico de las personas que reproducirán mejor las respuestas de éstas a cada uno de los reactivos. Si el universo fuera una escala perfecta, todas las técnicas requerirían poco trabajo y no habría mucho que escoger entre ellas. Es la presencia de la imperfecta reproductibilidad lo que plantea el problema de la técnica.

La técnica de Cornell opera por aproximaciones sucesivas. Generalmente sólo son necesarias dos aproximaciones para rechazar o aceptar la hipótesis de factibilidad de la escala. Se establece un primer orden jerárquico de las personas mediante un esquema sencillo de calificación. Con propósitos ilustrativos, desarrollaremos en detalle un caso real. Este ejemplo no debe considerarse un modelo de investigación perfecta, sino tan sólo una ilustración de los pasos que se seguirán.

Un ejemplo de la técnica de Cornell. Se deseaba saber si los estudiantes de cierta clase sobre relaciones raciales tenían una actitud que pudiera medirse hacia uno de sus libros de texto, Una Nación de Naciones, de Louis Adamic. Se elaboró un cuestionario de siete preguntas y se aplicó al grupo de 50 estudiantes. Tanto el número de preguntas como el de estudiantes fueron menores a los que se emplean ordinariamente en un pre-test; y se usan aquí por la única razón de que estos pequeños números permiten desplegar los datos completos.

Las siete preguntas fueron las siguientes: Una Nación de Naciones

Preguntas

1.- Una nación de Naciones hace un buen análisis de los grupos étnicos de ese país.

Completamente de acuerdo.- 4. De acuerdo.- 3. En duda.- 2. En desacuerdo.- 1. Completamente en desacuerdo.- 0

2.- En general, Una Nación de naciones no es tan bueno como la mayoría de los libros de texto universitarios.

Completamente de acuerdo.- 0 De acuerdo.- 1 En duda.- 2 En desacuerdo.- 3 Completamente en descuerdo.- 4

3,- Adamic organiza y presenta perfectamente su material.

Completamente de acuerdo.- 4 De acuerdo.- 3 En duda.- 2 En desacuerdo.- 1 Completamente en desacuerdo.- 0

4.- Como tratado de sociología el libro de Adamic no tiene mucho valor.

Completamente de acuerdo - 0 De acuerdo.- 1 En duda.- 2 En desacuerdo.- 3 Completamente en desacuerdo.- 4

5.- Adamic no estudia ningún grupo con suficiente detalle para que el estudiante pueda lograr una comprensión real de los problemas de las relaciones de los grupos étnicos de ese país.

Completamente de acuerdo.- 0 De acuerdo.- 1 En duda.- 2 En desacuerdo.- 3 Completamente en desacuerdo.- 4

6.- Al ofrecer un panorama de los diferentes grupos, Una Nación de Naciones da al estudiante una buena perspectiva de las relaciones de !os grupos étnicos de ese país.

Completamente de acuerdo.- 4 De acuerdo.- 3 En duda.- 2 En desacuerdo.- 1 Completamente en desacuerdo.- 0

7.- Una Nación de Naciones es lo bastante bueno para usarse como libro de texto en este curso.

Completamente de acuerdo.- 4 De acuerdo.- 3 En duda.- 2 En desacuerdo.- 1 Completamente en desacuerdo.- 0

Análisis del contenido de la escala

Ahora describiremos, paso a paso, cómo se realiza el análisis de respuestas por medio de la técnica de Cornell:

1. En el primer ensayo se asignan valores a cada categoría de cada pregunta, empleando los enteros sucesivos a partir de 0. En este ejemplo, como cada conjunto de respuestas tiene cinco categorías, los valores van de 0 a 4. En cada pregunta, se asignan los valores más altos a las categorías que se considera expresan una actitud más favorable. Este juicio sobre (os rangos de las categorías no se considera definitivo. El análisis subsecuente verificará el juicio o bien determinará cómo realizarlo.

2. Se obtiene la puntuación total de cada persona sumando los pesos de las categorías donde cae. En nuestro ejemplo, ya que el valor máximo para cada persona es 4 y el número total de preguntas es 7, las puntuaciones totales pueden variar de 0 a 28.

3. Los cuestionarios se colocan en orden jerárquico conforme a las puntuaciones totales. En nuestro ejemplo, los hemos ordenado de mayor a menor.

4. Se prepara una registro como la tabla 1, con una columna para cada categoría de cada pregunta y un renglón para cada persona. Ya que cada una de las preguntas tiene cinco categorías y existen siete preguntas, tenemos 35 columnas en nuestra tabla. Son 50 estudiantes; así que debemos tener 50 renglones. Las primeras cinco columnas son para las cinco categorías de la primera pregunta, las siguientes cinco columnas para las cinco categorías de la segunda pregunta, etc.

5. La respuesta de cada persona a cada pregunta se indica en la tabla con una X, en su renglón correspondiente, en la columna de cada categoría en que cae. En nuestro ejemplo, hemos denominado las columnas empleando las preguntas y los valores de las categorías. La primera persona es la que tiene la puntuación más alta, que es 28. Marcó la respuesta con valor 4 en todas las preguntas, así que tiene siete X en su renglón y en las columnas respectivas de las categorías con valor 4. Hubo dos personas con una puntuación de 25. El arreglo de las personas con la misma puntuación es arbitrario. De las dos personas de nuestro ejemplo con una puntuación de 25, la colocada primero dio una respuesta marcada con 4, en las dos primeras preguntas, una respuesta de 3 a la tercera pregunta, una de 4 a la cuarta pregunta, respuestas de 3 a la quinta y sexta pregunta y una de 4 a la séptima pregunta. De manera similar las demás X de la tabla 1 indican las respuestas que las personas restantes dieron a cada pregunta. Cada persona contesta a cada preguntas; de manera que hay siete X en cada renglón. Si en alguna ocasión las personas no contestan cierta pregunta, se agrega otra categoría titulada "Sin respuesta", que será valorada y tratada como cualquiera de las otras categorías de esa misma pregunta.

La tabla 1 da un registro completo de todos los datos obtenidos en la encuesta.

6. Al final de la tabla 1 están las frecuencias de respuesta de cada categoría. La categoría 4 de la pregunta 1 contiene nueve personas, mientras que la categoría 3 de la misma pregunta contiene 27 personas, etc. La suma de las frecuencias de las cinco categorías de cada pregunta es siempre igual al número total de personas de la muestra, que en este caso es 50.

7. Ahora pasemos a la prueba de factibilidad de la escala. Si el universo es una escala y si el orden en que hemos colocado a las personas es el orden jerárquico escalar, entonces la estructura de las X en la tabla 1 debe ser particularmente sencilla. Consideremos la primera pregunta de la tabla. Si la respuesta de valor 4 es mayor que la de 3 y si la de 3 es mayor que la de valor 2, y si la de 2 es mayor que la de 1 (la respuesta de 0 no tiene ninguna frecuencia en este caso), entonces las nueve personas de la categoría 4 deben ser las nueve personas superiores. Efectivamente, seis de ellas son superiores y las otras tres están por debajo. De manera similar, las 27 personas de la categoría 3 deben estar debajo de las primeras nueve personas y descienden hasta la trigésima sexta persona (36 = 9 + 27). Pero esto no es completamente cierto para nuestros datos. Un examen semejante con respecto a los demás reactivos muestra que hay un error sustancial de reproductibilidad en su forma actual. En esta etapa no necesita contarse el número aproximado de errores, ya que es, evidentemente, mayor que el 15% del total de 350 respuestas (350 = 7 X 50, el número de preguntas por el número de personas) de la tabla 1.

8. Rara vez se ha encontrado que un reactivo con cuatro o cinco categorías sea suficientemente reproductible si las categorías se consideran diferentes. Una razón de esto son los hábitos verbales de las personas. Algunas personas contestan "Completamente de acuerdo" donde otras dicen "De acuerdo", pese a que tienen esencialmente la misma posición en el continuo básico aunque difieran en un extraño factor de hábitos verbales. Combinando categorías pueden reducirse al mínimo las variables extrañas de segunda importancia. Al examinar el traslapamiento de las X dentro de las columnas de cada pregunta, puede determinarse la mejor manera de combinar las categorías para reducir al mínimo el error de reproductibilidad de las combinaciones. En la pregunta 2, por ejemplo, las categorías 4 y 3 parecen entrelazarse, de modo que se combinan. Igualmente, y en la misma pregunta, parecen entrelazarse las categorías 1 y 0, por lo que también se combinan. Por otra parte, en la pregunta 4, combinamos las categorías 3, 2 y 1, dejando aparte las categorías 4 y 0. La manera de combinar categorías se determina por separado en cada pregunta. Las combinaciones escogidas en este ejemplo con base en la tabla 1 se dan en la tabla 2.

TABLA 2
Combinaciones de categorías

Pregunta
1
2
3
4
5
6
7
Combinaciones
(4) (3) (2,1,0)
(4,3) (2,1,0)
(4,3,2) (1,0)
(4) (3,2,1) (0)
(4,3,2) (1,0)
(4,3) (2,1,0)
(4) (3) (2,1,0)

Si se desean conservar muchos tipos escalares, debe hacerse la menor combinación posible. Sin embargo, si no se desean muchos tipos escalares, pueden combinarse las categorías en el grado en que uno desee, aunque esto puede no mejorar la reproductibilidad. No es malo combinar las categorías que de otra manera permanecerían diferentes con respecto al error escalar; todo lo que se pierde con tal combinación es un tipo escalar. Por otra parte, las categorías pueden requerir combinación para reducir el error; deben combinarse de la manera indicada en la tabla 1 y no arbitrariamente.

9. Un segundo orden jerárquico de las personas puede establecerse ahora con base en las categorías combinadas. Esto se realiza al reasignar valores. La primera pregunta tiene ahora tres categorías (es decir, tres combinaciones), a las que se asignan los valores 0, 1 y 2. La pregunta 2 tiene ahora dos categorías. Podemos asignarle los valores 0 y 1. En el ejemplo presente se usaron, en vez de aquéllos, los valores 0 y 2, ya que mantener relativamente constante la amplitud de los valores, de un reactivo a otro, ayuda a menudo a establecer una ordenación mejor de las personas cuando existe error de reproductibilidad. En una escala perfecta, cualquier conjunto de valores, con tal que tengan el orden de rango apropiado con respecto a las categorías, dará una correcta ordenación de rango de las personas.

10. A cada persona se da ahora una nueva puntuación que representa su segundo rango de ensayo. Se le asigna al recalificar sus respuestas conforme a los nuevos valores. Esta recalificación se hace fácilmente basándose en la tabla 1. Usando una tira de papel tan ancha como la tabla, pueden escribirse directamente los nuevos valores de las categorías anteriores en la orilla de la tira. Colocando la tira a través del renglón de una persona, se suman los valores según donde caigan las X. En nuestro ejemplo, la tira tendría en sus primeras cinco columnas los valores 2, 1, 0, 0, 0, colocándose el valor 2 en la columna donde estaba la vieja categoría 4, el valor 1 en la columna donde estaba la vieja categoría 3, y los de 0 en las antiguas columnas de 2, 1 y 0 que después se combinaron. En la pregunta 2 la tira tendría en las cinco columnas los valores 2, 0, 0, 0. De manera semejante pueden escribirse los nuevos valores de las otras preguntas que se emplearon en las columnas anteriores de la tabla 1. La persona que era anteriormente la primera en dicha tabla, con una puntuación de 28, tiene ahora una puntuación de 2 + 2 + 2 + 2 +2 + 2 + 2 = 14. La segunda persona de la tabla 1 también obtiene una puntuación de 14. La tercera persona de la tabla 1 tiene ahora una puntuación de 2 + 2 + 2 + 1 + 2 + 2 + 2 = 13; y así sucesivamente con las demás.

11. Después se ordena a las personas conforme al orden jerárquico de sus nuevas puntuaciones, y se prepara la tabla 3 a partir de los datos combinados, exactamente como se preparó la tabla 1 a partir de los datos originales. La pregunta 1 tiene ahora tres columnas, la pregunta dos tiene dos columnas, etc.

Los datos de la tabla 1 se modificaron para conformar la tabla 3 según las combinaciones indicadas en la tabla 2. La columnas de la tabla 3 se refieren a las categorías combinadas y las puntuaciones de ésta son las puntuaciones de segundo ensayo obtenidas precisamente en el paso anterior.

12. El error de reproductibilidad de la tabla 3 parece ser mucho más pequeño que el de la tabla 1, y en seguida contaremos los errores efectivos. Esto se hace estableciendo puntos de corte en el orden jerárquico de las personas, los cuales las separan conforme a las categorías donde caerían si la escala fuera perfecta. En la pregunta 1, que tiene tres categorías, necesitamos tres puntos de corte. El primero parece caer entre la última persona que tiene puntuación 12 y la primera persona que tiene puntuación 11. Todas las personas que están por encima de este punto de corte deberían estar en la categoría 2, y todas las que están por debajo no deberían estar en esa categoría. Pero como hay una persona, en la categoría 2, por debajo de este punto, tenemos un error en aquella. Se necesita un segundo punto de corte para separar la categoría 1 de la categoría 0; no obstante, estas dos categorías se traslapan, por lo que su ubicación exacta no es esencial; así que mover el punto ligeramente hacia arriba o hacia abajo no cambiará la cantidad de error. Debe colocarse de manera que éste se reduzca al mínimo; y tal reducción puede lograrse de varias maneras similares. Una es colocar el punto de corte entre la segunda y la tercera persona con puntuación 4. Por debajo de este punto encontramos tres errores en la categoría 1; y por encima de él, encontramos cinco errores en la categoría 0. El número total de errores en la pregunta 1 es 1 + 3 + 5 = 9. Dado que tenemos 50 respuestas a la pregunta 1, esta cifra significa un error del 18%. Claro que este error podría reducirse combinando las dos últimas columnas y convirtiendo la pregunta 1 en una dicotomía. Habría así únicamente un error en la primera columna. Esta ulterior dicotomización se evita cuando existe un error relativamente pequeño en las otras preguntas, de modo que el error en el total de éstas no resulta muy superior al 10%.

La pregunta 2 tiene dos categorías en el segundo ensayo; y el punto de corte que reducirá al mínimo el error está entre las dos últimas puntuaciones de 6, lo cual produce dos errores en la primera columna y cuatro en la segunda columna de la pregunta 2. Similarmente, la pregunta 3 tiene un punto de corte entre la última puntuación de 2 y la primera de 1; y suma tres errores en su segunda columna. La pregunta 4 tiene dos puntos de corte; las preguntas 5 y 6, uno; y la 7, dos. El número total de errores en la tabla 3 es de 40, que es el 11% de todas las respuestas. Por tanto, podemos concluir que en vista de que gran parte del error se presenta en la pregunta 1 y de que aquél puede eliminarse combinando dos categorías en esa pregunta, esta área de actitud es factible de medirse por escala. A partir del orden jerárquico de una persona podemos reproducir su respuesta a cada pregunta en términos de categorías combinadas con el 89% de exactitud (o mejor, si combinamos las dos últimas columnas de la pregunta 1).

13. El porcentaje de reproductibilidad no es suficiente por sí mismo para llevar a la conclusión de que el universo de contenido es mensurable. La frecuencia de respuestas a cada reactivo diferente también debe tenerse en cuenta por una razón muy sencilla. La reproductibilidad puede ser artificialmente alta debido tan sólo a que una categoría de cada reactivo tiene una frecuencia muy alta. Puede demostrarse que la reproductibilidad de un reactivo nunca puede ser menor que la frecuencia más alta de sus categorías, independientemente de si el área es mensurable o no. Por ejemplo, la pregunta 3 de la tabla 3 tiene un tipo de distribución completamente extrema. Cuarenta y tres estudiantes están en una categoría y siete en la otra. Entonces, en ninguna circunstancia eran posibles más de siete errores en este reactivo, pese a que exista o no un patrón escalar. O también la pregunta 4 de la tabla 3 tiene 37 casos en su categoría modal y 13 en las otras dos categorías. Entonces, en ninguna circunstancia el reactivo 4 podía tener más de tres errores. Claro está que cuanto más uniformemente estén distribuidas las frecuencias entre las categorías de un reactivo dado, tanto más difícil será que su reproductibilídad sea espuriamente alta, Las preguntas 5 y 6 de la tabla 3 tienen una alta reproductibilidad, cada una presenta cinco errores; y no es artificialmente alta porque la pregunta 5 solamente tiene 28 casos en su categoría más frecuente y la pregunta 6 tiene 30 casos en su frecuencia modal. El máximo error posible de la pregunta 5 es 22 y de la pregunta 6, 20. El patrón escalar representa una reducción sustancial de este error máximo. La regla empírica que se ha adoptado para juzgar lo espurio de la reproductibilidad escalar es la siguiente: ninguna categoría debe tener más errores que aciertos. Por tanto, la categoría con valor 2 en la pregunta 1 (tabla 3) tiene ocho aciertos y un error; la categoría con valor 1 en esta misma pregunta tiene 24 aciertos y 3 errores; la categoría 0 tiene nueve aciertos y cinco errores. De esta manera, la pregunta 1 satisface la regla. Pero la pregunta 3 está muy cerca de no cumplirla. Mientras que la primera columna de la pregunta 3 (en la tabla 3) no tiene errores, la segunda columna tiene tres, junto con cuatro aciertos. De manera similar, la primera columna de la pregunta 4 tiene un error en comparación con dos aciertos. Y como preguntas distribuidas uniformemente, como la 5 y la 6, tienen pocos errores; y también porque los errores en las otras preguntas, como la 3 y la 4, no se apartan mucho de lo que debería ser, consideramos que esta área se puede medir por escala.

Al construir una muestra de reactivos que se usarán en una prueba de factibilidad de la escala, por lo menos deben elaborarse algunos, si no es posible que todos, para obtener una distribución uniforme de frecuencias. Tales reactivos dan una buena prueba de factibilidad. Sin embargo, es preciso disponer igualmente de reactivos con frecuencias no uniformes para obtener tipos escalares diferenciados; por tal razón deben usarse los dos tipos de reactivos. Cuanto mayor es el número de categorías que se conservan en un reactivo, tanto más severa es la prueba de factibilidad de la escala, porque el error -si realmente lo hay- tiene mayor posibilidades de aparecer cuando mayor número de categorías haya.

subir índice

Artículo Mayo 2008

BASE PARA ELABORAR ESCALAS CON DATOS CUALITATIVOS

La representación de la gráfica de barras

Otra manera de dibujar la escala dicotómica de la muestra de tres reactivos sería la siguiente: supongamos que el 80% de la población contestó correctamente la primera pregunta, 40% la segunda y 10% la tercera.

Las distribuciones univariadas de los tres reactivos correspondientes podrían presentarse por medio de la gráfica de barras de la figura 3

Figura 3.

Las barras muestran las distribuciones de porcentaje de las preguntas respectivas. La distribución multivariada de las tres preguntas, dado que forman una escala de la población, también puede indicarse én la misma gráfica, ya que todos los que se encuentran en el grupo que contestó correctamente una pregunta difícil, de la misma manera se encuentran en el grupo que contestó correctamente una pregunta fácil. Así, podemos dibujar nuevamente la gráfica pero uniendo las barras con líneas interrumpidas como se ve en la figura 4. Aquí podemos apreciar cómo las tres preguntas son funciones sencillas de las puntuaciones. De las frecuencias marginales de los distintos reactivos, junto con el hecho de que los reactivos forman una escala, podemos deducir que el 10% de las personas obtuvieron una puntuación 3. El 10% que contestó correctamente la pregunta más difícil se incluye entre los que contestaron correctamente las preguntas más fáciles. Esto se indica por la línea interrumpida de la derecha, entre las puntuaciones 2 y 3, que delimita al mismo 10% de los individuos (los que tienen una puntuación 3), a través de las tres barras. El 40% que contestó correctamente la segunda pregunta incluye al 10% que acertó en la pregunta más difícil y al 30% que contestó erróneamente la pregunta más difícil; pero todo el 40% acertó en la pregunta más fácil. Esto nos deja con el 30% que acertó sólo en la primera y en la segunda pregunta. Y así sucesivamente. De esta manera podemos imaginar una ordenación de las personas a lo largo de un eje horizontal, y que cada reactivo es un corte sobre dicho eje. Todos los que están a la derecha del punto de corte contestaron correctamente la pregunta y los que están a la izquierda la contestaron erróneamente. Por tanto, hay una correspondencia de uno a uno entre las categorías de un reactivo y los segmentos del eje. O podemos decir que cada atributo es una función sencilla del orden jerárquico en el eje.

Figura 4.

El hecho de que todos los reactivos de la muestra pueden expresarse como funciones sencillas de la ordenación de las personas es lo que posibilita que formen una escala. Cada reactivo está perfectamente correlacionado con la ordenación sobre el eje o es reproductible a partir de ella. Sin embargo, las correlaciones de punto entre los reactivos no son de ninguna manera perfectas. Por ejemplo, la tabla cuádruple entre el primero y segundo reactivos es la siguiente:

La correlación de punto entre los dos reactivos es .41. De hecho, la correlación de punto entre dos reactivos dicotómícos puede ser cualquier valor desde prácticamente 0 hasta la unidad y, no obstante, ambas pueden ser funciones perfectas de la misma variable cuantitativa. Esto, de aspecto paradójico, podría explicarse por un inadecuado tratamiento de variables cualitativas en los cursos y textos convencionales de estadística.

Un coeficiente tetracórico con respecto a la tabla cuádruple anterior sería la unidad, suponiendo una distribución normal bivariada. Sin embargo, esta no es la correlación entre los reactivos, pues no dice si podemos predecir un reactivo a partir del otro. La tetracórica expresa la correlación entre dos variables cuantitativas de las cuales son funciones los reactivos, con tal que sean verdaderas las suposiciones de normalidad. La razón de que en este caso el tetracórico sea la unidad es que las variables cuantitativas, de las cuales son funciones los reactivos, son una sola variable, a saber la variable escalar. Adviértase, sin embargo, que la distribución de la variable escalar conforme al orden jerárquico de ninguna manera es normal. Una de las contribuciones de la teoría de elaboración de escalas es que hace a un lado las hipótesis no probadas e innecesarias sobre distribuciones normales. Es la correlación de punto y no la tetracórica la que interviene en el análisis matemático de la elaboración de escalas.

Un rasgo importante de esta tabla cuádruple es la frecuencia de cero, en la celdilla de la esquina superior derecha. Ninguno de los que contestaron correctamente la tercera pregunta falló en la segunda. Esta celdilla cero debe presentarse siempre en una tabla cuádruple de dos reactivos dicotómicos, los cuales son funciones sencillas de la misma variable cuantitativa.

Otro ejemplo de escala

Demos ahora un ejemplo de escala más complicada. Supongamos que tenemos interés por saber en qué grado desean los soldados regresar a la escuela cuando la guerra termine. Supongamos que, del universo de atributos que definen este deseo, seleccionamos la siguiente muestra de cuatro preguntas para formar con ellas un cuestionario.

1. Si le ofrecieran un buen empleo, ¿qué haría usted?

a) Aceptaría el empleo

b) Lo rehusaría si el gobierno me ayudara para poder ir a la escuela

c) Lo rehusaría y regresaría a la escuela sin más.

2. Si le ofrecieran algún empleo improductivo, ¿qué haría usted?

a) Lo aceptaría

b) Lo rechazaría si el gobierno me brindara ayuda para ir a la escuela

c) Lo rehusaría y regresaría a la escuela sin más.

3. Si no pudiera conseguir ningún empleo, ¿qué haría usted?

a) No regresaría a la escuela

b) Si el gobierno me brindara ayuda, regresaría a la escuela

c) Regresaría a la escuela aún sin ayuda del gobierno.

4. Si usted pudiera hacer lo que quisiera al terminar la guerra, ¿regresaría a la escuela?

a) S i

b) No

Supongamos que las respuestas de los sujetos a estas preguntas toman la forma de una escala como la indicada en la figura 5.

Figura 5.

Ya sabemos cómo leer esa gráfica. El 10% de los hombres dijeron que rehusarían un buen trabajo para regresar a la escuela; el 20% declaró que rehusarían un buen trabajo solamente si recibieran ayuda gubernamental; el 70% manifestó que aceptaría un buen trabajo; y así sucesivamente. El 10% que dijo que rehusaría un buen trabajo está incluido en el 20% que afirmó que declinaría algún trabajo, y este 20% está incluido en el 25% que manifestó que regresarían a la escuela si no consiguieran ningún trabajo; y este 25% está contenido en el 50% que declaró que le gustaría regresar a la escuela.

Con respecto a tres preguntas tricotómicas y una dicotómica hay 3 X 3 X 3 X 2 = 54 tipos posibles. Para que formen una escala -puede demostrarse- a lo más deben presentarse ocho tipos. La gráfica presenta los ocho tipos, que se han calificado de 0 a 7. La carta indica las características de cada tipo. Por ejemplo, el tipo con la puntuación 3 incluye a todos los individuos con los siguientes cuatro valores: dicen que preferirían aceptar un buen trabajo que regresar a la escuela; que rehusarían algún trabajo si el gobierno los ayudara para regresar a la escuela; que regresarían a la escuela si el gobierno los ayudara en caso de que no pudieran conseguir ningún trabajo; y que les gustaría regresar a la escuela. Por tanto, leyendo las categorías cruzadas por las líneas interrumpidas que encierran a cada tipo, podemos leer sus características.

Nótese que cada uno de los cuatro atributos es una función sencilla de las puntuaciones escalares. Por ejemplo, la pregunta de un "buen trabajo" tiene categorías que corresponden a los siguientes tres intervalos de puntuaciones escalares: 0-3, 4-6, 7.

Podría plantearse la pregunta de qué tan frecuentemente se encuentran escalas en la práctica. ¿No es demasiado esperar que se encuentre en la vida real una estructura siquiera aproximada a la de la gráfica anterior? En respuesta a esto solamente podemos citar hasta ahora la experiencia en la investigación dentro del ejército. Literalmente se han encontrado docenas de escalas suficientemente perfectas en varias áreas de actitud, opinión y conocimiento. El ejemplo anterior, acerca del deseo de ir a la escuela, es una versión ficticia de un conjunto de preguntas similares que han podido ser mensurables en el ejército. Muchas variedades de datos han resultado mensurables y muchas no. Los datos factibles de medirse pudieron relacionarse después muy fácilmente con otras variables. Los que estaban en el caso contrario requirieron un análisis más complejo para manejarlos adecuadamente.

El muestreo del universo de atributos

Una propiedad importante de un universo mensurable por escala es que la ordenación de las personas, basada en una muestra de reactivos, es de suyo igual a la basada en el universo. Si el universo es una escala, la adición de reactivos solamente dividiría cada tipo dado entre la muestra en tipos diferenciados; pero no intercambiaría el orden de los tipos encontrados en la muestra. Por ejemplo, en la figura 5, el tipo 6 siempre tendría un orden jerárquico más alto que el tipo 5. Las personas del tipo 6 pueden ordenarse, dentro de su tipo, en más subcategorías; las personas que pertenecen al tipo 5 también podrían ordenarse en más subcategorías; pero todas las del tipo 6 tendrían un orden jerárquico más alto que todas las del tipo 5. Esto puede verse a la inversa, por ejemplo, suprimiendo una de las preguntas y haciendo notar que todo lo que sucede es reducir los tipos a un número más pequeño, de manera que dos tipos vecinos puedan hacerse indistinguibles; pero tipos cualesquiera que estén separados dos pasos conservarán el mismo orden entre sí

Por consiguiente, estamos seguros de que si una persona tiene un rango más alto que otra, en una muestra de reactivos, tendrá también un rango más alto en el universo de reactivos. Esta es una propiedad importante, de las escalas, que consiste en que de una muestra de atributos podemos sacar inferencias sobre el universo al qué pertenecen.

Uno de los criterios para seleccionar una muestra de reactivos es escoger una muestra con bastantes categorías para proporcionar la cantidad deseada de diferenciación entre los individuos. De esta manera, si deseamos que se diferencien los individuos, por ejemplo, solamente en 10 grupos, deben escogerse reactivos que produzcan 10 tipos. Claro está que no consideramos los problemas de confiabilidad en el aspecto de observaciones repetidas de los mismos atributos. Por conveniencia supondremos tácitamente perfecta la confiabilidad. La forma de distribución de los rangos en una muestra de atributos dependerá, por supuesto, de la muestra. Una muestra de atributos puede dar una forma de distribución, mientras que una segunda puede dar otra diferente. Esto carece de importancia, toda vez que nuestro principal interés se encuentra en la ordenación de las personas, no en la frecuencia relativa de cada posición.

Sería logico preguntarse cómo podemos saber que el universo forma una escala si todo lo que conocemos es una muestra de él. En la actualidad parece totalmente claro que, en general, la probabilidad de encontrar por azar una muestra de atributos que formen una escala con respecto a una muestra de individuos es ínfima, aunque haya solo tres reactivos dicotómicos en la muestra y aproximadamente cien individuos. Desarrollar la teoría completa de probabilidad requeriría dos cosas: primero, la definición de un proceso de muestreo para seleccionar reactivos; y, segundo, la definición de lo que significa que no existe una escala. La definición del proceso de muestreo es difícil porque los reactivos, por lo común, se desarrollan en forma intuitiva. Establecer una hipótesis de nulidad, de que no existe una escala, conduce a muchas formulaciones analíticas posibles porque pueden imponerse diferentes condiciones limitantes a la distribución multivariada de los reactivos. Por ejemplo, ¿deben considerarse fijas las frecuencias marginales en todas las muestras? ¿Deben considerarse fijas las frecuencias bivariadas? , etc. Estas preguntas pueden esclarecerse a medida que se desarrolle la teoría de elaboración de escalas y mejoren nuestros conceptos de lo que implica la observación de los fenómenos sociales.

Parece seguro generalizar que, si se selecciona una muestra de atributos sin conocimiento de sus interrelaciones empíricas y se encuentra que forma una escala en cualquier muestra aleatoria de individuos de tamaño comparativamente grande, entonces el universo del cual se seleccionan los atributos es mensurable en toda la amplitud de la población entera de individuos.

Elaboración de escalas y predicción

Es importante distinguir entre dos asuntos estrechamente relacionados, la elaboración de escalas y la predicción. Descubrir que se puede hacer una escala para un universo de atributos y aplicarla a una población significa que es posible derivar una variable cuantitativa, partiendo de una distribución multivariada tal que cada atributo sea una función sencilla de esa variable. Podríamos expresar esto de otra manera, diciendo que cada atributo es predecible (perfectamente) a partir de la variable cuantitativa.

Es esto lo contrario del problema ordinario de la predicción. En un problema ordinario de esta especie, existe una variable externa, definida independientemente, que va a predecirse o partir de los atributos. Por ejemplo, cuando se quieren predecir los ingresos de un estudiante, cinco años después que se graduó en la universidad, a partir de su conocimiento actual de matemáticas. Para hacerlo, habría que obtener una muestra experimental en la que se conocieran los salarios de cada persona cinco años después de la universidad y las respuestas a cada reactivo de la prueba de matemáticas. Si se adopta el criterio de mínimos cuadrados, entonces la mejor predicción con base en la muestra sería la regresión múltiple del ingreso sobre los tres reactivos de la muestra. La distribución multivariada de los tres reactivos y la variable externa nos darían los elementos necesarios para computar la regresión, curva o lineal, que sería la mejor para predecir la variable externa. Si deseáramos predecir alguna otra variable externa a partir de los mismos reactivos, tendría que obtenerse una nueva regresión múltiple a partir de la distribución multivariada de los tres reactivos de la nueva variable externa. En general y ordinariamente, se esperaría que la primera de estas regresiones diferiría de la segunda. En absoluto, los pesos que se usan para predecir una variable externa fundándose en un conjunto de atributos difieren de los que se usan para predecir otra variable externa; debe efectuarse una nueva regresión múltiple para cada variable externa.

Esto subraya una propiedad importante de las escalas. Si los reactivos tienen una distribución multivariada, que sea mensurable por escala, puede verse fácilmente que no importa cuál sea la variable externa; y es posible dar a los reactivos los mismos pesos de predicción. Por tanto, nos hallamos frente a una propiedad notable de la medición por escala, a saber, que proporciona una cuantificación invariante de los atributos con respecto a la predicción de cualquier variable externa. No importa a qué propósito de predicción vayan a servir los atributos, las puntuaciones escalares servirán a dicho propósito.

Acerca del "análisis de reactivos"

Es muy importante la distinción que acabamos de hacer. Al elaborar una escala, reproducimos los atributos partiendo de una variable cuantitativa. En la predicción, pronosticamos una variable a partir de los atributos. Es una diferencia clara que nos permite evitar gran parte de la confusión que parece prevalecer en la literatura anterior sobre la elaboración de escalas. Parece haberse creído que los reactivos de un universo son solamente escalones para obtener puntuaciones. Se pensaba que era una deficiencia embarazosa carecer de una variable particular para predecir a partir de los reactivos, de modo que, como mal necesario, uno tenía que recurrir a los métodos de consistencia interna para derivar las puntuaciones.

Esto explica los enfoques corrientes de "análisis de reactivos" en el proceso de elaborar escalas. Se siguen procedimientos que consisten generalmente en lo que sigue: se asigna un conjunto de valores de prueba a las categorías, lo cual da lugar a un conjunto de puntuaciones de ensayo. Posteriormente se examina cada reactivo para determinar qué tan bien puede discriminar por sí sólo estas puntuaciones, es decir, si pueden predecirse las puntuaciones a partir del reactivo. Los reactivos que mejor discriminan individualmente se conservan y los demás se eliminan.

El carácter confuso de estos procedimientos puede verse en los ejemplos de escalas anteriores. Hemos señalado que las intercorrelaciones entre atributos de una escala pueden estar tan cerca de cero como uno desee. También puede verse cómodamente que la razón de correlación de las puntuaciones de la escala con cualquier reactivo aislado puede estar igualmente tan cerca de cero como uno quiera. La predictibilidad de la variable escalar con fundamento en un atributo no dice si el atributo es o no predecible a partir de la variable escalar.

El uso de los procedimientos de "análisis de reactivos" en conexión con las escalas parece una carga lamentable en el problema de la predicción ordinaria de una variable externa. En tal problema, los reactivos no son ciertamente sino escalones que permiten hacer predicciones. Se sabe' ' que el análisis de reactivos ofrece una primera aproximación a la correlación múltiple (o a la función discriminante) y que un reactivo interesa solamente en el grado que sirve a la regresión múltiple.

Nuestra insistencia en la medición por escala es muy diferente. En ésta, nos interesamos en cada uno de los atributos del universo por los propios méritos de estos. Si no fuera así, no trabajaríamos con tal universo. Los atributos son las cosas importantes; y si son mensurables por escala, entonces las puntuaciones serán solamente una estructura compacta para representarlos.

La estructura compacta que hemos descrito tiene la propiedad adicional e importante de ser un dispositivo eficaz para predecir cualquier variable externa de la mejor manera posible a partir de determinado universo de atributos.

La relatividad de las escalas

Un problema interesante asociado con las escalas es el de ¿por qué un universo forma una escala con respecto a determinada población? Por ejemplo, tomemos la muestra de tres preguntas de matemáticas dada anteriormente. ¿Por qué pueden incluirse en una escala estas tres preguntas? No hay una razón lógica necesaria para que una persona deba conocer el área de un círculo antes de que conozca lo que es una derivada y, en particular, la derivada de e^x. La razón para la existencia de una escala, en este caso, en gran parte parece cultural. Nuestro sistema educativo es de tal tipo que la sucesión en que aprendemos nuestras matemáticas en las preparatorias y universidades es que primero aprendemos cosas como el área del círculo, después el álgebra y posteriormente el cálculo. Y la cantidad de práctica que poseemos de cada una de estas materias probablemente también está en ese orden. Sin embargo, sería muy posible para un marciano llegar a este mundo y estudiar cálculo sin tener que aprender el área de un círculo de modo que no podría ser un tipo escalar, conforme a la escala presentada arriba; o un estudiante podría haber tenido un incidente personal en el cuál, de alguna manera, lo haya impresionado con gran fuerza la derivada de e^x; pero en el curso ordinario de las circunstancias la habría olvidado más rápidamente de lo que olvidó el área de un círculo.

El análisis escalar separará esos tipos desviados o no escalares. Naturalmente que, si estos tipos no escalares son demasiado numerosos, diremos que no existe una escala. En la práctica encontramos escalas, aunque nunca escalas perfectas, porque ha habido suficiente uniformidad de experiencia en la población de individuos, de manera que los atributos significan esencialmente lo mismo a los diferentes individuos. De hecho, un estudio de las desviaciones es un subproducto interesante del análisis escalar. El análisis escalar separa efectivamente a los individuos para hacer estudios de casos.

Un universo puede formar una escala en una población, en un momento dado, pero no hacerlo en otra ocasión. Por ejemplo, los reactivos de la escala de expresión del deseo de los soldados norteamericanos de regresar a la escuela después de la guerra, posiblemente no resultaran susceptibles de conformarse a una escala si se les preguntara una segunda vez al terminar la guerra.

Un universo puede formar una escala en una población de individuos, pero no en otra. O los atributos pueden formar escalas, en dos poblaciones, de manera diferente. Por ejemplo, una muestra de reactivos de satisfacción con respecto a la vida en el ejército, que formó una escala con relación a los pertrechos de combate en la Fuerza Aérea, no formó una escala en los individuos de las escuelas técnicas de la misma rama. La estructura de la vida militar de estos dos grupos fue muy diferente en los mismos reactivos, y no tuvo por eso el mismo significado en ambas situaciones.

Si un universo es mensurable por escala, en una población, pero no en otra, o forma una escala de manera diferente, no podemos comparar las dos poblaciones en cuanto a grado, y decir que una es más alta o más baja en promedio con respecto al universo. Difieren en más de una dimensión o en clase, más que en grado. Solamente si dos grupos o dos individuos caen en la misma escala podemos ordenarlos de mayor a menor. Una consideración similar es válida para las comparaciones de tiempo. Una contribución importante de la teoría presente relativa a la elaboración de escalas es subrayar estas propiedades de relatividad.

Resumen

1. La distribución de frecuencia multivariada de un universo de atributos con respecto a una población de objetos es una escala cuando es posible derivar de la distribución una variable cuantitativa que caracterice a los objetos, de tal manera que cada atributo sea una función sencilla de la variable cuantitativa.

2. Tiene un significado inequívoco el orden de las puntuaciones escalares. Un objeto con una puntuación más alta que otro se caracteriza por valores más altos de cada atributo, o por lo menos equivalentes.

3. Tiene un significado inequívoco el orden de los valores del atributo. Una categoría de un atributo es más alta que otra si caracteriza a los objetos en posiciones más altas en la escala.

4. Puede demostrarse que si los datos son susceptibles de conformarse a una escala, la ordenación de los objetos y de las categorías es, en general, única (excepto por la dirección). Las dos ordenaciones surgen del análisis de los datos y no de consideraciones a priori.

5. La predictibilidad de cualquier variable externa a partir de las puntuaciones escalares es igual a la predictibilidad a partir de la distribución multivariada usando los atributos. La correlación de orden cero con la puntuación escalar es equivalente a la correlación múltiple con el universo. Por consiguiente, las puntuaciones escalares proporcionan una cuantificación invariante de los atributos para predecir cualquier variable externa.

6. Las escalas son relativas con respecto al tiempo y a la población.

a. En una población dada de objetos, un universo puede ser susceptible de adaptarse a una escala, en un momento pero no en otro, o puede tener la misma susceptibilidad en dos períodos, pero presentar ordenaciones diferentes de los objetos y de las categorías.
b. Un universo puede ser susceptible de adaptarse a una escala en una población pero no en otra, o puede acontecer lo anterior en dos poblaciones pero presentar ordenaciones diferentes de los objetos y de las categorías.
c. Solamente se pueden hacer comparaciones con respecto al grado o cantidad cuando se obtiene la misma escala en los dos casos que se comparan.

7. En la distribución multivariada de una muestra de atributos con respecto a una muestra de objetos, se pueden hacer inferencias concernientes a la distribución completa del universo con respecto a la población.

a. La hipótesis de que la distribución completa puede convertirse en escala se prueba adecuadamente en una distribución de muestras.
b. El orden jerárquico de los objetos conforme a una escala de muestras es esencialmente el mismo que tienen en la escala completa.
c. La ordenación de las categorías en una escala de muestras es primordialmente la que tienen en la escala completa.

8. Las escalas perfectas no se encuentran en la práctica.

a. El grado en que se aproximan a la perfección se mide por un coeficiente de reproductibilidad., que es la frecuencia relativa con que los valores de los atributos corresponden a los intervalos de una variable escalar.
b. En la práctica se han usado escalas perfectas del 85%, o mejores como aproximaciones eficientes a las escalas perfectas.

9. En las escalas imperfectas, el análisis escalar separa los tipos desviados o no escalares para estudio de casos.

subir índice

Artículo Abril 2008

BASE PARA ELABORAR ESCALAS CON DATOS CUALITATIVOS

INTRODUCCIÓN

En gran parte de la investigación que se realiza en el campo de las ciencias sociales y psicológicas, el interés se centra en ciertas clases importantes de observaciones cualitativas. Por ejemplo, la investigación sobre el matrimonio atiende a una clase de conducta cualitativa llamada adaptación matrimonial, que incluye un número indefinidamente grande de interacciones entre marido y mujer. La investigación de la opinión pública se ocupa de importantes clases de conducta que son expresiones de la opinión de los norteamericanos sobre asuntos como la capacidad de lucha de los británicos, por ejemplo. La psicología educativa incluye los tests de aprovechamiento en dichas clases de conducta.

A menudo, en estos campos se desea, resumir los datos diciendo, por ejemplo, que una pareja matrimonial está mejor ajustada que otra; que esta persona tiene mejor opinión de los británicos que aquélla; o que un estudiante tiene mejor conocimiento de la aritmética que otro. Se ha discutido ampliamente la utilidad de estas ordenaciones de personas; pero no es nuestra intención pasar revista a esas discusiones, sino enfocar el problema sobre una base nueva que parece la adecuada para cuantificar datos cualitativos.

Este enfoque se usó satisfactoriamente en la investigación de la moral y otros problemas, que llevó a cabo la sección de investigación de la División de Servicios de Moral del Ejército de los Estados Unidos, dentro del propio campo de las fuerzas armadas. Aunque este enfoque de la cuantificación conduce a ciertos cálculos interesantes, no se requieren conocimientos matemáticos especiales para analizar los datos con toda eficacia. Se han establecido rutinas sencillas que no requieren conocimientos de estadística y que llevan menos tiempo que las diversas manipulaciones empleadas actualmente por diferentes investigadores (por ejemplo razones críticas, correlaciones biseriales, análisis factorial, etc.), las cuales proporcionan un cuadro completo de los datos, que por cierto no es ofrecido por esas otras técnicas. La palabra "cuadro" puede interpretarse aquí literalmente, porque los resultados del análisis se presentan y se asimilan fácilmente en la forma de un "escalograma", que ofrece a primera vista la configuración de los datos cualitativos.

Las nociones de variable, función y función sencilla

Veamos en primer lugar algo sobre el significado de variable, ya sea cualitativa o cuantitativa. Usamos el término en su acepción convencional, lógica o matemática, para denotar un conjunto de valores. Estos valores pueden ser numéricos (cuantitativos) o no numéricos (cualitativos). Usaremos en forma intercambiable los términos "atributo" y "variable cualitativa". Los valores de un atributo (o de una variable cuantitativa, que para el caso es lo mismo) son sus subcategorías o simplemente categorías.

Un ejemplo de atributo es la religión. Una persona puede tener el valor "católico", "budista", "judío", "mormón", "ateo", o algún otro valor de esta variable. No hay un orden intrínseco particular en estos valores. Otro ejemplo es la expresión de una opinión. Una persona puede decir, "Me gustan los ingleses", "No me gustan los ingleses", o "No sé si me gustan o no los ingleses". Una ilustración más consiste en que se puede observar que una persona sonríe al conocer a otra, o que no lo haga. Las variables cuantitativas se reconocen fácilmente.

Se dice que una variable y es función de un sólo valor de la variable x si a cada valor de x corresponde un sólo valor de y. Por tanto, si y toma los distintos valores Y₁, Y₂, ... , Ym, y si X toma los diferentes valores X₁, X₂, . . . , Xn, donde m y n pueden ser diferentes, decimos que Y es una función monovalente de X, y en tal caso podrá hacerse una tabla de correspondencia semejante a la que sigue:

_____________________________________

x x₁ x₂ x₃... x_nn

_____________________________________

y y₁ y₂ y₃... y_m

_____________________________________

Para cada valor de X hay un valor de Y y solamente uno. (Lo contrario no necesita ser cierto: para un valor de Y puede haber dos o más valores de X). Obviamente, si Y es una función monovalente de X, se deduce que m ≤ n.

En particular, supongamos que Y es un atributo, por ejemplo el atributo anterior sobre la expresión de simpatía por los ingleses. Si m = 3, y podemos expresar con Y₁ la afirmación "Me gustan los ingleses"; con Y₂, la afirmación, "No me gustan los ingleses"; y por Y₃ "No sé si me gustan o no los ingleses"; y si X es una variable cuantitativa que toma más de m valores (n > m), y si podemos dividir los valores de X en m intervalos que se hallen en correspondencia de uno a uno con los valores de Y, entonces decimos que el atributo Y es una función sencilla de X . Por ejemplo, supongamos que X toma los diez valores 0, 1, 2, 3, 4, 5, 6, 7, 8, 9; la tabla de correspondencia sería entonces como la siguiente:

_____________________________________

X 0 1 2 3 4 5 6 7 8 9

_____________________________________

Y Y1 Y1 Y1 Y3 Y3 Y2 Y2 Y2 Y2 Y2

_____________________________________

Asimismo, podríamos representar esto gráficamente dibujando los valores de X en una línea recta que dividiríamos en intervalos: Para variables estadísticas es posible otra representación, consistente en un gráfico de barras de frecuencia

La definición de escala

Con respecto a determinada población de objetos, la distribución de frecuencia multivariada de un universo de atributos se llamará escala, si es posible derivar de la distribución, una variable cuantitativa para caracterizar los objetos de modo que cada atributo sea una función sencilla de esa variable cuantitativa. Esa variable cuantitativa es la variable escalar.

No esperamos obtener en la práctica escalas perfectas. La desviación de la perfección se mide por el coeficiente de reproductibilidad, que sencillamente es la frecuencia empírica relativa con que los valores del atributo corresponden a los intervalos adecuados de una variable cuantitativa. En la práctica, se han empleado escalas con un 85% de perfección o aun mejores como aproximaciones eficientes a escalas perfectas.

Un valor de una variable escalar se llamará una puntuación escalar o simplemente puntuación. La ordenación de los objetos de acuerdo con el orden numérico de sus puntuaciones escalares se llamará su orden escalar.

Obviamente, cualquier variable cuantitativa, que es una función creciente (o decreciente) de una variable escalar, también es una variable escalar. Por ejemplo, anteriormente se consideró a X como una variable escalar. A cada una de las puntuaciones de X podría restársele o agregársele una constante cualquiera, Y y seguiría siendo una función sencilla de la X transformada. Así, las puntuaciones 0, 1, 2, 3, 4, 5, 6, 7, 8, 9 podrían reemplazarse por las puntuaciones respectivas -5, -4, -3, -2, -1, 0, 1, 2, 3 y 4. o podrían multiplicarse las puntuaciones de X por cualquier constante, o extraerse sus raíces cuadradas o tomarse sus logaritmos; puede, en fin, hacerse cualquier transformación continua o discontinua en tanto que permanezca perfecta la correlación de orden jerárquico entre la X original y la variable transformada. Todas esas transformaciones producen variables escalares, cada una de las cuales es igualmente eficaz para reproducir los atributos.

Por consiguiente, el problema de la métrica no es aquí de importancia particular para elaborar escalas. En ciertos problemas, como predecir variables externas a partir del universo de atributos, puede ser conveniente adoptar una métrica particular, por ejemplo, la de cuadrados mínimos, cuyas propiedades resultan convenientes para ayudar a analizar correlaciones múltiples. Sin embargo, debe señalarse que la selección de la métrica es asunto de conveniencia; cualquier métrica predecirá una variable exterior tan exactamente como lo haría cualquier otra.

En la práctica, se ha usado el orden jerárquico como variable escalar. (De hecho, es una métrica de cuadrados mínimos, aplicable a una distribución rectangular de puntuaciones escalares).

El universo de atributos

Las palabras población y universo se usan por lo común en forma intercambiable en los estudios estadísticos. En cuanto a las escalas es necesario referirse tanto a un conjunto completo de objetos como a un conjunto completo de atributos; así que será conveniente reservar población para lo primero y universo para lo segundo. En la investigación social, los objetos son por lo común personas, de manera que para ellos es apropiado usar población.

Un concepto básico en la teoría de las escalas es el de universo de atributos. En la investigación social, un universo es generalmente una clase importante de conducta como la descrita en la introducción. El universo es el concepto cuya factibilidad de medirse por escala se investiga, como el ajuste matrimonial, la opinión sobre la capacidad de lucha de los británicos, el conocimiento de la aritmética, etc. El universo consiste en todos los atributos que define el concepto. Otra manera de describir el universo es expresando que comprende todos los atributos de interés para la investigación y qué tienen un contenido común, de manera que se clasifican bajo un sólo título que indica el contenido.

Por ser de fácil examen, tomemos un ejemplo de la investigación de opinión, donde se desea observar la población de individuos de manera estandarizada par medio de una lista de confrontación de preguntas. La conducta que interesa en la investigación son las respuestas de los individuos a tales preguntas. Supongamos que el universo de atributos abarca todas las preguntas posibles que podrían contestarse en la lista concerniente a la capacidad de lucha de los británicos. Esas preguntas podrían ser: "¿Piensa usted que el ejército británico es tan poderoso como el alemán? "; "¿Piensa usted que la fuerza aérea británica es superior a la alemana? " Y así sucesivamente. Hay un número indefinidamente grande de tales preguntas que pertenecen al universo; pero en una investigación particular generalmente sólo se usa una muestra de aquél.

Un atributo pertenece al universo en virtud de su contenido. El investigador indica el contenido de interés por el título que selecciona para el universo; y todos los atributos con ese contenido pertenecen a tal universo. Por de contado, habrá en la práctica casos límites en que será difícil decidir si un reactivo pertenece o no al universo. La evaluación del contenido es así un asunto que puede decidirse por consenso de los peritos o por algún otro medio. Esto se ha reconocido antes, aunque no necesita considerarse como un pecado contra el Espíritu Santo del operacionalismo puro ". Es posible que el análisis formal de factibilidad de una escala ayude a esclarecer las regiones dudosas de contenido. Sin embargo, se ha encontrado que actualmente es más útil valerse de la experiencia informal y del consenso, en su mayor grado, para definir el universo.

Un aspecto importante de este enfoque es que el criterio para que un atributo pertenezca al universo no es la magnitud de las correlaciones de ese reactivo con otros atributos que se sabe pertenecen al universo. Los atributos del mismo tipo de contenido pueden tener intercorrelaciones de cualquier amplitud y que varían, prácticamente, desde 0 hasta la unidad.

La población de objetos

Definir el universo de atributos es un problema similar al problema típico de definir la población de objetos o individuos de interés para la investigación. Un investigador debe siempre delimitar la población con la que trabaje. Por ejemplo, en el caso de la opinión sobre los británicos como soldados, debe decidir de quiénes desea determinar las opiniones, ¿Está interesado en individuos de cualquier parte o solo de los de los Estados Unidos? ¿Está interesado en cualquier individuo de los Estados Unidos o solo en los adultos? Si sólo en los adultos, ¿cómo se definirá un adulto? Además, a veces será difícil decidir si un individuo particular pertenece a una población o no; y las decisiones deberán tomarse antes de que empiece la investigación, pues de otra manera el investigador no sabrá a quién observar.

Métodos de observación

Supongamos que hemos definido un universo de atributos y una población. Podemos entonces comenzar a realizar observaciones sobre la conducta de la población con respecto al universo. (En la práctica esto se hace generalmente sólo con muestras. Una muestra de individuos de la población es observada en su conducta con respecto a una muestra de atributos del universo). Cómo se hagan las observaciones, aquí no interesa. En la investigación de opinión y en otros campos se han usado cuestionarios e inventarios. Pero puede usarse cualquier técnica de observación que proporcione los datos de interés para la investigación. En el caso de las ciencias sociales y psicológicas, las técnicas pueden ser historias de casos, entrevistas, introspección y cualquier otra técnica para registrar observaciones. Lo importante no es cómo se alleguen las observaciones, sino que éstas sean de interés central para la investigación.

El uso de un cuestionario implica que el investigador está interesado en cierto tipo de universo de conducta verbal. La observación participante puede implicar que el investigador se interesa por cierto tipo de universo de conducta no verbal. Estos distintos universos pueden investigarse en forma individual. Con frecuencia es de interés averiguar qué tan bien se correlaciona un universo con otro; pero esa correlación no puede determinarse sino hasta que cada universo se defina y observe separadamente.

Los ejemplos de escalas de este artículo contienen observaciones hechas por medio de cuestionarios. No debe inferirse, sin embargo, que la elaboración de escalas se refiere solamente a esa técnica. El análisis de la elaboración de escalas es un análisis formal y, por tanto, se aplica a cualquier universo de datos cualitativos de cualquier ciencia obtenidos por cualquier forma de observación.

El propósito de la elaboración de escalas

Es patente la laboriosidad que implica el registro del gran número de observaciones que existen en un universo de atributos con respecto a una población de individuos. El registro requiere una tabla con un renglón para cada individuo y una columna para cada atributo. (En teoría, la tabla puede ser indefinidamente grande). Sería conveniente que pudiésemos representar las observaciones del modo más compacto que, a su vez, nos permitiera reproducir la tabla siempre que lo deseáramos. Una representación compacta, si pudiera obtenerse, tendría dos grandes ventajas: primero, una ventaja mnemotécnica, porque una representación de tal tipo sería más fácil de recordar que una tabla grande; y segundo, si deseáramos relacionar el universo y otras variables sería más fácil hacerlo por medio de la representación compacta que usando la distribución multivariada de los atributos en el universo. De ella se derivan otras ventajas que se advertirán cuando aumente el conocimiento del lector sobre las escalas.

Una representación particularmente sencilla de los datos sería asignar a cada individuo un valor numérico y a cada categoría de cada atributo otro valor numérico, de manera que, dado el valor del individuo y los valores de las categorías de un atributo, pudiéramos reproducir las observaciones del individuo sobre el atributo. Esto será posible solamente en tipos restringidos de datos, en que cada atributo del universo puede expresarse como una función sencilla de la misma variable cuantitativa, es decir, donde el universo de atributos forma una escala con respecto a la población de individuos.

Un ejemplo de escala dicotómica

Como era de esperarse, el universo de atributos debe formar una configuración especializada con respecto a la población de individuos para que sea mensurable por escala. Antes de describir un caso más general, demos un pequeño ejemplo. Considérese una prueba de matemáticas compuesta de los siguientes problemas:

a.- Si r es el radio de un círculo, ¿cuál es su área?

b.- ¿Cuáles son los valores de X que satisfacen la ecuación ax² + bx + c = 0?

c.- ¿Cuál es la de^x/d^x

Si esta prueba se aplicara a la población de miembros de la Sociedad Norteamericana de Sociología, quizá encontraríamos que forma una escala en esa población. Las respuestas a cada una de estas preguntas pueden presentarse como una dicotomía, correcta o incorrecta. Hay 2 x 2 x 2 = 8 tipos posibles para tres dicotomías. Realmente, en esta población de sociólogos probablemente encontraríamos cuatro de los posibles tipos. Existiría el tipo que contestó correctamente las tres preguntas, el tipo que contestó correctamente la primera pregunta y la segunda, el que solamente contestó correctamente la primera y el que no contestó correctamente ninguna de las preguntas. Supongamos que esto es lo que realmente hubiese sucedido. Es decir, supondremos que no sucederían los otros cuatro tipos, como el tipo que contesta correctamente la primera y la tercera pregunta, pero que se equivoca en la segunda. En este caso, es posible asignar a la población un conjunto de valores numéricos como 3, 2, 1, 0. A cada miembro de la población se le asignará uno de estos valores. Este valor numérico se denominará la puntuación de la persona. A partir de esa puntuación, sabríamos entonces precisamente cuáles son los problemas cuyas respuestas conoce y cuáles son las que desconoce. Así, una puntuación de 2 no significaría solamente que la persona contestó correctamente dos preguntas, sino que contestó correctamente dos preguntas determinadas, a saber, la primera y la segunda. La conducta de una persona en estos problemas es reproductible a partir de su puntuación. Específicamente, cada pregunta es una función sencilla de la puntuación.

El significado de "más" y "menos"

Adviértase que tiene un significado muy definido decir que una persona sabe más matemáticas que otra con respecto a esta muestra. Por ejemplo, una puntuación 3 significa más que una puntuación 2, porque la persona con una de 3 sabe lo que una persona con una puntuación 2 y algo más.

También tiene un significado definido decir que contestar correctamente una pregunta indica mayor conocimiento que contestarla erróneamente; la importancia de esto posiblemente sea demasiado obvia. Las personas que contestan correctamente una pregunta tienen, todas, puntuaciones escalares más altas que las personas que contestan erróneamente. En realidad, no necesitamos conocer de antemano cuál es la respuesta correcta y cuál la errónea para establecer un orden adecuado entre los individuos. Por conveniencia, supongamos que se dio a las preguntas la forma de "verdadero-falso, (suponemos que nadie da una respuesta correcta por adivinación; mas adelante se mostrará cómo el análisis escalar puede separar efectivamente las respuestas correctas dadas por adivinación), con respuestas indicadas 2II r, (- b ± √b2- 4ac )/ 2_a, y xe^x-1 para las preguntas respectivas. Cada persona pone una V o una F después de cada pregunta, según crea que las respuestas propuestas sean verdaderas o falsas. Si las respuestas de la población forman una escala, no tenemos por qué saber cuáles son las respuestas correctas para ordenar jerárquicamente a los sujetos (solamente que no sabremos si los hemos ordenado de mayor a menor o de menor a mayor). Mediante el análisis escalar, que esencialmente se basa en clasificar las combinaciones que se presentan de los tres reactivos simultáneamente, encontraríamos solamente 4 tipos de personas. Un tipo sería F1 V2 F3, donde los subíndices indican las preguntas; es decir, este tipo dice F a la pregunta 1, V a la pregunta 2 y F a la pregunta 3. Los otros 3 tipos serían F1 V2V3, F1 F2V3 y V1 F2 V3 . Podrían representarse estos tipos en una gráfica (un "escalograma"), en la que hay un renglón para cada tipo de persona y una columna para cada categoría de cada atributo. Sin entrar en detalles, el análisis escalar establecería un orden entre los renglones y las columnas que presentaría este aspecto:

F₃ T₂ F₁   T₃ F₂ T₁
V   V    V
      V    V   V
            V   V   V
                  V   V V

O, alternativamente, tanto los renglones como las columnas podrían estar ordenados en s forma completamente invertida. Cada respuesta a una pregunta se indica por una marca. ` Cada renglón tiene tres marcas porque cada pregunta se contesta, ya sea correcta o incorrectamente. La estructura de "paralelogramo" de la gráfica (Esta gráfica, donde se usa una columna para cada categoría de un atributo, la llamamos escalograma. Las tablas de escalograma empleadas en los procedimientos prácticos son sencillamente dispositivos para trasladar renglones y columnas, a fin de encontrar un patrón escalar en caso de que exista.) es necesaria y suficiente para que un conjunto de atributos dicotómicos sean expresables como funciones senI cillas de una sola variable cuantitativa.

De esta gráfica podemos deducir que F1, V2 y F3, son todas respuestas correctas o todas incorrectas. Es decir, si dijéramos que F1 es una respuesta correcta, inmediatamente sabríamos que V2 y F3 también lo serían. Esto significa que podemos ordenar a los individuos conforme a su conocimiento, aunque no sepamos cuáles son las respuestas correctas y cuáles las incorrectas, solamente que no sabremos si los hemos ordenado de mayor a menor, o viceversa. Excepto por la dirección, la ordenación es una consecuencia puramente formal de la configuración de la conducta de la población con respecto a los reactivos. La importancia de este hecho se hace más evidente en los casos más complicados donde los atributos no son dicotómicos sino que tienen más de dos categorías. No tenemos espacio para extendernos sobre este punto, pero diremos, sencillamente, que el análisis escalar decide automáticamente, por ejemplo, dónde debe ir colocada una respuesta de "en duda" en una encuesta de opinión pública, si debe ir por encima de "sí", debajo de "no", si entre éstas, si es equivalente a "si", o es equivalente a "no".

subir índice

Artículo Marzo 2008

COMPARACIONES EMPÍRICAS ENTRE LAS DISTINTAS TÉCNICAS PARA MEDIR ACTITUDES

LA COMPARACION DE EYSENCK Y CROWN

En 1949, Eysenck y Crown dieron a conocer algunos de sus hallazgos en la investigación que habían realizado durante los tres años anteriores. Entre otros, la escala de actitud que elaboraron para medir el antisemitismo. Inicialmente, siguieron el procedimiento de Thurstone, reuniendo 150 reactivos de "comentarios escritos y hablados acerca de los judíos, de publicaciones periódicas, de estudiantes y de personas ajenas al medio académico". A continuación, 80 personas, principalmente ajenas al medio citado, juzgaron los reactivos, colocándolos sobre un continuo de once puntos favorables hacia los judíos. Después que la escala se aplicó a la manera de Thurstone a 200 estudiantes universitarios, se encontró que la confiabilidad de división a la mitad era de .83 (corregida). Por considerar insatisfactoria esta confiabilidad, Eysenck y Crown decidieron reaplicar la escala, solicitando respuestas del tipo Likert a un segundo grupo de 200 estudiantes. La confiabilidad de división a la mitad fue de .90 (corregida). Por tanto, el procedimiento de calificación de Likert mostró nuevamente una confiabilidad más alta que el de Thurstone. El procedimiento de Eysenck y Crown es algo diferente al procedimiento original de Thurstone. Elaboraron solamente una escala y calcularon después una confiabilidad de división a la mitad, como se hace comúnmente con las escalas de Likert. No elaboraron dos escalas de formas paralelas ni calcularon después una confiabilidad de formas paralelas.

Como señalaron Eysenck y Crown, "esto no es estrictamente una comparación entre las escalas de Thurstone y Likert... es una comparación entre los métodos de calificación de Thurstone y Likert de reactivos seleccionados según el método de aquél" (1949). Como tal, es una réplica de una de las dos comparaciones hechas por Likert (1932) y de la comparación de Likert, Roulow y Murphy (1934); sin embargo, el contenido (antisemitismo) no se tomó de los estudios precedentes.

Eysenck y Crown también se ocuparon del problema de la validez. Sin embargo, es de poco interés aquí porque solamente se obtuvieron impresiones subjetivas, es decir, se comparó el conocimiento previo de los entrevistadores acerca de las actitudes de los sujetos, con sus puntuaciones escalares (dos medidas no totalmente independientes). No hicieron, además, ninguna comparación, ni siquiera subjetiva entre las evaluaciones de los entrevistadores con respecto al antisemitismo de los sujetos y las puntuaciones de las escalas de Thurstone o Likert.

LA COMPARACION DE BANTA

En 1961, Banta publicó un resumen de la investigación que acababa de realizar. Gran parte de aquélla no está relacionada este tema; sin embargo, planteó en ella una pregunta significativa: ¿en qué condiciones prácticas los diferentes métodos de calificación de escalas de actitud idénticas no producen resultados semejantes?. La extensión de esta pregunta conduce a otra igualmente importante: ¿en qué condiciones las diferentes técnicas de construcción de escalas de actitud no producen escalas que den resultados semejantes?

Banta se "ocupó de medir actitudes sociales en las que se varió deliberadamente la ambigüedad del referente en el cuestionario de actitud" (1961). Se ocupó de las variaciones en la ambigüedad de los referentes de las escalas de actitud, es decir, la escala se tomó como un todo. Pero no se ocupó de las variaciones en la ambigüedad de los reactivos que forman la escala. Formuló la hipótesis de que cuanto más ambiguo fuese el referente con respecto a la escala de actitud, tanto menos se correlacionarían los diferentes métodos de calificación de determinada escala de actitudes.

Para probarla, Banta usó tres cuestionarios de 20 reactivos cada uno; el primero medía las actitudes hacia el presidente Eisenhower; el segundo, hacia las fraternidades universitarias y el último, hacia las personas en general. Según Banta, la ambigüedad del referente de las tres escalas se incrementa respectivamente. Los tres cuestionarios se aplicaron a tres grupos de estudiantes. Cada grupo completó cada cuestionario tres veces, siguiendo cada vez diferentes instrucciones. Los procedimientos de calificación de Thurstone y Likert constituyeron dos de los tres grupos de instrucciones. Cada estudiante completó por escrito los nueve cuestionarios. Posteriormente, en el análisis, se eliminaron los efectos de orden.

Es importante señalar que en todas las condiciones de ambigüedad del referente de la escala de actitud los métodos de Thurstone y de Likert se correlacionaron altamente, aunque el patrón tendió a seguir las predicciones de Banta. En el orden de ambigüedad creciente, los métodos de calificación se correlacionaron en un .89 (presidente Eisenhower .89 fraternidades universitarias) y .72 (las personas en general). Aunque estos datos no ofrecen un fuerte apoyo a las hipótesis de Banta, no deben tomarse como representativos de sus resultados. Sería injusto juzgar las conclusiones de Banta por lo que se presenta aquí ya que solamente se cubre una pequeña porción de aquellos. Por lo que toca a la comparación de la calificación de Thurstone y Likert, los resultados de Banta parecen no concluyentes. Pero, aunque los resultados hubieran sido más patentes, algunos de los procedimientos de Banta siguen siendo dudosos; y sería difícil generalizar confiablemente sus resultados.

Primero, reduce los posibles valores escalares de Thurstone, de 11 a 5. Dado que algunos autores han señalado el poco número de pasos en la calificación de Thurstone como la razón de que sea menos confiable que el método de Likert, parecería insensato reducir aún más los pasos.

Segundo, Banta compara escalas que fueron elaboradas para adecuarse a diferentes técnicas de calificación. De las tres, una fue elaborada para calificarse por el método de Thurstone, otra por el método de Likert y otra por un tercer método. Otros autores se han prevenido contra la calificación de una escala de actitud con una técnica diferente a la empleada en su elaboración. Ferguson, por ejemplo, señala que los reactivos seleccionados para las escalas de Likert no suelen ser adecuados para la calificación de Thurstone, porque los reactivos de Likert, por lo común, no caen en las categorías neutrales de la escala de Thurstone.

Tercero, y más importante, Banta parece no darse cuenta de la diferencia entre ambigüedad del referente de la escalo de actitud y de la ambigüedad del reactivo. Como no lo menciona, debemos suponer que no determinó los valores Q (o alguna medida similar de ambigüedad de reactivo) de los reactivos en las tres escalas. Por consiguiente, no demuestra que lo que varía es la ambigüedad del referente de la escala de actitud, sino la de los reactivos particulares de cada escala. Un diseño de investigación más adecuado para examinar la ambigüedad del referente de la escala de actitud, mientras se mantiene constante la ambigüedad del reactivo, consistiría en usar una sola escala de, digamos, 20 reactivos, variándose el referente de la escala de actitud mientras se mantiene constante el resto del reactivo; "el presidente Eisenhower es amistoso", se cambiaría a "la gente en general es amistosa", etc. Por tanto, lo mismo la ambigüedad del reactivo que la ambigüedad del referente de la escala de actitud pudieron producir los resultados.

En resumen, Banta ha planteado una cuestión pragmática importante, es decir, ¿cuándo no producen resultados similares los métodos de Thurstone y Likert? El conocimiento científico suele avanzar solamente después que se han planteado interrogantes que vengan al caso. Por consiguiente, no debemos quitarle importancia a esta pregunta; pero a partir de los datos presentados no parece haberse dado ninguna respuesta.

LA COMPARACION DE BARCLAY Y WEAVER

Desde la investigación de Edwards y Kenney (1946), no habían recibido consideración empírica dos cuestiones significativas. La primera se refiere a la eficiencia relativa de los dos métodos, ¿Cuál de ellos produciría una escala de actitud satisfactoria en la menor cantidad de tiempo?. La segunda fue: ¿Cuál produciría la escala de actitud más válida, determinada por la correlación entre la puntuación de la escala de actitud y los criterios externos adecuados?. Barclay y Weaver (1962) se ocuparon de la primera de estas dos preguntas. Poppleton y Pilkington (1964) trataron la segunda.

Los dos primeros compararon dos aspectos de los métodos de Thurstone y Likert. Ambas comparaciones tienen importancia potencial. Empezaron comparando la confiabilidad de las escalas elaboradas por las técnicas de Thurstone y Likert a partir de una colección común de reactivos. Este fue el primer estudio que utilizó tal clase de colección reunida especialmente con ese propósito. Dicho de otra manera, esta fue la primera comparación hecha con escalas elaboradas por dos métodos, en la que los autores comenzaron desde el principio. Segundo, compararon la eficiencia relativa de los dos métodos. Como lo expresaron Barclay y Weaver, "La cuestión de la eficiencia relativa de las dos técnicas nunca se ha resuelto por completo. El propósito de este estudio es obtener mayor testimonio sobre el asunto", (1962).

Para llevar a cabo estas dos comparaciones, reunieron una colección de 250 aseveraciones sobre Hawai, las cuales provenían de turistas y visitantes militares de la isla. A partir de estos reactivos se elaboraron cuatro escalas de actitud: "Se elaboraron dos usando la técnica original desarrollada por Thurstone y Chave (1929), y las otras dos usando la técnica inventada por Likert (1932) y modificada por Edwards y Kenney (1946)".

Para elaborar las dos escalas de Thurstone de formas paralelas, seleccionaron a 100 estudiantes del último año de preparatoria, estudiantes graduados, instructores y profesores, que habrían de actuar como peritos. Estos siguieron los procedimientos generales de clasificación de las aseveraciones. Posteriormente, se aplicaron las pruebas Q y los otros procedimientos indicados por Thurstone para la selección de reactivos. Más tarde, se aplicaron las dos escalas de Thurstone a un solo grupo de 46 turistas. Para controlar la confusión de la muestra se aplicó la colección entera de reactivos (un cuestionario de nueve páginas) al mismo grupo de sujetos. De esta manera, los turistas sirvieron como sujetos y peritos de Thurstone y como sujetos de Likert. Además de los turistas, se aplicó el cuestionario a 29 estudiantes que actuaron como sujetos de Likert, pero que no contestaron el cuestionario de Thurstone.

Barclay y Weaver encontraron que el coeficiente de confiabilidad de las escalas de Thurstone fue de .66 (no corregido). Con respecto al método de Likert, el coeficiente de confiabilidad fue de .97 (no corregido). La probabilidad de obtener estos resultados por azar es apenas de .01, Para evaluar la eficiencia comparativa de los dos métodos, Barclay y Weaver dedicaron un tiempo prudente a las diversas actividades requeridas en la elaboración de las escalas. El tiempo total de elaboración de las escalas de Thurstone fue de 8.049 minutos. El método de Likert requirió 5.620 minutos, exceptuándose lo siguiente: "Debido a que se emplearon los mismos reactivos en la construcción de ambas escalas, el tiempo empleado en reunirlos no se adjudicó a ningún método". Por tanto, "La diferencia de tiempo en favor de la técnica de Likert es de 2.429 minutos (40 horas y 29 minutos) y representa el 43.2% del tiempo requerido por la técnica de Likert. Esto es, sin duda, una ventaja considerable" .

Barclay y Weaver concluyen: "Ninguno de los estudios publicados anteriormente habían resuelto la cuestión de cuál método empleaba más tiempo, así que esta investigación se diseñó para dar una respuesta definida al problema, que es lo que se ha hecho".

Una conclusión más conservadora con respecto a sus hallazgos concuerde quizá con el procedimiento adecuado. Primero, su procedimiento para comparar la eficiencia relativa de los dos métodos es técnicamente anticuada. Seashore y Hevner (1933) y Jurgensen (1943) -entre otros- han indicado métodos para acelerar el proceso de elaboración de las escalas de Thurstone. Además, parece poco necesario para las comparaciones futuras de eficiencia, que estén maniatadas por computaciones manuales. La determinación de los valores Q, los valores escalares y otros cálculos pueden hacerse por medio de computadoras. Por medio de ellas y del uso de artefactos de lectura óptica -indicados por Webb (1951) -el proceso manual de los datos es virtualmente anticuado.

Varios errores técnicos disminuyen además el valor de su conclusión. Como se indicó anteriormente, no agregaron el tiempo empleado en reunir la colección original de reactivos a ninguno de los métodos. En efecto, sustrajeron una constante del tiempo empleado en construir cada escala; y esto tiene el efecto de inflar el porcentaje de la diferencia de tiempo entre los dos métodos. Para tomar un caso extremo, por ejemplo, 20 es el 200 por ciento de 10. Si sustraemos 5 de cada número, encontramos que 15 es el 300 por ciento de 5.

Su conclusión con respecto al número de peritos requerido no tiene en cuenta la investigación previa. Afirman que "la misma naturaleza de la técnica de Thurstone requiere el uso de un número moderadamente grande de personas para que juzguen el conjunto entero de aseveraciones de actitud". Edwards (1957), después de revisar las investigaciones de Nystrom (1933), Ferguson (1939), Rosander (1936), Uhrbrock (1934) y Edwards y Kenney (1946), concluyó: "La evidencia apunta a la conclusión de que puede usarse un número relativamente pequeño de peritos para obtener valores escalares confíables de las aseveraciones al usar el método de intervalos aparentemente iguales".

Finalmente, Barclay y Weaver seleccionaron un número desigual de personas para que actuaran como peritos de Thurstone y de Likert. Emplearon 100 personas como peritos de Thurstone y 75 como peritos de Likert. Del análisis de sus resultados, se desprende que esta desigualdad parece explicar aproximadamente 700 minutos de los 2.429 de diferencia de tiempo. Por consiguiente, se debe concluir que la comparación de Barclay y Weaver, concerniente a la eficacia relativa de los dos métodos, no es completamente satisfactoria. En vista de los adelantos recientes habidos en las técnicas de procesar datos es dudosa la significación de las comparaciones que usan el tiempo como criterio.

LA COMPARACION DE POPPLETON-PILKINGTON

La comparación más reciente entre los dos métodos la hicieron Poppleton y Pilkington (1964), quienes elaboraron dos formas paralelas de una escala para medir actitudes religiosas usando el método de Thurstone para la recopilación de las aseveraciones. En un examen preliminar, se aplicaron cuestionarios a 120 sujetos. Luego de un análisis de reactivos se obtuvieron dos escalas finales, cada una compuesta de 22 reactivos.

Acto seguido, se aplicaron las dos escalas a dos grupos de 60 sujetos cada uno. A un grupo se le aplicó la forma A; y tres semanas después la forma B. Al segundo grupo se le aplicó la forma B; y la forma A tres semanas después. A todos los sujetos se les pidió que respondieran cada uno de los 22 reactivos en una de las siguientes formas: "completamente de acuerdo", "de acuerdo", "en duda", "en desacuerdo", y "completamente en desacuerdo".

El cuestionario se calificó por métodos diferentes: 1. "la calificación ordinaria de Thurstone de los reactivos que fueron apoyados"; 2. "la calificación de Likert. Las categorías de respuesta se valuaron en la forma: 5-4-3-2-1; y los valores se invirtieron en el punto medio de la escala". Se utilizaron otros dos métodos de calificación, que no se describen aquí.

La comparación de confiabilidad de Poppleton y Pilkington se encuentra en la tabla 4. En términos generales, encontraron que el método de Likert de calificación de una escala de actitud, elaborada por el método de Thurstone, era más confiable que el método de este último, pues los coeficientes de confiabilidad fueron de .95 en contraste con .85 (no corregidos).

Para analizar la validez de las puntuaciones de sus escalas de actitud, seleccionaron cinco clases de conducta religiosa que sirvieran como criterios comparativos de las puntuaciones de las escalas y obtuvieron medidas de informe de sí mismo sobre ellas. Las puntuaciones de actitud obtenidas por los dos métodos se correlacionaron con las conductas religiosas informadas por sí mismo. La tabla 5 resume sus resultados.

El método de Likert fue ligeramente más válido en cuatro de los cinco criterios, y con la misma validez el de Thurstone en un solo criterio. En vista de que el propósito de su trabajo era evaluar la confiabilidad y la validez comparativa de los cuatro métodos de calificación, y ya que ninguno de los métodos produjo consecuentemente la validez más alta o más baja, concluyeron que ninguno de los cuatro métodos demostró ser claramente superior a los demás.

De los datos de Poppleton y Pilkington se puede concluir que los métodos de Thurstone y de Likert tienen aproximadamente igual validez y que su validez predictiva es razonablemente alta. Sin embargo, con respecto a las comparaciones de validez es conveniente advertir que las escalas que se comparen deben tener coeficientes de validez similares. La confiabilidad y validez no son independientes entre sí. (Bohrnstedt). Específicamente, puesto que la escala de Thurstone fue menos confiable que la de Líkert, los autores no compararon en su totalidad la validez ,de los dos métodos en un nivel determinado de confiabilidadl'. Aunque la crítica sea poco significativa, es algo difícil generalizar sus hallazgos porque su comparación está más o menos limitada a sus propios datos.

CONCLUSION

Al comparar los métodos de Likert y Thurstone, aquél propuso inicialmente tres hipótesis acerca de su método para elaborar escalas de actitudes contrastándolo con el método de Thurstone; que su método (el de Likert) era 1º más rápido, 2º tan confiable o más y 3º tan válido o más que el de Thurstone. Aunque ya hay algunas investigaciones sobre las tres hipótesis, la información empírica varía tanto en calidad como en cantidad. Algunas preguntas pueden considerarse contestadas; otras, que han recibido poca atención empírica, todavía no pueden considerarse resueltas; algunas más, aunque no contestadas, tampoco parecen suficientemente importantes para garantizar atención futura; y hay, finalmente, preguntas aún en espera de ser formuladas.

Quedan dos problemas que parecen estar ya resueltos empíricamente. Primero, el método de Likert para la calificación de una escala de actitud con cualquier número de reactivos produce consistentemente resultados más confiables que el método de calificación de Thurstone, (Likert, 1932; Likert, Roslow y Murphy, 1938; Ferguson, 1941). Testimonios adicionales demuestran que el método de elaboración de la escala no altera la confiabilidad consecuentemente superior de la calificación de Likert. Por consiguiente, si la consideración principal en la elaboración de una escala de actitud es una alta confiabilidad, el método de calificación de Likert es preferible al de Thurstone, ya sea que la escala se haya construido por el método de uno u otro. Como lo indica la fórmula de Spearman-Brown, la confiabilidad está relacionada con el número de reactivos de una escala de actitud. Por consiguiente, para producir escalas con gran semejanza en sus coeficientes de confiabilidad se necesita ajustar solamente el número de reactivos a cada escala.

Segundo, se ha demostrado que si se elabora y califica una escala por el método de Likert, bastan ordinariamente 20 o 25 reactivos para producir una coeficiente de confiabilidad de .90 o más, el cual, como regla empírica, se considera suficientemente alto: Sin embargo, una escala de 20 o 25 reactivos, elaborada y calificada por el método de Thurstone, no es por lo común lo bastante larga para lograr un coeficiente de confiabilidad de .90. Para lograr este nivel de confiabilidad (.90), una escala calificada por el método de Thurstone necesita contener aproximadamente 50 reactivos o itemes.

Una cuestión que necesita mayor estudio es la cantidad de tiempo que requiere construir una escala de Thurstone o de Likert, especialmente si se recurre a la tecnología de las computadoras. Aunque el tiempo de elaboración de la escala no es de importancia capital cuando se va a decidir qué método usar, las estimaciones realistas del tiempo que toma la elaboración serían útiles para planificar los horarios de investigación y para propósitos pedagógicos. Aunque muchos investigadores han indicado que el método de elaboración de Likert es más rápido que el de Thurstone -Likert, Edwards y Kenney, y Barclay y Weaver- no conocen datos referentes a la cantidad real de tiempo que toma elaborar una escala de Thurstone o de Likert.

Usar la calificación de Likert en escalas obtenidas por la técnica de Thurstone tiene la desventaja de mezclar modelos teóricos. Es mejor evitar este eclecticismo teórico. Sin embargo, para citar precedentes, otros autores -Eysenck y Gpwn (1949) y Castle (1953)- han combinado estos modelos teóricos en investigaciones empíricas sobre escalas de mayor confiabilidad.

Algunas consideraciones parecen justificar una especial atención al problema. Una de ellas es que la construcción de escalas por el método de Likert y su calificación por el método de Thurstone, como lo hizo Ferguson, resultó insatisfactoria según lo mostró este autor. Otra es que la comparación del tiempo de elaboración de una escala, usando el procedimiento original de Thurstone, como lo hicieron Barclay y Weaver, ha sido invalidada por las muchas innovaciones de ahorro de tiempo, Edwards (1967), así como por el empleo de computadoras.

Finalmente, quedan todavía por estudiarse determinadas materias. Por ejemplo, Fishbein (1967) indica que las técnicas de Thurstone y de Likert son teóricamente diferentes y no susceptibles de esfuerzos combinados. Sin embargo, los datos indican que la calificación de Likert a las escalas de Thurstone incrementa la confiabilidad de éstas. Que pueda o no darse un fundamento teórico a este procedimiento útil y pragmático queda aún por considerar. No ha habido tampoco comparaciones empíricas de las confiabilidades de test-retest de las escalas de Thurstone y Likert; ni ha habido ninguna comparación empírica de la validez de criterio de las escalas elaboradas con esas técnicas. Esto no significa que la confiabilidad de test-retest y la validez de criterio nunca se hayan determinado para las escalas elaboradas por las técnicas de Thurstone y Likert. Sin embargo, no existen estudios en la bibliografía existente que comparen la confiabilidad de test-retest o la validez de criterio de las dos técnicas.

En conclusión, se puede señalar que no se pueden comparar directamente los métodos de Thurstone y de Likert. Solamente se pueden comparar las escalas que se han elaborado y calificado por un mismo método y las escalas elaboradas y calificadas por el otro. Por consiguiente, una comparación aislada de varias escalas (o varias comparaciones de varias escalas) difícilmente se presta para generalizar sin restricciones. Para contestar las preguntas anteriores hacen falta muchas comparaciones y muchos investigadores que las realicen, usando escalas para numerosos campos de la actitud.

BIBLIOGRAFIA

Barclay, John E., y Herbert B. Weaver. 1962 "Comparative reliabilities and the ease of construction of Thurstone and Likert attitude scales". The Journal of Social Psychology 58: 109-120.
Banta, Thomas J. 1961 "Social attitudes and response styles". Educational and Psychological Measuremeni 21: 543-557.
Bird, C. 1940 Social Psychology. Nueva York, Appleton-Century,
Campbell, Donald T., y Donald W. Fiske. 1959 "Convergent and discrimínant validation by the multitraitmultimethod matrix". Psychological Bulletin 56:81-105
Castle, P.F.C. 1953 "A note on the scale-product technique of attitude scale construction ". Occupational Psychology 27:104-109.
Droba, D.D. 1930 The Measurement of Social Attitudes: Attitude Toward War. Chicago, University of Chicago Press.
Edwards, Allen L. 1957 Techniques of Attitude Scale Construction. Nueva York: Appleton-Century-Crofts, Inc.
Edwards, Alten L., y Kathryn Claire Kenney. 1946 "A comparison of the Thurstone and Likert techniques of attitude scale construction". Journal of Applied Psychology 30:72-83.
Eysenck, H.J., y S. Crown. 1949 "An experimental study in opinion-attitude methodology. lnternational Journal of Opin ion and Attitude Research 3.47-86.
Ferguson, Leonard W. 1939 "The requirement of an adequate attitude scale". Psychological Bulletin 36:665-673.
Ferguson, Leonard W. 1941 "A study of Likert technique of attitude scale construction". Journal of Social Psychology 13:51-57.
Guilford, J.P. 1954 Psychometric Methods, segunda edición. London, McGraw-Hill.
Jurgenson, C.E. 1943 "A nomograph for rapid determination of medians". Psychometrika 8:265-269.
Likert, Rensis. 1932 "A technique for the measurement of attitudes". Archives of Psychology 22:1-55.
Likert, Rensis, Sydney Roslow y Gardner Murphy. 1934 "A simple and reliable method of scoring the Thurstone attitude scales". Journal of Social Psychology 5:228-238.
McNemar, Quinn. 1946 "Opinion-attitude methodology". Psychological Bulletin 43:298-374.
Murphy, G., y Rensis Likert. 1938 Public Opinion and the Individual: Nueva York, Harper.
Nystrom, G.H. 1933 "The measurement of Filipino attitudes toward America by the use of the Thurstone technique". Journal of Social Psychology 4:242-252.
Poppleton, Pamela K., y G. Pilkington. 1964 "A comparíson of four methods of scoring an attitude scale in relation to its reliability and validity". British Journal of Social and Clinical Psychology 3:36-39.
Rosander, A.C. 1936 "The Spearman-Brown Formula in attitude scale construction". Journal of Experimental Psychology 19:486-495.
Rundquist, E.A., y R.F. Sletto. 1936 Personality in the Depression. Minneapolis: University of Minnesota Press.
Seashore, R.H., y Kate Hevner. 1933 "A time saving device for the construction of attítude scales". Journal of Social Psychology 4:366-372.
Thurstone, Louis, L. 1927 "A law of comparative y judgment", Psychological Review 34:273-286.
Thurstone, Louis, L., y E.J. Chave. 1929 The Measurement of Attitude: A Psychological Method and Some Experiments With a Scale for Measuring Attitudes Toward Church. Chicago, University of Chicago Press.
Uhrbrock, R.S. 1934 "Attitudes of 4,430 employees". Journal of Social Psychology 5:365-377.
Webb, Sam C. 1951. "A generalized scale for measuring interest in natural science subjects". Educational and Psychological Measurement 11:456-569.

subir índice

Artículo Febrero 2008

COMPARACIONES EMPÍRICAS ENTRE LAS DISTINTAS TÉCNICAS PARA MEDIR ACTITUDES

Tecnicas de Thurstone y Likert

Dos de los métodos mas importantes y permanentes para construir escalas de actitudes fueron desarrollados por Louis Thourstone y Rensis Likert. No obstante las innovaciones recientes, como la escala de Guttman, sus métodos continúan usándose mucho y sigue la discusión sobre las ventajas de uno sobre otro. Analicemos algunos de los estudios tendientes a establecer directa y empíricamente la validez, confiabilidad y eficiencia relativas de las técnicas de Thurstone y Likert en la construcción de escalas de actitudes.

El método de Thurstone tiene origen en los intentos de los psicofísicos de finales del siglo XIX y principios del XX que se proponían relacionar los juicios psicológicos y los continuos físicos siguiendo el método de comparación por pares. La "ley del juicio comparativo", de Thurstone (1927), aportó el fundamento para colocar los estímulos psicológicos sobre un continuo independiente de cualquier orden físico subyacente. Esto represento un avance importante en el desarrollo de la medición psicológica dado que la base del continuo psicológico ya no estaba ligada directamente a sensaciones físicas.

Como resultado directo de estos primeros esfuerzos, Thurstone y Chave (1929) produjeron su obra clásica sobre la medición de actitudes, donde sugirieron una opción mas breve y sencilla que el método de comparación por pares. Este método mas sencillo se conoce comúnmente como método de Thurstone o método de intervalos aparentemente iguales. Por ejemplo, en la exploración de la relación entre los juicios psicológicos y el continuo físico de peso, se pidio a un sujeto qua pusiera en orden jerárquico a diez objetos. En el método de comparación por pares, el sujeto tuvo qua comparar cada pareja posible de objetos y decir cual de los dos que estaba sosteniendo era el mas pesado. Este procedimiento produce n(n - 1)/2 comparaciones; con 10 objetos produce 45 comparaciones; y con 50 objetos se necesitan 1225 comparaciones. En el modelo inicial, Thurstone y Chave no lo consideraron definitivo para la construcción de escalas de actitudes, e indicaron que "la escala ideal tendría que construirse exclusivamente por votación"

En 1932, Likert informó de un método de construcción de escalas de actitud al que considero mas sencillo y que usaba la votación solamente. Y desde entonces se discute si el método de Likert es o no una opción adecuada o superior al método de Thurstone.

Aunque las comparaciones conceptuales y teóricas de ambos son extensas, ha habido pocos intentos por someter a prueba empírica sus características relativas; tampoco se tiene noticia de que en fechas recientes se hayan tratado de resumir tales comparaciones. Esta escasez de comparaciones empíricas directas es sorprendente. McNemar (1946) encontró que entre el principio de la medición de actitudes y los datos de su articulo, se habían escrito mas de 800 artículos, estudios y libros acerca de la medición de actitudes y de opinión publica. La tasa de producción se ha declinado, ciertamente, después de esa época. Sin embargo, después de una extensa búsqueda de estudios que aludieran a la construcción, aplicación, o ambas, de las escalas de Thurstone y Likert como base de una comparación empírica directa de los dos métodos, solamente se encontraron ocho artículos. En orden cronológico Son los siguientes:

La comparación de Likert

La primera comparación de los métodos de Thurstone y Likert la hace este mismo al proponer su método de construcción de escalas (Likert, 1932). Realmente, desarrollo dos métodos, el "método sigma" y el "método de 1-2-3-4-5". El segundo resulto mas sencillo y se correlaciono altamente con el método sigma (Likert, 1932). El método de 1-2-3-4-5 se conoce generalmente como el método de Likert o el método de estimaciones sumatorias. En esta primera comparación, señalo que el método de Thurstone. "es... excesivamente laborioso" . Y además indico: "Parece legitimo preguntar si efectivamente trabaja mejor que las escalas mas sencillas que pueden emplearse, y de la misma manera averiguar sino es posible construir escalas igualmente confiables sin hacer suposiciones estadísticas innecesarias". No obstante, concluyo: "Estoy muy lejos de pensar que los datos que aquí se ofrecen pongan termino a la cuestión". Aun mas concretamente, Edwards y Kenney (1946) señalan las cuatro hipótesis cardinales que hace Likert al referirse a su método de estimaciones sumatorias:

1.- Evita las dificultades que se presentan cuando se recurre a un grupo de peritos, para construir la escala
2.- La construcción de una escala de actitud por el método sigma es mucho mas fácil que usar un grupo de peritos para que coloquen las aseveraciones en grupos y, de ahí, calcular los valores escalares
3.- Produce confiabilidades tan altas como las obtenidas por otras técnicas con menos reactivos
4.- Da resultados semejantes a los obtenidos con la técnica de Thurstone.

Mas comúnmente, el método de estimaciones sumatorias parece evitar muchos de los defectos de los métodos existentes de medición de actitudes, pero al mismo tiempo conserva la mayoría de las ventajas de los métodos actuales. Estas afirmaciones, debe señalarse, han sido vigorosamente discutidas, principalmente por Bird (1940) y Ferguson (1941). (Edwards y Kenney, 1946,).

De orientación pragmática, la hipótesis 1 afirma que el método de Likert evita las dificultades que se originan por el empleo de peritos. Si esto es verdad, debe reflejarse en confiabilidades, cifras de validez y equivalencias entre las escalas mas altas, y en disminución de gasto de tiempo y dinero. Por consiguiente, la hipótesis 1. puede incluirse dentro de las tres siguientes. En resumen, las hipótesis restantes afirman, muy generalmente, que el método de Likert es tan confiable, tan valido y tan fácil de aplicar, o mas, que el método de Thurstone. Cada una de estas hip6tesis esta sujeta a verificación empírica directa. Por consiguiente, se usa como base para examinar las comparaciones empíricas de ambos métodos.

Para probar las hipótesis anteriores, Likert (1932) uso los datos obtenidos en un proyecto de investigación que inicio en 1929 junto con Gardner Murphy. En cuanto al aspecto principal de la investigación, se reunieron preguntas sobre cinco áreas de actitudes: relaciones internacionales, relaciones raciales, conflicto económico, conflicto político y religión. Para ello elaboraron tres escalas a partir de los reactivos reunidos, es decir, una escala de internacionalismo (24 reactivos), una escala de imperialismo, (12 reactivos) y una escala sobre los negros (15 reactivos). Con estas escalas, se aplicaron cuestionarios que comprendían las tres escalas, a mas de 2000 estudiantes en nueve universidades. De estos 2000 cuestionarios se seleccionaron, al azar, 650 para análisis completo. En la actualidad se emplea la tecnología de las computadoras. Al mismo tiempo, aplico la escala de Thurstone-Droba sobre la guerra (Droba, 1930) a dos de los nueve grupos de estudiantes universitarios. Con estos datos, Likert contrastó de dos maneras los métodos de Thurstone y Likert para construir escalas. Primero, comparó las confiabilidades de dos escalas que se elaboraron independientemente por las dos técnicas de construcción de escalas; la escala de internacionalismo de Likert se comparo con la escala de Thurstone-Droba sobre la guerra. Segundo, comparo las confiabilidades producidas por el par de técnicas cuando se califico la misma escala (la escala sobre la guerra, de Thurstone-Droba).

Para la primera comparación, entre las confiabilidades de la escala de internacionalismo y la escala de Thurstone-Droba (formas A y B; con 22 (temas o reactivos cada una), se utilizaron datos de los grupos C y F a los que se habían aplicado ambas escalas. Nótese que la confiabilidad de división a la mitad de la escala de internacionalismo (en los dos grupos que completaron tanto la escala de internacionalismo como la escala de Thurstone-Droba sobre !a guerra) fue la misma en cada grupo: .88 (corregida por atenuación mediante la formula de Spearman-Brown). Por comparación, las confiabilidades de los mismos dos grupos en la escala sobre la guerra fueron de .88 y .85 (corregidas). Usando cerca de la mitad del numero de reactivos, la técnica de Likert produjo una escala con una confiabilidad de división a la mitad igual a la de la escala de Thurstone, o dio una confiabilidad mas alta usando el mismo numero de reactivos. La interpretación de estos resultados es que innegablemente es posible construir una escala de actitud por el método de Likert, que proporciona confiabilidades tan altas o mas que las producidas por el método de Thurstone.

Likert encontró asimismo que estas dos escalas, elaboradas independientemente, se correlacionaron a .67 o .78 (corregida). Sin embargo, seria incorrecto interpretar estos datos como indicación de que los dos métodos produjeron escalas igualmente validas, puesto que inicialmente no se desarrollaron para medir la misma cosa. Indicar posteriormente que parecen medir la misma cosa es un análisis post hoc que no puede considerarse prueba de validación convergentes.

La segunda comparación de Likert consideró los procedimientos de calificación utilizados por ambos métodos. A uno de los grupos, el grupo C, se le aplicó la escala sobre la guerra una segunda vez. Sin embargo, se modificaron las instrucciones pidiéndose a los sujetos que indicaran sus actitudes por el método de Likert, quien encontró que en cada forma de la escala de Thurstone-Droba sobre la guerra había cuatro reactivos que no podían calificarse significativamente usando su propio método. Por consiguiente, los excluyó dejando 18 reactivos en cada forma de la escala. Sin embargo, Likert encontró que tres de sus escalas correlacionaban entre si (de .34 a .63, sin corregir); y también advirtió que esto probablemente indicaba la presencia de un factor común en todas ellas.

La tabla 2 resume los resultados obtenidos. En general, Likert encontró que su método de calificación produjo una confiabilidad mas alta que la del método de calificación de Thurstone en la misma escala. Explico este resultado indicando que en el procedimiento de calificaci6n de Likert, "cada aseveración se convierte en una escala". También encontró que los dos métodos de calificación de la misma escala se correlacionaban altamente: .92 (corregida). No se hace ninguna consideración, sin embargo, sobre la cuestión de que tan válida puede ser una puntuación en sentido absoluto. Es decir, no se analiza si las escalas miden efectivamente lo que se proponen medir.

La comparación de Likert, Roslow y Murphy

Para comprobar mejor las hipotesis de Likert, de que su procedimiento de calificacion produce resultados mas confiables que el procedimiento de calificacion de Thurstone cuando se aplica a una escala de este mismo, Likert, Roslow y Murphy (1934) seleccionaron diez escalas de actitudes, que habían construido por el procedimiento de Thurstone. Después trataron de determinar si el "metodo de calificación de Likert mostraba consistentemente que era satisfactorio". Las escalas median actitudes hacia el control de la natalidad, los chinos, el comunismo, la evolucion, los alemanes, Dios (2), los negros y la guerra (2). Los autores no explican su motivación para seleccionar estas escalas particulares.

Cada una de las diez escalas de Thurstone constaba de dos formas paralelas; en total eran 20 escalas. Con respecto a cada una de estas, se elaboró una escala modificada (adecuada para la calificación de Likert). Como indico Likert (1932) algunos reactivos seleccionados para una escala de Thurstone no son adecuados para una escala del primero. Likert descubrio que algunos reactivos de doble significado hacían imposible determinar que valor asignar, si el 1 o el 5, e la opcion "completamente de acuerdo". Por ejemplo, las personas qua se rechazan fuertemente y las quo favorecen vigorosamente al adiestramiento militar obligatorio podían estar completamente de acuerdo con la aseveración: "el adiestramiento militar obligatorio en todos los países debe reducirse pero no eliminarse". Dos personas con actitudes opuestas acaso apoyaran la aseveración, según la parte de esta ("no eliminarse" o "reducirse") a la que la persona respondiese.

Por consiguiente, para modificar cada una de las de Thurstone, se excluyeron entre 1 y 6 reactivos. De esta manera se derivo un total de 20 escalas adecuadas para el procedimiento de evaluación de Likert, a partir de las 20 de Thurstone, o sea, Un total de 40 escalas. Debe señalarse, empero, que solamente se aplicaron las 20 escalas de Thurstone a los sujetos. Las de Likert se formaron después que se habían llenado los cuestionarios, que se calificaron luego, sencillamente, conforme al metodo de Likert y excluyendo los reactivos que se consideraron inconvenientes.

Estas escalas se administraron a 12 grupos de estudiantes universitarios varones, en Nueva York, así como a un grupo de estudiantes varones del ultimo año de preparatoria, que se supone vivían también en Nueva York (13 grupos en total). Pero no todas las escalas de actitudes se aplicaron a todos los grupos. Las dos formas de cada escala se aplicaron a grupos que variaban desde 1 hasta 7 estudiantes. Algunos grupos completaron solamente las formas paralelas de una sola escala, mientras otros completaron las formas paralelas de cinco.

Se instruyo a los estudiantes como sigue: "Si esta de acuerdo con una aseveración ponga un signo de mas; si esta completamente de acuerdo con la aseveración, ponga un signo de mas rodeado por un circulo; si está en desacuerdo con una aseveración ponga un signo de menos; si esta totalmente en desacuerdo con la aseveración ponga un signo de menos rodeado por un circulo; si se encuentra indeciso, ponga un signo de interrogación". Despues que los estudiantes indicaron sus reacciones, se calificaron las escalas por los métodos de Thurstone y Likert. En la calificación de las escalas por el metodo del primero, se considero cada signo de mas una ratificación; los signos de menos y los de interrogación se consideraron no ratificaciones. En la calificación por el metodo de Likert se determino primero la dirección del reactivo. Concretamente los investigadores preguntaron: ¿una respuesta de + (completamente de acuerdo) indica una actitud favorable o desfavorable?. Después se asignaron valores numéricos (1-2-3-4-5) a cada respuesta en la forma habitual de Likert.

La tabla 3 presenta los resultados típicos obtenidos. En general, el metodo de ratificación de Likert produjo confiabilidades más altas que las del metodo de Thurstone: En las 27 comparaciones solamente una vez el metodo de Thurstone produjo una escala con una confiabilidad igual a la del metodo de Likert y nunca una confiabilidad mas alta.

Una posible explicacion de estos resultados seria que los reactivos mas inconfiables de la escale de Thurstone (los que tienden a caer cerca de las categorías neutrales) son excluidos de la escala mas a menudo cuando se califican por el metodo de Likert. "En general, las aseveraciones cuyos valores escalares en el método de calificacion de Thurstone cayeron en medio de la escala (de 8.0 a 6.0) fueron las que resultaron insatisfactorias. . :" (Likert, Roslow y Murphy, 1934). En el grado en que se excluyeron los reactivos menos confiables, de la calificación de Likert, la escala, como un todo, se hizo más confiable. En verdad, si este fuera el caso, uno esperaría que, cuando se excluyeran muchos reactivos inconfiables, la calificación de Likert resultaría mas favorable que el metodo de Thurstone, y no así al excluirse solamente uno o unos cuantos reactivos inconfiables, y viceversa. Después de examinar los datos, este no parece ser el caso. Por consiguiente, rechazamos esta hipótesis alterna.

Al mismo tiempo, los autores concluyeron que "Las puntuaciones obtenidas por los dos metodos se correlacionan en alto grado, lo que indica que miden la misma cosa". Estos resultados prestan mas apoyo a la hipótesis de Likert de que cuando se califica una escala construida por el procedimiento de Thurstone, el método de calificacion de Likert da resultados mas confiables que el método de aquel. Puesto que los dos metodos se correlacionan altamente, son casi equivalentes o, dicho en otra forma, igualmente validos.

La comparación de Ferguson

Ferguson indica que las conclusiones de Likert (1932) derivadas de sus datos carecían parcialmente de fundamento. Ya que el articulo de Likert, Roslow y Murphy (1934) fue una extensión del trabajo de Likert, las criticas de Ferguson son aplicables a los dos artículos. Ferguson sostuvo que "procurando simplificar este laborioso procedimiento (el método de Thurstone), Likert (1932) ideo una técnica que, según el, eliminaba la necesidad de un grupo de peritos" (1941). Sin embargo, mientras el indico, como lo hizo Likert, que aumentando el numero de respuestas posibles en la escala se incrementa la confiabilidad, este hecho no supera la necesidad de un grupo de peritos. Para hacer esta afirmación, Ferguson sostuvo que: "Likert uso una escala que fue construida por el método de intervalos aparentemente iguales, de Thurstone. Como las aseveraciones habían sido seleccionadas por el procedimiento de clasificación, parece infundado concluir que el método de Likert elimina la necesidad de peritos.

Aunque la critica de Ferguson parece valida e importante, debe señalarse que se aplica solamente al procedimiento de comparar escalas elaboradas primero por el método de Thurstone y calificadas después por ambos metodos. Este es el procedimiento seguido por Likert (1932) en su comparación de las calificaciones de Thurstone y Likert con respecto a la escala de Thurstone-Droba sobre la guerra; y es el mismo aplicado por Likert, Roslow y Murphy, al comparar las confiabilidades de las calificaciones de Thurstone y Likert en 10 escalas originales de Thurstone. Como se indico antes, estos procedimientos comparan solamente el método de calificación, no los métodos de elaboración de escalas. La critica no se aplica a la comparación de Likert entre su escala de internacionalismo, derivada independientemente, y la escala de Thurstone-Droba sobre la guerra, hecho qua no advierten ni Ferguson (1941) ni Edwerds y Kenney (1946). Esta comparación, sin embargo, tampoco satisface las indicaciones de Ferguson y Edwards y Kenney para una comparación adecuada, ya qua no se pretende expresamente qua las dos escalas sean medidas de la misma actitud. Por consiguiente, no se demostró que el metodo de Likert para construir escalas fuese una alternativa igual o superior al método de Thurstone.

Ferguson indico mas tarde que, para probar las hipótesis de Likert, "Se deben comparar escalas construidas (independientemente del método de Thurstone) por la tecnica de Likert con las elaboradas por el método de intervalos aparentemente iguales". Ferguson complementó la indicación anterior al proponer: "Puede lograrse una prueba mas conveniente reordenando una escala, construida con la técnica de Likert, por el metodo de Thurstone. Si la técnica del primero excluye la necesidad de un grupo de peritos, los dos metodos de tratar las aseveraciones tendrán que arrojar los mismos resultados" [Edwards y Kennedy señalan la inconsistencia clue se revela entre la lógica de la critica que Ferguson hace a las conclusiones de Likert y los medios de que se vale para complementar su propia sugerencia (1946)]

Para hacer su comparación, Ferguson seleccionó la escala de la Encuesta de Opiniones, de Minnesota (Rundquist y Sletto, 1936). Las escalas fueron cinco: acerca de moral, familia, relación social, nivel económico y educación. El cuestionario se aplico a 100 sujetos. Una vez que estos completaron el cuestionario, se les pidió evaluar cada una de las escalas, es decir, que colocaran los ítemes o reactivos de cada una formando un continuo de once puntos, desde favorable hasta desfavorable (como lo hacen los peritos en el procedimiento de Thurstone). Mas tarde se calcularon los valores escalares y los valores Q, representando cada una de las aseveraciones en su escala correspondiente. Ferguson encontró que, de las cinco escalas, solamente una de ellas -la de nivel económico- poseía valores escalares mas o menos dispersos y distribuidos uniformemente en el continuo. Las otras cuatro contenían afirmaciones que "representan únicamente actitudes muy favorables o muy desfavorables en el continuo". Por ejemplo, "en la escala de moral hay siete aseveraciones entre los puntos 7 y 8 de la escala, pero solamente dos entre los puntos 3 y 4. En la escala de familia hay ocho aseveraciones entre 7 y 8, y ninguna entre 3 y 6"

Ferguson señala, del mismo modo, que "Si una persona concuerda con una aseveración cercana a los puntos 7 y 8, teoricamente debe concordar con todas las que se agrupen alrededor del mismo valor; de manera que, si no hay un numero igual de aseveraciones en otras posiciones, la escala esta cargada artificialmente". Y termina con esta conclusión algo dudosa:

Ya que la escala de nivel económico tiene la distribución mas adecuada de aseveraciones sobre el continuo (pero también los valores Q mas altos), las puntuaciones determinadas por los dos metodos se correlacionaron entre si y el valor encontrado fue de .70, lo que confirma ampliamente la conclusión de que la tecnica de Likert para construir escalas de actitud no evita la necesidad de un grupo de peritos,

En resumen, Ferguson planteo una cuestión importante acerca de la adecuación de la mayoría de las comparaciones previas. Edwards y Kenney, como Ferguson, pasan por alto la comparación hecha por Likert de la escala de Thurstone-Droba sobre la guerra y la escala de internacionalismo de Likert. Hizo ver que los estudios anteriores habían comparado solamente los procedimientos de calificación, pero no los métodos completos de construcción de escalas de actitud. Desafortunadamente, este diseño de investigación estuvo mal adaptado a la tarea que se propuso.

La comparación de Edwards y Kenney

Como se indicó antes, Edwards y Kenney (1946) resumieron la comparación de Likert acerca de la mayor conveniencia del metodo de Likert sobre el metodo de Thurstone en cuatro hipótesis:

1 Evita las dificultades surgidas del empleo de un grupo distinto de peritos,
2 es mas fácil,
3 es tan confiable o mas, y
4 da resultados igualmente validos o mas.

la hipótesis 1, se incluyo en las otras tres.

Edwards y Kenney estuvieron de acuerdo con Ferguson (1941) en su critica de Likert: "Ya que las aseveraciones (utilizadas por Murphy y Likert) habían sido seleccionadas por el procedimiento de clasificación (el de Thurstone), parecería infundado concluir que el metodo de Likert eliminó la necesidad de un grupo de peritos" (Ferguson, 1941). Además, Edwards y Kenney concordaron con la sugerencia de Ferguson sobre una prueba mas adecuada: "Para probar este aspecto adecuadamente, deben compararse las escalas construidas (independientemente del metodo de Thurstone) por la técnica de Likert y las construidas por el metodo de intervalos aparentemente iguales".

Pero, mientras Ferguson no explica enteramente su propia sugerencia, Edwards y Kenney si lo hacen. Afirman que "Una comparaci6n valida de las técnicas de Thurstone y Likert, en nuestra opinión, debe partir de un grupo original de reactivos, no de los reactivos ya seleccionados por el procedimiento de Thurstone y después calificados por el metodo de Likert; y no con reactivos seleccionados por el procedimiento de Likert para luego hacer la escala por la técnica de Thurstone". (Edwards y Kenney, 1946).

Por consiguiente, Edwards y Kenney dividieron al azar a 72 estudiantes en dos grupos iguales. A un grupo se le pidio que juzgara las aseveraciones conforme al procedimiento de Thurstone, mientras que al otro se le pidio que diera respuestas, del tipo de Likert, a las mismas aseveraciones. Las aseveraciones fueron la colección entera de reactivos usados originalmente por Thurstone y Chave en la construccion de una escala para medir actitudes hacia la iglesia. Dos días después, el primer grupo dio respuestas de Likert a las mismas aseveraciones y el segundo actúo como un grupo de peritos de Thurstone. Usando estos datos, se emplearon los procedimientos típicos para formar das escalas equivalentes de Thurstone, de 20 reactivos cada una, y una escala de Likert de 25 reactivos. De los 25 reactivos usados en la escala de Likert, se tomaron 5 para una u otra escala de Thurstone. Después, 80 nuevos estudiantes elegidos al azar fueron asignados a dos grupos aproximadamente iguales. El primer grupo completo un cuestionario que contiene las dos escalas de Thurstone seguidas por la escala de Likert. El procedimiento se invirtió en el segundo grupo.

Edwards y Kenney encontraron que la escala de Likert produjo una confiabilidad de división a la mitad de .94, mientras que las escalas de Thurstone produjeron una confiabilidad de formas paralelas de .88 (no corregida). Encontraron que la forma 11 se correlaciono en un .72 con la escala de Likert (.79 no corregida) y que la forma B se correlaciono en un .92 con la misma escala (1.00 corregida). Concluyeron entonces que "es posible construir escalas por los dos métodos y producir aun puntuaciones semejantes. Esto es lo que queremos dar a conocer"

A partir de sus datos, Edwards y Kenney llegaron además a la conclusión de que:

1. Las escalas construidas por el método de Likert, con menos reactivos, producen coeficientes de confiabilidad mas altos que las escalas construidas por el metodo de Thurstone.
2. Las pruebas que tenemos (y son subjetivas) parecen indicar que la tecnica de Likert requiere menos tiempo y es menos laboriosa que la de Thurstone.
3. Es verdad que los reactivos seleccionados conforme a Likert tienden a ser los que caen en uno u otro extremo del continuo de Thurstone, cuando para ubicarlos en la escala, se acude a la técnica de Thurstone. Pero, por lo que toca al grupo de peritos, la implicación de este resultado es mas teorica que practica.

El problema importante es el de si las puntuaciones obtenidas en las dos escalas construidas en forma diferente son semejantes y la evidencia que se tiene indica que si lo son. Hasta donde fue posible investigar, no hay nada de carácter practico que indique que un grupo de peritos, en el sentido de Thurstone, sea un prerrequisito para la construcción de una escala adecuada de actitud,

subir índice

Artículo Enero 2008

UNA TÉCNICA PARA MEDIR ACTITUDES

INTRODUCCIÓN

Los esfuerzos por medir los rasgos de carácter y personalidad datan casi de la misma época que las técnicas para medir la capacidad intelectual; pese a ello, muy difícil sería sostener que aquéllos hayan logrado un éxito similar. La dificultad radica, al menos en parte, en las dificultades estadísticas que se encuentran al considerar desde el punto de vista matemático los aspectos cotidianos de la conducta social que, ordinariamente se tratan como aspectos cualitativos. La presente exposicion, aunque parte de una investigación más amplia emprendida en 1929 por Gardner Murphy, se ocupa principalmente de la solución de un problema técnico que ha surgido en relación con los aspectos cuantitativos del estudio de las actitudes sociales.

La historia y la posición actual de la investigación sobre los rasgos de personalidad en general y las actitudes sociales en particular han sido revisadas extensamente por Murphy (21, págs. 381-386 y 22, págs, 558-690), Bain, Vetter (41), Katz y Allport (16), Watson (43).

Sin embargo, entre los centenares de esfuerzos dirigidos a medir las actitudes sociales realizados durante los últimos años, han recibido atención especial, con todo derecho, los cuidadosos procedimientos desarrollados por Thurstóne (34, 38). Se caracterizan por el empeño especial tendiente a igualar los intervalos de una actitud y otra, en la escala de actitud, usando para tales determinaciones los métodos familiares de la psicofísica. Los métodos de Thurstone han demostrado una confiabilidad satisfactoria y, en términos de correlaciones entre puntuaciones e historias de casos evaluadas por peritos, una validez igualmente satisfactoria

Existen muchas afinidades obvias entre esta presentación y los de Thurstone; no obstante, el presente informe constituye en cierta forma una separación radical de los conceptos que ha publicado Thurstone, como, por ejemplo, el empleo de peritos.

Se han hecho varias suposiciones estadísticas en la aplicación de sus escalas de actitudes -por ejemplo, que los valores escalares de las aseveraciones son independientes de la distribución de actitud de los lectores- que clasifican dichas aseveraciones -, las cuales, como señala Thurstone, no han sido verificadas. El método es además excesivamente laborioso. Parece legítimo. preguntar si efectivamente trabaja mejor que las escalas más sencillas y también si no es posible construir otras igualmente confiables sin hacer suposiciones estadísticas innecesarias. Ya que tanto se ha publicado acerca de la medición de actitudes, vale la pena hacer estas preguntas e informar de algunos resultados relativos al problema.

PROCEDIMIENTO

El proyecto concebido en 1929 por Gardner y Murphy y Lickert, se ocupó primeramente de presentar una amplia variedad de problemas que tienen que ver con estas cinco "áreas de actitud" importantes: relaciones internacionales, relaciones raciales, conflicto económico, conflicto político y religión.

El método por el cual se elaboró el cuestionario es el siguiente: después de haber decidido estudiar intensivamente el asunto de las actitudes internacionales, interraciales y económicas y, en menor grado, las actitudes políticas y religiosas, entre grandes números de estudiantes en universidades norteamericanas típicas, se hizo un examen de los cuestionarios aplicados, con los mismos propósitos, por otros psicólogos. Entre los que se encontraron particularmente útiles están los de G.B. Neumann, C.W. Hunter y R.W. George. Además, durante el otoño de 1929, se examinaron rápidamente cerca de 200 periódicos y revistas; se entresacaron declaraciones de opinión, prefiriéndose marcadamente los tipos más dogmáticos de opinión, encontrados a menudo en los editoriales. Se incluyó un número pequeño de preguntas tomadas de libros, discursos y panfletos y otro elaborado por los investigadores mismos. Siempre que fue posible usar material de cuestionario, que ya hubiera sido probado extensamente y dispusiese asimismo de alguna especie de "normas", se emplean las preguntas exactamente como se expresaron. En pocos casos fue necesario abreviar y simplificar las preguntas para estar seguro de que solamente se consideraba un asunto y de que se evitaba la ambigüedad. En todos los casos en las preguntas se buscaron principalmente la sencillez, claridad y brevedad.

En tosas se presentaron las preguntas en tal forma que permitían un "juicio de valor" y no "juicios descriptivos". Frases como "los Estados Unidos deben", o "deberíamos", o "a ninguna persona se le debe permitir", aparecieron constantemente. En pocos casos se percibe a primera vista que cierta pregunta se refiere a hechos precisos; pero un análisis más cuidadoso revelará el carácter altamente arbitrario de tales "hechos". Es probable que la menos deseable de todas las preguntas aplicadas fue la siguiente: "¿Es la guerra actual una necesidad biológica? " Esta pregunta pareció a muchos que era categóricamente una pregunta descriptiva; por ejemplo, desde el punto de vista neomalthusiano puede considerarse que sólo puede recibir una respuesta afirmativa. Sin embargo, el término "necesidad" se refiere aquí más a las actitudes del estudiante hacia varios deseos que hacia algunos tipos de necesidad discutidas por físicos o lógicos. No es ésta una defensa al uso de este reactivo particular, que creemos debe ser omitido; se da esta explicación solamente para esclarecer que, por lo menos en la gran mayoría de los casos y esperamos que en todos, la pregunta tiene que referirse a los deseos, anhelos, disposiciones voluntarias de los sujetos, y no a sus opiniones con respecto a situaciones de hecho.

Con la colaboración de instructores, se aplicaron los tests de actitudes a estudiantes no graduados (principalmente varones) de nueve universidades que se extienden desde Illinois a Connecticut y de Ohio y Pennsylvania a Virginia. El número total de individuos que participaron fue algo superior a 2000 pero los datos analizados ampliamente correspondieron solamente a 650 personas. El test de actitudes, llamado "Encuesta de Opiniones", se aplicó primero a fines del otoño de 1929 (a todos los grupos, con excepción del grupo C y el grupo F, a quienes se les aplicó en 1931), y mediante arreglos con los instructores se aplicó un retest 30 días después. Algunos reactivos del primero y muchos reactivos nuevos se incluyeron en el segundo test. El primero requirió en promedio 40 minutos aproximadamente y el retest un poco más.

El tipo de material del cuestionario que se usó se clasifica en cuatro categorías principales. En la primera, las preguntas se contestaron con un sí, con una marca en la pregunta o con un no; por ejemplo "¿Apoya usted la entrada inmediata de los Estados Unidos a la Liga de las Naciones? " "¿Sí o no? " En seguida venía una serie de preguntas de selección múltiple en las que se escogía una de cinco respuestas posibles, por ejemplo: "Usando el término "armamentos" para significar equipo diseñado para la guerra y no para fines policíacos, nuestra política debe propiciar: a) el desarme absoluto e inmediato de todas las naciones, b) la reducción rápida y drástica del armamento en todas las naciones, c) la reducción lenta pero firme de todo armamento, d) mantener durante largo tiempo el actual poderío militar y naval, e) nuestra libertad militar y expansión naval estorbada por los acuerdos con otras naciones". Tercero, había una serie de proposiciones para ser contestadas con las palabras a) aprobada totalmente, b) aprobado, c) en dudo, d) desaprobado, e) desaprobada totalmente; por ejemplo: "todos los individuos que tengan oportunidad deben alistarse en los Campos de Adiestramiento Militar". Cuarto, una serie de narraciones periodísticas abreviadas sobre conflictos sociales, que concluían en una oración que describía el resultado de este conflicto; se le pidió al estudiante que indicara w respuesta a este resultado; por ejemplo: "Un grupo de agricultores japoneses del sur de California, debido a su laboriosidad y a su bajo nivel de vida, puede vender más barato que sus competidores norteamericanos. Los agricultores norteamericanos insisten en que ES DEBER DE TODAS LAS PERSONAS BLANCAS COMPRAR SOLAMENTE A LOS AGRICULTORES BLANCOS". Esta forma de pregunta utiliza el mismo grupo de cinco respuestas mencionado, aprobado totalmente, aprobado, en duda, desaprobado y desaprobado totalmente.

RESULTADOS

El método sigma de calificación

Para comparar un tipo de aseveración con otro, por ejemplo el de "selección múltiple" con el de "aprobado totalmente", fue necesario idear una técnica especial. Con tal motivo se advirtió que un gran número de las aseveraciones de cinco puntos, es decir, las de "selección múltiple" o "aprobado totalmente" (en cada caso se le ofrecían al sujeto cinco alternativas para que escogiera una), producían una distribución semejante a la normal (véase tabla 1).

Con base en esta evidencia experimental y en los resultados de otros autores, parece estar justificado, para fines experimentales, suponer que las actitudes están distribuidas en forma claramente normal y extender esta suposición a la operación de combinar las diferentes aseveraciones. Nos percatamos plenamente de los posibles peligros inherentes en esta suposición; y por ello se formula sencillamente como parte de un enfoque experimental de la medición de actitud. Se espera que el trabajo subsecuente en este campo la hará innecesaria o probará su validez.

El porcentaje de individuos que marcaron cierta posición en una aseveración particular se convirtió en valores sigma. Esto se repitió con cada una de las aseveraciones de cinco puntos que se refieren al internacionalismo. La tabla 22 de las tablas de Thorndike facilita grandemente el cálculo. Estas tablas suponen que el 100% de los casos caen entre-3 y + 3 sigma. Los valores dados en la tabla son los valores sigma promedio de los intervalos representados por los porcentajes indicados; se considera que el origen está en la media. Las desviaciones sigma se tomaron siempre a partir de la media y se asignó el valor positivo al extremo que parecía propiciar el internacionalismo; y el negativo al extremo que favorecía el nacionalismo. Para evitar el uso de valores negativos se colocó el cero arbitrario en -3 sigma y no en la media. Estos signos se designaron de una manera arbitraria y después se verificaron objetivamente. Los valores sigma se computaron a partir de los porcentajes obtenidos en una muestra de 100 casos, todos varones, seleccionados dentro de una sola universidad. La tabla 2 registra el porcentaje de individuos que marcaron cada una de las diferentes opciones y los valores sigma correspondientes a la aseveración número 16 de la escala de internacionalismo.

Las aseveraciones elegidas fueron examinadas en cuanto a consistencia interna o "agrupamiento" determinando la confiabilidad al contrastar las aseveraciones impares con las pares. Las 14 aseveraciones de cinco puntos que se emplearon produjeron confiabilidades moderadamente altas al probarse en tres grupos diferentes de 30 a 35 sujetos cada uno. Dos de estos grupos eran de la misma universidad y el tercero de otra, que está en una región geográfica completamente diferente. Estos resultados indican la existencia de un "grupo" o variable de actitud que justifica tratarla como una unidad, esto por lo que toca a los tres grupos. Las confiabilidades obtenidas en estos grupos se dan en la tabla 3. Estos resultados y las consideraciones siguientes parecen justificar la afirmación de que la técnica de calificación sigma es la más satisfactoria para medir las actitudes. No solo parece evitar muchas de las dificultades que revisten los métodos actuales sino que conserva al mismo tiempo la mayoría de las ventajas de aquéllos.

En primer lugar, el método de calificación sigma satisface el requisito señalado por Thurstone:

Idealmente, la escala debería construirse solamente por medio de la votación. Es posible formular el problema de manera que los valores escalares de las aseveraciones puedan extraerse de los registros de votación efectiva. Si esto fuera factible, el procedimiento presente para establecer los valores escalares por clasificación sería inútil.

Se evitan, además, las dificultades que se encuentran cuando se recurre a un grupo de peritos para elaborar la escala. Varias de estas dificultades han sido señaladas por Rice; la cita siguiente se refiere a uno de los defectos principales de cualquier técnica que emplee cierto número de peritos: Las dificultades para elaborar escalas como la de Thurstone y aplicarlas a la medición de las actitudes de grupos sociales aumentan tan pronto como dejamos la clase, el club de debates y otros grupos pequeños, relativamente poco frecuentes y muy selectos, que disfrutan con la práctica de experimentar consigo mismos. Estos grupos ya han desarrollado maneras de articular sus actitudes. En cambio, los grupos de trabajo más numerosos de la sociedad son inaccesibles a las medidas controladas; es con respecto a sus actitudes que el científico social necesita mucho mayor información. En relación con la tarea de clasificación de las tarjetas que contienen las proposiciones, a los estudiantes se les puede pedir simplemente que lo hagan, a los profesores se les puede halagar y a las personas necesitadas se les pagaría por ello. Pero es difícil imaginar cómo obtener juicios semejantes o medidas satisfactorias, en la aplicación final, de albañiles, hombres de negocios, italo-norteamericanos, monjas, estibadores o costureras. Y, a menos que la escala se base en diferencias aparentemente iguales de una muestra al azar que pertenezca al grupo que se va a medir, su validez -el grado en que mide lo que se propone medir- queda a consideración.

Otra ventaja decisiva de la técnica sigma es que, con un menor número de reactivos, produce confiabilidades tan altas como las obtenidas por otras técnicas. Esto es posible porque enfrenta el problema de modo diferente al convencional. Ya desde antes se pretendía encontrar el valor escalar de cada aseveración particular a lo largo de un continuo; entonces, la puntuación de una persona se determinaba por el valor escalar de las aseveraciones que admitía. Sin embargo, en este estudio cada aseveración se convierte en una escala y la reacción de cierta persona a cada una de aquéllas da una puntuación. Después se combinan estas puntuaciones usando la mediana o la media. El estudio de Eggan, del cual informa Thurstone, aporta mayores pruebas en apoyo del método presentado.

Al considerar este método para medir las actitudes es necesario darse cuenta que, cuanto más fuerte es el grupo genérico en un extremo u otro del continuo de actitud, tanto más influye en las reacciones específicas. Cuando el grupo genérico no es fuerte, los reactivos específicos determinan en gran parte la reacción. A pesar de ello, en el último caso rara vez es muy intensa la reacción en favor o en contra; más bien es moderada. Es decir, las reacciones individuales, por lo que toca a esa actitud particular, no se desvían mucho del promedio.

La técnica sigma produce también puntuaciones cuyas unidades son iguales en toda la extensión de la amplitud. Además, se pueden obtener las clases de medidas con otras de las técnicas actuales. Por tanto, es posible obtener la medida más típica de la actitud de un individuo y también la amplitud o dispersión de la misma.

Es innecesario decir que la construcción de una escala de actitud mediante el método sigma es mucho más fácil que usando un grupo de peritos para que coloquen las aseveraciones en grupos y de ahí calcular los valores escalares.

Entre las características más notables del método de Thurstone para construir escalas de actitud están las pruebas objetivas que desarrolló con respecto a la ambigüedad e inadecuación. Si así se desea pueden aplicarse pruebas objetivas similares en la técnica sigma.

Método simplificado de calificación

Aunque la técnica sigma parece completamente satisfactoria para el uso propuesto, se decidió ensayar otra más sencilla para determinar si los resultados eran semejantes a los de aquélla. En tal caso, el método simplificado ahorraría mucho trabajo en un estudio de encuesta del tipo que hemos realizado. La técnica simplificada consiste en asignar valores de 1 a 5 a cada una de las cinco posiciones diferentes de las aseveraciones de cinco puntos. El extremo 1 se asignaría siempre al extremo negativo de la escala sigma; y el extremo 5, al positivo de dicha escala (véase tabla 2).

Después de asignar así los valores numéricos a las respuestas posibles, se determinó la puntuación de cada individuo encontrándose el promedio de los valores numéricos de las posiciones que marcó. En realidad se usó la suma de las puntuaciones numéricas y no la media porque el número de aseveraciones fue igual en todos los individuos. La confiabilidad de impares en contraste con los pares, produjo esencialmente los mismos valores que los obtenidos con el método sigma de calificación. Las puntuaciones obtenidas con este y con el método sigma se correlacionaron casi perfectamente como puede apreciarse en la tabla 4.
Los mismos resultados se obtuvieron cuando se asignaron los valores, 1, 3, 4, 5 y 7 a las diferentes posiciones que corresponden respectivamente a 1, 2, 3, 4 y 5. En el primer caso, se advertirá que se dio a los extremos un peso ligeramente mayor. Este método se correlacionó asimismo altamente con el método sigma y con el método de 1 a 5 como se indica en la tabla 4.

Tales resultados parecen justificar el uso de métodos más simples de calificación ya que producen resultados casi idénticos a los del método sigma y no contienen los errores que probablemente sí se presentan en las técnicas que usan expertos, peritos o evaluadores.

Comparación entre el método simplificado y el método de calificación de Thurstone

A los grupos C y F se les aplicó la escala sobre la guerra de Thurstone-Droba así como la Encuesta de Opiniones. La tabla 5 presenta los coeficientes de confiabilidad obtenidos con la escala y con la encuesta en ambos grupos. Los coeficientes de confiabilidad del test de Thurstone, obtenídos correlacionando la forma A y la B, fueron respectivamente de .78 y de .74 en dichos grupos. La confiabilidad de las dos formas combinadas. Determinada por la fórmula de Spearman-Brown, es .88 y .85, respectivamente. Se obtuvo la misma confiabilidad con nuestra escala de internacionalismo de 24 reactivos que la obtenida al combinar ambas formas de la escala de Thurstone-Droba con un total de 44 reactivos. En consecuencia, siguiéndose el método aquí descrito, en el que se pide a la persona que responda a la mitad de los reactivos, se obtiene una medida de la actitud, tan confiable como la proporcionada por el método de Thurstone. Los coeficientes de correlación entre la Escala de Internacionalismo y la escala de Thurstone-Droba se dan también en la tabla 5.

En virtud de que el método presentado aquí, al ser comparado con el método de Thurstone, dio pruebas de producir la misma confiabilidad con menos reactivos, o confiabilidades más altas con el mismo número de reactivos, se decidió aplicar el método de calificación de 1 a 5 en la escala, de Thurstone-Droba, sobre la guerra para confrontarlo con el método de calificación de Thurstone. A cada individuo del grupo C se le pidió que indicara si estaba completamente de acuerdo, de acuerdo, en duda, en desacuerdo o completamente en desacuerdo, con cada aseveración de la escala de Thurstone-Droba sobre la guerra, formas A y B.

No se calificaron cuatro aseveraciones de cada forma porque fue virtualmente imposible determinar si debería asignarse el valor 1 o 5 a la opción "completamente de acuerdo". Un ejemplo de estas aseveraciones es la número 5 de la forma A: "El adiestramiento militar obligatorio en todos los países debe reducirse pero no eliminarse". Es imposible decir si una persona concuerda o discrepa con el sentido de "reducción" que aparece en esta aseveración o con el sentido de "no eliminarse". Una persona que se oponga completamente al adiestramiento militar obligatorio discreparía mediana o fuertemente con el aspecto "no eliminarse'; mientras que una persona que lo apoye discreparía mediana o fuertemente con el aspecto "reducción"; que está en esa aseveración. Evidentemente, con respecto al método de calificación de 1 a 5, la aseveración tiene doble significado y es de poco valor porque no distingue a las personas en término de sus actitudes. Las personas en cualquier extremo del continuo de actitud pueden marcar fácilmente la misma opción.

Otro ejemplo de aseveración que no pudo usarse es la número 17 de la forma B: "Las guerras a menudo corrigen tremendos errores". Podía considerársela una aseveración relativa a un hecho y así ser aceptada o rechazada por una persona independientemente de su actitud. Las otras aseveraciones que no se usaron fueron:

.- Forma A, aseveraciones 8, 10 y 17.

.- Forma B, aseveraciones 5, 10 y 20.

El criterio de consistencia interna se usó como prueba objetiva para ver 1. si los valores numéricos se asignaron adecuadamente y 2. si cada aseveración diferenciaba los extremos de la manera esperada.

Se obtuvo los resultados esperados, los cuales se incluyen en la tabla 6. El método de calificación de 1 a 5 con menos reactivos, usado en cada forma, produjo un coeficiente de confiabilidad tan alto, en una forma, como el método de Thurstone en las dos formas combinadas.

Los dos métodos de calificación se correlacionan muy estrechamente a .83, cifra que al ser corregida por atenuación se convierte en .92. Es posible que si se hubieran usado las mismas aseveraciones en ambos métodos y no eliminando las cuatro mencionadas en cada forma con respecto a la calificación de 1 a 5, se hubiera obtenido un coeficiente de correlación entre ambos métodos todavía más alto

BIBLIOGRAFÍA

Allport, F.H., y D.A. Hartman. 1925 "The measurement and motivation of atypical opinion in a certain group". American Political Science-Review 19
Allport, G.W. 1929 "The composition of potitical attitudes". American Journal of Sociology 35
Allport, G.W., y P.E. Vernon. 1930 "The field of personality". Psychological Bulletin 27
Bain, R. 1930 "The theory and measurement of attitudes and opinion". Psychological Bulletin 27
Chave, E.J., y L.L. Thurstone 1931 The Measurement of Social Attitudes. Attitude Toward God, Scale No.22. Chicago, University of Chicago Press.
Droba, D.D. 1930 The Measurement of Social Attitudes. Attitude Toward War, Chicago, University of Chicago Press.
Filter, R.O. 1921 "An experimental study of character traits". Journal of Applied Psychology 5
Folson, J.K. 1930 Social Psychology, Nueva York: Harper.
Gene F, Summer, Mediciones de Actitudes, Editorial Trillas Mexico 1978
Hartshorne, H., y M,A. May. 1928 Studies in Deceit. Nueva York: MacMillan
Hartshorne, H., M.A. May, y J.B. Maller. 1929 Studies in Service and Selfcontrol. Nueva York: Macmillan.
Hartshorne, H., M.A. May, y F.K. Shuttleworth. 1930 Studies in the Organization of Character. Nueva York: Macmillan.
Hinckley, E.D. 1930 A Scale for Measuring Attitude Toward the Negro. Chicago: University of Chicago Press.
Katz, D., F.H, Allport y M,B. Jenness. 1931 "Students' attitudes; a report of the Syracuse University Reaction Study". Syracuse: Craftsman Press.
Kulp. D.H., II, y H. B. Davidson. 1931 "Can Neumann's Attitude Indicator" be used as a test? " Teachers College Records 32:
Maller, J. B. 1932 Character and Personality Tests. Nueva York; Teachers College.
Mathews, C.O, 1929 "The effect of the order of printed response words on an interest questionnaire". Journal of Educational Psychology 20:
Moore, H.T. 1925 "Innate factors in radicalism and conservatism". Journal of Abnormal and Social Psychology 20
Murphy, G. 1929 An Historical lntroduction to Modem Psychology. Nueva York; Harcourt, Brace and Company.
Murphy, G., y L.B. Murphy. 1931 Experimental Social Psychology, Nueva York;
Harper, Neumann, G.B. 1927 A Study of International Attitudes of High School Students. Teachers College Contribution to Education, núm. 239,
Newcomb, T.M. 1929 The Consistency of Certain Extrovert-introvert Behavior Patterns in 51 Problem Boys, Teachers College Contributions to Education, núm. 382.
Rice, S.A. 1930 "Statistical studies of social attitudes and publíc opinion". En la obra de Rice, S.A. (director), Statistics in Social Studies. Filadelfia; University of Pennsylvania Press.
Trow, W.C. 1925 "Trait consistency and speed of decision". School and Society 21:
Vetter, G. B. 1930 "The measurement of social and political attitudes and the related personality factors". Journal of Abnormal and Social Psychology 25
Wang, C.K.A„ y L.L. Thurstone. 1930 The Measurement of Social Attitudes. Scale, núm. 21, Forms A, B. Attitude Toward Birth Control. Chicago; University of Chicago Press.
Watson, G. 1932 "Measures of charader and personality". Psychological Bulletin 29

subir índice

Objeto de actitud	*r_s1t₁*	*r_s2t₂*	*r_t1t2*	*r_s1s2*
La iglesia	.74	.76	.81	.83
La pena capital	.81	.77	.78	.91
Los negros	.82	.81	.87	.87