Анастази А. » Психологическое тестирование

в нормативной группе с интервалом в одну неделю и менее. Коэффи-

циенты надежности измеряли, таким образом, краткосрочную времен-

ную стабильность и эквивалентность содержания по двум выборкам за-

даний. Подробнейший анализ надежности этого теста с учетом возраста

и уровня IQ испытуемых (Q. McNemar, 1942, гл. 6) показал, что, как пра-

вило, тест Станфорд-Бине более надежен для лиц старшего возраста

и для испытуемых с недостаточно высоким IQ. Так, в возрасте от 2,5 до

5,5 лет коэффициенты надежности колеблются от 0,83 (для IQ 140-149)

до 0,91 (для IQ 60-69); для возраста от 6 до 13 лет они колеблются от

0,91 до 0,97 соответственно тем же уровням IQ, и для возраста от 14 до

18 лет соответствующий диапазон коэффициентов надежности прости-

рается от 0,95 до 0,98.

Увеличение надежности показателей с увеличением возраста испы-

туемых вообще характерно для тестов. Отчасти оно есть следствие луч-

шего контроля условий, который возможен с более старшими испы-

туемыми (особенно по сравнению с дошкольниками). Еще одним

фактором является замедление с возрастом скорости развития. Когда

надежность измеряется с помощью повторного тестирования, индивиды,

подверженные меньшим изменениям, вероятно, покажут через короткий

период времени меньше случайных колебаний (S. P. Pinneau, 1961, гл. 5).

Более высокая надежность, получаемая для более низких уровней

IQ, независимо от фактического возраста, по-видимому, связана со спе-

цифическими структурными характеристиками теста Станфорд-Бине.

Напомним, что из-за разницы в числе заданий, даваемых для разных

возрастных уровней, выполнение каждого задания приравнивается

к 1 мес на самых низких уровнях, к 2 мес на средних уровнях и к 4,5 или

6 мес на самых высоких уровнях. Такое распределение весов заданий уве-

личивает ошибку измерения в высших уровнях, поскольку случайное вы-

полнение или невыполнение одного задания сильнее влияет на значение

суммарного показателя, чем на более низких уровнях. Так как при лю-

бом фактическом возрасте индивиды с более высоким IQ тестируются

по шкале для более высоких возрастных уровней, эти IQ будут иметь

большую ошибку измерения и более низкую надежность (S. P. Pinneau,

1961, гл. 5). Взаимосвязь между уровнем IQ и надежностью в шкалах

Станфорд-Бине поясняется на рис. 29, изображающем бивариантное

распределение IQ, полученных 7-летними детьми по формам L и М. Из

рисунка видно, что индивидуальные результаты приближаются к диаго-

нали на более низких уровнях и отходят от нее на более высоких уров-

нях. Это означает большую согласованность между IQ по формам L

и М на более низких уровнях и меньшую на уровнях более высоких. При

такой веерообразной форме распределения единственный коэффициент

корреляции вводит в заблуждение. По этой причине приводятся от-

дельные коэффициенты надежности для разных диапазонов IQ.

В целом данные показывают, что тест Станфорд - Бине обладает вы-

--....", ,rгauwтhю. большинство из опубликованных коэффициентов

215

ИНДИВИДУАЛЬНЫЕ ТЕСТЫ

надежности для различных возрастов и уровней превышают 0,9. Такие

высокие коэффициенты надежности были получены несмотря на то, что

они вычислялись для каждой возрастной группы отдельно. Напомним

в этой связи, что дни рождения всех испытуемых в выборке стандартиза-

ции располагались в зависимости от возрастного уровня в пределах

1 мес или полугода. Такие ограничения на возрастной диапазон могли

также ухудшить значение коэффициентов надежности, поскольку для

большинства тестов используются более разнородные выборки.

В терминах индивидуальных значений IQ коэффициент надежности,

равный 0,90, и <7, равное 16, означают ошибку измерения приблизительно

в 5 единиц IQ (см. гл. 5). Другими словами, вероятность около 1/2, что

<истинный> IQ ребенка, установленный по тесту Станфорд-Бине, отли-

чается 5 единицами или менее от IQ, полученного в единичном тестиро-

вании, и шанс 95 из 100, что он изменится не более чем на 10 единиц

Рис. 29. Надежность шкалы Станфорд-Бине, определенная методом взаимозаменяемых

форм: двумерное распределение IQ 7-летних детей, полученных по формам L и М

(L. М. Тегтап, М. A. Merrill, 1937).

Р разрешения Хаугтон Миффлин Компани

145-149 140 -144 135-139 130-134 125-129 120-124 115-119 110-114 105-109 100 -104 95 - 99 190-94 185-89 080-84 75-79 70-74 65-69 60-64 55-59 50-54 45-49 40-4411

111

111111

111

11111

1411MIIII1

11wt iwt iwt iii1

i1нн-iiwt nilIII411

111т iiwt iii1

/iiiIIIwt wt1111

HH-11м IIIн> HHIwt iMIll1

///тWtWt1

///iii1

///1

///

-т>(т>l-cnст)lcэ-а-i5cDГg;r?;аrg>

-,3-ir)ini?u3 [.ооооспспоОг

Lr) О

IT) Ю

О 10 О

СМ СМ ГО

216 ТЕСТЫ ОБЩЕГО ИНТЕЛЛЕКТУАЛЬНОГО РАЗВИТИЯ

(5 х 1,96 = 9,8). Имея в виду найденные в коэффициентах надежности

различия, можно сказать, что ошибки измерения будут выше для млад-

ших, нежели для старших детей, и несколько выше для индивидов с бо-

лее развитым интеллектом.

Валидность. Информация о валидности по содержанию теста

Станфорд-Бине обеспечивается проверкой заданий, выполняемых испы-

туемыми в различных тестах. Диапазон этих заданий достаточно широк:

от простого манипулирования до абстрактного мышления. Тесты самых

ранних возрастных уровней проверяют главным образом зрительно-мо-

торную координацию, перцептивное различение и способность следовать

указаниям типа: сложить кубики, нанизать бусинки, сравнить длину, со-

поставить геометрические фигуры. Значительное количество тестов для

самых низких уровней включает также опознание, общеизвестных пред-

метов, предъявляемых в виде игрушек или на картинках.

Некоторые тесты, используемые в разных возрастных диапазонах,

выявляют способность к здравым суждениям. Например, испытуемого

спрашивают: <Что вы будете делать, если найдете на улице 3-летнего

потерявшегося ребенка?> В других тестах его просят объяснить, почему

принято следовать определенным правилам или для чего в повседневной

жизни используются некоторые предметы. К этой же категории можно

отнести тесты на интерпретацию ситуаций, описанных словесно или

изображенных на картинках, на обнаружение нелепостей либо на картин-

ках, либо в коротких рассказах. Тесты на память применяются по всей

шкале, и их содержание весьма разнообразно. От индивида требуется

вспомнить или узнать предметы, картинки, геометрические конструкции,

расположение бусинок, цифры, предложения и содержание прочитанного

текста. Разброс по возрастным уровням некоторых тестов на простран-

ственную ориентацию также достаточно широк. Здесь и поиски выхода

из лабиринта, складывание и разрезание бумаги, воспроизведение распо-

ложения геометрических фигур, ориентирование в заданном направле-

нии. Навыки, приобретенные в школе, такие, как умение читать и знание

арифметики, требовались только на высоких возрастных уровнях.

Наиболее распространенные типы тестов, особенно для высших воз-

растных уровней, это тесты, использующие вербальное содержание.

В эту категорию входят такие хорошо известные тесты, как тесты на

словарный запас, аналогии, завершение и упорядочение предложений,

определение абстрактных понятий и интерпретация пословиц. Некоторые

тесты относятся к плавности, беглости речи, например называние как

можно быстрее не связанных между собой слов, подбор рифм или по-

строение предложений из трех заданных слов. Следует также отметить,

что многие тесты, построенные с минимальным использованием вер-

бального содержания, тем не менее требуют понимания довольно

сложных словесных инструкций. То, что вся шкала затрагивает в основ-

ном вербальные способности, видно из корреляций, полученных между

словарным тестом из 45 слов и умственным возрастом для шкалы в це-

лом. Эти корреляции равны 0,71; 0,83; 0,86 и 0,83 для групп испытуемых

соответственно в возрасте 8, II, 14 и 18 лет (Q. McNemar, 1942,

р. 139-140; A.J. Edwards, 1963). Корреляции по крайней мере столь же

Будучи корреляциями части и целого, такие корреляции приводят к неоправданно-

му включению теста на словарный запас в определение умственного возраста, хотя влия-

ние этого теста весьма незначительно, поскольку его задания составляют лишь 5Ї/" от об-

-- _".."".," .,"""""" ( McNemar. 1942, р. 140).

217 ИНДИВИДУАЛЬНЫЕ ТЕСТЫ

высоки, как и обычные корреляции тестов, предназначенных для измере-

ния одних и тех же функций, и их числовое значение никак не отклоняет-

ся от обычных коэффициентов надежности.

Поскольку все перечисленные функции релевантны тому, что обычно

приписывается интеллекту, можно сказать, что шкала имеет валидность

по содержанию. Преобладание вербального содержания тестов для выс-

ших уровней оправдывается их авторами следующей теоретической

позицией:

<На этих уровнях основные интеллектуальные различия между индивидами сводятся

по большей части к различиям в способности к понятийному мышлению, и ее легче всего

исследовать посредством вербальных тестов. Язык, по существу, является стенографиче-

ской записью высших мыслительных процессов, и уровень, на котором эта запись ведется,

один из самых важных детерминант уровня процессов самих по себе> (L. М. Terman, М.-

А. Merrill, 1937, р. 5).

Следует добавить, что психологи-клиницисты разработали схемы

классификации тестов Станфорд-Бине как средства качественного опи-

сания выполнения теста индивидами (J.M.Sattler, 1974). Структурный

анализ успехов и неудач выполнения испытуемым различных функций

может указать на необходимые средства для последующего клиническо-

го изучения. Результаты такого анализа, однако, должны рассматривать-

ся как предварительные и интерпретироваться с осторожностью. Боль-

шинство функций представлены слишком незначительным числом тестов

и не могут быть измерены с достаточной надежностью, а степень рас-

смотрения какой-то одной функции заметно меняется от одного возраст-

ного уровня к другому.

Данные критериальной валидности теста Станфорд-Бине, как одно-

временной, так и предсказательной, были получены главным образом на

основе академической успеваемости. Со времени публикации исходной

шкалы 1916 г. были вычислены многочисленные корреляции между IQ

по тесту Станфорд-Бине и школьными оценками, мнением учителей

и показателями по тесту достижений. В основном эти корреляции распо-

лагаются в диапазоне от 0,40 до 0,75. Было установлено также, что успе-

хи в школе связаны со значением IQ по тесту Станфорд-Бине. У детей,

обгонявших своих сверстников на один или более класс, среднее значе-

ние IQ было явно выше, чем у детей, учившихся в классах в соответствии

со своим возрастом; у детей, отстававших на один или более класс, сред-

нее значение IQ было значительно ниже (Q. McNemar, 1942, гл. 3).

Как и у большинства тестов интеллекта корреляция шкалы Стан-

форд-Бине с успешностью обучения почти для всех учебных предметов

весьма высока, но она особенно высока для предметов, где преобладает

словесный материал, например язык или история. Корреляция с тестами

достижений почти та же самая. В исследовании старшеклассников, на-

пример, IQ по форме L коррелировал на уровне 0,73 с показателями по

тесту на понимание прочитанного, на уровне 0,54 с успеваемостью по

биологии и 0,48 с успехами по геометрии (Е.А. Bond, 1940). Как устано-

влено, корреляция с оценками в колледже составляет 0,5 и 0,6. У студен-

тов колледжа и факторы отбора, и недостаточный верхний предел теста

часто снижают корреляции.

Валидность формы L-M 1960 г. исследована недостаточно

(P. Himelstein, 1966). В работе В. А. Кеннеди, В. Ван де Рейта и Дж. Уайта

CW A Kftnnerlv V Van fie Reit. J. White. 1963) установлено, что корреля-

218 ТЕСТЫ ОБЩЕГО ИНТЕЛЛЕКТУАЛЬНОГО РАЗВИТИЯ

внушительная выборка детей из негритянской начальной школы) равна

0,69, причем корреляция с показателями по отдельным частям этой бата-

реи была для чтения 0,68, арифметики-0,64, языка-0,7.

Интерпретация IQ неизбежно наталкивает на мысль, что тест Стан-

форд-Бине, подобно большинству так называемых тестов интеллекта,

в основном измеряет школьные способности и что он сильно перегружен

вербальным материалом, особенно в тестах для высоких уровней. Инди-

виды с недостаточным языковым развитием, так же как и те, чьи способ-

ности нельзя отнести к вербальным, будут поэтому иметь сравнительно

низкие результаты по такому тесту. Несомненно также, что существуют

такие ситуации, в которых школьные способности и вербальное понима-

ние не имеют первостепенного значения. Очевидно, применение какого-

либо теста к ситуациям, для которых он не подходит, снизит его эффек-

тивность. Из-за распространенного отождествления IQ, полученного по

тесту Станфорд-Бине, с самим интеллектом от этого теста обычно ожи-

дают больше, чем он может дать.

О конструктной валидности шкалы Станфорд-Бине говорят многие

источники. Преемственность измерения функций в шкалах 1916, 1937,

1960 гг. обеспечивалась сохранением в каждом варианте только тех зада-

ний, чья корреляция с умственным возрастом по предшествующей фор-

ме была достаточной. Следовательно, информация, которую накопили

с годами клиницисты относительно типичного поведения индивидов при

разных уровнях МА и IQ, может использоваться ими при интерпретации

показателей по этой шкале.

Возрастные различия являются основным критерием при отборе за-

даний теста Станфорд-Бине. А это служит гарантией того, что тест

Станфорд-Бине действительно измеряет способности, которые в культу-

ре нашего типа с возрастом развиваются. Для каждой формы внутрен-

няя согласованность была еще одним критерием для отбора заданий.

О том, что тест Станфорд-Бине функционально однороден, несмотря на

явную вариативность содержания, говорит корреляция заданий шкалы

равная для варианта 1960 г. 0)6. Преобладание вербальных функций

в шкале подтверждает более высокая корреляция с общим выполнением

шкалы вербальных заданий в отличие от заданий невербальных

(L.M. Terman, М.А. Merrill, 1973, р. 33-34).

Последующие данные о конструктной валидности получены при

анализе некоторых независимых факторов заданий теста Станфорд-Би-

не. Если показатели IQ сравнимы по разным возрастам, то шкала на

всех возрастных уровнях должна иметь приблизительно одинаковую

факторную компановку. Более того, для однозначной интерпретации IQ

шкала должна быть насыщена единым общим фактором. Последнее по-

ложение уже обсуждалось в связи с однородностью в гл. 5. Если показа-

тели уравновешены двумя группами факторов, например вербальные

и вычислительные способности, IQ, равное 115, для различных людей

может говорить о высоких вербальных способностях в одном случае

и высоких вычислительных способностях-в другом.

К. Макнемар (Q. McNemar, 1942, гл. 9) провел раздельный фак-

торный анализ заданий теста Станфорд-Бине в 14 возрастных уровнях,

включая полугодовые интервалы для уровней 11-V и годовые интервалы

для уровней VI, VII, IX, XI, XIII, XV и XVIII. Число испытуемых при ка-

219 ИНДИВИДУАЛЬНЫЕ ТЕСТЫ

а полученные корреляции подвергались факторному анализу. Включе-

нием заданий из соседних возрастных уровней в более чем один анализ

было получено доказательство относительной идентичности общего фак-

тора для разных возрастов. Исследование тестов, используемых для не-

скольких возрастных уровней, подтвердило эту точку зрения. В общем,

результаты анализа показали, что выполнение заданий теста Станфорд-

Бине по большей части объяснимо с точки зрения одного общего факто-

ра. Влияние дополнительных групп факторов установлено для несколь-

ких возрастных уровней, но оно оказалось ничтожным. Было также

показано, что общий фактор, найденный в соседних возрастных уровнях,

был по существу тем же самым, хотя этого нельзя сказать о большин-

стве достаточно разделенных возрастных уровней. Фактически существо-

вали основания для предположения, что общий фактор для более высо-

ких уровней постепенно становится вербальным. Общий факторный вес,

например словарного теста, увеличился от 0,59 в 6-летнем возрасте до

0,91 для возраста 18 лет.