|
Анастази А. » Психологическое тестированиетесту, в то время как по второму тесту самый высокий результат будет у наиболее успевающего индивида. Коэффициенты корреляции можно вычислять в зависимости от при- роды данных разными способами. Наиболее распространен введенный К. Пирсоном коэффициент корреляции произведения моментов. Этот коэффициент учитывает не только положение результатов индивида в группе, но и степень их отклонения от группового среднего значения. Напомним, что когда положение каждого индивида выражается в терми- нах стандартного показателя (z), то выше среднего располагаются поло- жительные z, а ниже среднего-отрицательные. Следовательно, для инди- вида, чьи результаты выше среднего в обоих вариантах, коррелируются два положительных стандартных показателя, а тот, чей результат в обо- их случаях ниже среднего, имеет два отрицательных z. Если теперь пере- множить стандартные показатели по обеим переменным каждого из двух индивидов, то оба произведения будут положительны. Пирсонов- ский коэффициент корреляции есть среднее арифметическое всех таких произведений. Его числовое значение бывает высоким и положительным, если соответствующие стандартные показатели имеют по обеим пере- менным одинаковые знаки и приблизительно равную величину. Когда показатели испытуемых выше среднего по одной переменной, но ниже среднего по другой, то со- ответствующие произведе- ния отрицательны. Если сумма произведений отри- цательна, то отрицатель- ной будет и корреляция. Когда же одни произведе- ния отрицательны, а дру- гие положительны, корре- ляция близка к нулю. При проведении рас- четов нет необходимости переводить каждый пер- вичный показатель в стан- дартный, так как это пре- образование может быть выполнено один раз уже после суммирования всех попарных произведений. При расчете пирсоновско- го коэффициента корреля- ции можно пользоваться различными приемами, сокращающими объем вы- числений. Метод, приме-
TTITTITT rtl Tt rrnhTT 7 T?Л ffX~t_1TX
Таблица 7
Вычисление коэффициента корреляции произведения мо- ментов Пирсона
Арифме-1 УчениктикиЧтениеуX.iт У1 Билл41171-4116-4 Карол3828-27449-14 Джефри4822816418 Энн3216-8-5642540 Боб3418-6-336918 Джейн3615-4-6163624 Эллен4124i3193 Рут43203-191-3 Дик47237249414 Мари4027060360 ?4002100024418686 М4021 144 ет -= /-- " 1 10- = l/24,4 == 4,94;",-TM 10-1/18,6 = = 4,31; "Lxy8686f Л "" Nc, (10) (4,94) (4,31)212,9 102 ПРИНЦИПЫ ПСИХОЛОГИЧЕСКОГО ТЕСТИРОВАНИЯ
раскрывает природу коэффициента корреляции. В табл. 7 приведе- но вычисление r для результатов 10 детей по арифметическому тесту и тесту чтения. Справа от имени ученика приведены его результаты по первому (X) и второму (У) тесту. Суммы и средние значения 10 показате- лей приведены под колонками. Далее следует колонка отклонений (х) по- казателя арифметического теста от среднего значения и такая же колон- ка для теста чтения (у). Квадраты этих отклонений даны в следующих двух колонках, а суммы квадратов использованы для вычисления мето- дом стандартных отклонений результатов обоих тестов, описанным в гл. 4. Вместо того чтобы каждое х и у делить на соответствующее о для определения стандартного показателя z, это деление выполняется один раз, в конце, так, как показано в формуле вычисления коэффициен- та корреляции, приведенной в нижней части таблицы. Попарные про- изведения, стоящие в последней колонке, есть результат умножения со- ответствующих отклонений х и у. Чтобы получить коэффициент r, сумма этих произведений делится на число случаев (N) и на произведение обоих стандартных отклонений (а,ст"). Статистическая значимость. Корреляция 0,40, найденная в табл. 7, означает среднюю степень положительной связи между показа- телями арифметического теста и теста чтения. Можно отметить некото- рую тенденцию, выражающуюся в том, что ученик, хорошо показавший себя в арифметическом тесте, скорее всего, неплохо справится и с те- стом чтения. Если нас интересуют только эти 10 детей, то мы можем принять полученный коэффициент корреляции в качестве адекватной ха- рактеристики степени связи, существующей между двумя переменными в данной группе. В психологических исследованиях, однако, обычно стре- мятся распространить полученные результаты за пределы конкретной выборки испытуемых, на популяцию, которую эта выборка представляет. Например, нас может интересовать вопрос, существует ли связь между арифметическими способностями и навыками чтения у американских школьников того же возраста, что и наши испытуемые. Конечно, 10 ис- следованных случаев-совершенно недостаточная выборка для такой по- пуляции, ибо в другой сравнимой выборке с тем же числом случаев мож- но получить как более низкую, так и более высокую корреляцию. Существуют статистические процедуры оценки возможных колеба- ний от одной выборки к другой коэффициентов корреляции, средних значений, стандартных отклонений и любых других групповых единиц измерения. Вопрос, чаще всего задаваемый по поводу коэффициента кор- реляции: отличается ли он значимо от нуля? Иными словами, если в по- пуляции этот коэффициент равен нулю, то могла бы полученная в вы- борке корреляция быть следствием только выборочной ошибки? Когда говорят, что корреляция значима <на 1Їо-ном уровне> или <на уровне 0,01>, то имеют в виду следующее: существует не более одного шанса из ста, что в популяции данный коэффициент равен нулю. Из этого следует, что обе переменные действительно коррелированы. Уровни значимости указывают риск ошибки, на который мы вынуждены пойти, делая вы- воды из полученных данных. Если корреляция значима на уровне 0,05, то вероятность ошибки составляет 5 из 100. В большинстве психологиче- ских исследований применяются уровни 0,01 и 0,05, хотя по некоторым -опРшяжениям можно пользоваться и другими уровнями значимости.
103
НАДЕЖНОСТЬ
наличии 10 случаев трудно выявить общие закономерности. Для выбор- ки такого размера самая малая корреляция, значимая на уровне 0,05, равна 0,63. Любая корреляция ниже этой величины оставляет без ответа вопрос о коррелированности двух переменных в популяции, из которой была извлечена выборка. Минимальные значения коэффициентов корреляции на уровнях 0,01 и 0,05 для групп разной численности можно найти в таблицах значимо- сти корреляции, приводимых в учебниках по статистике. Для понимания проблематики этой книги требуется лишь общее представление об ос- новных вопросах. Добавим только, что уровни значимости ицтерпрети- руются подобным же образом и применительно к другим статистиче- ским мерам. Например, если различие между двумя средними значимо на уровне 0,01, то отсюда можно сделать вывод (причем вероятность ошибиться равняется одному шансу из 100), что тестирование всей попу- ляции, из которой были взяты выборки, дает приблизительно ту же раз- ницу. Так, если в обследованной выборке мальчики получили заметно более высокое среднее значение в тесте на понимание техники, чем де-
Рис. 10. Коэффициент надежности 0,72 (A. Anostosi, J. Drake, 1954)
75-79 70-74 65-69 60-64i
155-59 50-54 i 1 45-49 И 1 40-44 1 35-39 30-35 25-29 20-24 15-19иii fM-iч11 /иufniiiilii itmililliiiii ////ми114i /////mimilii тчiiiii /illi / CT> in
S
0
01
CT>
Ю ГО
f
0 in 0
104 ПРИНЦИПЫ ПСИХОЛОГИЧЕСКОГО ТЕСТИРОВАНИЯ
вочки, то можно заключить, что мальчики будут превосходить девочек
по этому тесту и в популяции в целом.
Коэффициент надежности. Коэффициенты корреляции часто
применяются при анализе психологических данных. Одно из таких при-
менений - это измерение надежности теста. Пример коэффициента надеж-
ности, вычисленного по пирсоновскому методу смешанных моментов,
приведен на рис. 10. В этом случае выяснялось наличие корреляции ме-
жду показателями 104 человек по двум эквивалентным формам теста
беглости речи. В обоих случаях испытуемым давалось пять минут, в те-
чение которых они должны были написать как можно больше слов, на-
чинающихся на заданную букву. Формы теста отличались друг от друга
лишь задаваемой буквой. Авторы теста подобрали начальные буквы
с таким расчетом, чтобы трудность заданий была примерно одинаковой.
Корреляция между числом слов, написанных в ходе выполнения
каждой из двух форм данного теста, оказалась равной 0,72, т. е. значимой
на уровне 0,01. При наличии 104 случаев любая корреляция, превышаю-
щая 0,25, значима на этом уровне. Тем не менее полученная корреляция
несколько ниже, чем это желательно для коэффициента надежности, ко-
торый обычно бывает выше 0,8 и даже 0,9. Диаграмма на рис. 10 пред-
ставляет типичное двумерное распределение с высокой положительной
корреляцией. Можно видеть, как палочки теснятся вблизи диагонали,
идущей от левого нижнего к правому верхнему углу. Направление это
в общем довольно ясно выражено, хотя и наблюдается некоторый раз-
брос палочек. В следующем разделе обсуждается использование коэффи-
циента корреляции для вычисления различных мер надежности теста.
ТИПЫ НАДЕЖНОСТИ
Ретестовая надежность. Самый естественный способ определить
надежность результатов теста-использовать тот же тест второй раз.
В этом случае коэффициент надежности (Гц) просто равен корреляции
между результатами, полученными на одних и тех же испытуемых в каж-
дом из двух случаев проведения теста. Дисперсия ошибки соответствует
случайным колебаниям в выполнении заданий от одного сеанса тестиро-
вания к другому. Эти колебания могут отчасти быть результатом некон-
тролируемых условий тестирования-таких, как значительные изменения
погоды, появление неожиданного шума и иных отвлекающих моментов
типа сломавшегося карандаша. В какой-то степени их можно объяснять
изменениями в состоянии самого испытуемого-например болезнью,
утомлением, эмоциональным напряжением, беспокойством, недавними
приятными или неприятными переживаниями и т.д. Ретестовая надеж-
ность показывает, в какой степени результаты теста можно распростра-
нить на различные случаи его применения. Чем выше надежность, тем
менее чувствительны результаты к обычным изменениям состояния ис-
пытуемого и обстановки тестирования.
Приводя в руководстве к тесту его ретестовую надежность, всегда
следует указывать, в каком интервале времени она измерена. Поскольку
ретестовая корреляция с течением времени постепенно снижается для
105 НАДЕЖНОСТЬ
любого теста, существует не один, а бесконечное количество ретестовых
коэффициентов надежности. Желательно также давать некоторые сведе-
ния о событиях, происшедших за это время с испытуемыми в учебе или
работе (консультировался ли кто-либо с психологом или прошел курс
психотерапии и т.д.).
Независимо от желательности сведений об интервале времени меж-
ду двумя тестированиями, какими соображениями следует руководство-
ваться при выборе этого интервала? Можно привести немало примеров
того, как надежность теста остается высокой в течение нескольких дней
или недель, но спустя десять-пятнадцать лет его результаты уже почти
не коррелируют с первоначальными. Так, многие из тестов интеллекта
для дошкольников достаточно стабильны в дошкольный период, но со-
вершенно бесполезны для предсказания, каков будет IQ ребенка в стар-
шем возрасте или во взрослом состоянии. На практике, однако, чаще
всего можно провести следующее различие. На дисперсию ошибки те-
стовых результатов обычно влияют случайные колебания с периодами
от нескольких часов до нескольких месяцев. Поэтому, определяя тип тес-
товой надежности, стараются придерживаться небольших временных ин-
тервалов. При тестировании маленьких детей этот период должен быть
еще короче, чем у испытуемых старшего возраста, поскольку в раннем
детстве возрастные изменения происходят в течение месяца и даже
быстрее.
В целом для любого типа испытуемых интервал между двумя после-
довательными применениями теста обычно не должен превышать 6 мес.
Изменения относительного выполнения теста индивидами, происходя-
щие в более длительные промежутки времени, уместнее отнести к куму-
лятивным и постепенным, а не к чисто случайным. Более того, они, ско-
рее всего, характеризуют более широкую сферу поведения, чем та,
которая проявляется при выполнении данного теста. Общий уровень
развития индивида, его способность к обучению, к пониманию техниче-
ских устройств, его суждения об искусстве могут за 10 лет существенно
измениться. Его личностный статус с годами может заметно возрасти
или упасть вследствие обстоятельств жизни дома, в школе или условий
социального окружения, а также по таким причинам, как болезнь или
эмоциональное расстройство.
Степень влияния таких факторов на психическое развитие индивида
является важной исследовательской проблемой. Однако этот вопрос не
следует смешивать с вопросом надежности конкретного теста. Напри-
мер, при измерении надежности тестов Станфорд-Бине, как правило, со-
относят показатели, полученные с интервалом не в десять лет или даже
в один год, а в несколько недель. Конечно, с этими тестами проводились
и долгосрочные ретестовые испытания, но их результаты обычно обсу-
ждаются с точки зрения предсказуемости уровня интеллекта взрослого
на основе выполнения теста в детском возрасте, а не с точки зрения на-
дежности конкретного теста. Понятие надежности в основном ограничи-
вается краткосрочными случайными изменениями, характеризующими
выполнение теста самого по себе, а не тестируемую область поведения.
Следует отметить, что в различных поведенческих функциях обыч-
ные . колебания проявляются неодинаково. Например, на отточенности
движений пальцев могут сказаться самые незначительные изменения
в состоянии индивида, никак не влияющие на его понимание речи. Если
хотят получить общую оценку характера движений пальцев индивида,
106 ПРИНЦИПЫ ПСИХОЛОГИЧЕСКОГО ТЕСТИРОВАНИЯ
то, по всей видимости, нужно провести повторные тесты в течение не-
скольких дней; для выяснения же понимания им речи достаточно одного
сеанса тестирования. Но всякий раз необходимо обращаться к анализу
цели теста, основывая его на понимании того поведения, которое пред-
назначен предсказать тест.
Несмотря на кажущуюся простоту и очевидность, методика ретеста
при распространении на большинство психологических тестов наталки-
вается на трудности. Улучшение показателей ретеста как результат тре-
нировки будет, вероятно, различным у разных испытуемых. Более того,
если промежуток времени между начальным и повторным тестирова-
нием достаточно мал, обследуемые могут припомнить многие из своих
прежних ответов. Иными словами, при повторном тестировании память
способствует воспроизведению первоначальной картины правильных
и ошибочных ответов. Следовательно, результаты двух предъявлений
теста не будут независимыми, и корреляция между ними окажется об-
манчиво высокой. Проведение теста второй раз может также привести
к изменению его природы. В первую очередь это относится к задачам,
при решении которых нужно проявить изобретательность. Испытуемый,
однажды ухватив принцип решения, в дальнейшем может воспроизво-
дить правильный ответ, минуя промежуточные ступени. Только тесты, на
которые повторное применение не оказывает заметного влияния, при-
годны для их исследования по методу ретеста. К этой категории принад-
лежит ряд моторных тестов и тестов сенсорного различения. Для боль-
шинства психологических тестов этот метод неприменим.
Надежность взаимозаменяемых форм. Один из способов из-
бежать трудностей, присущих ретестовой надежности,-применение взаи-
мозаменяемых форм теста. Те же самые испытуемые могут тестиро-
ваться в первый раз с помощью одной формы, а второй раз-с помощью
другой, сравнимой формы. Корреляция между показателями, полученны-
ми по двум формам, служит коэффициентом надежности теста. Заметим,
что такой коэффициент надежности измеряет как временную стабиль-
ность теста, так и согласованность ответов по двум выборкам заданий
(или тестовым формам), т. е. этот коэффициент объединяет два типа на-
дежности. Поскольку оба типа существенны для большинства целей те- Категория: Библиотека » Психодиагностика Другие новости по теме: --- Код для вставки на сайт или в блог: Код для вставки в форум (BBCode): Прямая ссылка на эту публикацию:
|
|