|
Анастази А. » Психологическое тестированиеразность между этими двумя коэффициентами может служить для при- близительной оценки однородности теста. Формула Кьюдера-Ричардсона годится только для случаев, когда выполнение заданий оценивается как правильное или ошибочное, т. е. по принципу <все или ничего>. В некоторых тестах, однако, практикуется более дифференцированная форма представления результатов отдельных заданий. Например, в личностном опроснике респондент может получать по отдельным заданиям различные числовые показатели в зависимости от того, выбрал ли он в наборе ответов <обычно>, <иногда>, <редко>, <никогда>. Для таких тестов выведена обобщенная формула, известная как коэффициент альфа (L.J. Cronbach, 1951; M.R. Novick, C.Lewis, 1967). В этой формуле вместо ? стоит So?-сумма дисперсий результатов от- дельных заданий. Процедура состоит в нахождении дисперсии индиви-
Простой вывод этой формулы приведен в работе Р.Л.Ибела (R.L.Ebel, 1965, р. 320-327). И Строго говоря, это утверждение справедливо, лишь когда применяется формула Рппня я нс. коппепяттия половин или (Ьопмула Спирмана-Брауна (M.R. Novick,
112 ПРИНЦИПЫ ПСИХОЛОГИЧЕСКОГО ТЕСТИРОВАНИЯ
дуальных результатов по каждому заданию с последующим суммирова- нием этих дисперсий по всем заданиям (R.L.Ebel, 1965, р. 326-330). Формула коэффициента альфа выглядит следующим образом:
_ п( - ?о?)
" ("-1) , 1 Надежность субъективных оценок. Как мы видим, различные
типы надежности отличаются друг от друга тем, какие факторы взяты в качестве источников дисперсии ошибки. В одном случае такая диспер- сия означает временные колебания, в другом-различия в сериях парал- лельных заданий, в третьем-несогласованность тестовых заданий. 1 В свою очередь, факторы, не учтенные при измерении дисперсии ошиб- ки, в основном делятся на два типа: (а) факторы, чья дисперсия сохра- няется в показателях, поскольку они входят в изучаемые различия, и (б) посторонние факторы, поддающиеся экспериментальному контролю. На- пример, в руководстве к тесту не принято сообщать об ошибках измере- ния, которые могут появиться в результате проведения теста в отвле- кающей обстановке или в более короткое или длительное, чем это положено, время. Подобных отклонений можно избежать, и поэтому нет нужды в отдельных коэффициентах надежности, соответствующих дис- персии отвлечения или дисперсии временных лимитов. Большинство тестов, особенно если они предназначены для массово- го обследования с использованием компьютеров для вычисления показа- телей, настолько стандартизированы, что их проведение и регистрация результатов сводят на нет дисперсию ошибки, обусловленную этими факторами. Пользуясь такими тестами, необходимо лишь внимательно следить за выполнением соответствующих предписаний. Вместе с тем имеются данные, свидетельствующие о том, что в клинических тестах, применяемых при интенсивных индивидуальных обследованиях, важным источником ошибки являются различия в способе проведения теста. С помощью специальных экспериментов удается отделить соответствую- щую дисперсию от той, которая обусловлена колебаниями в состоянии испытуемого или использованием различных форм теста. Сравнительно просто установить, насколько значителен другой ис- точник ошибки, обусловленный дисперсией подсчета. Некоторые типы тестов, особенно тесты творческих способностей и проективные лич- ностные тесты, сильно зависят от оценки подсчитывающего показате- ли теста. В таких тестах надежность подсчета столь же важно знать, как и уже знакомые нам коэффициенты надежности. Такую надежность субъективной оценки можно определить, сравнив два тестовых бланка с оценками, заполненные двумя экспертами независимо друг от друга. Коэффициент корреляции полученных таким образом результатов вы- числяется обычным путем и служит искомой мерой надежности подсче- та. Если результаты теста определяются на основе суждений эксперимен- татора, то в руководстве к тесту необходимо также привести и коэффициент надежности подсчета. Итоги. Различные типы только что рассмотренных коэффициентов надежности сведены в табл. 8 и 9. В табл. 8 коэффициенты распределены по числу форм теста и сеансов тестирования, необходимых для их опре- деления. В табл. 9 представлены источники дисперсии ошибки, учиты- ваемые каждой из процедур определения коэффициента надежности. -------- - -.>...,.п т,ттт.дг>ттг>>типг>т1ятт1 непосоед-
113
НАДЕЖНОСТЬ
Таблица 8
Методы измерения надежности теста в мвисимости от форм теста и сеансов тестирования
Таблица 9
Источники дисперсии ошибки для раз- личных коэффициентов надежности
Необходимое число сеансов тес-Необходимое число форм теста
тированияоднадве расщеплен- наявзаимозаменяе- Кьюдера -один Ричардсона субъектив-мые (непосредственно следующие друг за другом) ных оце- нок Тип коэффициента надежности
Дисперсия ошибки
ретестовый
временные колебания состояния испытуемого
ретестовая
взаимозаменяе- мые (проводимые через определен- ный промежуток времени)
взаимозаме- няемых формнеоднородность (непосредст-содержания венный) взаимозаме-колебания в состоянии няемых формиспытуемого и неодно- (с временнымзначность содержания интервалом) расщеплениянеоднозначность содержания неоднородность и Кьюдера-Ри-неоднозначность чардсона,содержания альфаиндивидуальные субъективныхразличия у ставящих оценокоценки ственно в процентах дисперсии показателей, определяемой разными источниками. Так, коэффициент надежности 0,85 показывает, что 85Їо дисперсии результатов теста зависят от истинной дисперсии по измеряе- мому свойству, а 15Їо-от дисперсии ошибки (согласно операционально- му определению применяемой процедуры). Читателю, знакомому со ста- тистикой, напомним, что долю общей дисперсии представляет квадрат коэффициента корреляции. Действительно, доля <истинной> дисперсии в результатах теста есть квадрат корреляции между результатами оди- ночной формы теста и истинными результатами, свободными от слу- чайных ошибок. Эта корреляция, именуемая индексом надежности, рав- на квадратному корню коэффициента надежности (1/гЦ). Квадрат индекса надежности и дает коэффициент надежности (гц), который, следователь- но, может интерпретироваться как процент <истинной> дисперсии. Эксперименты, позволяющие получать разные типы коэффициентов надежности для одной и той же группы, допускают разложение суммар- ной дисперсии показателей на отдельные составляющие. Рассмотрим следующий гипотетический пример. Предположим, 100 шестиклассников с интервалом в два месяца прошли формы А и В теста творческих спо- собностей, причем надежность взаимозаменяемых форм составила 0,7, надежность, найденная методом расщепления и вычисленная по формуле Спирмана-Брауна, равнялась 0,8 и, наконец, надежность подсчета, по- лученная благодаря привлечению еще одного эксперта, проставившего новые баллы случайно выбранным 50 сочинениям, оказалась равной 0,92.
" Выводы индекса надежности, основанные на двух различных сериях допущений, приводятся в работе X. Гулликсена (Н. Gulliksen, 1950, гл. 2 и 3). В целях более точной оценки коэффициента внутренней согласованности корреля- ции между двумя половинами теста было бы лучше вычислять его для каждой формы от- п,>п1.иг> н Чатем соптветствуюшей статистической процедурой определять среднее значение
ПРИНЦИПЫ ПСИХОЛОГИЧЕСКОГО ТЕСТИРОВАНИЯ
Таблица 10
Анализ источников дисперсии ошибки в гипотетическом тесте
Надежность взаимозаменяемых форм теста с временным интервалом
1-0 7= 0,3
Изменения состояния испытуемого + неоднознач- ность содержания
Надежность расщепленного теста по 1-0,8 = 0,2 Неоднозначность формуле Спирмана-Брауна содержания Разность = 0,1 Изменения состояния испытуемого
Надежность субъективных оценок
1 - 0,92 = 0,08 Индивидуальные различия у ставящих оценки
Суммарное значение дисперсии ошибки = 0,2+0,1+ 0,08 = 0,38 <истинная> дисперсия = I - 0,38 = 0,62
Анализ этих трех коэффициентов надежности приводится в табл. 10 и на рис. II. Вычитая дисперсию ошибки, относящуюся только к выборке со- держания, из дисперсии ошибки, определяемой временный выборкой и выборкой содержания, получаем, что дисперсия временных колебаний равна 0,1. Складывая дисперсии ошибки, относящиеся к выборкам содер- жания (0,20), временным (0,10) и различиям у ставящих оценки (0,08), по- лучаем суммарную дисперсию ошибки, равную 0,38, из чего следует, что <истинная> дисперсия равна 0,62. Эти величины, выраженные в более привычной процентной форме, графически изображены на рис. Ц.
НАДЕЖНОСТЬ ТЕСТОВ НА СКОРОСТЬ
При составлении теста и интерпретации его результатов важно разли- чать измерение скорости выполнения и возможности выполнения. В <чи- стом> тесте на скорость индивидуальные различия определяются толь- ко скоростью выполнения заданий. Трудность заданий такого теста принудительно одинакова, невысока и вполне посильна испытуемым, на которых рассчитан тест. Но лимит времени устанавливается так, что никто не успевает выполнить всех заданий. В таких условиях результат испытуемого отражает только скорость его работы. Вместе с тем в <чи- стом> тесте возможностей испытуемому предоставляется достаточно времени для выполнения всех заданий. Но их трудность постепенно воз- растает от задания к заданию, так что никто не может справиться со все- ми заданиями, а значит, не может получить высший результат. Вообще как скоростные тесты, так и тесты возможностей строятся с таким расчетом, чтобы нельзя было получить высшего результата.
Излагая на элементарном уровне общую идею одного из способов интерпретации численных значений коэффициентов надежности, автор заведомо идет на ряд серьезных чпппп1йний. В частности, в реальных условиях дисперсия от совместного действия не-
НАДЕЖНОСТЬ
"Истинная" дисперсия = 62% _
Дисперсия ошибки = 38%
Стабильность во времени; согласованность форм; независимость от особенностей лиц.оценивающих выполнение теста
Различия у лиц, оценивающих выполнение теста Рис. 11. Процентное распределение дисперсии результатов гипотетического теста
Объясняется это неопределенностью такого результата: остается не- известным, насколько индивидуальный результат оказался бы выше, ес- ли бы в тесте было использовано больше заданий или соответственно более трудные задания. Чтобы каждый испытуемый мог полностью про- демонстрировать, на что он способен, <потолок> теста должен быть за- ведомо выше его возможностей либо по числу заданий, либо по степени трудности. Исключение составляют тесты владения навыком, например критериально-ориентированные тесты, обсуждавшиеся в гл. 4. Цель та- кого тестирования не в том, чтобы установить границы возможностей индивида, а в определении того, достиг ли он заранее установленного уровня выполнения. Практически большинство тестов являются одновременно и ско- ростными, и тестами возможностей, однако пропорция, в которой пред- ставлены оба эти компонента, может быть различной. Знание этой про- порции необходимо не только для того, чтобы понять, что измеряет тест, но и для выбора надлежащей процедуры оценки его надежности. Коэффициенты надежности, получаемые при однократном предъявлении теста, когда определяется корреляция данных по заданиям с четными и нечетными номерами или используется формула Кьюдера-Ричардсо- на, неприменимы к тестам на .скорость. Чем больше индивидуальные различия в тестовых результатах зависят от скорости выполнения, тем более завышенными оказываются коэффициенты надежности, опреде- ленные этими методами. Это видно из следующего контрастного приме- ра. Пусть некий тест, состоящий из 50 заданий, является чисто ско- ростным тестом, т.е. индивидуальные различия в результатах опреде- ляются лишь числом выполненных заданий, а не числом ошибок. Тогда испытуемый А, набравший 44 очка, очевидно, получит по 22 очка за четные и за нечетные задания. Точно так же испытуемый В, показавший результат 34, справится с 17 четными и 17 нечетными заданиями. Следо- вательно, если не считать нескольких случайных ошибок, допущенных по небрежности, корреляция между четными и нечетными заданиями будет полной, т.е. равна 1. Но такая корреляция, однако, явно завышена и не дает никакой информации о надежности теста. Проверка процедур, используемых при определении надежности ме- тодом расщепления и по формуле Кьюдера-Ричардсона, показала, что обе они основаны на согласованности числа ошибок. Если же различия индивидуальных тестовых результатов определяются не ошибками, а скоростью, то и мера их надежности должна, очевидно, основываться на согласованности заданий на скорость. Когда же выполнение теста за- nwru-г пгтнпнпомйннп пт скоппсти и возможностей выполнения, то коэ(Ь-
116 ПРИНЦИПЫ ПСИХОЛОГИЧЕСКОГО ТЕСТИРОВАНИЯ
вления теста, окажутся ниже 1,00, но все еще будут завышенными. Такие коэффициенты надежности не поддаются адекватной интерпретации, по- скольку на индивидуальные различия в тестовых результатах заметное влияние оказывает скорость выполнения заданий. Какие же процедуры определения надежности пригодны для тестов с выраженным скоростным компонентом? Такими процедурами могли бы быть метод ретеста (если его удается применить) и метод взаимоза- меняемых форм. Можно воспользоваться и методом расщепления при условии, что задания теста расчленяются по временным характеристи- кам, а не по порядковым номерам. Иными словами, сравниваемые ре- зультаты должны быть получены временным разделением частей теста. Одним из способов такого разделения является применение двух эквива- лентных частей теста с разделенным временным ограничением. Напри- мер, четные и нечетные задания распечатываются на разных листах, и по каждому набору заданий устанавливается временной лимит, равный по- ловине лимита для всего теста. Такая процедура равносильна проведе- нию следующих друг за другом двух эквивалентных форм теста. Каждая форма, однако, вдвое короче целого теста, тогда как результаты испы- туемого определяются по всему тесту. Поэтому необходимо воспользо- ваться формулой Спирмана-Брауна или какой-либо другой формулой этого типа для определения надежности всего теста. Если раздельное применение двух половин теста недопустимо, то вместо него можно воспользоваться разделением полного времени теста на четыре части с регистрацией результатов отдельно для каждой че- тверти. Это легко осуществить, прося испытуемого по сигналу экспери- ментатора отметить крестиком выполняемое в этот момент задание. Число заданий, выполненных за первую и четвертую части полного вре- менного лимита, составит результат по одной из сравниваемых половин теста. Показатель другой половины теста будет равен числу заданий, с которыми испытуемый справился за вторую и третью четверти. Такая комбинация четвертей способствует нейтрализации кумулятивных эффек- тов тренировки, утомления и других факторов. Этот метод лучше всего подходит для тестов, задания которых не особенно отличаются друг от друга по степени трудности. В каких случаях временной компонент следует считать суще- ственным? При каких условиях нужно соблюдать рассмотренные выше меры предосторожности? Очевидно, само по себе использование лими- тов времени еще не означает, что мы имеем дело с тестом на скорость. Если все испытуемые укладываются в отведенное время, то скорость ра- боты не сказывается на показателях. В качестве приблизительной меры существенности скоростного компонента, казалось бы, можно взять про- цент испытуемых, не успевающих закончить тест. Однако даже если ник- то не укладывается в отведенные временные рамки, скорость выполне- ния может оказаться тут ни при чем. Например, если все испытуемые выполнят 40 заданий из 50, то индивидуальные различия в скорости от- сутствуют, хотя никто не успевает выполнить весь тест. Существенным здесь оказывается следующий вопрос: <В какой сте- пени индивидуальные различия в тестовых результатах определяются Категория: Библиотека » Психодиагностика Другие новости по теме: --- Код для вставки на сайт или в блог: Код для вставки в форум (BBCode): Прямая ссылка на эту публикацию:
|
|