|
Бодалев А.А. » Основы психодиагностики, немедицинской психотерапии и психологического конконсультированияженную форму. Поэтому обычно предпринимаются попытки аппрокс мировать эмпирическую линию регрессии какой-либо функциональн зависимостью, что позволяет затем производить прогноз с применен ем формулы (а не таблицы или графика). Например, если линия регрессии имеет вид приблизительно так< какой изображен на рис. 6, то применение процентильной нормали: ции позволяет получить простую линейную регрессию С по нормали: ванной шкале Z. Это как раз тот случай, когда имеет место экви) лентность стратегии, использующей выборочно-статистические тестов нормы, и стратегии, использующей критериальные нормы.
Операции по анализу распределения тестовых баллов, построен тестовых норм и проверке их репрезентативности. В заключение эт параграфа коротко опишем действия, которые последовательно д жен произвести психолог при построении тестовых норм. 1. Сформировать выборку стандартизации (случайную, или стра фицированную по какому-либо параметру) из той популяции, на к( рой предполагается применять тест. Провести на каждом испытуе1 из выборки тест в сжатые сроки (чтобы устранить иррелевантный { брос, вызванный внешними событиями, происшедшими за время об< дования). 2. Произвести группировку <сырых> баллов с учетом выбран интервала квантования (интервала равнозначности). Интервал oi деляется величиной W/m, где W=Xma-x- Xmin - размах; m - кол] ство интервалов равнозначности (градаций шкалы). 3. Построить распределение частот тестовых баллов (для задан
STR.67 интервалов равнозначности) в виде таблицы и в виде соответствую- .щих графиков гистограммы и кумуляты. 4. Произвести расчет среднего и стандартного отклонений, а также асимметрии и эксцесса с помощью компьютера. Проверить гипотезы о значимости асимметрии и эксцесса. Сравнить результаты проверки с визуальным анализом кривых распределения. 5. Произвести проверку нормальности одного из распределений с помощью критерия Колмогорова (при п<200 с помощью более мощ- ных критериев) или произвести процентильную .нормализацию с пере- водом в стандартную шкалу, а также линейную стандартизацию и сравнить их результаты (с точностью до целых значений стандартных <очков). 6. Если совпадения не будет - нормальность отвергается, тогда произвести проверку устойчивости распределения расщеплением вы- борки на две случайные половины. При совпадении нормализованных баллов для половины и для целой выборки считать нормализованную шкалу устойчивой. 7. Проверить однородность распределения по отношению к варьи- .рованию заданного популяционного признака (пол, профессия и т. п.) -с помощью критерия Колмогорова. Построить в совмещенных коорди- натах графики гистограммы и кумуляты для полной и частной выбо- рок. При значимых различиях разбить выборку на разнородные под- выборки. 8. Построить таблицы процентильных и нормализованных тестовых .норм (для каждого интервала равнозначности <сырого> балла). При наличии разнородных подвыборок для каждой Подвыборки должна быть своя таблица. 9. Определить критические точки (верхнюю и нижнюю) для дове- рительных интервалов (на уровне Р<0,01) с учетом стандартной ошибки в определении среднего значения. 10. Обсудить конфигурацию полученных распределений с учетом предполагаемого механизма решения того или иного теста. II. В случае негативных результатов - отсутствия устойчивых <орм для шкалы с заданным числом градаций (с заданной точностью прогноза критериальной деятельности) - осуществить обследование <)олее широкой выборки или отказаться от плана использования данно- го теста.
3.2. НАДЕЖНОСТЬ ТЕСТА
В дифференциальной психометрике проблемы валидности и надеж- ности тесно взаимосвязаны, тем не менее мы последуем традиции раз- дельного изложения методов проверки этих важнейших психометриче- ских свойств теста. Надежность и точность. Как уже отмечалось в 3.1, общий раз- брос (дисперсию) результатов произведенных измерений можно пред- ставить как результат суммации двух источников разнообразия: само- го измеряемого свойства и нестабильности измерительной процедуры, обусловливающей наличие ошибки измерения. Это представление вы- ражено в формуле, описывающей надежность теста в виде отношения истинной .дисперсии к дисперсии эмпирически зарегистрированных баллов:
i. s
(3.2.1) 67
STR.68 Так как истинная дисперсия и дисперсия ошибки связаны очевид- ным соотношением, формула (3.2,1) легко преобразуется в формулу Рюлона:
(3.2.2)
Одиее распределение
Распределение 1 Распределение эмпирическом / инШидумьнвго среднего ~ /~\Вчта
где а - надежность теста; S - дисперсия ошибки; Si - дисперсия теста (эмпирическая); S - истинная дисперсия (дисперсия измеряемого свойства). Величина ошибки измерения - обратный индикатор точности из- мерения. Чем выше ошибка, тем шире диапазон неопределенности на шкале (доверительный интервал индивидуального балла), внутри ко- торого оказывается статистически возможной локализация истинного балла данного испытуемого. Таким образом, для проверки гипотезы о зна- чимости отличия балла испытуемого от среднего значения оказывается не- достаточным только оценить ошибку среднего, нужно еще оценить ошибку измерения, обусловливающую разбро в положении индивидуального балла Возникает картина, схематически пред ставленная на рис. 7. Как же определить ошибку изм( рения? На помощь приходят коррел? ционные методы, позволяющие опр< делить точность (надежность) чер( устойчивость и согласованность р зультатов, получаемых как на ypoal целого теста, так и на уровне о дельных его пунктов.
Рис. 7. Соотношение общего распре- деления, распределения индивиду- ального балла и распределения эм- пирического среднего: Sm-стан- дартное отклонение эмпирического среднего, S" - стандартное отклоне- ние (дисперсия) ошибки
Надежность целого теста. 1. Надежность-устойчивость (ретестов надежность). Измеряется с помощью повторного проведения теста той же выборке испытуемых, обычно через две недели после первс тестирования. Для интервальных шкал подсчитывается хорошо изве ный коэффициент корреляции произведения моментов Пирсона:
ltst
2х112х21
"12=
Vi - (2х1 In) (2х1, - (2x")2/n)
где хц - тестовый балл i-того испытуемого при первом измере1 X2i - тестовый балл того же испытуемого при повторном и: рении; ч - количество испытуемых. Оценка значимости этого коэффициента основывается на неско. иной логике, чем это обычно делается при проверке нулевой гипотез о равенстве корреляций нулю. Высокая надежность достигается т( когда дисперсия ошибки оказывается пренебрежительно малой. С сительную долю дисперсии ошибки легко установить из формулы
STR.69 =--i-- (3.2.4) "
Таким образом, для нас существеннее близость к единице, а не от- даленность от нуля. Обычно в тестологической практике редко удает- ся достичь коэффициентов, превышающих 0,7-0,8. При г==0,75 относи- тельная доля стандартной ошибки равна 1-0,75 == 0,5. Этой ошиб- кой, очевидно, нельзя пренебречь. При такой ошибке эмпирически по- лученное отклонение индивидуального тестового балла от среднего по выборке оказывается, как правило, завышенным. Для того чтобы вы- яснить <истинное> значение тестового балла индивида, применяется формула x>=rXi+\- r)x, (3.2.4.1)
где Xw - истинный балл; х, - эмпирический балл i-того испытуемого; т - эмпирически измеренная надежность теста; х - среднее для теста. Предположим, испытуемый получил балл ZQ по шкале Стэнфор- да - Вине, равный 120 нормализованным очкам, М==100, г==0,9. Тог- да истинный балл будет равен: Хоо=0,90Х120+0,10Х100=118. Конечно, требование ретестовой надежности является корректным лишь по отношению к таким психическим характеристикам индивидов, которые сами являются устойчивыми во времени. Если мы строим тест для измерения эмоциональных состояний (бодрости, тревоги и т. д.), то, очевидно, требовать от него ретестовой надежности бес- смысленно: у испытуемых быстрее изменится состояние, чем они за> будут свои ответы по первому тестированию. Для шкал порядка в качестве меры устойчивости к перетестирова- нию используется коэффициент ранговой корреляции Спирмена:
Р=1- . (3.2.5) п (-i)
где di - разность рангов i-того испытуемого в первом и втором ранго- вом ряду. При наличии компьютера целесообразно использовать более на- дежный, но более трудоемкий в вычислении коэффициент ранговой корреляции Кендалла (1975). 2. Надежность - согласованность (одномоментная надежность}. Эта разновидность надежности независима от устойчивости, имеет осо- бую содержательную и операциональную природу. Простейший спо- соб ее измерения состоит в коррелировании параллельных форм теста Анастази А., 1982, кн. 1, с. 106). Чаще всего параллельные формы те- ста получают расщеплением составного теста на <четную> и <нечетную> половины: к первой относятся четные пункты, ко второй - нечетные. По каждой половине рассчитываются суммарные баллы и между дву-. мя рядами баллов по испытуемым рассчитываются допустимые (с уче- том уровня измерения) коэффициенты корреляции. Если параллель- ные тесты не нормализованы, то предпочтительнее использовать ран- говую корреляцию. При таком расщеплении получается коэффициент, относящийся к половинам теста. Для того чтобы найти надежность це- лого теста, пользуются формулой Спирмена - Брауна:
(3.2.6) 69
STR.70 где fx - эмпирически рассчитанная корреляция для половин; Гхх - надежность целого теста. Делить тест на две части можно разными способами, и каждый раз получаются несколько разные коэффициенты (Аванесов В. С., 1982, с. 122), поэтому в психометрике предложен способ оценки синхронной надежности, который соответствует разбиению теста на такое количе- ство частей, сколько в нем отдельных пунктов. Такова формула Крон- баха:
и- k /=1 Ut T- - 1 -~
k -1 S
где а - коэффициент Кронбаха; k - количество пунктов (заданий) теста; S)- дисперсия по ;-тому пункту теста; Sc- дисперсия суммарных баллов по всему тесту. Обратите внимание на структурное подобие формулы Кронбаха и фор- мулы (3.2.2) Рюлона. Несколько раньте была получена формула Кьюдера - Ричардсона, аналогичная формуле Кронбаха для частного случая - когда ответы на каждый пункт теста интерпретируются как дихотомические пере- менные с двумя значениями (1 и 0):
-1 W , i /w
KR --I- \_____fc- ~~k~l
где K.R20 - традиционное обозначение получаемого коэффициента; Р,Ц} - дисперсия J-ТОЙ дихотомической переменной, какой явля- N (<верно>) . ется J-ТЫЙ пункт теста; Р-- > q=-р.
В 1957 г. Дж. Ките предложил следующий критерий для оценки ста- тистической значимости коэффициента о:
_i == ""-, (3.2.9) fe(l-et)+tt
где _i - эмпирическое значение статистики -квадрат с п-
степенью свободы; k - количество пунктов; п - количество испытуемых; a - надежность. Формулы (3.2.7) и (3.2.8) позволяют оценить взаимную согласован ность пунктов теста, используя при этом только подсчет дисперсий Однако коэффициенты а и КРм позволяют оценить и среднюю корр< ляцию между t-тым и ;-тым произвольными пунктами теста, так ка связаны с этой средней корреляцией следующей формулой:
(х =- _ (3.2.Н +(k- )п,
где гц - средняя корреляция между пунктами теста. Легко увиде идентичность формулы (3.2.10) обобщенной формуле Спирмена - Бр уна, позволяющей прогнозировать повышения синхронной надежное
STR.71 теста с увеличением численности пунктов теста в k раз Аванесов В. С., 1982, с. 121). Из этой формулы видно, что при больших k малое зна- чение гц может сочетаться с высокой надежностью. Пусть г=0,1, а fe==100, тогда по формуле (3.2.10)
_ ioo-0,1 __ io 1+99.0,1 10,9
Широкое распространение компьютерных программ факторного ана- лиза для исследования взаимоотношений между пунктами теста иа одномоментным данным) привело к обоснованию еще одной достаточ- но эффективной формулы надежности теста, которой легко воспользо- ваться, получив стандартную распечатку компьютерных результатов факторного анализа по методу главных компонент:
(3.2.11)
где 6 - коэффициент, получивший название тета-надежности теста1 k - число пунктов теста; i - наибольшее значение характеристического корня матрицы интеркорреляций пунктов (наибольшее собственное значение, или абсо- лютный вес первой главной компоненты). Как и предыдущие, формула (3.2.11) также относится к оценке на- дежности одномерного теста, направленного на измерение одной ха- рактеристики. Но, кроме того, она применима и для многофакторного теста, хотя и нуждается в пересчете после первоначального отбора пунктов, релевантных фактору (после того как на основании много- факторного анализа отобраны пункты по одному фактору, снова про- водится факторный анализ - только для этих отобранных пунктов). Надежность отдельных пунктов. Надежность теста обеспечивается надежностью пунктов, из которых он состоит. Чтобы повысить ретесто- вую (диахронную) надежность теста в целом, надо отобрать из исход- ного набора пунктов, апробируемых в пилотажных психометрических экспериментах, такие пункты, на которые испытуемые дают устойчи- вые ответы. Для дихотомических пунктов (типа <решил - не решил>, <да-нет>) устойчивость удобно измерять с использованием четырех- клеточной матрицы сопряженности:
Тест 1 Да Нет
Здесь в клеточке А суммируются частота ответов <верно>, данных испытуемым при первом и втором тестировании, в клеточке В - числа случаев, когда испытуемый при первом тестировании отвечал <верно>, а .при втором - <неверно> и т. д. В качестве меры корреляции вычис- ляется фи-коэффициент:
(р , - (3.2.12) y(a+b){c+d)(a+c)(b+d)
Как известно, значимость фи-коэффициента определяется с по- мощью критерия хи-квадрат:
71
STR.72 x!=.q). (3.2.13)
Если вычисленное значение хи-квадрат выше табличного с одной степенью свободы, то нулевая гипотеза (о нулевой устойчивости) от- вергается. Удобство в использовании фи-коэффициента состоит в том, что он одновременно оценивает степень оптимальности данного пункта по силе (трудности): фи-койффициент оказывается тем меньше, чем сильнее частота ответов <да> отличается от частоты ответа <нет>. Кроме того, сама"четырехклеточная таблица позволяет нам про- следить возможную несимметричность в устойчивости ответов <да> и <нет> (это важнее для задач, чем для вопросов: например, может ока- заться, что все испытуемые, уже решившие однажды данную задачу, решают ее при повторном тестировании - это наводит на мысль о том, что при втором тестировании происходит сбережение опыта, при- обретенного при первом тестировании). Выявленные в результате та- кого анализа неустойчивые и неинформативные (слишком сильные или слишком слабые) пункты должны быть исключены из теста. Пункты следует считать недостаточно устойчивыми, если на репрезентативной выборке величина}-превышает 0,71. При этом (р<0,5. Для того чтобы повысить одномоментную (синхронную) надежность теста, следует из исходной пилотажной батареи пунктов отбросить те, которые плохо согласованы с остальными В отсутствие компьютера согласованность для пунктов также очень просто определяется с по- мощью четырехклеточной корреляции. В этом случае в первом столбце таблички суммируются ответы испытуемых из <высокой> группы (по величине суммарного балла), во втором столбце - из <низкой>. Высокая Низкая
"низкая " группаДа Нет (АВ СD При нормальном распределении час-, " тот суммарных баллов <высокая> и группа <низкая> группы отсекаются справа и слева 27%-ными маргинальными IJ квантилями (рис. 8). ll Для оценки согласованности с сум- марным баллом применяется полная -%>. ( 27/, 73% X фИ-К с. 8. Области (квантили) <высо-оэффициента: 2а -.Pi-Iп 1 VPiW-Pi Рис. 8. Области (квантили) <высо- P - fp-lN_ Р кой> и <низкой> группы на графике распределения тестовых баллов __ количество ответов <верно>
(<да>) на 1-тый пункт теста; N -.сумма всех элементов таблички; Категория: Библиотека » Психодиагностика Другие новости по теме: --- Код для вставки на сайт или в блог: Код для вставки в форум (BBCode): Прямая ссылка на эту публикацию:
|
|