Мета-анализ

(metaanalysis) М. представляет собой попытку объединения, используя различные статистические методы, данных из разных исслед., посвященных изучению одного и того же вопроса. Он предусматривает количественную оценку степени согласованности или расхождения результатов, полученных в разных исслед. Как отметил Гласе: "Мета-анализ относится к... статистическому анализу большой совокупности результатов анализа данных из отдельных исследований в целях объединения этих данных. Он ассоциируется со строгой альтернативой бессистемным, описательным научным обзорам, которые служат типичным примером наших попыток осмыслить стремительно увеличивающееся количество научных публикаций... Современные обзоры научных исследований должны быть в большей мере техническими и статистическими, чем описательными... Данные многократных исследований должны рассматриваться как комплексное множество данных, дающее без статистического анализа ничуть не больше информации, чем результаты обработки нескольких сотен данных одного единственного исследования". М. применялся при решении весьма широкого круга задач, лишь частично иллюстрируемых следующими примерами: исслед. валидности вопросов, используемых в опросах общественного мнения; определение воздействия претестовой сенсибилизации на выполнение психол. и образовательных тестов; анализ влияния школьной десегрегации на успеваемость уч-ся. Диапазон тем в приведенных примерах указывает на уместность использования М. в самых различных областях исслед. Хотя интерес к М. в последнее время возрос, господствующим методом сведения воедино и сравнения исследовательских данных в поведенческих науках по-прежнему остается описательный обзор литературы. Однако, с учетом распространения метааналитических методов и их дальнейшего совершенствования, традиционные научные обзоры литературы можно больше уже не считать единственно подходящим или приемлемым средством для составления сводок, сравнения и объединения данных. О пользе мета-анализа Обзор данных из любой области исслед. в поведенческих науках мог бы выиграть от применения мета-аналитических методов по двум причинам. Первая имеет отношение к комплексности и разнородности данных. В отличие от более парадигматических научных дисциплин, накопление знаний в которых происходит путем постепенных последовательных приращений, комплексность челов. поведения per се, помноженная на трудность применения эффективных и обоснованных мер контроля в исслед. поведения, способствует получению разнотипных и расходящихся данных, да и общий подход к проведению поведенческих исслед. яв-ся дополнительным источником вариабельности данных. Состояние изучения любой проблемы обычно характеризуется научными работами, в к-рых даются разные определения основных понятий, используются разные методы исслед. и несходные выборки испытуемых, различающиеся наборы независимых переменных и различные методы анализа данных. Неудивительно, что уже давно поднимались вопросы об адекватности и надежности описательных научных обзоров. Субъективность и возможную тенденциозность составителей научных обзоров особенно трудно преодолеть в 3 областях, а именно, при: а) отборе конкретных научных публикаций, б) оценивании исслед. с т. зр. их относительной важности и в) интерпретации значения полной совокупности научных данных. Кроме того, когда количество анализируемых в обзоре научных данных становится внушительным, адекватность описательных обзоров вызывает еще больше сомнений. Вторая причина, по которой традиционные научные обзоры могли бы выиграть от применения метааналитических методов, связана со способностью к распознаванию ранее не установленных паттернов в совокупности данных. М. имеет результатом более точную оценку степени изменчивости или устойчивости данных в конкретных областях исслед. Обнаружение возможных различий в значимости, направленности и величине связей внутри изучаемой совокупности переменных может повысить чувствительность к ранее ускользавшим от внимания паттернам. Кроме того, поскольку М. позволяет исследовать различия в характеристиках самих исслед. как источники разброса данных, сказанное выше не ограничивается обзором данных per се, но распространяется и на условия, в к-рых данные собираются. Следовательно, обладая большей осведомленностью в отношении степени и характера вариации данных, при проведении исслед. можно сосредоточить усилия на более точных и продуманных концептуализациях и средствах измерения поведенческих феноменов. Критика мета-анализа Несмотря на свою жизнеспособность в качестве альтернативы традиционным способам выполнения аналитических обзоров научной литературы, М. стал объектом критики. Эту критику можно проиллюстрировать, отчасти, на примерах озабоченности специалистов тремя разными проблемами: а) проблемой "картотечного ящика", б) проблемой учета качественных различий между исслед. и в) проблемой использования множественных данных из одного исслед. В добавление к краткому изложению существа трех отмеченных видов критики, будут также указаны направления, в каких метааналитические процедуры были модифицированы в ответ на каждый вид критики. Во-первых, проблема картотечного ящика (file drawer problem) указывает на тенденцию не публиковать статистически незначимые результаты, сохраняя их в архивах исследователей. Т. о. опубликованные исслед., по-видимому, тяготеют к смещению в сторону положительных результатов, в результате чего возрастает вероятность ошибки I-рода. В качестве корректирующей меры предлагается включение в анализ данных неопубликованных исслед., получаемых из личных и профессиональных источников. Однако далеко не все неопубликованные данные доступны (да и пригодны) для анализа. Розенталь предложил в качестве частичного решения этой дилеммы использовать оценку требуемого количества незначимых данных, к-рое нужно было бы получить для того, чтобы аннулировать отмеченный значимый эффект. Если требуемое количество дополнительных данных сравнительно велико, тогда к результатам анализа, основанного на доступных данных, можно относиться с доверием. Т. о., М. может, по крайней мере имплицитно, обращаться к проблеме систематической ошибки опубликованных научных данных. Во-вторых, М. критиковали как метод, нечувствительный к различиям качества анализируемых исслед. Так, результаты анализа может быть сложно интерпретировать, если данные из хорошо спланированных исслед. объединяются с данными, полученными на основе неудачного экспериментального плана. Метааналитические процедуры можно ориентировать на эту проблему, используя кодирование исслед. соответственно качеству плана, с последующим введением этой кодированной переменной в анализ. В итоге можно заметить, будут ли результаты анализа различаться в зависимости от изменений качества планирования исслед. Т. о., М. можно приспособить и к влиянию различий экспериментальных планов. В-третьих, в публикациях часто сообщаются множественные данные (multiple findings). Поскольку эти данные не являются независимыми, озабоченность вызвал вопрос о том, как учитывается зависимость между ними в ходе М. Одни исследователи выполняют анализ раздельно для каждой меры зависимой переменной, выявленной в научных публикациях, тогда как другие, в таком же М., объединяют данные, касающиеся значимости и воздействия независимой переменной на все меры зависимой переменной. Однако, если такие множественные данные включаются в анализ, его результаты могут выглядеть более надежными, чем это оправдано проведенными исслед., так как не все использованные в нем данные являются независимыми. Хотя и не существует правила, предписывающего в таких случаях выбор единственно правильного метода, то, каким эмпирическим способом решается эта проблема, может оказывать влияние на результаты М. Если множественные данные из одних и тех же исслед. включаются в анализ, число критериев значимости и величины эффектов будет больше числа независимых исслед. Несмотря на то, что такой способ повышает мощность М., он не только усложняет определение ошибки, связанной со статистическими результатами анализа, но, что гораздо серьезнее, может способствовать возникновению концептуальной неопределенности и путаницы. Бесспорно, полезно знать общую значимость и общее влияние заданной независимой переменной на весь спектр зависимых переменных, однако знание дифференциальной значимости и частного влияния независимой переменной на отдельные группы зависимых переменных может иметь более важное значение для понимания поведенческих феноменов. Тем не менее, споры по поводу относительных достоинств противоположных подходов к проблеме множественных зависимых переменных продолжаются до сих пор. Вычислительные процедуры для объединения данных научных исследований Прежде чем обрисовать в общих чертах вычислительные процедуры М., важно разграничить две области применения этого метода: а) объединение данных, полученных в разных исслед., б) сравнение таких данных. Каждая из этих областей требует использования различных метааналитических методов. Что касается рассмотрения процедур, посредством к-рых данные разных исслед. сравниваются в явном виде, независимо от того, проводится ли это сравнение в расплывчатой или сфокусированной форме, следует обратиться к Розенталю. В контексте объединения данных из разных исслед., посвященных изучению одного и того же конкретного вопроса, встречаются две основные стратегии: а) определение общего уровня значимости объединенных данных и б) определение величины отмеченных эффектов. Для каждой из этих стратегий было разработано множество конкретных процедур. Общая значимость данных При объединении результатов, полученных в независимых работах, оценивающих одинаково направленную конкретную гипотезу, в распоряжении исследователя имеется множество процедур, называемых сложными критериями. В этой статье мы ограничиваемся рассмотрением методов, разработанных Фишером, Вайнером и Стауффером с соавторами. Известный под названием метода суммирования логарифмов (adding logs method), сложный критерий Фишера является одной из наиболее популярных и часто используемых процедур проверки гипотез и задается следующим уравнением: ?2 = ? - 2 ln p. Эта процедура заключается в суммировании со знаком минус удвоенных натуральных логарифмов соответствующих значений р односторонних критериев, приведенных в анализируемых исслед. Получающаяся в результате стат., к-рая и положена в основу данного критерия, имеет ?2-распределение с числом степеней свободы (df), равным удвоенному числу исследований (N), включенных в анализ (т. е. df = 2N). Метод Фишера особенно эффективен, когда число анализируемых исслед. относительно невелико (не более 5). Хотя было доказано, что эта процедура яв-ся в большей степени асимптотически оптимальной, чем др. методы объединения, она обнаруживает довольно серьезный недостаток всякий раз, когда в двух исслед. приводятся одинаково значимые результаты противоположного характера. В этой ситуации метод Фишера дает допускающие двоякое толкование результаты, подтверждая значимость любого из исходов. Поэтому, когда проводится обзор всего нескольких исслед., рекомендуется не использовать эту процедуру механически. Но, вообще говоря, можно усомниться в пользе проведения М. в тех случаях, когда расходящиеся данные получены в таком ограниченном количестве исслед. Если число исслед. в к.-л. области мало, а полученные в них данные явно расходятся, то возникают вопросы не только в отношении уместности применения М. как метода обзора данных, но и в отношении того, указывают ли анализируемые публикации на сколько-нибудь жизнеспособную область исслед. Сложный критерий Вайнера, называемый методом "суммирования значений t", имеет вид: . Основанная на выборочном распределении независимых статистик t, эта процедура заключается в вычислении нормированного отклонения (standard normal deviate), равного сумме значений t-критерия, деленной на корень квадратный из дисперсии t-распределения. Эти значения t-критерия или берутся прямо из включаемых в обзор публикаций, или, если в них приведены только значения р, получаются путем преобразования указанных р в t. Дисперсия t-распределения имеет приближенно нормальное распределение, когда число степеней свободы (df) для каждого значения t больше или равно 10. Следовательно, в тех случаях, когда число степеней свободы для каждого значения t меньше 10, этот метод не будет давать достаточно хорошего приближения. Т. о., хотя метод Вайнера и обладает преимуществом в том смысле, что нечувствителен к числу обозреваемых исслед., его эффективное использование, в конечном счете, зависит от числа степеней свободы, связанного с каждым исслед. Наконец, метод Стауффера, известный как метод суммирования значений Z (adding Z"s method), яв-ся, возможно, наиболее широко используемой процедурой объединения данных, к-рая иллюстрируется следующим уравнением: . Эта вычислительная процедура относительно проста. После преобразования приведенных в публикациях значений р в соответствующие нормированные отклонения, или Z-величины, эти значения Z суммируются и делятся на корень квадратный из числа объединяемых исслед. (N). Данная процедура основана на том известном факте, что сумма нормированных отклонений сама яв-ся нормированным отклонением, с дисперсией, равной числу включаемых в анализ исслед. Единственное известное ограничение этого метода связано с тем, что предположение единичной дисперсии для каждого из объединяемых исследований может при некоторых обстоятельствах повышать ошибки I и II рода. Когда число объединяемых данных невелико, при оценивании общей значимости данных разумно воспользоваться не одной, а несколькими процедурами параллельно. Даже если объединяется большое число опубликованных данных, рекомендуется использовать вторую процедуру объединения как средство проверки результатов М. Хотя существенные различия в результатах применения метааналитических процедур встречаются крайне редко, вычисление критериальных статистик разными методами все же делает выводы анализа более убедительными. В зависимости от конкретных обстоятельств, исследователь должен рассматривать возможность применения и других процедур, включ. модели сложения вероятностей и проверки среднего р Эджингтона (Edgington"s adding probabilities and testing mean p models), модели сложения взвешенных Z-величин и проверки среднего Z (the adding weighted Zs and testing mean Z models), а также различные вычислительные методы и методы объединения данных в блоки. Оценка величины эффекта Вторая общая метааналитическая стратегия в области объединения данных, полученных в разных исслед., предполагает оценивание силы интересующего эффекта. В отличие от первой стратегии, предполагающей определение общей значимости данных, оценка величины эффекта сосредоточена более конкретно на силе эффекта гипотетической связи между переменными. Как заметил Коэн: "Не подразумевая каких-либо необходимых выводов о причинности, удобно пользоваться выражением величина эффекта в значении уровня представленности определенного феномена в генеральной совокупности или, иначе говоря, степени ложности нулевой гипотезы (нулевой величины эффекта)". Оценки величины эффекта можно получать с помощью широкого множества методов. В данном случае мы ограничимся рассмотрением статистических критериев, подходящих для оценки а) корреляционных связей и б) групповых различий на основе t-критерия Стьюдента. При оценивании эффекта корреляционных связей цель заключается в объединении данных разных исслед., касающихся связи между двумя изучаемыми переменными, измеренными в интервальной шкале или шкале отношений, тогда как оценивание групповых различий относится к оценке степени изменения предусмотренного гипотезой исхода (= результата) при сравнении двух тождественных групп, чаще всего определяемой относительно таких условий, как "контроль/эксперимент" или "предварительное/итоговое тестирование". Опубликованные исслед. различаются эксперим. планами и критериальными статистиками, приводимыми в описании результатов. Данные, относящиеся к связи между переменными, могут быть выражены в единицах корреляции произведения моментов Пирсона (r), квантилей ?2-распределения или к.-л. др. стат., а данные о групповых различиях могут приводится с использованием t, F или др. стат. Поэтому прежде чем оценивать общую величину эффекта, нужно перейти от разных итоговых статистик, сообщаемых в анализируемых публикациях, к к.-л. общей мере. К наиболее часто используемым для этой цели мерам относятся корреляция произведения моментов Пирсона (применительно к корреляционным данным) и d-статистика (применительно к групповым различиям, оцениваемым с помощью t-критерия Стьюдента). Хотя далее речь пойдет именно об этих двух стат., М., конечно же, не ограничивается их применением. Что касается процедур преобразования с использованием разнообразных стат., следует обратиться к Розенталю. После того как сообщаемые в анализируемых публикациях стат. выражены в единых мерах, можно начинать анализ величины эффекта. Корреляционные связи. Оценка величины эффекта между двумя изучаемыми переменными требует выполнения простых арифметических действий по следующей формуле: . Иначе говоря, вычисляется простое среднее арифметическое корреляций путем деления суммы приведенных в публикациях коэффициентов корреляции на число суммируемых коэффициентов (п). В качестве альтернативы использованию значений r можно усреднять значения величины Z Фишера: . После замены значений r соответствующими значениями Z (по формуле или с помощью специальной таблицы преобразований Фишера) сумма значений Z делится на число коэффициентов корреляции, включ. в анализ. Затем преобразуется обратно в соответствующее значение r, к-рое и сообщается в качестве итоговой стат. анализа. В ходе дальнейшего оценивания величины эффекта может потребоваться учесть различия между исслед., касающиеся а) вариации объема выборок и б) использования различных способов или методик измерения. Так как две вышеописанные процедуры не предусматривают введение поправок или весов исходя из различий объема выборок, коэффициент корреляции (или Z Фишера) из исслед., проведенного на выборке из 10 чел., будет учитываться в них с тем же весом, что и др. коэффициент, полученный на выборке объемом в 500 человек. Признавая потенциальную важность этого типа вариабельности, Хантер с соавторами и Розенталь рекомендуют при проведении анализа величины эффекта использовать среднее арифметическое значений r, взвешенных соответственно различиям выборок, на к-рых они были получены. Вообще говоря, желательно сообщать данные о величине эффекта, основанные на средних арифметических и взвешенных, и невзвешенных величин. Относительно измерения переменных, включаемых в М. величины эффекта, должно быть подтверждено, что на общем концептуальном или теорет. уровне выбранные для анализа переменные относятся к двум феноменам, сохраняющим свою идентичность во всех условиях проведения обозреваемых исслед. (напр., соц. класс и психол. благополучие). Но на уточненном и более конкретном уровне измерений соответствующие переменные могли измеряться с помощью разных способов или методик. Хотя этот источник потенциальных различий так или иначе учитывается в анализе общей значимости данных, его нужно принимать в расчет и при интерпретировании значения оценок величины эффекта. В тех областях исслед., где определенные измерительные шкалы были признаны стандартными и потому регулярно используются, эта проблема может не быть столь острой, как в тех областях, где нет общепринятых и широко используемых шкал. Однако именно в этих последних областях исслед. можно извлечь существенные выгоды из М., разумеется, при условии, что он отражает вдумчивый и внимательный подход к анализируемым данным. Групповые различия. При оценивании групповых различий, определенных на основе t-критерия Стьюдента, проводится двухступенчатый анализ. Сначала, по данным каждого включенного в обзор исслед. определяется стандартизованная масштабно-инвариантная оценка предполагаемого эффекта. Так, напр., если проводится обзор 7 опубликованных исслед., стандартизованная оценка величины эффекта вычисляется для каждого из различных наборов групп, содержащихся в этих исслед. Эти наборы сопоставляемых групп чаще всего отображают ситуации типа "контроль/эксперимент" или "предварительное/итоговое тестирование". Для вычисления стандартизованной оценки величины эффекта (d) в каждом исслед. используется следующая формула: . В этом выражении абсолютная разность между средними величинами, приводимыми при каждом сопоставлении групп, делится на стандартное (среднее квадратическое) отклонение (SD). Используемое здесь SD - это стандартное отклонение, вычисленное либо по данным контрольной группы или предварительного тестирования, либо по данным объединенной выборки (или "генеральной совокупности"). После определения этих стандартизованных разностей между групповыми средними (d), каждой величине d придается положительное или отрицательное значение, в зависимости от дифференциального эффекта, зарегистрированного внутри этих двух типов групп. Если, как и предполагалось в гипотезе, величина группового среднего больше в экспериментальной группе или в итоговом тестировании, чем в контрольной группе или в предварительном тестировании, то соответствующая величина d для данного исслед. получает знак плюс. Если же наблюдается обратное, противоречащее исходной гипотезе, соотношение групповых средних, то соответствующая величина d получает знак минус. Когда все знаки определены, можно вычислить общую итоговую меру величины эффекта для объединяемых из разных исслед. данных. Эта вычислительная процедура представлена выражением , согласно к-рому сумма положительных и отрицательных значений d для каждого включенного в обзор исслед. делится на число исслед. (п). Эта итоговая статистика (среднее d) и будет отображать величину эффекта между двумя состояниями групп, измеренного в единицах стандартного отклонения. Заключение Решающим условием расширения сферы использования метааналитических методов является доступность необходимой информ. о статистических критериях, используемых в обозреваемых исслед. Без сообщения в публикациях точных значений критериальных статистик (например, р, t, Z, d или r) и др. необходимой информ., перспективы применения М. будут весьма ограниченными. С увеличением доступности такой информ. будет продолжаться реальное расширение метааналитических исслед. и совершенствование его методологии. По мере развития самого М. ряд проблем, считавшихся ранее препятствиями на пути использования его методов, привлек внимание исследователей. В результате были выявлены некоторые вызывающие сомнение аспекты М. и предприняты попытки (нужно сказать, успешные) найти решения этих проблем. В частности, М. справился с такими проблемами, как учет посредствующего воздействия др. переменных и применение в исслед. непараметрических методов. В настоящее время М. представляет собой динамическую, многоаспектную систему методов, позволяющую теоретически и методологически убедительным способом объединять в одно целое данные разных научных исслед. Будущее М., по-видимому, зависит не столько от разрешения технических проблем, сколько от продвижения в понимании концептуальной базы М. См. также Теория алгоритмически-эвристических процессов, Критерий хи-квадрат, Корреляционные методы, Теория обработки информации, Проверка нулевой гипотезы, Моделирование структурными уравнениями, Анализ временных рядов Д. Никинович