АНАЛИЗ ДИСПЕРСИОННЫЙ

– метод статистики математической (см.), предназначенной для выявления влияния отдельных независимых друг от друга признаков, традиционно называемых факторами (А, В, С, ...), на нек-рый наблюдаемый признак (Y). Концепция А.д. предложена Р. Фишером в 1920 г. и состоит в выделении и сравнении между собой различн. компонент дисперсии признака Y (отсюда и название метода). Эти компоненты выделяются посредством разложения вариации (SS) признака Y на составные части. Сравнение компонент позволяет делать вывод о значимости или незначимости влияния отдельного фактора на изменчивость признака Y. Величина SS =, где N – число наблюдений (т. е. число объектов), – среднее значение (см. Величины средние) признака Y, у_i. – i-е значение признака Y (т. е. значение для i-го объекта), наз. вариацией признака Y. Она представляет собой числитель формулы для вычисления дисперсии признака (см. Меры рассеяния). А.д., возникший как метод планирования эксперимента (Р. Фишер предложил А.д. для обработки рез-тов опытов по выявлению условий, при к-рых испытываемый сорт сельскохозяйственной культуры дает максимальный урожай), используется как метод анализа данных (см.) для выявления систематич. различий между рез-тами непосредственных измерений, выполненных при тех или иных меняющихся условиях (что особенно важно для социологии). Для применения А.д. требуется определенная структура представления исходных данных. Рассмотрим это на примере выявления влияния образования (фактор А) и пола (фактор В) на удовлетворенность трудом (признак Y) в предположении, что образование как признак (фактор) имеет три градации (1 – среднее, 2 – среднее специальное, 3 – высшее), пол – две градации 1 – мужской, 2 – женский), а признак Y – некий индекс удовлетворенности трудом, носящий количественный характер (см. Признак). Тогда для применения А.д. значения признака Y должны быть представлены в виде:

Таблица 1.

В 1 2 3

1 {Y₁₁} {Y₁₂} {Y₁₃}

2 {Y₂₁} {Y₂₂} {Y₂₃}

Значения табл. 1, отвечающие градации i фактора А и градации j фактора В, представляют собой совокупность значений Y – {у_ij}, называемую (ij)-й ячейкой. Так, в (1,1)-ячейке представлена совокупность {Y_n} значений удовлетворенности трудом мужчин со средним образованием, а в (2, 3)-ячейке – совокупность {Y₂₃} значений удовлетворенности трудом женщин с высшим образованием. Градации факторов наз. уровнями факторов. Наиболее благоприятные условия для применения А.д. в предположении независимости факторов: данные, представленные в отдельной ячейке, подчинены нормальному закону распределения (см. Распределение вероятностей), число наблюдений в ячейках одинаково, дисперсия признака Y в ячейках одинакова. Общая вариация (SS) признака Y, отвечающего табл. 1, может быть разложена на компоненты, каждая из к-рых обусловлена вполне определенным источником дисперсии (вариации) lower case «Sigma»². Число источников зависит от числа изучаемых факторов. Для одного фактора A SS = SS_A SS_OC (1), для двух факторов А и В SS= = SS_A SS_B SS_AB SS_OC (2), а для трех факторов А, В, С SS = SS SS_B SS_C SS_AB SS_AC SS_BC SS_ABC SS_OC (3). В каждое разложение (1)–(3) входят три группы компонент. Компоненты первой группы – SS_A, SS_B, SS_C (с одним индексом) – обусловлены т.н. главными эффектами факторов. В нашем примере SS_A – компонента вариации удовлетворенности трудом, обусловленная возрастом и только им. Ее можно получить усреднением значений удовлетворенности по полу и внутри ячеек, т. е. рассмотреть всего три значения средней удовлетворенности: для респондентов со средним образованием, со средним специальным и с высшим. По этим значениям легко вычисляется SS_A, на основе к-рой получается оценка дисперсии признака Y при действии только фактора образования без принятия во внимание остальных источников дисперсии. По существу, речь идет о "чистом" влиянии фактора образования. Компоненты второй группы – SS_ABC – обусловлены т.н. взаимодействиями факторов. SS_AB – компонента вариации удовлетворенности трудом, обусловленная одновременным действием на такую удовлетворенность и возраста, и пола респондента. Ее можно получить усреднением данных внутри ячеек, т. е. на основе шести (по числу ячеек) значений удовлетворенности. Третья группа компонент вариации Y, состоящая из SS_OC, представляет собой т.н. остаточную вариацию. Ее источником служат все неучтенные факторы, влияние к-рых обнаруживается при анализе изменчивости признака Y внутри ячеек. Естественно предположить, что эти факторы одинаково действуют на изменчивость в каждой ячейке (отсюда и возникает требование равенства дисперсий и нормальности распределения в ячейках, о к-рых говорилось выше). Процедура А.д. начинается с вычисления перечисленных выше компонент. На основе этих компонент рассчитываются различ. оценки дисперсии. Число таких оценок равно числу источников дисперсии. Эти оценки называют средними квадратами. Вычисляются они делением значения соответствующей компоненты SS на отвечающее ей число степеней свободы. В табл. 2 приведено число степеней свободы для случая двухфакторного разложения, когда число уровней фактора А равно r, а фактора В – с и число наблюдений в ячейках одинаково и равно n.

Таблица 2.

Компонента SS_A SS_B SS_AB SS_OC SS

Число степеней свободы r-1 с-1 (r-l)(c-l) rc(n-l) N-1

В нашей задаче r = 3, с = 2. Суждение о значимости влияния того или иного источника дисперсии выносится после сравнения оценки дисперсии, отвечающей этому источнику, с оценкой, вычисленной на основе SS. Подобное сравнение осуществляется посредством критерия Фишера (F-критерий). Для этого вычисляется значение отношения двух оценок. Напр., при сравнении оценок SS_A/(r–1) и SS_oc/[rc(n–l)] (для выявления "чистого" влияния фактора А на изменчивость признака Y) вычисляется величина F_A=SS_Arc(n-l)/[SS_oc(r–1)]. Полученная величина сравнивается с табличным значением F , к-рое определяется однозначно при заданных степенях свободы и для заданного уровня значимости (cм. Проверка статистических гипотез). Если окажется, что F_A> F_T, то влияние фактора А статистически значимо. Предположим, что в нашей задаче SS_A= 3,5; SS_OC= 7,0; n=6. Тогда гипотеза о значимости влияния образования подтверждается, т.к. F_A = 7,5, т. е. больше, чем F_T= 4,17, при уровне значимости α=0,05 и степенях свободы ν₁=3–1=2; ν₂=rc(n–l)=30(α,ν₁,ν₂) – традиционные обозначения упомянутых величин в таблицах F-кри-терия). Проверка этой гипотезы есть не что иное, как проверка гипотезы о равенстве средних значений удовлетворенности на различных уровнях фактора образования. Если средние удовлетворенности для респондентов со средним, средним специальным и высшим образованием не равны между собой (в статистич. смысле различие значимо), то влияние образования на удовлетворенность трудом значимо. В А.д. "влияние" понимается именно в этом смысле. Рассмотренная процедура А.д. возможна (т. е. SS разложима) лишь в предположении некрой модели изучаемого явления, описываемого посредством Y, А, В, .... А.д., по существу, представляет собой совокупность методов, каждый из к-рых предполагает определенную модель обусловленности значения Y тем, какие значения принимают рассматриваемые факторы А, В,..., и возможностями получения наблюдений при различ. сочетании уровней факторов (та или иная модель подобного рода предполагается при использовании любого математич. метода). Мы рассмотрим лишь наиболее простую из них, в предположении к-рой и стало возможным разложение типа (1), (2) или (3). Для случая двух факторов она имеет вид Y_ijk=μ α_i β_i γ_ij. l_ijk где {l_ijk} независимы и распределены нормально с параметрами (0,lower case «Sigma»²), т. е. со средним значением 0 и дисперсией lower case «Sigma»² (cм. Распределение вероятностей); .

Для нашей задачи это означает, что оценка удовлетворенности трудом k-го респондента (Y_ijk с i-м уровнем образования, j-то пола представляет собой сумму нескольких величин (т. е. имеем дело с математич. моделью линейной), где μ – средняя "генеральная" удовлетворенность, статистич. оценкой (см. Оценивание статистич.) этой величины служит среднее значение признака Y по всем наблюдениям, представленным в табл. 1, т. е. средняя удовлетворенность всех респондентов, α_i – главный эффект i-го уровня фактора А. Его оценкой является превышение среднего значения удовлетворенности респондентов с i-м образованием над средней удовлетворенностью всех респондентов; аналогично определяется β_i как главный эффект j-ro уровня фактора В; γ_ij – взаимодействие i-го уровня фактора А с j-м уровнем фактора В. Принятый в литературе термин "взаимодействие факторов" означает совместное воздействие рассматриваемых факторов на Y. Так, в приведенном примере может оказаться, что ни одна градация пола и ни одна градация образования не определяют к.-л. специфич. уровня удовлетворенности трудом (мужчины и женщины удовлетворены примерно одинаково, то же справедливо для разных уровней образования). Однако какое-то сочетание (из шести градаций этих факторов) может быть связанным с каким-то выделяющимся значением удовлетворенности (напр., может оказаться, что женщины со средним образованием намного более удовлетворены трудом, чем все остальные рассматриваемые группы (ячейки) респондентов). Именно тогда и говорят о взаимодействии факторов (в нашем примере взаимодействуют пол и образование). Понятие "взаимодействие" можно трактовать и несколько по-иному (см. Анализ регрессионный). Поясним, как рассчитывается оценка γ_ij. Оценка γ₁₂ – взаимодействие среднего образования с женщинами.– вычисляется как разность двух величин. Первая – превышение средней удовлетворенности женщин со средним образованием над средней удовлетворенностью всех респондентов со средним образованием (т. е. оценка главного эффекта второго уровня фактора "пол", вычисленная относительно первого уровня фактора "образование"), а вторая – превышение средней удовлетворенности трудом всех женщин над средней удовлетворенностью всех респондентов (т. е. оценка главного эффекта второго уровня фактора "пол"). L_ijk – ошибка наблюдения. Эта величина оценивается путем вычисления меры изменчивости удовлетворенности трудом у респондентов, имеющих одни и те же пол и образование. Последнее равенство в описании модели вытекает из определения α_i и β_i. Смысл сравнения F_A с F_T (о чем шла речь выше) на языке модели А.д. – проверка гипотезы, что все α_i=0. Если гипотеза о значимости влияния образования на удовлетворенность трудом принимается (т. е. не все α_i =0), то можно проверить, напр., гипотезу об одинаковости влияния среднего и высшего образования на оценку удовлетворенности трудом. Выявляется, какие же из α_i не равны нулю. Для проверки таких гипотез служат методы множественного сравнения: метод Тьюки (Т-метод) и метод Шеффе (S-метод). Естественно, что при решении конкретных задач условия применимости А.д. не всегда выполняются. А.д. можно применять и при их нарушении, но при этом: 1) нарушение нормальности распределения в ячейках возможно при больших значениях числа степеней свободы; 2) нарушение равенства дисперсий в ячейках возможно, если число наблюдений в ячейках равное; 3) нарушение независимости наблюдений в ячейках недопустимо. Лит.: Шеффе Г. Дисперсионный анализ. М., 1962; Гласе Дж., Стэнли Дж. Статистические методы в педагогике и психологии. М., 1976: Статистические методы анализа информации в социологических исследованиях. М., 1979. Г.Г. Татарова