Диалоговое окно Ordinal Regression: Output (Порядковая регрессия: Вывод)



Рис. 16.21. Диалоговое окно Ordinal Regression: Output (Порядковая регрессия: Вывод)


Отображение результатов в окне просмотра начинается с вывода предостережения. В 66,2% всех ячеек, которые образовываются из комбинаций факторов и зависимых переменных, частота равна нулю. При этом не учитываются те комбинации факторов, которые повторяются. Вы можете включить в список выдачи наблюдаемые и ожидаемые частоты, а также их остатки, если после нажатия кнопки Output... (Вывод) активируете опцию Cell infonnation (Информация по ячейкам).

Warnings (Предостережения)

Далее следует таблица, содержащая абсолютные и выраженные в процентах частоты различных категорий зависимых переменных и факторов.

Case Processing Summary (Сводная таблица обработки наблюдений)

N (Коли-чество)

Marginal Percentage (Предельный процент)

Einen Plan machen und danach handeln (Разработать план и затем приступать к лечению)

gar nicht (Абсолютно не верно)

24

28,2%

wenig (Слабо)

18

21,2%

mittelmaessig (Посредственно)

18

21,2%

ziemlich (Достаточно)

16

18,8%

sehr stark (Абсолютно верно)

9

10,6%

Alter (Возраст)

bis 40 Jahre (До 45 лет)

29

34,1%

41-55 Jahre (41-55 лет)

29

34,1%

ueber 55 Jahre (Свыше 55 лет)

27

31,8%

Geschlecht (Пол)

maennlich (Мужской)

44

51,8%

weiblich (Женский)

41

48,2%

Krankheitsdauer (Продолжительность болезни)

bis 5 Jahre (До 5 лет)

24

28,2%

6-10 Jahre (6-10 лет)

16

18,8%

(6-10 лет)

32

37,6%

11-20 Jahre (11 -20 лет)

13

15,3%

Schulbildung (Образование)

Hauptschule (Неполное среднее)

53

62,4%

Mittlere Reife (Среднее)

18

21,2%

Abitur (Аттестат зрелости)

14

16,5%

Valid (Действительное значение)

85

100,0%

Missing (Пропущенное значение)

0

Tola (Сумма)

85

В качестве оценки значимости вклада отдельных независимых переменных в улучшение прогнозов, получаемых с помощью модели также, как и при бинарной логистической регрессии, служит отрицательное значение 2LL (Удвоенное значение логарифма функции правдоподобия). Разность между начальным значением ("Только постоянное слагаемое") и конечным значением ("Окончательно") указывается в виде значения теста хи-квадрат. которому соотнесен соответствующий уровень значимости. В приведенном примере наблюдается очень значимое улучшение (р < 0,001).

Model Fitting Information (Информация о приближении модели)

Model (Модель)

-2 Log likelihood (-2 логарифми-ческое правдоподобие)

Chi-Square (Хи-квадрат)

df (Степень свободы)

Sig. (Значи-мость)

Intercept Only (Только постоянное слагаемое)

207,180

Final (Окончательно)

170,408

36,772

8

,000

Link function: Logit (Связывающая функция: Логит).

Для проверки, будут ли наблюдаемые частоты по ячейкам значимо отличаться от ожидаемых частот, рассчитанных на основе модели, выполняется хи-квадрат тест по Пирсону. Его результатом, для данного примера, является не значимая разность значений (р = 0,190), что говорит о достижении высокой степени приближения. Однако, следует обратить внимание на то, что из-за большого количества пустых ячеек применение теста хи-квадрат становится проблематичным.

Goodness of fit (Критерий согласия)

Chi-Square (Хи-квадрат)

df (Степень свободы)

Sig. (Значимость)

Pearson (Пирсон)

158,733

144

,190

Deviance (Отклонение)

127,454

144

,835

Link function: Logit (Связывающая функция: Логит).

Из трёх мер согласия приведенных ниже, мера, вычисленная по методу Нагелькерке (Nagelkerke) является мерой определённости, которая указывает на процентную долю дисперсии, объяснимой при помощи порядковой регрессии, (см. разд. 16.4). В приведенном примере оценка дисперсии составляет 36,7 %.

Pseudo R-Square (Псевдо R-квадрат)

Сох and Snell (Кокс и Шелл)

,351

Nagelkerke (Нагелькерке)

,367

McFadden (МакФадден)

,138

Linkfunction: Logit (Связывающая функция: Логит).

Результатом анализа являются оценки параметров регрессии приведенные в нижеследующей таблице.

Parameter Estimates (Оценки параметров регрессии)
Esti-mate (Оце-нка) Std. Error (Стандар-тная ошибка) Wald (Валь-дов-ский) df (Сте-пень сво-боды) Sig. (Значи-мость) 95% Confidence Interval (95 % довери- тельный интервал)
Lower Bound Upper Bound
Threshold (Порог) [PLAN = 1] -,220 ,968 ,052 1 ,820 -2,118 1,677
[PLAN = 2] ,981 ,988 ,986 1 ,321 -,955 2,918
[PLAN = 3] 2,253 1,013 4,949 1 ,026 ,268 4,238
[PLAN = 4] 3,907 1,048 13,905 1 ,000 1,853 5,960
Location (Поло-жение) [G=1] 2,145 ,540 15,787 1 ,000 1,087 3,204
[G=2] 1,357 ,529 6,574 1 ,010 ,320 2,394
[ALTER =1] Oa , , 0 , f (
[ALTER =2] -1,091 ,433 6,355 1 ,012 -1,939 -,243
[ALTER =3] Oa , , 0 , f j
[KDAUER =1] 1,811 ,740 5,990 1 ,014 ,361 3,261
JKDAUER =2] 1,486 ,782 3,606 1 ,058 -4.772E-02 3,019
IKDAUER =3] 1,340 ,678 1 3,905 1 ,048 1.101E-02 2,669
[KDAUER =4] Oa , , 0 , ( ,
[SCHULE =1] -1,183 ,618 3,665 1 ,056 -2,394 2.807E-02
[SCHULE =2] -,659 ,700 ,886 1 ,347 -2,031 ,713
rSCHULE =31 Oa 0

Link function: Logit (Связывающая функция: Логит).

a. This parameter is set to zero because it is redundant (Этот параметр приравнен к нулю, так как является дублирующим). !



Каждой категории зависимых переменных и каждой категории факторов сопоставлена оценка параметра регрессии, причём оценки для соответствующих категорий высших порядков являются дублирующими и поэтому приравнены к нулю. Оценки параметров регрессии для зависимой переменной являются пороговыми оценками, которые для факторов называются оценками положения.

Оценки положения дают возможность толковать влияние факторов и указывают на степень этого влияния. Поэтому, прежде чем будет продемонстрирована точная математическая связь между факторами влияния и зависимой переменной, можно констатировать следующее:

  • Из таблицы можно узнать, какие из факторов вообще оказывают значимое влияние на зависимую переменную. Такими факторами являются возраст, пол и продолжительность болезни, в то время как образование находится на самой границы значимости, до перехода этой границы осталось совсем не много.

  • Положительные оценки означают, что соответствующая категория действует в качестве высшей категории зависимой переменной; отрицательные оценки указывают на действие в качестве низших категорий зависимых переменных.

Принадлежность к младшим возрастным группам является причиной более единодушного одобрения предложения: "Разработать план лечения и затем приступать к его воплощению", все мужчины менее склонны к такому предложению, небольшая продолжительность болезни, а также высокое или низкое образование ведут к снижению степени одобрения. Это соответствует результатам корреляционного анализа.

Математическое значение оценок параметров регрессии заключается в том, что на них основе могут быть вычислены кумулятивные (суммарные) вероятности для категорий независимых переменных. Покажем это на конкретном примере.

Для этого возьмем в редакторе данных первого пациента и рассчитаем совокупную вероятность для случая, когда он отмечает одну из первых двух категорий ("gar nicht" (абсолютно не верно) или "wenig" (слабо)) для зависимой переменной.

Первый пациент является мужчиной средней возрастной группы с большой продолжительностью болезни и неполным средним образованием. Учитывая все эти сведения, можно ожидать высокую вероятность того, что больной проявит слабую готовность планомерно лечить свою болезнь.

На первом шаге расчёта мы должны сложить оценки положения, соответствующие отдельным категориям:

alter = 2

1,347

g = 1

-1,091

Kdauer = 4

0,000

Schule = 1

-1,183

Сумма

-0,917

Эту сумму нам теперь нужно отнять от пороговой величины второй категории зависимой переменной (plan = 2):

0,981 - (-0,917) = 0,981 + 0,917 = 1,898

Как можно заметить по значению, которое превосходит единицу, этот показатель пока ещё не является искомой совокупной вероятностью того, что больной отметит одну из первых двух категорий. Значение этого показателя соответствует связующей функции, приведенной к этой вероятности. В нашем примере мы выбрали в качестве связующей логит-функцию, установленную по умолчанию, так что для искомой вероятности справедливо следующее выражение:

Таким образом, вероятность того, что первый пациент отметит одну из первых двух категорий, составляет р = 0,87 или 87 %. Фактически пациент отметил категорию 1.

Чтобы успокоить пользователей программы, следует сказать, что Вы можете избежать этих сложных расчётов. В диалоговом окне Ordinal Regression:Output (Порядковая регрессия: Вывод) мы активировали опцию сохранения некоторых переменных, которые теперь можем просмотреть.

Пять переменных est1_1-est5_1 соответствуют вероятностям для пяти категорий зависимой переменной. Если мы возьмем первого пациента, то достаточно сложить вероятности для первых двух категорий:

0,67 + 0,20 = 0,87

Это соответствует тому значению, которое мы рассчитали для совокупной вероятности второй категории. В переменной рге_1 сохранен номер категории, которой соответствует самая высокая вероятность, названная "прогнозируемой категорией". Переменная рср_1 ещё раз дает вероятность выбора этой категории.

Связующая логит-функция выбранная нами для этого примера, принадлежит к набору из пяти функций, приведенных ниже.

Функция

Форма

Применение

Logit (Логит)

In (р/(1-р))

Равномерно распределённые категории

Complementary log-log (Сопряженный двойной логарифм)

ln(-ln(1-p))

Высшие категории представлены сильнее

Negative log-log (Отрицательный двойной логарифм)

-ln(-ln(p))

Низшие категории представлены сильнее

Probit (Пробит)

Инверсия стандартного комулятивного нормального распределения

Нормально распределённые частоты

Cauchit (Коши)

tan(7t(p-0.5))

Появление пиковых значений

В качестве меры качества прогнозирования можно использовать ранговую корреляцию по Спирману между фактически наблюдаемой категорией (переменная plan) и прогнозируемой категорией (переменная рге_1). Для приведенного примера (связующая функция — логит) получим г = 0,611; для других связующих функций получаются более низкие значения.

Лучшую модель можно получить, если в диалоговом окне Ordinal Regression: Location (Порядковая регрессия: Положение) наряду с главными эффектами включить и взаимодействия. После активирования опции Custom (Пользовательский режим) в вашем распоряжении появляется вспомогательное меню, при помощи которого вместе с главным эффектом Вы сможете включить в модель и различные виды взаимодействия.

  • Активируйте опцию Custom (Пользовательский режим) и сперва выберите в появившемся списке Main effects (Главные эффекты).

  • При помоши транспортной кнопки перенесите все факторы в поле Location model: (Определение положения для модели).

  • Затем отметьте в разворачивающемся меню Interaction (Взаимодействие) и повторно перенесите все факторы в поле Location model: (Определение положения для модели). Будет выбрано взаимодействие четвёртого уровня. При помоши опции All 2-way (Все дважды) Вы можете задать взаимодействие второго уровня, при помощи опции АН З-way (Все трижды) — взаимодействие третьего уровня и т.д.

Теперь прогноз будет лучше; в случае применения для данного примера взаимодействия четвёртого уровня ранговая корреляция между наблюдаемой и прогнозируемой категориями возрастает с 0,611 до 0,739. При этом, конечно же, возрастает и количество параметрических оценок.






Содержание раздела