Иерархический кластерный анализ с предварительным факторным анализом
20.2.3 Иерархический кластерный анализ с предварительным факторным анализом
Рассмотрим пример из области географии. В 28 европейских странах в 1985 году были собраны следующие данные, выступающие здесь в качестве переменных:
Переменная | Значение |
land | Страна |
sb | Процент городского населения |
lem | Средняя продолжительность жизни мужчин |
lew | |
ks | Детская смертность на 1000 новорожденных |
so | Количество часов ясной погоды в году |
nt | Количество дней пасмурной погоды в году |
tjan | Средняя дневная температура в январе |
tjul | Средняя дневная температура в июле |
Эти данные вы увидите, если откроете файл europa.sav. Переменная land является текстовой переменной, предназначенной для обозначения страны.
Целью нашего кластерного анализа является нахождение стран с похожими свойствами. При самом общем рассмотрении переменных (от непосредственного указания стран мы здесь воздержимся) становится заметным, что данные, содержащиеся в файле связаны исключительно с ожидаемой продолжительностью жизни или с климатом. Лишь процентный показатель населения, проживающего в городах, не вписывается в эти рамки. Стало быть, сходства, которые возможно будут найдены между некоторыми странами, основываются на продолжительности жизни и климате этих стран.
Исходя из вышесказанного, в данном случае перед проведением кластерного анализа рекомендуется сократить количество переменных. Подходящим методом для этого является факторный анализ (см. гл. 19), который вы можете провести, выбрав в меню Analyze (Анализ) Data Reduction (Преобразование данных) Factor... (Факторный анализ)
Если Вы проведёте факторный анализ и примените, к примеру, вращение по методу варимакса, то получите два фактора. В первый фактор войдут переменные: lem. lew, ks и sb, а во второй фактор - переменные: so, nt, tjan и tjul. Первый фактор однозначно характеризует продолжительность жизни, причём высокое значение фактора означает высокую продолжительность жизни, а второй отражает климатические условия; здесь высокие значения означают тёплый и сухой климат. Вместе с тем, Вы наверняка заметили, что в первый фактор интегрирована и переменная sb, что очевидно указывает на высокую ожидаемую продолжительность жизни при высоких процентных долях городского населения. Вы можете рассчитать факторные значения для этих двух факторов и добавить их к файлу под именами fac1_1 и fac2_1. Чтобы Вам не пришлось самостоятельно проводить факторный анализ на этом этапе, указанные переменные уже включены в файл europa.sav. Вы можете видеть, к примеру, что высокой продолжительностью жизни обладают северные страны (высокие значения переменной fac1_1) или южные страны с тёплым и сухим климатом (высокие значения переменной fac2_1). Факторные значения можно вывести с помощью меню Analyze (Анализ) Reports (Отчёты) Case Summaries... (Итоги по наблюдениям)
Они выглядят следующим образом:
Case Summaries a (Итоги по наблюдениям)
LAND (Страна) | Lebenserwartung (Ожидаемая продолжительность жизни) | Klima (Климат) | |
1 | ALBA | -1,78349 | ,57155 |
2 | BELG | ,55235 | -,57937 |
3 | BULG | -,43016 | -,13263 |
4 | DAEN | ,97206 | -,23453 |
5 | DDR | ,26961 | -,3351 1 |
6 | DEUT | ,19121 | -,44413 |
7 | FINN | -,30226 | -1,28467 |
8 | FRAN | 1,05511 | 1,04870 |
9 | GRIE | ,12794 | 2,65654 |
10 | GROS | ,75443 | -,05221 |
11 | IRLA | ,16370 | -,66514 |
12 | ISLA | 1,75315 | -,97421 |
13 | ITAL | ,40984 | 1,68933 |
14 | JUGO | -2,63161 | -,44127 |
15 | LUXE | -.16469 | -,98618 |
16 | NIED | 1,31001 | -,29362 |
17 | NORW | ,96317 | -,46987 |
18 | OEST | -,20396 | -,31971 |
19 | POLE | -,65937 | -,92081 |
20 | PORT | -1,10510 | 1,59478 |
21 | RUMA | -1,32450 | ,09481 |
22 | SCHD | 1,22645 | -,20543 |
23 | SCHZ | , 56289 | -,45454 |
24 | SOWJ | -,67091 | -1,32517 |
25 | SPAN | , 83627 | 1,91193 |
26 | TSCH | -,59407 | -,40632 |
27 | TUER | -,52049 | 1,04424 |
28 | UNGA | -,75761 | -,08695 |
Total N | 28 | 28 | 28 |
a. Limited to first 100 cases (Ограничено первыми 100 наблюдениями).
Распределим эти 28 стран по кластерам при помощи двух факторов: ожидаемая продолжительность жизни и климат.
-
Выберите в меню Analyze (Анализ) Classify (Классифицировать) Hierarchical Cluster... (Иерархический кластерный анализ)
-
Переменные fac1_1 и fac2_1 поместите в поле тестируемых переменных, а переменную land (страна) — в поле с именем Label cases by: (Наименование (маркировка) наблюдений).
-
После прохождения выключателя Statistics... (Статистики), наряду с таблицей порядка агломерации сделайте запрос на вывод информации о принадлежности к кластеру для наблюдений. Активируйте Range of solutions: (Область решений) и введите граничные значения 2 и 5.
-
Для сохранения информации о принадлежности отдельных наблюдений к кластеру в виде дополнительных переменных, воспользуйтесь выключателем Save... (Сохранить). В соответствии с установками, произведенными в диалоговом окне статистики, активируйте и здесь Range of solutions: (Область решений) и введите граничные значения 2 и 5.
-
Деактивируйте вывод дендрограмм. Так как переменные, используемые в данном кластерном анализе, являются факторными значениями с одинаковыми областями допустимых значений, то стандартизация (z-преобразование) значений является излишней.
Agglomeration Schedule
(Порядок агломерации) | ||||||
Stage (Шаг) | Cluster Combined (Объединение в кластеры) | Coefficients (Коэф-фициенты) | Stage Cluster First Appears (Шаг, на котором кластер появляется впервые) | Next Stage (Следу-ющий шаг) | ||
Cluster 1 (Кластер 1) | Cluster 2 (Кластер 2) | Cluster 1 (Кластер 1) | Cluster 2 (Кластер 2) | |||
1 | 16 | 22 | 1,476 | 0 | 0 | 8 |
2 | 2 | 23 | 1,569 | 0 | 0 | 10 |
3 | 5 | 6 | 1,803 | 0 | 0 | 5 |
4 | 4 | 17 | 5,546 | 0 | 0 | 8 |
5 | 5 | 11 | 8,487 | 3 | 0 | 10 |
6 | 3 | 18 | 8,617 | 0 | 0 | 12 |
7 | 7 | 15 | ,108 | 0 | 0 | 15 |
8 | 4 | 16 | ,118 | 4 | 1 | 13 |
9 | 26 | 28 | ,129 | 0 | 0 | 12 |
10 | 2 | 5 | ,148 | 2 | 5 | 18 |
11 | 19 | 24 | ,164 | 0 | 0 | 15 |
12 | 3 | 26 | ,183 | 6 | 9 | 20 |
13 | 4 | 10 | ,228 | 8 | 0 | 18 |
14 | 13 | 25 | ,231 | 0 | 0 | 19 |
15 | 7 | 19 | ,254 | 7 | 11 | 20 |
16 | 1 | 21 | ,438 | 0 | 0 | 22 |
17 | 20 | 27 | ,645 | 0 | 0 | 22 |
18 | 2 | 4 | ,648 | 10 | 13 | 21 |
19 | 8 | 13 | ,810 | 0 | 14 | 23 |
20 | 3 | 7 | ,939 | 12 | 15 | 24 |
21 | 2 | 12 | 1,665 | 18 | 0 | 24 |
22 | 1 | 20 | 1,793 | 16 | 17 | 25 |
23 | 8 | 9 | 1,839 | 19 | 0 | 27 |
24 | 2 | 3 | 2,229 | 21 | 20 | 26 |
25 | 1 | 14 | 4,220 | 22 | 0 | 26 |
26 | 1 | 2 | 5,925 | 25 | 24 | 27 |
27 | 1 | 8 | 6,957 | 26 | 23 | 0 |
Сначала приводятся самые важные результаты. В таблице порядка агломерации Вы можете проследить последовательность образования кластеров; объяснения по этому поводу приводились в разделе 20.1. Скачкообразное изменение коэффициентов наблюдается при значениях 2,229 и 4,220; это означает, что после образования четырёх кластеров больше не должно происходит ни каких объединений и решение с четырьмя кластерами является оптимальным.
Принадлежность наблюдений к кластерам можно взять из нижеследующей таблицы, которая содержит также и информацию о принадлежности к кластерам для других вариантов решения (пять, три и два кластера).
Если Вы посмотрите на четырёхкластернное решение на нижеследующей таблице, то заметите, к примеру, что к третьему кластеру относятся следующие страны: Франция, Греция, Италия и Испания. Это страны с высокой продолжительностью жизни и тёплым климатом и поэтому не зря они являются предпочтительными для отдыха.
Cluster Membership (Принадлежность к кластеру)
Case (Случай) | 5 Clusters (5 кластеров) | 4 Clusters (4 кластера) | 3 Clusters (3 кластера) | 2 Clusters (2 кластера) |
1:ALBA | 1 | 1 | 1 | 1 |
2:BELG | 2 | 2 | 2 | 1 |
3:BULG | 3 | 2 | 2 | 1 |
4:DAEN 5:DEUT | 2 | 2 | 2 | 1 |
6:DDR | 2 | 2 | 2 | 1 |
7:FINN | 3 | 2 | -3 | 2 |
8:FRAN | 4 | 3 | -3 | 2 |
9:GRIE | 4 | 2 | 2 | 1 |
10:iGROS | 2 | 2 | 1 | |
11:IRLA | 2 | 2 | 2 | 1 |
12:ISLA | 2 | 3 | о | 2 |
13:ITAL | 4 | 4 | 1 | 1 |
14:JUGO | 5 | 2 | 2 | 1 |
1 5:LUXE | 3 | 2 | 2 | 1 |
16:NIED | 2 | 2 | 1 | |
17:NORW | 2 | 2 | 2 | 1 |
18:OEST | 3 | 2 | 2 | 1 |
19:POLE | 3 | 2
1 | 1 | 1 |
20:PORT | 1 | 1 | 1 | 1 |
21:RUMA | 1 | 2 | 1 | |
22:SCHD 23:SCHZ | 2 | 2 | 2 | 1 |
24:SOWJ | 3 | 1 | i | 2 |
!25:SPAN | 4 | 1 | ||
26:TSCH | 3 | 1 | 1 | 1 |
27:TUER 28:UNGA | 1 | 2 | 1 | 1 |