Кластерный Анализ в Spss Пошаговая инструкция

Уважаемый гость, на данной странице Вам доступен материал по теме: Кластерный Анализ в Spss Пошаговая инструкция. Скачивание возможно на компьютер и телефон через торрент, а также сервер загрузок по ссылке ниже. Рекомендуем также другие статьи из категории «Справочники».

Кластерный Анализ в Spss Пошаговая инструкция.rar
Закачек 3648
Средняя скорость 5539 Kb/s
Скачать

Программа SPSS позволяет проводить кластерный анализ не только объектов, но и переменных. В последнем случае кластерный анализ может выступать как более простой и нередко более эффективный аналог факторного анализа.

В данном разделе нами будет рассмотрен алгоритм реализации в программе SPSS иерарического агломеративного кластерного анализа. Рассмотрим его реализацию поэтапно.

1. Запустите программу SPSS при помощи значка на рабочем столе или команды Пуск→Программы→ SPSS for Windows → SPSS 11.5 for Windows. В открывшемся диалоговом окне щелкните на кнопку Сancel (Отмена).

2. Создайте новый файл данных или откройте существующий.

Рис. 4.2 Диалоговое окно Hierarchical Cluster Analysis

Структура окна Hierarchical Cluster Analysis типична для большинства диалоговых окон SPSS. Слева находится список переменных текущего файла данных. Выделите переменные, с помощью которых будет осуществляться процесс кластеризации, и при помощи кнопки со стрелкой перенесите их в поле Variable(s) (Переменные). В поле Label Cases by (Различать объекты по) с помощью кнопки со стрелкой переносится переменная, идентифицирующая объекты.

В поле Cluster (Кластеризация) предусмотрены два переключателя (Объекты) и (Переменные). Маркером помечают один из вариантов процедуры кластеризации. В случае кластеризации переменных поле Label Cases by (Различать объекты по) останется пустым.

В нижней части диалогового окна расположены четыре кнопки, предназначенные для задания дополнительных параметров команды.

4. Настройка кнопки Statistics (Статистики)

Рис. 4.3. Диалоговое окно Hierarchical Cluster Analysis: Statistics

Флажок Agglomeration Schedule (Последовательность слияния) по умолчанию установлен, обеспечивая включение в результаты стандартного компонента вывода кластерного анализа. Флажок Proximity Matrix (Матрица сходства) предназначен для отображения информации о расстояниях между объектами и кластерами. Использование матрицы удобно лишь для небольших файлов данных. Группа Cluster Membership (Кластеры в решении) состоит из трех переключателей, описанных ниже.

None (Нет) — в выводимые результаты включаются все кластеры. Этот вариант установлен по умолчанию.

Single solution (Единственное решение) — позволяет определить точное число выводимых кластеров.

Range of solution (Диапазон решений) — обеспечивает вывод нескольких решений с разным числом кластеров. Так, если ввести в поле (От) число 2. А вполе (До) число 6, то в выводимые результаты будут включены все решения с количеством кластеров от 2 до 6.

5. Настройка кнопки Plots (Диаграммы)

При щелчке по кнопке Plots (Диаграммы) на экране появляется диалоговое окно Hierarchical Cluster Analysis: Plots (Иерархический кластерный анализ: Диаграммы), представленное на рис. 4.4.

Рис. 4.4. Диалоговое окно Hierarchical Cluster Analysis: Plots

Флажок Dendrogram (Дендрограмма) позволяет включить в выводимые результаты дендрограмму.

6. Настройка кнопки Method (Метод)

Рис. 4.5. Диалоговое окно Hierarchical Cluster Analysis: Method

В данном окне раскрывается список Cluster Method (Метод кластеризации), который содержит возможные методы кластеризации объектов, среди них:

Between-groups linkage — метод «межгруппового связывания».

Within- groups linkage — метод «внутригруппового связывания».

Nearest neighbor — метод «одиночного связывания».

Furthest neighbor — метод «полного связывания»

Centroid clustering — метод «центроидной кластеризации».

Wards method — метод Варда.

В раскрывающемся списке Interval (Интервал) по умолчанию выбран пункт Squared Euclidean distance (Квадрат Евклидова расстояния). Это означает, что расстояние между объектами вычисляется как разность квадратов соответствующих переменных этих объектов. Возможен выбор и других мер сходства.

Процедура стандартизации исходных данных выбирается в раскрывающемся списке Standardize (Стандартизация). По умолчанию выбран пункт None (Нет). Однако в случаях, когда стандартизация необходима чаще всего выбирают пункт Z scores (z-шкала).

В группе Transofm Measures (Преобразование значений) имеется три флажка, позволяющих изменить значения переменных: Absolute values (Абсолютные значения), Change Sign (Смена знаков), Rescale to 0-1 (Свести к интервалу 0-1).

7. Настройка кнопки Save (Сохранить)

Рис. 4.6. Диалоговое окно Hierarchical Cluster Analysis:

Save New Variables

С помощью этого окна можно создавать новые переменные значения которых будут хранить вычисленные статистические величины. Если установлен переключатель None (Нет), то никакого сохранения в процессе анализа не производится. В противном случае при выполнении анализа будут созданы переменные, которые окажутся в конце файла данных. После установления соответствующих настроек необходимо с помощью щелчка по кнопке Continue (продолжить) возвратиться в основное диалоговое окно Hierarchical Cluster Analysis.

8. Запуск процедуры выполнения кластерного анализа осуществляется в диалоговом окне окно Hierarchical Cluster Analysis щелчком по кнопке ОК. Кнопка Reset (Сброс) позволяет корректировать настройки.

Контрольные вопросы

1. В чем состоит принципиальное отличие методов многомерных классификаций от комбинационных группировок?

2. Назовите область применения кластерного анализа в маркетинге?

3. Раскройте сущность иерархических агломеративных и дивизимных методов кластерного анализа? В чем их достоинства и недостатки?

4. Раскройте сущность итеративных методов кластерного анализа? В чем их достоинства и недостатки?

5. Раскройте алгоритм реализации иерархического агломеративного кластерного анализа?

6. Что иллюстрирует дендрограмма кластеризации объектов в кластерном анализе?

7. Назовите основные критерии качества классификации объектов в кластерном анализе и их практическую значимость?

8. Раскройте поэтапно алгоритм реализации кластерного анализа в SPSS?

СПИСОК ЛИТЕРАТУРЫ

1. Анурин В., Муромкина И., Евтушенко Е. Маркетинговые исследования потребительского рынка. — СПб.: Питер, 2006. — 260 с.

2. Бернс Э., Буш Р. Основы маркетинговых исследований с использованием Excel. — СПб.: Вильямс, 2006.

3. Белявский И. Маркетинговое исследование: информация, анализ, прогноз. М.: Финансы и статистика, 2001.

4. Власова М.Л. Социологические методы в маркетинговых исследований. — М.: ГУ ВШЭ, 2006.

5. Гмурман В. Е. Теория вероятностей и математическая статистика: Учеб. пособие для вузов. — 8-е изд. — М.: Высшая школа, 2002.

6. Жамбю М. Иерархический кластер-анализ и соответствия. — М.: Финансы и статистика, 1988. — 342 с.

7. Иберла К. Факторный анализ. М.: Статистика, 1980. — 398 с.

8. Коротков А. В. Маркетинговые исследования. — М.: ЮНИТИ-ДАНА, 2005. — 304 с.

9. Мандель И. Д. Кластерный анализ. — М.: Финансы и статистика, 1988. — 176 с.

10. Малхотра К. Маркетинговые исследования и эффективный анализ статистических данных. — М.: Диасофт, 2002.

11. Малхотра К. Маркетинговые исследования: Практическое руководство. 3-е изд. М.: Вильямс, 2002.

12. Многомерный статистический анализ в экономике: Учеб. пособие для вузов / Под ред. В. Н. Тамашевича. — М.: ЮНИТИ-ДАНА, 1999. — 598 с.

13. Математические методы в экономике: Учебник / Под общ. ред. д.э.н., проф. А.В Сидоровича, МГУ им. М.В. Ломоносова. — М.: Издательство «Дом и Сервис», 2001.

14. Моосмюллер Г., Ребик Н.Н. Маркетинговые исследования с SPSS. — М.: Инфра-М, 2007. — 160 с.

15. Наследов А. Д. SPSS: Компьютерный анализ в психологии и социальных науках. — СПб.: Питер, 2007. — 416 с.

16. Пиотровский А., Денисов А. Кластерный анализ как инструмент подготовки эффективных маркетинговых решений // Практический маркетинг. — 2001. — №5.

17. Общая теория статистики: Учебное пособие / Под ред. А.А. Спирина, О.Э. Башиной – М : Финансы и статистика, 1999.

18. Черчилль Г.А. Маркетинговые исследования. — СПб.: Питер, 2007.

Рассмотрим процедуру иерархического кластерного анализа в паке­те SPSS (SPSS). Процедура иерархического кластерного анализа в SPSS предусматривает группировку как объектов (строк матрицы данных), так и переменных (столбцов). Можно считать, что в последнем случае роль объектов играют переменные, а роль переменных — столбцы.

В этом методе реализуется иерархический агломеративный алгоритм, смысл которого заключается в следующем. Перед началом кластеризации все объекты считаются отдельными кластерами, в ходе алгоритма они объединяются. Вначале выбирается пара ближайших кластеров, которые объединяют­ся в один кластер. В результате количество кластеров становится равным N-1. Процедура повторяется, пока все классы не объединятся. На любом этапе объединение можно прервать, получив нужное число кластеров. Таким обра­зом, результат работы алгоритма агрегирования зависит от способов вычисле­ния расстояния между объектами и определения близости между кластерами.

Для определения расстояния между парой кластеров могут быть сформулированы различные подходы. С учетом этого в SPSS предусмот­рены следующие методы:

• Среднее расстояние между кластерами (Between-groups linkage),
устанавливается по умолчанию.

• Среднее расстояние между всеми объектами пары кластеров с уче-

том расстояний внутри кластеров(Within-groups linkage).

• Расстояние между ближайшими соседями — ближайшими объектами
кластеров (Nearest neighbor).

• Расстояние между самыми далекими соседями (Furthest neighbor).

• Расстояние между центрами кластеров (Centroid clustering), или цен-
троидный метод. Недостатком этого метода является то, что центр
объединенного кластера вычисляется как среднее центров объеди­
няемых кластеров, без учета их объема.

• Метод медиан — тот же центроидный метод, но центр объединенного
кластера вычисляется как среднее всех объектов (Median clustering).

Пример иерархического кластерного анализа

Порядок агломерации (протокол объединения кластеров) представ­ленных ранее данных приведен в таблице 13.2. В протоколе указаны такие позиции:

• Stage — стадии объединения (шаг);

• Cluster Combined — объединяемые кластеры (после объединения кластер
принимает минимальный номер из номеров объединяемых кластеров);

Так, в колонке Cluster Combined можно увидеть порядок объедине­ния в кластеры: на первом шаге были объединены наблюдения 9 и 10, они образовывают кластер под номером 9, кластер 10 в обзорной табли­це больше не появляется. На следующем шаге происходит объединение кластеров 2 и 14, далее 3 и 9, и т.д.

Таблица 13.2. Порядок агломерации

; Скорость смены (1-255)

; Смена рисунков со спецэффектами («YES» или «NO»)

;Произвольный рисунок поверх апплета

;X смещение наложенного рисунка

;Y смещение наложенного рисунка

;Задержка освобождения памяти

;Приоритет задачи (1..10)

; Мин. время синхр. кадра (мс); Sorry, your browser doesn’t support Java ; Сообщение для браузеров без поддержки Java ™
Кликните по фотографии,
и вы сможете .

Самоучитель по пакету SPSS

В результате кластерного анализа при помощи предварительно заданных переменных формируются группы наблюдений. Под наблюдениями здесь понимаются отдельные личности (респонденты) или любые другие объекты. Члены одной группы (одного кластера) должны обладать схожими проявлениями переменных, а члены разных групп различными.

Наряду с кластеризацией наблюдений в SPSS предусмотрена кластеризация переменных. Здесь на основе заданных наблюдений образовываются группы переменных. Так как в принципе то же самое делает и факторный анализ (см. гл. 19), то в этой главе мы ограничимся рассмотрением только кластеризации наблюдений.

Принцип кластерного анализа

Для рассмотрения принципа кластерного анализа выберем сначала очень простой пример.

Откройте файл bier.sav, который содержит некоторые данные о 17 сортах пива (см. рис. 20.1).

Рис. 20.1: Данные файла bier.sav в редакторе данных

Переменная herkunft (производитель) указывает на страну-производителя пива, где США закодированы с помощью единицы. Расходы (kosten) приведены в долларах США для ёмкости равной 12 унциям для жидкости (примерно одна треть литра); калорийность указана для одинакового количества пива. Содержание алкоголя приводится в процентах.

Возьмём переменные kalorien (калории) и kosten (расходы) и представим их при помощи простой диаграммы рассеяния.

Вы увидите четыре отдельных отчётливых группировки точек, три из них в нижней половине диаграммы и одну в верхнем правом углу. Следовательно, переменные kalorien (калории) и kosten (расходы), явно распадаются на четыре различных кластера по сортам пива.

Сорта пива, которые по значениям двух рассмотренных переменных похожи друг на друга, принадлежат к одному кластеру; сорта пива, находящиеся в различных кластерах, не похожи друг на друга. Решающим критерием для определения схожести и различия двух сортов пива является расстояние между точками на диаграмме рассеяния, соответствующими этим сортам.

Самой распространенной мерой для определения расстояния между двумя точками на плоскости, образованной координатными осями х и у, является евклидова мера:

где x1:, и хn — координаты первой точки, у: и уг — координаты второй точки.

Рис. 20.2: Диаграмма рассеяния переменных kalorien (калории) и kosten (расходы)

В соответствии с этой формулой расстояние между сортами пива Budweisei Heineken составляет:

Это расстояние лишь незначительно превосходит то, которое получилось бы, если бы для расчета была взята только одна переменная — kalorien (калории):

Данный эффект можно объяснить тем, что уровни значений переменных kalorien (калории) и kosten (расходы) очень сильно отличаются друг от друга: у переменной kosten (расходы) значения меньше 1, а у переменной kalorien (калории) больше 100. Согласно формуле евклидовой меры, переменная, имеющая большие значения, практически полностью доминирует над переменной с малыми значениями.

Решением этой проблемы является рассмотренное в главе 19.1 z-преобразование (стандартизация) значений переменных. Стандартизация приводит значения всех преобразованных переменных к единому диапазону значений, а именно от —3 до +3.

Если Вы произведёте такое преобразование для переменных kalorien (калории) и kosten (расходы), то для пива Budweiser получите стандартизованные значения равные 0,400 и —0,469 соответственно, а для пива Heineken стандартизированные значения 0,649 и 1,848 соответственно.

Тогда расстояние между двумя сортами пива получится равным

Таким образом, при помощи диаграммы рассеяния для двух переменных: kalorien (калории) и kosten (расходы), мы провели самый простой кластерный анализ. Мы выбрали такой вид графического представления, с помощью которого можно было бы отчётливо распознать группирование в кластеры (четыре в нашем случае).

К сожалению, столь отчётливая картина отношений между переменными, как в приведенном примере, встречается очень редко. Во-первых, структуры кластеров, если вообще таковые имеются, не так чётко разделены, особенно при наличии большого количества наблюдений. Скорее наоборот, кластеры размыты и даже проникают друг в друга. Во-вторых, как правило, кластерный анализ проводится не с двумя, а с намного большим количеством переменных.

При кластерном анализе с тремя переменными можно ввести ещё одну ось — ось z и рассматривать размещение наблюдений, а также проводить расчёт расстояния по формуле евклидовой меры в трёхмерном пространстве.

При наличии более трёх переменных определение расстояния между двумя точками х и у в любом n-мерном пространстве для математиков не представляет особого труда. Формула Евклида в таких случаях приобретает следующий вид:

Наряду с евклидовой мерой расстояния, SPSS предлагает и другие дистанционные меры, а также меры подобия. Так что кластерный анализ можно проводить не только с переменными, относящимися к интервальной шкале, как в приведенном случае, но и с дихотомическими переменными, к примеру. В таком ситуации применяется уже другие дистанционные меры и меры подобия (см. разд. 20.3).

При проведении кластерного анализа отдельные кластеры могут формироваться при помощи пошагового слияния, для которого существует ряд различных методов (см. разд. 20.4).

Иерархический кластерный анализ

В иерархических методах каждое наблюдение образовывает сначала свой отдельный кластер. На первом шаге два соседних кластера объединяются в один; этот процесс может продолжаться до тех пор, пока не останутся только два кластера. В методе, который в SPSS установлен по умолчанию (Between-groups linkage (Связь между группами)), расстояние между кластерами является средним значением всех расстояний между всеми возможными парами точек из обоих кластеров.

Иерархический кластерный анализ с двумя переменными

Соберём заданные 17 сортов пива в кластеры при помощи параметров kalorien (калории) и kosten (расходы).

Вы увидите диалоговое окно Hierarchical Cluster Analysis (Иерархический кластерный анализ) (см. рис. 20.3).

Рис. 20.3: Диалоговое окно Hierarchical Cluster Analysis (Иерархический кластерный анализ)

SPSS предлагает, в общей сложности, семь различных методов объединения, которые будут рассмотрены в главе 20.4. Метод Between-groups linkage (Связь между группами) устанавливается по умолчанию.

Дистанционные меры и меры подобия зависят от вида переменных, участвующих в анализе, то есть выбор меры зависит от типа переменной и шкалы, к которой она относится: интервальная переменная, частоты или бинарные (дихотомические) данные. В рассматриваемом примере фигурируют данные, относящиеся к интервальной шкале, для которых по умолчанию в качестве дистанционной меры устанавливается квадрат евклидового расстояния (Squared Euclidean distance). Некоторые дистанционные меры и меры подобия будут рассмотрены в главе 20.3. После обычной обшей статистической сводки итогов по наблюдениям, в окне просмотра сначала приводится обзор принадлежности, из которого можно выяснить очерёдность построения кластеров, а также их оптимальное количество.

Кластерный анализ при большом количестве наблюдений (Кластерный анализ методом к-средних)

Иерархические методы объединения, хотя и точны, но трудоёмки: на каждом шаге необходимо выстраивать дистанционную матрицу для всех текущих кластеров. Расчётное время растёт пропорционально третьей степени количества наблюдений, что при наличии нескольких тысяч наблюдений может утомить и серьёзные вычислительные машины.

Поэтому при наличии большого количества наблюдений применяют другие методы. Недостаток этих методов заключается в том, что здесь необходимо заранее задавать количество кластеров, а не так как в иерархическом анализе, получить это в качестве результата Эту проблему можно преодолеть проведением иерархического анализа со случайно отобранной выборкой наблюдений и, таким образом, определить оптимальное количество кластеров. Если количество кластеров указать предварительно, то появляется следующая проблема: определение начальных значений центров кластеров. Их также можно взять из предварительно проведённого иерархического анализа, в котором для каждого наблюдения рассчитывают средние значения переменных, использовавшихся при анализе, а потом в определённой форме сохраняют их в некотором файле. Этот файл может быть затем прочитан методом, который применяется для обработки больших количеств наблюдений. Если нет желания проходить весь этот длинный путь, то можно воспользоваться методом, предлагаемым для данного наблюдения программой SPSS. Если количество кластеров k, которое необходимо получить в результате объединения, задано заранее, то первые k наблюдений, содержащихся в файле, используются как первые кластеры. На последующих шагах кластерный центр заменяется наблюдением, если наименьшее расстояние от него до кластерного центра больше расстояния между двумя ближайшими кластерами. По этому правилу заменяется тот кластерный центр, который находится ближе всего к данному наблюдению. Таким образом получается новый набор исходных кластерных центров. Для завершения шага процедуры рассчитывается новое положение центров кластеров, а наблюдения перераспределяются между кластерами с изменённым центрами. Этот итерационный процесс продолжается до тех пор, пока кластерные центры не перестанут изменять свое положение или пока не будет достигнуто максимальное число итераций.

Откроется диалоговое окно K-Means Cluster Analysis (Кластерный анализ методом к-средних).

Рис. 20.4: Диалоговое окно K-Means Cluster Analysis (Анализ кластерных центров)

То, как выглядит этот файл в редакторе данных, Вы можете увидеть на рисунке 20.6. Аналогично тому, как Вы смогли считать из файла первичные кластерные центры, при помощи выключателя Write final as (Сохранить окончательные результаты как), Вы можете сохранить окончательные кластерные центры в отдельном файле для дальнейших расчётов.

Рис. 20.5: Диалоговое окно K-Means Cluster Analysis (Анализ кластерных центров)

Рис. 20.6: Файл с первичными кластерными центрами

Мы надеемся, что при помощи приведенных примеров нам удалось пробудить у Вас интерес к кластерному анализу и облегчить понимание интереснейших статистических методов. Дополнительную информацию о принципах кластерного анализа читатели могут получить в статье «Кластерный анализ: основы метода и его применение в биомедицине» .


Статьи по теме