17. Укажите информацию, требующуюся исследователю «на входе» для решения задачи кластеризации.
1. Массив р-мерных наблюдений.
2. Априорные представления о классах.
3. Ожидаемые размеры и число кластеров.
18. Укажите, что является результатом кластеризации (что получается «на выходе»).
На «выходе» мы имеем правило классификации, позволяющее наилучшим в определенном смысле образом разбить имеющиеся р-мерные наблюдения на однородные в определенном смысле группы.
19. Какие виды кластерного анализа вам известны?
Иерархические (делятся на агломерационные и дивизивные) и неиерархические.
20. Как называется графические отражения алгоритма иерархической кластеризации?
1. Дендрограмма
2. Icicle plot (вертикальный и горизонтальный варианты).
21. Сформулируйте свойства, которым должно удовлетворять любое расстояние. Какое из этих свойств выполняется не всегда (например, в психологических исследованиях)?
1) d (O i , O j ) > = 0
2) d (O i , O i ) = 0
3) d ( O i , O j ) = 4*) d ( O i , O j )= d ( O j , O i )
22. Какие виды метрики (расстояний) Вам известны?
1. Расстояние Евклида
2. Расстояние Манхеттена
3. Расстояние Чебышева
4. Квадрат расстояния Евклида
23. Даны 2 четырехмерных наблюдения (2 точки в четырехмерном пространстве). Вычислите между ними расстояния: Евклида, Манхеттен, Чебышёва.
Расстояние Евклида: dist =
Расстояние Манхеттен: dist =
Расстояние Чебышева: dist = Max
24. В каком случае применение евклидова расстояния не имеет под собой теоретического основания (хотя может давать разумные результаты)?
25. Назовите известные Вам алгоритмы агломерации.
Алгоритмы агломерации:
- Метод дальнего соседа
- Метод ближнего соседа
- Метод Варда
- Центроидный метод (ищем центр тяжести)
- Метод средней связи (среднее значение всех расстояний между кластерами)
Методы кластеризации подразделяются на иерархические и неиерархические. Иерархические методы подразделяются на агломерационный и дивензивный.
26. Даны 4 трехмерных наблюдения. Реализуйте их кластеризацию на основе метода ближнего соседа (дальнего соседа, средней связи) и расстояния Евклида (Манхеттен, Чебышев). Постройте дендрограмму
27. Дана дендрограмма. Укажите получившиеся кластеры.
Сколько раз вертикальная палка пересечет ветви, столько и будет кластеров.
28. Какие методы приведения к единой шкале Вы знаете? Даны 5 наблюдений. Приведите их к единой шкале измерения, используя линейное преобразование и z -шкалу.
Методы:
- Стандартизация. , где
– среднее значение r wsp:rsidR="00000000"><w:pgSz w:w="12240" w:h="15840"/><w:pgMar w:top="1134" w:right="850" w:bottom="1134" w:left="1701" w:header="720" w:footer="720" w:gutter="0"/><w:cols w:space="720"/></w:sectPr></w:body></w:wordDocument>">
, а Sx =
- Линейное преобразование в заданный диапазон значений.
, причем
Если нужно «развернуть» шкалу, то:
, причем
29. Объясните, почему при кластеризации необходимо приводить все показатели к единой шкале измерения?
Показатели, не приведенные к единой шкале, будут оказывать влияние на метрику. Если первый показатель лежит в диапазоне от 1 до 10, а второй – от 200 до 500, то на результаты анализа влияние оказывать будет по большему счету только второй показатель.
30. Укажите недостатки линейного преобразования как процедуры приведения показателей к единой шкале. Нарисуйте картинку, иллюстрирующую ситуацию, когда применение линейного преобразования окажется неудачным выбором.
31. Почему не очень осмысленно применять алгоритмы кластерного анализа для классификации объектов в одномерном или двумерном пространстве?
Потому что там проще построить диаграмму рассеивания и посмотреть самим, какие получатся кластеры.