B Задание №2. Кластеризация системы расселения
Цель задания — освоение методов кластеризации и регионизации точек, построения центроидов и оценки качества кластеризации. В качестве методов кластеризации предлагается использовать DBSCAN, К средних и иерархическую. В качестве метода построения региона — альфа-оболочку.
Исходные данные: точки населенных пунктов из Самостоятельной работы №1.
Используемые библиотеки: geopandas
, sklearn.cluster
Подсказка по функциям:
- получение координат точек: get_coordinates().
- кластеризация:
- К-средних:
KMeans
- Иерархическая:
AgglomerativeClustering
- DBSCAN:
DBSCAN
- К-средних:
- альфа-оболочка:
concave_hull
- центроиды кластеров:
representative_point
. - коэффициент силуэта:
silhouette_score
Кластеризация системы расселения субъекта
- Трансформируйте исходные данные в проекцию, оптимальную для выбранного региона.
- Подготовьте данные для использования в sklearn. Для это необходимо координаты точек выгрузить в
numpy array
. - Используя метод DBSCAN, постройте серию из 5 кластеризаций населенных пунктов выбранного вами субъекта. Количество точек в кластере оставьте постоянным (3), но меняйте значение расстояния кластеризации. Расстояния подберите таким образом, чтобы различия в кластеризации были очевидны и помогали выявлять пространственные группировки разного масштаба.
- Используя методы К-средних и иерархической кластеризации (расстояние Уорда), постройте аналогичные серии из 5 кластеризаций. Количество кластеров задавайте то же, что вы получали в методе DBSCAN для соответствующих расстояний. Т.е. если вы в методе DBSCAN для разных расстояний получили 100, 70, 40, 20 и 5 кластеров, то именно столько же надо получить другими методами.
- Для всех полученных кластеризаций постройте альфа-оболочки кластеров.
- Рассчитайте для каждой кластеризации меру качества — коэффициент силуэта. Сведите ее в единую таблицу, где по столбцам идут методы кластеризации, а по строкам — количество кластеров.
- Для каждого уровня кластеризации и каждого метода подготовьте изображение, включающее: а) исходные точки, б) регионы кластеров, в) центроиды кластеров. Точки и регионы должны быть помечены разными цветами по номерам кластеров. Центроиды должны быть показаны окружностями радиуса, пропорционального количеству входящих точек.

Рис. B.1: Пример оформления результатов работы
Перед вставкой данных карт в отчет добавьте на них элементы географической основы или используйте карту-подложку из картографического веб-сервиса.
Отчет
Напишите отчет о проделанной работе, включающий:
- Цель и задачи работы.
- Описание используемых алгоритмов кластеризации и регионизации.
- Описание процесса создания скриптов для решения поставленных задач.
- Серию из 15 карт кластерной структуры системы расселения региона, полученную по результатам кластеризации тремя алгоритмами (по 5 изображений на каждый метод).
- Анализ качества кластеризации (согласно коэффцициенту силуэта).
- Географический анализ результатов. Насколько реалистично выглядят кластеры, полученные разными методами к чему они привязаны? Можно ли выявить полимасштабность организации системы расселения на основе полученных изображений?