Estimate Std. Error Pr(>|t|)
(Intercept) 68.6189611 4.7354861 9.21089e-19
INC -1.5973108 0.3341308 1.82896e-05
HOVAL -0.2739315 0.1031987 1.08745e-02
Основы геоинформатики: лекция 10
28 марта 2025 г.
Пространственная зависимость проявляется в том, что значения величины в соседних единицах измерений оказываются связаны.
Учет этого фактора позволяет значительно усилить качество регрессионных моделей.
Как это работает?
Например, уровень преступности можно прогнозировать не только по доходам населения в районе, но и по уровню преступности в соседних районах.
Диаграмма рассеяния показывает соотношение переменных
Линейная регрессия дает аппроксимацию зависимости
Коэффициент корреляции равен −0.696.
Линейная регрессия дает аппроксимацию зависимости
Коэффициент корреляции равен −0.574.
Линейная регрессия позволяет найти зависимость вида
y=k∑j=0βjxj
где x0=1, а остальные xj — независимые переменные.
Например, для двух переменных:
y=β0+β1x1+β2x2
В этом уравнении 3 неизвестных коэффициента. Для их нахождения требуется как минимум 3 измерения. Но обычно их больше, поэтому получится аппроксимация зависимости.
Пусть исследуемый показатель, а также независимые переменные измерены в n географических местоположениях.
Для нахождения β составляют систему из i=1...n уравнений вида
yi=k∑j=0βjxij
Например, для четырех измерений:
y1=β0+β1x11+β2x12y2=β0+β1x21+β2x22y3=β0+β1x31+β2x32y4=β0+β1x41+β2x42
Для решения систему уравнений их записывают в матричном виде:
\underbrace{\begin{bmatrix} y_1 \\ y_2 \\ y_3 \\ y_4 \\ \end{bmatrix}}_{\textbf y} = \underbrace{\begin{bmatrix} 1 & x_{11} & x_{12} \\ 1 & x_{21} & x_{22} \\ 1 & x_{31} & x_{32} \\ 1 & x_{41} & x_{42} \\ \end{bmatrix}}_{\textbf X} \underbrace{\begin{bmatrix} \beta_0 \\ \beta_1 \\ \beta_2 \end{bmatrix}}_{\boldsymbol \beta}
Или более компактно:
\mathbf{y} = \mathbf{X} \boldsymbol\beta
Если предположить, что система решена и коэффициенты \beta найдены, то в каждом измерении получается ошибка (остаток) :
\epsilon_i = y_i - \sum_{j=0}^k \beta_j x_{ij}
Метод наименьших квадратов позволяет минимизировать сумму:
\sum_{i=1}^n \epsilon_i^2 \rightarrow \min
Гауссом доказано, что минимум достигается решением:
\boldsymbol \beta = (\mathbf X^T \mathbf X)^{-1} \mathbf X^T \mathbf y
Модель линейной регрессии записывается как:
\mathbf{y} = \mathbf{X} \boldsymbol\beta + \boldsymbol\epsilon,
где:
\mathbf{y} = \{y_1, y_2, ... y_n\} — вектор измерений зависимой переменной по n объектам,
\mathbf{X} = \{x_{ij}\} — матрица размером n \times (k+1), состоящая из значений k независимых переменных для n объектов (плюс константа 1).
\boldsymbol\beta — вектор коэффициентов регрессии;
\boldsymbol\epsilon — вектор случайных ошибок (остатков).
Для модели
\texttt{CRIME} = \beta_0 + \beta_1 \texttt{INC} + \beta_2 \texttt{HOVAL}
получается следующая диагностика:
Estimate Std. Error Pr(>|t|)
(Intercept) 68.6189611 4.7354861 9.21089e-19
INC -1.5973108 0.3341308 1.82896e-05
HOVAL -0.2739315 0.1031987 1.08745e-02
Т.е. модель принимает следующий вид:
\texttt{CRIME} = 68.619 -1.597~\texttt{INC} - 0.274~\texttt{HOVAL}
Важно
Если остатки от регрессии образуют пространственный рисунок, это значит, что независимых переменных недостаточно для предсказания исследуемой величины. Необходимо учитывать пространственную зависимость.
При анализе карт остатков регрессии обращают внимание на то, меняются ли они плавно по пространству, есть ли выраженный пространственный тренд и зависимость значений соседних единиц.
Для множества S, состоящего из n географических единиц, пространственная автокорреляция есть соотношение между переменной, наблюдаемой в каждой из n единиц и мерой географической близости, определенной для всех n(n − 1) пар единиц из S.
Пространственная автокорреляция является количественной мерой пространственной зависимости.
Для ее вычисления необходимо формализовать понятие географического соседства: какие объекты будем считать соседними и что будет мерой их близости?
Для площадных территориальных единиц часто используется соседство по смежности, которое использует касание границ:
Правило ферзя: хотя бы одна общая точка на границе.
Правило ладьи: общий участок линии на границе.
Пространственные веса характеризуют силу связи между объектами
Если единицы не являются соседними (по выбранному правилу), то пространственный вес их связи будет равен нулю. Во всех остальных случаях веса будут ненулевыми.
Бинарные веса: если связь есть, то ее вес равен единице (1), если нет — нулю (0).
Нормированные веса: вес j-й единицы по отношению к i-й равен 1/n_i, где n_i — количество соседей у i.
Бинарные веса
Матрица весов \mathbf W
\begin{bmatrix} 0 & 0 & \color{green}{\mathbf 1} & 0 & \color{green}{\mathbf 1} & \color{green}{\mathbf 1} & 0 \\ 0 & 0 & \color{blue}{\mathbf 1} & 0 & 0 & 0 & \color{blue}{\mathbf 1} \\ 0 & \color{blue}{\mathbf 1} & \color{blue}{\mathbf 1} & \color{blue}{\mathbf 1} & 0 & 0 & \color{blue}{\mathbf 1} \\ \color{red}{\mathbf 1} & \color{red}{\mathbf 1} & \color{red}{\mathbf 1} & 0 & \color{red}{\mathbf 1} & 0 & 0 \\ \color{blue}{\mathbf 1} & 0 & 0 & \color{blue}{\mathbf 1} & \color{blue}{\mathbf 1} & \color{blue}{\mathbf 1} & \color{blue}{\mathbf 1} \\ \color{blue}{\mathbf 1} & 0 & 0 & \color{blue}{\mathbf 1} & \color{blue}{\mathbf 1} & 0 & 0 \\ 0 & \color{blue}{\mathbf 1} & \color{blue}{\mathbf 1} & \color{blue}{\mathbf 1} & 0 & 0 & 0 \\ \end{bmatrix}
Нормированные веса
Матрица весов \mathbf W
\small \begin{bmatrix} 0 & 0 & \color{green}{\mathbf{0.33}} & 0 & \color{green}{\mathbf{0.33}} & \color{green}{\mathbf{0.33}} & 0 \\ 0 & 0 & \color{blue}{\mathbf{0.5}} & 0 & 0 & 0 & \color{blue}{\mathbf{0.5}} \\ 0 & \color{blue}{\mathbf{0.25}} & \color{blue}{\mathbf{0.25}} & \color{blue}{\mathbf{0.25}} & 0 & 0 & \color{blue}{\mathbf{0.25}} \\ \color{red}{\mathbf{0.25}} & \color{red}{\mathbf{0.25}} & \color{red}{\mathbf{0.25}} & 0 & \color{red}{\mathbf{0.25}} & 0 & 0 \\ \color{blue}{\mathbf{0.2}} & 0 & 0 & \color{blue}{\mathbf{0.2}} & \color{blue}{\mathbf{0.2}} & \color{blue}{\mathbf{0.2}} & \color{blue}{\mathbf{0.2}} \\ \color{blue}{\mathbf{0.33}} & 0 & 0 & \color{blue}{\mathbf{0.33}} & \color{blue}{\mathbf{0.33}} & 0 & 0 \\ 0 & \color{blue}{\mathbf{0.33}} & \color{blue}{\mathbf{0.33}} & \color{blue}{\mathbf{0.33}} & 0 & 0 & 0 \\ \end{bmatrix} \normalsize
Коэффициент корреляции Пирсона вычисляется как:
r_{xy} = \frac{\sum_{i=1}^{n}(x_i - \bar x)(y_i - \bar y)}{\sqrt{\sum_{i=1}^{n}(x_i - \bar x)^2} \sqrt{\sum_{i=1}^{n}(y_i - \bar y)^2}} где:
X = \{x_i\} и Y = \{y_i\} — две выборки значений;
\bar x и \bar y — средние арифметические.
Линейная зависимость
Коэффициент корреляции Пирсона показывает зависимость только для переменных, имеющих связь линейного характера
Пространственную автокорреляцию можно оценить путем вычисления индекса Морана (Moran’s I) (Moran 1950):
I = \frac{n \sum^n_{i=1} \sum^n_{j=1} w_{ij} (y_i - \bar y)(y_j - \bar y)}{ \Big[\sum^n_{i=1} \sum^n_{j=1} w_{ij}\Big] \Big[\sum^n_{i=1} (y_i - \bar y)^2\Big]}
где:
Индекс Морана для нормально распределенных данных лежит в диапазоне от -1 до 1:
+1 означает детерминированную прямую зависимость — группировку схожих (низких или высоких) значений;
0 означает абсолютно случайное распределение;
-1 означает детерминированную обратную зависимость — идеальное перемешивание низких и высоких значений, напоминающее шахматную доску.
Математическое ожидание индекса Морана для случайных данных равно E[I] = -1/(n-1)
Индекс Морана равен 0.500
Индекс Морана равен 0.222
Поскольку остатки регрессии по-прежнему автокоррелированы, можно сделать вывод о том, что независимые переменные не объясняют полностью величину преступности.
Чтобы учесть пространственную автокорреляцию зависимой переменной, в модель линейной регрессии добавляется компонента авторегрессии \rho\mathbf{Wy} (Anselin 1988):
\mathbf{y} = \underbrace{\mathbf{X} \mathbf{\beta}}_{тренд} + \underbrace{\color{red}{\rho\mathbf{Wy}}}_{сигнал} + \underbrace{\mathbf{\epsilon}}_{шум},
\rho — коэффициент авторегрессии, отражающий вклад пространственной автокорреляции;
\mathbf{W} — матрица пространственных весов.
Полученная модель называется пространственной регрессией.
Тренд, сигнал и шум называются предикторами.
Пространственную регрессию можно представить как обычную регрессию. Выполним преобразования:
\mathbf{y} = \mathbf{X} \mathbf{\beta} + \rho\mathbf{Wy} + \mathbf{\epsilon}\\ \mathbf{y} - \rho\mathbf{Wy} = \mathbf{X} \mathbf{\beta} + \mathbf{\epsilon}\\ (\mathbf{I} - \rho\mathbf{W})\mathbf{y} = \mathbf{X} \mathbf{\beta} + \mathbf{\epsilon}\\ \color{red}{\boxed{\color{blue}{\mathbf{y} = (\mathbf{I} - \rho\mathbf{W})^{-1}\mathbf{X}\mathbf{\beta} + (\mathbf{I} - \rho\mathbf{W})^{-1}\mathbf{\epsilon}}}} Коэффициенты \beta и \rho находятся по методу наименьших квадратов.
Для нашего случая модель будет иметь вид:
\texttt{CRIME} = 45.603 -1.049~\texttt{INC} - 0.266~\texttt{HOVAL} + 0.423~W~\texttt{CRIME}
Индекс Морана для остатков пространств. регрессии равен 0.033.
Автокорреляционная составляющая практически полностью учтена в модели пространственной регрессии. Предсказательная сила модели улучшена.
Пространственная гетерогенность проявляется в том, что зависимости между переменными меняются по пространству.
Учет этого фактора позволяет значительно усилить качество регрессионных моделей.
Как это работает?
Например, стоимость недвижимости может по-разному реагировать на увеличение жилплощади и количества комнат в разных городских районах.
Коэффициент детерминации R^2 = 0.1483. Регрессионная модель:
\texttt{price} = 2319.2 +421.8~\texttt{rooms}
В стандартной модели линейной регрессии параметры \beta предполагаются постоянными. Для i-й локации решение выглядит следующим образом:
y_i = \beta_0 + \beta_1 x_{1i} + \beta_2 x_{2i} + ... + \beta_k x_{ki} + \epsilon_i
В географически взвешенной регрессии (ГВР) параметры \beta определяются для каждой локации (Fotheringham, Brunsdon, и Charlton 2002):
y_i = \beta_{0i} + \beta_{1i} x_{1i} + \beta_{2i} x_{2i} + ... + \beta_{ki} x_{ki} + \epsilon_i
В этом случае область оценки параметров \mathbf{\beta} ограничивается некой окрестностью точки i.
Далёкие точки должны иметь меньший вес при вычислении коэффициентов. Например, для гауссовой весовой функции:
w_{ij} = \operatorname{exp}\{-\frac{1}{2} (d_{ij}/h)^2\},
w_{ij} — вес, который будет иметь j-я точка при вычислении коэффициентов регрессии в i-й точке;
d_{ij} расстояние между ними;
h — полоса пропускания
В случае фиксированной весовой функции окрестность всегда имеет фиксированную полосу пропускания:
В случае адаптивной весовой функции полоса пропускания определяется N ближайшими точками. Например для N = 5:
В случае модели ГВР получается множество коэффициентов регрессии. По ним можно узнать статистику
Min. 1st Qu. Median 3rd Qu. Max.
Intercept 198.56 1785.17 2054.43 2361.79 3485.2
rooms -409.97 471.77 524.01 650.52 1299.1
Kernel function: gaussian
Fixed bandwidth: 1000
Regression points: the same locations as observations are used.
Distance metric: Euclidean distance metric is used
Коэффициент детерминации R^2 = 0.367.
Пространственная картина распределения коэффициентов регрессии подтверждает гипотезу о гетерогенности.
Линейная регрессия
Метод наименьших квадратов
Диаграмма рассеяния
Остатки регрессии
Простр. автокорреляция
Пространственные соседи
Пространственные веса
Пространственная регрессия
Географически взвешенная регрессия (ГВР)
Полоса пропускания
Linear regression
Least squares method
Scatterplot
Regression residuals
Spatial autocorrelation
Spatial neighbours
Spatial weights
Spatial regression
Geographically weighted regression (GWR)
Bandwidth
Самсонов Т. Е. Основы геоинформатики: курс лекций