8 Dados de Área Espaço-Temporais

No contexto puramente espacial (ver Capítulo 4), definimos o processo estocástico como um conjunto de variáveis aleatórias indexadas por um conjunto discreto de unidades geográficas \(D = \{1, \dots, n\}\). Quando introduzimos a dimensão temporal, o domínio de estudo torna-se o produto cartesiano entre o espaço discreto e o tempo discreto \(T = \{1, \dots, T_{max}\}\). Assim, enquanto a análise espacial estática nos permite identificar onde algo ocorre, a análise espaço-temporal permite-nos entender quando, com que velocidade e para onde o fenômeno evolui.

Formalmente, denotamos a variável de interesse por \(y_{it}\), onde:

\(i \in \{1, \dots, n\}\) representa a unidade espacial (ex: município, setor censitário);
\(t \in \{1, \dots, T\}\) representa a unidade temporal (ex: ano, mês, semana).

Diferente da geoestatística espaço-temporal (ver Capítulo 6), onde o domínio é contínuo (\(\mathbf{s} \in \mathbb{R}^2, t \in \mathbb{R}\)), em dados de área a localização e o tempo são fixos e agregados. O conjunto de dados resultante é frequentemente visualizado como um Cubo de Dados Espaço-Temporais (Space-Time Data Cube), onde as dimensões são: Unidades Espaciais \(\times\) Unidades Temporais \(\times\) Atributos.

Em epidemiologia e ciências sociais, a estrutura mais comum para a variável resposta \(y_{it}\) é uma contagem (número de casos, crimes, eventos) observada numa população em risco \(n_{it}\) (ou \(E_{it}\) para esperados). A modelagem foca-se, portanto, no risco relativo ou taxa subjacente \(\theta_{it}\) ou \(r_{it}\) (Blangiardo e Cameletti 2015; Ugarte et al. 2014):

\[y_{it} \sim \text{Distribuição}(E_{it} \cdot r_{it})\]

O objetivo da inferência estatística é estimar a matriz de riscos \(\mathbf{R} = [r_{it}]\) de dimensão \(n \times T\), recuperando o padrão latente (sinal) do ruído estocástico inerente a contagens pequenas.

8.0.1 Desafio da Dimensionalidade

A principal barreira na análise de dados espaço-temporais é o crescimento explosivo da dimensionalidade, frequentemente referido como o problema do “Big N” (Sigrist, Künsch, e Stahel 2015).

Considere um vetor \(\mathbf{y}\) que empilha todas as observações. Este vetor tem comprimento \(N_{total} = n \times T\). A estrutura de dependência completa entre todas as observações é descrita por uma matriz de covariância \(\mathbf{\Sigma}_{ST}\) de dimensão \((nT) \times (nT)\).

Para ilustrar, considere um estudo da Dengue nos 5.570 municípios do Brasil ao longo de 120 meses (10 anos):

\(n = 5.570\)
\(T = 120\)
\(N_{total} = 668.400\) observações.

A matriz de covariância resultante teria \(668.400 \times 668.400\) elementos, totalizando aproximadamente 446 bilhões de entradas. Operações matriciais padrão necessárias para a estimação (como a inversão da matriz de covariância ou a decomposição de Cholesky da matriz de precisão) possuem complexidade computacional cúbica \(\mathcal{O}((nT)^3)\) para matrizes densas.

Isso torna inviável a modelagem de uma estrutura de covariância não estruturada (livre). A solução, conforme discutido por Sigrist, Künsch, e Stahel (2015) e Rue, Martino, e Chopin (2009), reside na imposição de esparsidade (através de Campos Aleatórios de Markov - GMRF) e estruturas simplificadas (como separabilidade ou dinâmica autorregressiva), que reduzem o número de parâmetros a serem estimados e permitem algoritmos eficientes.

Para tornar a modelagem tratável, baseamo-nos em pressupostos sobre como o espaço e o tempo se relacionam.

Estacionariedade

A estacionariedade em dados de área é um conceito mais restrito do que na geoestatística, dado que a topologia é irregular.

Estacionariedade Temporal: Um processo é temporalmente estacionário se as suas propriedades estatísticas (média e covariância) não mudam com o deslocamento no tempo.

\[E[y_{it}] = \mu_i \quad \text{(constante no tempo, pode variar no espaço)}\]

\[\text{Cov}(y_{it}, y_{i,t+k}) = C(k) \quad \text{(depende apenas do lag } k\text{)}\]

Na prática, a maioria dos dados de área (doenças, economia) não é estacionária na média, apresentando tendências de crescimento ou decrescimento. Modelos como os de Bernardinelli et al. (1995) são desenhados explicitamente para capturar essa não-estacionariedade através de tendências lineares paramétricas.

Estacionariedade Espacial: Implica que a relação de dependência entre vizinhos é constante em todo o mapa. Em modelos CAR (Conditional Autoregressive), isso é controlado pelo parâmetro de precisão espacial. Assumir estacionariedade espacial significa assumir que o grau de suavização necessário no sul do mapa é o mesmo necessário no norte. Modelos adaptativos (não abordados neste capítulo introdutório) relaxam essa hipótese.

Separabilidade vs. Não-Separabilidade

A distinção teórica mais importante na modelagem espaço-temporal é a separabilidade da estrutura de covariância.

Uma estrutura de covariância é dita separável se puder ser decomposta no produto de uma covariância puramente espacial e uma covariância puramente temporal (Knorr-Held 2000):

\[\text{Cov}((i, t), (j, u)) = C_S(i, j) \cdot C_T(t, u)\]

Em termos de matrizes de precisão (o inverso da covariância, \(\mathbf{Q} = \mathbf{\Sigma}^{-1}\)), que são o foco da inferência Bayesiana via INLA, a separabilidade implica que a precisão do processo espaço-temporal é o Produto de Kronecker (\(\otimes\)) das precisões marginais:

\[\mathbf{Q}_{ST} = \mathbf{Q}_{T} \otimes \mathbf{Q}_{S}\]

Modelos Separáveis (Efeitos Principais): Assumem que a evolução temporal é a mesma para todas as áreas (ou flutua aleatoriamente em torno de uma média global) e que o padrão espacial é constante ao longo do tempo. Não há interação. O risco é apenas a soma do risco do lugar com o risco do momento: \(\log(r_{it}) = \text{Espaço}_i + \text{Tempo}_t\).
Modelos Não-Separáveis (Interação): Reconhecem que a dinâmica temporal pode depender da localização. Por exemplo, uma epidemia pode começar na capital e difundir-se para o interior. O padrão espacial muda a cada instante \(t\). Isso exige termos de interação \(\delta_{it}\) que capturam a dependência complexa onde o espaço afeta a evolução temporal e vice-versa.

A modelagem adequada dessas interações, conforme descrito por Knorr-Held (2000), é o cerne da análise espaço-temporal moderna de dados de área.

8.1 Análise Exploratória de Dados Espaço-Temporais (ESTDA)

A Análise Exploratória de Dados Espaço-Temporais (ESTDA) estende os conceitos da ESDA tradicional para incorporar a dinâmica temporal. O objetivo não é apenas identificar padrões espaciais, mas compreender como esses padrões persistem, mudam ou se deslocam ao longo do tempo.

A visualização é o primeiro passo para compreender a estrutura dos dados. A complexidade de representar três dimensões (espaço 2D + tempo) numa superfície 2D exige estratégias específicas.

8.1.1 Mapas Animados e Small Multiples

A abordagem mais direta é visualizar a sequência temporal de mapas espaciais.

Small Multiples (Facetas): Apresentam uma grelha de mapas lado a lado, onde cada mapa corresponde a um instante de tempo \(t\). Permite a comparação visual simultânea e a deteção de tendências globais e mudanças nos padrões locais.
Mapas Animados: Mostram a evolução do fenómeno de forma hierarquica. São particularmente úteis para identificar a direção de propagação (difusão) de um fenómeno, como uma onda epidémica que se desloca de uma região para outra.
Diagrama de Hovmöller também é uma técnica poderosa para visualizar a evolução espaço-temporal colapsando uma das dimensões espaciais. Num eixo representa-se o tempo e no outro uma dimensão espacial (ex: latitude, longitude ou uma transecção específica). A cor representa o valor da variável \(y\).

Esta visualização permite identificar rapidamente padrões de:

Estacionariedade: Se as faixas de cor são horizontais, o padrão espacial mantém-se constante no tempo.
Propagação: Se as faixas são diagonais, indica que o fenómeno se está a deslocar no espaço ao longo do tempo (onda viajante).

8.1.2 Autocorrelação Espaço-Temporal

Para quantificar a dependência, estendemos os indicadores globais e locais para o domínio temporal.

Trajetória do I de Moran Global

Calcula-se o Índice de Moran \(I_t\) separadamente para cada instante de tempo \(t\), utilizando a mesma matriz de vizinhança espacial \(\mathbf{W}_S\). O gráfico da série temporal \(I_t\) vs. \(t\) revela a dinâmica da estrutura espacial:

Se \(I_t\) é constante e elevado, a estrutura de aglomeração espacial é persistente e estável.
Se \(I_t\) cresce com o tempo, o processo está a tornar-se cada vez mais clusterizado (concentração espacial).
Se \(I_t\) oscila ou decresce, a estrutura espacial está a fragmentar-se ou é volátil.

Scatterplot de Moran Espaço-Temporal

O diagrama de dispersão de Moran tradicional plota \(y_i\) vs. o desfasamento espacial contemporâneo \(\sum_j w_{ij} y_j\). Na versão espaço-temporal, estamos interessados na dependência cruzada entre o espaço e o tempo.

Plotamos o valor da variável no tempo atual, \(y_{i,t}\), contra o desfasamento espacial no tempo anterior, \(\sum_j w_{ij} y_{j,t-1}\).

\[y_{i,t} \quad \text{vs.} \quad [\mathbf{W}_S \mathbf{y}_{t-1}]_i\]

A inclinação da reta de regressão neste gráfico indica a força da dependência espaço-temporal: até que ponto o valor dos meus vizinhos no passado ajuda a explicar o meu valor no presente? Uma correlação forte sugere um processo de difusão espacial.

8.1.3 Dinâmica de LISA (Transições)

Os indicadores locais de associação espacial (LISA) classificam cada área em quadrantes (HH, LL, HL, LH) em cada instante \(t\). A análise da dinâmica foca-se nas transições de estado destas áreas.

Podemos construir uma Matriz de Transição de Markov que estima a probabilidade de uma área mudar de classificação de um ano para o outro. Por exemplo, qual é a probabilidade \(P(HH_{t+1} | HL_t)\) de uma área que era um outlier espacial (HL) ser “absorvida” pelo cluster de alto valor (tornando-se HH) no período seguinte?

Estabilidade: Áreas que permanecem no mesmo quadrante (ex: HH \(\to\) HH) indicam hotspots persistentes ou crónicos.
Volatilidade: Áreas que mudam frequentemente de quadrante indicam instabilidade local.

Esta análise permite distinguir entre Co-ocorrência Espaço-Temporal (clusters que aparecem no mesmo lugar e ao mesmo tempo por coincidência ou fatores externos) e Interação Espaço-Temporal genuína (onde a dinâmica interna do processo cria dependência entre o espaço e o tempo).

8.1.4 Matrizes de Pesos Espaço-Temporais

Para modelar formalmente a dependência num contexto espaço-temporal, precisamos de definir quem é “vizinho” de quem no domínio combinado espaço-tempo. A matriz de pesos \(\mathbf{W}_{ST}\) passa a ter dimensão \((nT) \times (nT)\), representando as conexões entre todas as \(N_{total}\) observações.

Matriz de Vizinhança por Blocos

A construção da matriz \(\mathbf{W}_{ST}\) é feita tipicamente através do Produto de Kronecker (\(\otimes\)) de matrizes marginais, assumindo uma estrutura regular (as mesmas áreas são observadas nos mesmos tempos).

Seja \(\mathbf{W}_N\) a matriz de vizinhança espacial (\(n \times n\)) e \(\mathbf{W}_T\) a matriz de vizinhança temporal (\(T \times T\)).

Se quisermos representar apenas a estrutura espacial repetida no tempo (sem conexão temporal), a matriz global é:

\[ \mathbf{W}_{ST} = \mathbf{I}_T \otimes \mathbf{W}_N = \begin{bmatrix} \mathbf{W}_N & \mathbf{0} & \cdots & \mathbf{0} \\ \mathbf{0} & \mathbf{W}_N & \cdots & \mathbf{0} \\ \vdots & \vdots & \ddots & \vdots \\ \mathbf{0} & \mathbf{0} & \cdots & \mathbf{W}_N \end{bmatrix} \]

Esta é uma matriz diagonal por blocos, onde cada bloco representa as conexões espaciais num instante \(t\).

8.1.5 Vizinhança Temporal

Para incorporar a dinâmica, precisamos definir vizinhos no tempo. Geralmente, assume-se uma estrutura causal (o futuro não afeta o passado) ou uma estrutura de correlação simétrica (para modelos descritivos).

Numa estrutura autorregressiva simples de primeira ordem (AR1), o “vizinho” temporal de \(t\) é apenas \(t-1\). A matriz \(\mathbf{W}_T\) teria 1s na sub-diagonal inferior.

Numa estrutura de suavização (como RW1), \(t\) é vizinho de \(t-1\) e \(t+1\).

Lag Espaço-Temporal

O conceito mais rico é o de Lag Espaço-Temporal. Este termo captura a influência cruzada: o impacto que os vizinhos espaciais da unidade \(i\) tiveram no passado sobre a unidade \(i\) no presente.

Se definirmos uma matriz de lag temporal \(\mathbf{L}_T\) (que conecta \(t\) a \(t-1\)), o lag espaço-temporal é representado pelo produto:

\[\mathbf{W}_{ST\_lag} = \mathbf{L}_T \otimes \mathbf{W}_N\]

Isso cria conexões entre \(y_{j, t-1}\) e \(y_{i, t}\) se, e somente se, \(j\) é vizinho espacial de \(i\). Este é o mecanismo fundamental para modelar processos de difusão e contágio em modelos econométricos e epidemiológicos.

8.2 Modelagem de dados de área espaço-temporais

A modelagem bayesiana hierárquica tornou-se a abordagem padrão para os dados de área, com maior enfoque para o mapeamento de doenças, permitindo acomodar a complexidade da estrutura de dependência e as diferentes fontes de incerteza inerentes a dados epidemiológicos. A extensão dos modelos espaciais estáticos (como o modelo BYM, ver Capítulo 4) para o domínio temporal permite analisar não apenas a distribuição geográfica do risco, mas também a sua evolução dinâmica.

Neste contexto, o preditor linear \(\eta_{it}\) (geralmente o log-risco relativo, \(\log(r_{it})\)) é decomposto em componentes aditivos que capturam efeitos espaciais, temporais e a interação entre eles.

8.2.1 Tendências Paramétricas

O modelo proposto por Bernardinelli et al. (1995) introduz a dimensão temporal através de uma tendência paramétrica linear, permitindo que cada área geográfica tenha a sua própria evolução temporal. O modelo decompõe o log-risco relativo da seguinte forma:

\[\eta_{it} = \mu + \theta_i + \phi_i + (\beta + \delta_i) \cdot t\]

Onde:

\(\mu\) é o intercepto global, representando o nível médio de risco em todo o mapa no tempo inicial.
\(\theta_i\) e \(\phi_i\) são, respectivamente, os efeitos espaciais não estruturado (heterogeneidade) e estruturado (clustering), idênticos aos do modelo BYM puramente espacial. Juntos, \(\mu + \theta_i + \phi_i\) definem o intercepto específico da área \(i\).
\(\beta\) é a tendência temporal global linear, capturando o aumento ou diminuição média do risco em todo o domínio ao longo do tempo.
\(t\) é a covariável de tempo (anos, meses), geralmente centrada para melhorar a convergência e a interpretação.
\(\delta_i\) é a tendência diferencial da área \(i\). Este termo de interação é crucial: ele mede o desvio da tendência da área \(i\) em relação à tendência global \(\beta\).
Se \(\delta_i > 0\), o risco na área \(i\) está a crescer mais rapidamente do que a média global.
Se \(\delta_i < 0\), o risco na área \(i\) está a crescer mais lentamente (ou a decrescer mais rapidamente) do que a média.

O termo \(\delta_i\) é modelado como um efeito aleatório espacial (geralmente com prior ICAR), permitindo que áreas vizinhas tenham evoluções temporais semelhantes. Esta estrutura é particularmente útil para identificar áreas onde o problema de saúde está a emergir ou a agravar-se, distinguindo-as de áreas com risco persistentemente alto mas estável (Law, Quick, e Chan 2014).

8.2.2 Tendências Não-Paramétricas

A suposição de linearidade na evolução temporal pode ser restritiva para séries longas ou para fenómenos com dinâmicas complexas (ex: sazonalidade, ciclos epidémicos). Knorr-Held (2000) propôs uma estrutura não paramétrica dinâmica que substitui a tendência linear por um efeito temporal suave \(\gamma_t\), modelado através de um passeio aleatório (Random Walk):

\[\eta_{it} = \mu + \xi_i + \gamma_t + \psi_t + \nu_{it}\]

\(\xi_i\): Efeito espacial principal (geralmente BYM ou Leroux).
\(\gamma_t\): Efeito temporal não estruturado (ruído i.i.d.), capturando flutuações anuais aleatórias.
\(\psi_t\): Efeito temporal estruturado, modelado tipicamente por um Random Walk de primeira (RW1) ou segunda ordem (RW2).
RW1: \(\psi_t | \psi_{t-1} \sim N(\psi_{t-1}, \sigma^2)\), penaliza mudanças abruptas no nível.
RW2: \(\psi_t | \psi_{t-1}, \psi_{t-2} \sim N(2\psi_{t-1} - \psi_{t-2}, \sigma^2)\), penaliza mudanças na curvatura (tendência mais suave).
\(\nu_{it}\): Termo de interação espaço-tempo, que captura desvios locais e temporais da estrutura principal.

8.2.3 Interações Espaço-Tempo (\(\delta_{it}\))

A componente mais rica e complexa destes modelos é a interação \(\nu_{it}\) (ou \(\delta_{it}\)), que descreve como a dependência espacial varia no tempo ou, equivalentemente, como a dependência temporal varia no espaço. Knorr-Held (2000) classificou estas interações em quatro tipos fundamentais, baseados na estrutura da matriz de precisão a priori \(\mathbf{Q}_{\delta}\).

A precisão da interação é definida como o produto de Kronecker das matrizes de precisão dos efeitos marginais que interagem: \(\mathbf{Q}_{\delta} = \mathbf{Q}_{tempo} \otimes \mathbf{Q}_{espaço}\).

Tipo I (Interação Não Estruturada): Combina os efeitos não estruturados do espaço (\(\mathbf{I}_n\)) e do tempo (\(\mathbf{I}_T\)). \(\nu_{it} \sim N(0, \sigma^2)\) independentes.

Representa ruído global espaço-temporal sem qualquer padrão. Captura sobredispersão extra que não é explicada pelos efeitos principais nem pela estrutura espacial ou temporal.

Tipo II (Tendência Temporal Estruturada, Espaço Independente): Combina a estrutura temporal (RW1/RW2) com o espaço não estruturado (\(\mathbf{I}_n\)). \(\mathbf{Q}_{II} = \mathbf{Q}_{RW} \otimes \mathbf{I}_n\).

Cada área \(i\) possui a sua própria evolução temporal suave, mas estas curvas de evolução são independentes entre si. O que acontece num município ao longo do tempo não influencia a evolução temporal do município vizinho. Útil quando áreas geograficamente próximas têm dinâmicas temporais muito distintas.

Tipo III (Estrutura Espacial Constante, Tempo Independente): Combina a estrutura espacial (CAR/ICAR) com o tempo não estruturado (\(\mathbf{I}_T\)). \(\mathbf{Q}_{III} = \mathbf{I}_T \otimes \mathbf{Q}_{CAR}\).

Em cada instante \(t\), existe uma estrutura espacial suave (clusters), mas a forma desses clusters muda aleatoriamente de um tempo para o outro. Não há continuidade temporal na estrutura espacial.

Tipo IV (Interação Totalmente Estruturada): Combina a estrutura espacial (CAR/ICAR) com a estrutura temporal (RW1/RW2). \(\mathbf{Q}_{IV} = \mathbf{Q}_{RW} \otimes \mathbf{Q}_{CAR}\).

É o modelo mais complexo e coerente para fenómenos de difusão. Assume que a evolução temporal de uma área é semelhante à evolução temporal dos seus vizinhos. E, simultaneamente, que o padrão espacial num tempo \(t\) é semelhante ao padrão espacial em \(t-1\). As mudanças no risco propagam-se suavemente tanto no espaço como no tempo (Schrödle e Held 2011).

8.2.4 Desafio da Identificabilidade e Restrições

Um aspecto crítico, frequentemente negligenciado mas descrito por Goicoa et al. (2018), é a identificabilidade desses modelos. Como o preditor linear \(\eta_{it}\) é uma soma de vários efeitos latentes (intercepto, espaço, tempo, interação), existe uma redundância inerente. Por exemplo, somar uma constante ao intercepto \(\mu\) e subtrair a mesma constante de todos os efeitos espaciais \(\xi_i\) não altera o valor final de \(\eta_{it}\). O modelo não consegue distinguir “quem é quem” sem restrições adicionais.

O problema agrava-se com termos dinâmicos e interações:

Random Walk de 1ª Ordem (RW1): É invariante a translações (nível). Requer a restrição \(\sum \psi_t = 0\).
Random Walk de 2ª Ordem (RW2): É invariante a translações e a tendências lineares (inclinação). Requer restrições sobre o nível e a inclinação. Se o software (como PQL ou INLA mal configurado) impuser restrições automáticas erradas (ex: forçar a inclinação a ser zero quando há uma tendência linear real nos dados), as estimativas de tendência podem ser severamente enviesadas, aparecendo artificialmente planas (Goicoa et al. 2018).

Para a interação espaço-tempo \(\nu_{it}\), a matriz de precisão (produto de Kronecker) é singular (posto incompleto). O número de restrições necessárias (Rank Deficiency) depende do tipo de interação e do tipo de Random Walk (RW1 vs RW2). Schrödle e Held (2011) explicam que as restrições devem ser ortogonais aos autovetores do espaço nulo da matriz de precisão.

Em vez de impor restrições ad-hoc, Goicoa et al. (2018) sugerem uma reparametrização do modelo baseada na decomposição espectral das matrizes de precisão. Essencialmente, separa-se a parte nula (não identificável, como o nível médio ou a tendência linear) da parte própria (identificável) dos efeitos aleatórios. A parte nula é movida para os efeitos fixos (intercepto e inclinação global), e as colunas redundantes na matriz de design são removidas. Isso garante identificabilidade matemática sem distorcer a forma das tendências estimadas.

8.3 Implementação no R

A estimação destes modelos via MCMC é computacionalmente proibitiva para grandes bases de dados. A abordagem INLA (Integrated Nested Laplace Approximations), implementada no pacote R-INLA, permite ajustar estes modelos de forma eficiente explorando a esparsidade das matrizes de precisão GMRF (Rue, Martino, e Chopin 2009; Blangiardo e Cameletti 2015).

A especificação de interações espaço-temporais no R-INLA utiliza o conceito de grupo (group). Em vez de construir explicitamente a matriz de Kronecker gigante, definimos a estrutura espacial principal e indicamos que ela deve ser replicada no tempo com uma correlação específica.

Importante

Aos interessados no ajuste destes modelos usando INLA, recomenda-se os livros Blangiardo e Cameletti (2015), Krainski et al. (2018) e Rue e Held (2005) bem como os artigos Rue et al. (2017), Bakka et al. (2018), e as referências eles existentes.

8.4 Modelos Econométricos Espaço-Temporais

A econometria espacial de painel (Spatial Panel Data) combina as dimensões transversal (\(N\) unidades espaciais) e longitudinal (\(T\) períodos de tempo). Esta estrutura de dados oferece vantagens expressivas sobre a análise puramente espacial (cross-section): aumenta os graus de liberdade, reduz a colinearidade entre variáveis e, crucialmente, permite controlar a heterogeneidade não observada (Baltagi 2008).

O objetivo central é modelar uma variável dependente \(y_{it}\) em função de covariáveis \(x_{it}\), incorporando simultaneamente a dependência espacial e a estrutura temporal dos dados.

8.4.1 Efeitos Fixos vs. Aleatórios

A especificação da heterogeneidade individual e temporal é o primeiro passo na modelagem de painel. O modelo básico sem dependência espacial é:

\[y_{it} = \alpha + \mathbf{x}_{it}^\top \boldsymbol{\beta} + \mu_i + \lambda_t + \epsilon_{it}\]

Onde:

\(\alpha\): Intercepto global.
\(\mathbf{x}_{it}\): Vetor de covariáveis que variam no tempo e no espaço.
\(\epsilon_{it}\): Termo de erro idiossincrático (i.i.d.).
\(\mu_i\): Efeito Individual (Espacial). Captura todas as características da unidade \(i\) que são constantes no tempo e não foram incluídas no modelo (ex: localização geográfica, cultura local, topografia).
\(\lambda_t\): Efeito Temporal. Captura choques globais que afetam todas as unidades simultaneamente no tempo \(t\) (ex: ciclos económicos nacionais, mudanças na legislação federal, pandemias).

A distinção entre efeitos fixos e aleatórios é fundamental na econometria:

Efeitos Fixos (FE): Assume-se que \(\mu_i\) e \(\lambda_t\) são parâmetros desconhecidos a serem estimados. Permite-se que \(\mu_i\) esteja correlacionado com as covariáveis \(\mathbf{x}_{it}\) (endogeneidade). É a escolha preferida quando o foco é a inferência causal intra-unidade e quando a amostra representa a população inteira (ex: todos os estados de um país). A estimação é feita tipicamente através da transformação “within” (subtração da média temporal) para eliminar os \(\mu_i\).
Efeitos Aleatórios (RE): Assume-se que \(\mu_i \sim N(0, \sigma_\mu^2)\) e \(\lambda_t \sim N(0, \sigma_\lambda^2)\) são variáveis aleatórias independentes das covariáveis \(\mathbf{x}_{it}\). É mais eficiente se a suposição de independência for válida, mas torna-se inconsistente se houver correlação.

8.4.2 Modelos Estáticos de Painel Espacial

Os modelos estáticos introduzem a dependência espacial nas equações de painel, mas assumem que o ajuste ao equilíbrio é instantâneo (não há dinâmica temporal na variável dependente).

A especificação geral aninha vários modelos espaciais, conforme descrito por Millo e Piras (2012) e Elhorst (2014):

\[y_{it} = \rho \sum_{j=1}^N w_{ij} y_{jt} + \mathbf{x}_{it}^\top \boldsymbol{\beta} + \sum_{j=1}^N w_{ij} \mathbf{x}_{jt}^\top \boldsymbol{\theta} + \mu_i + \lambda_t + u_{it}\]

\[u_{it} = \psi \sum_{j=1}^N w_{ij} u_{jt} + \epsilon_{it}\]

Onde \(w_{ij}\) são os elementos da matriz de pesos espaciais \(\mathbf{W}\).

SAR (Spatial Autoregressive): \(\psi = 0, \boldsymbol{\theta} = \mathbf{0}\). A dependência ocorre na variável dependente (\(\rho \neq 0\)). Implica efeitos de transbordamento (spillovers) globais.
SEM (Spatial Error Model): \(\rho = 0, \boldsymbol{\theta} = \mathbf{0}\). A dependência ocorre apenas no erro (\(\psi \neq 0\)). Útil quando a correlação espacial é considerada um “incómodo” ou resultado de variáveis omitidas espacialmente correlacionadas.
SDM (Spatial Durbin Model): \(\psi = 0\). Inclui a defasagem espacial de \(Y\) (\(\rho\)) e de \(X\) (\(\boldsymbol{\theta}\)). É uma especificação robusta que captura spillovers globais e locais e evita viés de variável omitida (LeSage e Pace 2009).

A estrutura de erro em modelos de painel espacial pode ser complexa. Baltagi (2008) e Kapoor, Kelejian, e Prucha (2007) discutem duas especificações principais para a autocorrelação no erro:

Baltagi (B): A correlação espacial afeta apenas o erro idiossincrático \(\epsilon_{it}\), mas não o efeito individual \(\mu_i\).
Kapoor, Kelejian e Prucha (KKP): Assume que tanto o efeito individual quanto o erro idiossincrático partilham a mesma estrutura de correlação espacial. Esta abordagem simplifica a estimação por GM (Métodos dos Momentos Generalizados) e é frequentemente preferida em grandes amostras.

8.4.3 Modelos Dinâmicos de Painel Espacial

Modelos dinâmicos incluem a variável dependente defasada no tempo (\(y_{i,t-1}\)) como explicativa.

O modelo dinâmico espacial geral proposto por Yu, Jong, e Lee (2008) e discutido por Parent e LeSage (2012) assume a forma:

\[y_{it} = \tau y_{i,t-1} + \rho \sum_{j=1}^N w_{ij} y_{jt} + \eta \sum_{j=1}^N w_{ij} y_{j,t-1} + \mathbf{x}_{it}^\top \boldsymbol{\beta} + \mu_i + \lambda_t + \epsilon_{it}\]

Esta equação captura três tipos de dependência:

Dependência Temporal Pura (\(\tau\)): O valor de hoje depende do valor de ontem na mesma unidade (inércia).
Dependência Espacial Contemporânea (\(\rho\)): O valor de \(i\) hoje depende dos vizinhos \(j\) hoje (interação simultânea).
Difusão Espaço-Temporal (\(\eta\)): O valor de \(i\) hoje depende dos vizinhos \(j\) no passado (efeito de transbordamento defasado).

A presença da dinâmica temporal altera fundamentalmente a interpretação dos coeficientes. Os efeitos \(\boldsymbol{\beta}\) representam apenas o impacto de curto prazo. Devido à persistência (\(\tau\)), um choque em \(x\) tem efeitos que se propagam no futuro. O efeito de longo prazo é dado pelo efeito de curto prazo multiplicado pelo fator de ajuste dinâmico \(1/(1-\tau)\) (Debarsy, Ertur, e LeSage 2012).

Além disso, a combinação de \(\rho\) (espaço) e \(\tau\) (tempo) gera multiplicadores espaço-temporais complexos. Um choque numa região propaga-se para os vizinhos (\(\rho\)) e para o futuro (\(\tau\)), criando ondas de impacto que se propagam no espaço e pelo tempo. Parent e LeSage (2012) propõem uma restrição teórica baseada num filtro espaço-temporal onde \(\eta = -\rho \tau\), o que simplifica a estimação e interpretação, sugerindo que a difusão espaço-temporal é o produto das dinâmicas espaciais e temporais marginais.

8.5 Implementação no R

A estimação destes modelos requer cuidados. Para modelos estáticos, o estimador de Máxima Verossimilhança (ML) é comum, mas torna-se computacionalmente pesado para \(N\) grande devido ao determinante Jacobiano. Estimadores de GM (Método dos Momentos) são alternativas eficientes e consistentes. Para modelos dinâmicos, a presença de \(y_{i,t-1}\) correlacionado com os efeitos fixos \(\mu_i\) gera o viés de Nickell, exigindo estimadores específicos como Quasi-Máxima Verossimilhança (QML) corrigida por viés (Yu, Jong, e Lee 2008; Lee e Yu 2010). No ambiente R, o pacote splm implementa estas metodologias (Millo e Piras 2012).

8.6 Modelagem Local Não-Estacionária no Espaço-Tempo

8.6.1 Regressão Geograficamente e Temporalmente Ponderada (GTWR)

A Regressão Geograficamente e Temporalmente Ponderada (Geographically and Temporally Weighted Regression - GTWR), proposta por Huang, Wu, e Barry (2010) e aprimorada por Fotheringham, Crespo, e Yao (2015), incorpora a dimensão temporal diretamente na matriz de pesos, permitindo que os coeficientes do modelo variem localmente no espaço-tempo.

O modelo GTWR é definido como:

\[y_i = \beta_0(u_i, v_i, t_i) + \sum_{k=1}^p \beta_k(u_i, v_i, t_i) x_{ik} + \epsilon_i\]

Onde:

\((u_i, v_i, t_i)\) são as coordenadas espaço-temporais da observação \(i\).
\(\beta_k(u_i, v_i, t_i)\) é o coeficiente local para a variável \(k\), estimado especificamente para aquele ponto no espaço e no tempo.

8.6.2 Matriz de Pesos Espaço-Temporal

A inovação central do GTWR reside na definição da proximidade. No GWR clássico (ver seção Seção 4.15.1), a proximidade é puramente espacial (Distância Euclidiana). No GTWR, utiliza-se uma distância espaço-temporal \(d_{ij}^{ST}\) entre a observação \(i\) e a observação \(j\):

\[(d_{ij}^{ST})^2 = \lambda [(u_i - u_j)^2 + (v_i - v_j)^2] + \mu (t_i - t_j)^2\]

Onde \(\mu\) é um parâmetro de escala temporal que converte unidades de tempo em unidades de distância métrica, harmonizando as dimensões. Os pesos \(w_{ij}\) são então calculados usando uma função kernel (ex: Gaussiana) baseada nesta distância composta. Isso garante que observações próximas geograficamente e temporalmente recebam maior peso na estimação dos coeficientes locais.

8.6.3 MGTWR: Multiescalaridade Espaço-Temporal

Uma limitação crítica do GTWR padrão é assumir que todas as variáveis explicativas operam na mesma escala espaço-temporal (utilizando uma única largura de banda \(h_{ST}\) para todo o modelo). No entanto, processos reais operam em escalas distintas: alguns são locais e voláteis (ex: trânsito), outros são regionais e estáveis (ex: clima).

O modelo MGTWR (Multiscale Geographically and Temporally Weighted Regression), desenvolvido por Wu et al. (2019), relaxa esta restrição, permitindo que cada covariável tenha a sua própria largura de banda espacial e temporal. O modelo é formulado como um Modelo Aditivo Generalizado (GAM):

\[y_i = \sum_{k=0}^p \beta_{bw_k}(u_i, v_i, t_i) x_{ik} + \epsilon_i\]

Onde \(\beta_{bw_k}\) indica que o coeficiente \(k\) é gerado por um processo com uma largura de banda específica \(bw_k\).

A análise das larguras de banda (bandwidths) resultantes permite inferências teóricas sobre a natureza dos processos (Hu, Zhang, e Li 2022):

Largura de Banda Grande: Indica que o processo é estacionário (global) ou estável no tempo. A relação entre \(X\) e \(Y\) é constante em toda a região ou período.
Largura de Banda Pequena: Indica que o processo é altamente heterogéneo (local) ou dinâmico. A relação muda drasticamente em curtas distâncias ou curtos intervalos de tempo.

8.7 Aplicações no R

Estes modelos são particularmente úteis em estudos urbanos e ambientais onde a estrutura da cidade ou do ecossistema muda rapidamente. Wu et al. (2019) aplicaram o MGTWR para analisar preços de habitação, revelando que fatores como proximidade ao centro têm efeitos estáveis no tempo, enquanto proximidade a parques tem efeitos que mudam anualmente. Hu, Zhang, e Li (2022) utilizaram a técnica para modelar a qualidade do habitat, demonstrando como a fragmentação da paisagem afeta a ecologia de formas distintas ao longo de décadas de urbanização.

Atualmente, a implementação destes modelos pode ser realizada através do pacote GWmodel, que utiliza algoritmos de back-fitting para estimar iterativamente as larguras de banda ótimas para cada covariável.

Importante

Alguns pacotes tem apresentado alguns erros, sugiro ver sempre se houve atualização do pacote.
Os livros de Cressie e Wikle (2011) e Wikle, Zammit-Mangion, e Cressie (2019) tem a teoria e a prática respectivamente.
O livro de Blangiardo e Cameletti (2015) tem a teoria, prática e alguns modelos não descritos aqui.
Para MGWR brevemente disponibilizo alguns códigos no meu website.

Bakka, Haakon, Håvard Rue, Geir-Arne Fuglstad, Andrea Riebler, David Bolin, Janine Illian, Elias Krainski, Daniel Simpson, e Finn Lindgren. 2018. “Spatial modeling with R-INLA: A review”. Wiley Interdisciplinary Reviews: Computational Statistics 10 (6): e1443.

Baltagi, Badi. 2008. Econometric analysis of panel data. John Wiley & Sons.

Bernardinelli, L, D Clayton, C Pascutto, C Montomoli, M Ghislandi, e M Songini. 1995. “Bayesian analysis of space–time variation in disease risk”. Statistics in medicine 14 (21-22): 2433–43.

Blangiardo, Marta, e Michela Cameletti. 2015. Spatial and spatio-temporal Bayesian models with R-INLA. John Wiley & Sons.

Cressie, Noel, e Christopher K Wikle. 2011. Statistics for Spatio-Temporal Data. Hoboken, NJ: John Wiley & Sons.

Debarsy, Nicolas, Cem Ertur, e James P LeSage. 2012. “Interpreting dynamic space-time panel data models”. Statistical Methodology 9 (1-2): 158–71.

Elhorst, J Paul. 2014. “Spatial econometrics: from cross-sectional data to spatial panels”. Springer.

Fotheringham, A Stewart, Ricardo Crespo, e Jing Yao. 2015. “Geographical and temporal weighted regression (GTWR)”. Geographical Analysis 47 (4): 431–52.

Goicoa, Tomás, Aritz Adin, Marı́a Dolores Ugarte, e James S Hodges. 2018. “In spatio-temporal disease mapping models, identifiability constraints affect PQL and INLA results”. Stochastic Environmental Research and Risk Assessment 32: 749–70.

Hu, Jinyu, Jiaxin Zhang, e Yunqin Li. 2022. “Exploring the spatial and temporal driving mechanisms of landscape patterns on habitat quality in a city undergoing rapid urbanization based on GTWR and MGWR: The case of Nanjing, China”. Ecological Indicators 143: 109333.

Huang, Bo, Bo Wu, e Michael Barry. 2010. “Geographically and temporally weighted regression for modeling spatio-temporal variation in house prices”. International Journal of Geographical Information Science 24 (3): 383–401.

Kapoor, Mudit, Harry H Kelejian, e Ingmar R Prucha. 2007. “Panel data models with spatially correlated error components”. Journal of Econometrics 140 (1): 97–130.

Knorr-Held, Leonhard. 2000. “Bayesian modelling of inseparable space-time variation in disease risk”. Statistics in medicine 19 (17-18): 2555–67.

Krainski, Elias, Virgilio Gómez-Rubio, Haakon Bakka, Amanda Lenzi, Daniela Castro-Camilo, Daniel Simpson, Finn Lindgren, e Håvard Rue. 2018. Advanced spatial modeling with stochastic partial differential equations using R and INLA. Chapman; Hall/CRC.

Law, Jane, Matthew Quick, e Ping Chan. 2014. “Bayesian spatio-temporal modeling for analysing local patterns of crime over time at the small-area level”. Journal of Quantitative Criminology 30: 57–78.

Lee, Lung-fei, e Jihai Yu. 2010. “Estimation of spatial autoregressive panel data models with fixed effects”. Journal of Econometrics 154 (2): 165–85.

LeSage, James, e Robert Kelley Pace. 2009. Introduction to spatial econometrics. Chapman; Hall/CRC.

Millo, Giovanni, e Gianfranco Piras. 2012. “splm: Spatial panel data models in R”. Journal of Statistical Software 47 (1): 1–38.

Parent, Olivier, e James P LeSage. 2012. “Spatial dynamic panel data models with random effects”. Regional Science and Urban Economics 42 (4): 727–38.

Rue, Håvard, e Leonhard Held. 2005. Gaussian Markov Random Fields: Theory and Applications. Chapman & Hall/CRC Monographs on Statistics & Applied Probability. Boca Raton: Chapman; Hall/CRC.

Rue, Håvard, Sara Martino, e Nicolas Chopin. 2009. “Approximate Bayesian inference for latent Gaussian models by using integrated nested Laplace approximations”. Journal of the royal statistical society: Series b (statistical methodology) 71 (2): 319–92.

Rue, Håvard, Andrea Riebler, Sigrunn H Sørbye, Janine B Illian, Daniel P Simpson, e Finn K Lindgren. 2017. “Bayesian computing with INLA: a review”. Annual Review of Statistics and Its Application 4 (1): 395–421.

Schrödle, Birgit, e Leonhard Held. 2011. “Spatio-temporal disease mapping using INLA”. Environmetrics 22 (6): 725–34.

Sigrist, Fabio, Hans R Künsch, e Werner A Stahel. 2015. “Stochastic partial differential equation based modelling of large space–time data sets”. Journal of the Royal Statistical Society: Series B (Statistical Methodology) 77 (1): 3–33.

Ugarte, Marı́a Dolores, Aritz Adin, Tomas Goicoa, e Ana Fernandez Militino. 2014. “On fitting spatio-temporal disease mapping models using approximate Bayesian inference”. Statistical methods in medical research 23 (6): 507–30.

Wikle, Christopher K, Andrew Zammit-Mangion, e Noel Cressie. 2019. Spatio-temporal statistics with R. Chapman; Hall/CRC.

Wu, Chao, Fu Ren, Wei Hu, e Qingyun Du. 2019. “Multiscale geographically and temporally weighted regression: exploring the spatiotemporal determinants of housing prices”. International Journal of Geographical Information Science 33 (3): 489–511.

Yu, Jihai, Robert de Jong, e Lung-fei Lee. 2008. “Quasi-maximum likelihood estimators for spatial dynamic panel data with fixed effects when both n and T are large”. Journal of Econometrics 146 (1): 118–34.