Capítulo 10 Estruturação Populacional

A integração de dados detalhados de dispersão, linhagem e genômica possibilitou uma compreensão bastante completa de como a dispersão molda os padrões de diversidade genética em escalas espaciais curtas em gaio-dos-arbustos da Flórida (Aphelocoma coerulescens), em que o isolamento por distância ocorre como resultado da dispersão limitada sobre escalas de tempo contemporâneas. Veja [Aguillon et al. 2017](https://doi.org/10.1371/journal.pgen.1006911).

Figura 10.1: A integração de dados detalhados de dispersão, linhagem e genômica possibilitou uma compreensão bastante completa de como a dispersão molda os padrões de diversidade genética em escalas espaciais curtas em gaio-dos-arbustos da Flórida (Aphelocoma coerulescens), em que o isolamento por distância ocorre como resultado da dispersão limitada sobre escalas de tempo contemporâneas. Veja Aguillon et al. 2017.

10.1 Variação genética em populações subdivididas

A estrutura genética de uma população pode ser amplamente definida como a quantidade e distribuição da variação genética dentro e entre populações.

De forma geral, uma estrutura genética irá decorrer de qualquer desvio do acasalamento aleatório, incluindo:

Endogamia
Acasalamento seletivo
Subdivisão geográfica

A estruturação geográfica das populações por sua vez irão decorrer de:

barreiras ao fluxo gênico
limites de dispersão
filopatria

Seja como for, os organismos não se reproduzem aleatoriamente e tendem a permanecer próximos de onde nasceram.

Nestas circunstâncias, as diferenças genéticas e fenotípicas podem se acumular entre as populações.

Essas diferenças podem levar, ao longo de várias gerações, ao isolamento reprodutivo e, por fim, à especiação.

10.2 Efeito Wahlund

Figura 10.2: Sten Wahlund (1901 – 1976), geneticista e político sueco.

O efeito Wahlund é uma redução na heterozigosidade em uma população causada pela estruturação populacional.

Se duas ou mais subpopulações têm diferentes frequências alélicas, a heterozigosidade global é reduzida, mesmo que as próprias subpopulações estejam em equilíbrio de Hardy-Weinberg.

Considere duas subpopulações A e B, ambas em equilíbrio de Hardy-Weinberg:

População A	População B
$N(AA) = x_A = 49$	$N(AA) = x_B = 16$
$N(Aa) = y_A = 42$	$N(Aa) = y_B = 48$
$N(aa) = z_A = 9$	$N(aa) = z_B = 36$

Assim, as frequências alélicas dos alelos $A$ e $a$ em cada população serão:

População A	População B
$f(A) = p_A = 0.7$	$f(AA) = p_B = 0.4$
$f(a) = q_A = 0.3$	$f(a) = q_B = 0.6$

Contudo, podemos considerar que as subpopulações A e B integram uma única população M, onde teremos que:

\[N_{Obs}(AA) = x_A + x_B = 65\]

\[N_{Obs}(Aa) = y_A + y_B = 90\]

\[N_{Obs}(aa) = z_A + z_B = 45\]

E suas frequências alélicas na população M serão:

\[\bar{p} = \frac{p_A + p_B}{2} = 0.55\]

\[\bar{q} = \frac{q_A + q_B}{2} = 0.45\]

Assim, dada a expectativa do princípio de Hardy-Weinberg, o número de indivíduos de cada genótipo para a população M será:

\[N_{Esp}(AA) = N_M\cdot p_M^2 = 200 \cdot 0.55^2 \approx 60.5\]

\[N_{Esp}(Aa) = N_M\cdot 2p_Mq_M = 2 \cdot 0.55 \cdot 0.45 \approx 99\]

\[N_{Esp}(aa) = N_M\cdot q_M^2 = 200 \cdot 0.45^2 \approx 40.5\]

Observam-se assim uma quantidade menor de heterozigotos na população M (e correspondentemente mais homozigotos) do que o esperado pelo cruzamento aleatório.

Tal redução na heterozigosidade pode ser estimada pelo coeficiente de endogamia $F$, como visto anteriormente ((9.1)), de forma que:

\[F_M = 1 - \frac{N_{Obs}(Aa)}{N_{Esp}(Aa)} = 1 - \frac{90}{99} \approx 0.091\]

Assim, pode-se dizer que subdivisão populacional é responsável por cerca de 9,1% de diferenciação genética entre as subpopulações A e B.

De forma geral, a heterozigosidade em uma população subdividida é dada pela média das suas subpopulações 1 e 2, de forma que:

\[H = \frac{2p_1q_1 + 2p_2q_2}{2}\]

Que é o mesmo que:

\[H = p_1q_1 + p_2q_2\]

Sendo $q = 1-p$, teremos:

\[H = p_1(1-p_1) + p_2(1-p_2)\]

Assim, é fácil provar que a heterozigosidade da população subdividida ($H$) será sempre menor do que a heterozigosidade esperada da população total ($2\bar{p}\bar{q}$), a não ser que as frequências alélicas nas duas subpopulações sejam iguais ($p_1 = p_2$), i. e., que não haja estruturação subpopulacional.

10.3 Heterozigosidade em níveis demográficos

É possível porém estimar a frequência esperada de heterozigotos em diferentes níveis demográficos quando as populações estão subdivididas.

Supondo que os indivíduos sejam amostrados a partir de um número $k$ de locais diferentes, a heterozigosidade pode ser estimada nos seguintes níveis:

Heterozigosidade individual ($H_I$)

Também chamada de heterozigosidade observada ($H_{Obs}$), a heterozigosidade individual é estimada como a fração de heterozigotos na amostra em uma determinada localidade, de forma que:

\[H_I = \frac{\sum{N_{ij}}}{N}\]

Onde $N_{ij}$ é o número de indivíduos do genétipo heterozigoto do $i$-nésimo e $j$-nésimo alelos, e $N$ é o tamanho da subpopulação.

A heterozigosidade individual pode ser interpretada como uma medida da heterozigosidade média de todos os genes de um indivíduo ou como a probabilidade de observar um heterozigoto em um locus específico.

Heterozigose subpopulacional ($H_S$)

A heterozigose subpopulacional é a proporção de heterozigosidade esperada em uma subpopulação amostrada específica, e pode ser estimada como a heterozigosidade esperada ($H_{Esp}$) média em todos os $k$ locais amostrados, de forma que:

\[H_S = \frac{1}{k}\cdot\sum_{i=1}^k{2p_iq_i}\]

Onde $p_i$ é $q_i$ são as frequências alélicas do $i$-nésimo local amostrado.

Para tal, assume-se que cada uma das localidades amostradas sigam o princípio de Hardy-Weinberg.

Heterozigosidade total ($H_T$)

A heterozigosidade total é a heterozigosidade em todo o conjunto de dados; é a heterozigosidade esperada se todos os dados fossem mesclados e acasalados como uma única população panmítica, definida como:

\[H_T = 2\bar{p}\bar{q}\]

Onde $\bar{p}$ e $\bar{q}$ são as frequências alélicas médias entre todos os $k$ locais de amostragem.

Figura 10.3: A heterozigosidade em populações subdivididas..

Assim, se os padrões subjacentes de acasalamento entre populações subdivididas restringirem o fluxo gênico, então essas estimativas de heterozigosidade irão mudar.

Não há estruturação geográfica …

… quando todas as subpopulações se misturam livremente, havendo essencialmente uma única população panmica, independente da quantidade de endogamia que realmente esteja ocorrendo nos locais individualmente, e assim:

\[H_S = H_T\]

Contudo, no outro extremo:

Haverá estruturação geográfica …

… quando as subpopulações estão geneticamente isoladas umas das outras, e cada local está divergindo de acordo com sua própria história evolutiva, e neste caso:

\[H_S \ne H_T\]

10.4 Estatísticas $F$ de Wright

As estatísticas $F$ (também conhecidas como índices de fixação) foram desenvolvidas por Sewall Wright na década de 1920 para comparar os níveis de heterozigosidade observada e esperada em termos do princípio de Hardy-Weinberg, de forma que, se um local está produzindo heterozigotos em uma proporção consistente com a expectativa de Hardy-Weinberg, então não há endogamia naquele deme (Wright 1950).

Assim, o coeficiente de endogamia $F$ visto anteriormente (Equação (9.1)) corresponde ao primeiro nível demográfico, uma vez que a heterozigose dos indivíduos ($H_I$) é examinada em relação a heterozigosidade da subpopulação ($H_S$), de forma que:

\[F_{IS} = \frac{H_S-H_I}{H_S}=1-\frac{H_I}{H_S}\]

Os valores desse parâmetro são:

positivos ($F_{IS}>0$), quando observa-se menos heterozigotos do que a expectativa de Hardy-Weinberg; e
negativos ($F_{IS}<0$), quando observa-se mais heterozigotos do que a expectativa de Hardy-Weinberg.

No próximo nível demográfico, pode-se examinar a heterozigosidade das subpopulações ($H_S$) em relação ao conjunto total de dados ($H_T$), de forma que:

\[F_{ST} = \frac{H_T-H_S}{H_T}=1-\frac{H_S}{H_T}\]

Este parâmetro mede a redução na heterozigosidade das subpopulações caso não houve subdivisão populacional em relação à metapopulação, i. e., caso os cruzamentos entre todos os indivíduos fosse de fato aleatório, onde teremos:

Ausência de isolamento …

… quando as subpopulações foram geneticamente idênticas; e:

\[F_{ST}=0\]

Isolamento completo …

… quando as subpopulações foram geneticamente únicas, e assim:

\[F_{ST}=1\]

$A estrutura das populações e o índice de fixação ($F_{ST}$) em populações panmíticas e isoladas.$

Figura 10.4: A estrutura das populações e o índice de fixação ($F_{ST}$) em populações panmíticas e isoladas.

Para completar, podemos examinar a heterozigosidade individual ($H_I$) em relação ao conjunto total de dados ($H_T$), de forma que:

\[F_{IT} = \frac{H_T-H_I}{H_T}=1-\frac{H_I}{H_T}\]

Este parâmetro não é usado com frequência, pois os indivíduos são endogâmicos em relação às subpopulações nas quais são encontrados, e não em relação a totalidade do conjunto de dados.

Os três parâmetros têm a seguinte relação matemática:

\[\left( 1-F_{IT} \right) = \left( 1-F_{IS} \right ) \left( 1-F_{ST} \right)\]

Onde $\left( 1-F_{IT} \right)$ corresponde a probabilidade geral de identidade por descendência (IBD), ou o desvio geral do princípio de Hardy-Weinberg (PHW), $\left( 1-F_{IS} \right )$ corresponde a probabilidade de IBD dentro de um indivíduo, ou o desvio do PHW devido à endogamia dentro das populações, e $\left( 1-F_{ST} \right)$ corresponde probabilidade de IDB entre dois indivíduos em uma subpopulação, ou desvio do PHW devido à diferenciação subpopulacional.

10.5 Isolamento por distância

Isolamento por distância (IBD*) é um termo usado para se referir ao acúmulo de variação genética local sob dispersão geograficamente limitada.

Como populações locais são pequenas em comparação com a população total, e a reprodução ocorre apenas dentro da população local, há uma restrição da probabilidade de indivíduos se acasalarem.

Indivíduos dentro da subpopulação são vizinhos no sentido de que seus gametas tendem a se unir com maior probabilidade, aumentando a endogamia dentro da subpopulação.

Note que a sigla IBD também é usada para outro conceito importante em genética de populações, viz., identidade por descendência.

O isolamento por distância é geralmente o modelo mais simples para a causa do isolamento genético entre as populações.

Isso porque a probabilidade de dispersão decresce com a distância física, o que contribui para a diferenciação genética local.

White et al. 2010. doi: 10.1098/rspb.2009.2214

Paradis et al 1998. doi: 10.1046/j.1365-2656.1998.00215.x

Monteiro et al. 2014. doi: 10.1371/journal.pntd.0003167

Kanitz et al. 2018. doi: 10.1371/journal.pone.0192460

10.5.1 Teste de Mantel

O teste de Mantel (Mantel 1967; Mantel & Valand 1970) é um teste estatístico extremamente versátil que tem muitos usos, incluindo análise espacial.

Este teste examina a relação entre duas matrizes quadradas (geralmente matrizes de distância) $X$ e $Y$.

Os valores dentro de cada matriz ($X_{ij}$ ou $Y_{ij}$) representam uma relação entre os pontos $i$ e $j$.

No caso do isolamento por distância, a relação representada pelas matrizes a serem testadas seriam distâncias genéticas e geográficas entre as amostras.

Por definição, as diagonais de ambas as matrizes deverão sempre ser preenchidas com zeros, uma vez que correspodendem a comparações de um indivíduo com ele mesmo..

10.5.2 Correlação de Mantel estandardizada

A estatística de Mantel ($Z_M$) básica é simplesmente a soma dos produtos dos elementos correspondentes das matrizes, onde:

\[Z_M = \sum\sum X_{ij}Y_{ij} \]

Como $Z$ pode assumir qualquer valor, dependendo da natureza exata de $X$ e $Y$, geralmente usa-se a correlação de Mantel normalizada ($r_M$), calculada como a correlação entre os elementos de pares de $X$ e $Y$, de forma que:

\[r_M = \left( \frac{1}{n-1} \right) \sum \sum \frac{\left(X_{ij}-\bar{X}\right)}{\sigma_X}\frac{\left(Y_{ij}-\bar{Y}\right)}{\sigma_Y} \]

Onde $\bar{X}$ e $\bar{y}$ são os valores médios, e ${\sigma_X}$ e ${\sigma_Y}$ são os valores de desvio-padrão dos parâmetros de $X$ e $Y$, respectivamente.

A estatística varia de $-1 \leq r_M \leq +1$,

A correlação de Mantel entre matrizes de distâncias genéticas e geográficas permite avaliar se as populações se diferenciam por isolamento por distância (IBD).

Figura 10.5: A correlação de Mantel entre matrizes de distâncias genéticas e geográficas permite avaliar se as populações se diferenciam por isolamento por distância (IBD).

10.5.3 Significância do teste de Mantel

A sigificância do teste de Mantel é estimada por meio de um teste de randomização (Monte Carlo)

O procedimento se dá em cinco passos:

A partir dos dados $X$ e $Y$, calcular a correlação de Mantel normalizada $r_M(XY)$, a qual será usada como valor de referência no teste;
Permutar aleatoriamente as linhas e colunas correspondentes de uma das matrizes, por exemplo na matriz $X$, obtendo a matriz $X^*$ (processo chamado de permutação de matriz);
Após a permutação dos dados $X^*$ e $Y$, calcular a correlação de Mantel normalizada $r_M(X^*Y)$, obtendo o valor $r_M^*$ da estatística sob permutação;
Repetir os passos 2 e 3 um grande número de vezes (e.g., 999 ou 9999) para obter $n$ réplicas da distribuição de $r_M^*$ sob permutação, adicionando o valor de referência $r_M(XY)$ à distribuição (a permuta e recompilação várias vezes para gerar uma distribuição de referência);
Para um teste unicaudal, envolvendo a cauda superior, i. e., para saber se as distâncias nas matrizes estão positivamente correlacionadas, calcular a probabilidade (valor-p) como a proporção de valores $r_M^*$ maiores ou iguais ao valor de referência $r_M(XY)$ em relação ao número $n$ de réplicas mais um (o valor original), de forma que:

\[valor\text{-}p = \frac{n(r_M^* \geq r_M)}{n+1}\]

10.6 Exercícios

10.6.1 Exercício 1 - Extruturação global e pareada

Considere as três populações abaixo.

Tabela 10.1: Frequências genotípicas em três populações hipotéticas.
	$A_{1}A_{1}$	$A_{1}A_{2}$	$A_{2}A_{2}$
População 1	125	250	125
População 2	50	30	20
População 3	100	500	400

Qual o nível global de estruturação genética nas populações?
Qual o nível de estruturação genética entre as populações:
- 1 $\times$ 2?
- 1 $\times$ 3?
- 2 $\times$ 3?
Quais populações estão mais isoladas geneticamente uma da outra?

População A	População B
\(N(AA) = x_A = 49\)	\(N(AA) = x_B = 16\)
\(N(Aa) = y_A = 42\)	\(N(Aa) = y_B = 48\)
\(N(aa) = z_A = 9\)	\(N(aa) = z_B = 36\)

População A	População B
\(f(A) = p_A = 0.7\)	\(f(AA) = p_B = 0.4\)
\(f(a) = q_A = 0.3\)	\(f(a) = q_B = 0.6\)

Notas de Aula em
Genética de Populações