Capítulo 10 Estruturação Populacional
.](https://gcbias.files.wordpress.com/2017/09/plos_cover_image.jpg)
Figura 10.1: A integração de dados detalhados de dispersão, linhagem e genômica possibilitou uma compreensão bastante completa de como a dispersão molda os padrões de diversidade genética em escalas espaciais curtas em gaio-dos-arbustos da Flórida (Aphelocoma coerulescens), em que o isolamento por distância ocorre como resultado da dispersão limitada sobre escalas de tempo contemporâneas. Veja Aguillon et al. 2017.
10.1 Variação genética em populações subdivididas
A estrutura genética de uma população pode ser amplamente definida como a quantidade e distribuição da variação genética dentro e entre populações.
De forma geral, uma estrutura genética irá decorrer de qualquer desvio do acasalamento aleatório, incluindo:
Endogamia
Acasalamento seletivo
Subdivisão geográfica
A estruturação geográfica das populações por sua vez irão decorrer de:
barreiras ao fluxo gênico
limites de dispersão
filopatria
Seja como for, os organismos não se reproduzem aleatoriamente e tendem a permanecer próximos de onde nasceram.
Nestas circunstâncias, as diferenças genéticas e fenotípicas podem se acumular entre as populações.
Essas diferenças podem levar, ao longo de várias gerações, ao isolamento reprodutivo e, por fim, à especiação.
10.2 Efeito Wahlund
Figura 10.2: Sten Wahlund (1901 – 1976), geneticista e político sueco.
O efeito Wahlund é uma redução na heterozigosidade em uma população causada pela estruturação populacional.
Se duas ou mais subpopulações têm diferentes frequências alélicas, a heterozigosidade global é reduzida, mesmo que as próprias subpopulações estejam em equilíbrio de Hardy-Weinberg.
Considere duas subpopulações A e B, ambas em equilíbrio de Hardy-Weinberg:
População A | População B |
---|---|
\(N(AA) = x_A = 49\) | \(N(AA) = x_B = 16\) |
\(N(Aa) = y_A = 42\) | \(N(Aa) = y_B = 48\) |
\(N(aa) = z_A = 9\) | \(N(aa) = z_B = 36\) |
Assim, as frequências alélicas dos alelos \(A\) e \(a\) em cada população serão:
População A | População B |
---|---|
\(f(A) = p_A = 0.7\) | \(f(AA) = p_B = 0.4\) |
\(f(a) = q_A = 0.3\) | \(f(a) = q_B = 0.6\) |
Contudo, podemos considerar que as subpopulações A e B integram uma única população M, onde teremos que:
\[N_{Obs}(AA) = x_A + x_B = 65\]
\[N_{Obs}(Aa) = y_A + y_B = 90\]
\[N_{Obs}(aa) = z_A + z_B = 45\]
E suas frequências alélicas na população M serão:
\[\bar{p} = \frac{p_A + p_B}{2} = 0.55\]
\[\bar{q} = \frac{q_A + q_B}{2} = 0.45\]
Assim, dada a expectativa do princípio de Hardy-Weinberg, o número de indivíduos de cada genótipo para a população M será:
\[N_{Esp}(AA) = N_M\cdot p_M^2 = 200 \cdot 0.55^2 \approx 60.5\]
\[N_{Esp}(Aa) = N_M\cdot 2p_Mq_M = 2 \cdot 0.55 \cdot 0.45 \approx 99\]
\[N_{Esp}(aa) = N_M\cdot q_M^2 = 200 \cdot 0.45^2 \approx 40.5\]
Observam-se assim uma quantidade menor de heterozigotos na população M (e correspondentemente mais homozigotos) do que o esperado pelo cruzamento aleatório.
Tal redução na heterozigosidade pode ser estimada pelo coeficiente de endogamia \(F\), como visto anteriormente ((9.1)), de forma que:
\[F_M = 1 - \frac{N_{Obs}(Aa)}{N_{Esp}(Aa)} = 1 - \frac{90}{99} \approx 0.091\]
Assim, pode-se dizer que subdivisão populacional é responsável por cerca de 9,1% de diferenciação genética entre as subpopulações A e B.
De forma geral, a heterozigosidade em uma população subdividida é dada pela média das suas subpopulações 1 e 2, de forma que:
\[H = \frac{2p_1q_1 + 2p_2q_2}{2}\]
Que é o mesmo que:
\[H = p_1q_1 + p_2q_2\]
Sendo \(q = 1-p\), teremos:
\[H = p_1(1-p_1) + p_2(1-p_2)\]
Assim, é fácil provar que a heterozigosidade da população subdividida (\(H\)) será sempre menor do que a heterozigosidade esperada da população total (\(2\bar{p}\bar{q}\)), a não ser que as frequências alélicas nas duas subpopulações sejam iguais (\(p_1 = p_2\)), i. e., que não haja estruturação subpopulacional.
10.3 Heterozigosidade em níveis demográficos
É possível porém estimar a frequência esperada de heterozigotos em diferentes níveis demográficos quando as populações estão subdivididas.
Supondo que os indivíduos sejam amostrados a partir de um número \(k\) de locais diferentes, a heterozigosidade pode ser estimada nos seguintes níveis:
Heterozigosidade individual (\(H_I\))
Também chamada de heterozigosidade observada (\(H_{Obs}\)), a heterozigosidade individual é estimada como a fração de heterozigotos na amostra em uma determinada localidade, de forma que:
\[H_I = \frac{\sum{N_{ij}}}{N}\]
Onde \(N_{ij}\) é o número de indivíduos do genétipo heterozigoto do \(i\)-nésimo e \(j\)-nésimo alelos, e \(N\) é o tamanho da subpopulação.
A heterozigosidade individual pode ser interpretada como uma medida da heterozigosidade média de todos os genes de um indivíduo ou como a probabilidade de observar um heterozigoto em um locus específico.
Heterozigose subpopulacional (\(H_S\))
A heterozigose subpopulacional é a proporção de heterozigosidade esperada em uma subpopulação amostrada específica, e pode ser estimada como a heterozigosidade esperada (\(H_{Esp}\)) média em todos os \(k\) locais amostrados, de forma que:
\[H_S = \frac{1}{k}\cdot\sum_{i=1}^k{2p_iq_i}\]
Onde \(p_i\) é \(q_i\) são as frequências alélicas do \(i\)-nésimo local amostrado.
Para tal, assume-se que cada uma das localidades amostradas sigam o princípio de Hardy-Weinberg.
Heterozigosidade total (\(H_T\))
A heterozigosidade total é a heterozigosidade em todo o conjunto de dados; é a heterozigosidade esperada se todos os dados fossem mesclados e acasalados como uma única população panmítica, definida como:
\[H_T = 2\bar{p}\bar{q}\]
Onde \(\bar{p}\) e \(\bar{q}\) são as frequências alélicas médias entre todos os \(k\) locais de amostragem.
Figura 10.3: A heterozigosidade em populações subdivididas..
Assim, se os padrões subjacentes de acasalamento entre populações subdivididas restringirem o fluxo gênico, então essas estimativas de heterozigosidade irão mudar.
Não há estruturação geográfica …
… quando todas as subpopulações se misturam livremente, havendo essencialmente uma única população panmica, independente da quantidade de endogamia que realmente esteja ocorrendo nos locais individualmente, e assim:
\[H_S = H_T\]
Contudo, no outro extremo:
Haverá estruturação geográfica …
… quando as subpopulações estão geneticamente isoladas umas das outras, e cada local está divergindo de acordo com sua própria história evolutiva, e neste caso:
\[H_S \ne H_T\]
10.4 Estatísticas \(F\) de Wright
As estatísticas \(F\) (também conhecidas como índices de fixação) foram desenvolvidas por Sewall Wright na década de 1920 para comparar os níveis de heterozigosidade observada e esperada em termos do princípio de Hardy-Weinberg, de forma que, se um local está produzindo heterozigotos em uma proporção consistente com a expectativa de Hardy-Weinberg, então não há endogamia naquele deme (Wright 1950).
Assim, o coeficiente de endogamia \(F\) visto anteriormente (Equação (9.1)) corresponde ao primeiro nível demográfico, uma vez que a heterozigose dos indivíduos (\(H_I\)) é examinada em relação a heterozigosidade da subpopulação (\(H_S\)), de forma que:
\[F_{IS} = \frac{H_S-H_I}{H_S}=1-\frac{H_I}{H_S}\]
Os valores desse parâmetro são:
positivos (\(F_{IS}>0\)), quando observa-se menos heterozigotos do que a expectativa de Hardy-Weinberg; e
negativos (\(F_{IS}<0\)), quando observa-se mais heterozigotos do que a expectativa de Hardy-Weinberg.
No próximo nível demográfico, pode-se examinar a heterozigosidade das subpopulações (\(H_S\)) em relação ao conjunto total de dados (\(H_T\)), de forma que:
\[F_{ST} = \frac{H_T-H_S}{H_T}=1-\frac{H_S}{H_T}\]
Este parâmetro mede a redução na heterozigosidade das subpopulações caso não houve subdivisão populacional em relação à metapopulação, i. e., caso os cruzamentos entre todos os indivíduos fosse de fato aleatório, onde teremos:
Ausência de isolamento …
… quando as subpopulações foram geneticamente idênticas; e:
\[F_{ST}=0\]
Isolamento completo …
… quando as subpopulações foram geneticamente únicas, e assim:
\[F_{ST}=1\]
Figura 10.4: A estrutura das populações e o índice de fixação (\(F_{ST}\)) em populações panmíticas e isoladas.
Para completar, podemos examinar a heterozigosidade individual (\(H_I\)) em relação ao conjunto total de dados (\(H_T\)), de forma que:
\[F_{IT} = \frac{H_T-H_I}{H_T}=1-\frac{H_I}{H_T}\]
Este parâmetro não é usado com frequência, pois os indivíduos são endogâmicos em relação às subpopulações nas quais são encontrados, e não em relação a totalidade do conjunto de dados.
Os três parâmetros têm a seguinte relação matemática:
\[\left( 1-F_{IT} \right) = \left( 1-F_{IS} \right ) \left( 1-F_{ST} \right)\]
Onde \(\left( 1-F_{IT} \right)\) corresponde a probabilidade geral de identidade por descendência (IBD), ou o desvio geral do princípio de Hardy-Weinberg (PHW), \(\left( 1-F_{IS} \right )\) corresponde a probabilidade de IBD dentro de um indivíduo, ou o desvio do PHW devido à endogamia dentro das populações, e \(\left( 1-F_{ST} \right)\) corresponde probabilidade de IDB entre dois indivíduos em uma subpopulação, ou desvio do PHW devido à diferenciação subpopulacional.
10.5 Isolamento por distância
Isolamento por distância (IBD*) é um termo usado para se referir ao acúmulo de variação genética local sob dispersão geograficamente limitada.
Como populações locais são pequenas em comparação com a população total, e a reprodução ocorre apenas dentro da população local, há uma restrição da probabilidade de indivíduos se acasalarem.
Indivíduos dentro da subpopulação são vizinhos no sentido de que seus gametas tendem a se unir com maior probabilidade, aumentando a endogamia dentro da subpopulação.
Note que a sigla IBD também é usada para outro conceito importante em genética de populações, viz., identidade por descendência.
O isolamento por distância é geralmente o modelo mais simples para a causa do isolamento genético entre as populações.
Isso porque a probabilidade de dispersão decresce com a distância física, o que contribui para a diferenciação genética local.
White et al. 2010. doi: 10.1098/rspb.2009.2214
Paradis et al 1998. doi: 10.1046/j.1365-2656.1998.00215.x
Monteiro et al. 2014. doi: 10.1371/journal.pntd.0003167
Kanitz et al. 2018. doi: 10.1371/journal.pone.0192460
10.5.1 Teste de Mantel
O teste de Mantel (Mantel 1967; Mantel & Valand 1970) é um teste estatístico extremamente versátil que tem muitos usos, incluindo análise espacial.
Este teste examina a relação entre duas matrizes quadradas (geralmente matrizes de distância) \(X\) e \(Y\).
Os valores dentro de cada matriz (\(X_{ij}\) ou \(Y_{ij}\)) representam uma relação entre os pontos \(i\) e \(j\).
No caso do isolamento por distância, a relação representada pelas matrizes a serem testadas seriam distâncias genéticas e geográficas entre as amostras.
Por definição, as diagonais de ambas as matrizes deverão sempre ser preenchidas com zeros, uma vez que correspodendem a comparações de um indivíduo com ele mesmo..
10.5.2 Correlação de Mantel estandardizada
A estatística de Mantel (\(Z_M\)) básica é simplesmente a soma dos produtos dos elementos correspondentes das matrizes, onde:
\[Z_M = \sum\sum X_{ij}Y_{ij} \]
Como \(Z\) pode assumir qualquer valor, dependendo da natureza exata de \(X\) e \(Y\), geralmente usa-se a correlação de Mantel normalizada (\(r_M\)), calculada como a correlação entre os elementos de pares de \(X\) e \(Y\), de forma que:
\[r_M = \left( \frac{1}{n-1} \right) \sum \sum \frac{\left(X_{ij}-\bar{X}\right)}{\sigma_X}\frac{\left(Y_{ij}-\bar{Y}\right)}{\sigma_Y} \]
Onde \(\bar{X}\) e \(\bar{y}\) são os valores médios, e \({\sigma_X}\) e \({\sigma_Y}\) são os valores de desvio-padrão dos parâmetros de \(X\) e \(Y\), respectivamente.
A estatística varia de \(-1 \leq r_M \leq +1\),
Figura 10.5: A correlação de Mantel entre matrizes de distâncias genéticas e geográficas permite avaliar se as populações se diferenciam por isolamento por distância (IBD).
10.5.3 Significância do teste de Mantel
A sigificância do teste de Mantel é estimada por meio de um teste de randomização (Monte Carlo)
O procedimento se dá em cinco passos:
A partir dos dados \(X\) e \(Y\), calcular a correlação de Mantel normalizada \(r_M(XY)\), a qual será usada como valor de referência no teste;
Permutar aleatoriamente as linhas e colunas correspondentes de uma das matrizes, por exemplo na matriz \(X\), obtendo a matriz \(X^*\) (processo chamado de permutação de matriz);
Após a permutação dos dados \(X^*\) e \(Y\), calcular a correlação de Mantel normalizada \(r_M(X^*Y)\), obtendo o valor \(r_M^*\) da estatística sob permutação;
Repetir os passos 2 e 3 um grande número de vezes (e.g., 999 ou 9999) para obter \(n\) réplicas da distribuição de \(r_M^*\) sob permutação, adicionando o valor de referência \(r_M(XY)\) à distribuição (a permuta e recompilação várias vezes para gerar uma distribuição de referência);
Para um teste unicaudal, envolvendo a cauda superior, i. e., para saber se as distâncias nas matrizes estão positivamente correlacionadas, calcular a probabilidade (valor-p) como a proporção de valores \(r_M^*\) maiores ou iguais ao valor de referência \(r_M(XY)\) em relação ao número \(n\) de réplicas mais um (o valor original), de forma que:
\[valor\text{-}p = \frac{n(r_M^* \geq r_M)}{n+1}\]
10.6 Exercícios
10.6.1 Exercício 1 - Extruturação global e pareada
Considere as três populações abaixo.
\(A_{1}A_{1}\) | \(A_{1}A_{2}\) | \(A_{2}A_{2}\) | |
---|---|---|---|
População 1 | 125 | 250 | 125 |
População 2 | 50 | 30 | 20 |
População 3 | 100 | 500 | 400 |
Qual o nível global de estruturação genética nas populações?
Qual o nível de estruturação genética entre as populações:
1 \(\times\) 2?
1 \(\times\) 3?
2 \(\times\) 3?
Quais populações estão mais isoladas geneticamente uma da outra?