Introdução à estatística circular

O objetivo desse curso é fornecer uma introdução teórico-prática ao uso da estatística circular para análise de eventos temporais. Para tal, nós utilizamos como base de exemplo dados de plantas para demonstração do uso de abordagens básicas da estatística circular para estudos fenológicos, isto é, para investigação de tendências unimodais (sazonais) ou multimodais (não sazonais) de eventos mensais de floração e frutificação ao longo de meses do ano. Essa exemplificação permite o entendimento interdisciplinar sobre como explorar os próprios dados contendo frequências de observações (diárias, semanais, mensais, anuais) de um determinado evento em busca de padrões sazonais. Assim, o participante aprende desde princípios teóricos até a elaboração de dados e conversão de datas de observações de eventos em ângulos geométricos para análises. Ao participante é fornecido bancos de dados teste de fenologia vegetal e protocolo para acompanhar as análises no software Oriana, o mais bem desenvolvido especificamente para estatística circular. Juntamente com a parte prática é explicada de forma introdutória a base teórica dos principais testes estatísticos aplicados em estatística circular para tal propósito e indicada literatura para manutenção de conhecimento e aprofundamento.

Carga horária: 6 horas

Ministrante: Dr. Écio Souza Diniz

Investimento: R$ 80,00

Inscrição: https://forms.gle/MvW3EANuZTidR9pi6

Pré-requisitos desejáveis: entendimento básico de estatística descritiva (ex: distribuição normal, média, moda, mediana, desvio padrão, intervalo de confiança) e uso de computador com Windows para instalação correta do software Oriana. O não preenchimento desses pré-requisitos não invalida participação no curso, mas isenta responsabilidade da empresa quanto ao participante conseguir acompanhar de forma bem sucedida os conteúdos abordados.

Conteúdo do curso:

  1. Introdução teórica à estatística circular
  2. Principais funcionalidades para investigações de sazonalidade
  3. Preparação dos dados
  4. Conversão de datas de observações em ângulos (0 a 360º)
  5. Testes estatísticos sobre as frequências de observações em ângulos
  6. Geração de histograma circular – tendências modais
  7. Ajustes modais para os testes estatísticos
  8. Interpretação dos resultados
  9. Sugestões de apresentação dos resultados em publicações
  10. Indicações de leitura de manutenção e aprofundamento

Estatística básica com R

Diferentemente de um curso de introdução à linguagem de programação R, este curso é focado na introdução da aplicação da estatística básica descritiva (ex: média, desvio padrão) para exploração de dados, teste de hipóteses (ex: Tetes de duas amostras, ANOVA, correlação linear), preditiva (regressão linear) e visualização gráfica básica (ex: gráficos de dispersão, barras, histogramas, boxplots). Com isso o objetivo aqui é tornar o participante aplicado nos conceitos básicos de uso, execução e interpretação de resultados de métodos e testes da estatística básica em R. Assim, o conteúdo desse curso é um bom ponto de partida para quem já iniciou aprendizagem do uso da linguagem R, mas precisa se aprimorar em aplicações estatísticas básicas. Portanto, esse é um curso para públicos interdisciplinares de diversos níveis, graduação, pós-graduação, professores universitários e corpo-técnico de empresas.

Carga horária: 5 horas

Ministrante: Dr. Écio Souza Diniz

Investimento: R$ 70,00 via transferência (Banco do Brasil ou NuBank) ou R$ 86,00 com PagSeguro em parcela única. Pague com PagSeguro - é rápido, grátis e seguro!

Inscrição: https://forms.gle/MvW3EANuZTidR9pi6

Pré-requisitos desejáveis: entendimento do uso do software R para Windows (instalá-lo em sua versão atual no PC, instalação e carregamento de pacotes, importação de dados para dentro do software) e noção teórica de estatística básica (ex: média, variância, desvio padrão, regressão simples). O não preenchimento desses pré-requisitos não invalida participação no curso, mas isenta responsabilidade da empresa quanto ao participante conseguir acompanhar de forma bem sucedida os conteúdos abordados.

Conteúdo do curso:

  1. Testes de normalidade
  2. Teste de homogeneidade de variância
  3. Independência de resíduos
  4. Estatística descritiva (ex: média, mediana, moda, desvio padrão, variância, intervalo de confiança)
  5. Transformação de dados (ex: raiz quadrada, log, inversa, arcoseno)
  6. Testes de uma amostra (Teste T e Wilcoxon)
  7. Testes de duas amostras independentes e dependentes (Teste T pareado e Mann Whitney)
  8. ANOVA (paramétrica e não paramétrica)
  9. Testes a posteriori (ex: Tukey e Dunnet)
  10. Testes de correlação (ex: Pearson e Spearman)
  11. Regressão linear (LM)
  12. Sugestões de apresentação de resultados em artigos.

Interações filogenéticas e funcionais em R

O objetivo desse curso é ampliar o conhecimento básico (abordado em detalhes no curso “Introdução à Ecologia filogenética com R”) em filogenia de comunidades (diversidade e estrutura filogenética) do participante para questões aprofundadas em conservação evolutiva de nichos e traços funcionais em grupo de espécies e entre espécies. Para atingir tal objetivo, partimos da organização de dados de espécie, dados da amostragem e traços das espécies e geração de árvore filogenética datada, passando por abordagens teórico-práticas em cada tópico analítico do curso. Essa sequência lógica garante com maior acurácia o entendimento teórico e implicação prática dos resultados obtidos com abordagens de sinal filogenético como métrica de estudo de conservação filogenética de traços e nichos de grupos de espécies, assim como dos resultados de regressão filogenética para estudo de coevolução de traços e nichos entre espécies. Também é abordado o uso de indicadores locais de associação filogenética baseados em estatística espacial, desenvolvidos nos últimos 3 anos e de grande funcionalidade e potencial para investigar diferenças e ou similaridades filogenéticas entre espécies com relação a seus nichos e traços funcionais. Para exemplificar análises são fornecidos dados-treino relativos a traço funcional vegetal e dados ambientais para simular nichos. Embora o curso é pautado em dados de plantas, os conceitos teóricos e as partes práticas com as métricas são de aplicabilidade interdisciplinar, podendo também ser utilizadas na área animal. Para auxiliar na solidificação do conhecimento nos tópicos do curso, juntamente com o protocolo fornecido também são indicadas literaturas específicas para fixação da base teórica.

Carga horária: 5 horas / Data e horário: 07/04/2021 (17:00 às 22:00)

Ministrante: Dr. Écio Souza Diniz

Investimento: R$ 80,00 via transferência (Banco do Brasil ou NuBank)

Inscrição: https://forms.gle/MvW3EANuZTidR9pi6

Pré-requisitos desejáveis: entendimento básico de filogenia de comunidades, do uso do software R para Windows (instalá-lo em sua versão atual no PC, instalação e carregamento de pacotes, importação de dados para dentro do software). O não preenchimento desses pré-requisitos não invalida participação no curso, mas isenta responsabilidade da empresa quanto ao participante conseguir acompanhar de forma bem sucedida os conteúdos abordados. Nós recomendamos também para quem necessita de ampliar o conhecimento básico de filogenia de comunidades fazer o curso “Introdução à Ecologia filogenética com R”

Conteúdo do curso: 5 horas

  1. Organização de dados de espécies, amostras e traços funcionais
  2. Geração da árvore filogenética datada
  3. Resolução filogenética
  4. Bases teóricas da filogenia aplicada à análise de nichos e traços
  5. Testes de sinal filogenético
  6. Indicadores de associação filogenética de traços e nichos entre espécies
  7. Coevolução de nichos e traços – regressão filogenética
  8. Sugestões de apresentação dos resultados em publicações

Introdução à Ecologia filogenética com R

O objetivo desse primeiro módulo introdutório é abordar os princípios teóricos e práticos básicos para a análise filogenética de comunidades. Nesse curso é abordado desde a preparação da lista e dados amostrais de espécies, passando por geração da árvore filogenética da lista em questão até cálculo de métricas de diversidade e estrutura filogenética que estimam o grau de parentesco entre as espécies. Assim, através dos resultados das métricas de diversidade e estrutura filogenética é abordado de forma interpretativa prática como elas auxiliam e se combinam a outros tipos de variáveis (ex: solos, clima, interações bióticas (competição, herbivoria, patógenos)) para interpretar processos e padrões ecológicos que observamos nas comunidades estudadas no presente. Embora o curso é pautado em dados de plantas, os conceitos teóricos e as partes práticas com as métricas são de aplicabilidade interdisciplinar, podendo também ser utilizadas na área animal. Para auxiliar na solidificação do conhecimento nos tópicos do curso, juntamente com o protocolo fornecido também são indicadas literaturas específicas para fixação da base teórica.

Data e horário: 05/04/2021 (17:00 às 22:00)

Carga horária: 5 horas

Ministrante: Dr. Écio Souza Diniz

Investimento: R$ 80,00 via transferência (Banco do Brasil ou NuBank)

Inscrição: https://forms.gle/MvW3EANuZTidR9pi6

Pré-requisitos desejáveis: entendimento básico do software R para Windows (instalá-lo em sua versão atual no PC, instalação e carregamento de pacotes, importação de dados para dentro do software). O não preenchimento desses pré-requisitos não invalida participação no curso, mas isenta responsabilidade da empresa quanto ao participante conseguir acompanhar de forma bem sucedida os conteúdos abordados.

Conteúdo do curso:

  1. Organização de dados de espécies e amostras
  2. Bases teóricas da filogenia de comunidades
  3. Escolha da hipótese filogenética
  4. Geração e datação da árvore filogenética
  5. Visualização gráfica da árvore gerada
  6. Resolução da árvore filogenética
  7. Análises de diversidade (PD e ses.PD) e estrutura filogenética de comunidades (MPD/ses.MPD, MNTD/sesMNTD)
  8. Interpretações e aplicações práticas
  9. Sugestões de apresentação de resultados em publicações
  10. Prospectos para aprimoramento no uso de análises filogenéticas

O que é machine learning (aprendizado de máquina)? Conceitos, exemplos e importância.

O termo machine learning (aprendizado de máquina ou aprendizado automático) é um dos termos mais falados na atualidade em temas relacionados à tecnologia e avanço na ciência de análise de dados. Com o rápido avanço da informática nos anos 2000 a busca por algoritmos mais eficientes para desempenhar diversas funções analíticas ou responsivas de sistemas virtuais tem sido constante. Nesse contexto tem havido um rápido desenvolvimento de novos algoritmos, os quais representam uma sequência finita de ações executáveis que tem por objetivo solucionar um determinado tipo de problema. Esse é um dos principais motivos que muitos formatos tradicionais de trabalho na atualidade têm sido reformulados, fazendo com que a mão de obra humana venha sendo substituída em diversos setores. Dessa forma, uma parte considerável do novo mercado trabalhista em diversas áreas tem buscado pessoas que dominam conceitos, aplicações e execução de programação computacional e modelos inteligentes para execução de trabalhos cotidianos e busca de soluções de problemas de um mundo moderno superpopuloso (exemplo: RH virtual, com algoritmos que examinam de forma automatizada e inteligente os perfis de candidatos a uma determinada vaga de emprego).

Afinal de contas o que é e como funciona o machine learning?

O machine learning trata de um subcampo da ciência da computação baseado no reconhecimento computacional de padrões e com isso o aprendizado computacional em inteligência artificial. Arthur Samuel (pioneiro nos campos dos jogos de computador, inteligência artificial e aprendizado de máquina) conceitua o aprendizado de máquina como o campo de estudo que dá aos computadores a habilidade de aprender sem serem explicitamente programados. Assim, o aprendizado automático pelos computadores explora o estudo e construção de algoritmos que podem aprender de seus erros e fazer previsões cada vez mais robustas e eficientes sobre dados.           Os algoritmos construídos para aprendizagem inteligente funcionam criando um modelo matemático-estatístico a partir de uma entrada de dados amostrais no computador, permitindo previsões e promovendo tomadas de decisões a partir de reconhecimento de padrões desses dados. Ao contrário da inteligência artificial que se baseia em duas linhas computacionais de raciocínio (a indutivo, que extrai regras e padrões de grandes conjuntos de dados, e o dedutivo), o aprendizado de máquina só opera com o indutivo. Um exemplo simplório pode ser o uso de padrões faciais em programas de construção de retratos de pessoas, no qual um banco de dados com grande amostragem de padrões de rostos de diversas pessoas de um determinado local, região ou país é fornecido para um algoritmo aprender a extrair padrões desses rotos e criar comparação facial automática com base nos padrões aprendidos para dizer se duas fotos distintas correspondem a uma mesma pessoa.

As relações do aprendizado de máquina com estatística e aplicações

Há ramos do aprendizado de máquinas que funcionam conectados ou sobrepostos à estatística computacional. Dessa forma, a estatística computacional é focada em fazer previsões (exemplo: modelos estatísticos de regressão (decisão) ou classificação) usando computadores, baseando-se nas propriedades dos métodos estatísticos e sua complexidade computacional. No aprendizado de robôs, por exemplo, ocorre o uso de técnicas como aprendizado ativo, no qual há criação de suas próprias sequências para adquirir continuamente padrões para novas habilidades, através de uma exploração autônoma e da interação social com humanos.

Com base na natureza de sinal fornecida por padrões de dados para um sistema de aprendizado há três categorias para as tarefas de aprendizado de máquina:

 Aprendizado supervisionado: são fornecidas ao computador entradas e saídas desejadas de dados, que são fornecidos por uma pessoa (pesquisador, programador ou professor), objetivando promover um mapeamento dessas entradas e saídas.

Aprendizado não supervisionado: não é fornecido qualquer tipo de padrão dos dados ao algoritmo de aprendizagem, o qual deve por si só encontrar esses padrões nas entradas de dados fornecidas. Assim, esse tipo de aprendizado comumente objetiva descobrir novos padrões nos dados.

Aprendizado por reforço: ocorre uma interação precisa entre um programa computacional e um ambiente dinâmico para que o programa desempenhe uma função (ex: controlar automaticamente máquinas de extração de madeira numa plantação florestal).

Ao se considerar a saída desejada num sistema de aprendizado de máquina temos as seguintes categorias:

Classificação: as entradas são divididas em duas ou mais classes, e o usuário de modelos estatísticos aplicando essa abordagem deve produzir um modelo supervisionado que vincula entradas não vistas a uma ou mais dessas classes. Um exemplo dessa abordagem é a filtragem de e-mails recebidos e direcionados para caixa de spam, isto é, as entradas são as mensagens de e-mails e as classes são “spam” ou “não spam”. Exemplos de modelos estatísticos que englobam algoritmos com funções de classificação incluem: SVM (Support vector machine), PLS (Partial Least Squares), ANN (Artificial Neural Network, Random Forest etc.

Regressão: também opera sobre um problema supervisionado, sendo que as saídas são contínuas em vez de discretas. A aplicação de um modelo ANN para testar a eficácia de predição de dados numéricos de natureza contínua para decréscimo de cobertura vegetal por um amplo grupo de variáveis preditivas climáticas e de solos é um exemplo.

Clustering: é uma abordagem não supervisionada na qual é criado um grupo a partir de um conjunto de entradas de dados. Isto é, a tarefa consiste em agrupar um conjunto de objetos de forma que os objetos do mesmo grupo (chamados de cluster) sejam mais semelhantes uns aos outros do que àqueles de outros grupos. Um exemplo de técnica com essa abordagem é a NCA (Neighbourhood components analysis), na qual é usado um modelo supervisionado classificar dados multivariados em classes distintas de acordo com uma determinada métrica de distância sobre esses dados.

Exemplos de importantes aplicações cotidianas do aprendizado de máquina

Além de coisas triviais, porém, fundamentais, como filtragem de spam, uma série de outras aplicações de grande importância usando aprendizado de máquinas engloba: mecanismos de busca na internet, mineração de opinião, detecção de fraude de cartão de crédito, recuperação de informação, detecção de fraude virtual, reconhecimento ótico de caracteres (OCR), processamento de linguagem natural, diagnósticos médicos, bioinformática, reconhecimento de fala, reconhecimento de escrita, visão computacional e locomoção de robôs, Bioinformática, interface cérebro-computador, classificação de sequências de DNA, visão computacional, incluindo reconhecimento de objetos, gogos de estratégia, marketing etc.

Softwares amplamente usados para aplicar aprendizado de máquina

Há hoje diversos softwares com uma ampla variedade de algoritmos de aprendizado de máquina, incluindo aqueles que são pagos como MATLAB, SAS Enterprise Miner e STATISTICA Data Miner. Mas cada vez mais tem sido preferido os softwares livres por não carecerem de licença, investimento financeiro e, principalmente, por serem mais constantemente atualizados em seus algoritmos e pacotes, o que é feito com auxílio dos próprios usuários que possuem conhecimento avançado de programação computacional. Esses softwares livres destacam o R e Python.

Leituras recomendadas:

Mehryar Mohri, Afshin Rostamizadeh, Ameet Talwalkar. (2012). Foundations of Machine Learning, The MIT Press. ISBN 978-0-262-01825-8.

Gareth, James; Witten, Daniela; Hastie, Trevor; Tibshirani, Robert. (2013). An Introduction to Statistical Learning. Springer. ISBN 978-1-4614-7137-0

E aí gostou do conteúdo desse texto? Foi informativo, mas você gostaria de saber mais a respeito ou talvez precisa aplicar essas técnicas e precisa de um protocolo para executá-las? Então venha trocar uma ideia com a Beta Analítica e vamos ampliar ou construir juntos esse conhecimento.

Existe R² para modelos lineares generalizados (GLMs)?

1. R² e os pseudo-R²: qual a diferença?

Muitas pessoas, especialmente quando iniciantes, nos modelos lineares generalizados (GLM) procuram por um R² como um parâmetro explicativo da variância da variável dependente. Ao contrário do LM (linear model), que é baseado na abordagem dos quadrados mínimos ordinários (OLS – Ordinary least squares), não há R² semelhante para o GLM. Os modelos generalizados apresentam o que é chamado pseudo-R² (ou pseudo R-squared). Eles são chamados assim porque como os R² verdadeiros, eles também variam de 0 a 1, indicando que o modelo é bem ajustado e explicativo quanto maior for o valor. Contudo, a interpretação dos pseudo-R² não é similar, mas sim análoga, a dos modelos (ex: LM) baseados na OLS. Uma vez que as estimativas dos parâmetros de GLMs são normalmente a partir de estimativas de máxima verossimilhança obtidas por meio de um processo iterativo, a abordagem OLS para adequação do modelo na explicação de variância não se aplica. Há uma série de pseudo-R² para GLMs, especialmente para regressões logísticas (binomial com variável categórica binária (0 ou 1) como dependente), mas ainda sem um consenso consolidado dos melhores. Aqui faremos um apanhado geral e resumido dos pseudo-R² mais usados para GLMs com distribuições de erros em geral e também distribuições específicas (ex: Poisson).

2. D²: um parâmetro abrangente de pseudo-R² para diversos modelos GLM.

Esse índice é o mais abrangente para GLMs, pois devido a calcular a quantidade ajustada de desvio (deviance) nesses modelos, ele pode se ajustar bem a modelos com distintas distribuições de erros. A lógica do D² segue o seguinte cálculo, conforme fundamentado por (Guisan e Zimmermann 2000).

1−Residual Deviance / Null Deviance

A Residual Deviance e a Null Deviance são parâmetros que já são encontrados no summary dos GLM. O D² pode ser computado também utilizando o pacote modEvA.

2.1 Pseudo-R² para regressão logística (binomial): o caso mais abundante.

Há uma série de pseudo-R² implementados em diversos pacotes do R que foram desenvolvidos para regressão logística (variável dependente binária, 0 ou 1) via GLM com distribuição de erros binomial. Os mais conhecidos e bem desenvolvidos pseudo-R² nesse caso são: Cox & Snell, Nagelkerke, McFadden, McFadden Adjusted, Lave/Efron, and Aldrich-Nelson, Veall-Zimmerman pseudo R index, OLS R e OLS Adjusted R². Em sua publicação “A Comparison of Logistic Regression Pseudo R² Indices”, Smith (2013) compara a eficácia desses diferentes pseudo-R² para regressão logística. O pacote modEvA no R com, por exemplo, computa McFadden, Cox & Snell, Nagelkerke, além do Tjur coefficient. O pacote DescTools também fornece função para computar diversos pseudo-R² para regressão logística.

2.2 Pseudo-R² para modelos Poisson.

O mais bem ajustado pseudo-R² para modelos cuja variável dependente é contagem (Poisson), ou seja, um dado discreto, é o V de Zhang (Zhang’s V), o qual pode ser computado utilizando o pacote rsq no R. Ele se ajusta bem para modelos Poisson com sub ou sobredispersão e também para modelos negativo binomial.

3. Os pseudo-R² de diferentes modelos são comparáveis?

Quando lidamos com reais R² baseados na pura OLS, se um modelo apresenta R² = 0.80, ou seja, 80% da variação na variável resposta é explicada pelo modelo, e outro modelo para a mesma variável resposta com R² = 0.83, então podemos concluir que os dois modelos predizem otimamente tal variação, apenas com o segundo com poder preditivo um pouco maior. No entanto, essa comparação entre modelos não se torna plausível quando se trata de pseudo-R² por duas razões principais, a diferença de escala e objetivo de cada índice para pseudo-R². No R² baseado na OLS, a escala de variação vai de 0 a 1, mas, por exemplo, o pseudo-R² de Cox & Snell usado na regressão logística comumente não varia entre 0 e 1 em dois ou mais modelos sendo comparados. O objetivo de cada tipo de pseudo-R² também inviabiliza comparações de diferentes índices entre os modelos porque ao contrário da OLS que minimiza as diferenças quadradas entre as predições e os reais valores da variável resposta sendo predita, cada pseudo-R² segue seus próprios parâmetros de cálculo. Por exemplo, o Efron pseudo-R² é computado baseado na soma dos resíduos quadrados.

4-Conclusão

Os pseudo-R² somente são uteis para comparações entre múltiplos modelos quando baseados no mesmo banco de dados com o mesmo objetivo de predição para um tipo específico de resultados e comparando o mesmo tipo de pseudo-R². O uso do D² para comparações entre diferentes modelos GLM pode ser uma alternativa mais lógica, visto ser baseado de forma padronizada na razão de suas ‘residual deviance’ e ‘null deviance’.

Achou o conteúdo acima interessante? Precisa de mais informação e ajuda para trabalhar com solidez e confiabilidade na tomada de decisão de qual melhor índice utilizar e computá-lo com precisão? Venha conversar conosco!

COMO CORRIGIR AUTOCORRELAÇÃO ESPACIAL NUM MODELO MISTO?

Muitas vezes quando alguém está analisando dados distribuídos em subparcelas ou subamostras contíguas dentro de um bloco amostral ou transecção, um dos principais vieses a ser considerado é a pseudorepetição espacial. Neste caso, você precisa de um tipo de modelo chamado modelo misto que leva em consideração o viés de você possuir dados distribuídos em pseudoréplicas (ex: subparcelas). Muitos pesquisadores utilizam o GLMM (Generalized linear mixed models) na expectativa de conduzir uma análise estatística mais confiável. Como Dormann et al. (2007)  mostram e argumentam, o GLMM pode ser uma forma de lidar com efeitos de autocorrelação espacial causados por pseudoreplicações, mas não necessariamente é a mais eficaz para corrigir esse  efeito.

Um tipo de modelo de regressão mais eficiente que o GLMM neste aspecto é o LME (Linear mixed effects) do pacote “nlme”, o qual embasou primariamente o que veio a ser desenvolvido para o GLMM no pacote “lme4”. Não entraremos em detalhes específicos, mas há vários elementos que diferem o “nlme” e “lme4” e determinam as diferenças em eficiência entre LME e o GLMM. Mas, por exemplo, o “nlme” possui um aparato estatístico mais bem desenvolvido e robusto que permite ao LME corrigir efeitos de autocorrelações de forma geral devido a permitir especificar estruturas de correlação entre os resíduos, sendo a estrutura de correlação espacial exponencial (corExp) a mais usada. Apesar de seus modelos serem limitados a distribuição de erros gaussiana (normal), o pacote “nlme” permite modelar potencial heterocedasticidade e ajustar funções não-lineares. O pacote “lme4”, por outro lado é mais ágil computacionalmente, sendo mais amplo por permitir generalização para outras distribuições de erros (ex: poisson, binomial, negativo binomial)  e recomendo principalmente para grandes banco de dados e quando vários efeitos aleatórios são considerados no modelo GLMM. No entanto, o “lme4” não permite especificar estruturas de correlação entre resíduos (a não ser pelos próprios efeitos aleatórios) ou lidar com heterocedasticidade como o “nlme” faz.

Nessa figura temos exemplo  de um modelo LME sem a estrutura de correlação entre resíduos:

Já nessa figura abaixo temos exemplo de modelo nulo e “output” de um LME conduzido com uma estrutura de correlação espacial exponencial (CorExp) incluída:

Uma forma de ainda aumentar a robustez estatística, utilizando o LME (selecionado como método base a “Maxmium Likelihood”) é fazendo um análise prévia do modelo desejado através de LM (Linear Models) para verificar se há significativa autocorrelação espacial. Esta verificação se faz inserindo esse LM no teste de Moran’s I usando o pacote “lctools”. Para isso, no seu arquivo de dados importado para o R, as subamostras (ex: subparcelas em estudos florestais) devem ter discriminadas duas colunas X e Y relativa às coordenadas UTM obtidas a partir das suas coordenadas geográficas originais. A partir dessas coordenadas UTM X e Y serão geradas coordenadas únicas para cada linha de dados e permitirá que o LM inserido no teste de Moran’s I aponte o nível (positiva ou negativa) e significância de autocorrelação espacial no seu modelo. O problema principal causado pela autocorrelação espacial nesse caso é agrupar resíduos no modelo, fazendo valores maiores se agruparem a maiores e menores a menores (autocorrelação positiva) ou aproximando valores maiores de valores menores e vice-versa (autocorrelação espacial negativa). A principal consequência desses efeitos de autocorrelação e aumento de erros estatísticos do tipo I, ou seja, rejeitar a hipótese nula quando ela é verdadeira, levando o executor da análise a considerar uma falsa relação significativa entre variável dependente e preditiva (s). Dessa forma, se após conduzir o teste I de Moran e o mesmo apontar significância (p<0.05) você deve inserir na sintaxe do seu LME a função “corExp”, por exemplo. Isto irá aumentar e inserir um fator de correção no LME, garantindo que você obtenha relações com p-valores confiáveis e robustos.

Esta publicação ajudou você a entender um pouco melhor sobre modelos mistos?

Você precisa de ajuda nessa escolha, criação, execução e interpretação d resultados nesse tipo de modelagem?

Deixe a Beta Analítica ajudá-lo (a) nessa tarefa =)