Arcsine transformation in stata forex


Manual de Estatística Biológica Se uma variável de medição não corresponder a uma distribuição normal ou tiver desvios padrão muito diferentes em diferentes grupos, você deve tentar uma transformação de dados. Introdução Muitas variáveis ​​biológicas não atendem aos pressupostos de testes estatísticos paramétricos: normalmente não são distribuídos. As desvios-padrão não são homogêneas. ou ambos. O uso de um teste estatístico paramétrico (como uma anova ou regressão linear) em tais dados pode dar um resultado enganador. Em alguns casos, transformar os dados tornará adequado os pressupostos. Histogramas de número de mudminows oriental por seção de fluxo de 75 m (amostras com 0 mudminnows excluídos). Dados não transformados na esquerda, dados log-transformados à direita. Histogramas de número de mudminows oriental por seção de fluxo de 75 m (amostras com 0 mudminnows excluídos). Dados não transformados na esquerda, dados log-transformados à direita. Para transformar dados, você executa uma operação matemática em cada observação, então use esses números transformados em seu teste estatístico. Por exemplo, como mostrado no primeiro gráfico acima, a abundância das espécies de peixe Umbra pygmaea (Eastern Mudminnow) em rios de Maryland não é normalmente distribuída, há muitos fluxos com uma pequena densidade de mudminows e alguns fluxos com lotes deles. A aplicação da transformação do log faz com que os dados sejam mais normais, como mostrado no segundo gráfico. Mudminnow oriental (Umbra pygmaea). Aqui estão 12 números do conjunto de dados mudminnow, a primeira coluna é o dado não transformado, a segunda coluna é a raiz quadrada do número na primeira coluna e a terceira coluna é o logaritmo base-10 do número na primeira coluna. Você faz as estatísticas dos números transformados. Por exemplo, a média dos dados não transformados é 18,9, a média dos dados transformados na raiz quadrada é 3,89, a média dos dados transformados em log é de 1,044. Se você comparasse a abundância de peixes em diferentes bacias hidrográficas e você decidiu que a transformação do registro era a melhor, você faria uma anova de sentido único nos registros da abundância de peixes e você testaria a hipótese nula de que os meios do log - As abundâncias transformadas eram iguais. Transformação de volta Mesmo que você tenha feito um teste estatístico em uma variável transformada, como o registro da abundância de peixes, não é uma boa idéia relatar seus meios, erros padrão, etc. em unidades transformadas. Um gráfico que mostrou que a média do registro de peixes por 75 metros de fluxo era 1.044 não seria muito informativo para alguém que não pode fazer expoentes fracionários em sua cabeça. Em vez disso, você deve voltar a transformar seus resultados. Isso envolve fazer o oposto da função matemática que você usou na transformação de dados. Para a transformação do log, você se transformaria novamente aumentando 10 para o poder do seu número. Por exemplo, o registro de dados transformados acima tem uma média de 1.044 e um intervalo de confiança 95 de plusmn0.344 peixes transformados em log. O meio transformado de volta seria 10 1.044 11.1 peixes. O limite de confiança superior seria 10 (1.0440.344) 24.4 peixes, e o menor limite de confiança seria 10 (1.044-0.344) 5.0 peixes. Observe que o intervalo de confiança não é simétrico, o limite superior é de 13,3 peixes acima da média, enquanto o limite inferior é de 6,1 peixes abaixo da média. Observe também que você não pode apenas voltar a transformar o intervalo de confiança e adicionar ou subtrair isso do meio transformado de volta, você não pode tomar 10 0.344 e adicionar ou subtrair isso. Escolhendo a transformação correta As transformações de dados são uma ferramenta importante para a análise estatística adequada dos dados biológicos. Para aqueles com um conhecimento limitado de estatísticas, no entanto, eles podem parecer um pouco pesados, uma forma de brincar com seus dados para obter a resposta que você deseja. Portanto, é essencial que você possa defender seu uso de transformações de dados. Há um número infinito de transformações que você pode usar, mas é melhor usar uma transformação que outros pesquisadores costumam usar em seu campo, como a transformação de raiz quadrada para dados de contagem ou a transformação de log para dados de tamanho. Mesmo que uma transformação obscura de que muitas pessoas não tenham ouvido lhe dê dados um pouco mais normais ou mais homoscedásticos, provavelmente será melhor usar uma transformação mais comum para que as pessoas não se desconfiam. Lembre-se de que seus dados não precisam ser perfeitamente normais e os testes paramétricos homoscedásticos são extremamente sensíveis aos desvios de seus pressupostos. Também é importante que você decida qual transformação usar antes de fazer o teste estatístico. Tentar diferentes transformações até encontrar uma que lhe dá um resultado significativo é a trapaça. Se você tem um grande número de observações, compare os efeitos de diferentes transformações sobre a normalidade e a homoscedasticidade da variável. Se você tiver um pequeno número de observações, talvez você não consiga ver muito efeito das transformações sobre a normalidade e a homoscedasticidade nesse caso, você deve usar qualquer transformação que as pessoas em seu campo use rotineiramente para sua variável. Por exemplo, se você estiver estudando distância de dispersão de pólen e outras pessoas rotineiramente log-transformá-lo, você deve log-transformar a distância do pólen também, mesmo se você tiver apenas 10 observações e, portanto, não pode realmente olhar para a normalidade com um histograma. Transformações comuns Existem muitas transformações que são usadas ocasionalmente em biologia aqui são três das mais comuns: transformação de logs. Isso consiste em fazer o registro de cada observação. Você pode usar logs base-10 (LOG em uma planilha, LOG10 em SAS) ou logs base-e, também conhecidos como logs naturais (LN em uma planilha, LOG em SAS). Não faz diferença para um teste estatístico se você usa logs base-10 ou logs naturais, porque diferem por um fator constante, o log de base-10 de um número é apenas 2.303helliptimes o log natural do número. Você deve especificar qual registro você está usando quando você escreve os resultados, pois afetará coisas como a inclinação e a interceptação em uma regressão. Eu prefiro os logs da base-10, porque é possível examiná-los e ver a magnitude do número original: log (1) 0, log (10) 1, log (100) 2, etc. A transformação de retorno é aumentar 10 Ou e ao poder do número se a média de seus dados transformados em log da base-10 for 1.43, o significado transformado para trás é de 10 1.43 26.9 (em uma planilha, 101.43). Se a média de seus dados transformados em log e base-e for 3.65, o significado transformado de volta é 3.65 38.5 (em uma planilha, EXP (3.65). Se você tem zeros ou números negativos, você não pode pegar o log, você deve adicionar um Constante para cada número para torná-los positivos e não-zero. Se você tiver dados de contagem, e algumas das contagens são zero, a convenção é adicionar 0,5 a cada número. Muitas variáveis ​​na biologia têm distribuições log-normal, o que significa que após Transformação de log, os valores são normalmente distribuídos. Isso ocorre porque, se você tomar vários fatores independentes e multiplicá-los juntos, o produto resultante é log-normal. Por exemplo, digamos que você plantou um monte de sementes de bordo, então 10 anos Mais tarde, você vê o quanto as árvores são altas. A altura de uma árvore individual seria afetada pelo nitrogênio no solo, a quantidade de água, a quantidade de luz solar, a quantidade de insetos, etc. Tendo mais nitrogênio pode fazer uma árvore 10 maior Do que um com menos nitrogênio, a quantidade certa de água pode E ele 30 maior do que um com muita ou pouca água, mais luz solar pode fazer 20 maiores danos aos insetos, tornando-o 15 maior, etc. Assim, o tamanho final de uma árvore seria uma função de nitrogêncios, os momentos de inatividade sem luz e, matematicamente, esse tipo Da função acaba por ser log-normal. Transformação da raiz quadrada. Isso consiste em tomar a raiz quadrada de cada observação. A transformação de volta é quadrado do número. Se você tem números negativos, você não pode levar a raiz quadrada, você deve adicionar uma constante a cada número para torná-los positivos. As pessoas freqüentemente usam a transformação da raiz quadrada quando a variável é uma contagem de algo, como colônias bacterianas por placa de petri, células sanguíneas que passam por um capilar por minuto, mutações por geração, etc. Transformação de arcos. Isso consiste em tirar o arcsine da raiz quadrada de um número. (O resultado é dado em radianos, não em graus, e pode variar de minuspi2 a pi2.) Os números a serem transformados em arcsina devem estar no intervalo de 0 a 1. Isso é comumente usado para proporções, que variam de 0 a 1, como Como a proporção de masturbação oriental feminina infestada por um parasita. Observe que esse tipo de proporção é realmente uma variável nominal. Por isso é incorreto tratá-lo como uma variável de medição, seja ou não transformá-lo. Por exemplo, seria incorreto contar o número de mudminows que são ou não parasitados em cada um dos vários fluxos em Maryland, tratam a proporção de fêmeas parasitadas transformadas em arcsina em cada fluxo como uma variável de medição e, então, realizam uma regressão linear nesses Dados vs. profundidade do fluxo. Isso ocorre porque as proporções de fluxos com um tamanho de amostra menor de peixes terão um desvio padrão maior do que as proporções de fluxos com amostras maiores de peixes, informações que não são consideradas ao tratar as proporções transformadas com arcsina como variáveis ​​de medida. Em vez disso, você deve usar um teste projetado para variáveis ​​nominais neste exemplo, você deve fazer regressão logística em vez de regressão linear. Se você insiste em usar a transformação do arcsine, apesar do que eu acabei de dizer, a transformação de volta é o quadrado do seno do número. Como transformar dados Spreadsheet Em uma coluna em branco, insira a função apropriada para a transformação selecionada. Por exemplo, se você quiser transformar números que começam na célula A2, vá para a célula B2 e insira LOG (A2) ou LN (A2) para transformar log, SQRT (A2) para a transformação de raiz quadrada ou ASIN (SQRT ( A2)) para transformar arcsina. Em seguida, copie a célula B2 e colar em todas as células na coluna B que estão ao lado de células na coluna A que contêm dados. Para copiar e colar os valores transformados em outra planilha, lembre-se de usar o Especial Paste. Comando, escolha colar Valores. Usando o Special Paste. O comando Values ​​faz o Excel copiar o resultado numérico de uma equação, em vez da própria equação. (Se a sua planilha for Calc, escolha Colar Especial no menu Editar, desmarque as caixas rotuladas Pegar Todas e Fórmulas, e marque a caixa denominada Números.) Para voltar a transformar dados, basta digitar o inverso da função que você usou para transformar a dados. Para transformar de volta os dados transformados em log na célula B2, insira 10B2 para logs base-10 ou EXP (B2) para logs naturais para dados transformados de raiz quadrada, digite B22 para dados transformados em arcsine, digite (SIN (B2)) 2 Im not Consciente de qualquer página da Web que faça transformações de dados. Para transformar dados no SAS, leia os dados originais e crie uma nova variável com a função apropriada. Este exemplo mostra como criar duas novas variáveis, raiz quadrada transformada e log transformada, dos dados de Mudminnow. O conjunto de dados mudminnow contém todas as variáveis ​​originais (localização, tipo bancário e contagem) mais as novas variáveis ​​(countlog e countqrt). Você então executa qualquer PROC que você deseja e analise essas variáveis ​​exatamente como você faria com outras. Claro, este exemplo faz duas transformações diferentes apenas como uma ilustração na realidade, você deve decidir sobre uma transformação antes de analisar seus dados. A função SAS para o X transformador de arcsina é ARSIN (SQRT (X)). Provavelmente você achará mais fácil fazer backtransformar usando uma planilha ou uma calculadora, mas se você realmente deseja fazer tudo no SAS, a função para tomar 10 para a potência X é 10X, a função para levar e a uma potência é EXP (X) a função Para o quadrado X é X2 e a função para o backtransforming de um número transformado em arcsina é SIN (X) 2. Esta página foi revisada pela última vez em 18 de dezembro de 2017. Seu endereço é biostathandbooktransformation. html. Pode ser citado como: McDonald, J. H. 2017. Manual de Estatística Biológica (3ª ed.). Sparky House Publishing, Baltimore, Maryland. Esta página contém o conteúdo das páginas 140-144 na versão impressa. Copy2017 de John H. McDonald. Você provavelmente pode fazer o que quiser com este conteúdo, veja a página de permissões para detalhes. O Pacote Metafor Com base em algum código que escrevi como parte da minha pesquisa de dissertação, desenvolvi uma função chamada mima () que forneceu a funcionalidade básica para o ajuste de configurações fixas, E randommixed-effects (meta-regression) modelos. Em 2006, coloquei a função no meu site (juntamente com um breve tutorial) e foi apanhada por vários pesquisadores que usaram a função com êxito em várias meta-análises. No entanto, enquanto a função mima () forneceu a funcionalidade básica para o ajuste de modelos meta-analíticos padrão e a realização de análises de meta-regressão, o pacote metafor foi escrito em resposta a várias solicitações para expandir a função para um pacote completo para realizar meta-análises com Opções adicionais e funções de suporte. A função mima () é, portanto, agora obsoleta e foi removida do meu site. Várias tentativas foram feitas para validar as funções no pacote metafor. Antes de tudo, quando as análises correspondentes poderiam ser realizadas, comparei os resultados fornecidos pelo pacote metafor com os fornecidos por outros pacotes de software para vários conjuntos de dados. Em particular, os resultados foram comparados com os fornecidos pelo metan. Metareg. Metabias. E metatrim em Stata (para mais detalhes sobre esses comandos, veja Sterne, 2009). Os resultados também foram comparados com os fornecidos pelo SAS usando o comando mix proc (para mais detalhes, veja van Houwelingen, Arends, amp Stijnen, 2002), pelo SPSS usando as macros desenvolvidas por David Wilson (Lipsey amp Wilson, 2001), pelo Pacotes de meta (CRAN Link) e rmeta (CRAN Link) em R, e por Metanálise abrangente. MetaWin. E o Gerente de Revisão da Colaboração Cochrane. Os resultados concordaram completamente ou caíram dentro de uma margem de erro esperada ao usar métodos numéricos. Em segundo lugar, os resultados fornecidos pelo pacote metafor foram comparados com os resultados publicados descritos em artigos e livros (o pressuposto é que esses resultados estão de fato corretos). Neste site, forneço uma série de exemplos de análise que você pode examinar. Todos esses exemplos (e alguns mais) também são encapsulados em testes automatizados usando o pacote testthat, de modo que qualquer alteração no código que levaria a que esses exemplos se tornem não reprodutíveis seja automaticamente detectada. Em terceiro lugar, realizei extensos estudos de simulação para muitos dos métodos implementados no pacote para garantir que suas propriedades estatísticas sejam como seria de esperar, com base na teoria subjacente. Para dar um exemplo simples, sob os pressupostos de um modelo de efeitos iguais (ou seja, efeitos verdadeiros homogêneos, estimativas de tamanho de efeito normalmente distribuídas, variâncias de amostragem conhecidas), a taxa de rejeição empírica de H0: theta 0 deve ser nominal (dentro da margem de erro Seria de esperar ao simular aleatoriamente esses dados). Este é de fato o caso, fornecendo suporte para que a função rma () esteja funcionando adequadamente para esse cenário. Testes semelhantes foram realizados para os métodos mais intrincados no pacote. Também pode ser útil notar que existe agora uma base de usuários apreciável do pacote metafor (o artigo Viechtbauer (2018) descrevendo o pacote foi citado em mais de 1000 artigos. Muitas das quais são meta-análises aplicadas e documentos metodológicos estatísticos que têm Usou o pacote metafor como parte da pesquisa). Isso aumenta as chances de que algum erro seja detectado, relatado e corrigido. Finalmente, tornei-me muito proficiente em bater o Ballmer Peak. Para a maior parte, o desenvolvimento do pacote foi financiado por meu próprio tempo precioso. Através de algum trabalho colaborativo no software 039Open Meta-Analyst039 do Centro de Medicina Baseada em Evidências na Brown University. Recebi algum financiamento como parte de um subcontrato em uma concessão. Além disso, Sandra Wilson e Mark Lipsey, do Peabody Research Institute da Vanderbilt University, forneceram financiamento para tornar o rma. mv () mais eficiente e para adicionar recursos multicore à função profile. rma. mv (). No entanto, os desenvolvimentos futuros do pacote poderiam avançar muito mais rapidamente se houvesse financiamento adicional disponível. Se você tem conhecimento de quaisquer possibilidades de financiamento, sinta-se à vontade para me informar antes de tudo, obrigado por tentar fazê-lo em primeiro lugar. A melhor maneira de citar o pacote é citar o seguinte artigo: Viechtbauer, W. (2018). Realização de meta-análises em R com o pacote metafor. Journal of Statistical Software, 36 (3), 148. Por sinal, tente citar (quotmetaforquot) em R (este não é um comando específico para o pacote metafor, você pode tentar isso com outros nomes de pacotes e citação () irá dizer-lhe como Para citar o próprio R). Na verdade, há uma série de diferentes pacotes R disponíveis para realizar meta-análises. Felizmente, agora existe uma Visualização de Tarefas para Meta-Análise. Que fornece uma visão geral bem detalhada dos diferentes pacotes e suas capacidades. Perguntas técnicas Os modelos meta-analíticos padrão (como podem ser equipados com a função rma ()) assumem que as variâncias de amostragem são conhecidas. Por outro lado, os modelos instalados pelas funções lm () e lme () assumem que as variações de amostragem são conhecidas apenas até uma constante de proporcionalidade. Portanto, estes são modelos diferentes dos usados ​​tipicamente em meta-análises. Para mais detalhes, escrevi uma comparação mais abrangente das funções rma () e lm () e lme (). Para os modelos de efeitos aleatórios, a estatística I2 é calculada com I2 100 vezes frac 2 2 s2, onde o chapéu 2 é o valor estimado de tau2 e s2 frac, onde wi é o inverso da variância da amostra do estudo i (s2 é uma equação 9 em Higgins amp Thompson, 2002, e pode ser considerado como a variância de estudo dentro dos estudos 039typical039 dos tamanhos ou resultados de efeitos observados). A estatística H2 é calculada com H2 frac 2 s2. Equações análogas são usadas para modelos de efeitos mistos. Portanto, dependendo do estimador de tau2 usado, os valores de I2 e H2 serão alterados. Para os modelos de efeitos aleatórios, I2 e H2 são frequentemente computados na prática com I2 100 vezes (Q - (k-1)) Q e H2 Q (k-1), onde Q indica a estatística para o teste de heterogeneidade e k o Número de estudos (ou seja, efeitos observados ou resultados) incluídos na meta-análise. As equações usadas no pacote metafor para calcular essas estatísticas são baseadas em definições mais gerais e têm a vantagem de que os valores de I2 e H2 serão consistentes com o valor estimado de tau2 (ou seja, se o chapéu 2 0, então I2 0 e H2 1 E se o chapéu 2 gt 0, então I2 gt 0 e H2 gt 1). Esses dois conjuntos de equações para I2 e H2 realmente coincidem ao usar o estimador DerSimonian-Laird de tau2 (ou seja, as equações comumente usadas são realmente casos especiais das definições mais gerais dadas acima). Portanto, se você preferir as definições mais convencionais dessas estatísticas, use methodquotDLquot ao montar o modelo de efeitos randommixed com a função rma (). Veja o exemplo de análise para Raudenbush (2009) para um exemplo disso. A estatística pseudo R2 (Raudenbush, 2009) é calculada com R2 frac 2 - hat 2 2, onde o chapéu 2 indica o valor estimado de tau2 com base no modelo de efeitos aleatórios (ou seja, a quantidade total de heterogeneidade) e o chapéu 2 indica a estimativa Valor de tau2 com base no modelo de efeitos mistos (ou seja, a quantidade residual de heterogeneidade). Pode acontecer que o chapéu 2 lt hat 2, caso em que R2 é definido como zero. Novamente, o valor de R2 mudará dependendo do estimador de tau2 usado. Observe também que esta estatística é calculada somente quando o modelo de efeitos mistos inclui uma interceptação (de modo que o modelo de efeitos aleatórios é claramente aninhado no modelo de efeitos mistos). Você também pode usar a função anova. rma. uni () para calcular R2 para os dois modelos que são conhecidos por serem aninhados. As funções escalc () e rma () oferecem a possibilidade de transformar proporções brutas e taxas de incidência com a transformação Freeman-Tukey (Freeman amp Tukey, 1950). Para proporções, isso também é às vezes chamado de transformação de arco duplo 039Freeman-Tukey039. Para proporções, a transformação (measurequotPFTquot) é calculada com a equação yi 12 vezes (mbox (sqrt) mbox (sqrt)), onde xi denota o número de indivíduos que experimentam o evento de interesse e ni indica o número total de indivíduos (ou seja, amostra Tamanho). A variância de yi é então calculada com vi 1 (4ni 2). Para taxas de incidência, a transformação (measurequotIRFTquot) é calculada com a equação yi 12 vezes (sqrt sqrt), onde xi denota o número total de eventos que ocorreram e ti indica o tempo total de pessoa em risco. A variância de yi é então calculada com vi 1 (4ti). Pode-se também encontrar definições dessas transformações sem a constante multiplicativa 12 (as equações para a variância devem então ser multiplicadas por 4). Uma vez que o 12 é apenas uma constante, não importa qual a definição que se usa (desde que se use a equação correta para a variância da amostragem). O pacote metafor usa as definições dadas acima, de modo que os valores obtidos a partir da transformação da aranha quadrada (angular) (measurequotPASquot) e da transformação de arco duplo de Freeman-Tukey (measurequotPFTquot) são aproximadamente da mesma magnitude (sem 12 multiplicadores, Os valores de PFT seriam cerca de duas vezes maiores. O mesmo se aplica às taxas de incidência transformadas de raiz quadrada (measurequotIRSquot) e as taxas transformadas de Freeman-Tukey (measurequotIRFTquot). Quando usado com as configurações padrão, a função rma. mh () no metafor pode de fato fornecer resultados diferentes dos obtidos com outros softwares meta-analíticos, como a função metan no Stata, o Review Manager (RevMan) da Cochrane Collaboration , Ou Metanálise abrangente (CMA). Por padrão, o metafor não aplica nenhum ajuste às contagens de células em estudos com zero casos em qualquer grupo ao aplicar o método Mantel-Haenszel, enquanto outro software pode fazê-lo automaticamente. Para mais detalhes, dê uma olhada na comparação do método Mantel-Haenszel em diferentes softwares e quais configurações usar para fazer metafor fornecem exatamente os mesmos resultados que outros softwares. Referências Freeman, M. F. amp Tukey, J. W. (1950). Transformações relacionadas à raiz angular e quadrada. Annals of Mathematical Statistics, 21 (4), 607611. Higgins, J. P. T. amp Thompson, S. G. (2002). Quantificando a heterogeneidade em uma meta-análise. Statistics in Medicine, 21 (11), 15391558. van Houwelingen, H. C. Arends, L. R. amp Stijnen, T. (2002). Métodos avançados em meta-análise: abordagem multivariada e meta-regressão. Statistics in Medicine, 21 (4), 589624. Lipsey, M. W. amp Wilson, D. B. (2001). Meta-análise prática. Sage, Thousand Oaks, CA. Raudenbush, S. W. (2009). Analisando tamanhos de efeitos: modelos de efeitos aleatórios. Em H. Cooper, L. V. Hedges, amp. J. C. Valentine (Eds.), O manual de síntese e meta-análise da pesquisa (2ª edição, pp. 295315). Nova York: Russell Sage Foundation. Sterne, J. A. C. (Ed.) (2009). Meta-análise no Stata: uma coleção atualizada do Stata Journal. Stata Press, College Station, TX. Faq. txt Última modificação: 20170607 19:34 por Wolfgang Viechtbauer

Comments