[R-br] análise de correlação entre variáveis qualitativas e quantitativas

classic Classic list List threaded Threaded
2 messages Options
Reply | Threaded
Open this post in threaded view
|

[R-br] análise de correlação entre variáveis qualitativas e quantitativas

R-br mailing list
Prezad@s,

O objetivo do meu trabalho é analisar a correlação entre o conhecimento que as pessoas tem sobre a fauna local (variável dependente) e dados sócio-econômicos (sexo, idade, renda, escolaridade, tempo de residência no local). Eu tenho uma amostra de 105 informantes e as variáveis independentes foram organizadas em frequências e para montar a matriz de dados usamos números que representam as frequências das variáveis. Ex.: Idade: 0 a 10 anos - 1; 10 a 20 anos - 2...

Como estamos trabalhando com a variável dependente qualitativa ordinal, e as amostras não apresentaram distribuição normal, fizemos um teste de correlação de Spearman. 

Entretanto, minha dúvida é se os informantes não se distribuem igualmente nas classes (categorias) de idade, de renda, de escolaridade isso não vai afetar o resultado? 
Para esclarecer: em relação à renda mensal eu tenho quatro classes: não possui renda fixa (0); até um salário mínimo (1); até dois salários (2) e até 3 salários. Só que 58% dos informantes estão na classe 1. Ou seja eu tenho distribuição desigual entre as classes, isso pode afetar meu resultado? Se sim, como resolver?

Obrigada!
   
Professora Adjunta
Universidade de Pernambuco (UPE), Campus Petrolina
BR 203, km 2, S/N
Vila Eduardo
56328903 - Petrolina, PE- Brasil.

_______________________________________________
R-br mailing list
[hidden email]
https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br
Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forne�a c�digo m�nimo reproduz�vel.
Reply | Threaded
Open this post in threaded view
|

Re: [R-br] análise de correlação entre variáveis qualitativas e quantitativas

R-br mailing list
Prezada Flávia,

A distribuição de quaisquer forma de renda ou seus proxies como chamam os americanos, em quase a totalidade das populações humanas onde esse conceito é aplicável não é gaussiana ("Normal") mas sim tende a seguir a curva descoberta por Pareto, portanto nada de inesperado aqui.

Quanto à validade da sua regressão, como já mais de uma vez (para outros tipos, mas este conceito é basilar para análise de regressão) o importante não é a distribuição das variáveis (dependente e explicativas) mas sim a distribuição dos resíduos pós regressão.

SE eles não forem aproximadamente normais pode estar havendo algum vício na regressão (em geral o modelo é incorreto) e os resultados podem não servir para a nobre função de se fazer inferências a respeito da população de onde a amostra foi retirada.

Quanto à questão de haver na sua amostra mais casos de um que outro nível de determinada variável, pode-se em extremos ter algumas condições onde a variável fica "muda" isto é por não ter variação entre os casos ela não pode ser usada para explicar a variabilidade daquela escolhida para ser a resposta.

A forma de resolver muda de acordo com a ciência de domínio do estudo, onde em alguns casos pode-se sortear igual número de casos por classe para ter uma melhor distribuição dos níveis de interesse (no seu caso renda), e os resultados devem ser analisados levando isso em conta (uma boa obra de referência sobre quais margens são fixas ou "livres" em tabelas de contingência esclarece bem esse assunto).

HTH
--
Cesar Rabak


On Wed, Dec 5, 2018 at 9:17 PM Flávia de Campos Martins por (R-br) <[hidden email]> wrote:
Prezad@s,

O objetivo do meu trabalho é analisar a correlação entre o conhecimento que as pessoas tem sobre a fauna local (variável dependente) e dados sócio-econômicos (sexo, idade, renda, escolaridade, tempo de residência no local). Eu tenho uma amostra de 105 informantes e as variáveis independentes foram organizadas em frequências e para montar a matriz de dados usamos números que representam as frequências das variáveis. Ex.: Idade: 0 a 10 anos - 1; 10 a 20 anos - 2...

Como estamos trabalhando com a variável dependente qualitativa ordinal, e as amostras não apresentaram distribuição normal, fizemos um teste de correlação de Spearman. 

Entretanto, minha dúvida é se os informantes não se distribuem igualmente nas classes (categorias) de idade, de renda, de escolaridade isso não vai afetar o resultado? 
Para esclarecer: em relação à renda mensal eu tenho quatro classes: não possui renda fixa (0); até um salário mínimo (1); até dois salários (2) e até 3 salários. Só que 58% dos informantes estão na classe 1. Ou seja eu tenho distribuição desigual entre as classes, isso pode afetar meu resultado? Se sim, como resolver?

Obrigada!
   
Professora Adjunta
Universidade de Pernambuco (UPE), Campus Petrolina
BR 203, km 2, S/N
Vila Eduardo
56328903 - Petrolina, PE- Brasil.
_______________________________________________
R-br mailing list
[hidden email]
https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br
Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.

_______________________________________________
R-br mailing list
[hidden email]
https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br
Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forne�a c�digo m�nimo reproduz�vel.