[R-br] Aplicação de métodos de dados faltantes no ambiente R

classic Classic list List threaded Threaded
3 messages Options
Reply | Threaded
Open this post in threaded view
|

[R-br] Aplicação de métodos de dados faltantes no ambiente R

R-br mailing list
<quote author='R-br mailing list'>
Boa tarde Prezados.

Estou a tratar dados experimentais em excel, sendo que alguns dados estão
em falta em relação a algumas variáveis e objetos (entradas em Excel).

Vou realizar a análise multivariada com dados de uma planilha (40 objetos
versus 24 colunas de dados), mas antes, eu tenho que prever os dados em
falta de algumas células.

Por gentileza alguém teria recomendação de script no R com a implementação
dos métodos?

- Método do algoritmo E-M (Expectativa-Maximização) que pressupõe a
normalidade dos dados referentes às variáveis de resposta

e

- Modelo de regressão logística. A equação gerada permitiria estimar os
valores dos dados perdidos. Não assume uma distribuição normal das
variáveis de resposta. Ao contrário da regressão linear cujos dados variam
de - ∞ a + ∞, na regressão logística eles variam de 0 a 1 e, portanto, são
apropriados para variáveis cujos valores variam de 0 a 1.

Em vista do exposto, alguém poderia me ajudar ou recomendar alguém que
saiba implementar esses métodos no R?


Grato pela atenção.

Obrigado

_______________________________________________
R-br mailing list
[hidden email]
https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br
Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forne�a c�digo
m�nimo reproduz�vel.
</quote>
Quoted from:
http://r-br.2285057.n4.nabble.com/R-br-Aplicacao-de-metodos-de-dados-faltantes-no-ambiente-R-tp4668543.html


Dê uma olhada nesse post...
https://towardsdatascience.com/6-different-ways-to-compensate-for-missing-values-data-imputation-with-examples-6022d9ca0779

_____________________________________
Sent from http://r-br.2285057.n4.nabble.com

_______________________________________________
R-br mailing list
[hidden email]
https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br
Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e fornea cdigo mnimo reproduzvel.
Reply | Threaded
Open this post in threaded view
|

Re: [R-br] Aplicação de métodos de dados faltantes no ambiente R

R-br mailing list
Rapaz!

Com 24 variáveis e apenas 40 objetos, que entendo aqui como número de dados, amostras ou "linhas" do banco de dados, você se arrisca a fazer um sobreajuste (overfitting)¹ e não uma análise estatística!

Ademais, com dados faltantes em alguns casos você ainda vai uma nova questão do que esses dados imputados poderia significar se essa for a saída encontrada ou se a alternativa for descartar casos com dados faltantes. . .

HTH
--
Cesar Rabak

[1] V. também a respeito da "one in ten rule", embora o número dez pode precisar ser maior como no seu caso que além de multivariada tem dados faltantes.


On Wed, May 29, 2019 at 2:06 PM Caio Correa por (R-br) <[hidden email]> wrote:
<quote author='R-br mailing list'>
Boa tarde Prezados.

Estou a tratar dados experimentais em excel, sendo que alguns dados estão
em falta em relação a algumas variáveis e objetos (entradas em Excel).

Vou realizar a análise multivariada com dados de uma planilha (40 objetos
versus 24 colunas de dados), mas antes, eu tenho que prever os dados em
falta de algumas células.

Por gentileza alguém teria recomendação de script no R com a implementação
dos métodos?

- Método do algoritmo E-M (Expectativa-Maximização) que pressupõe a
normalidade dos dados referentes às variáveis de resposta

e

- Modelo de regressão logística. A equação gerada permitiria estimar os
valores dos dados perdidos. Não assume uma distribuição normal das
variáveis de resposta. Ao contrário da regressão linear cujos dados variam
de - ∞ a + ∞, na regressão logística eles variam de 0 a 1 e, portanto, são
apropriados para variáveis cujos valores variam de 0 a 1.

Em vista do exposto, alguém poderia me ajudar ou recomendar alguém que
saiba implementar esses métodos no R?


Grato pela atenção.

Obrigado

_______________________________________________
R-br mailing list
[hidden email]
https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br
Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forne�a c�digo
m�nimo reproduz�vel.
</quote>
Quoted from:
http://r-br.2285057.n4.nabble.com/R-br-Aplicacao-de-metodos-de-dados-faltantes-no-ambiente-R-tp4668543.html


Dê uma olhada nesse post...
https://towardsdatascience.com/6-different-ways-to-compensate-for-missing-values-data-imputation-with-examples-6022d9ca0779

_____________________________________
Sent from http://r-br.2285057.n4.nabble.com

_______________________________________________
R-br mailing list
[hidden email]
https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br
Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e fornea cdigo mnimo reproduzvel.

_______________________________________________
R-br mailing list
[hidden email]
https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br
Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forne�a c�digo m�nimo reproduz�vel.
Reply | Threaded
Open this post in threaded view
|

Re: [R-br] Aplicação de métodos de dados faltantes no ambiente R

R-br mailing list
In reply to this post by R-br mailing list
dá uma olhada nesse pacote pra ver se te serve.

install.packages("mice")
library("mice")

Pedro Brasil


Em qua, 29 de mai de 2019 às 14:06, Caio Correa por (R-br) <[hidden email]> escreveu:
<quote author='R-br mailing list'>
Boa tarde Prezados.

Estou a tratar dados experimentais em excel, sendo que alguns dados estão
em falta em relação a algumas variáveis e objetos (entradas em Excel).

Vou realizar a análise multivariada com dados de uma planilha (40 objetos
versus 24 colunas de dados), mas antes, eu tenho que prever os dados em
falta de algumas células.

Por gentileza alguém teria recomendação de script no R com a implementação
dos métodos?

- Método do algoritmo E-M (Expectativa-Maximização) que pressupõe a
normalidade dos dados referentes às variáveis de resposta

e

- Modelo de regressão logística. A equação gerada permitiria estimar os
valores dos dados perdidos. Não assume uma distribuição normal das
variáveis de resposta. Ao contrário da regressão linear cujos dados variam
de - ∞ a + ∞, na regressão logística eles variam de 0 a 1 e, portanto, são
apropriados para variáveis cujos valores variam de 0 a 1.

Em vista do exposto, alguém poderia me ajudar ou recomendar alguém que
saiba implementar esses métodos no R?


Grato pela atenção.

Obrigado

_______________________________________________
R-br mailing list
[hidden email]
https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br
Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forne�a c�digo
m�nimo reproduz�vel.
</quote>
Quoted from:
http://r-br.2285057.n4.nabble.com/R-br-Aplicacao-de-metodos-de-dados-faltantes-no-ambiente-R-tp4668543.html


Dê uma olhada nesse post...
https://towardsdatascience.com/6-different-ways-to-compensate-for-missing-values-data-imputation-with-examples-6022d9ca0779

_____________________________________
Sent from http://r-br.2285057.n4.nabble.com

_______________________________________________
R-br mailing list
[hidden email]
https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br
Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e fornea cdigo mnimo reproduzvel.

_______________________________________________
R-br mailing list
[hidden email]
https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br
Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forne�a c�digo m�nimo reproduz�vel.