[R-br] Análise de amostra pequena

classic Classic list List threaded Threaded
4 messages Options
Reply | Threaded
Open this post in threaded view
|

[R-br] Análise de amostra pequena

R-br mailing list
Prezados

Tenho uma amostra pequena com apenas 17 registros, e 7 variáveis dicotômicas, cujo resumo é:

 A      B      C      D      E      F      G     
 0: 7   0:10   0: 6   0:11   0: 2   0: 1   0:15  
 1:10   1: 7   1:11   1: 6   1:15   1:16   1: 2 

A variável G seria meu desfecho e o resto possíveis preditores

Para veficiar a associação entre o desfecho e as outras variáveisexecutei o teste exato de fisher por ser uma amostra pequena, mas o resutados mostraram que o desfecho não depende de nenhuma variável:

> fisher.test(data.to.work$G, data.to.work$A)

	Fisher's Exact Test for Count Data

data:  data.to.work$G and data.to.work$A
p-value = 0.4853
alternative hypothesis: true odds ratio is not equal to 1
95 percent confidence interval:
 0.1311443       Inf
sample estimates:
odds ratio 
       Inf 

> fisher.test(data.to.work$G, data.to.work$B)

	Fisher's Exact Test for Count Data

data:  data.to.work$G and data.to.work$B
p-value = 0.4853
alternative hypothesis: true odds ratio is not equal to 1
95 percent confidence interval:
 0.000000 7.625189
sample estimates:
odds ratio 
         0 

> fisher.test(data.to.work$G, data.to.work$C)

	Fisher's Exact Test for Count Data

data:  data.to.work$G and data.to.work$C
p-value = 0.5147
alternative hypothesis: true odds ratio is not equal to 1
95 percent confidence interval:
 0.1003871       Inf
sample estimates:
odds ratio 
       Inf 

> fisher.test(data.to.work$G, data.to.work$D)

	Fisher's Exact Test for Count Data

data:  data.to.work$G and data.to.work$D
p-value = 0.5147
alternative hypothesis: true odds ratio is not equal to 1
95 percent confidence interval:
 0.00000 9.96144
sample estimates:
odds ratio 
         0 

> fisher.test(data.to.work$G, data.to.work$E)

	Fisher's Exact Test for Count Data

data:  data.to.work$G and data.to.work$E
p-value = 1
alternative hypothesis: true odds ratio is not equal to 1
95 percent confidence interval:
 0.01971228        Inf
sample estimates:
odds ratio 
       Inf 

> fisher.test(data.to.work$G, data.to.work$F)

	Fisher's Exact Test for Count Data

data:  data.to.work$G and data.to.work$F
p-value = 1
alternative hypothesis: true odds ratio is not equal to 1
95 percent confidence interval:
 0.003434375         Inf
sample estimates:
odds ratio 
       Inf  

Em seguida calculei o V de Cramer, Coeficiente de Contingência e phi e todos mostram independência e associação fraca.

summary(assocstats(tab_cont_G_A)) # Resultado: # X^2 df P(> X^2) # Likelihood Ratio 2.3071 1 0.12878 # P-Valor > 0.05 - independentes # Pearson 1.5867 1 0.20780 # P-Valor > 0.05 - independentes # # Phi-Coefficient : 0.306 # Coef de Phi - Associação fraca # Contingency Coeff.: 0.292 # Coef de Cont - Associação fraca # Cramer's V : 0.306 # V de Crammer - Associação fraca
 
Pelo que pesquisei este seriam os métodos mais adequados para este tipo de análise

Há um método melhor para avaliar esse tipo de dado?



--
In Jesu et Maria

Obrigado
Prof. Elias Carvalho

"Felix, qui potuit rerum cognoscere causas" (Virgil 29 BC)
"Blessed is he who has been able to understand the cause of things"

_______________________________________________
R-br mailing list
[hidden email]
https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br
Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forne�a c�digo m�nimo reproduz�vel.
Reply | Threaded
Open this post in threaded view
|

Re: [R-br] Análise de amostra pequena

R-br mailing list
Elias,

Há vários possíveis comentários a fazer, embora, de antemão aviso-o, que pelo fato de você ter dezessete casos apenas, não há muito a melhorar.

  1. Calcular os coeficientes de associação quando a hipótese de independência não pode ser descartada tende a ser um exercício equivalente a tentar ler folhas de chá numa xícara após a merenda;
  2. Ao você fazer múltiplas comparações nos mesmos dados você ainda teria que fazer uma correção para assegurar que seu Erro Tipo I não seria inflacionado;
  3. A alternativa de fazer um omnibus test, por exemplo via uma regressão logística com G como desfecho e as outras como VI, esbarra no fato de que se precisaria muito mais casos¹.
Então no seu caso a única coisa que a Estatística o autorizaria é dizer que as hipóteses de independências não podem ser descartadas e que devido ao tamanho da amostra mais nada pode ser dito (do ponto de vista de inferência).

Com o conhecimento do domínio do problema e a Descritiva você pode especular mais um pouco, mas irremediavelmente teria que propor um estudo com maior potências estatística se quiser alguma constatação do fenômeno que está estudando.


HTH
--
Cesar Rabak
 

[1] A discussão sobre assunto é vasta com concordância apenas que é "um problema complexo", mas para colocar a bola em campo, Peduzzi et al. 1996, costuma ser citado como melhor referência. A fórmula seria N = 10∙k / p; N :: mínimo tamanho da amostra, k :: número de covariáveis; p :: mínimo da proporção casos ou não casos.


Peduzzi P, Concato J, Kemper E, Holford TR, Feinstein AR (1996) A simulation study of the number of events per variable in logistic regression analysis. Journal of Clinical Epidemiology 49:1373-1379.

On Tue, Jul 10, 2018 at 8:38 PM, Elias Carvalho via R-br <[hidden email]> wrote:
Prezados

Tenho uma amostra pequena com apenas 17 registros, e 7 variáveis dicotômicas, cujo resumo é:

 A      B      C      D      E      F      G     
 0: 7   0:10   0: 6   0:11   0: 2   0: 1   0:15  
 1:10   1: 7   1:11   1: 6   1:15   1:16   1: 2 

A variável G seria meu desfecho e o resto possíveis preditores

Para veficiar a associação entre o desfecho e as outras variáveisexecutei o teste exato de fisher por ser uma amostra pequena, mas o resutados mostraram que o desfecho não depende de nenhuma variável:

> fisher.test(data.to.work$G, data.to.work$A)

	Fisher's Exact Test for Count Data

data:  data.to.work$G and data.to.work$A
p-value = 0.4853
alternative hypothesis: true odds ratio is not equal to 1
95 percent confidence interval:
 0.1311443       Inf
sample estimates:
odds ratio 
       Inf 

> fisher.test(data.to.work$G, data.to.work$B)

	Fisher's Exact Test for Count Data

data:  data.to.work$G and data.to.work$B
p-value = 0.4853
alternative hypothesis: true odds ratio is not equal to 1
95 percent confidence interval:
 0.000000 7.625189
sample estimates:
odds ratio 
         0 

> fisher.test(data.to.work$G, data.to.work$C)

	Fisher's Exact Test for Count Data

data:  data.to.work$G and data.to.work$C
p-value = 0.5147
alternative hypothesis: true odds ratio is not equal to 1
95 percent confidence interval:
 0.1003871       Inf
sample estimates:
odds ratio 
       Inf 

> fisher.test(data.to.work$G, data.to.work$D)

	Fisher's Exact Test for Count Data

data:  data.to.work$G and data.to.work$D
p-value = 0.5147
alternative hypothesis: true odds ratio is not equal to 1
95 percent confidence interval:
 0.00000 9.96144
sample estimates:
odds ratio 
         0 

> fisher.test(data.to.work$G, data.to.work$E)

	Fisher's Exact Test for Count Data

data:  data.to.work$G and data.to.work$E
p-value = 1
alternative hypothesis: true odds ratio is not equal to 1
95 percent confidence interval:
 0.01971228        Inf
sample estimates:
odds ratio 
       Inf 

> fisher.test(data.to.work$G, data.to.work$F)

	Fisher's Exact Test for Count Data

data:  data.to.work$G and data.to.work$F
p-value = 1
alternative hypothesis: true odds ratio is not equal to 1
95 percent confidence interval:
 0.003434375         Inf
sample estimates:
odds ratio 
       Inf  

Em seguida calculei o V de Cramer, Coeficiente de Contingência e phi e todos mostram independência e associação fraca.

summary(assocstats(tab_cont_G_A)) # Resultado: # X^2 df P(> X^2) # Likelihood Ratio 2.3071 1 0.12878 # P-Valor > 0.05 - independentes # Pearson 1.5867 1 0.20780 # P-Valor > 0.05 - independentes # # Phi-Coefficient : 0.306 # Coef de Phi - Associação fraca # Contingency Coeff.: 0.292 # Coef de Cont - Associação fraca # Cramer's V : 0.306 # V de Crammer - Associação fraca
 
Pelo que pesquisei este seriam os métodos mais adequados para este tipo de análise

Há um método melhor para avaliar esse tipo de dado?



--
In Jesu et Maria

Obrigado
Prof. Elias Carvalho

"Felix, qui potuit rerum cognoscere causas" (Virgil 29 BC)
"Blessed is he who has been able to understand the cause of things"

_______________________________________________
R-br mailing list
[hidden email]
https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br
Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.


_______________________________________________
R-br mailing list
[hidden email]
https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br
Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forne�a c�digo m�nimo reproduz�vel.
Reply | Threaded
Open this post in threaded view
|

Re: [R-br] Análise de amostra pequena

R-br mailing list
Caro César, obrigado pela didática resposta.

Como se diz por ai, eu concordo em numéro, gênero e grau com você, no entanto busco por alternativas seria viável usar alguma técnica de oversampling para aumentar a amostra?




Em qua, 11 de jul de 2018 às 09:27, Cesar Rabak <[hidden email]> escreveu:
Elias,

Há vários possíveis comentários a fazer, embora, de antemão aviso-o, que pelo fato de você ter dezessete casos apenas, não há muito a melhorar.

  1. Calcular os coeficientes de associação quando a hipótese de independência não pode ser descartada tende a ser um exercício equivalente a tentar ler folhas de chá numa xícara após a merenda;
  2. Ao você fazer múltiplas comparações nos mesmos dados você ainda teria que fazer uma correção para assegurar que seu Erro Tipo I não seria inflacionado;
  3. A alternativa de fazer um omnibus test, por exemplo via uma regressão logística com G como desfecho e as outras como VI, esbarra no fato de que se precisaria muito mais casos¹.
Então no seu caso a única coisa que a Estatística o autorizaria é dizer que as hipóteses de independências não podem ser descartadas e que devido ao tamanho da amostra mais nada pode ser dito (do ponto de vista de inferência).

Com o conhecimento do domínio do problema e a Descritiva você pode especular mais um pouco, mas irremediavelmente teria que propor um estudo com maior potências estatística se quiser alguma constatação do fenômeno que está estudando.


HTH
--
Cesar Rabak
 

[1] A discussão sobre assunto é vasta com concordância apenas que é "um problema complexo", mas para colocar a bola em campo, Peduzzi et al. 1996, costuma ser citado como melhor referência. A fórmula seria N = 10∙k / p; N :: mínimo tamanho da amostra, k :: número de covariáveis; p :: mínimo da proporção casos ou não casos.


Peduzzi P, Concato J, Kemper E, Holford TR, Feinstein AR (1996) A simulation study of the number of events per variable in logistic regression analysis. Journal of Clinical Epidemiology 49:1373-1379.

On Tue, Jul 10, 2018 at 8:38 PM, Elias Carvalho via R-br <[hidden email]> wrote:
Prezados

Tenho uma amostra pequena com apenas 17 registros, e 7 variáveis dicotômicas, cujo resumo é:

 A      B      C      D      E      F      G     
 0: 7   0:10   0: 6   0:11   0: 2   0: 1   0:15  
 1:10   1: 7   1:11   1: 6   1:15   1:16   1: 2 

A variável G seria meu desfecho e o resto possíveis preditores

Para veficiar a associação entre o desfecho e as outras variáveisexecutei o teste exato de fisher por ser uma amostra pequena, mas o resutados mostraram que o desfecho não depende de nenhuma variável:

> fisher.test(data.to.work$G, data.to.work$A)

	Fisher's Exact Test for Count Data

data:  data.to.work$G and data.to.work$A
p-value = 0.4853
alternative hypothesis: true odds ratio is not equal to 1
95 percent confidence interval:
 0.1311443       Inf
sample estimates:
odds ratio 
       Inf 

> fisher.test(data.to.work$G, data.to.work$B)

	Fisher's Exact Test for Count Data

data:  data.to.work$G and data.to.work$B
p-value = 0.4853
alternative hypothesis: true odds ratio is not equal to 1
95 percent confidence interval:
 0.000000 7.625189
sample estimates:
odds ratio 
         0 

> fisher.test(data.to.work$G, data.to.work$C)

	Fisher's Exact Test for Count Data

data:  data.to.work$G and data.to.work$C
p-value = 0.5147
alternative hypothesis: true odds ratio is not equal to 1
95 percent confidence interval:
 0.1003871       Inf
sample estimates:
odds ratio 
       Inf 

> fisher.test(data.to.work$G, data.to.work$D)

	Fisher's Exact Test for Count Data

data:  data.to.work$G and data.to.work$D
p-value = 0.5147
alternative hypothesis: true odds ratio is not equal to 1
95 percent confidence interval:
 0.00000 9.96144
sample estimates:
odds ratio 
         0 

> fisher.test(data.to.work$G, data.to.work$E)

	Fisher's Exact Test for Count Data

data:  data.to.work$G and data.to.work$E
p-value = 1
alternative hypothesis: true odds ratio is not equal to 1
95 percent confidence interval:
 0.01971228        Inf
sample estimates:
odds ratio 
       Inf 

> fisher.test(data.to.work$G, data.to.work$F)

	Fisher's Exact Test for Count Data

data:  data.to.work$G and data.to.work$F
p-value = 1
alternative hypothesis: true odds ratio is not equal to 1
95 percent confidence interval:
 0.003434375         Inf
sample estimates:
odds ratio 
       Inf  

Em seguida calculei o V de Cramer, Coeficiente de Contingência e phi e todos mostram independência e associação fraca.

summary(assocstats(tab_cont_G_A)) # Resultado: # X^2 df P(> X^2) # Likelihood Ratio 2.3071 1 0.12878 # P-Valor > 0.05 - independentes # Pearson 1.5867 1 0.20780 # P-Valor > 0.05 - independentes # # Phi-Coefficient : 0.306 # Coef de Phi - Associação fraca # Contingency Coeff.: 0.292 # Coef de Cont - Associação fraca # Cramer's V : 0.306 # V de Crammer - Associação fraca
 
Pelo que pesquisei este seriam os métodos mais adequados para este tipo de análise

Há um método melhor para avaliar esse tipo de dado?



--
In Jesu et Maria

Obrigado
Prof. Elias Carvalho

"Felix, qui potuit rerum cognoscere causas" (Virgil 29 BC)
"Blessed is he who has been able to understand the cause of things"

_______________________________________________
R-br mailing list
[hidden email]
https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br
Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.



--
In Jesu et Maria

Obrigado
Prof. Elias Carvalho

"Felix, qui potuit rerum cognoscere causas" (Virgil 29 BC)
"Blessed is he who has been able to understand the cause of things"

_______________________________________________
R-br mailing list
[hidden email]
https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br
Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forne�a c�digo m�nimo reproduz�vel.
Reply | Threaded
Open this post in threaded view
|

Re: [R-br] Análise de amostra pequena

R-br mailing list
Elias, não consigo ver como você poderia usar qualquer técnica para obter mais informação a respeito do fenômeno em questão usando esses artifícios, como o que você citou e outro muito em voga o bootstraping, etc.

Nesses casos, o melhor a fazer é tentar identificar apenas via a estatística descritiva se o que se observa vale a pena investir em amostra maior...


2018-07-15 21:42 GMT-03:00 Elias Carvalho via R-br <[hidden email]>:
Caro César, obrigado pela didática resposta.

Como se diz por ai, eu concordo em numéro, gênero e grau com você, no entanto busco por alternativas seria viável usar alguma técnica de oversampling para aumentar a amostra?




Em qua, 11 de jul de 2018 às 09:27, Cesar Rabak <[hidden email]> escreveu:
Elias,

Há vários possíveis comentários a fazer, embora, de antemão aviso-o, que pelo fato de você ter dezessete casos apenas, não há muito a melhorar.

  1. Calcular os coeficientes de associação quando a hipótese de independência não pode ser descartada tende a ser um exercício equivalente a tentar ler folhas de chá numa xícara após a merenda;
  2. Ao você fazer múltiplas comparações nos mesmos dados você ainda teria que fazer uma correção para assegurar que seu Erro Tipo I não seria inflacionado;
  3. A alternativa de fazer um omnibus test, por exemplo via uma regressão logística com G como desfecho e as outras como VI, esbarra no fato de que se precisaria muito mais casos¹.
Então no seu caso a única coisa que a Estatística o autorizaria é dizer que as hipóteses de independências não podem ser descartadas e que devido ao tamanho da amostra mais nada pode ser dito (do ponto de vista de inferência).

Com o conhecimento do domínio do problema e a Descritiva você pode especular mais um pouco, mas irremediavelmente teria que propor um estudo com maior potências estatística se quiser alguma constatação do fenômeno que está estudando.


HTH
--
Cesar Rabak
 

[1] A discussão sobre assunto é vasta com concordância apenas que é "um problema complexo", mas para colocar a bola em campo, Peduzzi et al. 1996, costuma ser citado como melhor referência. A fórmula seria N = 10∙k / p; N :: mínimo tamanho da amostra, k :: número de covariáveis; p :: mínimo da proporção casos ou não casos.


Peduzzi P, Concato J, Kemper E, Holford TR, Feinstein AR (1996) A simulation study of the number of events per variable in logistic regression analysis. Journal of Clinical Epidemiology 49:1373-1379.

On Tue, Jul 10, 2018 at 8:38 PM, Elias Carvalho via R-br <[hidden email]> wrote:
Prezados

Tenho uma amostra pequena com apenas 17 registros, e 7 variáveis dicotômicas, cujo resumo é:

 A      B      C      D      E      F      G     
 0: 7   0:10   0: 6   0:11   0: 2   0: 1   0:15  
 1:10   1: 7   1:11   1: 6   1:15   1:16   1: 2 

A variável G seria meu desfecho e o resto possíveis preditores

Para veficiar a associação entre o desfecho e as outras variáveisexecutei o teste exato de fisher por ser uma amostra pequena, mas o resutados mostraram que o desfecho não depende de nenhuma variável:

> fisher.test(data.to.work$G, data.to.work$A)

	Fisher's Exact Test for Count Data

data:  data.to.work$G and data.to.work$A
p-value = 0.4853
alternative hypothesis: true odds ratio is not equal to 1
95 percent confidence interval:
 0.1311443       Inf
sample estimates:
odds ratio 
       Inf 

> fisher.test(data.to.work$G, data.to.work$B)

	Fisher's Exact Test for Count Data

data:  data.to.work$G and data.to.work$B
p-value = 0.4853
alternative hypothesis: true odds ratio is not equal to 1
95 percent confidence interval:
 0.000000 7.625189
sample estimates:
odds ratio 
         0 

> fisher.test(data.to.work$G, data.to.work$C)

	Fisher's Exact Test for Count Data

data:  data.to.work$G and data.to.work$C
p-value = 0.5147
alternative hypothesis: true odds ratio is not equal to 1
95 percent confidence interval:
 0.1003871       Inf
sample estimates:
odds ratio 
       Inf 

> fisher.test(data.to.work$G, data.to.work$D)

	Fisher's Exact Test for Count Data

data:  data.to.work$G and data.to.work$D
p-value = 0.5147
alternative hypothesis: true odds ratio is not equal to 1
95 percent confidence interval:
 0.00000 9.96144
sample estimates:
odds ratio 
         0 

> fisher.test(data.to.work$G, data.to.work$E)

	Fisher's Exact Test for Count Data

data:  data.to.work$G and data.to.work$E
p-value = 1
alternative hypothesis: true odds ratio is not equal to 1
95 percent confidence interval:
 0.01971228        Inf
sample estimates:
odds ratio 
       Inf 

> fisher.test(data.to.work$G, data.to.work$F)

	Fisher's Exact Test for Count Data

data:  data.to.work$G and data.to.work$F
p-value = 1
alternative hypothesis: true odds ratio is not equal to 1
95 percent confidence interval:
 0.003434375         Inf
sample estimates:
odds ratio 
       Inf  

Em seguida calculei o V de Cramer, Coeficiente de Contingência e phi e todos mostram independência e associação fraca.

summary(assocstats(tab_cont_G_A)) # Resultado: # X^2 df P(> X^2) # Likelihood Ratio 2.3071 1 0.12878 # P-Valor > 0.05 - independentes # Pearson 1.5867 1 0.20780 # P-Valor > 0.05 - independentes # # Phi-Coefficient : 0.306 # Coef de Phi - Associação fraca # Contingency Coeff.: 0.292 # Coef de Cont - Associação fraca # Cramer's V : 0.306 # V de Crammer - Associação fraca
 
Pelo que pesquisei este seriam os métodos mais adequados para este tipo de análise

Há um método melhor para avaliar esse tipo de dado?



--
In Jesu et Maria

Obrigado
Prof. Elias Carvalho

"Felix, qui potuit rerum cognoscere causas" (Virgil 29 BC)
"Blessed is he who has been able to understand the cause of things"

_______________________________________________
R-br mailing list
[hidden email]
https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br
Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.



--
In Jesu et Maria

Obrigado
Prof. Elias Carvalho

"Felix, qui potuit rerum cognoscere causas" (Virgil 29 BC)
"Blessed is he who has been able to understand the cause of things"

_______________________________________________
R-br mailing list
[hidden email]
https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br
Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.


_______________________________________________
R-br mailing list
[hidden email]
https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br
Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forne�a c�digo m�nimo reproduz�vel.