[R-br] Problema criar colunas: socorro!

classic Classic list List threaded Threaded
4 messages Options
Reply | Threaded
Open this post in threaded view
|

[R-br] Problema criar colunas: socorro!

R-br mailing list

Prezados:

Trabalho um banco de dados com mais de 10000 linhas, representado pelo exemplo abaixo.

PROCESSO DATA_DISTRIBUICAO NOME_PARTE DATA_CRIME DATA_DENUNCIA ENQUADRAMENTO
180022121 02/01/2018 A_NONIMATO 02/01/2018 02/01/2018 ART.33 PAR.CAPUT - 11.343/06
180022121 02/01/2018 B_NONIMATO 02/01/2018 02/01/2018 ART.33 PAR.CAPUT - 11.343/06
180022105 02/01/2018 C_NONIMATO 01/01/2018 02/01/2018 ART.35 - 11343/06
180022105 02/01/2018 C_NONIMATO 01/01/2018 02/01/2018 ART.33 - 11343/06
180022097 02/01/2018 D_NONIMATO 01/01/2018 02/01/2018 ART.155 PAR. 4º INC. II E IV - CPB
180022097 02/01/2018 E_NONIMATO 01/01/2018 02/01/2018 ART.155 PAR.4º INC.II E IV - CPB
180022097 02/01/2018 F_NONIMATO 01/01/2018 02/01/2018 ART.155 PAR. 4º INC. II E IV - CPB
180022501 03/01/2018 G_NONIMATO 02/01/2018 03/01/2018 ART.157 PAR.2 INC.I E II - CP
180022501 03/01/2018 G_NONIMATO 02/01/2018 03/01/2018 ART.14 - CP

Hipóteses:

a) mesmo PROCESSO, NOME_PARTE diferentes, ENQUADRAMENTO igual (linhas 1 e 2)

b) mesmo PROCESSO, mesmo NOME_PARTE, ENQUADRAMENTO diferentes (linhas 3 e 4)

c) mesmo PROCESSO, mesmo NOME_PARTE, ENQUADRAMENTO diferentes (linhas 8 e 9)

Minha questão se refere à hipótese c: preciso criar um coluna (enquadramento2) para transferir o art. 14 transformando o caso em apenas uma linha… sem que se mexa na hipótese b. Em todo o banco sempre estará escrito ART.14 – CP.

Para ficar assim:

PROCESSO DATA_DISTRIBUICAO NOME_PARTE DATA_CRIME DATA_DENUNCIA ENQUADRAMENTO ENQUADRAMENTO2
180022121 02/01/2018 A_NONIMATO 02/01/2018 02/01/2018 ART.33 PAR.CAPUT - 11.343/06
180022121 02/01/2018 B_NONIMATO 02/01/2018 02/01/2018 ART.33 PAR.CAPUT - 11.343/06
180022105 02/01/2018 C_NONIMATO 01/01/2018 02/01/2018 ART.35 - 11343/06
180022105 02/01/2018 C_NONIMATO 01/01/2018 02/01/2018 ART.33 - 11343/06
180022097 02/01/2018 D_NONIMATO 01/01/2018 02/01/2018 ART.155 PAR. 4º INC. II E IV - CPB
180022097 02/01/2018 E_NONIMATO 01/01/2018 02/01/2018 ART.155 PAR.4º INC.II E IV - CPB
180022097 02/01/2018 F_NONIMATO 01/01/2018 02/01/2018 ART.155 PAR. 4º INC. II E IV - CPB
180022501 03/01/2018 G_NONIMATO 02/01/2018 03/01/2018 ART.157 PAR.2 INC.I E II - CP ART.14 - CP

Obrigado.





_______________________________________________
R-br mailing list
[hidden email]
https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br
Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
Reply | Threaded
Open this post in threaded view
|

Re: [R-br] Problema criar colunas: socorro!

R-br mailing list
Ellerson,

SE a amostra de dados que você passou é um bom exemplo, você tem um problema anterior para resolver que é o de multiplicidade de entradas com grafia levemente diferentes. . .

Veja as linhas cinco e seis do seu exemplo que o enquadramento, embora igual do ponto de vista legal, está escrito de forma levemente diferente e faria qualquer script (aliás, em qualquer linguagem, não só no R) entrar em parafuso 😶. . .

Há vários autores que dizem que a preparação e "limpeza" dos dados leva 80% do tempo de análise dos dados...

Para atingir teus objetivos precisarás fazer uma busca no seu BD pela cadeia de caracteres que contenha o "ART. 14 - CP" e a partir dessa lista auxiliar ir eliminando as linhas e incluir numa nova coluna nos número de processo correspondentes.

HTH
--
Cesar Rabak


On Sat, Aug 31, 2019 at 12:29 PM Elerson por (R-br) <[hidden email]> wrote:

Prezados:

Trabalho um banco de dados com mais de 10000 linhas, representado pelo exemplo abaixo.

PROCESSO DATA_DISTRIBUICAO NOME_PARTE DATA_CRIME DATA_DENUNCIA ENQUADRAMENTO
180022121 02/01/2018 A_NONIMATO 02/01/2018 02/01/2018 ART.33 PAR.CAPUT - 11.343/06
180022121 02/01/2018 B_NONIMATO 02/01/2018 02/01/2018 ART.33 PAR.CAPUT - 11.343/06
180022105 02/01/2018 C_NONIMATO 01/01/2018 02/01/2018 ART.35 - 11343/06
180022105 02/01/2018 C_NONIMATO 01/01/2018 02/01/2018 ART.33 - 11343/06
180022097 02/01/2018 D_NONIMATO 01/01/2018 02/01/2018 ART.155 PAR. 4º INC. II E IV - CPB
180022097 02/01/2018 E_NONIMATO 01/01/2018 02/01/2018 ART.155 PAR.4º INC.II E IV - CPB
180022097 02/01/2018 F_NONIMATO 01/01/2018 02/01/2018 ART.155 PAR. 4º INC. II E IV - CPB
180022501 03/01/2018 G_NONIMATO 02/01/2018 03/01/2018 ART.157 PAR.2 INC.I E II - CP
180022501 03/01/2018 G_NONIMATO 02/01/2018 03/01/2018 ART.14 - CP

Hipóteses:

a) mesmo PROCESSO, NOME_PARTE diferentes, ENQUADRAMENTO igual (linhas 1 e 2)

b) mesmo PROCESSO, mesmo NOME_PARTE, ENQUADRAMENTO diferentes (linhas 3 e 4)

c) mesmo PROCESSO, mesmo NOME_PARTE, ENQUADRAMENTO diferentes (linhas 8 e 9)

Minha questão se refere à hipótese c: preciso criar um coluna (enquadramento2) para transferir o art. 14 transformando o caso em apenas uma linha… sem que se mexa na hipótese b. Em todo o banco sempre estará escrito ART.14 – CP.

Para ficar assim:

PROCESSO DATA_DISTRIBUICAO NOME_PARTE DATA_CRIME DATA_DENUNCIA ENQUADRAMENTO ENQUADRAMENTO2
180022121 02/01/2018 A_NONIMATO 02/01/2018 02/01/2018 ART.33 PAR.CAPUT - 11.343/06
180022121 02/01/2018 B_NONIMATO 02/01/2018 02/01/2018 ART.33 PAR.CAPUT - 11.343/06
180022105 02/01/2018 C_NONIMATO 01/01/2018 02/01/2018 ART.35 - 11343/06
180022105 02/01/2018 C_NONIMATO 01/01/2018 02/01/2018 ART.33 - 11343/06
180022097 02/01/2018 D_NONIMATO 01/01/2018 02/01/2018 ART.155 PAR. 4º INC. II E IV - CPB
180022097 02/01/2018 E_NONIMATO 01/01/2018 02/01/2018 ART.155 PAR.4º INC.II E IV - CPB
180022097 02/01/2018 F_NONIMATO 01/01/2018 02/01/2018 ART.155 PAR. 4º INC. II E IV - CPB
180022501 03/01/2018 G_NONIMATO 02/01/2018 03/01/2018 ART.157 PAR.2 INC.I E II - CP ART.14 - CP

Obrigado.




_______________________________________________
R-br mailing list
[hidden email]
https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br
Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.

_______________________________________________
R-br mailing list
[hidden email]
https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br
Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
Reply | Threaded
Open this post in threaded view
|

Re: [R-br] Problema criar colunas: socorro!

R-br mailing list
Muito obrigado pela ajuda.

1) Entendi a importância da ”limpeza”

2) ”Para atingir teus objetivos precisarás fazer uma busca no seu BD pela cadeia de caracteres que contenha o "ART. 14 - CP" e a partir dessa lista auxiliar ir eliminando as linhas e incluir numa nova coluna nos número de processo correspondentes”

Estou sem saber que passo a passo considerar aqui...




Em dom, 1 de set de 2019 15:44, Cesar Rabak por (R-br) <[hidden email]> escreveu:
Ellerson,

SE a amostra de dados que você passou é um bom exemplo, você tem um problema anterior para resolver que é o de multiplicidade de entradas com grafia levemente diferentes. . .

Veja as linhas cinco e seis do seu exemplo que o enquadramento, embora igual do ponto de vista legal, está escrito de forma levemente diferente e faria qualquer script (aliás, em qualquer linguagem, não só no R) entrar em parafuso 😶. . .

Há vários autores que dizem que a preparação e "limpeza" dos dados leva 80% do tempo de análise dos dados...

Para atingir teus objetivos precisarás fazer uma busca no seu BD pela cadeia de caracteres que contenha o "ART. 14 - CP" e a partir dessa lista auxiliar ir eliminando as linhas e incluir numa nova coluna nos número de processo correspondentes.

HTH
--
Cesar Rabak


On Sat, Aug 31, 2019 at 12:29 PM Elerson por (R-br) <[hidden email]> wrote:

Prezados:

Trabalho um banco de dados com mais de 10000 linhas, representado pelo exemplo abaixo.

PROCESSO DATA_DISTRIBUICAO NOME_PARTE DATA_CRIME DATA_DENUNCIA ENQUADRAMENTO
180022121 02/01/2018 A_NONIMATO 02/01/2018 02/01/2018 ART.33 PAR.CAPUT - 11.343/06
180022121 02/01/2018 B_NONIMATO 02/01/2018 02/01/2018 ART.33 PAR.CAPUT - 11.343/06
180022105 02/01/2018 C_NONIMATO 01/01/2018 02/01/2018 ART.35 - 11343/06
180022105 02/01/2018 C_NONIMATO 01/01/2018 02/01/2018 ART.33 - 11343/06
180022097 02/01/2018 D_NONIMATO 01/01/2018 02/01/2018 ART.155 PAR. 4º INC. II E IV - CPB
180022097 02/01/2018 E_NONIMATO 01/01/2018 02/01/2018 ART.155 PAR.4º INC.II E IV - CPB
180022097 02/01/2018 F_NONIMATO 01/01/2018 02/01/2018 ART.155 PAR. 4º INC. II E IV - CPB
180022501 03/01/2018 G_NONIMATO 02/01/2018 03/01/2018 ART.157 PAR.2 INC.I E II - CP
180022501 03/01/2018 G_NONIMATO 02/01/2018 03/01/2018 ART.14 - CP

Hipóteses:

a) mesmo PROCESSO, NOME_PARTE diferentes, ENQUADRAMENTO igual (linhas 1 e 2)

b) mesmo PROCESSO, mesmo NOME_PARTE, ENQUADRAMENTO diferentes (linhas 3 e 4)

c) mesmo PROCESSO, mesmo NOME_PARTE, ENQUADRAMENTO diferentes (linhas 8 e 9)

Minha questão se refere à hipótese c: preciso criar um coluna (enquadramento2) para transferir o art. 14 transformando o caso em apenas uma linha… sem que se mexa na hipótese b. Em todo o banco sempre estará escrito ART.14 – CP.

Para ficar assim:

PROCESSO DATA_DISTRIBUICAO NOME_PARTE DATA_CRIME DATA_DENUNCIA ENQUADRAMENTO ENQUADRAMENTO2
180022121 02/01/2018 A_NONIMATO 02/01/2018 02/01/2018 ART.33 PAR.CAPUT - 11.343/06
180022121 02/01/2018 B_NONIMATO 02/01/2018 02/01/2018 ART.33 PAR.CAPUT - 11.343/06
180022105 02/01/2018 C_NONIMATO 01/01/2018 02/01/2018 ART.35 - 11343/06
180022105 02/01/2018 C_NONIMATO 01/01/2018 02/01/2018 ART.33 - 11343/06
180022097 02/01/2018 D_NONIMATO 01/01/2018 02/01/2018 ART.155 PAR. 4º INC. II E IV - CPB
180022097 02/01/2018 E_NONIMATO 01/01/2018 02/01/2018 ART.155 PAR.4º INC.II E IV - CPB
180022097 02/01/2018 F_NONIMATO 01/01/2018 02/01/2018 ART.155 PAR. 4º INC. II E IV - CPB
180022501 03/01/2018 G_NONIMATO 02/01/2018 03/01/2018 ART.157 PAR.2 INC.I E II - CP ART.14 - CP

Obrigado.




_______________________________________________
R-br mailing list
[hidden email]
https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br
Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
_______________________________________________
R-br mailing list
[hidden email]
https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br
Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.

_______________________________________________
R-br mailing list
[hidden email]
https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br
Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
Reply | Threaded
Open this post in threaded view
|

Re: [R-br] Problema criar colunas: socorro!

R-br mailing list
Dê uma olhada na documentação de grep().

On Sun, Sep 1, 2019 at 10:43 PM Amiko Bh por (R-br) <[hidden email]> wrote:
Muito obrigado pela ajuda.

1) Entendi a importância da ”limpeza”

2) ”Para atingir teus objetivos precisarás fazer uma busca no seu BD pela cadeia de caracteres que contenha o "ART. 14 - CP" e a partir dessa lista auxiliar ir eliminando as linhas e incluir numa nova coluna nos número de processo correspondentes”

Estou sem saber que passo a passo considerar aqui...




Em dom, 1 de set de 2019 15:44, Cesar Rabak por (R-br) <[hidden email]> escreveu:
Ellerson,

SE a amostra de dados que você passou é um bom exemplo, você tem um problema anterior para resolver que é o de multiplicidade de entradas com grafia levemente diferentes. . .

Veja as linhas cinco e seis do seu exemplo que o enquadramento, embora igual do ponto de vista legal, está escrito de forma levemente diferente e faria qualquer script (aliás, em qualquer linguagem, não só no R) entrar em parafuso 😶. . .

Há vários autores que dizem que a preparação e "limpeza" dos dados leva 80% do tempo de análise dos dados...

Para atingir teus objetivos precisarás fazer uma busca no seu BD pela cadeia de caracteres que contenha o "ART. 14 - CP" e a partir dessa lista auxiliar ir eliminando as linhas e incluir numa nova coluna nos número de processo correspondentes.

HTH
--
Cesar Rabak


On Sat, Aug 31, 2019 at 12:29 PM Elerson por (R-br) <[hidden email]> wrote:

Prezados:

Trabalho um banco de dados com mais de 10000 linhas, representado pelo exemplo abaixo.

PROCESSO DATA_DISTRIBUICAO NOME_PARTE DATA_CRIME DATA_DENUNCIA ENQUADRAMENTO
180022121 02/01/2018 A_NONIMATO 02/01/2018 02/01/2018 ART.33 PAR.CAPUT - 11.343/06
180022121 02/01/2018 B_NONIMATO 02/01/2018 02/01/2018 ART.33 PAR.CAPUT - 11.343/06
180022105 02/01/2018 C_NONIMATO 01/01/2018 02/01/2018 ART.35 - 11343/06
180022105 02/01/2018 C_NONIMATO 01/01/2018 02/01/2018 ART.33 - 11343/06
180022097 02/01/2018 D_NONIMATO 01/01/2018 02/01/2018 ART.155 PAR. 4º INC. II E IV - CPB
180022097 02/01/2018 E_NONIMATO 01/01/2018 02/01/2018 ART.155 PAR.4º INC.II E IV - CPB
180022097 02/01/2018 F_NONIMATO 01/01/2018 02/01/2018 ART.155 PAR. 4º INC. II E IV - CPB
180022501 03/01/2018 G_NONIMATO 02/01/2018 03/01/2018 ART.157 PAR.2 INC.I E II - CP
180022501 03/01/2018 G_NONIMATO 02/01/2018 03/01/2018 ART.14 - CP

Hipóteses:

a) mesmo PROCESSO, NOME_PARTE diferentes, ENQUADRAMENTO igual (linhas 1 e 2)

b) mesmo PROCESSO, mesmo NOME_PARTE, ENQUADRAMENTO diferentes (linhas 3 e 4)

c) mesmo PROCESSO, mesmo NOME_PARTE, ENQUADRAMENTO diferentes (linhas 8 e 9)

Minha questão se refere à hipótese c: preciso criar um coluna (enquadramento2) para transferir o art. 14 transformando o caso em apenas uma linha… sem que se mexa na hipótese b. Em todo o banco sempre estará escrito ART.14 – CP.

Para ficar assim:

PROCESSO DATA_DISTRIBUICAO NOME_PARTE DATA_CRIME DATA_DENUNCIA ENQUADRAMENTO ENQUADRAMENTO2
180022121 02/01/2018 A_NONIMATO 02/01/2018 02/01/2018 ART.33 PAR.CAPUT - 11.343/06
180022121 02/01/2018 B_NONIMATO 02/01/2018 02/01/2018 ART.33 PAR.CAPUT - 11.343/06
180022105 02/01/2018 C_NONIMATO 01/01/2018 02/01/2018 ART.35 - 11343/06
180022105 02/01/2018 C_NONIMATO 01/01/2018 02/01/2018 ART.33 - 11343/06
180022097 02/01/2018 D_NONIMATO 01/01/2018 02/01/2018 ART.155 PAR. 4º INC. II E IV - CPB
180022097 02/01/2018 E_NONIMATO 01/01/2018 02/01/2018 ART.155 PAR.4º INC.II E IV - CPB
180022097 02/01/2018 F_NONIMATO 01/01/2018 02/01/2018 ART.155 PAR. 4º INC. II E IV - CPB
180022501 03/01/2018 G_NONIMATO 02/01/2018 03/01/2018 ART.157 PAR.2 INC.I E II - CP ART.14 - CP

Obrigado.




_______________________________________________
R-br mailing list
[hidden email]
https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br
Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
_______________________________________________
R-br mailing list
[hidden email]
https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br
Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
_______________________________________________
R-br mailing list
[hidden email]
https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br
Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.

_______________________________________________
R-br mailing list
[hidden email]
https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br
Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.