-
Notifications
You must be signed in to change notification settings - Fork 1
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
checar consistência das anotações de duplicatas #599
Comments
Avila2021
das mesmas sentenças de Casasnovas2006
identificadas por meio de annotator_comment
(@dominickmaia, @juliana-gurgel )
@leoalenc, @dominickmaia e @heliolbs, no levantamento que fiz por meio dos atributos
@dominickmaia e @heliolbs , nessa revisão inicial das anotações, observei se as |
Professor @leoalenc, na reunião de hoje chegamos à conclusão de que faz sentido fazer a revisão da convergência dos seguintes campos: O senhor concorda com esse procedimento de revisão? |
@juliana-gurgel , obrigado pela condução das atividades desta importantíssima issue. Na verdade, acho que tudo deve ser revisado, incluindo # sent_id = Avila2021:0:0:461
# text = Ape paá ta usuú piripiriáka, asuí ta upuri ta uyatimana miráwasú rupitá.
# text_eng = There, they say they chewed chilli pepper, then jumped around the trunk of a large tree.
# text_por = Aí, dizem que eles mastigaram piripirioca, depois saltaram rodeando o tronco de uma grande árvore.
# text_source = Casasnovas, 85, adap.
# text_annotator = LFdeA
1 Ape ape ADV ADVDI AdvType=Loc|Deixis=Remt|PronType=Dem 4 advmod _ TokenRange=0:3
2 paá paá PART RPRT Evident=Nfh|PartType=Mod 4 advmod _ TokenRange=4:7
3 ta ta PRON PRON Number=Plur|Person=3|PronType=Prs 4 nsubj _ TokenRange=8:10
4 usuú suú VERB V Mood=Ind|Person=3|VerbForm=Fin 0 root _ TokenRange=11:15
5 piripiriáka piripiriáka NOUN N Number=Sing 4 obj _ SpaceAfter=No|TokenRange=16:27
6 , , PUNCT PUNCT _ 9 punct _ TokenRange=27:28
7 asuí asuí ADV ADVT AdvType=Tim 9 advmod _ TokenRange=29:33
8 ta ta PRON PRON Number=Plur|Person=3|PronType=Prs 9 nsubj _ TokenRange=34:36
9 upuri puri VERB V Mood=Ind|Person=3|VerbForm=Fin 4 parataxis _ TokenRange=37:42
10 ta ta PRON PRON Number=Plur|Person=3|PronType=Prs 9 obj _ TokenRange=43:45
11 uyatimana yatimana VERB V Mood=Ind|Person=3|VerbForm=Fin 9 parataxis _ TokenRange=46:55
12 miráwasú mirá NOUN N Degree=Aug|Number=Sing 13 nmod:poss _ TokenRange=56:64
13 rupitá supitá NOUN N Number=Sing|Rel=Cont 11 obj _ SpaceAfter=No|TokenRange=65:71
14 . . PUNCT PUNCT _ 4 punct _ SpaceAfter=No|TokenRange=71:72
|
Nessa minha análise, detecto agora um erro bastante óbvio, exposto pelo gráfico: o nó 10 não e Na análise parcialmente revisada de @juliana-gurgel , o pronome ta integra as três formas verbais como prefixo flexional, não constituindo nós independentes na árvore, conforme a política conservadora de adaptação. Abstraindo de todas essas diferenças que não relevam à tarefa, constatamos uma divergência significativa entre as duas análises na cabeça ( # sent_id = Casasnovas2006:8:7:75
# text = Ape paá, tausuú piripiriáka, asuí, tapuri tauyatimana miráwasú rupitá.
# text_eng = TODO
# text_eng_ggl = They then began to chew piprioca, then jumped around a log,
# text_por = Eles, então, puseram-se a mastigar piprioca, depois deram um salto em torno de um tronco,
# text_source = p. 85, No. 8
# text_orig = Ape paá, tausuú piripiriaka, asuí, tapuri tauyatimana mirá wasú rupitá.
# text_annotator = Juliana Lopes Gurgel
# title = Yawaraté mira
# title_orig = Yawaraté Mira
# title_por_orig = Gente-onça
# title_eng = Jaguar people
# text_sec = Ape paá ta usuú piripiriáka, asuí ta upuri ta uyatimana miráwasú rupitá.
# text_por_sec = Aí, dizem que eles mastigaram piripirioca, depois saltaram rodeando o tronco de uma grande árvore.
# text_sec_source = Avila (2021)
# text_por_sec_source = Avila (2021)
# cross_reference = Avila2021:0:0:461
# acknowledgement = DACILAT Project, FAPESP's Process No. 2022/09158-5
# reviewer1 = Leonel Figueiredo de Alencar
# review_status = ongoing
1 Ape ape ADV ADVT AdvType=Tim 4 advmod _ TokenRange=0:3
2 paá paá PART RPRT Evident=Nfh|PartType=Mod 4 advmod _ SpaceAfter=No|TokenRange=4:7
3 , , PUNCT PUNCT _ 2 punct _ TokenRange=7:8
4 tausuú suú VERB V Mood=Ind|Number=Plur|Person=3|VerbForm=Fin 0 root _ TokenRange=12:16
5 piripiriáka piripiriáka NOUN N Number=Sing 4 obj _ SpaceAfter=No|TokenRange=17:28
6 , , PUNCT PUNCT _ 7 punct _ TokenRange=28:29
7 asuí asuí ADV ADVT AdvType=Tim 9 advmod _ SpaceAfter=No|TokenRange=30:34
8 , , PUNCT PUNCT _ 7 punct _ TokenRange=34:35
9 tapuri puri VERB V Mood=Ind|Number=Plur|Person=3|VerbForm=Fin 4 parataxis _ TokenRange=39:44
10 tauyatimana yatimana VERB V Mood=Ind|Number=Plur|Person=3|VerbForm=Fin 4 parataxis _ TokenRange=48:57
11 miráwasú mirá NOUN N Degree=Aug|Number=Sing 12 nmod:poss _ TokenRange=58:66
12 rupitá supitá NOUN N Number=Sing|Rel=Cont 10 obj _ SpaceAfter=No|TokenRange=67:73
13 . . PUNCT PUNCT _ 4 punct _ SpaceAfter=No|TokenRange=73:74
|
Essa divergência entre
Venho, porém, adotando uma interpretação menos estrita, considerando esta outra orientação: https://universaldependencies.org/u/dep/conj.html#nested-coordination Ou seja, dada a exigência de paralelismo entre conjunção e parataxe, considero que no exemplo em tela temos a seguinte situação:
Desse modo, vou alterar |
Esses meus últimos comentários relacionam-se estreitamente com #515. |
@juliana-gurgel , fiz as correções em ambas as versões. Veja que também alterei a ligação da primeira vírgula que separa asuí. Creio que essa vírgula primeiro separa a oração cabeça da oração dependente, não configurando a situação referida na documentação de UD como estrutura parentética. # sent_id = Casasnovas2006:8:7:75
# text = Ape paá, tausuú piripiriáka, asuí, tapuri tauyatimana miráwasú rupitá.
# text_eng = TODO
# text_eng_ggl = They then began to chew piprioca, then jumped around a log,
# text_por = Eles, então, puseram-se a mastigar piprioca, depois deram um salto em torno de um tronco,
# text_source = p. 85, No. 8
# text_orig = Ape paá, tausuú piripiriaka, asuí, tapuri tauyatimana mirá wasú rupitá.
# text_annotator = Juliana Lopes Gurgel
# title = Yawaraté mira
# title_orig = Yawaraté Mira
# title_por_orig = Gente-onça
# title_eng = Jaguar people
# text_sec = Ape paá ta usuú piripiriáka, asuí ta upuri ta uyatimana miráwasú rupitá.
# text_por_sec = Aí, dizem que eles mastigaram piripirioca, depois saltaram rodeando o tronco de uma grande árvore.
# text_sec_source = Avila (2021)
# text_por_sec_source = Avila (2021)
# cross_reference = Avila2021:0:0:461
# acknowledgement = DACILAT Project, FAPESP's Process No. 2022/09158-5
# reviewer1 = Leonel Figueiredo de Alencar
1 Ape ape ADV ADVT AdvType=Tim 4 advmod _ TokenRange=0:3
2 paá paá PART RPRT Evident=Nfh|PartType=Mod 4 advmod _ SpaceAfter=No|TokenRange=4:7
3 , , PUNCT PUNCT _ 2 punct _ TokenRange=7:8
4 tausuú suú VERB V Mood=Ind|Number=Plur|Person=3|VerbForm=Fin 0 root _ TokenRange=12:16
5 piripiriáka piripiriáka NOUN N Number=Sing 4 obj _ SpaceAfter=No|TokenRange=17:28
6 , , PUNCT PUNCT _ 9 punct _ TokenRange=28:29
7 asuí asuí ADV ADVT AdvType=Tim 9 advmod _ SpaceAfter=No|TokenRange=30:34
8 , , PUNCT PUNCT _ 7 punct _ TokenRange=34:35
9 tapuri puri VERB V Mood=Ind|Number=Plur|Person=3|VerbForm=Fin 4 parataxis _ TokenRange=39:44
10 tauyatimana yatimana VERB V Mood=Ind|Number=Plur|Person=3|VerbForm=Fin 9 parataxis _ TokenRange=48:57
11 miráwasú mirá NOUN N Degree=Aug|Number=Sing 12 nmod:poss _ TokenRange=58:66
12 rupitá supitá NOUN N Number=Sing|Rel=Cont 10 obj _ SpaceAfter=No|TokenRange=67:73
13 . . PUNCT PUNCT _ 4 punct _ SpaceAfter=No|TokenRange=73:74
|
# sent_id = Avila2021:0:0:460
# text = Asuí paá ta umbué aé mayé usikari arã ximiára piripiriáka irumu.
# text_eng = Then they taught him how to look for game with piripirioca.
# text_por = Depois ensinaram-no como procurar caça com piripirioca.
# text_prim = Asuí, paá, taumbwé aé mayé usikái arã ximiara piripiriaka irumu.
# text_por_orig = Depois ensinaram para ele como procurar caça com piprioca.
# text_prim_transcriber = JLG
# text_por_orig_transcriber = JLG
# text_source = Casasnovas, 86, adap.
# text_annotator = LFdeA
# cross_reference = Casasnovas2006:8:13:81
1 Asuí asuí ADV ADVT AdvType=Tim 4 advmod _ TokenRange=0:4
2 paá paá PART RPRT Evident=Nfh|PartType=Mod 4 advmod _ TokenRange=5:8
3 ta ta PRON PRON Number=Plur|Person=3|PronType=Prs 4 nsubj _ TokenRange=9:11
4 umbué mbué VERB V Mood=Ind|Person=3|VerbForm=Fin 0 root _ TokenRange=12:17
5 aé aé PRON PRON Number=Sing|Person=3|PronType=Prs 4 iobj _ TokenRange=18:20
6 mayé mayé ADV ADVRA AdvType=Man|PronType=Int 7 advmod _ TokenRange=21:25
7 usikari sikari VERB V Mood=Ind|Person=3|VerbForm=Fin 4 ccomp _ TokenRange=26:33
8 arã arã SCONJ SCONJ _ 7 mark _ TokenRange=34:37
9 ximiára simiára NOUN N Number=Sing|Number[psor]=Sing|Person[psor]=3|Rel=NCont 7 obj _ TokenRange=38:45
10 piripiriáka piripiriáka NOUN N Number=Sing 7 obl _ TokenRange=46:57
11 irumu irumu ADP ADP AdpType=Post 10 case _ SpaceAfter=No|TokenRange=58:63
12 . . PUNCT PUNCT _ 4 punct _ SpaceAfter=No|TokenRange=63:64
|
# sent_id = Casasnovas2006:8:13:81
# text = Asuí, paá, taumbué aé mayé usikari arã ximiára piripiriáka irumu.
# text_eng = TODO
# text_eng_ggl = Then they taught him how to look for game with piprioca.
# text_por = Depois ensinaram para ele como procurar caça com piprioca.
# text_source = p. 86, No. 14
# text_orig = Asuí, paá, taumbwé aé mayé usikái arã ximiara piripiriaka irumu.
# text_annotator = JLG
# title = Yawaraté mira
# title_orig = Yawaraté Mira
# title_por_orig = Gente-onça
# title_eng = Jaguar people
# text_sec = Asuí paá ta umbué aé mayé usikari arã ximiára piripiriáka irumu.
# text_por_sec = Depois ensinaram-no como procurar caça com piripirioca.
# text_sec_source = Avila (2021)
# text_por_sec_source = Avila (2021)
# cross_reference = Avila2021:0:0:460
# acknowledgement = DACILAT Project, FAPESP's Process No. 2022/09158-5
# reviewer1 = Leonel Figueiredo de Alencar
# review_status = ongoing
1 Asuí asuí ADV ADVT AdvType=Tim 5 advmod _ SpaceAfter=No|TokenRange=0:4
2 , , PUNCT PUNCT _ 3 punct _ TokenRange=4:5
3 paá paá PART RPRT Evident=Nfh|PartType=Mod 5 advmod _ SpaceAfter=No|TokenRange=6:9
4 , , PUNCT PUNCT _ 3 punct _ TokenRange=9:10
5 taumbué mbué VERB V Mood=Ind|Number=Plur|Person=3|VerbForm=Fin 0 root _ TokenRange=14:19
6 aé aé PRON PRON Number=Sing|Person=3|PronType=Prs 5 iobj _ TokenRange=20:22
7 mayé mayé ADV ADVRA AdvType=Man|PronType=Int 8 advmod _ TokenRange=23:27
8 usikari sikari VERB V Mood=Ind|Person=3|VerbForm=Fin 5 ccomp _ TokenRange=28:35
9 arã arã SCONJ SCONJ _ 8 mark _ TokenRange=36:39
10 ximiára simiára NOUN N Number=Sing|Number[psor]=Sing|Person[psor]=3|Rel=NCont 8 obj _ TokenRange=40:47
11 piripiriáka piripiriáka NOUN N Number=Sing 8 obl _ TokenRange=48:59
12 irumu irumu ADP ADP AdpType=Post 11 case _ SpaceAfter=No|TokenRange=60:65
13 . . PUNCT PUNCT _ 5 punct _ SpaceAfter=No|TokenRange=65:66
|
@juliana-gurgel , esse par de sentenças tem anotação consistente, na minha definição de consistência, que abstrai de divergências meramente decorrentes de discrepâncias relacionadas a valores distintos de |
Tendo a concordar com seu raciocínio, @leoalenc . Consultei o Grew-Match para ter uma referência dos dois padrões de parataxe na versão 2.14 do treebank. Usando a consulta abaixo, vi que há 95 ocorrências de encadeamento de parataxes (o padrão aplicado na sua análise):
Já com essa outra consulta, vi que há 14 ocorrências do padrão em que parataxes compartilham o primeiro verbo como
Como exercício de uso da biblioteca conllu, vou consultar daqui a pouco o treebank atual para saber como anda essa proporção. Desconfio que o percentual do ocorrências do seu padrão continua alta.
Nós nos organizamos na reunião de hoje mais cedo para atacar essa questão. Todas as sentenças serão revisadas. |
@leoalenc , consegui concluir ontem a consulta que mencionei no comentário acima. A diretriz da UD que a Juliana vinha usando é um padrão em 'paralelo', ou seja, um em que há compartilhamento de Minha consulta me diz que há 143 sentenças no treebank com pelo menos duas ocorrências de
Obs.: A versão consultada foi do antepenúltimo commit. Acredito que seus dois últimos commits não afetaram esses resultados. |
De acordo, @leoalenc! |
A revisão incluída no commit mencionado acima foi fruto de uma discussão documentada na issue #8 de um repositório privado. Trago abaixo o resumo dessa discussão. As duas únicas discrepâncias entre as duas sentenças do par em análise encontradas pelo dois revisores (@dominickmaia e @heliolbs ) foram os O segundo |
revisão do par |
O obejtivo maior desta issue é revisar todas as sentenças de Casasnovas (2006) com atributo
cross_reference
, comparando com anotação da versão com prefixoAvila2021
, checando consistência entre as duas anotações.Tarefas para obter consistência de anotação
Casasnovas2006:8:7:75 ↔ Avila2021:0:0:461
Casasnovas2006:8:13:81 ↔ Avila2021:0:0:460
Casasnovas2006:9:8:92 ↔ Avila2021:0:0:542
Casasnovas2006:9:10:94 ↔ Avila2021:0:0:198
Casasnovas2006:9:14:98 ↔ Avila2021:0:0:588
Casasnovas2006:9:20:104 ↔ Avila2021:0:0:24
Casasnovas2006:9:23:107 ↔ Avila2021:0:0:36
Casasnovas2006:9:32:116 ↔ Avila2021:0:0:306
Casasnovas2006:10:1:120 ↔ Avila2021:0:0:174
Casasnovas2006:10:10:129 ↔ Avila2021:7:1:47
Casasnovas2006:10:11:130 ↔ Avila2021:7:2:48
Casasnovas2006:11:7:138 ↔ Avila2021:0:0:155
Casasnovas2006:11:11:142 ↔ Avila2021:0:0:297
Casasnovas2006:11:25:156 ↔ Avila2021:0:0:371
Casasnovas2006:12:16:182 ↔ Avila2021:0:0:555
Casasnovas2006:12:19:185 ↔ Avila2021:33:1:420
Casasnovas2006:12:23:189 ↔ Avila2021:0:0:511
Casasnovas2006:12:26:192 ↔ Avila2021:30:1:346 / Avila2021:30:2:347
Casasnovas2006:12:27:193 ↔ Avila2021:2:1:10 / Avila2021:2:2:11
Casasnovas2006:12:28:194 ↔ Avila2021:18:1:175 / Avila2021:18:2:176
The text was updated successfully, but these errors were encountered: