Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

checar consistência das anotações de duplicatas #599

Open
3 of 20 tasks
Tracked by #538
leoalenc opened this issue Oct 2, 2024 · 19 comments
Open
3 of 20 tasks
Tracked by #538

checar consistência das anotações de duplicatas #599

leoalenc opened this issue Oct 2, 2024 · 19 comments
Assignees

Comments

@leoalenc
Copy link
Contributor

leoalenc commented Oct 2, 2024

O obejtivo maior desta issue é revisar todas as sentenças de Casasnovas (2006) com atributo cross_reference, comparando com anotação da versão com prefixo Avila2021, checando consistência entre as duas anotações.

Tarefas para obter consistência de anotação

  1. Casasnovas2006:8:7:75Avila2021:0:0:461

    • Sanar a inconsistência de anotação.
  2. Casasnovas2006:8:13:81Avila2021:0:0:460

    • Sanar a inconsistência de anotação.
  3. Casasnovas2006:9:8:92Avila2021:0:0:542

    • Sanar a inconsistência de anotação.
  4. Casasnovas2006:9:10:94Avila2021:0:0:198

    • Revisar a anotação consistente.
  5. Casasnovas2006:9:14:98Avila2021:0:0:588

    • Revisar a anotação consistente.
  6. Casasnovas2006:9:20:104Avila2021:0:0:24

    • Revisar a anotação consistente.
  7. Casasnovas2006:9:23:107Avila2021:0:0:36

    • Sanar a inconsistência de anotação.
  8. Casasnovas2006:9:32:116Avila2021:0:0:306

    • Sanar a inconsistência de anotação.
  9. Casasnovas2006:10:1:120Avila2021:0:0:174

    • Sanar a inconsistência de anotação.
  10. Casasnovas2006:10:10:129Avila2021:7:1:47

    • Revisar a anotação consistente.
  11. Casasnovas2006:10:11:130Avila2021:7:2:48

    • Sanar a inconsistência de anotação.
  12. Casasnovas2006:11:7:138Avila2021:0:0:155

    • Revisar a anotação consistente.
  13. Casasnovas2006:11:11:142Avila2021:0:0:297

    • Revisar a anotação consistente.
  14. Casasnovas2006:11:25:156Avila2021:0:0:371

    • Revisar a anotação consistente.
  15. Casasnovas2006:12:16:182Avila2021:0:0:555

    • Revisar a anotação consistente.
  16. Casasnovas2006:12:19:185Avila2021:33:1:420

    • Revisar a anotação consistente.
  17. Casasnovas2006:12:23:189Avila2021:0:0:511

    • Sanar a inconsistência de anotação.
  18. Casasnovas2006:12:26:192Avila2021:30:1:346 / Avila2021:30:2:347

    • Discutir em grupo.
  19. Casasnovas2006:12:27:193Avila2021:2:1:10 / Avila2021:2:2:11

    • Discutir em grupo.
  20. Casasnovas2006:12:28:194Avila2021:18:1:175 / Avila2021:18:2:176

    • Discutir em grupo.
@leoalenc leoalenc changed the title checar se estão consistentes entre si as anotações de exemplos com prefixo Avila2021 das mesmas sentenças de Casasnovas2006 identificadas por meio de annotator_comment (@dominickmaia, @juliana-gurgel ) checar consistência das anotações de duplicatas Oct 2, 2024
@juliana-gurgel
Copy link
Collaborator

  • revisar todas as sentenças de Casasnovas com atributo cross_reference, comparando com anotação da versão com prefixo Avila2021, checando consistência entre as duas anotações

@leoalenc, @dominickmaia e @heliolbs, no levantamento que fiz por meio dos atributos annotator_comment ou cross_reference, encontrei 20 sentenças, conforme a tabela a seguir:

casasnovas.conllu yrl_complin-ud-test.conllu Anotação Consistente
Casasnovas2006:8:7:75 Avila2021:0:0:461 Não
Casasnovas2006:8:13:81 Avila2021:0:0:460 Não
Casasnovas2006:9:8:92 Avila2021:0:0:542 Não
Casasnovas2006:9:10:94 Avila2021:0:0:198 Sim
Casasnovas2006:9:14:98 Avila2021:0:0:588 Sim
Casasnovas2006:9:20:104 Avila2021:0:0:24 Sim
Casasnovas2006:9:23:107 Avila2021:0:0:36 Não
Casasnovas2006:9:32:116 Avila2021:0:0:306 Não
Casasnovas2006:10:1:120 Avila2021:0:0:174 Não
Casasnovas2006:10:10:129 Avila2021:7:1:47 Sim
Casasnovas2006:10:11:130 Avila2021:7:2:48 Não
Casasnovas2006:11:7:138 Avila2021:0:0:155 Sim
Casasnovas2006:11:11:142 Avila2021:0:0:297 Sim
Casasnovas2006:11:25:156 Avila2021:0:0:371 Sim
Casasnovas2006:12:16:182 Avila2021:0:0:555 Sim
Casasnovas2006:12:19:185 Avila2021:33:1:420 Sim
Casasnovas2006:12:23:189 Avila2021:0:0:511 Não
Casasnovas2006:12:26:192 Avila2021:30:1:346

Avila2021:30:2:347
Discutir em grupo
Casasnovas2006:12:27:193 Avila2021:2:1:10

Avila2021:2:2:11
Discutir em grupo
Casasnovas2006:12:28:194 Avila2021:18:1:175

Avila2021:18:2:176
Discutir em grupo

@dominickmaia e @heliolbs , nessa revisão inicial das anotações, observei se as upos, xpos, deprel e headeram convergentes. Mas podemos, na reunião de sexta (04/10), analisar novamente cada uma considerando todas as colunas.

@juliana-gurgel
Copy link
Collaborator

@dominickmaia e @heliolbs , nessa revisão inicial das anotações, observei se as upos, xpos, deprel e headeram convergentes. Mas podemos, na reunião de sexta (04/10), analisar novamente cada uma considerando todas as colunas.

Professor @leoalenc, na reunião de hoje chegamos à conclusão de que faz sentido fazer a revisão da convergência dos seguintes campos: upos, xpos, feats, deprel, head e misc. Incluímos feats e misc para conferir se o senhor incluiu em Avila2021 algum atributo que eu não incluí em Casasnovas2006.

O senhor concorda com esse procedimento de revisão?

@leoalenc
Copy link
Contributor Author

leoalenc commented Oct 4, 2024

@juliana-gurgel , obrigado pela condução das atividades desta importantíssima issue. Na verdade, acho que tudo deve ser revisado, incluindo form e lemma, mas levando em conta nossa política conservadora de adaptação. Não consigo imaginar um procedimento mecânico de revisão. É algo a ser feito por especialistas humanos. Vou dar logo um exemplo, depois comentarei outros casos.

# sent_id = Avila2021:0:0:461
# text = Ape paá ta usuú piripiriáka, asuí ta upuri ta uyatimana miráwasú rupitá.
# text_eng = There, they say they chewed chilli pepper, then jumped around the trunk of a large tree.
# text_por = Aí, dizem que eles mastigaram piripirioca, depois saltaram rodeando o tronco de uma grande árvore.
# text_source = Casasnovas, 85, adap.
# text_annotator = LFdeA
1	Ape	ape	ADV	ADVDI	AdvType=Loc|Deixis=Remt|PronType=Dem	4	advmod	_	TokenRange=0:3
2	paá	paá	PART	RPRT	Evident=Nfh|PartType=Mod	4	advmod	_	TokenRange=4:7
3	ta	ta	PRON	PRON	Number=Plur|Person=3|PronType=Prs	4	nsubj	_	TokenRange=8:10
4	usuú	suú	VERB	V	Mood=Ind|Person=3|VerbForm=Fin	0	root	_	TokenRange=11:15
5	piripiriáka	piripiriáka	NOUN	N	Number=Sing	4	obj	_	SpaceAfter=No|TokenRange=16:27
6	,	,	PUNCT	PUNCT	_	9	punct	_	TokenRange=27:28
7	asuí	asuí	ADV	ADVT	AdvType=Tim	9	advmod	_	TokenRange=29:33
8	ta	ta	PRON	PRON	Number=Plur|Person=3|PronType=Prs	9	nsubj	_	TokenRange=34:36
9	upuri	puri	VERB	V	Mood=Ind|Person=3|VerbForm=Fin	4	parataxis	_	TokenRange=37:42
10	ta	ta	PRON	PRON	Number=Plur|Person=3|PronType=Prs	9	obj	_	TokenRange=43:45
11	uyatimana	yatimana	VERB	V	Mood=Ind|Person=3|VerbForm=Fin	9	parataxis	_	TokenRange=46:55
12	miráwasú	mirá	NOUN	N	Degree=Aug|Number=Sing	13	nmod:poss	_	TokenRange=56:64
13	rupitá	supitá	NOUN	N	Number=Sing|Rel=Cont	11	obj	_	SpaceAfter=No|TokenRange=65:71
14	.	.	PUNCT	PUNCT	_	4	punct	_	SpaceAfter=No|TokenRange=71:72

dependency_tree

@leoalenc
Copy link
Contributor Author

leoalenc commented Oct 4, 2024

Nessa minha análise, detecto agora um erro bastante óbvio, exposto pelo gráfico: o nó 10 não e obj de 9, mas nsubj de 11.

Na análise parcialmente revisada de @juliana-gurgel , o pronome ta integra as três formas verbais como prefixo flexional, não constituindo nós independentes na árvore, conforme a política conservadora de adaptação. Abstraindo de todas essas diferenças que não relevam à tarefa, constatamos uma divergência significativa entre as duas análises na cabeça (head) do verbo yatimana: enquanto o subordinei ao verbo imediatamente precedente, @juliana-gurgel o vinculou como dependente do verbo mais alto da sentença, ou seja, suú.

# sent_id = Casasnovas2006:8:7:75
# text = Ape paá, tausuú piripiriáka, asuí, tapuri tauyatimana miráwasú rupitá.
# text_eng = TODO
# text_eng_ggl = They then began to chew piprioca, then jumped around a log,
# text_por = Eles, então, puseram-se a mastigar piprioca, depois deram um salto em torno de um tronco,
# text_source = p. 85, No. 8
# text_orig = Ape paá, tausuú piripiriaka, asuí, tapuri tauyatimana mirá wasú rupitá.
# text_annotator = Juliana Lopes Gurgel
# title = Yawaraté mira
# title_orig = Yawaraté Mira
# title_por_orig = Gente-onça
# title_eng = Jaguar people
# text_sec = Ape paá ta usuú piripiriáka, asuí ta upuri ta uyatimana miráwasú rupitá.
# text_por_sec = Aí, dizem que eles mastigaram piripirioca, depois saltaram rodeando o tronco de uma grande árvore.
# text_sec_source = Avila (2021)
# text_por_sec_source = Avila (2021)
# cross_reference = Avila2021:0:0:461
# acknowledgement = DACILAT Project, FAPESP's Process No. 2022/09158-5
# reviewer1 = Leonel Figueiredo de Alencar
# review_status = ongoing
1	Ape	ape	ADV	ADVT	AdvType=Tim	4	advmod	_	TokenRange=0:3
2	paá	paá	PART	RPRT	Evident=Nfh|PartType=Mod	4	advmod	_	SpaceAfter=No|TokenRange=4:7
3	,	,	PUNCT	PUNCT	_	2	punct	_	TokenRange=7:8
4	tausuú	suú	VERB	V	Mood=Ind|Number=Plur|Person=3|VerbForm=Fin	0	root	_	TokenRange=12:16
5	piripiriáka	piripiriáka	NOUN	N	Number=Sing	4	obj	_	SpaceAfter=No|TokenRange=17:28
6	,	,	PUNCT	PUNCT	_	7	punct	_	TokenRange=28:29
7	asuí	asuí	ADV	ADVT	AdvType=Tim	9	advmod	_	SpaceAfter=No|TokenRange=30:34
8	,	,	PUNCT	PUNCT	_	7	punct	_	TokenRange=34:35
9	tapuri	puri	VERB	V	Mood=Ind|Number=Plur|Person=3|VerbForm=Fin	4	parataxis	_	TokenRange=39:44
10	tauyatimana	yatimana	VERB	V	Mood=Ind|Number=Plur|Person=3|VerbForm=Fin	4	parataxis	_	TokenRange=48:57
11	miráwasú	mirá	NOUN	N	Degree=Aug|Number=Sing	12	nmod:poss	_	TokenRange=58:66
12	rupitá	supitá	NOUN	N	Number=Sing|Rel=Cont	10	obj	_	SpaceAfter=No|TokenRange=67:73
13	.	.	PUNCT	PUNCT	_	4	punct	_	SpaceAfter=No|TokenRange=73:74

dependency_tree

@leoalenc
Copy link
Contributor Author

leoalenc commented Oct 4, 2024

Essa divergência entre Avila2021:0:0:461 e Casasnovas2006:8:7:75 não deve, em hipótese alguma, persistir. Nesse quesito, é necessária a convergência entre as duas análises, pois se trata do mesmo fenômeno gramatical. Em #308 e noutras issues, tenho exposto minhas dúvidas a respeito da análise mais correta desse tipo de construção do nheengatu, comum a diversas outras línguas do mundo, especialmente as amazônicas, mas inexistente em línguas como o português. Ocorre com bastante frequência em Casasnovas (2006).
Vejo que @juliana-gurgel aderiu estritamente à recomendação de UD:

Sometimes there are more than two sentences joined in this way. In this case we make all the later sentences dependents of the first one, to maximize similarity to the analysis used for conjunction.
https://universaldependencies.org/u/overview/specific-syntax.html#side-by-side-sentences-run-on-sentences

Venho, porém, adotando uma interpretação menos estrita, considerando esta outra orientação:

https://universaldependencies.org/u/dep/conj.html#nested-coordination

Ou seja, dada a exigência de paralelismo entre conjunção e parataxe, considero que no exemplo em tela temos a seguinte situação:

A, (B, C)

Desse modo, vou alterar Casasnovas2006:8:7:75 para se conformar a ``Avila2021:0:0:461nesse ponto. @heliolbs, @juliana-gurgel e @dominickmaia , alguma ideia contrária? Seria importantíssimo verificar todas as análises de @juliana-gurgel , mesmo aquelas que já revisei, levando em conta os proncípios da anotação de parataxe encaixada como emAvila2021:0:0:461`.

@leoalenc
Copy link
Contributor Author

leoalenc commented Oct 4, 2024

Esses meus últimos comentários relacionam-se estreitamente com #515.

leoalenc added a commit that referenced this issue Oct 4, 2024
@leoalenc
Copy link
Contributor Author

leoalenc commented Oct 4, 2024

@juliana-gurgel , fiz as correções em ambas as versões. Veja que também alterei a ligação da primeira vírgula que separa asuí. Creio que essa vírgula primeiro separa a oração cabeça da oração dependente, não configurando a situação referida na documentação de UD como estrutura parentética.

# sent_id = Casasnovas2006:8:7:75
# text = Ape paá, tausuú piripiriáka, asuí, tapuri tauyatimana miráwasú rupitá.
# text_eng = TODO
# text_eng_ggl = They then began to chew piprioca, then jumped around a log,
# text_por = Eles, então, puseram-se a mastigar piprioca, depois deram um salto em torno de um tronco,
# text_source = p. 85, No. 8
# text_orig = Ape paá, tausuú piripiriaka, asuí, tapuri tauyatimana mirá wasú rupitá.
# text_annotator = Juliana Lopes Gurgel
# title = Yawaraté mira
# title_orig = Yawaraté Mira
# title_por_orig = Gente-onça
# title_eng = Jaguar people
# text_sec = Ape paá ta usuú piripiriáka, asuí ta upuri ta uyatimana miráwasú rupitá.
# text_por_sec = Aí, dizem que eles mastigaram piripirioca, depois saltaram rodeando o tronco de uma grande árvore.
# text_sec_source = Avila (2021)
# text_por_sec_source = Avila (2021)
# cross_reference = Avila2021:0:0:461
# acknowledgement = DACILAT Project, FAPESP's Process No. 2022/09158-5
# reviewer1 = Leonel Figueiredo de Alencar
1	Ape	ape	ADV	ADVT	AdvType=Tim	4	advmod	_	TokenRange=0:3
2	paá	paá	PART	RPRT	Evident=Nfh|PartType=Mod	4	advmod	_	SpaceAfter=No|TokenRange=4:7
3	,	,	PUNCT	PUNCT	_	2	punct	_	TokenRange=7:8
4	tausuú	suú	VERB	V	Mood=Ind|Number=Plur|Person=3|VerbForm=Fin	0	root	_	TokenRange=12:16
5	piripiriáka	piripiriáka	NOUN	N	Number=Sing	4	obj	_	SpaceAfter=No|TokenRange=17:28
6	,	,	PUNCT	PUNCT	_	9	punct	_	TokenRange=28:29
7	asuí	asuí	ADV	ADVT	AdvType=Tim	9	advmod	_	SpaceAfter=No|TokenRange=30:34
8	,	,	PUNCT	PUNCT	_	7	punct	_	TokenRange=34:35
9	tapuri	puri	VERB	V	Mood=Ind|Number=Plur|Person=3|VerbForm=Fin	4	parataxis	_	TokenRange=39:44
10	tauyatimana	yatimana	VERB	V	Mood=Ind|Number=Plur|Person=3|VerbForm=Fin	9	parataxis	_	TokenRange=48:57
11	miráwasú	mirá	NOUN	N	Degree=Aug|Number=Sing	12	nmod:poss	_	TokenRange=58:66
12	rupitá	supitá	NOUN	N	Number=Sing|Rel=Cont	10	obj	_	SpaceAfter=No|TokenRange=67:73
13	.	.	PUNCT	PUNCT	_	4	punct	_	SpaceAfter=No|TokenRange=73:74

@leoalenc
Copy link
Contributor Author

leoalenc commented Oct 4, 2024

dependency_tree

@leoalenc
Copy link
Contributor Author

leoalenc commented Oct 4, 2024

# sent_id = Avila2021:0:0:460
# text = Asuí paá ta umbué aé mayé usikari arã ximiára piripiriáka irumu.
# text_eng = Then they taught him how to look for game with piripirioca.
# text_por = Depois ensinaram-no como procurar caça com piripirioca.
# text_prim = Asuí, paá, taumbwé aé mayé usikái arã ximiara piripiriaka irumu.
# text_por_orig = Depois ensinaram para ele como procurar caça com piprioca.
# text_prim_transcriber = JLG
# text_por_orig_transcriber = JLG
# text_source = Casasnovas, 86, adap.
# text_annotator = LFdeA
# cross_reference = Casasnovas2006:8:13:81
1	Asuí	asuí	ADV	ADVT	AdvType=Tim	4	advmod	_	TokenRange=0:4
2	paá	paá	PART	RPRT	Evident=Nfh|PartType=Mod	4	advmod	_	TokenRange=5:8
3	ta	ta	PRON	PRON	Number=Plur|Person=3|PronType=Prs	4	nsubj	_	TokenRange=9:11
4	umbué	mbué	VERB	V	Mood=Ind|Person=3|VerbForm=Fin	0	root	_	TokenRange=12:17
5			PRON	PRON	Number=Sing|Person=3|PronType=Prs	4	iobj	_	TokenRange=18:20
6	mayé	mayé	ADV	ADVRA	AdvType=Man|PronType=Int	7	advmod	_	TokenRange=21:25
7	usikari	sikari	VERB	V	Mood=Ind|Person=3|VerbForm=Fin	4	ccomp	_	TokenRange=26:33
8	arã	arã	SCONJ	SCONJ	_	7	mark	_	TokenRange=34:37
9	ximiára	simiára	NOUN	N	Number=Sing|Number[psor]=Sing|Person[psor]=3|Rel=NCont	7	obj	_	TokenRange=38:45
10	piripiriáka	piripiriáka	NOUN	N	Number=Sing	7	obl	_	TokenRange=46:57
11	irumu	irumu	ADP	ADP	AdpType=Post	10	case	_	SpaceAfter=No|TokenRange=58:63
12	.	.	PUNCT	PUNCT	_	4	punct	_	SpaceAfter=No|TokenRange=63:64

dependency_tree

@leoalenc
Copy link
Contributor Author

leoalenc commented Oct 4, 2024

# sent_id = Casasnovas2006:8:13:81
# text = Asuí, paá, taumbué aé mayé usikari arã ximiára piripiriáka irumu.
# text_eng = TODO
# text_eng_ggl = Then they taught him how to look for game with piprioca.
# text_por = Depois ensinaram para ele como procurar caça com piprioca.
# text_source = p. 86, No. 14
# text_orig = Asuí, paá, taumbwé aé mayé usikái arã ximiara piripiriaka irumu.
# text_annotator = JLG
# title = Yawaraté mira
# title_orig = Yawaraté Mira
# title_por_orig = Gente-onça
# title_eng = Jaguar people
# text_sec = Asuí paá ta umbué aé mayé usikari arã ximiára piripiriáka irumu.
# text_por_sec = Depois ensinaram-no como procurar caça com piripirioca.
# text_sec_source = Avila (2021)
# text_por_sec_source = Avila (2021)
# cross_reference = Avila2021:0:0:460
# acknowledgement = DACILAT Project, FAPESP's Process No. 2022/09158-5
# reviewer1 = Leonel Figueiredo de Alencar
# review_status = ongoing
1	Asuí	asuí	ADV	ADVT	AdvType=Tim	5	advmod	_	SpaceAfter=No|TokenRange=0:4
2	,	,	PUNCT	PUNCT	_	3	punct	_	TokenRange=4:5
3	paá	paá	PART	RPRT	Evident=Nfh|PartType=Mod	5	advmod	_	SpaceAfter=No|TokenRange=6:9
4	,	,	PUNCT	PUNCT	_	3	punct	_	TokenRange=9:10
5	taumbué	mbué	VERB	V	Mood=Ind|Number=Plur|Person=3|VerbForm=Fin	0	root	_	TokenRange=14:19
6			PRON	PRON	Number=Sing|Person=3|PronType=Prs	5	iobj	_	TokenRange=20:22
7	mayé	mayé	ADV	ADVRA	AdvType=Man|PronType=Int	8	advmod	_	TokenRange=23:27
8	usikari	sikari	VERB	V	Mood=Ind|Person=3|VerbForm=Fin	5	ccomp	_	TokenRange=28:35
9	arã	arã	SCONJ	SCONJ	_	8	mark	_	TokenRange=36:39
10	ximiára	simiára	NOUN	N	Number=Sing|Number[psor]=Sing|Person[psor]=3|Rel=NCont	8	obj	_	TokenRange=40:47
11	piripiriáka	piripiriáka	NOUN	N	Number=Sing	8	obl	_	TokenRange=48:59
12	irumu	irumu	ADP	ADP	AdpType=Post	11	case	_	SpaceAfter=No|TokenRange=60:65
13	.	.	PUNCT	PUNCT	_	5	punct	_	SpaceAfter=No|TokenRange=65:66

dependency_tree

@leoalenc
Copy link
Contributor Author

leoalenc commented Oct 4, 2024

@juliana-gurgel , esse par de sentenças tem anotação consistente, na minha definição de consistência, que abstrai de divergências meramente decorrentes de discrepâncias relacionadas a valores distintos de text. Opinião diferente?

leoalenc added a commit that referenced this issue Oct 4, 2024
@heliolbs
Copy link
Collaborator

heliolbs commented Oct 4, 2024

[...]
Ou seja, dada a exigência de paralelismo entre conjunção e parataxe, considero que no exemplo em tela temos a seguinte situação:

A, (B, C)

Desse modo, vou alterar Casasnovas2006:8:7:75 para se conformar a Avila2021:0:0:461 nesse ponto. @heliolbs, @juliana-gurgel e @dominickmaia , alguma ideia contrária?

Tendo a concordar com seu raciocínio, @leoalenc . Consultei o Grew-Match para ter uma referência dos dois padrões de parataxe na versão 2.14 do treebank. Usando a consulta abaixo, vi que há 95 ocorrências de encadeamento de parataxes (o padrão aplicado na sua análise):

pattern {
  X [upos="VERB"];
  X -[parataxis]-> Y;
  Y [upos="VERB"];
  Y -[parataxis]-> Z;
  Z [upos="VERB"]
}

Já com essa outra consulta, vi que há 14 ocorrências do padrão em que parataxes compartilham o primeiro verbo como head (aplicado pela @juliana-gurgel em Casasnovas2006:8:7:75.

pattern {
  X [upos="VERB"];
  X -[parataxis]-> Y;
  Y [upos="VERB"];
  X -[parataxis]-> Z;
  Z [upos="VERB"]
}

Como exercício de uso da biblioteca conllu, vou consultar daqui a pouco o treebank atual para saber como anda essa proporção. Desconfio que o percentual do ocorrências do seu padrão continua alta.

Seria importantíssimo verificar todas as análises de @juliana-gurgel , mesmo aquelas que já revisei, levando em conta os princípios da anotação de parataxe encaixada como em Avila2021:0:0:461.

Nós nos organizamos na reunião de hoje mais cedo para atacar essa questão. Todas as sentenças serão revisadas.

@heliolbs
Copy link
Collaborator

@leoalenc , consegui concluir ontem a consulta que mencionei no comentário acima. A diretriz da UD que a Juliana vinha usando é um padrão em 'paralelo', ou seja, um em que há compartilhamento de head entre as parataxes. A estrutura sugerida por você é um padrão em 'série', ou seja, um em que cada parataxe tem seu próprio head.

Minha consulta me diz que há 143 sentenças no treebank com pelo menos duas ocorrências de parataxis. Dentre elas, 62 sentenças seguem seu padrão em 'série' (encadeamento de parataxes), mas 81 têm pelo menos uma parataxe não encadeada, isto é, ou seguem o padrão em 'paralelo' ou se estruturam de forma híbrida, mesclando os dois padrões . Algumas poucas têm parataxes completamente desconectadas umas das outras (padrão em paralelo). Dessas 143 sentenças, 37 são do Casasnovas (2006): sendo 24 em paralelo e 13 em série. Vou abrir nova issue para expor meu código e documentar a investigação da aplicação dessa diretriz.

Padrão Paralelo (ou Híbrido) Série Total
Sentenças do corpus 81 (57%) 62 (43%) 143
Sentenças de Casasnovas2006 24 (65%) 13 (35%) 37

Obs.: A versão consultada foi do antepenúltimo commit. Acredito que seus dois últimos commits não afetaram esses resultados.

@leoalenc
Copy link
Contributor Author

leoalenc commented Oct 18, 2024

Inconsistência Casasnovas2006:9:8:92 ↔ Avila2021:0:0:542 resolvida em b5d7f70. No commit, fiz referência por engano a #538 em vez de #599.

@juliana-gurgel
Copy link
Collaborator

Desse modo, vou alterar Casasnovas2006:8:7:75 para se conformar a ``Avila2021:0:0:461nesse ponto. @heliolbs, @juliana-gurgel e @dominickmaia , alguma ideia contrária? Seria importantíssimo verificar todas as análises de @juliana-gurgel , mesmo aquelas que já revisei, levando em conta os proncípios da anotação de parataxe encaixada como emAvila2021:0:0:461`.

De acordo, @leoalenc!

@heliolbs
Copy link
Collaborator

Inconsistência Casasnovas2006:9:8:92 ↔ Avila2021:0:0:542 resolvida em b5d7f70. No commit, fiz referência por engano a #538 em vez de #599.

A revisão incluída no commit mencionado acima foi fruto de uma discussão documentada na issue #8 de um repositório privado. Trago abaixo o resumo dessa discussão.

As duas únicas discrepâncias entre as duas sentenças do par em análise encontradas pelo dois revisores (@dominickmaia e @heliolbs ) foram os head de dois tokens. O primeiro deles é o nó 11 umusasawa, cujo head correto era o nó 5 i em vez do nó 7 umeẽ.

O segundo head a sofrer correção foi o do nó 17 nhaã no trecho "nhaã urubú kunhã-itá". Em Casasnovas2006:9:8:92, tanto nhaã quanto urubú tinham kunhã-itá como head. Já em sua referência cruzada (Avila2021:0:0:542), urubú era head de nhaã e kunhã-itá era head de urubú. Todos concordamos em passar a anotar kunhã dessa forma (compartilhamento de head) quando tiver sentido de fêmea de um animal, entretanto convém verificar se isso vem sendo no banco de árvores.

@heliolbs
Copy link
Collaborator

@leoalenc , o quarto par de sentenças (Casasnovas2006:9:10:94 ↔ Avila2021:0:0:198) da lista do primeiro comentário teve suas revisões registradas na issue #10 do repositório nheengabank. Seguem os dois commits de lá:

Ambos revisores concordaram com a anotação original.

@dominickmaia
Copy link
Collaborator

revisão do par Casasnovas2006:9:23:107 ↔ Avila2021:0:0:36 em #608

@heliolbs
Copy link
Collaborator

@leoalenc , a revisão do sexto par de sentenças (Casasnovas2006:9:20:104Avila2021:0:0:24) da lista do primeiro comentário está registrado neste commit do repositório nheengabank. Ambos revisores concordaram, de modo independente, com a anotação original. A discussão foi documentada em #609 .

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

4 participants