desfazer o composto "urubú-kunhã-itá" #586

leoalenc · 2024-09-21T00:40:02Z

urubú-kunhã-itá -> urubú kunhã-itá em Casasnovas2006:9:8:92, conforme Avila2021:0:0:542

Relaciona-se, por um lado, com #145 , #287 etc., por outro, com #538.

The text was updated successfully, but these errors were encountered:

juliana-gurgel · 2024-09-25T12:07:55Z

@leoalenc , neste commit fiz a tarefa que o senhor solicitou.

leoalenc · 2024-09-26T16:01:39Z

Casasnovas2006:9:8:92:

leoalenc · 2024-09-26T16:08:41Z

@juliana-gurgel , veja que a oração que expressa finalidade se liga ao verbo principal em Avila2021:0:0:542 e não ao substantivo pusanga:

@juliana-gurgel , @dominickmaia e @heliolbs , essa discrepância entre as anotações de variantes da mesma sentença jamais deveria ocorrer, pois bagunça o treinamento de um parser e confunde anotadores e consulentes do treebank. Poderiam oraganizar força-tarefa para verificar isso? Acho que já temos issue a esse respeito...
Em alguns casos, a discrepância na árvore se justifica por conta de certas adaptações de Avila (2021) "mais radicais". Por exemplo, ao separar determinadas coisas por vírgula, acaba impondo uma estrutura dependencial diferente. Sem falar em supressão ou inclusão de palavras.

leoalenc · 2024-09-26T16:11:19Z

Antes do commit:

# sent_id = Casasnovas2006:9:8:92
# text = Ape, paá, i manha umeẽ i xupé pusanga umusasawa arã i pira rupí, ti arã nhaã urubú kunhã-itá umaã aé.
# text_eng = TODO
# text_por = Depois a mãe deu-lhe remédio para passar no corpo a fim de que os urubus não o vissem.
# text_source = p. 88, No. 8-9
# text_orig = Ape, paá, imanha umeé ixupé pusanga umusasawa arã ipira rupí, ti arã nhaã urubú kunhãitá umaã aé.
# text_annotator = Juliana Lopes Gurgel
# text_sec = Ape paá i manha umeẽ i xupé pusanga umusasawa arã i pira rupí, ti arã nhaã urubú-kunhã-itá umaã aé.
# text_por_orig_sec = Então, contam, a mãe deu-lhe puçanga para passar pelo corpo, a fim de que as urubús fêmeas não o vissem.
# text_sec_source = Avila (2021)
# text_por_orig_sec_source = Avila (2021)
# cross_reference = Avila2021:0:0:542
# acknowledgement = DACILAT Project, FAPESP's Process No. 2022/09158-5
# inputline = Ape/advt, paá, i/pron2 manha umeẽ i/pron2 xupé pusanga umusasawa arã/sconj i/pron2 pira rupí, ti arã/sconj nhaã urubú kunhã-itá umaã aé/pron.
# reviewer1 = Leonel Figueiredo de Alencar
1	Ape	ape	ADV	ADVT	AdvType=Tim	7	advmod	_	SpaceAfter=No|TokenRange=0:3
2	,	,	PUNCT	PUNCT	_	3	punct	_	TokenRange=3:4
3	paá	paá	PART	RPRT	Evident=Nfh|PartType=Mod	7	advmod	_	SpaceAfter=No|TokenRange=5:8
4	,	,	PUNCT	PUNCT	_	3	punct	_	TokenRange=8:9
5	i	i	PRON	PRON2	Case=Gen|Number=Sing|Person=3|Poss=Yes|PronType=Prs	6	nmod:poss	_	TokenRange=10:11
6	manha	manha	NOUN	N	Number=Sing	7	nsubj	_	TokenRange=12:17
7	umeẽ	meẽ	VERB	V	Mood=Ind|Person=3|VerbForm=Fin	0	root	_	TokenRange=18:22
8	i	i	PRON	PRON2	Case=Gen|Number=Sing|Person=3|PronType=Prs	7	iobj	_	TokenRange=23:24
9	xupé	xupé	ADP	ADP	AdpType=Post	8	case	_	TokenRange=25:29
10	pusanga	pusanga	NOUN	N	Number=Sing	7	obj	_	TokenRange=30:37
11	umusasawa	musasawa	VERB	V	Mood=Ind|Person=3|VerbForm=Fin	10	advcl	_	TokenRange=38:47
12	arã	arã	SCONJ	SCONJ	_	11	mark	_	TokenRange=48:51
13	i	i	PRON	PRON2	Case=Gen|Number=Sing|Person=3|Poss=Yes|PronType=Prs	14	nmod:poss	_	TokenRange=52:53
14	pira	pira	NOUN	N	Number=Sing	11	obl	_	TokenRange=54:58
15	rupí	rupí	ADP	ADP	AdpType=Post	14	case	_	SpaceAfter=No|TokenRange=59:63
16	,	,	PUNCT	PUNCT	_	11	punct	_	TokenRange=63:64
17	ti	ti	PART	NEG	PartType=Neg|Polarity=Neg	22	advmod	_	TokenRange=65:67
18	arã	arã	SCONJ	SCONJ	_	22	mark	_	TokenRange=68:71
19	nhaã	nhaã	DET	DEMS	Deixis=Remt|Number=Sing|PronType=Dem	21	det	_	TokenRange=72:76
20	urubú	urubú	NOUN	N	Number=Sing	21	nmod:poss	_	TokenRange=77:82
21	kunhã-itá	kunhã	NOUN	N	Number=Plur	22	nsubj	_	TokenRange=83:92
22	umaã	maã	VERB	V	Mood=Ind|Person=3|VerbForm=Fin	11	advcl	_	TokenRange=93:97
23	aé	aé	PRON	PRON	Number=Sing|Person=3|PronType=Prs	22	obj	_	SpaceAfter=No|TokenRange=98:100
24	.	.	PUNCT	PUNCT	_	7	punct	_	SpaceAfter=No|TokenRange=100:101

leoalenc · 2024-09-26T16:19:32Z

@juliana-gurgel , @heliolbs e @dominickmaia não existe text_por_orig_sec etc., é um paradoxo, pois algo não pode ser fonte secundária e fonte original ao mesmo tempo! Consultem as várias issues a respeito. É bom sempre usar a função abaixo, seguindo a boa prática de automatizar ao máximo a anotação, de modo a garantir consistência:

>>> example='''Ape paá i manha umeẽ i xupé pusanga umusasawa arã i pira rupí, ti arã nhaã urubú kunhã-itá umaã aé. (Casasnovas, 88) -  Então, contam, a mãe deu-lhe puçanga para passar pelo corpo, a fim de que as urubús fêmeas não o vissem.'''
>>> Yauti.mkSecTextAvila(example)
{'text_sec': 'Ape paá i manha umeẽ i xupé pusanga umusasawa arã i pira rupí, ti arã nhaã urubú kunhã-itá umaã aé.', 'text_por_sec': 'Então, contam, a mãe deu-lhe puçanga para passar pelo corpo, a fim de que as urubús fêmeas não o vissem.', 'text_sec_source': 'Avila (2021)', 'text_por_sec_source': 'Avila (2021)'}
>>> Yauti.ppMetadata(Yauti.mkSecTextAvila(example))

# text_sec = Ape paá i manha umeẽ i xupé pusanga umusasawa arã i pira rupí, ti arã nhaã urubú kunhã-itá umaã aé.
# text_por_sec = Então, contam, a mãe deu-lhe puçanga para passar pelo corpo, a fim de que as urubús fêmeas não o vissem.
# text_sec_source = Avila (2021)
# text_por_sec_source = Avila (2021)

leoalenc · 2024-09-26T16:25:49Z

Última vírgula da segunda variante também discrepa da anotação da primeira. Vou corrigir em mais um commit.

leoalenc added invalid This doesn't seem right corpus This issue pertains to corpus data lexicon This issue relates to lexical data spelling-adaptation Issues about orthography normalization unknown-words How to deal with new words labels Sep 21, 2024

leoalenc assigned juliana-gurgel Sep 21, 2024

leoalenc closed this as completed in 5a34f99 Sep 26, 2024

leoalenc reopened this Sep 26, 2024

leoalenc closed this as completed in 7c58426 Sep 26, 2024

leoalenc reopened this Sep 26, 2024

leoalenc closed this as completed in da2afcb Sep 26, 2024

leoalenc mentioned this issue Oct 17, 2024

Política sobre a relação sintática compound #604

Closed

1 task

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

desfazer o composto "urubú-kunhã-itá" #586

desfazer o composto "urubú-kunhã-itá" #586

leoalenc commented Sep 21, 2024 •

edited

Loading

juliana-gurgel commented Sep 25, 2024

leoalenc commented Sep 26, 2024

leoalenc commented Sep 26, 2024

leoalenc commented Sep 26, 2024

leoalenc commented Sep 26, 2024 •

edited

Loading

leoalenc commented Sep 26, 2024

desfazer o composto "urubú-kunhã-itá" #586

desfazer o composto "urubú-kunhã-itá" #586

Comments

leoalenc commented Sep 21, 2024 • edited Loading

juliana-gurgel commented Sep 25, 2024

leoalenc commented Sep 26, 2024

leoalenc commented Sep 26, 2024

leoalenc commented Sep 26, 2024

leoalenc commented Sep 26, 2024 • edited Loading

leoalenc commented Sep 26, 2024

leoalenc commented Sep 21, 2024 •

edited

Loading

leoalenc commented Sep 26, 2024 •

edited

Loading