Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

desfazer o composto "urubú-kunhã-itá" #586

Closed
1 task done
leoalenc opened this issue Sep 21, 2024 · 6 comments
Closed
1 task done

desfazer o composto "urubú-kunhã-itá" #586

leoalenc opened this issue Sep 21, 2024 · 6 comments
Assignees
Labels
corpus This issue pertains to corpus data invalid This doesn't seem right lexicon This issue relates to lexical data spelling-adaptation Issues about orthography normalization unknown-words How to deal with new words

Comments

@leoalenc
Copy link
Contributor

leoalenc commented Sep 21, 2024

  • urubú-kunhã-itá -> urubú kunhã-itá em Casasnovas2006:9:8:92, conforme Avila2021:0:0:542

Relaciona-se, por um lado, com #145 , #287 etc., por outro, com #538.

@leoalenc leoalenc added invalid This doesn't seem right corpus This issue pertains to corpus data lexicon This issue relates to lexical data spelling-adaptation Issues about orthography normalization unknown-words How to deal with new words labels Sep 21, 2024
@juliana-gurgel
Copy link
Collaborator

@leoalenc , neste commit fiz a tarefa que o senhor solicitou.

@leoalenc
Copy link
Contributor Author

Casasnovas2006:9:8:92:

dependency_tree

@leoalenc
Copy link
Contributor Author

@juliana-gurgel , veja que a oração que expressa finalidade se liga ao verbo principal em Avila2021:0:0:542 e não ao substantivo pusanga:

dependency_tree

@juliana-gurgel , @dominickmaia e @heliolbs , essa discrepância entre as anotações de variantes da mesma sentença jamais deveria ocorrer, pois bagunça o treinamento de um parser e confunde anotadores e consulentes do treebank. Poderiam oraganizar força-tarefa para verificar isso? Acho que já temos issue a esse respeito...
Em alguns casos, a discrepância na árvore se justifica por conta de certas adaptações de Avila (2021) "mais radicais". Por exemplo, ao separar determinadas coisas por vírgula, acaba impondo uma estrutura dependencial diferente. Sem falar em supressão ou inclusão de palavras.

@leoalenc
Copy link
Contributor Author

Antes do commit:

# sent_id = Casasnovas2006:9:8:92
# text = Ape, paá, i manha umeẽ i xupé pusanga umusasawa arã i pira rupí, ti arã nhaã urubú kunhã-itá umaã aé.
# text_eng = TODO
# text_por = Depois a mãe deu-lhe remédio para passar no corpo a fim de que os urubus não o vissem.
# text_source = p. 88, No. 8-9
# text_orig = Ape, paá, imanha umeé ixupé pusanga umusasawa arã ipira rupí, ti arã nhaã urubú kunhãitá umaã aé.
# text_annotator = Juliana Lopes Gurgel
# text_sec = Ape paá i manha umeẽ i xupé pusanga umusasawa arã i pira rupí, ti arã nhaã urubú-kunhã-itá umaã aé.
# text_por_orig_sec = Então, contam, a mãe deu-lhe puçanga para passar pelo corpo, a fim de que as urubús fêmeas não o vissem.
# text_sec_source = Avila (2021)
# text_por_orig_sec_source = Avila (2021)
# cross_reference = Avila2021:0:0:542
# acknowledgement = DACILAT Project, FAPESP's Process No. 2022/09158-5
# inputline = Ape/advt, paá, i/pron2 manha umeẽ i/pron2 xupé pusanga umusasawa arã/sconj i/pron2 pira rupí, ti arã/sconj nhaã urubú kunhã-itá umaã aé/pron.
# reviewer1 = Leonel Figueiredo de Alencar
1	Ape	ape	ADV	ADVT	AdvType=Tim	7	advmod	_	SpaceAfter=No|TokenRange=0:3
2	,	,	PUNCT	PUNCT	_	3	punct	_	TokenRange=3:4
3	paá	paá	PART	RPRT	Evident=Nfh|PartType=Mod	7	advmod	_	SpaceAfter=No|TokenRange=5:8
4	,	,	PUNCT	PUNCT	_	3	punct	_	TokenRange=8:9
5	i	i	PRON	PRON2	Case=Gen|Number=Sing|Person=3|Poss=Yes|PronType=Prs	6	nmod:poss	_	TokenRange=10:11
6	manha	manha	NOUN	N	Number=Sing	7	nsubj	_	TokenRange=12:17
7	umeẽ	meẽ	VERB	V	Mood=Ind|Person=3|VerbForm=Fin	0	root	_	TokenRange=18:22
8	i	i	PRON	PRON2	Case=Gen|Number=Sing|Person=3|PronType=Prs	7	iobj	_	TokenRange=23:24
9	xupé	xupé	ADP	ADP	AdpType=Post	8	case	_	TokenRange=25:29
10	pusanga	pusanga	NOUN	N	Number=Sing	7	obj	_	TokenRange=30:37
11	umusasawa	musasawa	VERB	V	Mood=Ind|Person=3|VerbForm=Fin	10	advcl	_	TokenRange=38:47
12	arã	arã	SCONJ	SCONJ	_	11	mark	_	TokenRange=48:51
13	i	i	PRON	PRON2	Case=Gen|Number=Sing|Person=3|Poss=Yes|PronType=Prs	14	nmod:poss	_	TokenRange=52:53
14	pira	pira	NOUN	N	Number=Sing	11	obl	_	TokenRange=54:58
15	rupí	rupí	ADP	ADP	AdpType=Post	14	case	_	SpaceAfter=No|TokenRange=59:63
16	,	,	PUNCT	PUNCT	_	11	punct	_	TokenRange=63:64
17	ti	ti	PART	NEG	PartType=Neg|Polarity=Neg	22	advmod	_	TokenRange=65:67
18	arã	arã	SCONJ	SCONJ	_	22	mark	_	TokenRange=68:71
19	nhaã	nhaã	DET	DEMS	Deixis=Remt|Number=Sing|PronType=Dem	21	det	_	TokenRange=72:76
20	urubú	urubú	NOUN	N	Number=Sing	21	nmod:poss	_	TokenRange=77:82
21	kunhã-itá	kunhã	NOUN	N	Number=Plur	22	nsubj	_	TokenRange=83:92
22	umaã	maã	VERB	V	Mood=Ind|Person=3|VerbForm=Fin	11	advcl	_	TokenRange=93:97
23			PRON	PRON	Number=Sing|Person=3|PronType=Prs	22	obj	_	SpaceAfter=No|TokenRange=98:100
24	.	.	PUNCT	PUNCT	_	7	punct	_	SpaceAfter=No|TokenRange=100:101

@leoalenc
Copy link
Contributor Author

leoalenc commented Sep 26, 2024

@juliana-gurgel , @heliolbs e @dominickmaia não existe text_por_orig_sec etc., é um paradoxo, pois algo não pode ser fonte secundária e fonte original ao mesmo tempo! Consultem as várias issues a respeito. É bom sempre usar a função abaixo, seguindo a boa prática de automatizar ao máximo a anotação, de modo a garantir consistência:

>>> example='''Ape paá i manha umeẽ i xupé pusanga umusasawa arã i pira rupí, ti arã nhaã urubú kunhã-itá umaã aé. (Casasnovas, 88) -  Então, contam, a mãe deu-lhe puçanga para passar pelo corpo, a fim de que as urubús fêmeas não o vissem.'''
>>> Yauti.mkSecTextAvila(example)
{'text_sec': 'Ape paá i manha umeẽ i xupé pusanga umusasawa arã i pira rupí, ti arã nhaã urubú kunhã-itá umaã aé.', 'text_por_sec': 'Então, contam, a mãe deu-lhe puçanga para passar pelo corpo, a fim de que as urubús fêmeas não o vissem.', 'text_sec_source': 'Avila (2021)', 'text_por_sec_source': 'Avila (2021)'}
>>> Yauti.ppMetadata(Yauti.mkSecTextAvila(example))
# text_sec = Ape paá i manha umeẽ i xupé pusanga umusasawa arã i pira rupí, ti arã nhaã urubú kunhã-itá umaã aé.
# text_por_sec = Então, contam, a mãe deu-lhe puçanga para passar pelo corpo, a fim de que as urubús fêmeas não o vissem.
# text_sec_source = Avila (2021)
# text_por_sec_source = Avila (2021)

@leoalenc leoalenc reopened this Sep 26, 2024
@leoalenc
Copy link
Contributor Author

Última vírgula da segunda variante também discrepa da anotação da primeira. Vou corrigir em mais um commit.

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
corpus This issue pertains to corpus data invalid This doesn't seem right lexicon This issue relates to lexical data spelling-adaptation Issues about orthography normalization unknown-words How to deal with new words
Projects
None yet
Development

No branches or pull requests

2 participants