falta de pontuação final em sentenças das lendas de Casasnovas (2006) #555

leoalenc · 2024-09-11T00:20:55Z

juliana-gurgel · 2024-09-11T20:13:09Z

@leoalenc, a falta do ponto final no campo text foi um erro que cometi na hora de passar a sentença anotada para o VisualCodeStudio. Corrigi esse erro agora e submeti o treebank ao validador. Esta e outras sentenças corrigidas estão neste commit.

leoalenc · 2024-09-21T14:28:04Z

Sentenças sem pontuação final:

>>> sents=Yauti.extractConlluSents(Yauti.TREEBANK_PATH)
>>> import string
>>> no_punct=[]
>>> for sent in sents:
	last=sent.metadata['text'][-1]
	if last not in string.punctuation+'…':
		no_punct.append(sent)

		
>>> for sent in no_punct:
	text_orig=sent.metadata.get('text_orig')
	text_prim=sent.metadata.get('text_prim')
	orig=text_orig or text_prim
	print(f"{sent.metadata['sent_id']}\n{sent.metadata['text']}\n{orig}\n\n")

Navarro2016:4:1:06
Maria uwatá São Gabriel rupí
None


Casasnovas2006:11:19:150
Remaã indé, ne paya ti waá upaka pitupituna usikari arã rembaú arã, unheẽ, paá, waimĩ
Remaá indé, ne paya ti waá upaka pitupituna usikái arã rembaú arã, unheé, paá, waimí

leoalenc · 2024-09-21T14:58:43Z

Sentenças sem pontuação final em text_origou sem text_orig nas sentenças de Casasnovas (2006):

for sent in sents:
	if sent.metadata['sent_id'].startswith('Casasnovas2006'):
		text_orig=sent.metadata.get('text_orig')
		if text_orig:
			if text_orig[-1] not in string.punctuation+'…':
				print(f"{sent.metadata['sent_id']}\n{text_orig}\n")
		else:
			print(f"{sent.metadata['sent_id']}\ntext_orig = {text_orig}\n")

Casasnovas2006:2:1:15
Yepé ara, yawaraté usú usikái yauti umbaú arã aé

Casasnovas2006:2:3:17
Ape yawaraté uyusikí usú merupí sesé

Casasnovas2006:4:8:43
Nhaã, paá, sukuriú santá uyari, ti ukataka ti arã uxái ximiara uyawawa

Casasnovas2006:11:4:135
Amú ara, paá, Teyú usú upurandú nhaá tainasawa

Casasnovas2006:11:5:136
Kurasí uxari yuíri umendái irumu

Casasnovas2006:11:8:139
Kwemaité, paá, usuã umukameé tasupé

Casasnovas2006:11:10:141
Sesewara umaité, paá, nhaã teyú atima manha

Casasnovas2006:11:19:150
Remaá indé, ne paya ti waá upaka pitupituna usikái arã rembaú arã, unheé, paá, waimí

Casasnovas2006:11:32:163
Umbaré ambá, anheé rakú indé arã, unheé, paá, Wakurawá

Casasnovas2006:12:9:175
Aápe, paá, aintá, uyuswantí, ta uyupirú ta upurungitá

Casasnovas2006:12:25:191
Adana, paá, umaã ta resé, upitá piri Buburí ruakí

Casasnovas2006:7:4:4
text_orig = None

Casasnovas2006:7:6:6
text_orig = None

leoalenc · 2024-09-21T15:12:58Z

@juliana-gurgel , nas sentenças listadas nas tarefas, veja se

confere ou não com o original
se é caso de juntar com sentença seguinte ou não

Elabore, por favor, tabela e poste aqui.

juliana-gurgel · 2024-09-22T12:56:28Z

Elabore, por favor, tabela e poste aqui. @leoalenc

Sentenças sem pontuação final em Casasnovas (2006)

ID da Sentença	Confere com o original	Juntar com sentença seguinte
`Casasnovas2006:2:1:15`	Sim	Não
`Casasnovas2006:2:3:17`	Sim	Não
`Casasnovas2006:4:8:43`	Sim	Não
`Casasnovas2006:11:4:135`	Sim	Não
`Casasnovas2006:11:5:136`	Sim	Não
`Casasnovas2006:11:8:139`	Sim	Não
`Casasnovas2006:11:10:141`	Sim	Não
`Casasnovas2006:11:19:150`	Sim	Não
`Casasnovas2006:11:32:163`	Sim	Não
`Casasnovas2006:12:9:175`	Sim	Não
`Casasnovas2006:12:25:191`	Sim	Não
`Casasnovas2006:0:0:19`	Sim	Não
`Casasnovas2006:0:0:23`	Sim	Não

Tarefas:

Inserir pontuação final no valor de text em Casasnovas2006:11:19:150.
(Ver este commit.)
verificar novamente a tabela à luz do comentário de @leoalenc sobre a segmentação de Avila (2021) na issue segmentação errada de sentenças da Lenda 12 de Casasnovas (2006) #585

leoalenc · 2024-09-22T18:28:08Z

@juliana-gurgel , excelente trabalho! Obrigado. Seguindo nossa política mais conservadora em relação ao texto de Casasnovas (2006), incorporando, inclusive, desvios em relação ao que seria uma norma padrão, tendo a deixar as sentenças mesmo sem pontuação final que assim se encontram no original, salvo aquelas que precisam ser juntadas. Quer levar isso para discutir no grupo? Essa decisão afeta especialmente a anotação de textos antigos, como Magalhães (1876), Rodrigues (1890), Hartt (1938) etc.
A documentação de UD reza:

If one or more words are missing from the text, we treat it as ellipsis.

Argumentos a favor ou contra devem ser postados aqui.

leoalenc added question Further information is requested corpus This issue pertains to corpus data spelling-adaptation Issues about orthography normalization labels Sep 11, 2024

leoalenc assigned leoalenc and juliana-gurgel Sep 11, 2024

leoalenc mentioned this issue Sep 20, 2024

segmentação errada de sentenças da Lenda 12 de Casasnovas (2006) #585

Open

4 tasks

leoalenc added a commit that referenced this issue Sep 21, 2024

resolve #574, tarefas #555

e84ca90

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

falta de pontuação final em sentenças das lendas de Casasnovas (2006) #555

falta de pontuação final em sentenças das lendas de Casasnovas (2006) #555

leoalenc commented Sep 11, 2024 •

edited

Loading

juliana-gurgel commented Sep 11, 2024

leoalenc commented Sep 21, 2024 •

edited

Loading

leoalenc commented Sep 21, 2024

leoalenc commented Sep 21, 2024

juliana-gurgel commented Sep 22, 2024 •

edited

Loading

leoalenc commented Sep 22, 2024

falta de pontuação final em sentenças das lendas de Casasnovas (2006) #555

falta de pontuação final em sentenças das lendas de Casasnovas (2006) #555

Comments

leoalenc commented Sep 11, 2024 • edited Loading

juliana-gurgel commented Sep 11, 2024

leoalenc commented Sep 21, 2024 • edited Loading

leoalenc commented Sep 21, 2024

leoalenc commented Sep 21, 2024

juliana-gurgel commented Sep 22, 2024 • edited Loading

leoalenc commented Sep 22, 2024

leoalenc commented Sep 11, 2024 •

edited

Loading

leoalenc commented Sep 21, 2024 •

edited

Loading

juliana-gurgel commented Sep 22, 2024 •

edited

Loading