Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

falta de pontuação final em sentenças das lendas de Casasnovas (2006) #555

Open
2 of 16 tasks
leoalenc opened this issue Sep 11, 2024 · 6 comments
Open
2 of 16 tasks
Assignees
Labels
corpus This issue pertains to corpus data question Further information is requested spelling-adaptation Issues about orthography normalization

Comments

@leoalenc
Copy link
Contributor

leoalenc commented Sep 11, 2024

  • como lidar com a falta de pontuação final em sentenças das lendas de Casasnovas (2006)?
  • Casasnovas2006:11:19:150 e Casasnovas2006:12:9:175: falta mesmo pontuação no original, deixamos assim mesmo, @juliana-gurgel (eliminei o ponto final inserido na segunda)
  • comparar Casasnovas2006:12:9:175 (anotar as lendas de Casasnovas (2006) #353 ) com demais sentenças das lendas (@juliana-gurgel , verifique, por favor, as sentenças abaixo, tomando como ponto de partida as sentenças tais como estão neste repositório do CompLin)
  • verificar Casasnovas2006:2:1:15
  • verificar Casasnovas2006:2:3:17
  • verificar Casasnovas2006:4:8:43
  • verificar Casasnovas2006:11:4:135
  • verificar Casasnovas2006:11:5:136
  • verificar Casasnovas2006:11:8:139
  • verificar Casasnovas2006:11:10:141
  • verificar Casasnovas2006:11:19:150
  • verificar Casasnovas2006:11:32:163
  • verificar Casasnovas2006:12:9:175
  • verificar Casasnovas2006:12:25:191
  • verificar Casasnovas2006:0:0:19
  • verificar Casasnovas2006:0:0:23
@leoalenc leoalenc added question Further information is requested corpus This issue pertains to corpus data spelling-adaptation Issues about orthography normalization labels Sep 11, 2024
@juliana-gurgel
Copy link
Collaborator

@leoalenc, a falta do ponto final no campo text foi um erro que cometi na hora de passar a sentença anotada para o VisualCodeStudio. Corrigi esse erro agora e submeti o treebank ao validador. Esta e outras sentenças corrigidas estão neste commit.

@leoalenc
Copy link
Contributor Author

leoalenc commented Sep 21, 2024

Sentenças sem pontuação final:

>>> sents=Yauti.extractConlluSents(Yauti.TREEBANK_PATH)
>>> import string
>>> no_punct=[]
>>> for sent in sents:
	last=sent.metadata['text'][-1]
	if last not in string.punctuation+'…':
		no_punct.append(sent)

		
>>> for sent in no_punct:
	text_orig=sent.metadata.get('text_orig')
	text_prim=sent.metadata.get('text_prim')
	orig=text_orig or text_prim
	print(f"{sent.metadata['sent_id']}\n{sent.metadata['text']}\n{orig}\n\n")
Navarro2016:4:1:06
Maria uwatá São Gabriel rupí
None


Casasnovas2006:11:19:150
Remaã indé, ne paya ti waá upaka pitupituna usikari arã rembaú arã, unheẽ, paá, waimĩ
Remaá indé, ne paya ti waá upaka pitupituna usikái arã rembaú arã, unheé, paá, waimí

@leoalenc
Copy link
Contributor Author

Sentenças sem pontuação final em text_origou sem text_orig nas sentenças de Casasnovas (2006):

for sent in sents:
	if sent.metadata['sent_id'].startswith('Casasnovas2006'):
		text_orig=sent.metadata.get('text_orig')
		if text_orig:
			if text_orig[-1] not in string.punctuation+'…':
				print(f"{sent.metadata['sent_id']}\n{text_orig}\n")
		else:
			print(f"{sent.metadata['sent_id']}\ntext_orig = {text_orig}\n")
Casasnovas2006:2:1:15
Yepé ara, yawaraté usú usikái yauti umbaú arã aé

Casasnovas2006:2:3:17
Ape yawaraté uyusikí usú merupí sesé

Casasnovas2006:4:8:43
Nhaã, paá, sukuriú santá uyari, ti ukataka ti arã uxái ximiara uyawawa

Casasnovas2006:11:4:135
Amú ara, paá, Teyú usú upurandú nhaá tainasawa

Casasnovas2006:11:5:136
Kurasí uxari yuíri umendái irumu

Casasnovas2006:11:8:139
Kwemaité, paá, usuã umukameé tasupé

Casasnovas2006:11:10:141
Sesewara umaité, paá, nhaã teyú atima manha

Casasnovas2006:11:19:150
Remaá indé, ne paya ti waá upaka pitupituna usikái arã rembaú arã, unheé, paá, waimí

Casasnovas2006:11:32:163
Umbaré ambá, anheé rakú indé arã, unheé, paá, Wakurawá

Casasnovas2006:12:9:175
Aápe, paá, aintá, uyuswantí, ta uyupirú ta upurungitá

Casasnovas2006:12:25:191
Adana, paá, umaã ta resé, upitá piri Buburí ruakí

Casasnovas2006:7:4:4
text_orig = None

Casasnovas2006:7:6:6
text_orig = None

@leoalenc
Copy link
Contributor Author

@juliana-gurgel , nas sentenças listadas nas tarefas, veja se

  1. confere ou não com o original
  2. se é caso de juntar com sentença seguinte ou não

Elabore, por favor, tabela e poste aqui.

leoalenc added a commit that referenced this issue Sep 21, 2024
@juliana-gurgel
Copy link
Collaborator

juliana-gurgel commented Sep 22, 2024

Elabore, por favor, tabela e poste aqui. @leoalenc

Sentenças sem pontuação final em Casasnovas (2006)

ID da Sentença Confere com o original Juntar com sentença seguinte
Casasnovas2006:2:1:15 Sim Não
Casasnovas2006:2:3:17 Sim Não
Casasnovas2006:4:8:43 Sim Não
Casasnovas2006:11:4:135 Sim Não
Casasnovas2006:11:5:136 Sim Não
Casasnovas2006:11:8:139 Sim Não
Casasnovas2006:11:10:141 Sim Não
Casasnovas2006:11:19:150 Sim Não
Casasnovas2006:11:32:163 Sim Não
Casasnovas2006:12:9:175 Sim Não
Casasnovas2006:12:25:191 Sim Não
Casasnovas2006:0:0:19 Sim Não
Casasnovas2006:0:0:23 Sim Não

Tarefas:

@leoalenc
Copy link
Contributor Author

@juliana-gurgel , excelente trabalho! Obrigado. Seguindo nossa política mais conservadora em relação ao texto de Casasnovas (2006), incorporando, inclusive, desvios em relação ao que seria uma norma padrão, tendo a deixar as sentenças mesmo sem pontuação final que assim se encontram no original, salvo aquelas que precisam ser juntadas. Quer levar isso para discutir no grupo? Essa decisão afeta especialmente a anotação de textos antigos, como Magalhães (1876), Rodrigues (1890), Hartt (1938) etc.
A documentação de UD reza:

If one or more words are missing from the text, we treat it as ellipsis.

Argumentos a favor ou contra devem ser postados aqui.

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
corpus This issue pertains to corpus data question Further information is requested spelling-adaptation Issues about orthography normalization
Projects
None yet
Development

No branches or pull requests

2 participants