Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

segmentação errada de sentenças da Lenda 12 de Casasnovas (2006) #585

Open
4 tasks
leoalenc opened this issue Sep 20, 2024 · 11 comments
Open
4 tasks

segmentação errada de sentenças da Lenda 12 de Casasnovas (2006) #585

leoalenc opened this issue Sep 20, 2024 · 11 comments
Assignees
Labels
corpus This issue pertains to corpus data high-priority This should be solved ASAP invalid This doesn't seem right sentence-segmentation

Comments

@leoalenc
Copy link
Contributor

leoalenc commented Sep 20, 2024

  • A segunda sentença do segmento n° 30 da p. 99 continua no segmento seguinte, o de n° 31, constituindo uma única sentença. Portanto, Casasnovas2006:12:29:195 deve ser modificada para incluir numa única sentença o que se encontra em Avila2021:2:1:10.
  • O mesmo para n° 32 e 33.
  • Atentar para consistência da anotação entre essas sentenças e as correspondentes de Avila (2021), salvo no que tange ao fato de que sentenças independentes de Avila (2021) serão juntadas. Atentar também para a nossa política de adaptação ortográfica mais conservadora.
  • verificar se esse erro ocorreu em outras sentenças de Casasnovas (2006)

@juliana-gurgel , tome como ponto de partida a versão que se encontra neste repositório, pois editei várias sentenças das que você anotou.

@leoalenc leoalenc added invalid This doesn't seem right corpus This issue pertains to corpus data high-priority This should be solved ASAP sentence-segmentation labels Sep 20, 2024
@leoalenc
Copy link
Contributor Author

leoalenc commented Sep 20, 2024

@juliana-gurgel , no seu repositório, encontrei o seguinte:

Kurukuí uwitá yepé rwaxara kití uyeréu yepé pirantá turusú waá, aeté kwa sera Kurukuí.
# Kurukuí nadou para o lado esquerdo transformando-se na cachoeira chamada Kurukuí.
# Kurukuí swam to the left side transforming into the waterfall called Kurukuí. 

Ou seja, você já tinha feito a identificação correta das sentenças. Parece que isso afeta todas as sentenças atualmente no presente repositório desprovidas de ponto final (#555 ).

@leoalenc
Copy link
Contributor Author

Relaciona-se com #555.

@juliana-gurgel
Copy link
Collaborator

A segunda sentença do segmento n° 30 da p. 99 continua no segmento seguinte, o de n° 31, constituindo uma única sentença. Portanto, Casasnovas2006:12:29:195 deve ser modificada para incluir numa única sentença o que se encontra em Avila2021:2:1:10.

Professor @leoalenc, vi no treebank do CompLin que Avila2021:2:1:10 é a segunda sentença do segmento nº 30, p. 99, e Avila2021:2:2:11 é a sentença do segmento de n° 31. Percebi que, em Casasnovas (2006), na segunda sentença do segmento nº 30, falta a pontuação após kití. Embora as sentenças apareçam na tradução do autor como partes da mesma sentença, fiz a segmentação depois de ver que no treebank do CompLin as duas apareciam como sentenças independentes.

Seguindo o raciocínio, fiz o mesmo com as sentenças dos segmentos:

  • n° 32 (esta eu não incuí no Nheengabank porque seria idêntica a Avila2021:18:1:175, mas mencionei-a nos metadados da sentença Casasnovas2006:12:28:194)
  • n° 33 (Casasnovas2006:12:29:195 e Avila2021:18:2:176 )

Se, mesmo assim, for necessária a correção, posso fazer a correção e enviar aqui nesta issue, por comentário, para o senhor validar antes de eu subir para o Nheengabank?
--------------------------------------------

Ou seja, você já tinha feito a identificação correta das sentenças. Parece que isso afeta todas as sentenças atualmente no presente repositório desprovidas de ponto final (#555 ).

Professor, quando fiz a nova segmentação desta sentença, fiz a correção no meu repositório, mas acabei não atualizando-o. Inclusive, na mesma ocasião, alterei a segmentação de sentenças posteriores a esta. Foi até bom não ter subido ainda essas sentenças para o repositório do Nheengabank, pois fiz a atualização da Lenda 12 no repositório e, assim, o senhor pode conferir se a segmentação está correta antes da anotação.

@leoalenc
Copy link
Contributor Author

@juliana-gurgel , a segmentação de Avila (2021) frequentemente discrepa do original. Ora ele junta coisas que estão separadas, ora separa o que está junto nos textos originais, entre várias outras intervenções, conforme explica na sua tese. É por isso que ele coloca a abreviatura adapt. na maioria de seus exemplos. Portanto, os exemplos de Avila (2021) refletem uma outra realidade linguística, representando uma linguagem normatizada, gerando a necessidade de incluir no treebank as sentenças originais com suas respectivas anotações. Nosso propósito difere o de Avila (2021). Com nosso treebank, pretendemos facilitar o estudo por meios computacionais da evolução histórica do nheengatu e da sua variação dialetal, além de implementar um parser robusto capaz de lidar com a diversidade da língua em textos reais.
Acredito que foi a intenção de Casasnovas (2006), ao não incluir ponto final em 30 da lenda 12, que 31 seria a continuação dessa sentença, não obstante 31 iniciar por maiúscula. Do mesmo modo, 32 e 33 constituem uma única sentença. A tradução dele corrobora isso. Assim, precisamos incluir estas duas sentenças no nosso treebank: (i) 31-32, (ii) 33-34. O seu outro repositório implementava essa minha visão.
Então delego a você as tarefas acima.

@juliana-gurgel
Copy link
Collaborator

juliana-gurgel commented Sep 23, 2024

Assim, precisamos incluir estas duas sentenças no nosso treebank: (i) 31-32, (ii) 33-34. O seu outro repositório implementava essa minha visão.
Então delego a você as tarefas acima.

Professor @leoalenc , considerando a sua explicação, gostaria de consultar o senhor sobre esta proposta de segmentação das últimas sentenças da Lenda 12:

Casasnovas2006:12:26:192 (p. 99, No. 28-30):

# text_orig = Aintá umuramunha pukusawa, paá, ií upurakái aintá igara upé, Ape, paá, aintá uyupipika paraná pitérupi, Aintá uyupirú ta uwitá.
# text_por = Durante a luta, as canoas começaram a se encher de água, Até que todos se alagaram no meio do rio, E começaram a nadar.
# cross_reference = Avila2021:30:1:346, Avila2021:30:2:347

Casasnovas2006:12:27:193 (p. 99, No. 30-31):

# text_orig = Kurukuí uwitá yepé rwaxara kití Uyeréu yepé pirantá turusú waá, aeté kwa sera Kurukuí.
# text_por = Kurukuí nadou para o lado esquerdo Transformando-se na cachoeira chamada Kurukuí.
# cross_reference = Avila2021:2:1:10, Avila2021:2:2:11

Casasnovas2006:12:28:194 (p. 99, No. 32-33):

# text_orig = Buburi, kirimbawa piri, uwitá amú ruaxara kití Uyeréu amú pírantá turusú piri, sera Buburi.
# text_por = Buburi, o mais forte guerreiro, nadou para o outro lado E tornou-se a enorme cachoeira de Buburi.
# cross_reference = Avila2021:18:1:175, Avila2021:18:2:176

Casasnovas2006:12:29:195 (p. 99, No. 34):

# text_orig = Adana, paá, uyupipika paraná pitérupi uyeréu yepé kapwamu, sera waá Adana.
# text_por = Adana se alagou no meio dos dois e transformou-se na ilha que hoje chamamos Adana.

Casasnovas2006:12:30:196 (p. 100, No. 35):

# text_orig = Yawé resewara nhaã musapiri, paá, iké pawaté ta uikú, yané tawa upé.
# text_por = Dizem que até hoje os três continuam vivendo naquele lugar.
# next = Avila2021:0:0:517

A sentença do segmento, No. 36, p. 100, abaixo, não será incluída no Nheengabank, pois já está no treebank do CompLin (Avila2021:0:0:517). Mencionei-a no metadado next da sentença Casasnovas2006:12:30:196 :

Mukũi kurumĩ-wasú kirimbawaitá ta upitá ta umanhana uikú kwa kunhã-mukú puranga.
Os dois moços guerreiros são os guardas da bela moça.

Casasnovas2006:12:31:197 (p. 100, No. 37-38):

# text_orig = Kuxiíma miraitá ta usú muíri akayú nhaã kapuamu kití ta uyaxiú umandwari ramé Adana, Asuí ta uyuíri umunhã arã dabukurí Kurukuí iwí-kwí upé.
# text_por = Outrora todos os anos ia o povo à ilha chorar a lembrança da Adana, Em seguida atravessavam a cachoeira Kurukuí e faziam dabukurí na praia.

Casasnovas2006:12:32:198 (p. 100, No. 39):

# text_orig = Iké, yané tawa upé, "São Gabriel da Cachoeira", panhé yandé yamandwari kwa kunhã-mukú puranga, sera waá ADANA.
# text_por = Nesta nossa cidade de São Gabriel da Cachoeira, continua viva a lembrança de ADANA, A MAIS BELA MOÇA DO RIO NEGRO.

@leoalenc
Copy link
Contributor Author

@juliana-gurgel , bom trabalho. Obrigado. Minhas observações:
os segmentos 39 e 40 do original formam uma única sentença, assim como as respectivas traduções. Do mesmo modo 37 e 38.

@leoalenc
Copy link
Contributor Author

leoalenc commented Sep 23, 2024

@juliana-gurgel , como estamos realizando uma normalização ortográfica tanto do original quanto da tradução, conforme
a nossa política mais conservadora, não vamos deixar palavra no meio de sentença com inicial maiúscula, salvo nos casos em que isso ocorreria caso Casasnovas escrevesse a sentença junta. Ou seja, ao juntarmos sentenças, fazemos a normalização da caixa do texto.

@leoalenc
Copy link
Contributor Author

leoalenc commented Sep 23, 2024

Tirando essas observações, @juliana-gurgel , está tudo correto. Mas poste aqui, por favor, a versão a ser anotada pra eu dar mais uma olhada.

@juliana-gurgel
Copy link
Collaborator

juliana-gurgel commented Sep 23, 2024

@leoalenc, vi que em Avila2021:2:2:11 o senhor anotou aité como dislocated. Li a documentação de UD e, ainda assim, fiquei com dúvida. Por isso, gostaria de pedir a sua opinião sobre esta outra análise.

Casasnovas2006:12:27:193 (p. 99, No. 30-31):

# sent_id = Casasnovas2006:12:27:193
# text = Kurukuí uwitá yepé ruaxara kití uyeréu yepé pirantá turusú waá, aité kwá sera Kurukuí.
# text_eng = TODO
# text_por = Kurukuí nadou para o lado esquerdo transformando-se na cachoeira chamada Kurukuí.
# text_source = p. 99, No. 30-31
# text_orig = Kurukuí uwitá yepé rwaxara kití uyeréu yepé pirantá turusú waá, aeté kwa sera Kurukuí.
# text_annotator = Juliana Lopes Gurgel
# text_sec =  Kurukuí uwitá yepé ruaxara kití. Uyeréu yepé pirantá turusú waá, aité kwá sera Kurukuí.
# text_por_sec = Kurukuí nadou para um lado. Virou uma grande cachoeira, o nome dessa é Kurukuí.
# text_sec_source = Avila (2021)
# text_por_sec_source = Avila (2021)
# cross_reference = Avila2021:2:1:10, Avila2021:2:2:11
# acknowledgement = DACILAT Project, FAPESP's Process No. 2022/09158-5
# inputline = Kurukuí uwitá yepé/art ruaxara/n kití uyeréu yepé/art pirantá/n turusú/a waá, aité kwá/demx sera/n+ncont Kurukuí.
1	Kurukuí	kurukuí	PROPN	PROPN	_	2	nsubj	_	TokenRange=0:7
2	uwitá	witá	VERB	V	Mood=Ind|Person=3|VerbForm=Fin	0	root	_	TokenRange=8:13
3	yepé	yepé	PRON	ART	Definite=Ind|PronType=Art	4	det	_	TokenRange=14:18
4	ruaxara	suaxara	NOUN	N	Number=Sing|Rel=Cont	2	obl	_	TokenRange=19:26
5	kití	kití	ADP	ADP	AdpType=Post	4	case	_	TokenRange=27:31
6	uyeréu	yeréu	VERB	V	Mood=Ind|Person=3|VerbForm=Fin	2	parataxis	_	TokenRange=32:38
7	yepé	yepé	DET	ART	Definite=Ind|PronType=Art	8	det	_	TokenRange=39:43
8	pirantá	pirantá	NOUN	N	Number=Sing	6	xcomp	_	TokenRange=44:51
9	turusú	turusú	ADJ	A	_	8	acl:relcl	_	TokenRange=52:58
10	waá	waá	PRON	REL	Number=Sing|PronType=Rel	9	nsubj	_	SpaceAfter=No|TokenRange=59:62
11	,	,	PUNCT	PUNCT	_	15	punct	_	TokenRange=62:63
12	aité	aité	PRON	EMP	PronType=Emp	14	nsubj	_	TokenRange=64:68
13	kwá	kwá	DET	DEMX	Deixis=Prox|Number=Sing|PronType=Dem	12	det	_	TokenRange=69:72
14	sera	sera	NOUN	N	Number=Sing|Number[psor]=Sing|Person[psor]=3|Rel=NCont	15	nsubj	_	TokenRange=73:77
15	Kurukuí	kurukuí	PROPN	PROPN	_	6	parataxis	_	SpaceAfter=No|TokenRange=78:85
16	.	.	PUNCT	PUNCT	_	2	punct	_	SpaceAfter=No|TokenRange=85:86

@juliana-gurgel
Copy link
Collaborator

Tirando essas observações, @juliana-gurgel , está tudo correto. Mas poste aqui, por favor, a versão a ser anotada pra eu dar mais uma olhada. - @leoalenc

Casasnovas2006:12:26:192 (p. 99, No. 28-30):

# text = Aintá umaramunha pukusawa, paá, ií upurakari aintá igara upé, ape, paá, aintá uyupipika paraná pitérupi, aintá uyupirú ta uwitá.
# text_orig = Aintá umuramunha pukusawa, paá, ií upurakái aintá igara upé, ape, paá,aintá uyupipika paraná pitérupi, aintá uyupirú ta uwitá.
# text_por = Durante a luta, as canoas começaram a se encher de água, até que todos se alagaram no meio do rio, e começaram a nadar.
# cross_reference = Avila2021:30:1:346, Avila2021:30:2:347

Casasnovas2006:12:27:193 (p. 99, No. 30-31):

# text = Kurukuí uwitá yepé ruaxara kití uyeréu yepé pirantá turusú waá, aité kwá sera Kurukuí.
# text_orig = Kurukuí uwitá yepé rwaxara kití uyeréu yepé pirantá turusú waá, aeté kwa sera Kurukuí.
# text_por = Kurukuí nadou para o lado esquerdo transformando-se na cachoeira chamada Kurukuí.
# cross_reference = Avila2021:2:1:10, Avila2021:2:2:11

Casasnovas2006:12:28:194 (p. 99, No. 32-33):

# text = Buburi, kirimbawa piri, uwitá amú ruaxara kití uyeréu amú pirantá turusú piri, sera Buburi.
# text_orig = Buburi, kirimbawa piri, uwitá amú ruaxara kití uyeréu amú pírantá turusú piri, sera Buburi.
# text_por = Buburi, o mais forte guerreiro, nadou para o outro lado e tornou-se a enorme cachoeira de Buburi.
# cross_reference = Avila2021:18:1:175, Avila2021:18:2:176

Casasnovas2006:12:29:195 (p. 99, No. 34):

# text = Adana, paá, uyupipika paraná pitérupi uyeréu yepé kapuãmu, sera waá Adana.
# text_orig = Adana, paá, uyupipika paraná pitérupi uyeréu yepé kapwamu, sera waá Adana.
# text_por = Adana se alagou no meio dos dois e transformou-se na ilha que hoje chamamos Adana.

Casasnovas2006:12:30:196 (p. 100, No. 35):

# text = Yawé resewara nhaã musapiri, paá, iké pawa tẽ ta uikú, yané tawa upé.
# text_orig = Yawé resewara nhaã musapiri, paá, iké pawaté ta uikú, yané tawa upé.
# text_por = Dizem que até hoje os três continuam vivendo naquele lugar.
# next = Avila2021:0:0:517

A sentença do segmento, No. 36, p. 100, abaixo, não será incluída no Nheengabank, pois já está no treebank do CompLin (Avila2021:0:0:517). Mencionei-a no metadado next da sentença Casasnovas2006:12:30:196 :

Mukũi kurumĩ-wasú kirimbawaitá ta upitá ta umanhana uikú kwa kunhã-mukú puranga.
Os dois moços guerreiros são os guardas da bela moça.

Casasnovas2006:12:31:197 (p. 100, No. 37-38):

# text = Kuxiima mira-itá ta usú muíri akayú nhaã kapuãmu kití ta uyaxiú umandwari ramé Adana, asuí ta uyuíri umunhã arã dabukurí Kurukuí iwikuí upé.
# text_orig = Kuxiíma miraitá ta usú muíri akayú nhaã kapuamu kití ta uyaxiú umandwari ramé Adana, asuí ta uyuíri umunhã arã dabukurí Kurukuí iwí-kwí upé.
# text_por = Outrora todos os anos ia o povo à ilha chorar a lembrança da Adana, em seguida atravessavam a cachoeira Kurukuí e faziam dabukurí na praia.

Casasnovas2006:12:32:198 (p. 100, No. 39-40):

# text_orig = Iké, yané tawa upé, "São Gabriel da Cachoeira", panhé yandé yamandwari kwa kunhã-mukú puranga, sera waá ADANA.
# text_por = Nesta nossa cidade de São Gabriel da Cachoeira, continua viva a lembrança de ADANA, A MAIS BELA MOÇA DO RIO NEGRO.

@leoalenc
Copy link
Contributor Author

leoalenc commented Sep 23, 2024

@juliana-gurgel , tudo certo. Ótimo trabalho.

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
corpus This issue pertains to corpus data high-priority This should be solved ASAP invalid This doesn't seem right sentence-segmentation
Projects
None yet
Development

No branches or pull requests

2 participants