-
Notifications
You must be signed in to change notification settings - Fork 1
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
segmentação errada de sentenças da Lenda 12 de Casasnovas (2006) #585
Comments
@juliana-gurgel , no seu repositório, encontrei o seguinte:
Ou seja, você já tinha feito a identificação correta das sentenças. Parece que isso afeta todas as sentenças atualmente no presente repositório desprovidas de ponto final (#555 ). |
Relaciona-se com #555. |
Professor @leoalenc, vi no treebank do CompLin que Seguindo o raciocínio, fiz o mesmo com as sentenças dos segmentos:
Se, mesmo assim, for necessária a correção, posso fazer a correção e enviar aqui nesta issue, por comentário, para o senhor validar antes de eu subir para o Nheengabank?
Professor, quando fiz a nova segmentação desta sentença, fiz a correção no meu repositório, mas acabei não atualizando-o. Inclusive, na mesma ocasião, alterei a segmentação de sentenças posteriores a esta. Foi até bom não ter subido ainda essas sentenças para o repositório do Nheengabank, pois fiz a atualização da Lenda 12 no repositório e, assim, o senhor pode conferir se a segmentação está correta antes da anotação. |
@juliana-gurgel , a segmentação de Avila (2021) frequentemente discrepa do original. Ora ele junta coisas que estão separadas, ora separa o que está junto nos textos originais, entre várias outras intervenções, conforme explica na sua tese. É por isso que ele coloca a abreviatura adapt. na maioria de seus exemplos. Portanto, os exemplos de Avila (2021) refletem uma outra realidade linguística, representando uma linguagem normatizada, gerando a necessidade de incluir no treebank as sentenças originais com suas respectivas anotações. Nosso propósito difere o de Avila (2021). Com nosso treebank, pretendemos facilitar o estudo por meios computacionais da evolução histórica do nheengatu e da sua variação dialetal, além de implementar um parser robusto capaz de lidar com a diversidade da língua em textos reais. |
Professor @leoalenc , considerando a sua explicação, gostaria de consultar o senhor sobre esta proposta de segmentação das últimas sentenças da Lenda 12:
# text_orig = Aintá umuramunha pukusawa, paá, ií upurakái aintá igara upé, Ape, paá, aintá uyupipika paraná pitérupi, Aintá uyupirú ta uwitá.
# text_por = Durante a luta, as canoas começaram a se encher de água, Até que todos se alagaram no meio do rio, E começaram a nadar.
# cross_reference = Avila2021:30:1:346, Avila2021:30:2:347
# text_orig = Kurukuí uwitá yepé rwaxara kití Uyeréu yepé pirantá turusú waá, aeté kwa sera Kurukuí.
# text_por = Kurukuí nadou para o lado esquerdo Transformando-se na cachoeira chamada Kurukuí.
# cross_reference = Avila2021:2:1:10, Avila2021:2:2:11
# text_orig = Buburi, kirimbawa piri, uwitá amú ruaxara kití Uyeréu amú pírantá turusú piri, sera Buburi.
# text_por = Buburi, o mais forte guerreiro, nadou para o outro lado E tornou-se a enorme cachoeira de Buburi.
# cross_reference = Avila2021:18:1:175, Avila2021:18:2:176
# text_orig = Adana, paá, uyupipika paraná pitérupi uyeréu yepé kapwamu, sera waá Adana.
# text_por = Adana se alagou no meio dos dois e transformou-se na ilha que hoje chamamos Adana.
# text_orig = Yawé resewara nhaã musapiri, paá, iké pawaté ta uikú, yané tawa upé.
# text_por = Dizem que até hoje os três continuam vivendo naquele lugar.
# next = Avila2021:0:0:517 A sentença do segmento, No. 36, p. 100, abaixo, não será incluída no Nheengabank, pois já está no treebank do CompLin (
# text_orig = Kuxiíma miraitá ta usú muíri akayú nhaã kapuamu kití ta uyaxiú umandwari ramé Adana, Asuí ta uyuíri umunhã arã dabukurí Kurukuí iwí-kwí upé.
# text_por = Outrora todos os anos ia o povo à ilha chorar a lembrança da Adana, Em seguida atravessavam a cachoeira Kurukuí e faziam dabukurí na praia.
# text_orig = Iké, yané tawa upé, "São Gabriel da Cachoeira", panhé yandé yamandwari kwa kunhã-mukú puranga, sera waá ADANA.
# text_por = Nesta nossa cidade de São Gabriel da Cachoeira, continua viva a lembrança de ADANA, A MAIS BELA MOÇA DO RIO NEGRO. |
@juliana-gurgel , bom trabalho. Obrigado. Minhas observações: |
@juliana-gurgel , como estamos realizando uma normalização ortográfica tanto do original quanto da tradução, conforme |
Tirando essas observações, @juliana-gurgel , está tudo correto. Mas poste aqui, por favor, a versão a ser anotada pra eu dar mais uma olhada. |
@leoalenc, vi que em
# sent_id = Casasnovas2006:12:27:193
# text = Kurukuí uwitá yepé ruaxara kití uyeréu yepé pirantá turusú waá, aité kwá sera Kurukuí.
# text_eng = TODO
# text_por = Kurukuí nadou para o lado esquerdo transformando-se na cachoeira chamada Kurukuí.
# text_source = p. 99, No. 30-31
# text_orig = Kurukuí uwitá yepé rwaxara kití uyeréu yepé pirantá turusú waá, aeté kwa sera Kurukuí.
# text_annotator = Juliana Lopes Gurgel
# text_sec = Kurukuí uwitá yepé ruaxara kití. Uyeréu yepé pirantá turusú waá, aité kwá sera Kurukuí.
# text_por_sec = Kurukuí nadou para um lado. Virou uma grande cachoeira, o nome dessa é Kurukuí.
# text_sec_source = Avila (2021)
# text_por_sec_source = Avila (2021)
# cross_reference = Avila2021:2:1:10, Avila2021:2:2:11
# acknowledgement = DACILAT Project, FAPESP's Process No. 2022/09158-5
# inputline = Kurukuí uwitá yepé/art ruaxara/n kití uyeréu yepé/art pirantá/n turusú/a waá, aité kwá/demx sera/n+ncont Kurukuí.
1 Kurukuí kurukuí PROPN PROPN _ 2 nsubj _ TokenRange=0:7
2 uwitá witá VERB V Mood=Ind|Person=3|VerbForm=Fin 0 root _ TokenRange=8:13
3 yepé yepé PRON ART Definite=Ind|PronType=Art 4 det _ TokenRange=14:18
4 ruaxara suaxara NOUN N Number=Sing|Rel=Cont 2 obl _ TokenRange=19:26
5 kití kití ADP ADP AdpType=Post 4 case _ TokenRange=27:31
6 uyeréu yeréu VERB V Mood=Ind|Person=3|VerbForm=Fin 2 parataxis _ TokenRange=32:38
7 yepé yepé DET ART Definite=Ind|PronType=Art 8 det _ TokenRange=39:43
8 pirantá pirantá NOUN N Number=Sing 6 xcomp _ TokenRange=44:51
9 turusú turusú ADJ A _ 8 acl:relcl _ TokenRange=52:58
10 waá waá PRON REL Number=Sing|PronType=Rel 9 nsubj _ SpaceAfter=No|TokenRange=59:62
11 , , PUNCT PUNCT _ 15 punct _ TokenRange=62:63
12 aité aité PRON EMP PronType=Emp 14 nsubj _ TokenRange=64:68
13 kwá kwá DET DEMX Deixis=Prox|Number=Sing|PronType=Dem 12 det _ TokenRange=69:72
14 sera sera NOUN N Number=Sing|Number[psor]=Sing|Person[psor]=3|Rel=NCont 15 nsubj _ TokenRange=73:77
15 Kurukuí kurukuí PROPN PROPN _ 6 parataxis _ SpaceAfter=No|TokenRange=78:85
16 . . PUNCT PUNCT _ 2 punct _ SpaceAfter=No|TokenRange=85:86 |
# text = Aintá umaramunha pukusawa, paá, ií upurakari aintá igara upé, ape, paá, aintá uyupipika paraná pitérupi, aintá uyupirú ta uwitá.
# text_orig = Aintá umuramunha pukusawa, paá, ií upurakái aintá igara upé, ape, paá,aintá uyupipika paraná pitérupi, aintá uyupirú ta uwitá.
# text_por = Durante a luta, as canoas começaram a se encher de água, até que todos se alagaram no meio do rio, e começaram a nadar.
# cross_reference = Avila2021:30:1:346, Avila2021:30:2:347
# text = Kurukuí uwitá yepé ruaxara kití uyeréu yepé pirantá turusú waá, aité kwá sera Kurukuí.
# text_orig = Kurukuí uwitá yepé rwaxara kití uyeréu yepé pirantá turusú waá, aeté kwa sera Kurukuí.
# text_por = Kurukuí nadou para o lado esquerdo transformando-se na cachoeira chamada Kurukuí.
# cross_reference = Avila2021:2:1:10, Avila2021:2:2:11
# text = Buburi, kirimbawa piri, uwitá amú ruaxara kití uyeréu amú pirantá turusú piri, sera Buburi.
# text_orig = Buburi, kirimbawa piri, uwitá amú ruaxara kití uyeréu amú pírantá turusú piri, sera Buburi.
# text_por = Buburi, o mais forte guerreiro, nadou para o outro lado e tornou-se a enorme cachoeira de Buburi.
# cross_reference = Avila2021:18:1:175, Avila2021:18:2:176
# text = Adana, paá, uyupipika paraná pitérupi uyeréu yepé kapuãmu, sera waá Adana.
# text_orig = Adana, paá, uyupipika paraná pitérupi uyeréu yepé kapwamu, sera waá Adana.
# text_por = Adana se alagou no meio dos dois e transformou-se na ilha que hoje chamamos Adana.
# text = Yawé resewara nhaã musapiri, paá, iké pawa tẽ ta uikú, yané tawa upé.
# text_orig = Yawé resewara nhaã musapiri, paá, iké pawaté ta uikú, yané tawa upé.
# text_por = Dizem que até hoje os três continuam vivendo naquele lugar.
# next = Avila2021:0:0:517 A sentença do segmento, No. 36, p. 100, abaixo, não será incluída no Nheengabank, pois já está no treebank do CompLin (
# text = Kuxiima mira-itá ta usú muíri akayú nhaã kapuãmu kití ta uyaxiú umandwari ramé Adana, asuí ta uyuíri umunhã arã dabukurí Kurukuí iwikuí upé.
# text_orig = Kuxiíma miraitá ta usú muíri akayú nhaã kapuamu kití ta uyaxiú umandwari ramé Adana, asuí ta uyuíri umunhã arã dabukurí Kurukuí iwí-kwí upé.
# text_por = Outrora todos os anos ia o povo à ilha chorar a lembrança da Adana, em seguida atravessavam a cachoeira Kurukuí e faziam dabukurí na praia.
# text_orig = Iké, yané tawa upé, "São Gabriel da Cachoeira", panhé yandé yamandwari kwa kunhã-mukú puranga, sera waá ADANA.
# text_por = Nesta nossa cidade de São Gabriel da Cachoeira, continua viva a lembrança de ADANA, A MAIS BELA MOÇA DO RIO NEGRO. |
@juliana-gurgel , tudo certo. Ótimo trabalho. |
Casasnovas2006:12:29:195
deve ser modificada para incluir numa única sentença o que se encontra emAvila2021:2:1:10
.@juliana-gurgel , tome como ponto de partida a versão que se encontra neste repositório, pois editei várias sentenças das que você anotou.
The text was updated successfully, but these errors were encountered: