Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

anotação e revisão coletiva de sentenças de Hartt (1938), Magalhães (1876) e Studart (1926) #575

Open
1 task
leoalenc opened this issue Sep 17, 2024 · 6 comments
Assignees
Labels
corpus This issue pertains to corpus data enhancement New feature or request high-priority This should be solved ASAP MWE Issues about multiword expressions UD Annotation This issue relates to Universal Dependencies annotation

Comments

@leoalenc
Copy link
Contributor

Avila (2021):

Tupana resé, remeẽ maã aú arama, se yumasí reté. (Hartt, 320, adap.) - Por deus, dá-me algo para comer, estou com muita fome.; Aé uú-putari maã. (Studart, 36, adap.) - Ele quer comer algo.

Kwaá kunhamukú ti rẽ ukwáu maã resewara. (Hartt, 355, adap.) - Esta moça ainda não sabe de nada.; Se pú i karuára uikú, ti apisika-kwáu maã. (Hartt, 377, adap.) - Eu tenho reumatismo da mão, não posso pegar nada.; Aintá ti upiripana-putari maã. (Magalhães, 66, adap.) - Eles não querem comprar nada.

@leoalenc leoalenc added enhancement New feature or request corpus This issue pertains to corpus data UD Annotation This issue relates to Universal Dependencies annotation MWE Issues about multiword expressions high-priority This should be solved ASAP labels Sep 17, 2024
@heliolbs
Copy link
Collaborator

heliolbs commented Sep 23, 2024

Ao nomearmos as sentenças e organizarmos o fluxo de trabalho de anotação e revisão, foram constatadas duas questões:

  1. As cinco sentenças cuja anotação foi solicitada já possuem sentenças equivalentes, mais ou menos similares, incluídas no treebank:
Sentença a ser incluída Equivalente já presente no treebank
Studart1926:3660:0:36550 Avila2021:0:0:534
Hartt1938:0:0:436 Avila2021:0:0:448
Hartt1938:0:0:502 Avila2021:0:0:535
Hartt1938:0:0:800 Avila2021:0:0:536
Magalhaes1876:1-12:0:151 Avila2021:0:0:537
  1. A normalização ortográfica de Studart1926:3660:0:36550 (id provisório) se mostrou idêntica a sua equivalente Avila2021:0:0:534, já presente no treebank. Levando em conta recomendações passadas, decidimos não anotar a sentença idêntica mas apenas revisar a sentença já incorporada e adicionar a ela os metadados pertinentes.

Desse modo, o fluxo de trabalho tomou a seguinte forma:

Sentença\Etapa Anotação Revisão1 Revisão 2
Avila2021:0:0:534 Leonel ✔ Hélio ✔ Dominick ✔
Hartt1938:0:0:436 Dominick ✔ Hélio ✔ Leonel ⌛
Avila2021:0:0:448 Leonel ✔ Dominick ✔ Hélio ✔
Hartt1938:0:0:502 Dominick ✔ Hélio ✔ Leonel ⌛
Avila2021:0:0:535 Leonel ✔ Dominick ✔ Hélio ✔
Hartt1938:0:0:800 Dominick ✔ Hélio ✔ Leonel ⌛
Avila2021:0:0:536 Leonel ✔ Dominick ✔ Hélio ✔
Magalhaes1876:1-12:0:151 Hélio ✔ Dominick ✔ Leonel ⌛
Avila2021:0:0:537 Leonel ✔ Dominick ✔ Hélio ✔

✔ Concluído
⌛ Pendente

@heliolbs
Copy link
Collaborator

@leoalenc , neste commit se encontra a dupla revisão de Avila2021:0:0:534, uma das sentenças que já se se encontravam anotadas no treebank.

Eu e @dominickmaia concordamos com a anotação original e não vimos necessidade de nenhuma alteração. Entretanto, pareceu-nos pertinente incluir, além de reviewer1, reviewer2 e inputline, outros três metadados. Segue a lista completa de adições:

# text_prim = Ahé ú putare mahã.
# text_por_prim = Elle quer comer alguma cousa
# text_prim_source = Studart, 36
# reviewer1 = Hélio Leonam Barroso Silva
# reviewer2 = Dominick Maia Alexandre
# inputline = Aé/pron uú-putari maã/ind.

@heliolbs
Copy link
Collaborator

@leoalenc , neste commit consta a dupla revisão de Avila2021:0:0:448 assim como a anotação e revisão de Hartt1938:0:0:436.

Na dupla revisão de Avila2021:0:0:448, resolvemos manualmente a ambiguidade do atributo Mood da forma remeẽ. Além disso, incluímos os seguintes metadados:

  • text_prim
  • text_por_prim
  • text_prim_source
  • cross_reference
  • reviewer1
  • reviewer2
  • inputline

Em Hartt1938:0:0:436, temos as formas arcaicas emeẽ e xaú, que constam em Avila2021:0:0:448 como suas formas modernas remeẽ e . Acreditamos que tenha sido fruto da adaptação feita por Ávila (2021). Além disso, chamamos atenção para nosso uso dos metadados text_sec, text_sec_source e cross_reference na anotação e na revisão dessa sentença.

@heliolbs
Copy link
Collaborator

heliolbs commented Sep 23, 2024

@leoalenc , neste commit constam a dupla revisão de Avila2021:0:0:535 assim como a anotação e revisão de Hartt1938:0:0:502.

Na dupla revisão de Avila2021:0:0:535, incluímos os seguintes metadados:

  • text_prim
  • text_por_prim
  • text_prim_source
  • cross_reference
  • reviewer1
  • reviewer2
  • inputline

Em Hartt1938:0:0:502, temos as variantes intí e ranhẽ, que constam em Avila2021:0:0:535 como as variantes ti e rẽ. Acreditamos que tenha sido fruto da adaptação feita por Ávila (2021). Além disso, chamamos atenção para nosso uso dos metadados text_sec, text_sec_source e cross_reference na anotação e na revisão dessa sentença.

@heliolbs
Copy link
Collaborator

heliolbs commented Sep 23, 2024

@leoalenc , neste commit constam a dupla revisão de Avila2021:0:0:536 assim como a anotação e revisão de Hartt1938:0:0:800.

Na dupla revisão de Avila2021:0:0:536, incluímos os seguintes metadados:

  • text_prim
  • text_prim_source
  • cross_reference
  • reviewer1
  • reviewer2
  • inputline

Note que o metadado text_por_prim não foi incluído, pois a tradução para o português na fonte primária é idêntica à da fonte secundária.

Em Hartt1938:0:0:800, temos as formas intí e xapisika, que constam em Avila2021:0:0:536 como as variantes ti e a forma moderna apisika. Acreditamos que tenha sido fruto da adaptação feita por Ávila (2021). Além disso, chamamos atenção para nosso uso dos metadados text_sec, text_sec_source e cross_reference na anotação e na revisão dessa sentença.

@heliolbs
Copy link
Collaborator

@leoalenc , neste commit constam a dupla revisão de Avila2021:0:0:537 assim como a anotação e revisão de Magalhaes1876:1-12:0:151.

Na dupla revisão de Avila2021:0:0:537, incluímos os seguintes metadados:

  • text_prim
  • text_prim_source
  • cross_reference
  • reviewer1
  • reviewer2
  • inputline

Note que o metadado text_por_prim não foi incluído, pois a tradução para o português na fonte primária é idêntica à da fonte secundária.

O valor do atributo sent_id de Magalhaes1876:1-12:0:151 foi composto por analogia com o da sentença Magalhaes1876:1-12:0:101. A função translate do script Magalhaes.py foi usada para converter as combinações de caracteres especiais e preencher o valor do atributo text_orig de Magalhaes1876:1-12:0:151. A variante intí dessa sentença foi substituída por Ávila (2021) por uma variante, por isso consta em Avila2021:0:0:537 como ti. Acreditamos que tenha sido fruto da adaptação feita por Ávila (2021). Além disso, chamamos atenção para nosso uso dos metadados text_sec, text_sec_source e cross_reference na anotação e na revisão dessa sentença.

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
corpus This issue pertains to corpus data enhancement New feature or request high-priority This should be solved ASAP MWE Issues about multiword expressions UD Annotation This issue relates to Universal Dependencies annotation
Projects
None yet
Development

No branches or pull requests

4 participants