Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

anotação das palavras "tuyué" e "kwaíra" com etiquetas não incluídas no glossário #524

Closed
juliana-gurgel opened this issue Aug 27, 2024 · 5 comments
Assignees
Labels
corpus This issue pertains to corpus data lexicon This issue relates to lexical data question Further information is requested tagging This issue relates to pos-tagging

Comments

@juliana-gurgel
Copy link
Collaborator

juliana-gurgel commented Aug 27, 2024

Neste commit, anotei as palavras "tuyué" e "kwaíra" com etiquetas que não incluídas no glossário.

1. "tuyué"

Casasnovas2006:11:20:151
Anotei a palavra "tuyué" como "A" ("adj."). Sugestão: Inclusão da pos "adj." ao lema tuyué.

Justificativa:

Ávila (2021):

tuyué

  1. (s.) velho, homem velho, homem idoso, ancião: Panhẽ mira-itá surí uyana i kití, tuyué-itá uri arama umaã sesé. (Rodrigues, 108, adap.) - Todas as pessoas correram felizes em sua direção, para que os velhos viessem vê-lo.
    (...)
    4) (adj.) velho (falando de homem ou macho) (...) Mikura tuyué uyupiri mirá upé. (Rodrigues, 192, adap.) - O velho mucura macho subiu no pau.

Não encontrei a forma "tuyuwé" lematizada no dicionário de Ávila (2021), mas esta forma aparece no glossário com as duas classes de palavra "s. / adj.", enquanto "tuyué" só aparece como "s.".

2. "kwaíra"

Casasnovas2006:11:23:154
Anotei a palavra "kwaíra" como "ADVS" ("adv."). Sugestão: Inclusão da pos "adv." ao lema kwaíra.

Justificativa:

No Glossário temos, para a palavra "kwaíra", as classes de palavra "adj." e "pron. quant.". Entretanto, na sentença Casasnovas2006:11:23:154, me parece que esta palavra deveria ser classificada como advérbio, conforme exemplos com estruturas análogas extraídos de Ávila (2021):

kwaíra (var. kwayaíra [hist.])

  1. (adj.) pequeno: yawara-kaapura: [...] marupiára aintá. Aikwé turusú waá asuí kwaíra waá. Umbaá yambaú aé. Nharú aintá. (Payema, 61, adap.) - cachorro-do-mato: [...] eles são bons caçadores. Há o que é grande e o que é pequeno. Nós não o comemos. Eles são bravos.
  2. (pron. indef. (s. e adj.)) pouco, um pouco (de), uma pequena quantidade (de): Kwaíra maniakambeka saí waá uxari saí panhẽ kwá kunhã ukitika waá. (O Novo Testamento em nyengatu, Gálatas, 5:9) - Um pouco de puba azeda deixa azedo tudo o que a mulher rala.;
    (...)
    3) (adv.) pouco, um poco; em pequena quantidade: [...] ampinima penhẽ arama kwaíra, [...]. (O Novo Testamento em nyengatu, 1 Pedro 5:12, adap.) - [...] escrevi um pouco para vocês, [...].; ― Rembaú kurí yané irumu? ― Eẽ, ma remburi kwaíra ixé arama, ti ambaú-putari turusú.; ― Você vai comer com a gente? ― Sim, mas ponha pouco para mim, não quero comer muito.

Qual a sua análise desses casos, professor @leoalenc ?

@leoalenc leoalenc added question Further information is requested corpus This issue pertains to corpus data lexicon This issue relates to lexical data testing Testing data and code labels Aug 28, 2024
@leoalenc
Copy link
Contributor

leoalenc commented Aug 28, 2024

  • remover tuyuwé do glossário
  • corrigir Navarro2016:0:0:155

@leoalenc
Copy link
Contributor

Neste commit, anotei as palavras "tuyué" e "kwaíra" com etiquetas que não incluídas no glossário.

1. "tuyué"

Casasnovas2006:11:20:151 Anotei a palavra "tuyué" como "A" ("adj."). Sugestão: Inclusão da pos "adj." ao lema tuyué.

Justificativa:

Ávila (2021):

tuyué

  1. (s.) velho, homem velho, homem idoso, ancião: Panhẽ mira-itá surí uyana i kití, tuyué-itá uri arama umaã sesé. (Rodrigues, 108, adap.) - Todas as pessoas correram felizes em sua direção, para que os velhos viessem vê-lo.
    (...)
    4) (adj.) velho (falando de homem ou macho) (...) Mikura tuyué uyupiri mirá upé. (Rodrigues, 192, adap.) - O velho mucura macho subiu no pau.

@juliana-gurgel , no treebank, temos a mesma construção N tuyué que Mikura tuyué, onde sempre tuyué é um N. Poderíamos seguir Avila (2021) ou Navarro (2011), como você propõe. No entanto, parece-me que nesse casos temos uma projeção da análise da tradução em português sobre a análise do nheengatu. Cruz (2011, p. 260) propõe que esses sintagmas constituem construções genitivas, como em se paya ambira 'o meu falecido pai' (literalmente 'o falecido do meu pai'), onde ambira é N:

Conforme explica Dietrich (2000), a estrutura complemento-
nome das línguas Tupi-Guarani é muitas vezes traduzida pela
estrutura nome-adjetivo nas línguas indo-europeias. Nomes de
semântica genérica como ambira ‘falecido’, usado exclusivamente
para entidades humanas [...].

Em português, temos ocasionalmente construção parecida: uma maravilha de carro, i.e, um carro maravilhoso.

Ver também http://www.etnolinguistica.org/biblio:queixalos-2016-sintagma

Para manter coerência, peço que siga o modelo de Casasnovas2006:7:10:10, Casasnovas2006:7:15:15, Amorim1928:19:3:3 etc.

Não encontrei a forma "tuyuwé" lematizada no dicionário de Ávila (2021), mas esta forma aparece no glossário com as duas classes de palavra "s. / adj.", enquanto "tuyué" só aparece como "s.".

Isso veio do glossário de Navarro (2016). Vou eliminar essa variante em prol da proposta de normalização que temos seguido.

2. "kwaíra"

Casasnovas2006:11:23:154 Anotei a palavra "kwaíra" como "ADVS" ("adv."). Sugestão: Inclusão da pos "adv." ao lema kwaíra.

Justificativa:

No Glossário temos, para a palavra "kwaíra", as classes de palavra "adj." e "pron. quant.". Entretanto, na sentença Casasnovas2006:11:23:154, me parece que esta palavra deveria ser classificada como advérbio, conforme exemplos com estruturas análogas extraídos de Ávila (2021):

kwaíra (var. kwayaíra [hist.])

  1. (adj.) pequeno: yawara-kaapura: [...] marupiára aintá. Aikwé turusú waá asuí kwaíra waá. Umbaá yambaú aé. Nharú aintá. (Payema, 61, adap.) - cachorro-do-mato: [...] eles são bons caçadores. Há o que é grande e o que é pequeno. Nós não o comemos. Eles são bravos.
  2. (pron. indef. (s. e adj.)) pouco, um pouco (de), uma pequena quantidade (de): Kwaíra maniakambeka saí waá uxari saí panhẽ kwá kunhã ukitika waá. (O Novo Testamento em nyengatu, Gálatas, 5:9) - Um pouco de puba azeda deixa azedo tudo o que a mulher rala.;
    (...)
    3) (adv.) pouco, um poco; em pequena quantidade: [...] ampinima penhẽ arama kwaíra, [...]. (O Novo Testamento em nyengatu, 1 Pedro 5:12, adap.) - [...] escrevi um pouco para vocês, [...].; ― Rembaú kurí yané irumu? ― Eẽ, ma remburi kwaíra ixé arama, ti ambaú-putari turusú.; ― Você vai comer com a gente? ― Sim, mas ponha pouco para mim, não quero comer muito.

Não consigo enxergar a necessidade da acepção 3, muito menos classificá-la como adv. Trata-se de pronome, que pode funcionar como modificador ("adjetivo") ou núcleo ("substantivo") do sintagma nominal, ou seja, pron. indef. (s. e adj.).
Veja que um pouco é um sintagma nominal até em português.

Qual a sua análise desses casos, professor @leoalenc ?

@juliana-gurgel , veja minhas respostas acima, entremeadas com seus comentários. Se tiver mais alguma dúvida, poste aqui. Caso contrário, feche a questão.

leoalenc added a commit that referenced this issue Aug 28, 2024
@leoalenc
Copy link
Contributor

@juliana-gurgel , discrepância análoga entre Avila (2021) e Cruz (2011) envolve a análise de kwera (#294 ). Em exemplos mais recentes, tenho sempre analisado kwera como N, seguindo Cruz (2011). Mas há ainda inconsistências no treebank.

@leoalenc leoalenc added tagging This issue relates to pos-tagging and removed testing Testing data and code labels Aug 28, 2024
@leoalenc
Copy link
Contributor

leoalenc commented Aug 28, 2024

@juliana-gurgel , de modo geral, não devemos anotar uma palavra existente no glossário com a classe diferente das que estão lá. Se suspeitarmos que a lista de classes de palavras de uma determinada entrada do glossário está incompleta, devemos abrir uma questão (issue) a respeito e suspender o processo de anotação da sentença até que a questão seja resolvida. Com isso, garantimos a uniformidade das análises do banco de árvores. Essa uniformidade no plano da classificação de palavras é garantida pelo glossário, acessível a todos os anotadores e revisores e aplicado automaticamente pelo Yauti. @heliolbs , essa é uma questão importante que envolve decisões a serem incluídas em um dos fluxogramas.
É preciso levar em conta que os diferentes autores divergem na classificação de palavras do nheengatu e nenhum seguiu os princípios do modelo dependências universais. Portanto, estamos construindo nosso próprio sistema de partes do discurso do nheengatu visando à anotação morfossintática com base na teoria das dependências universais e procurando respeitar a índole da língua em vez de projetar análises do português sobre ela. Outra coisa importante a ressaltar é que, no estado atual do banco de árvores, com mais de 1700 sentenças, temos exemplos das principais palavras, sobretudo aquelas de classes fechadas. As entradas do glossário especificam o tratamento recomendado para essas palavras em termos de classificação. É claro que devem existir lacunas, que devem ser apontadas com abertura de questões neste repositório.

@leoalenc
Copy link
Contributor

leoalenc commented Aug 31, 2024

@heliolbs , esta issue é relevante para refinamento do fluxograma de #521 , representando um caso mais específico do problema geral do tratamento de palavra desconhecida (#55 #512 etc.): o anotador ou anotadora (ou revisor etc.) julga que uma palavra conhecida, ou seja, constante do glossário, carece de uma etiqueta do conjunto XPOS. Essa dúvida deve suspender a anotação, deflagrando uma série de processos:

  1. consulta à literatura, sobretudo Avila (2021), que constitui o referencial que norteia as escolhas de lematização e classificação de palavras (salvo exceções, como exemplificadas em "ambira" como adjetivo em vez de substantivo #374 e Análise de "kwera" #294 etc.)
  2. consulta ao treebank na versão mais atual (que podemos convencionar designar por TB-DEV, embora esteja no momento no ramo main deste repositório, ou outro nome mais sugestivo, como TB-COMPLIN)
  3. abertura de issue para discussão sobre inclusão ou não da XPOS
  4. fechamento da issue com decisão sobre inclusão ou não
  5. prosseguimento do processo de anotação/revisão

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
corpus This issue pertains to corpus data lexicon This issue relates to lexical data question Further information is requested tagging This issue relates to pos-tagging
Projects
None yet
Development

No branches or pull requests

2 participants