Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

desdobramento de "marã" em "maã arã" na expressão "ti (ã) marã" #591

Open
4 of 6 tasks
leoalenc opened this issue Sep 23, 2024 · 13 comments
Open
4 of 6 tasks
Assignees
Labels
corpus This issue pertains to corpus data enhancement New feature or request invalid This doesn't seem right tokenization This issue relates to tokenization tools This issue relates to Python code UD Annotation This issue relates to Universal Dependencies annotation

Comments

@leoalenc
Copy link
Contributor

leoalenc commented Sep 23, 2024

Avila (2021):

● ti + maã arama (~ maã arã, marama, marã) 1 (lit., para nada) - (utilizado para dizer que algo ou alguém não tem serventia:) não serve, não presta, não tem valor: Kwaá apigawa ti maã arama. (Hartt, 355) - Este homem não vale de nada.; [...] ti [...] yarikú apigawa umunhã arama taína yandé arama, tuyué [...] ti ana maã arama. (Rodrigues, 105, adap.) - [...] não [...] temos homens para fazer crianças para nós, os velhos [...] não prestam mais.

● ti + maã arama (~ maã arã, marama, marã) 2 (lit., para nada) - (utilizado para dizer que algo não é necessário:) não precisa, não é necessário, não há necessidade (de); não tem por que: ― Reputari será yepé kisé remunuka arã kwá tupasama? ― Umbaá, ti maã arama. - ― Você quer uma faca para cortar essa corda? ― Não, não precisa.; [...] kwá-itá i katú waá-itá [p. 432] ti maã arama aintá usikari umpusangasara aintá, ma kwá-itá maasiwera-itá aintá usikari aé. (O Novo Testamento em nyengatu, Lucas 5:31, adap.) - [...] os que estão sãos não precisam procurar médico, mas os enfermos procuram-no.

● ti + maã arama (~ maã arã, marama, marã) 3 (lit., para nada) - (utilizado para dizer que algo não importa:) não importa, não faz diferença: Regustari ramé Jesus Cristo, ti maã arama masuiwara indé. (Missão Novas Tribos do Brasil, 2016, canto 195, modif.) - Se você gosta de Jesus Cristo, não importa de onde você é.

● ti + wana (~ wã, ana, ã) + maã arama (~ maã arã, marama, marã) (lit., para mais nada) - (utilizado para dizer que um ser ― pessoa ou animal ― está sem forças ou em péssimo estado:) sem forças, inválido, em más condições, esgotado, acabado: Nẽ rẽ paá pitérupi manguarí usú uikú, mairamé umaã wainambí ti ã marã uyatikutikú paraname. (Casasnovas, 92, adap.) - O maguari não estava ainda nem na metade do trajeto, quando viu o beija-flor sem forças, boiando no rio.; [...], ti ã marã tuyu, xega sesatumawasú usururú, ti ã marã, [...] nhaã sesatuma-itá maã-ta iwitera yawé, [...]. (Leetra Indígena. n. 17, 61, adap.) - [...], o velho estava inválido, sua remelona chegava a escorrer, estava inválido, [...] aquelas remelas eram como montanhas, [...].; [...] ape paá ukaú wã, ti ã marã nhaã yakaré tuyué, [...]. (Leetra Indígena. n. 17, 77, adap.) - [...] então ele já estava embriagado, já estava sem forças aquele velho jacaré [...].

@leoalenc leoalenc added invalid This doesn't seem right corpus This issue pertains to corpus data tools This issue relates to Python code tokenization This issue relates to tokenization UD Annotation This issue relates to Universal Dependencies annotation labels Sep 23, 2024
@leoalenc leoalenc self-assigned this Sep 23, 2024
@leoalenc
Copy link
Contributor Author

dependency_tree

@leoalenc leoalenc added the enhancement New feature or request label Sep 24, 2024
leoalenc added a commit that referenced this issue Sep 24, 2024
@leoalenc leoalenc changed the title desdobrar "marã" em "maã arã" em Casasnovas2006:6:5:64 desdobramento de "marã" em "maã arã" na expressão "ti maã arã" Sep 24, 2024
@leoalenc leoalenc changed the title desdobramento de "marã" em "maã arã" na expressão "ti maã arã" desdobramento de "marã" em "maã arã" na expressão "ti (ã) marã" Sep 24, 2024
@juliana-gurgel
Copy link
Collaborator

[ ] anotar exemplo original de Hartt (1938) citado abaixo por Avila (2021) (@juliana-gurgel , @dominickmaia) - @leoalenc

# sent_id = Avila2021:0:0:727
# text = Kwaá apigawa ti maã arama.
# text_eng = TODO
# text_por = Este homem não vale de nada.
# text_source = Hartt, 355, adap.
# text_prim = kuaá apyáua intí maé aráma.
# text_prim_por = êste homem não vale de nada.
# text_prim_por_source = Hartt (1938), p. 355, No. 501
# text_annotator = Juliana Lopes Gurgel
# inputline = Kwaá/demx apigawa/n ti maã/ind arama/adp.
1	Kwaá	kwaá	DET	DEMX	Deixis=Prox|Number=Sing|PronType=Dem	2	det	_	TokenRange=0:4
2	apigawa	apigawa	NOUN	N	Number=Sing	4	nsubj	_	TokenRange=5:12
3	ti	ti	PART	NEG	PartType=Neg|Polarity=Neg	4	advmod	_	TokenRange=13:15
4	maã	maã	DET	IND	PronType=Ind	0	root	_	TokenRange=16:19
5	arama	arama	ADP	ADP	AdpType=Post	4	case	_	SpaceAfter=No|TokenRange=20:25
6	.	.	PUNCT	PUNCT	_	4	punct	_	SpaceAfter=No|TokenRange=25:26

@leoalenc
Copy link
Contributor Author

dependency_tree

@juliana-gurgel
Copy link
Collaborator

@leoalenc , fiz a anotação da sentença de Hartt e já postei aqui, mas a @dominickmaia fará a revisão da sentença.

@leoalenc
Copy link
Contributor Author

[ ] anotar exemplo original de Hartt (1938) citado abaixo por Avila (2021) (@juliana-gurgel , @dominickmaia) - @leoalenc

# sent_id = Avila2021:0:0:727
# text = Kwaá apigawa ti maã arama.
# text_eng = TODO
# text_por = Este homem não vale de nada.
# text_source = Hartt, 355, adap.
# text_prim = kuaá apyáua intí maé aráma.
# text_prim_por = êste homem não vale de nada.
# text_prim_por_source = Hartt (1938), p. 355, No. 501
# text_annotator = Juliana Lopes Gurgel
# inputline = Kwaá/demx apigawa/n ti maã/ind arama/adp.
1	Kwaá	kwaá	DET	DEMX	Deixis=Prox|Number=Sing|PronType=Dem	2	det	_	TokenRange=0:4
2	apigawa	apigawa	NOUN	N	Number=Sing	4	nsubj	_	TokenRange=5:12
3	ti	ti	PART	NEG	PartType=Neg|Polarity=Neg	4	advmod	_	TokenRange=13:15
4	maã	maã	DET	IND	PronType=Ind	0	root	_	TokenRange=16:19
5	arama	arama	ADP	ADP	AdpType=Post	4	case	_	SpaceAfter=No|TokenRange=20:25
6	.	.	PUNCT	PUNCT	_	4	punct	_	SpaceAfter=No|TokenRange=25:26

@juliana-gurgel , parabéns pela presteza e correção da análise. Pode incluir # reviewer1 = Leonel Figueiredo de Alencar. Mas talvez eu não tenha sido claro: o objetivo era anotar o exemplo original de Hartt e não o exemplo de Avila, que, neste caso, por acaso coincide com a nossa política de adaptação do original de Hartt (texto primário relativamente ao de Avila, como você corretamente identificou). Converse com @dominickmaia para reformatar os metadados do exemplo como Hartt1938:0:0:501. Inclu-a como reviewer2 se ela concordar com a anotação. Sobre nossa política atual em relação aos exemplos de Avila (2021), ver discussão em #575.

@juliana-gurgel
Copy link
Collaborator

juliana-gurgel commented Sep 24, 2024

Mas talvez eu não tenha sido claro: o objetivo era anotar o exemplo original de Hartt e não o exemplo de Avila, que, neste caso, por acaso coincide com a nossa política de adaptação do original de Hartt (texto primário relativamente ao de Avila, como você corretamente identificou). Converse com @dominickmaia para reformatar os metadados do exemplo como Hartt1938:0:0:501. Inclu-a como reviewer2 se ela concordar com a anotação.

@leoalenc , eu que não entendi a instrução e não conversei primeiro com a @dominickmaia. Nas próximas vezes, faremos a anotação juntas.

@dominickmaia , você concorda com a minha anotação?

@dominickmaia
Copy link
Collaborator

@juliana-gurgel , parabéns pela presteza e correção da análise. Pode incluir # reviewer1 = Leonel Figueiredo de Alencar. Mas talvez eu não tenha sido claro: o objetivo era anotar o exemplo original de Hartt e não o exemplo de Avila, que, neste caso, por acaso coincide com a nossa política de adaptação do original de Hartt (texto primário relativamente ao de Avila, como você corretamente identificou). Converse com @dominickmaia para reformatar os metadados do exemplo como Hartt1938:0:0:501. Inclu-a como reviewer2 se ela concordar com a anotação. Sobre nossa política atual em relação aos exemplos de Avila (2021), ver discussão em #575.

@leoalenc , eu que não entendi a instrução e não conversei primeiro com a @dominickmaia. Nas próximas vezes, faremos a anotação juntas.

@dominickmaia , você concorda com a minha anotação?

sim, concordo com a anotação. ainda hoje incluo os metadados.

@leoalenc essa sentença ficará sendo a Hartt1938:0:0:501 ou Avila2021:0:0:727? porque, na verdade, estaria diferente da nossa adaptação, já que nos exemplos de Hartt não estamos contraindo a forma intí

@leoalenc
Copy link
Contributor Author

@juliana-gurgel , parabéns pela presteza e correção da análise. Pode incluir # reviewer1 = Leonel Figueiredo de Alencar. Mas talvez eu não tenha sido claro: o objetivo era anotar o exemplo original de Hartt e não o exemplo de Avila, que, neste caso, por acaso coincide com a nossa política de adaptação do original de Hartt (texto primário relativamente ao de Avila, como você corretamente identificou). Converse com @dominickmaia para reformatar os metadados do exemplo como Hartt1938:0:0:501. Inclu-a como reviewer2 se ela concordar com a anotação. Sobre nossa política atual em relação aos exemplos de Avila (2021), ver discussão em #575.

@leoalenc , eu que não entendi a instrução e não conversei primeiro com a @dominickmaia. Nas próximas vezes, faremos a anotação juntas.
@dominickmaia , você concorda com a minha anotação?

sim, concordo com a anotação. ainda hoje incluo os metadados.

@leoalenc essa sentença ficará sendo a Hartt1938:0:0:501 ou Avila2021:0:0:727? porque, na verdade, estaria diferente da nossa adaptação, já que nos exemplos de Hartt não estamos contraindo a forma intí

Isso é importantíssimo para o fluxograma (#521 ). Veja que, segundo meu comentário em #575, visando ao melhor balanceamento do treebank, nosso objetivo maior agora são os exemplos originais de tudo que está disponível para consulta, logo, vamos incluir a sentença como Hartt1938:0:0:501, adotando a forma e lema intí de Avila (2021), que é a mais próxima do original de Hartt (1938). Se o exemplo já estivesse no treebank como Avila (2021), ainda assim justificaria incluir Hartt1938:0:0:501 por conta da discrepância entre ti e intí. Mas para ficar clara a política: não vamos incluir Avila2021:0:0:727. Que se trata de um exemplo que ocorre no dicionário de Avila (2021) vai ser informado nos metadados:

>>> text_sec=Yauti.mkSecTextAvila('Kwaá apigawa ti maã arama. (Hartt, 355) - Este homem não vale de nada.')
>>> text_sec
{'text_sec': 'Kwaá apigawa ti maã arama.', 'text_por_sec': 'Este homem não vale de nada.', 'text_sec_source': 'Avila (2021)', 'text_por_sec_source': 'Avila (2021)'}
>>> Yauti.ppMetadata(text_sec)
# text_sec = Kwaá apigawa ti maã arama.
# text_por_sec = Este homem não vale de nada.
# text_sec_source = Avila (2021)
# text_por_sec_source = Avila (2021)
>>> help(Yauti.parseExample)
Help on function parseExample in module AnnotateConllu:

parseExample(example, pref, textid, index, sentid, copyboard=True, annotator='Leonel Figueiredo de Alencar', check=True, outfile=False, overwrite=False, metadata={}, translate=True, inputline=True)

A variável text_sec pode ser passada como parâmetro metadata=text_sec na função parseExample.
@dominickmaia , se nos exemplos de Hartt (1938) vocês adaptaram intí como ti, isso precisa ser corrigido. Abra issue para tal neste repositório principal. Peça ajuda a @Levymelo e @juliana-gurgel .
Veja em Avila (2021):

grep -ahiwA 60 "^ti \(var" avila*.txt 

ti (var. intí [hist.]; intíu [hist.]) (part.) 1) não: Aé ti umbaú pirá kiinha-ima. - Ele não come peixe sem pimenta.; Kwá, se manha, ti usika yandé arama. (Rodrigues, 223, adap.) - Isto, minha mãe, não é o suficiente para nós.; Poronominare usemu-putari uka suí, ti aikwé marupí [...]. (Amorim, 157, adap.) - Poronominare queria sair de casa, não tinha por onde [...].;Anheẽ i xupé ti arama umunhã xibé, aramé piri aé umunhã. - Eu disse a ela que não fizesse xibé, aí que ela fez mais.; Ti manungara aé unheẽ (Amorim, 283, adap.) - Ela não disse coisa alguma.; Nhaã ti waá usendú ne nheenga reyuká (Rodrigues, 110, adap.) - Aquele que não der ouvidos à tua ordem tu mata.; Aité kwá kana ti waá urikú i pinimasawa, aité kwá kana piranga waá. (Payema, 16, adap.) - Esta é a cana que não tem pinta, esta é a cana vermelha.2) sem [expressando modo, como na construção portuguesa sem + v. no infinitivo]: Aé uwatá ti umaã sundé kití. - Ele anda sem olhar para a frente.; Aintá umaã yepé puranga reté ipeka upitá ií árupi, usú paraná pitera kití, ariré uyuíri sembiiwa kití ti uyumururú. (Amorim, 195, adap.) - Eles achavam muito bonito o pato ficar em cima da água, ir para o meio do rio, depois voltar para a beirada sem se molhar. ● ti maã1 - não (v. maã3) ● ti maã2 - não hã, não tem (v. maã3) ● ti sa maã ou umbaá sa maã - não é como se; não é que; na verdade não; de forma alguma, em nenhuma hipótese, nunca [trata-se de uma forma de negação enfãtica, utilizada para contrapor duas ideias ou fatos opostos, do tipo: não é X, mas é Y; ou não é como se fosse X, pois é Y; ou não é de forma alguma X, pois é Y etc. Entretanto, a ideia ou fato que se contrapõe à negação pode ser omitida] (v. maã1) ● ti será? - (expressão utilizada ao fim de uma oração, geralmente afirmativa, para solicitar a confirmação do que foi dito. Muitas vezes tem função expletiva:) não é? não é mesmo? não é verdade?: Puranga mirĩ nhaã yawara, ti será? - É bonitinho aquele cachorro, não é? ● NOTA GRAMATICAL¹: a part. ti ocorre em negações verbais ou de predicados nominais, não sendo frequente sua ocorrência de forma isolada como expressão de negação ou recusa, funções desempenhadas, por exemplo, pela locução ti maã ou pelo advérbio umbaá. Na literatura antiga, no entanto, há alguns poucos exemplos da part. ti desempenhando essa função: ― I tawá ana será naná, yautí? Yautí usuaxara: ― Yá! Ti rẽ mikura, [...]. (Magalhães, 207, adap.) - ― Já estão amarelos os abacaxis, jabuti? O jabuti respondeu: ― Qual! Ainda não mucura, [...]. ● NOTA GRAMATICAL²: a part. ti atrai certas posp. (p. ex., arama, esé (r, s), esewara (r, s), pukusawa) e outras part. (p. ex., waá, yepé), que geralmente ocorrem então em posição que lhe é subsequente (exemplos a1, a2, a3). As partículas que têm tendência a ocupar a segunda posição em orações (p. ex., kurí, rẽ, wana, tẽ, pu, paá, será) também ocorrem frequentemente após a part. ti, quando esta inicia a oração, resultando em efeito semelhente à aludida atração (exemplo b). Essa disposição, de fato, muitas vezes ocorre mesmo em situações nas quais a part. ti não inicia a oração, sendo, por exemplo, precedida de um 752pron. Exemplos: a1) Aé uyana usika arama uií . > Aé uyana ti arama usika wirandé. - Ele corre para chegar hoje. > Ele corre para não chegar amanhã.; a2) Aintá umemúi aintá rimbiú aintá urikú resewara tatá. > Aintá ti umemúi aintá rimbiú ti resewara aintá urikú tatá. - Eles cozinham sua comida porque têm fogo. > Eles não cozinham sua comida porque não têm fogo.; a3) Aité kwá mirá urikú waá i pirera saimbé. > Aité kwá mirá ti waá urikú i pirera saimbé. - Esta é a árvore que tem a casca áspera. > Esta é a árvore que não tem a casca áspera.; b) Asú kurí ne irumu. > Ti kurí asú ne irumu. - Eu irei contigo. > Eu não irei contigo. ■ Reg. hist.: [Costa [ti], 209; Tastevin [ɨnti, ti], 622, 671; Coudreau, [inti] 465, 466, 467, [ti] 465; Dias, [nitio] 563, [intio] 570; Seixas [intio], 21; Rondon [ti], 118; Hartt [intí], 319; Magalhães, [inti, intí] 43, 48, 190, 200, 216, 238, [ti, tí] 46, 48, 190, [tio] 200, 272; Rodrigues, [inti] 29, 63, 223, 224, 237, [intio] 29, [ti] 67, 105, 107, 108, 109, 110, 139, 217, 270, 321; Amorim, [nti] 25, 26, 29, 283, 378, [ntyo] 37, 216, 283, 444, [nty] 157, 217, 299, 332, 335; Aguiar, [inti] 61, ['ti] 63, 83; Stradelli, [inti] 256, 381, [nti, intio] 256, [ti] 499; Studart, [inté] 35, [inti] 36] ● (do tupi n'i tybi [na + i + tyb + -i])

@dominickmaia
Copy link
Collaborator

@leoalenc perfeito, era oq eu estava pensando mesmo... e não, nunca adaptamos intí como ti:

@leoalenc essa sentença ficará sendo a Hartt1938:0:0:501 ou Avila2021:0:0:727? porque, na verdade, estaria diferente da nossa adaptação, já que nos exemplos de Hartt não estamos contraindo a forma intí

ver aqui, inclusive está faltando a adaptação do Avila, mas vou incluir

@dominickmaia
Copy link
Collaborator

@leoalenc

# sent_id = Hartt1938:0:0:501
# text = Kwaá apigawa intí maã arama.
# text_por = Este homem não vale de nada.
# text_source = p. 355, No. 501
# text_orig = kuaá apyáua intí maé aráma.
# text_annotator = Juliana Lopes Gurgel
# inputline = Kwaá/demx apigawa/n intí maã/ind arama/adp.
# reviewer1 = Leonel Figueiredo de Alencar
# reviewer2 = Dominick Maia Alexandre
1	Kwaá	kwaá	DET	DEMX	Deixis=Prox|Number=Sing|PronType=Dem	2	det	_	TokenRange=0:4
2	apigawa	apigawa	NOUN	N	Number=Sing	4	nsubj	_	TokenRange=5:12
3	intí	intí	PART	NEG	PartType=Neg|Polarity=Neg	4	advmod	_	TokenRange=13:17
4	maã	maã	DET	IND	PronType=Ind	0	root	_	TokenRange=18:21
5	arama	arama	ADP	ADP	AdpType=Post	4	case	_	SpaceAfter=No|TokenRange=22:27
6	.	.	PUNCT	PUNCT	_	4	punct	_	SpaceAfter=No|TokenRange=27:28

@leoalenc
Copy link
Contributor Author

leoalenc commented Sep 25, 2024

@leoalenc

# sent_id = Hartt1938:0:0:501

# text = Kwaá apigawa intí maã arama.

# text_por = Este homem não vale de nada.

# text_source = p. 355, No. 501

# text_orig = kuaá apyáua intí maé aráma.

# text_annotator = Juliana Lopes Gurgel

# inputline = Kwaá/demx apigawa/n intí maã/ind arama/adp.

# reviewer1 = Leonel Figueiredo de Alencar

# reviewer2 = Dominick Maia Alexandre

1	Kwaá	kwaá	DET	DEMX	Deixis=Prox|Number=Sing|PronType=Dem	2	det	_	TokenRange=0:4

2	apigawa	apigawa	NOUN	N	Number=Sing	4	nsubj	_	TokenRange=5:12

3	intí	intí	PART	NEG	PartType=Neg|Polarity=Neg	4	advmod	_	TokenRange=13:17

4	maã	maã	DET	IND	PronType=Ind	0	root	_	TokenRange=18:21

5	arama	arama	ADP	ADP	AdpType=Post	4	case	_	SpaceAfter=No|TokenRange=22:27

6	.	.	PUNCT	PUNCT	_	4	punct	_	SpaceAfter=No|TokenRange=27:28

@dominickmaia , excelente! Faltaram apenas os atributos relacionados ao exemplo de Ávila, ou seja, text_sec etc., conforme especifiquei no meu comentário acima. Mas pode deixar que eu incluo isso. Esse é um aspecto, por sinal, relevante para a elaboração do seu fluxograma. É importante Que nós estabeleçamos essa conexão com o dicionário de Ávila. Isso é relevante tanto para os usuários do treebank de modo geral, que podem consultar os verbetes onde o exemplo ocorre no dicionário, como para nós mesmos, que podemos comparar mais facilmente a nossa análise com a de Avila, verificando se seguimos ou nos afastamos do dicionarista. Também podemos imaginar aplicações de processamento de linguagem natural que façam uso dessa conexão. Outra questão diz respeito à metodologia e mesmo à ética do trabalho científico. Avila (2021) apresenta o estado da arte na descrição lexical e gramatical do nheengatu. De modo geral, em ciência, devemos partir do estado da arte, mantendo ou modificando determinados aspectos, apresentando, naturalmente, justificativas para tal. Por isso, devemos reconhecer a consulta ao exemplo de Ávila, que deve constituir sempre o ponto de partida das nossas análises. Esse é um aspecto crucial pra você incluir no seu fluxograma, envolvendo as seguintes decisões:

  1. O exemplo existe no dicionário de Ávila?
  2. Caso negativo, incluímos o exemplo como
    Hartt1938. Caso afirmativo, esse exemplo já consta do nosso banco de árvores?
  3. Caso negativo, incluímos o exemplo como
    Hartt1938. Caso afirmativo, a nossa adaptação mais conservadora coincide com a de Ávila?
  4. Caso afirmativo, não incluímos duplicata desse exemplo no banco de árvores, apenas inserindo
    text_prim, text_prim_source e, se necessário, text_por_prim. Caso negativo, incluímos o exemplo com prefixo Hartt1938

@juliana-gurgel
Copy link
Collaborator

  • revisar Casasnovas2006:10:6:125

@leoalenc, em Casasnovas2006:10:6:125, a forma marã ainda não está tokenizada em maã arã.

toquenizar marã em maã arã

Professor, a tokenização será feita em todas as ocorrências de marã, independentemente de fazerem ou não parte da expressão ti (ã) marã?

@leoalenc
Copy link
Contributor Author

Casasnovas2006:10:6:125

@juliana-gurgel , oportuna pergunta. Sim, no caso da expreesão idiomática segundo Avila (2021), a qual estamos anotando como sequência normal de palavras, conforme UD, por exemplo em Casasnovas2006:10:6:125, precisamos separar. Pode fazer isso?

leoalenc added a commit that referenced this issue Sep 26, 2024
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
corpus This issue pertains to corpus data enhancement New feature or request invalid This doesn't seem right tokenization This issue relates to tokenization tools This issue relates to Python code UD Annotation This issue relates to Universal Dependencies annotation
Projects
None yet
Development

No branches or pull requests

3 participants