-
Notifications
You must be signed in to change notification settings - Fork 1
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
desdobramento de "marã" em "maã arã" na expressão "ti (ã) marã" #591
Comments
Casasnovas2006:6:5:64
# sent_id = Avila2021:0:0:727
# text = Kwaá apigawa ti maã arama.
# text_eng = TODO
# text_por = Este homem não vale de nada.
# text_source = Hartt, 355, adap.
# text_prim = kuaá apyáua intí maé aráma.
# text_prim_por = êste homem não vale de nada.
# text_prim_por_source = Hartt (1938), p. 355, No. 501
# text_annotator = Juliana Lopes Gurgel
# inputline = Kwaá/demx apigawa/n ti maã/ind arama/adp.
1 Kwaá kwaá DET DEMX Deixis=Prox|Number=Sing|PronType=Dem 2 det _ TokenRange=0:4
2 apigawa apigawa NOUN N Number=Sing 4 nsubj _ TokenRange=5:12
3 ti ti PART NEG PartType=Neg|Polarity=Neg 4 advmod _ TokenRange=13:15
4 maã maã DET IND PronType=Ind 0 root _ TokenRange=16:19
5 arama arama ADP ADP AdpType=Post 4 case _ SpaceAfter=No|TokenRange=20:25
6 . . PUNCT PUNCT _ 4 punct _ SpaceAfter=No|TokenRange=25:26 |
@leoalenc , fiz a anotação da sentença de Hartt e já postei aqui, mas a @dominickmaia fará a revisão da sentença. |
@juliana-gurgel , parabéns pela presteza e correção da análise. Pode incluir |
@leoalenc , eu que não entendi a instrução e não conversei primeiro com a @dominickmaia. Nas próximas vezes, faremos a anotação juntas. @dominickmaia , você concorda com a minha anotação? |
sim, concordo com a anotação. ainda hoje incluo os metadados. @leoalenc essa sentença ficará sendo a |
Isso é importantíssimo para o fluxograma (#521 ). Veja que, segundo meu comentário em #575, visando ao melhor balanceamento do treebank, nosso objetivo maior agora são os exemplos originais de tudo que está disponível para consulta, logo, vamos incluir a sentença como >>> text_sec=Yauti.mkSecTextAvila('Kwaá apigawa ti maã arama. (Hartt, 355) - Este homem não vale de nada.')
>>> text_sec
{'text_sec': 'Kwaá apigawa ti maã arama.', 'text_por_sec': 'Este homem não vale de nada.', 'text_sec_source': 'Avila (2021)', 'text_por_sec_source': 'Avila (2021)'}
>>> Yauti.ppMetadata(text_sec)
# text_sec = Kwaá apigawa ti maã arama.
# text_por_sec = Este homem não vale de nada.
# text_sec_source = Avila (2021)
# text_por_sec_source = Avila (2021)
>>> help(Yauti.parseExample)
Help on function parseExample in module AnnotateConllu:
parseExample(example, pref, textid, index, sentid, copyboard=True, annotator='Leonel Figueiredo de Alencar', check=True, outfile=False, overwrite=False, metadata={}, translate=True, inputline=True) A variável grep -ahiwA 60 "^ti \(var" avila*.txt
|
@leoalenc perfeito, era oq eu estava pensando mesmo... e não, nunca adaptamos intí como ti:
ver aqui, inclusive está faltando a adaptação do Avila, mas vou incluir |
# sent_id = Hartt1938:0:0:501
# text = Kwaá apigawa intí maã arama.
# text_por = Este homem não vale de nada.
# text_source = p. 355, No. 501
# text_orig = kuaá apyáua intí maé aráma.
# text_annotator = Juliana Lopes Gurgel
# inputline = Kwaá/demx apigawa/n intí maã/ind arama/adp.
# reviewer1 = Leonel Figueiredo de Alencar
# reviewer2 = Dominick Maia Alexandre
1 Kwaá kwaá DET DEMX Deixis=Prox|Number=Sing|PronType=Dem 2 det _ TokenRange=0:4
2 apigawa apigawa NOUN N Number=Sing 4 nsubj _ TokenRange=5:12
3 intí intí PART NEG PartType=Neg|Polarity=Neg 4 advmod _ TokenRange=13:17
4 maã maã DET IND PronType=Ind 0 root _ TokenRange=18:21
5 arama arama ADP ADP AdpType=Post 4 case _ SpaceAfter=No|TokenRange=22:27
6 . . PUNCT PUNCT _ 4 punct _ SpaceAfter=No|TokenRange=27:28 |
@dominickmaia , excelente! Faltaram apenas os atributos relacionados ao exemplo de Ávila, ou seja, text_sec etc., conforme especifiquei no meu comentário acima. Mas pode deixar que eu incluo isso. Esse é um aspecto, por sinal, relevante para a elaboração do seu fluxograma. É importante Que nós estabeleçamos essa conexão com o dicionário de Ávila. Isso é relevante tanto para os usuários do treebank de modo geral, que podem consultar os verbetes onde o exemplo ocorre no dicionário, como para nós mesmos, que podemos comparar mais facilmente a nossa análise com a de Avila, verificando se seguimos ou nos afastamos do dicionarista. Também podemos imaginar aplicações de processamento de linguagem natural que façam uso dessa conexão. Outra questão diz respeito à metodologia e mesmo à ética do trabalho científico. Avila (2021) apresenta o estado da arte na descrição lexical e gramatical do nheengatu. De modo geral, em ciência, devemos partir do estado da arte, mantendo ou modificando determinados aspectos, apresentando, naturalmente, justificativas para tal. Por isso, devemos reconhecer a consulta ao exemplo de Ávila, que deve constituir sempre o ponto de partida das nossas análises. Esse é um aspecto crucial pra você incluir no seu fluxograma, envolvendo as seguintes decisões:
|
@leoalenc, em
Professor, a tokenização será feita em todas as ocorrências de marã, independentemente de fazerem ou não parte da expressão ti (ã) marã? |
@juliana-gurgel , oportuna pergunta. Sim, no caso da expreesão idiomática segundo Avila (2021), a qual estamos anotando como sequência normal de palavras, conforme UD, por exemplo em |
@juliana-gurgel , aguardo solução da tarefa relacionada a |
Refazer anotação de sentenças de Casasnovas (2006) com marã:
|
@juliana-gurgel , marã só deve ser desmembrado na expressão idiomática, mas não quando funciona como pronome interrogativo. Veja que o dicionário de Ávila apresenta o lema marã também como pronome interrogativo. |
Tarefa concluída com este commit. |
Reabrindo issue para fechar com o commit. |
@juliana-gurgel , veja que, na sequência usú uikú 'estava indo', o primeiro é verbo principal, enquanto o segundo constitui auxiliar. # sent_id = Casasnovas2006:10:6:125
# text = Nẽ rẽ paá, pitérupi manguarí usú uikú mairamé umaã, wainambí ti ã marã uyatikutikú paraname.
# text_eng = TODO
# text_por = O maguari estava ainda metade do trajeto quando viu o beija-flor quase morrendo na água afogado.
# text_source = p. 92, No. 6-7
# text_orig = Nere paá, pitérupi mangwarí usú uikú mairamé umaã, wainambí tiã marã uyatikutikú paraname.
# text_annotator = Juliana Lopes Gurgel
# text_sec = Nẽ rẽ paá pitérupi manguarí usú uikú, mairamé umaã wainambí ti ã marã uyatikutikú paraname.
# text_por_orig_sec = O maguari não estava ainda nem na metade do trajeto, quando viu o beija-flor sem forças, boiando no rio.
# text_sec_source = Avila (2021)
# text_por_orig_sec_source = Avila (2021)
# acknowledgement = DACILAT Project, FAPESP's Process No. 2022/09158-5
# inputline = Nẽ/neg rẽ paá, pitérupi manguarí usú uikú mairamé/sconjr umaã, wainambí ti ã marã uyatikutikú/=red:l|4:a|t:u|t paraname.
# reviewer1 = LFdeA
1 Nẽ nẽ PART NEG PartType=Neg|Polarity=Neg 8 advmod _ TokenRange=0:2
2 rẽ rẽ PART IMPF _ 8 advmod _ TokenRange=3:5
3 paá paá PART RPRT Evident=Nfh|PartType=Mod 8 advmod _ SpaceAfter=No|TokenRange=6:9
4 , , PUNCT PUNCT _ 8 punct _ TokenRange=9:10
5-6 pitérupi _ _ _ _ _ _ _ TokenRange=11:19
5 pitera pitera NOUN N Number=Sing 8 obl _ _
6 upé upé ADP ADP AdpType=Post|Clitic=Yes 5 case _ _
7 manguarí manguarí NOUN N Number=Sing 8 nsubj _ TokenRange=20:28
8 usú sú VERB V Mood=Ind|Person=3|VerbForm=Fin 0 root _ TokenRange=29:32
9 uikú ikú AUX AUXFS Mood=Ind|Person=3|VerbForm=Fin 8 aux _ TokenRange=33:37
10 mairamé mairamé SCONJ SCONJR _ 11 mark _ TokenRange=38:45
11 umaã maã VERB V Mood=Ind|Person=3|VerbForm=Fin 8 advcl _ SpaceAfter=No|TokenRange=46:50
12 , , PUNCT PUNCT _ 18 punct _ TokenRange=50:51
13 wainambí wainambí NOUN N Number=Sing 18 nsubj _ TokenRange=52:60
14 ti ti PART NEG PartType=Neg|Polarity=Neg 18 advmod _ TokenRange=61:63
15 ã ã PART PFV Aspect=Perf 18 advmod _ TokenRange=64:65
16-17 marã _ _ _ _ _ _ _ TokenRange=73:77
16 maã maã PRON IND PronType=Ind 18 obl _ _
17 arã arã ADP ADP AdpType=Post|Clitic=Yes 16 case _ _
18 uyatikutikú yatikú VERB V Mood=Ind|Person=3|Red=Yes|VerbForm=Fin 11 ccomp _ TokenRange=78:89
19-20 paraname _ _ _ _ _ _ _ SpaceAfter=No|TokenRange=90:98
19 paranã paranã NOUN N Number=Sing 18 obl _ _
20 me upé ADP ADP AdpType=Post|Clitic=Yes 19 case _ _
21 . . PUNCT PUNCT _ 8 punct _ SpaceAfter=No|TokenRange=98:99
|
@juliana-gurgel, percebi que que você usou o atributo |
Casasnovas2006:6:5:64
(anotar as lendas de Casasnovas (2006) #353 revisão de diversas sentenças #589 )Casasnovas2006:10:6:125
, separando marã em em ti arã (o Yauti faz isso agora) (@juliana-gurgel )Avila (2021):
The text was updated successfully, but these errors were encountered: