Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

"panhẽ awá" constitui MWE em UD? #545

Open
3 tasks
leoalenc opened this issue Sep 9, 2024 · 1 comment
Open
3 tasks

"panhẽ awá" constitui MWE em UD? #545

leoalenc opened this issue Sep 9, 2024 · 1 comment
Assignees
Labels
corpus This issue pertains to corpus data enhancement New feature or request help wanted Extra attention is needed high-priority This should be solved ASAP MWE Issues about multiword expressions UD Annotation This issue relates to Universal Dependencies annotation

Comments

@leoalenc
Copy link
Contributor

leoalenc commented Sep 9, 2024

  • corrigir o valor de text seguindo a prática adotada nos exemplos comsent_id de prefixo Cruz2011, como, por exemplo, Cruz2011:0:0:37 , Cruz2011:0:0:47, Cruz2011:0:0:72 e Cruz2011:4:1:74, especialmente estes dois últimos
  • anotar panhẽ awá seguindo o exemplo de Avila2021:0:0:441, usando awá/ind para desambiguar
  • completar os metadados desse exemplo visando inclusão no treebank
# text = sandalia panhẽ awá urikú
# text_orig = sandalia panhe awa u-riku
# inputline = sandalia/=n:o|pt panhẽ awá urikú

1	sandalia	sandalia	NOUN	N	Number=Sing	4	nsubj	_	OrigLang=por|TokenRange=0:8
2	panhẽ	panhẽ	DET	TOT	PronType=Tot	1	det	_	TokenRange=9:14
3	awá	awá	DET	IND	PronType=Ind	1	det	_	TokenRange=15:18
3	awá	awá	DET	INT	PronType=Int	1	det	_	TokenRange=15:18
3	awá	awá	PRON	RELF	PronType=Rel	4	nsubj	_	TokenRange=15:18
4	urikú	rikú	VERB	V	Mood=Ind|Person=3|VerbForm=Fin	0	root	_	TokenRange=19:24

É interessante notar que a locução panhẽ awá está dicionarizada como expressão fixa em Ávila (2021) do mesmo modo que mayé waá está. Desse modo, cogitamos que a desambiguação de awá seja seguida pela aplicação da deprel fixed ao nó 3.

Originally posted by @heliolbs in #512 (comment)

@leoalenc leoalenc added enhancement New feature or request help wanted Extra attention is needed corpus This issue pertains to corpus data UD Annotation This issue relates to Universal Dependencies annotation tokenization This issue relates to tokenization MWE Issues about multiword expressions high-priority This should be solved ASAP and removed tokenization This issue relates to tokenization labels Sep 9, 2024
@leoalenc
Copy link
Contributor Author

leoalenc commented Sep 9, 2024

@heliolbs , precisamos levar em conta que a noção de MWE em UD difere daquela adotada por Avila (2021). Sugiro promover discussão a respeito com o grupo. Como se trata de questão importantíssima para quem quer que anote textos em nheengatu conforme o modelo UD, recomendo que você solicite ajuda de @dominickmaia e/ou @juliana-gurgel na preparação deste exemplo para inclusão no treebank. Dúvidas devem ser postadas aqui ou em outra issue própria.

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
corpus This issue pertains to corpus data enhancement New feature or request help wanted Extra attention is needed high-priority This should be solved ASAP MWE Issues about multiword expressions UD Annotation This issue relates to Universal Dependencies annotation
Projects
None yet
Development

No branches or pull requests

2 participants