Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

correção de numeração estranha no atributo sent_id #594

Closed
3 tasks done
leoalenc opened this issue Sep 25, 2024 · 3 comments
Closed
3 tasks done

correção de numeração estranha no atributo sent_id #594

leoalenc opened this issue Sep 25, 2024 · 3 comments
Assignees
Labels
corpus This issue pertains to corpus data invalid This doesn't seem right metadata Improvementes or explanations about metadata

Comments

@leoalenc
Copy link
Contributor

leoalenc commented Sep 25, 2024

Se a primeira casa numérica é 0, então a segunda também deve ser 0, indicando que se trata de exemplo isolado que não constitui minidiálogo nem integra um trecho de um texto maior (Alencar, 2024):

  • # sent_id = Seixas1853:0:100:100 -> 0:0:100
  • # sent_id = Melgueiro2022:0:101:101 -> 0:0:101
  • # sent_id = Melgueiro2022:0:1001:1001 -> 0:0:10001
@leoalenc leoalenc added invalid This doesn't seem right corpus This issue pertains to corpus data metadata Improvementes or explanations about metadata labels Sep 25, 2024
@leoalenc leoalenc self-assigned this Sep 25, 2024
@heliolbs
Copy link
Collaborator

Aproveitando a correção dos valores de sent_id dessas sentenças, fiz a primeira revisão das três, que pode ser verificada neste commit. Concordo com a anotação das três. Entretanto, ao revisar a segunda, descobri que a função mkAdj do AnnotateConllu está quebrada, pois a variável local lemma não está definida no escopo da função.

>>> s='''Nhaã ne mbira apisaíma/=prv:x|a.'''
>>> Yauti.pp(s)
Traceback (most recent call last):
  File "<pyshell#11>", line 1, in <module>
    Yauti.pp(s)
  File "C:\Users\Hélio\Documents\GitHub\complin\nheengatu\src\AnnotateConllu.py", line 3254, in pp
    print(parseSentence(s).serialize())
  File "C:\Users\Hélio\Documents\GitHub\complin\nheengatu\src\AnnotateConllu.py", line 3004, in parseSentence
    tk=mkConlluSentence(tokens)
  File "C:\Users\Hélio\Documents\GitHub\complin\nheengatu\src\AnnotateConllu.py", line 2557, in mkConlluSentence
    new=mkPrv(form,xpos)
  File "C:\Users\Hélio\Documents\GitHub\complin\nheengatu\src\AnnotateConllu.py", line 2197, in mkPrv
    new=mkAdj(lemma,None,dic)
  File "C:\Users\Hélio\Documents\GitHub\complin\nheengatu\src\AnnotateConllu.py", line 2123, in mkAdj
    handleOrig(new,lemma,orig, orig_form)
NameError: name 'lemma' is not defined

@leoalenc
Copy link
Contributor Author

leoalenc commented Sep 26, 2024

@heliolbs , obrigado. Não precisamos incluir sempre o atributo inputline, no entanto, é algo que pode ser útil quando queremos corrigir a sentença, além de servir como documentação do uso das etiquetas de desambiguação e das especiais. Em Seixas1853:0:0:100, temos etiqueta especial para lidar com o uso do infinitivo como imperativo (há issues anteriores sobre isso):

# sent_id = Seixas1853:0:0:100
# text = Eẽ xipiaka mayé usú sinipuka iwaka kití!!!
# text_eng = See how it goes so bright to the sky!!!
# text_por = Vê como vai tão brilhante para o céu!!!
# text_source = p. XV
# text_orig = hehen chípiáca maié ussô cêne-púcá euáca quetê
# text_sec = Eẽ, rexipiaka mayé usú sinipuka iwaka kití!
# text_sec_pos = Eẽ/intj, rexipiaka mayé usú sinipuka iwaka kití!
# text_por_sec = Vê como vai tão brilhante para o céu!
# text_sec_source = Avila (2021)
# text_por_sec_source = Avila (2021)
# text_annotator = Leonel Figueiredo de Alencar
# reviewer1 = Hélio Leonam Barroso Silva
# inputline = Eẽ xipiaka/=mf:m|rexipiaka mayé/advra usú sinipuka iwaka kití!!!

@leoalenc
Copy link
Contributor Author

@heliolbs , sem argumento, a função deflagrada pela etiqueta especial =prv funciona:

# sent_id = Melgueiro2022:0:0:101
# text = Nhaã ne mbira apisaíma.
# text_eng = That daughter of yours is disobedient.
# text_por = Aquela sua filha é danada.
# text_source = p. 112
# text_orig = nhaã némbira apisá íma
# text_por_orig = – aquela sua filha é danada,
# text_annotator = Leonel Figueiredo de Alencar
# reviewer1 = Hélio Leonam Barroso Silva
# inputline = Nhaã ne mbira apisaíma/=prv.
1	Nhaã	nhaã	DET	DEMS	Deixis=Remt|Number=Sing|PronType=Dem	3	det	_	TokenRange=0:4
2	ne	ne	PRON	PRON2	Case=Gen|Number=Sing|Person=2|Poss=Yes|PronType=Prs	3	nmod:poss	_	TokenRange=5:7
3	mbira	mbira	NOUN	N	Number=Sing	4	nsubj	_	TokenRange=8:13
4	apisaíma	apisá	ADJ	A	Derivation=Priv	0	root	_	SpaceAfter=No|TokenRange=14:22
5	.	.	PUNCT	PUNCT	_	4	punct	_	SpaceAfter=No|TokenRange=22:23

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
corpus This issue pertains to corpus data invalid This doesn't seem right metadata Improvementes or explanations about metadata
Projects
None yet
Development

No branches or pull requests

2 participants