Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

atributo cross_reference em sentenças de Casasnovas (2006) #538

Open
5 of 7 tasks
leoalenc opened this issue Sep 6, 2024 · 5 comments
Open
5 of 7 tasks

atributo cross_reference em sentenças de Casasnovas (2006) #538

leoalenc opened this issue Sep 6, 2024 · 5 comments
Assignees
Labels
corpus This issue pertains to corpus data invalid This doesn't seem right metadata Improvementes or explanations about metadata question Further information is requested

Comments

@leoalenc
Copy link
Contributor

leoalenc commented Sep 6, 2024

  • substituir atributo mais abaixo por cross_reference
  • o mesmo em # comment = sentence already in 'yrl_complin-ud-test.conllu' (Avila2021:30:1:346) e demais ocorrências
  • o mesmo para annotator_comment
  • checar se estão consistentes entre si as anotações de exemplos com prefixo Avila2021 das mesmas sentenças de Casasnovas2006 identificadas por meio de comment
  • checar se estão consistentes entre si as anotações de exemplos com prefixo Avila2021 das mesmas sentenças de Casasnovas2006 identificadas por meio de annotator_comment (@dominickmaia, @juliana-gurgel )
  • verificar se há repetição de text entre exemplos com prefixo Avila2021 e Casasnovas2006
  • eliminar as repetições Casasnovas2006:10:10:129 e Casasnovas2006:10:11:130, usando os atributos next e previous
# sent_id = Casasnovas2006:8:13:81
# annotator_comment = sentence already in 'yrl_complin-ud-test.conllu' (Avila2021:0:0:460)
@leoalenc leoalenc added invalid This doesn't seem right corpus This issue pertains to corpus data metadata Improvementes or explanations about metadata labels Sep 6, 2024
@leoalenc leoalenc self-assigned this Sep 6, 2024
@leoalenc
Copy link
Contributor Author

leoalenc commented Sep 7, 2024

@juliana-gurgel , em situações como a exemplificada abaixo (#353 e #539 ), utilize, em vez de comment, o atributo cross_reference para identificar a sentença correspondente de Avila (2021), anotada com prefixo de sent_id Avila2021:

# sent_id = Casasnovas2006:11:25:156
# text = Ape, paá, aintá usú aintá umaã Teyú yutikasawa.
# text_eng = TODO
# text_por = Eles foram e viram a derrubada do Calango.
# text_source = p. 95, No. 33
# text_orig = Ape, paá, aintá usú aintá umaã Teyú witikasawa.
# text_sec = Ape paá aintá usú aintá umaã teyú yutikasawa.
# text_por_sec = Então eles foram ver a derrubada [de mata] do calango.
# text_sec_source = Avila (2021)
# text_por_sec_source = Avila (2021)
# text_annotator = Juliana Lopes Gurgel
# comment = sentence already in 'yrl_complin-ud-test.conllu' (Avila2021:0:0:371)
# acknowledgement = DACILAT Project, FAPESP's Process No. 2022/09158-5
# reviewer1 = Leonel Figueiredo de Alencar

Nesse caso, deveríamos ter:

# cross_reference = Avila2021:0:0:371

@leoalenc
Copy link
Contributor Author

@juliana-gurgel , veja esta issue. Vou alterar o atributo neste repositório.

@leoalenc leoalenc reopened this Sep 19, 2024
leoalenc added a commit that referenced this issue Sep 20, 2024
@leoalenc
Copy link
Contributor Author

leoalenc commented Sep 21, 2024

for sent in sents:
	comment=sent.metadata.get('annotator_comment')
	if comment and 'already' in comment:
		start=comment.index('(')
		end=comment.index(')')
		sentid=comment[start+1:end]
		av=AnnotateConllu.getSentsWithSentId(sentid,sents)[0]
		if av.metadata['text'] == sent.metadata['text']:
			print('same text',sentid,sent.metadata['sent_id'])
		else:
			print(f"{sentid} {sent.metadata['sent_id']}",f"Avila: {av.metadata['text']}",f"Jul: {sent.metadata['text']}",f"Casasnovas: {sent.metadata['text_orig']}",sep='\n',end='\n\n')
Avila2021:0:0:460 Casasnovas2006:8:13:81
Avila: Asuí paá ta umbué aé mayé usikari arã ximiára piripiriáka irumu.
Jul: Asuí, paá, taumbué aé mayé usikari arã ximiára piripiriaka irumu.
Casasnovas: Asuí, paá, taumbwé aé mayé usikái arã ximiara piripiriaka irumu.

Avila2021:0:0:542 Casasnovas2006:9:8:92
Avila: Ape paá i manha umeẽ i xupé pusanga umusasawa arã i pira rupí, ti arã nhaã urubú kunhã-itá umaã aé.
Jul: Ape, paá, i manha umeẽ i xupé pusanga umusasawa arã i pira rupí, ti arã nhaã urubú-kunhã-itá umaã aé.
Casasnovas: Ape, paá, imanha umeé ixupé pusanga umusasawa arã ipira rupí, ti arã nhaã urubú kunhãitá umaã aé.

Avila2021:0:0:198 Casasnovas2006:9:10:94
Avila: Usika, umaã siiya kunhã-itá upisika waá-itá uikú pirá-mirĩ yuka.
Jul: Usika umaã siía kunhã-itá upisika waá-itá uikú pirá-mirĩ yuka.
Casasnovas: Usika umaã siía kunhãitá upisika waáitá uikú pirá mirí yuka.

Avila2021:0:0:588 Casasnovas2006:9:14:98
Avila: Ape paá upitá mira yuíri umpú arama nhaã amú-itá.
Jul: Ape, paá, upitá mira yuíri umpú arã nhaã amú-itá.
Casasnovas: Ape, paá, upitá mira yuíri umpú arã nhaã amuitá.

Avila2021:0:0:24 Casasnovas2006:9:20:104
Avila: Asuí paá nhaã kunhã i kweré wana umbaú maã i mena umbaú waá.
Jul: Asuí, paá, nhaã kunhã i kweré wana umbaú maã i mena umbaú waá.
Casasnovas: Asuí, paá, nhaã kunhã ikweré wana umbaú maá imena umbaú waá.

Avila2021:0:0:36 Casasnovas2006:9:23:107
Avila: Muíri ara paá upurandú suixawa suí umeẽ arã i xupé i pepú arã, uyuíri arã i anama-itá piri.
Jul: Muíri ara, paá, upurandú suixawa suí umeẽ arã i xupé i pepú arã, uyuíri arã i anama-itá piri.
Casasnovas: Muiri ara, paá, upurandú suixawa suí umeé arã ixupé ipepú arã, uyuíri arã ianamaitá piri.

Avila2021:0:0:306 Casasnovas2006:9:32:116
Avila: Mairamé paá waimĩ usendú tiapú unheengari puranga, umbeú sesewara, ape paá waimĩ usemu ukara kití, umaã paá iwaté ana uyupiri usú uikú, usú ana iwaka kití i membira mirĩ irumu i anama-itá piri.
Jul: Mairamé, paá, waimĩ usendú tiapú unheengari puranga umbeú sesewara, ape, paá, waimĩ usemu ukara kití, umaã, paá, iwaté ana uyupiri usú uikú, usú ana iwaka kití i membira mirĩ irumu, i anama-itá piri.
Casasnovas: Mairamé, paá, waimí usendú tiapú unhengai puranga umbeú sesewara, ape, paá, waimí usemu ukara kití, umaã, paá, iwatéana uyupiri usú uikú, usuana iwaka kití imembira mirí irumu, ianamaitá piri.

same text Avila2021:7:1:47 Casasnovas2006:10:10:129
same text Avila2021:7:2:48 Casasnovas2006:10:11:130

@leoalenc leoalenc added the question Further information is requested label Sep 21, 2024
@leoalenc leoalenc changed the title atributo cross_reference atributo cross_reference em sentenças de Casasnovas (2006) Sep 21, 2024
leoalenc added a commit that referenced this issue Sep 21, 2024
leoalenc added a commit that referenced this issue Sep 21, 2024
@juliana-gurgel
Copy link
Collaborator

juliana-gurgel commented Sep 22, 2024

@leoalenc, abaixo, constam todas as ocorrências que devem ser corrigidas para a conclusão das seguintes tarefas:

  • o mesmo para annotator_comment
  • checar se estão consistentes entre si as anotações de exemplos com prefixo Avila2021 das mesmas sentenças de Casasnovas2006 identificadas por meio de annotator_comment (@dominickmaia, @juliana-gurgel )

De acordo com o metadado next na sentença Casasnovas2006:10:9:128, incluí também uma tarefa para corrigir o metadado comment na sentença Casasnovas2006:12:28:194.

  • Em Casasnovas2006:8:13:81, corrigir o metadado annotator_comment e seu valor para:
# cross_reference = Avila2021:0:0:460
  • Em Casasnovas2006:9:8:92, corrigir o metadado annotator_comment e seu valor para:
# cross_reference = Avila2021:0:0:542
  • Em Casasnovas2006:9:10:94, corrigir o metadado annotator_comment e seu valor para:
# cross_reference = Avila2021:0:0:198
  • Em Casasnovas2006:9:14:98, corrigir o metadado annotator_comment e seu valor para:
# cross_reference = Avila2021:0:0:588
  • Em Casasnovas2006:9:20:104, corrigir o metadado annotator_comment e seu valor para:
# cross_reference = Avila2021:0:0:24
  • Em Casasnovas2006:9:23:107, corrigir o metadado annotator_comment e seu valor para:
# cross_reference = Avila2021:0:0:36
  • Em Casasnovas2006:9:32:116, corrigir o metadado annotator_comment e seu valor para:
# cross_reference = Avila2021:0:0:306
  • Em Casasnovas2006:12:28:194, corrigir o metadado comment e seu valor para:
# next = Avila2021:2:1:10, Avila2021:2:2:11, Avila2021:18:1:175

@leoalenc
Copy link
Contributor Author

  • Casasnovas2006:12:28:194

@juliana-gurgel , veja #585. Nesse caso, parece que não teremos # next = Avila2021:2:1:10, Avila2021:2:2:11, Avila2021:18:1:175. Em vez disso, você precisaria restaurar a versão original de Casasnovas (2006), conforme #585.

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
corpus This issue pertains to corpus data invalid This doesn't seem right metadata Improvementes or explanations about metadata question Further information is requested
Projects
None yet
Development

No branches or pull requests

3 participants