Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Reconstructed token with wrong word form #28

Open
amir-zeldes opened this issue May 24, 2021 · 2 comments
Open

Reconstructed token with wrong word form #28

amir-zeldes opened this issue May 24, 2021 · 2 comments

Comments

@amir-zeldes
Copy link

# sent_id = 959
# text = עובדה, שבשלוש מערכות הבחירות הקודמות הסגנון היה שונה: הדגש היה על הצד הרעיוני, והמסר הועבר לבעלי הכיפות בלבד; בשלוש מערכות הבחירות האלה לא עבר כהנא את אחוז החסימה, ואילו במערכת הבחירות של 4891, הוא דיבר אל שכבות נרחבות יותר בעיקר שכבות המצוקה בסגנון שכולנו מכירים, וזכה כמעט בשני מנדטים.
...
69-71	בסגנון	_	_	_	_	_	_	_	_
69	ב	ב	ADP	ADP	_	71	case	_	_
70	ה_	ה	DET	DET	Definite=Def|PronType=Art	71	det	_	_
71	סגנון	סגנון	NOUN	NOUN	Gender=Masc|Number=Sing	66	nmod	_	_
72-74	שכולנו	_	_	_	_	_	_	_	_
72	ש	ש	SCONJ	SCONJ	_	75	mark	_	_
73	כולנו	כול	NOUN	NOUN	Gender=Masc|Number=Sing	75	nsubj	_	_
74	_הם	הוא	PRON	PRON	Case=Gen|Gender=Masc|Number=Plur|Person=3|PronType=Prs	73	nmod:poss	_	_
75	מכירים	הכיר	VERB	VERB	Gender=Masc|Number=Plur|Person=1,2,3|VerbForm=Part	71	acl:relcl	_	SpaceAfter=No
76	,	,	PUNCT	PUNCT	_	78	punct	_	_
...

Token 74 is incorrect, should be אנחנו, and token 73 contains the affix incorrectly instead.

@amir-zeldes
Copy link
Author

amir-zeldes commented May 24, 2021

This sentence also has the affix still on the first MWT token at 7 and 13, but it should be removed in both, and the lemma and morphology seem to be missing as well:

# sent_id = 1066
# text = "מיד טילפנתי אליו וברכתיו, אך הוא העמידני על טעותי ואף הוסיף: איזה כבוד הוא לזכות בפרס שלא זכה בו בורחס?".
1	"	"	PUNCT	PUNCT	_	3	punct	_	SpaceAfter=No
2	מיד	מייד	ADV	ADV	_	3	advmod	_	_
3	טילפנתי	טילפן	VERB	VERB	Gender=Fem,Masc|HebBinyan=PIEL|Number=Sing|Person=1|Tense=Past|Voice=Act	0	root	_	_
4-5	אליו	_	_	_	_	_	_	_	_
4	אל_	אל	ADP	ADP	_	5	case	_	_
5	_הוא	הוא	PRON	PRON	Gender=Masc|Number=Sing|Person=3|PronType=Prs	3	obl	_	_
6-9	וברכתיו	_	_	_	_	_	_	_	SpaceAfter=No
6	ו	_	CCONJ	CCONJ	_	7	cc	_	_
7	ברכתיו	_	VERB	VERB	_	3	conj	_	_
8	את	את	ADP	ADP	Case=Acc	9	case	_	_
9	_הוא	הוא	PRON	PRON	Case=Acc|Gender=Masc|Number=Sing|Person=3|PronType=Prs	7	obj	_	_
10	,	,	PUNCT	PUNCT	_	13	punct	_	_
11	אך	אך	CCONJ	CCONJ	_	13	cc	_	_
12	הוא	הוא	PRON	PRON	Gender=Masc|Number=Sing|Person=3|PronType=Prs	13	nsubj	_	_
13-15	העמידני	_	_	_	_	_	_	_	_
13	העמידני	_	VERB	VERB	_	3	conj	_	_
14	את	את	ADP	ADP	Case=Acc	15	case	_	_
15	_אני	הוא	PRON	PRON	Case=Acc|Gender=Fem,Masc|Number=Sing|Person=1|PronType=Prs	13	obj	_	_

@amir-zeldes
Copy link
Author

... and this one at 19:

# sent_id = 1516
# text = התכונה רבה במיוחד סביב המכנים בני הערובה: כוויית נעלמה מעיני המערב, ללמדך על אמנות ההוקוס פוקוס של סדאם חוסיין.
...
19-21	ללמדך	_	_	_	_	_	_	_	_
19	ללמדך	לימד	VERB	VERB	HebBinyan=PIEL|VerbForm=Inf|Voice=Act	13	xcomp	_	_
20	את	את	ADP	ADP	Case=Acc	21	case	_	_
21	_אתה	הוא	PRON	PRON	Case=Acc|Gender=Masc|Number=Sing|Person=2|PronType=Prs	19	obj	_	_
22	על	על	ADP	ADP	_	23	case	_	_
23	אמנות	אמנות	NOUN	NOUN	Definite=Cons|Gender=Fem|Number=Sing	19	obl	_	_
24-25	ההוקוס	_	_	_	_	_	_	_	_
24	ה	ה	DET	DET	Definite=Def|PronType=Art	25	det	_	_
25	הוקוס	_	NOUN	NOUN	_	23	compound:smixut	_	_
26	פוקוס	פוקוס	NOUN	NOUN	Gender=Masc|Number=Sing	25	fixed	_	_
...

I'll stop listing these at this point, I think there should be a systematic search for these cases.

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

1 participant