Skip to content

Issues with different language models #133

Open
@Spaskich

Description

@Spaskich

Describe the bug
I've been using the 3.0 version of NLP-Cube for a wide array of languages and I've encountered some minor issues. I'll summarize them below.

Additional context

  1. The | indicates the way the parts of speech have been split.
  2. Some of these examples may not be wrong, they could actually turn out to be improvements, but I decided to include them just to be safe.
  3. I've noticed that the SpaceAfter=No is missing and has been replaced by a _. Can this functionality be restored?
  4. I'd also like to ask if it would be possible to train the Ukrainian model for version 3.0, as well.

Czech:
Text: Hlavním cílem zemědělské reformy je odstranění bariér dovozu pro čerstvé agrární produkty a snížení spotřebitelských cen. Pětiletý plán zahrnuje postupné snižování dovozních cel a odstranění omezení na dovoz ovoce, zeleniny a vajec z Evropy. Postupně by tak mělo dojít ke snížení cen a ročním úsporám ve výši 2,7 miliardy šekelů (19 miliard Kč) pro izraelské domácnosti. Reforma rovněž slibuje zvýšení dostupnosti sezónních zemědělských produktů po většinu roku, uvedlo ministerstvo zemědělství.

Original text Old Model New Model
2,7 2 | , | 7 2 | 7
cen cena cen
reformy reforma reform

Greek:
Text: Παράλληλα με τον ετήσιο προϋπολογισμό για το 2022, οι χώρες της ΕΕ θα εξακολουθήσουν να βασίζονται στη στήριξη από το μέσο ανάκαμψης NextGenerationEU και τον μηχανισμό ανάκαμψης και ανθεκτικότητας που βρίσκεται στο επίκεντρό του.

Original text Old Model New Model
στη στήριξη 18 στη 18-19 στη
... 18 σ σε
... 19 το ο
... 19 στήριξη στήριξη 20 στήριξη στήριξη

This syntax is different than the old model. Is this a sought-after effect?

Finnish:
Text: Kasvatuksen ja koulutuksen toimialalle jyvitetään koronaelpymiseen varatusta summasta 24 prosenttia ja kulttuurin ja vapaa-ajan toimialalle 11 prosenttia. Kulttuurin ja vapaa-ajan apulaispormestari Arhinmäki iloitsi siitä, että liikuntapaikkojen ja ulkoilualueiden rakentamiseen ja kehittämiseen saatiin budjetissa 7,5 miljoonaa euroa lisää. Yhteensä näihin investointeihin käytetään ensi vuonna 17,5 miljoonaa. ”Kyse on ihmisten lähipalveluista. Rahalla huolehditaan siitä, että palveluita tulee tasapuolisesti ympäri Helsinkiä”, Arhinmäki sanoi.

Original text Old Model New Model
... miljoonaa euroa lisää. Yhteensä... euroa | lisää | . | Yhteensä euroalisää.Yhteensänäihin

Hungarian:
Text: A koronavírus-járvány általános gazdasági visszaesést eredményezett az Európai Unióban 2020-ban. Az eurozónán kívüli országok gazdasági visszaesése (-4,3 százalék) átlagosan kisebb mértékű volt a tavalyi évben, mint az eurozóna tagországokban (-5,7 százalék) (1. ábra). Hasonló kép rajzolódik ki, ha a visszaesés mértékét a járvány előtt kialakított növekedési várakozásokhoz hasonlítjuk. A 2019 végén rendelkezésre álló várakozásokhoz képest az eurozónán kívüli országok gazdaságaira kevésbé volt negatív hatással a koronavírus-járvány 2020-ban (átlagosan -6,8 százalék), mint az eurozóna tagországok gazdaságaira (átlagosan -7,6 százalék).

Original text Old Model New Model
koronavírus-járvány koronavírus-járvány koronavírs-kíték
-4,3 -4,3 -4, | 3

Russian:
Text: Из изменений главного финансового документа региона следует выделить расходы на социальную политику в связи с ростом численности получателей мер поддержки. Более половины из выделенных 2,1 млрд. рублей пойдут на поддержку семей с детьми. Добавлены деньги на ежемесячные выплаты на детей в возрасте от трех до семи лет и в связи с рождением первого ребенка, на предоставление регионального материнского капитала, на социальную поддержку многодетных семей и другие расходы. Дополнительное финансирование мер социальной поддержки людей старшего поколения и отдельных категорий жителей края составит более 972 млн. рублей. Предусмотрен рост бюджетных ассигнований на региональную доплату к пенсии, субсидии гражданам на оплату жилого помещения и коммунальных услуг, ежемесячные выплаты ветеранам труда, компенсацию расходов по оплате услуг ЖКХ педагогическим работникам и другие статьи.

Original text Old Model New Model
млрд миллиард миллилилилитр
до до д

Slovak:
Text: Brusel 24. novembra (TASR) - Európska komisia (EK) zverejnila v stredu výzvy na predkladanie návrhov v rámci programu Erasmus+ na rok 2022. So zvýšeným rozpočtom na budúci rok, ktorý dosahuje takmer 3,9 miliardy eur, bude Erasmus+ naďalej poskytovať príležitosti na študijné pobyty v zahraničí, stáže, učňovskú prípravu, výmeny zamestnancov a projekty cezhraničnej spolupráce v rôznych oblastiach vzdelávania a odbornej prípravy, mládeže a športu.

Original text Old Model New Model
(TASR) ( | TASR | ) (TASR | )
2022 2022 202230000
3,9 3 | , | 9 3 | ,9
zahraničí zahraničie zahraničičie

Slovenian:
Text: Obveznosti za izplačila plač in prispevkov so se povečale za 11,5 odstotka na 1,21 milijarde evrov. To povišanje je posledica napredovanj in dogovora o plačah, višjega izplačanega regresa, sprostitve izplačil delovne uspešnosti ter dodatkov za delo v rizičnih razmerah. Za 13,2 odstotka so bili v primerjavi s prvimi devetimi meseci lani višji izdatki za blago in storitve, medtem ko je bilo za poplačilo obresti izplačanih 6,7 odstotka manj denarja kot lani v tem času. Nižji izdatki iz tega naslova so posledica operacij državne zakladnice z upravljanjem javnega dolga, pravijo na ministrstvu.
New model doesn't split the sentences.

Turkish:
Text: İstanbul İl Sağlık Müdürlüğü binası önünde yapılan açıklamada şöyle denildi: “Sağlık Bakanlığı’nın 2022 yılı bütçe teklifine baktığımızda şunları görmekteyiz: Metalaşmış, ticarileşmiş tedavi edici hizmetler en büyük paya sahiptir. Ödeneklerin ne kadarının tedavi edici hizmetlere, ne kadarınınsa koruyucu hizmetlere ayrıldığı önemlidir. Bu rakamın 74,5 milyar liralık kısmı (yüzde 64) tedavi edici hizmetlere, buna karşılık 38,7 milyar lirası (yüzde 33) koruyucu hizmetlere ayrılmıştır. Yani sağlıkta ticarileşme ve metalaşmayı savunan anlayış yeni bütçede kaynakların aktarımı kısmında sınıfsallığını göstermektedir. Üstelik koruyucu hizmetlere ayrılan bütçeden pandemi döneminde verdikleri insanüstü çalışma koşullarına ve yüzlercesi hayatını kaybetmesine rağmen sağlık emekçilerinin ücretlerine ayrılan pay 5’te birdir. Pandemi sürecinde de daha net ortaya çıkan tablo koruyucu sağlık hizmetlerine ayrılan payın artırılması gerektiğini ortaya koyarken yine yeterli önem verilmediği ortadadır."

Original text Old Model New Model
denildi denil de
74,5 74,5 74 | ,5
3,9 3 | , | 9 3 | ,9
ayrılmıştır ayrıl ayrıl | tır

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Type

    No type

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions