Expose more detailed analysis of individual words #4

mortterna · 2023-05-09T14:04:23Z

No description provided.

komu · 2023-05-30T09:21:30Z

src/main/java/fi/evident/raudikko/WordPart.java

+        } else {
+            throw new IllegalStateException("Error in trimming hyphens");
+        }
+    }


Tää vaikuttaa vähän epäilyttävältä. Jos ei muuten, niin ainakin nimeämiseltään, koska jotenkin nimen perusteella olettaisi että toteutus olisi ekvivalentti toString().replace("-", "") kanssa, mutta ilmeisesti näin ei ole.

Muutenkin, tuonne else-haaraanhan ei ole mahdollista mennä, mutta kääntäjä ei vain tajuta sitä koodin rakenteesta enkä minäkään ensin. Mitä jos toi olisikin:

if (s.isEmpty() || s.equals("-")) return ""; int startOffset = startsWithChar(s, '-') ? 1 : 0; int endOffset = endsWithChar(s, '-') ? 1 : 0; return s.substring(startOffset, s.length() - endOffset);

Eikös tämä ole semantiikaltaan sama? Ainakin mulle kommunikoi paremmin mistä on kyse. Toi jopa on allokoinneiltaan identtinen, koska String.substring sisältää optimoinnin:

if (beginIndex == 0 && endIndex == length) { return this; }

Muutenkin mietin tarvitseeko tuon olla rajapinnassa default-toteutuksena. Ei kai kellään rajapinnan toteuttajalla ole tarvetta overridetä sitä? Harkitsisin ihan vain jotain removeLeadingAndTrailing(s, '-') -funktiota. Tuollaisella funktiolle olisi helpompi kirjoittaa testitkin kun ei tule koko muuta roskaa mukana. Ja jos haluaa sen default-toteutuksen sinne rajapintaan, niin sekin voisi olla vain kutsu tuohon staattiseen funktioon.

Kyseistä logiikkaa tarvitsee myös pluginin algoritmeissa, joissa käsitellään yhdyssanojen palasia, mutta sen verran pieni se on myös monistaa, joten ehkä se on parempi vain ottaa pois tästä rajapinnasta.

komu · 2023-05-30T09:24:56Z

src/main/java/fi/evident/raudikko/internal/morphology/WordParser.java

+                throw new IllegalStateException("Base form parts empty");
+
+            String result = baseFormParts[0];
+            baseFormParts = Arrays.copyOfRange(baseFormParts, 1, baseFormParts.length);


Tää vähän sattuu muhun. Sen sijaan että allokoidaan ja kopioidaan, eikö voisi vain pitää indeksiä ensimmäiseen konsumoimattomaan baseFormiin. Eli olisi:

private int baseFormPartIndex = 0; private @NotNull String popBaseForm() { if (isConsumed()) throw new IllegalStateException("Base form parts empty"); return baseFormParts[baseFormPartIndex++]; } private boolean isConsumed() { return baseFormPartsIndex >= baseFormParts.length; }

Tai jos ei halua noin matalan tason juttua, niin wrapata koko paska ArrayDeque-luokkaan ja kutsua sille removeFirst:iä. Se tekee sisäisesti saman jutun, että manipuloi vain indeksejä eikä kopioi mitään.

komu · 2023-05-30T09:27:49Z

src/main/java/fi/evident/raudikko/internal/morphology/WordParser.java

+
+        private boolean isNotConsumed() {
+            return !isConsumed();
+        }


Mä en tekisi omaa not-metodiaan vain yhden käyttökerran takia. Kyllä se if (! currentStrongMorpheme.isConsumed()) olisi ihan tarpeeksi selkeä. Itse asiassa sanoisin että se on jopa selkeämpi, koska tässä koodissa tulee korostuu selkeämmin se että eka ja toinen if-testaavat täsmälleen saman asian arvoja.

if (!currentStrongMorpheme.isConsumed()) { currentPart.addBaseForm(currentStrongMorpheme.popBaseForm()); currentStrongMorpheme.addPart(currentPart.toWordPart()); if (currentStrongMorpheme.isConsumed()) { wordParts.add(currentStrongMorpheme.toWordPart()); currentStrongMorpheme.reset(); } }

mortterna requested a review from komu May 9, 2023 14:04

komu changed the title ~~Feature/word analysis~~ Expose more detailed analysis of individual words May 17, 2023

mortterna force-pushed the feature/word-analysis branch 4 times, most recently from 5f81c33 to 366f507 Compare May 23, 2023 10:56

Expose word analysis optionally

88a1be8

mortterna force-pushed the feature/word-analysis branch from 366f507 to a8119ad Compare May 23, 2023 12:33

komu approved these changes May 30, 2023

View reviewed changes

Strong morpheme parsing implemented

bb1c76a

mortterna force-pushed the feature/word-analysis branch from a8119ad to bb1c76a Compare May 30, 2023 14:58

mortterna merged commit e27b799 into main May 30, 2023

mortterna deleted the feature/word-analysis branch May 30, 2023 15:11

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Expose more detailed analysis of individual words #4

Expose more detailed analysis of individual words #4

mortterna commented May 9, 2023

komu May 30, 2023

mortterna May 30, 2023

komu May 30, 2023 •

edited

Loading

komu May 30, 2023

Expose more detailed analysis of individual words #4

Expose more detailed analysis of individual words #4

Conversation

mortterna commented May 9, 2023

komu May 30, 2023

Choose a reason for hiding this comment

mortterna May 30, 2023

Choose a reason for hiding this comment

komu May 30, 2023 • edited Loading

Choose a reason for hiding this comment

komu May 30, 2023

Choose a reason for hiding this comment

komu May 30, 2023 •

edited

Loading