updated inverse stemmer for articles

sedthh · sedthh · commit 80b6b8550d72 · 2018-06-09T15:34:57.000+02:00
- updatd inverse stememr for articles
- nlp now has a function for generating "a" or "az"
- updated example_Stememr_3.py to showcase this
- parser Intents now matches typo stems with accidental "ű" letters pressed at the end
- improved entities and added additional commands and small_talk topics
- increased version number to 1.1.11
diff --git a/examples/example_stemmer_3.py b/examples/example_stemmer_3.py
@@ -12,7 +12,7 @@
 	parts	= query.split('-')
 	artist	= stemmer.inverse(parts[0],'től')	# "tól" and "től" are both valid
 	title	= stemmer.inverse(parts[1],'t')
-	the		= ('az' if nlp.vowel_beginning(title) else 'a')
+	the		= nlp.az(title)
 	
 	print('A zenelejátszó program az alábbi számot játssza:')
 	print(artist,the,title)
diff --git a/lara/__init__.py b/lara/__init__.py
@@ -3,7 +3,7 @@
 # Lara - Lingusitic Aim Recognizer API
 
 __all__				= 'nlp','parser','stemmer','entities'
-__version__ 		= '1.1.10'
+__version__ 		= '1.1.11'
 __version_info__	= tuple(int(num) for num in __version__.split('.'))
 
 import sys
diff --git a/lara/entities.py b/lara/entities.py
diff --git a/lara/nlp.py b/lara/nlp.py
@@ -24,7 +24,7 @@ def remove_double_letters(text, replace=''):
 		return replace.join([text[i] for i in range(len(text)-1) if text[i+1]!= text[i]]+[text[-1]])
 	return ''
 
-def remove_space_between_numbers(text, replace=''):
+def remove_spaces_between_numbers(text, replace=''):
 	if text:
 		return re.sub(r'(?<=\d)[\s\\\-/]+(?=\d)', replace, text)
 	return ''
@@ -363,3 +363,23 @@ def ngram(tokens,n=2):
 			grams	= [tokens[i:i+n] for i in range(len(tokens)-n+1)]
 			return [' '.join(item) for item in grams]
 	return []
+
+# a or az
+def az(word):
+	word	= trim(word)
+	if word:
+		if vowel_beginning(word):
+			return 'az'
+		if word[0] == '5':
+			return 'az'
+		if word[0] == '1':
+			number	= ''
+			for char in word:
+				if char.isnumeric():
+					number	+= char
+				else:
+					if char != ' ':
+						break
+			if len(number) in (1,4,7,10):
+				return 'az'
+	return 'a'
diff --git a/lara/parser.py b/lara/parser.py
@@ -11,11 +11,11 @@ class Intents:
 	prefixes			= r'(?:(?i)'+('|'.join(["abba","alá","át","be","bele","benn","el","ellen","elő","fel","föl","hátra","hozzá","ide","ki","körül","le","meg","mellé","neki","oda","össze","rá","szét","túl","utána","vissza"]))+')?'
 	typo_prefixes		= r'(?:(?i)'+('|'.join(["aba","ala","at","be","bele","ble","ben","el","elen","eln","elo","fel","fol","hatra","htara","harta","hoza","hzoa","ide","ki","korul","kroul","kourl","le","meg","mele","mle","neki","nkei","oda","osze","ozse","ra","szet","sezt","tul","utana","uatna","utna","visza","vsiza","vizsa"]))+')?'
 	pattern_noun		= r'(?i)a?i?n?(?:[aáeéioóöőuúü]?[djknmrst])?(?:[abjhkntv]?[aáeéioóöőuúü]?[lgkntz]?)?(?:[ae][kt])?'
-	typo_pattern_noun	= r'(?i)a?i?n?(?:[aeiou]?[djknmrst])?(?:[abjhkntv]?[aeiou]?[lgkntz]?)?(?:[ae][kt])?'
+	typo_pattern_noun	= r'(?i)a?i?n?(?:[aeiou]?[djknmrst])?(?:[abjhkntv]?[aeiou]?[lgkntz]?)?(?:[ae][kt])?u?'
 	pattern_adj			= r'(?i)(?:[aeoóöő]?s)?(?:[aáeéoó]?b{0,2})(?:[ae]?[nk])?(?:j?[ae])?(?:(?:[aáeéioóöőuúü]?[dklmnt])?(?:[aáeéioóöőuúü]?[klnt]?)?)(?:s[aáeé]g[ae]?(?:i\w*)?)?'
-	typo_pattern_adj	= r'(?i)(?:[aeo]?s)?(?:[aeo]?b?)(?:[ae]?[nk])?(?:j?[ae])?(?:(?:[aeiou]?[dklmnt])?(?:[aeiou]?[klnt]?)?)(?:s[ae]g[ae]?(?:i\w*)?)?'
+	typo_pattern_adj	= r'(?i)(?:[aeo]?s)?(?:[aeo]?b?)(?:[ae]?[nk])?(?:j?[ae])?(?:(?:[aeiou]?[dklmnt])?(?:[aeiou]?[klnt]?)?)(?:s[ae]g[ae]?(?:i\w*)?)?u?'
 	pattern_verb		= r'(?i)(?:h[ae][st]+e?)?(?:j?[ae])?(?:[eaá]?s{0,2}e?d?|[aáeéo]tt)?(?:(?:[jntv]|[eo]?g[ae]t+)?(?:[aeioöuü]n?[dklmt]|n[aáeéi]k?|sz|[aái])?(?:t[aáeéou][dkmt]?(?:ok)?)?)?(?:(?:t[ae]t)?(?:h[ae]t(?:[jnt]?[aáeéou](?:[dkm]|t[eéo]k)?)?t*)|[aáeé]?z?ni)?'
-	typo_pattern_verb	= r'(?i)(?:h[ae][st]e?)?(?:j?[ae])?(?:[eaá]?s?e?d?|[aeo]t)?(?:(?:[jntv]|[eo]?g[ae]t)?(?:[aeiou]n?[dklmt]|n[aei]k?|sz|[ai])?(?:t[aeou][dkmt]?(?:ok)?)?)?(?:(?:t[ae]t)?(?:h[ae]t(?:[jnt]?[aeou](?:[dkm]|t[eo]k)?)?t?)|[ae]?z?ni)?'
+	typo_pattern_verb	= r'(?i)(?:h[ae][st]e?)?(?:j?[ae])?(?:[eaá]?s?e?d?|[aeo]t)?(?:(?:[jntv]|[eo]?g[ae]t)?(?:[aeiou]n?[dklmt]|n[aei]k?|sz|[ai])?(?:t[aeou][dkmt]?(?:ok)?)?)?(?:(?:t[ae]t)?(?:h[ae]t(?:[jnt]?[aeou](?:[dkm]|t[eo]k)?)?t?)|[ae]?z?ni)?u?'
 	
 	##### CONSTRUCTOR #####
 	def __init__(self, new_intents={}, is_raw=False):
diff --git a/lara/stemmer.py b/lara/stemmer.py
@@ -343,27 +343,49 @@ def inverse(word,affix):
 	if not result[-1].isalnum():
 		result	= result+"-"
 	if affix in ('ra','re'):
+		if word in ('a','az'):
+			return 'arra'
+		if word=='ez':
+			return 'erre'
 		if word[-1].lower() in ('a','e'):
 			result	= result[:-1]+result[-1].replace('a','á').replace('e','é')
 		if vh == 'magas':
 			return result+'re'
 		else:
 			return result+'ra'
 	if affix in ('ba','be'):
+		if word in ('a','az'):
+			return 'abba'
+		if word=='ez':
+			return 'ebbe'
 		if word[-1].lower() in ('a','e'):
 			result	= result[:-1]+result[-1].replace('a','á').replace('e','é')
 		if vh == 'magas':
 			return result+'be'
 		else:
 			return result+'ba'
 	if affix in ('ban','ben'):
+		if word in ('a','az'):
+			return 'abban'
+		if word=='ez':
+			return 'ebben'
 		if word[-1].lower() in ('a','e'):
 			result	= result[:-1]+result[-1].replace('a','á').replace('e','é')
 		if vh == 'magas':
 			return result+'ben'
 		else:
 			return result+'ban'
 	if affix in ('k','s','t'):
+		if word in ('a','az'):
+			if affix=='k':
+				return 'azok'
+			if affix=='t':
+				return 'azt'
+		if word=='ez':
+			if affix=='k':
+				return 'ezek'
+			if affix=='t':
+				return 'ezt'
 		if lara.nlp.is_vowel(word[-1]):
 			if word[-1].lower() in ('a','e'):
 				result	= result[:-1]+result[-1].replace('a','á').replace('e','é')
@@ -399,12 +421,20 @@ def inverse(word,affix):
 			return result
 		return result+'i'
 	if affix in ('bol','ból','böl','ből','rol','ról','röl','ről','tol','tól','töl','től'):
+		if word in ('a','az'):
+			return 'a'+affix[0]+affix[0]+'ól'
+		if word=='ez':
+			return 'e'+affix[0]+affix[0]+'ől'
 		if word[-1].lower() in ('a','e'):
 			result	= result[:-1]+result[-1].replace('a','á').replace('e','é')
 		if vh == 'magas':
 			return result+affix[0]+'ől'
 		return result+affix[0]+'ól'
 	if affix in ('nak','nek'):
+		if word in ('a','az'):
+			return 'annak'
+		if word == 'ez':
+			return 'ennek'
 		if word[-1].lower() in ('a','e'):
 			result	= result[:-1]+result[-1].replace('a','á').replace('e','é')
 		if vh in 'magas':
@@ -415,6 +445,10 @@ def inverse(word,affix):
 				return result+'nek'
 		return result+'nak'
 	if affix in ('val','vel'):
+		if word in ('a','az'):
+			return 'azzal'
+		if word == 'ez':
+			return 'ezzel'
 		if lara.nlp.is_vowel(word[-1]):
 			if word[-1].lower() in ('a','e'):
 				result	= result[:-1]+result[-1].replace('a','á').replace('e','é')
@@ -449,6 +483,10 @@ def inverse(word,affix):
 				else:
 					return result+'al'
 	if affix in ('on','en','ön'):
+		if word in ('a','az'):
+			return 'azon'
+		if word == 'ez':
+			return 'ezen'
 		if len(result)==2:
 			if word.lower()=="fű":
 				return "füvön"