- added relative_dates() to parser Extract()

sedthh · sedthh · commit 6f37fce1666f · 2018-04-05T19:05:40.000+02:00
- added relative_dates() function to parser Extract() to convert days to date format
- updated times() function in parser Extract()
- updated _convert_numbers() function in parser Extract()
- updated test cases and added new test cases for parser Extract() relative_Dates()
- updated entities based on user feedback
- increased version to 1.0.3
diff --git a/lara/__init__.py b/lara/__init__.py
@@ -3,7 +3,7 @@
 # Lara - Lingusitic Aim Recognizer API
 
 __all__				= 'nlp','parser','tippmix','entities'
-__version__ 		= '1.0.2'
+__version__ 		= '1.0.3'
 __version_info__	= tuple(int(num) for num in __version__.split('.'))
 
 import sys
diff --git a/lara/entities.py b/lara/entities.py
@@ -18,7 +18,7 @@ def common():
 		"command"		: [{"stem":"(csin[aá]l(jad?|d)|(keres|mutas|mond)[aedjos]+n?|n[eé]z[nz]?[eé]?[dl]|akaro[km]|utas[ií]t\w{1,})","wordclass":"regex"},{"stem":"haj[cts]+(a|[aá]?[ld])\sv[eé]gre","wordclass":"regex"}],
 		"question"			: [{"stem":"(\?+$)|(\?+\s\w+)","wordclass":"regex"},{"stem":"([^,][^,\S+]hogy|^hogy)(an)?","wordclass":"regex"},{"stem":"hol"},{"stem":"honnan"},{"stem":"hová"},{"stem":"hány","affix":["an","at","ból"]},{"stem":"mettől"},{"stem":"meddig"},{"stem":"merre"},{"stem":"mennyi","affix":["en","re"]},{"stem":"mi","affix":["t","k","ket","kor","korra","lyen","lyenek","nek","től","kortól","korra","ből","hez","re","vel"]},{"stem":"ki(k?(e?t|nek|[bt][oöő]l|hez|re|[kv]el)|\saz?)","wordclass":"regex"}],
 		"conditional"		: [{"stem":"(meg)?(vol|tud|[lt]en?)n[aáeé][dl]?","wordclass":"regex"},{"stem":"\w+h[ae]t\w+","wordclass":"regex"}],
-		"profanity"			: [{"stem":"(fel|le|meg|r[aá]|ki|be|oda|[oö]s+ze|bele|hoz+[aá])?bas*z+d?\s?(at)?(hat)?(us|a[dk]?|n?[aá][kl]|[aá]?t[aáo][lkm]?|ot+|ni|n[aá]n?[dlkm]?|va|meg)?","wordclass":"regex","exc":[{"stem":"megye"}]},{"stem":"fasz","prefix":["ló","agy"],"wordclass":"noun"},{"stem":"fasza","wordclass":"adjective"},{"stem":"geci","wordclass":"noun"},{"stem":"kurva","affix":["élet","anya","anyja","annya"],"wordclass":"noun"},{"stem":"hülye","wordclass":"adjective"},{"stem":"pi(n|cs)[aá][dk]?(a?t|nak|ban?|[bt][oó]l|[eé]rt)?","wordclass":"regex"},{"stem":"((bekap(ja?|hato?|n[aái])?d?)|(kap.*?be))","wordclass":"regex"},{"stem":"(le)?szop(sz|ol|[jn][aá][dl]|hat(sz|n[aá]l|o[dl]))(\s?(le|ki))?","wordclass":"regex"},{"stem":"(geci|kurva)?(fos|szar)\w{0,3}","wordclass":"regex"}],
+		"profanity"			: [{"stem":"(fel|le|meg|r[aá]|ki|be|oda|[oö]s+ze|bele|hoz+[aá])?bas*z+d?(at)?(hat)?\s?(us|a[dk]?|n?[aá][kl]|[aá]?t[aáo][lkm]?|ot+|ni|n[aá]n?[dlkm]?|va|meg|ki)?","wordclass":"regex","exc":[{"stem":"megye"}]},{"stem":"fasz","prefix":["ló","agy"],"wordclass":"noun"},{"stem":"fasza","wordclass":"adjective"},{"stem":"geci","wordclass":"noun"},{"stem":"kurva","affix":["élet","anya","anyja","annya"],"wordclass":"noun"},{"stem":"hülye","wordclass":"adjective"},{"stem":"pi(n|cs)[aá][dk]?(a?t|nak|ban?|[bt][oó]l|[eé]rt)?","wordclass":"regex"},{"stem":"((bekap(ja?|hato?|n[aái])?d?)|(kap.*?be))","wordclass":"regex"},{"stem":"(le)?szop(sz|ol|[jn][aá][dl]|hat(sz|n[aá]l|o[dl]))(\s?(le|ki))?","wordclass":"regex"},{"stem":"(geci|kurva)?(fos|szar)\w{0,3}","wordclass":"regex"}],
 		"welldone"			: [{"stem":"fasza"},{"stem":"nagyszerű"},{"stem":"remek","max_words":5},{"stem":"jó","prefix":["kurva"],"exc":[{"stem":"nincs"},{"stem":"nem"},{"stem":"éjt"},{"stem":"reggelt"},{"stem":"napot"},{"stem":"estét"},{"stem":"éjszakát"}]},{"stem":"j[oó]l\s?van","wordclass":"regex"},{"stem":"király"},{"stem":"ügyes"},{"stem":"(sz[eé]p\s(volt|munka))|(ez\s(lesz\s)?az)|(sz?uper)|zs[ií]r","wordclass":"regex"},{"stem":"👍","wordclass":"emoji"},{"stem":"\(Y\)","wordclass":"regex","boundary":False},{"stem":"profi vagy"},{"stem":"fant[aoö](rp|sz?t)i[ck](us)?(an)?","wordclass":"regex"},{"stem":"szeretem","inc":[{"stem":"amikor"},{"stem":"ahogy"}],"exc":[{"stem":"nem"}]}],
 		"dontknow"		: [{"stem":"fogalmam sincs","affix":["en"]},{"stem":"(m[eé]g)?[ns]em?\stud(hat)?o\w+","wordclass":"regex"},{"stem":"hon+an.+?tud(jam|(hat)?n[aá]m)","wordclass":"regex"}],
 		"dontunderstand": [{"stem":"(m[eé]g)?[ns]em?\s([eé]rte(t+e)?[lm](ek)?|v[aá]gom|hal+[ao](t+a)?[km])","wordclass":"regex"},{"stem":"(mit|hogy(an))\s([eé]rte(t+[eé])?|mond(t[aá])?o?)(sz|d|l)","wordclass":"regex"},{"stem":"meg\s?ism[eé]tel(het)?n\w+","wordclass":"regex"}],
diff --git a/lara/parser.py b/lara/parser.py
@@ -679,22 +679,23 @@ def dates(self,normalize=True,convert=True):
 		return results
 		
 	# extract times like 12:00 or délután 4
-	def times(self,normalize=True,convert=True,current=-1):
+	def times(self,normalize=True,convert=True,current=False):
 		if self.text:
-			matches	= _re.findall(r'((?:ma\s?|holnap(?:\s?ut[aá]n)?\s?|tegnap(?:\s?el[oöő]t+)?\s?)?(?:reggel\s?|hajnal(?:i|ban)?\s?|d[eé]lel[oöő]t+\s?|d\.?e\.?\s?|d[eé]lut[aá]n\s?|d\.?u\.?\s?|este\s?|[eé]j+el\s?)?\,?\s?(?:[12345]?\d\s?perc+el\s)?(?:(?:h[aá]rom)?negyed\s?|f[eé]l\s?)?[012]?\d\s?(?:\:\s?|\-?kor\s?|[oó]r[aá]\w{0,3}\s?)?(?:el[oöő]t+\s?|ut[aá]n\s?)?(?:[0123456]?\d[\-\s]?(?:kor|perc\w{0,3})?)?\,?\s?(?:ma\s?|holnap(?:\s?ut[aá]n)?\s?|tegnap(?:\s?el[oöő]t+)?\s?)?(?:reggel\s?|hajnal(?:i|ban)?\s?|d[eé]lel[oöő]t+\s?|d\.?e\.?\s?|d[eé]lut[aá]n\s?|d\.?u\.?\s?|este\s?|[eé]j+el\s?)?)', re.IGNORECASE, self._ntext_ if convert else self._text_)
+			matches	= _re.findall(r'((?:ma\s?|holnap(?:\s?ut[aá]n)?\s?|tegnap(?:\s?el[oöő]t+)?\s?)?(reggel\s?|hajnal(?:i|ban)?\s?|d[eé]lel[oöő]t+\s?|d\.?e\.?\s?|d[eé]lut[aá]n\s?|d\.?u\.?\s?|este\s?|[eé]j+el\s?)?\,?\s?(?:[12345]?\d\s?perc+el\s)?(?:(?:h[aá]rom)?negyed\s?|f[eé]l\s?)?[012]?\d\s?(?:\:\s?|\-?kor\s?|\-?t[oóöő]l|\-?ig|\-?r[ae]|[oó]r[aá]\w{0,3}\s?)?(?:el[oöő]t+\s?|ut[aá]n\s?)?(?:[0123456]?\d[\-\s]?(?:kor|t[oóöő]l|ig|r[ae]|perc\w{0,3})?)?\,?\s?(?:ma\s?|holnap(?:\s?ut[aá]n)?\s?|tegnap(?:\s?el[oöő]t+)?\s?)?(?(1)(reggel\s?|hajnal(?:i|ban)?\s?|d[eé]lel[oöő]t+\s?|d\.?e\.?\s?|d[eé]lut[aá]n\s?|d\.?u\.?\s?|este\s?|[eé]j+el\s?))?)', re.IGNORECASE, self._ntext_ if convert else self._text_)
 			if normalize:
 				results	= []
-				for item in matches:
+				for _item in matches:
+					item	= _item[0]
 					if len(item.strip())>2:
-						item	= ' '+item+' '
-						hour	= "00"
+						item		= ' '+item.lower()+' '
+						hour		= "00"
 						minute	= "00"
 						pm		= False
-						zero	= False
-						elott	= False
-						hour_matches 	= _re.findall(r'\D([012]?\d(?!\d))\D*?(?!perc)(?:\:|\-?kor|[oó]r[aá])?', re.IGNORECASE, item)
-						minute_matches 	= _re.findall(r'(?!negyed|f[eé]l)\D([0123456]?\d(?!\d))\D*?(?![oó]ra)(?:\-?kor|perc)?', re.IGNORECASE, item)
-						quarter_matches	= _re.findall(r'((?:h[aá]rom)?negyed|f[eé]l)', re.IGNORECASE, item)
+						zero		= False
+						elott		= False
+						hour_matches 	= _re.findall(r'\D([012]?\d(?!\d))\D*?(?!perc)(?:\:|\-?kor|\-?t[oóöő]l|\-?ig|\-?r[ae]|[oó]r[aá]\w*)?', re.IGNORECASE, item)
+						minute_matches	= _re.findall(r'(?!negyed|f[eé]l)\D([0123456]?\d(?!\d))\D*?(?![oó]r[aá])(?:\-?kor|\-?t[oóöő]l|\-?ig|\-?r[ae]|perc\w*)?', re.IGNORECASE, item)
+						quarter_matches= _re.findall(r'((?:h[aá]rom)?negyed|f[eé]l)', re.IGNORECASE, item)
 						am_matches		= _re.findall(r'(reggel|hajnal|d[eé]lel[oöő]t|d\.?e\.?)', re.IGNORECASE, item)
 						pm_matches		= _re.findall(r'(d[eé]lut[aá]n|d\.?u\.?|este|[eé]j+el)', re.IGNORECASE, item)
 						if len(hour_matches) in (1,2):
@@ -763,15 +764,14 @@ def times(self,normalize=True,convert=True,current=-1):
 								if pm_matches:
 									pm	= True
 								elif not am_matches:
-									if current:
-										if current>=0:
-											now	= current
-										else:
-											now	= datetime.datetime.now().hour							
-										if 'holnap' in item and hour<9:
-											pm = True
-										elif hour<12 and now>hour:
-											pm = True
+									if current is not False:
+										now	= current
+									else:
+										now	= datetime.datetime.now().hour							
+									if 'holnap' in item and hour<9:
+										pm = True
+									elif hour<12 and now>hour:
+										pm = True
 								if pm and hour<=12:
 									hour	+= 12
 							hour	%= 24
@@ -780,7 +780,7 @@ def times(self,normalize=True,convert=True,current=-1):
 							results.append(str(hour).zfill(2)+':'+str(minute).zfill(2))
 				return results
 			else:
-				return [item.strip() for item in matches if len(item.strip())>2]
+				return [item[0].strip() for item in matches if len(item[0].strip())>2]
 		return []
 	
 	# extract list of time durations
@@ -795,13 +795,13 @@ def durations(self,normalize=True,convert=True):
 					val			= 0
 					for sub_item in sub_matches:
 						match	= sub_item.lower().replace(',','.')
-						sval	= ''
+						sval		= ''
 						for char in match:
 							if char.isdigit() or char=='.':
 								sval+=char
 							else:
 								break
-						sval	= float(sval)
+						sval		= float(sval)
 						mpx		= 1
 						if 'tized' in match or 'tízed' in match:
 							mpx		= 0.1
@@ -953,11 +953,57 @@ def emails(self):
 			return _re.findall(r'\b([\w\d\-\_\.]+\@[\w\d\-\_\.]+\.\w{2,4}(?:\.\w{2,4})?)\b', re.IGNORECASE, self.text)
 		return []
 
+	# extract relative dates like tomorrow or wednesday
+	def relative_dates(self,normalize=True,current=False):
+		if self.text:
+			matches	= _re.findall(r'\b((?:(?:meg)?el[oöő]z[oöő]|m[uú]lt|(?:r[aá])?k[oö]vetkez[oöő]|j[oö]v[oöő])?\s?(?:h[eé]t(?:i|en)?\s?)?(?:tegnap(?:el[oöő]t+)?|holnap(?:ut[aá]n)?|m[aá](?:i nap)?|h[eé]tf[oöő]|ked+|szerd[aá]|cs[uü]t[oö]rt[oö]k|p[eé]ntek|szo[nm]bat|vas[aá]rnap))(?:[aáeoö][dm])?(?:ig|r[ae]|t[oóöő]l|[aáeoöő]?t|[dkmnptv][ae][lk]|[aáeoö]?n)?\b', re.IGNORECASE, self.text)
+			if normalize:
+				if current is not False:
+					_now			= datetime.datetime.strptime(current,"%Y-%m-%d")
+				else:
+					_now			= datetime.datetime.now()
+				results	=	[]
+				for item in matches:
+					item	= item.lower()
+					now	= _now
+					if 'holnap' in item:
+						if 'ut' in item:
+							now			+= datetime.timedelta(days = 2)
+						else:
+							now			+= datetime.timedelta(days = 1)
+					elif 'tegnap' in item:
+						if 'el' in item:
+							now			+= datetime.timedelta(days = -2)
+						else:
+							now			+= datetime.timedelta(days = -1)
+					elif 'ma' not in item and 'má' not in item:
+						now			-= datetime.timedelta(days = now.weekday())
+						if _re.findall(r'((?:meg)?el[oöő]z[oöő]|m[uú]lt)', re.IGNORECASE, item):
+							now			-= datetime.timedelta(weeks = 1)
+						elif _re.findall(r'((?:r[aá])?k[oö]vetkez[oöő]|j[oö]v[oöő])', re.IGNORECASE, item):
+							now			+= datetime.timedelta(weeks = 1)
+						if 'ked' in item:
+							now			+= datetime.timedelta(days = 1)
+						elif 'szerd' in item:
+							now			+= datetime.timedelta(days = 2)
+						elif _re.findall(r'cs[uü]t[oö]rt[oö]k', re.IGNORECASE, item):
+							now			+= datetime.timedelta(days = 3)
+						elif _re.findall(r'p[eé]ntek', re.IGNORECASE, item):
+							now			+= datetime.timedelta(days = 4)
+						elif _re.findall(r'szo[mn]bat', re.IGNORECASE, item):
+							now			+= datetime.timedelta(days = 5)
+						elif _re.findall(r'vas[aá]rnap', re.IGNORECASE, item):
+							now			+= datetime.timedelta(days = 6)
+					results.append(now.strftime('%Y-%m-%d'))
+				return results
+			else:
+				return [item.strip() for item in matches]
+		return []
+		
 	# Converts text representation of numbers to digits
 	def _convert_numbers(self,text):
 		if text:
-			#fix		= _re.sub(r'(?<=\d)\s+(?=\d)',re.IGNORECASE,'',text.lower())
-			matches	= _re.findall(r'((?:m[ií]n[uú]sz\s?|negat[ií]v\s?)?(?:(?:(?:(?:(?:t[ií]z|h[uú]sz|harminc)(?:[eo]n)?)?(?:nulla|egy|els[eoöő]|k[eé]t+[oöő]?|m[aá]sod(?:ik)?|h[aá]rom|harmadik|n[eé]gy|[oö]t|hat|h[eé]t|nyolc|kilenc)(?:v[ae]n)?)(?:milli[aá]rd|milli[oó]|ezer|sz[aá]z)?\W*)|(?:milli[aá]rd|milli[oó]|ezer|sz[aá]z|t[ií]z|h[uú]sz|harminc|nulla|z[eé]r[oó])\W*)+(?:[aeoö]dik)?(?:j?[aáeéi]+n?)?)\b', re.IGNORECASE, text.lower())
+			matches	= _re.findall(r'((?:m[ií]n[uú]sz\s?|negat[ií]v\s?)?(?:(?:(?:(?:(?:t[ií]z|h[uú]sz|harminc)(?:[eo]n)?)?(?:nulla|eg+y|els[eoöő]|k[eé]t+[oöő]?|m[aá]sod(?:ik)?|h[aá]rom|harmadik|n[eé]g+y|[oö]t|hat|h[eé]t|nyolc|kilenc)(?:v[ae]n)?)(?:milli[aá]rd|milli[oó]|ezer|sz[aá]z)?\W*)|(?:milli[aá]rd|milli[oó]|ezer|sz[aá]z|t[ií]z|h[uú]sz|harminc|nulla|z[eé]r[oó])\W*)+(?:[aeoö]dik)?(?:j?[aáeéi]+[gnt]?|[aáeéoöő]?t|kor|t[oóöő]l|r[ae]|[ckmrtvz]?[ae]l)?)\b', re.IGNORECASE, text)
 			results	= {}
 			for match in matches:
 				value	= 0
@@ -968,7 +1014,7 @@ def _convert_numbers(self,text):
 				else:
 					minus	= 1
 					minusm	= ''
-				parts	= _re.findall(r'((?:(?:(?:(?:t[ií]z|h[uú]sz|harminc)(?:[eo]n)?)?(?:nulla|egy|els[eoöő]|k[eé]t+[oöő]?|m[aá]sod(?:ik)?|h[aá]rom|harmadik|n[eé]gy|[oö]t|hat|h[eé]t|nyolc|kilenc)(?:v[ae]n)?)(?:milli[aá]rd|milli[oó]|ezer|sz[aá]z)?|(?:milli[aá]rd|milli[oó]|ezer|sz[aá]z|t[ií]z|h[uú]sz|harminc|nulla|z[eé]r[oó]))\W*)', re.IGNORECASE, match)
+				parts	= _re.findall(r'((?:(?:(?:(?:t[ií]z|h[uú]sz|harminc)(?:[eo]n)?)?(?:nulla|eg+y|els[eoöő]|k[eé]t+[oöő]?|m[aá]sod(?:ik)?|h[aá]rom|harmadik|n[eé]g+y|[oö]t|hat|h[eé]t|nyolc|kilenc)(?:v[ae]n)?)(?:milli[aá]rd|milli[oó]|ezer|sz[aá]z)?|(?:milli[aá]rd|milli[oó]|ezer|sz[aá]z|t[ií]z|h[uú]sz|harminc|nulla|z[eé]r[oó]))\W*)', re.IGNORECASE, match)
 				values	= []
 				for part in parts:
 					val			= 0
@@ -1045,7 +1091,7 @@ def _convert_numbers(self,text):
 					
 			swap 	= sorted(results.items(), key=lambda x: x[1], reverse=True)
 			for item in swap:
-				text		= _re.sub(r'\b('+re.escape(item[0])+r')(?:[aeoö]dik?)?(?:j?[aáeéi]+n?)?\b', re.IGNORECASE, str(item[1]), text)
+				text		= _re.sub(r'\b('+re.escape(item[0])+r')(?:[aeoö]dik?)?(?:j?[aáeéi]+[gnt]?|[aáeéoöő]?t|kor|t[oóöő]l|r[ae]|[ckmrtvz]?[ae]l)?\b', re.IGNORECASE, str(item[1]), text)
 			return text
 		return ''
 	
@@ -1063,9 +1109,9 @@ def _convert_numbers_helper(self,match,default):
 			return 2
 		elif _re.findall(r'(harmadik|h[aá]rom)', re.IGNORECASE, match):
 			return 3
-		elif _re.findall(r'n[eé]gy', re.IGNORECASE, match):
+		elif _re.findall(r'n[eé]g+y', re.IGNORECASE, match):
 			return 4
-		elif 'egy' in match or 'els' in match:
+		elif 'egy' in match or 'els' in match or 'eggy' in match:
 			return 1
 		elif _re.findall(r'[oö]t', re.IGNORECASE, match):
 			return 5
diff --git a/tests/test_parser.py b/tests/test_parser.py