- fixed minor bugs in 1.0.4

sedthh · sedthh · commit dac36f4996a9 · 2018-04-06T18:40:13.000+02:00
- updated parser Extract() _convert_numbers() to let endings in numbers remain
- updated parser Extract() times()
- updated parser Extract() durations()
- updated parser Extract() timestamps()
- updated test cases for parser to match results from updated _convert_numbers() funciton
- increased version to 1.0.4
diff --git a/lara/__init__.py b/lara/__init__.py
@@ -3,7 +3,7 @@
 # Lara - Lingusitic Aim Recognizer API
 
 __all__				= 'nlp','parser','tippmix','entities'
-__version__ 		= '1.0.3'
+__version__ 		= '1.0.4'
 __version_info__	= tuple(int(num) for num in __version__.split('.'))
 
 import sys
diff --git a/lara/parser.py b/lara/parser.py
@@ -681,9 +681,9 @@ def dates(self,normalize=True,convert=True):
 	# extract times like 12:00 or délután 4
 	def times(self,normalize=True,convert=True,current=False):
 		if self.text:
-			matches	= _re.findall(r'((?:ma\s?|holnap(?:\s?ut[aá]n)?\s?|tegnap(?:\s?el[oöő]t+)?\s?)?(reggel\s?|hajnal(?:i|ban)?\s?|d[eé]lel[oöő]t+\s?|d\.?e\.?\s?|d[eé]lut[aá]n\s?|d\.?u\.?\s?|este\s?|[eé]j+el\s?)?\,?\s?(?:[12345]?\d\s?perc+el\s)?(?:(?:h[aá]rom)?negyed\s?|f[eé]l\s?)?(?:[012]?\d|d[eé]l\w*|[eé]jf[eé]l\w*)\s?(?:\:\s?|\-?kor\s?|\-?t[oóöő]l|\-?ig|\-?r[ae]|[oó]r[aá]\w{0,3}\s?)?(?:el[oöő]t+\s?|ut[aá]n\s?)?(?:[0123456]?\d[\-\s]?(?:kor|t[oóöő]l|ig|r[ae]|perc\w{0,3})?)?\,?\s?(?:ma\s?|holnap(?:\s?ut[aá]n)?\s?|tegnap(?:\s?el[oöő]t+)?\s?)?(?(1)(reggel\s?|hajnal(?:i|ban)?\s?|d[eé]lel[oöő]t+\s?|d\.?e\.?\s?|d[eé]lut[aá]n\s?|d\.?u\.?\s?|este\s?|[eé]j+el\s?))?)', re.IGNORECASE, self._ntext_ if convert else self._text_)
+			matches	= _re.findall(r'((?:ma\s?|holnap(?:\s?ut[aá]n)?\s?|tegnap(?:\s?el[oöő]t+)?\s?)?(reggel\s?|hajnal(?:i|ban)?\s?|d[eé]lel[oöő]t+\s?|d\.?e\.?\s?|d[eé]lut[aá]n\s?|d\.?u\.?\s?|este\s?|[eé]j+el\s?)?\,?\s?(?:[12345]?\d\s?perc+el\s)?(?:(?:h[aá]rom)?negyed\s?|f[eé]l\s?)?(?:[012]?\d|d[eé]l\w*|[eé]jf[eé]l\w*)\s?(?:\:\s?|k[oö]z[oö]t+|\-?kor\s?|\-?t[oóöő]l|\-?ig?|\-?r[ae]|[oó]r[aá]\w{0,3}\s?)?(?:el[oöő]t+\s?|ut[aá]n\s?)?(?:[0123456]?\d[\-\s]?(?![cmntvz][ae]l)(?:kor|t[oóöő]l|ig?|r[ae]|perc\w{0,3})?)?\,?\s?(?:ma\s?|holnap(?:\s?ut[aá]n)?\s?|tegnap(?:\s?el[oöő]t+)?\s?)?(?(1)(reggel\s?|hajnal(?:i|ban)?\s?|d[eé]lel[oöő]t+\s?|d\.?e\.?\s?|d[eé]lut[aá]n\s?|d\.?u\.?\s?|este\s?|[eé]j+el\s?))?)', re.IGNORECASE, self._ntext_ if convert else self._text_)
+			results	= []
 			if normalize:
-				results	= []
 				last_pm	= None
 				for _item in matches:
 					item	= _item[0]
@@ -695,8 +695,8 @@ def times(self,normalize=True,convert=True,current=False):
 						zero		= False
 						elott		= False
 						del_matches		= _re.findall(r'd[eé]l\w*|[eé]jf[eé]l\w*', re.IGNORECASE, item)
-						hour_matches 	= _re.findall(r'\D([012]?\d(?!\d))\D*?(?!perc)(?:\:|\-?kor|\-?t[oóöő]l|\-?ig|\-?r[ae]|[oó]r[aá]\w*)?', re.IGNORECASE, item)
-						minute_matches	= _re.findall(r'(?!negyed|f[eé]l)\D([0123456]?\d(?!\d))\D*?(?![oó]r[aá])(?:\-?kor|\-?t[oóöő]l|\-?ig|\-?r[ae]|perc\w*)?', re.IGNORECASE, item)
+						hour_matches 	= _re.findall(r'\D([012]?\d(?!\d))\D*?(?!perc)(?:\:\s?|k[oö]z[oö]t+|\-?kor|\-?t[oóöő]l|\-?ig?|\-?r[ae]|[oó]r[aá]\w*)?', re.IGNORECASE, item)
+						minute_matches	= _re.findall(r'(?!negyed|f[eé]l)\D([0123456]?\d(?!\d))\D*?(?![oó]r[aá])(?:\-?kor|\-?t[oóöő]l|\-?ig?|\-?r[ae]|perc\w*)?', re.IGNORECASE, item)
 						quarter_matches= _re.findall(r'((?:h[aá]rom)?negyed|f[eé]l)', re.IGNORECASE, item)
 						am_matches		= _re.findall(r'(reggel|hajnal|d[eé]lel[oöő]t|d\.?e\.?)', re.IGNORECASE, item)
 						pm_matches		= _re.findall(r'(d[eé]lut[aá]n|d\.?u\.?|este|[eé]j+el)', re.IGNORECASE, item)
@@ -787,15 +787,22 @@ def times(self,normalize=True,convert=True,current=False):
 								results.append('00:00')
 							else:
 								results.append('12:00')
-				return results
 			else:
-				return [item[0].strip() for item in matches if len(item[0].strip())>4]
+				for item in matches:
+					item	= item[0].strip()
+					ok		= False
+					for char in item:
+						if not char.isnumeric():
+							ok	= True
+					if item and ok:
+						results.append(item)
+			return results
 		return []
 	
 	# extract list of time durations
 	def durations(self,normalize=True,convert=True):
 		if self.text:
-			matches	= _re.findall(r'\b((?:(?:(?:\d\s?)+(?:[\.\,]\d+)?\s(?:(?:[eé]s\s)?(?:f[eé]l|(?:h[aá]rom)?negyed)\s)?(?:(?:(?:t[ií]zed|sz[aá]zad|ezred)?m[aá]sod)?perc\w{0,3}|[oó]r[aá]\w{0,3}|nap\w{0,3}|7|h[eé]t\w{0,3}|h[oó]nap\w{0,3}|[eé]v\w{0,3})(?:\s(?:m[uú]lva|r[aá]|(?:ez)?el[oöő]t+|el[oöő]b+|k[eé]s[oö]b+|bel[uü]l|h[aá]tr(?:a|[eé]bb)|vissza|el[oöő]re))?)(?:\W{1,2}(?:[eé]s|meg)?\W*)?)+)', re.IGNORECASE, self.ntext if convert else self.text)
+			matches	= _re.findall(r'\b((?:(?:(?:\d\s?)+(?:[\.\,]\d+)?\s(?:(?:[eé]s\s)?(?:f[eé]l|(?:h[aá]rom)?negyed)\s)?(?:(?:(?:t[ií]zed|sz[aá]zad|ezred)?m[aá]sod)?perc\w{0,3}|[oó]r[aá]\w{0,3}|nap\w{0,3}|7\w{0,3}|h[eé]t\w{0,3}|h[oó]nap\w{0,3}|[eé]v\w{0,3})(?:\s(?:m[uú]lva|r[aá]|(?:ez)?el[oöő]t+|el[oöő]b+|k[eé]s[oö]b+|bel[uü]l|h[aá]tr(?:a|[eé]bb)|vissza|el[oöő]re))?)(?:\W{1,2}(?:[eé]s|meg)?\W*)?)+)', re.IGNORECASE, self.ntext if convert else self.text)
 			if normalize:
 				results	= []
 				now = datetime.datetime.now()
@@ -1027,13 +1034,13 @@ def timestamps(self,current=False):
 		relative_pos= []
 		times_pos	= []
 		for item in dates:
-			for match in _re.finditer(r'\b'+re.escape(item), re.IGNORECASE, self.text):
+			for match in _re.finditer(r'\b'+re.escape(item), re.IGNORECASE, self.ntext):
 				dates_pos.append(match.span()[0])
 		for item in relative:
-			for match in _re.finditer(r'\b'+re.escape(item), re.IGNORECASE, self.text):
+			for match in _re.finditer(r'\b'+re.escape(item), re.IGNORECASE, self.ntext):
 				relative_pos.append(match.span()[0])
 		for item in times:
-			for match in _re.finditer(r'\b'+re.escape(item), re.IGNORECASE, self.text):
+			for match in _re.finditer(r'\b'+re.escape(item), re.IGNORECASE, self.ntext):
 				times_pos.append(match.span()[0])
 		dates_pos.append(-1)
 		relative_pos.append(-1)
@@ -1168,7 +1175,7 @@ def _convert_numbers(self,text):
 					
 			swap 	= sorted(results.items(), key=lambda x: x[1], reverse=True)
 			for item in swap:
-				text		= _re.sub(r'\b('+re.escape(item[0])+r')(?:[aeoö]dik?)?(?:j?[aáeéi]+[gnt]?|[aáeéoöő]?t|kor|t[oóöő]l|r[ae]|[ckmrtvz]?[ae]l)?\b', re.IGNORECASE, str(item[1]), text)
+				text		= _re.sub(r'\b('+re.escape(item[0])+r')((?:[aeoö]dik?)?(?:j?[aáeéi]+[gnt]?|[aáeéoöő]?t|kor|t[oóöő]l|r[ae]|[ckmrtvz]?[ae]l)?)?\b', re.IGNORECASE, re.escape(str(item[1]))+r'\2', text)
 			return text
 		return ''
 	
diff --git a/tests/test_parser.py b/tests/test_parser.py
@@ -402,7 +402,7 @@ def test_parser_extract(info):
 	(
 		{
 			"in"		: "harmincnégy lol első a második harmadik :D negyed végén ötödikén mit más csinálsz tízenkétmillióhatvanezerhetvenegy és hárommillió száz huszonkettő vagy még nullamilliárd de akkor már kettő kettő tizenkettő :) harmincnégy és nyolcvan illetve kilencvenezer az állás pedig egy-egy és végül egy kettő három",
-			"out"		: "34 lol 1 a 2 3 :D negyed végén 5 mit más csinálsz 12060071 és 3000122 vagy még 0 de akkor már 2212 :) 34 és 80 illetve 90000 az állás pedig 1-1 és végül 1 2 3"
+			"out"		: "34 lol 1 a 2 3 :D negyed végén 5ödikén mit más csinálsz 12060071 és 3000122 vagy még 0 de akkor már 2212 :) 34 és 80 illetve 90000 az állás pedig 1-1 és végül 1 2 3"
 		}
 	),
 	(
@@ -614,7 +614,7 @@ def test_parser_extract_convert_numbers(info):
 			"text"		: "3 óra és 4 perc múlva valamint majd egyszer egy héttel rá",
 			"function"	: "durations",
 			"args"		: [False],
-			"result"		: ['3 óra és 4 perc múlva', '1 7 rá']
+			"result"		: ['3 óra és 4 perc múlva', '1 7tel rá']
 		}
 	),
 	(

Original file line number	Diff line number	Diff line change
`@@ -402,7 +402,7 @@ def test_parser_extract(info):`
`402`	`402`	`(`
`403`	`403`	`{`
`404`	`404`	`"in" : "harmincnégy lol első a második harmadik :D negyed végén ötödikén mit más csinálsz tízenkétmillióhatvanezerhetvenegy és hárommillió száz huszonkettő vagy még nullamilliárd de akkor már kettő kettő tizenkettő :) harmincnégy és nyolcvan illetve kilencvenezer az állás pedig egy-egy és végül egy kettő három",`
`405`		`- "out" : "34 lol 1 a 2 3 :D negyed végén 5 mit más csinálsz 12060071 és 3000122 vagy még 0 de akkor már 2212 :) 34 és 80 illetve 90000 az állás pedig 1-1 és végül 1 2 3"`
	`405`	`+ "out" : "34 lol 1 a 2 3 :D negyed végén 5ödikén mit más csinálsz 12060071 és 3000122 vagy még 0 de akkor már 2212 :) 34 és 80 illetve 90000 az állás pedig 1-1 és végül 1 2 3"`
`406`	`406`	`}`
`407`	`407`	`),`
`408`	`408`	`(`
`@@ -614,7 +614,7 @@ def test_parser_extract_convert_numbers(info):`
`614`	`614`	`"text" : "3 óra és 4 perc múlva valamint majd egyszer egy héttel rá",`
`615`	`615`	`"function" : "durations",`
`616`	`616`	`"args" : [False],`
`617`		`- "result" : ['3 óra és 4 perc múlva', '1 7 rá']`
	`617`	`+ "result" : ['3 óra és 4 perc múlva', '1 7tel rá']`
`618`	`618`	`}`
`619`	`619`	`),`
`620`	`620`	`(`