mirror of
				https://github.com/explosion/spaCy.git
				synced 2025-11-04 09:57:26 +03:00 
			
		
		
		
	Better error handling
This commit is contained in:
		
							parent
							
								
									a45f22913f
								
							
						
					
					
						commit
						b03a46792c
					
				| 
						 | 
					@ -35,7 +35,7 @@ TOKENIZER_INFIXES = (
 | 
				
			||||||
        r'(?<=[{a}"])[:<>=](?=[{a}])'.format(a=ALPHA),
 | 
					        r'(?<=[{a}"])[:<>=](?=[{a}])'.format(a=ALPHA),
 | 
				
			||||||
        r'(?<=[{a}])--(?=[{a}])'.format(a=ALPHA),
 | 
					        r'(?<=[{a}])--(?=[{a}])'.format(a=ALPHA),
 | 
				
			||||||
        r'(?<=[{a}]),(?=[{a}])'.format(a=ALPHA),
 | 
					        r'(?<=[{a}]),(?=[{a}])'.format(a=ALPHA),
 | 
				
			||||||
        r'(?<=[0-9{a}])(({q})|[\)\]])(?=\-[{a}])'.format(a=ALPHA, q=QUOTES),
 | 
					        r'(?<=[{a}])(({q})|[\)\]\(\[])(?=[\-{a}])'.format(a=ALPHA, q=QUOTES),
 | 
				
			||||||
    ]
 | 
					    ]
 | 
				
			||||||
)
 | 
					)
 | 
				
			||||||
__all__ = ["TOKENIZER_PREFIXES", "TOKENIZER_SUFFIXES", "TOKENIZER_INFIXES"]
 | 
					__all__ = ["TOKENIZER_PREFIXES", "TOKENIZER_SUFFIXES", "TOKENIZER_INFIXES"]
 | 
				
			||||||
| 
						 | 
					
 | 
				
			||||||
| 
						 | 
					@ -147,7 +147,7 @@ NUMBER_TESTS = [
 | 
				
			||||||
    ('A 15.-ben.', ['A', '15.-ben', '.']),
 | 
					    ('A 15.-ben.', ['A', '15.-ben', '.']),
 | 
				
			||||||
    ('A 2002--2003. van.', ['A', '2002--2003.', 'van', '.']),
 | 
					    ('A 2002--2003. van.', ['A', '2002--2003.', 'van', '.']),
 | 
				
			||||||
    ('A 2002--2003-ben van.', ['A', '2002--2003-ben', 'van', '.']),
 | 
					    ('A 2002--2003-ben van.', ['A', '2002--2003-ben', 'van', '.']),
 | 
				
			||||||
    ('A 2002--2003-ben.', ['A', '2002--2003-ben', '.']),
 | 
					    ('A 2002-2003-ben.', ['A', '2002-2003-ben', '.']),
 | 
				
			||||||
    ('A +0,99% van.', ['A', '+0,99%', 'van', '.']),
 | 
					    ('A +0,99% van.', ['A', '+0,99%', 'van', '.']),
 | 
				
			||||||
    ('A -0,99% van.', ['A', '-0,99%', 'van', '.']),
 | 
					    ('A -0,99% van.', ['A', '-0,99%', 'van', '.']),
 | 
				
			||||||
    ('A -0,99%-ben van.', ['A', '-0,99%-ben', 'van', '.']),
 | 
					    ('A -0,99%-ben van.', ['A', '-0,99%-ben', 'van', '.']),
 | 
				
			||||||
| 
						 | 
					@ -217,7 +217,7 @@ QUOTE_TESTS = [
 | 
				
			||||||
    ('Az "Ime, hat"-ban irja.', ['Az', '"', 'Ime', ',', 'hat', '"', '-ban', 'irja', '.']),
 | 
					    ('Az "Ime, hat"-ban irja.', ['Az', '"', 'Ime', ',', 'hat', '"', '-ban', 'irja', '.']),
 | 
				
			||||||
    ('"Ime, hat"-ban irja.', ['"', 'Ime', ',', 'hat', '"', '-ban', 'irja', '.']),
 | 
					    ('"Ime, hat"-ban irja.', ['"', 'Ime', ',', 'hat', '"', '-ban', 'irja', '.']),
 | 
				
			||||||
    ('Az "Ime, hat".', ['Az', '"', 'Ime', ',', 'hat', '"', '.']),
 | 
					    ('Az "Ime, hat".', ['Az', '"', 'Ime', ',', 'hat', '"', '.']),
 | 
				
			||||||
    ('Egy 24"-os monitor.', ['Egy', '24', '"', '-os', 'monitor', '.']),
 | 
					    ('Egy 24"-os monitor.', ['Egy', '24"-os', 'monitor', '.']),
 | 
				
			||||||
    # ("A don't van.", ['A', "don't", 'van', '.'])
 | 
					    # ("A don't van.", ['A', "don't", 'van', '.'])
 | 
				
			||||||
]
 | 
					]
 | 
				
			||||||
 | 
					
 | 
				
			||||||
| 
						 | 
					@ -241,11 +241,14 @@ DOT_TESTS = [
 | 
				
			||||||
 | 
					
 | 
				
			||||||
WIKI_TESTS = [
 | 
					WIKI_TESTS = [
 | 
				
			||||||
    ('!"', ['!', '"']),
 | 
					    ('!"', ['!', '"']),
 | 
				
			||||||
 | 
					    ('lány"a', ['lány', '"', 'a']),
 | 
				
			||||||
 | 
					    ('lány"a', ['lány', '"', 'a']),
 | 
				
			||||||
    ('!"-lel', ['!', '"', '-lel']),
 | 
					    ('!"-lel', ['!', '"', '-lel']),
 | 
				
			||||||
    ('""-sorozat ', ['"', '"', '-sorozat']),
 | 
					    ('""-sorozat ', ['"', '"', '-sorozat']),
 | 
				
			||||||
    ('"(Köszönöm', ['"', '(', 'Köszönöm']),
 | 
					    ('"(Köszönöm', ['"', '(', 'Köszönöm']),
 | 
				
			||||||
    ('(törvénykönyv)-ben ', ['(', 'törvénykönyv', ')', '-ben']),
 | 
					    ('(törvénykönyv)-ben ', ['(', 'törvénykönyv', ')', '-ben']),
 | 
				
			||||||
    ('"(...)"–sokkal ', ['"', '(', '...', ')', '"', '–sokkal']),
 | 
					    ('"(...)"–sokkal ', ['"', '(', '...', ')', '"', '–sokkal']),
 | 
				
			||||||
 | 
					    ('cérium(IV)-oxid', ['cérium', '(', 'IV', ')', '-oxid'])
 | 
				
			||||||
]
 | 
					]
 | 
				
			||||||
 | 
					
 | 
				
			||||||
TESTCASES = DEFAULT_TESTS + DOT_TESTS + QUOTE_TESTS + NUMBER_TESTS + HYPHEN_TESTS + WIKI_TESTS
 | 
					TESTCASES = DEFAULT_TESTS + DOT_TESTS + QUOTE_TESTS + NUMBER_TESTS + HYPHEN_TESTS + WIKI_TESTS
 | 
				
			||||||
| 
						 | 
					
 | 
				
			||||||
		Loading…
	
		Reference in New Issue
	
	Block a user