mirror of
				https://github.com/explosion/spaCy.git
				synced 2025-11-04 01:48:04 +03:00 
			
		
		
		
	Tidy up Hebrew tests and test for punctuation (see #995)
This commit is contained in:
		
							parent
							
								
									275fc9f78a
								
							
						
					
					
						commit
						2bd89e7ade
					
				| 
						 | 
				
			
			@ -3,15 +3,21 @@ from __future__ import unicode_literals
 | 
			
		|||
 | 
			
		||||
import pytest
 | 
			
		||||
 | 
			
		||||
ABBREVIATION_TESTS = [
 | 
			
		||||
    ('פייתון היא שפת תכנות דינמית', ['פייתון', 'היא', 'שפת', 'תכנות', 'דינמית'])
 | 
			
		||||
]
 | 
			
		||||
 | 
			
		||||
TESTCASES = ABBREVIATION_TESTS
 | 
			
		||||
 | 
			
		||||
 | 
			
		||||
@pytest.mark.parametrize('text,expected_tokens', TESTCASES)
 | 
			
		||||
def test_tokenizer_handles_testcases(he_tokenizer, text, expected_tokens):
 | 
			
		||||
@pytest.mark.parametrize('text,expected_tokens',
 | 
			
		||||
    [('פייתון היא שפת תכנות דינמית', ['פייתון', 'היא', 'שפת', 'תכנות', 'דינמית'])])
 | 
			
		||||
def test_tokenizer_handles_abbreviation(he_tokenizer, text, expected_tokens):
 | 
			
		||||
    tokens = he_tokenizer(text)
 | 
			
		||||
    token_list = [token.text for token in tokens if not token.is_space]
 | 
			
		||||
    assert expected_tokens == token_list
 | 
			
		||||
    assert expected_tokens == token_list
 | 
			
		||||
 | 
			
		||||
 | 
			
		||||
@pytest.mark.parametrize('text,expected_tokens', [
 | 
			
		||||
    pytest.mark.xfail(('עקבת אחריו בכל רחבי המדינה.', ['עקבת', 'אחריו', 'בכל', 'רחבי', 'המדינה', '.'])),
 | 
			
		||||
    ('עקבת אחריו בכל רחבי המדינה?', ['עקבת', 'אחריו', 'בכל', 'רחבי', 'המדינה', '?']),
 | 
			
		||||
    ('עקבת אחריו בכל רחבי המדינה!', ['עקבת', 'אחריו', 'בכל', 'רחבי', 'המדינה', '!']),
 | 
			
		||||
    ('עקבת אחריו בכל רחבי המדינה..', ['עקבת', 'אחריו', 'בכל', 'רחבי', 'המדינה', '..']),
 | 
			
		||||
    ('עקבת אחריו בכל רחבי המדינה...', ['עקבת', 'אחריו', 'בכל', 'רחבי', 'המדינה', '...'])])
 | 
			
		||||
def test_tokenizer_handles_punct(he_tokenizer, text, expected_tokens):
 | 
			
		||||
    tokens = he_tokenizer(text)
 | 
			
		||||
    assert expected_tokens == [token.text for token in tokens]
 | 
			
		||||
| 
						 | 
				
			
			
 | 
			
		|||
		Loading…
	
		Reference in New Issue
	
	Block a user