mirror of
				https://github.com/explosion/spaCy.git
				synced 2025-11-04 01:48:04 +03:00 
			
		
		
		
	
		
			
				
	
	
		
			48 lines
		
	
	
		
			1.4 KiB
		
	
	
	
		
			Python
		
	
	
	
	
	
			
		
		
	
	
			48 lines
		
	
	
		
			1.4 KiB
		
	
	
	
		
			Python
		
	
	
	
	
	
from __future__ import unicode_literals
 | 
						|
 | 
						|
import pytest
 | 
						|
 | 
						|
 | 
						|
# TODO add test cases with valid punctuation signs.
 | 
						|
 | 
						|
hy_tokenize_text_test = [
 | 
						|
    (
 | 
						|
        "Մետաղագիտությունը պայմանականորեն բաժանվում է տեսականի և կիրառականի (տեխնիկական)",
 | 
						|
        [
 | 
						|
            "Մետաղագիտությունը",
 | 
						|
            "պայմանականորեն",
 | 
						|
            "բաժանվում",
 | 
						|
            "է",
 | 
						|
            "տեսականի",
 | 
						|
            "և",
 | 
						|
            "կիրառականի",
 | 
						|
            "(",
 | 
						|
            "տեխնիկական",
 | 
						|
            ")",
 | 
						|
        ],
 | 
						|
    ),
 | 
						|
    (
 | 
						|
        "Գետաբերանը գտնվում է Օմոլոնա գետի ձախ ափից 726 կմ հեռավորության վրա",
 | 
						|
        [
 | 
						|
            "Գետաբերանը",
 | 
						|
            "գտնվում",
 | 
						|
            "է",
 | 
						|
            "Օմոլոնա",
 | 
						|
            "գետի",
 | 
						|
            "ձախ",
 | 
						|
            "ափից",
 | 
						|
            "726",
 | 
						|
            "կմ",
 | 
						|
            "հեռավորության",
 | 
						|
            "վրա",
 | 
						|
        ],
 | 
						|
    ),
 | 
						|
]
 | 
						|
 | 
						|
 | 
						|
@pytest.mark.parametrize("text,expected_tokens", hy_tokenize_text_test)
 | 
						|
def test_ga_tokenizer_handles_exception_cases(hy_tokenizer, text, expected_tokens):
 | 
						|
    tokens = hy_tokenizer(text)
 | 
						|
    token_list = [token.text for token in tokens if not token.is_space]
 | 
						|
    assert expected_tokens == token_list
 |