mirror of
				https://github.com/explosion/spaCy.git
				synced 2025-11-04 01:48:04 +03:00 
			
		
		
		
	* Init * fix tests * Update spacy/errors.py Co-authored-by: Adriane Boyd <adrianeboyd@gmail.com> * Fix test_blank_languages * Rename xx to mul in docs * Format _util with black * prettier formatting --------- Co-authored-by: Adriane Boyd <adrianeboyd@gmail.com>
		
			
				
	
	
		
			27 lines
		
	
	
		
			984 B
		
	
	
	
		
			Python
		
	
	
	
	
	
			
		
		
	
	
			27 lines
		
	
	
		
			984 B
		
	
	
	
		
			Python
		
	
	
	
	
	
import pytest
 | 
						|
 | 
						|
 | 
						|
def test_long_text(isl_tokenizer):
 | 
						|
    # Excerpt: European Convention on Human Rights
 | 
						|
    text = """
 | 
						|
hafa í huga, að yfirlýsing þessi hefur það markmið að tryggja
 | 
						|
almenna og raunhæfa viðurkenningu og vernd þeirra réttinda,
 | 
						|
sem þar er lýst;
 | 
						|
hafa í huga, að markmið Evrópuráðs er að koma á nánari einingu
 | 
						|
aðildarríkjanna og að ein af leiðunum að því marki er sú, að
 | 
						|
mannréttindi og mannfrelsi séu í heiðri höfð og efld;
 | 
						|
lýsa á ný eindreginni trú sinni á það mannfrelsi, sem er undirstaða
 | 
						|
réttlætis og friðar í heiminum og best er tryggt, annars vegar með
 | 
						|
virku, lýðræðislegu stjórnarfari og, hins vegar, almennum skilningi
 | 
						|
og varðveislu þeirra mannréttinda, sem eru grundvöllur frelsisins;
 | 
						|
"""
 | 
						|
    tokens = isl_tokenizer(text)
 | 
						|
    assert len(tokens) == 120
 | 
						|
 | 
						|
 | 
						|
@pytest.mark.xfail
 | 
						|
def test_ordinal_number(isl_tokenizer):
 | 
						|
    text = "10. desember 1948"
 | 
						|
    tokens = isl_tokenizer(text)
 | 
						|
    assert len(tokens) == 3
 |