mirror of
				https://github.com/explosion/spaCy.git
				synced 2025-11-04 01:48:04 +03:00 
			
		
		
		
	This reverts commit 6f314f99c4.
We are reverting this until we can support this normalization more
consistently across vectors, training corpora, and lemmatizer data.
		
	
			
		
			
				
	
	
		
			67 lines
		
	
	
		
			1.4 KiB
		
	
	
	
		
			Python
		
	
	
	
	
	
			
		
		
	
	
			67 lines
		
	
	
		
			1.4 KiB
		
	
	
	
		
			Python
		
	
	
	
	
	
from ...attrs import LIKE_NUM
 | 
						|
 | 
						|
 | 
						|
_num_words = [
 | 
						|
    "нула",
 | 
						|
    "један",
 | 
						|
    "два",
 | 
						|
    "три",
 | 
						|
    "четири",
 | 
						|
    "пет",
 | 
						|
    "шест",
 | 
						|
    "седам",
 | 
						|
    "осам",
 | 
						|
    "девет",
 | 
						|
    "десет",
 | 
						|
    "једанаест",
 | 
						|
    "дванаест",
 | 
						|
    "тринаест",
 | 
						|
    "четрнаест",
 | 
						|
    "петнаест",
 | 
						|
    "шеснаест",
 | 
						|
    "седамнаест",
 | 
						|
    "осамнаест",
 | 
						|
    "деветнаест",
 | 
						|
    "двадесет",
 | 
						|
    "тридесет",
 | 
						|
    "четрдесет",
 | 
						|
    "педесет",
 | 
						|
    "шездесет",
 | 
						|
    "седамдесет",
 | 
						|
    "осамдесет",
 | 
						|
    "деведесет",
 | 
						|
    "сто",
 | 
						|
    "двеста",
 | 
						|
    "триста",
 | 
						|
    "четиристо",
 | 
						|
    "петсто",
 | 
						|
    "шестсто",
 | 
						|
    "седамсто",
 | 
						|
    "осамсто",
 | 
						|
    "деветсто",
 | 
						|
    "хиљаду",
 | 
						|
    "милион",
 | 
						|
    "милијарду",
 | 
						|
    "трилион",
 | 
						|
    "квадрилион",
 | 
						|
    "квинтилион",
 | 
						|
]
 | 
						|
 | 
						|
 | 
						|
def like_num(text):
 | 
						|
    if text.startswith(("+", "-", "±", "~")):
 | 
						|
        text = text[1:]
 | 
						|
    text = text.replace(",", "").replace(".", "")
 | 
						|
    if text.isdigit():
 | 
						|
        return True
 | 
						|
    if text.count("/") == 1:
 | 
						|
        num, denom = text.split("/")
 | 
						|
        if num.isdigit() and denom.isdigit():
 | 
						|
            return True
 | 
						|
    if text.lower() in _num_words:
 | 
						|
        return True
 | 
						|
    return False
 | 
						|
 | 
						|
 | 
						|
LEX_ATTRS = {LIKE_NUM: like_num}
 |