mirror of
				https://github.com/explosion/spaCy.git
				synced 2025-10-24 20:51:30 +03:00 
			
		
		
		
	* Remove unicode declarations * Remove Python 3.5 and 2.7 from CI * Don't require pathlib * Replace compat helpers * Remove OrderedDict * Use f-strings * Set Cython compiler language level * Fix typo * Re-add OrderedDict for Table * Update setup.cfg * Revert CONTRIBUTING.md * Revert lookups.md * Revert top-level.md * Small adjustments and docs [ci skip]
		
			
				
	
	
		
			98 lines
		
	
	
		
			1.3 KiB
		
	
	
	
		
			Python
		
	
	
	
	
	
			
		
		
	
	
			98 lines
		
	
	
		
			1.3 KiB
		
	
	
	
		
			Python
		
	
	
	
	
	
| from ...attrs import LIKE_NUM
 | |
| 
 | |
| _num_words = set(
 | |
|     """
 | |
| صفر
 | |
| واحد
 | |
| إثنان
 | |
| اثنان
 | |
| ثلاثة
 | |
| ثلاثه
 | |
| أربعة
 | |
| أربعه
 | |
| خمسة
 | |
| خمسه
 | |
| ستة
 | |
| سته
 | |
| سبعة
 | |
| سبعه
 | |
| ثمانية
 | |
| ثمانيه
 | |
| تسعة
 | |
| تسعه
 | |
| ﻋﺸﺮﺓ
 | |
| ﻋﺸﺮه
 | |
| عشرون
 | |
| عشرين
 | |
| ثلاثون
 | |
| ثلاثين
 | |
| اربعون
 | |
| اربعين
 | |
| أربعون
 | |
| أربعين
 | |
| خمسون
 | |
| خمسين
 | |
| ستون
 | |
| ستين
 | |
| سبعون
 | |
| سبعين
 | |
| ثمانون
 | |
| ثمانين
 | |
| تسعون
 | |
| تسعين
 | |
| مائتين
 | |
| مائتان
 | |
| ثلاثمائة
 | |
| خمسمائة
 | |
| سبعمائة
 | |
| الف
 | |
| آلاف
 | |
| ملايين
 | |
| مليون
 | |
| مليار
 | |
| مليارات
 | |
| """.split()
 | |
| )
 | |
| 
 | |
| _ordinal_words = set(
 | |
|     """
 | |
| اول
 | |
| أول
 | |
| حاد
 | |
| واحد
 | |
| ثان
 | |
| ثاني
 | |
| ثالث
 | |
| رابع
 | |
| خامس
 | |
| سادس
 | |
| سابع
 | |
| ثامن
 | |
| تاسع
 | |
| عاشر
 | |
| """.split()
 | |
| )
 | |
| 
 | |
| 
 | |
| def like_num(text):
 | |
|     """
 | |
|     Check if text resembles a number
 | |
|     """
 | |
|     if text.startswith(("+", "-", "±", "~")):
 | |
|         text = text[1:]
 | |
|     text = text.replace(",", "").replace(".", "")
 | |
|     if text.isdigit():
 | |
|         return True
 | |
|     if text.count("/") == 1:
 | |
|         num, denom = text.split("/")
 | |
|         if num.isdigit() and denom.isdigit():
 | |
|             return True
 | |
|     if text in _num_words:
 | |
|         return True
 | |
|     if text in _ordinal_words:
 | |
|         return True
 | |
|     return False
 | |
| 
 | |
| 
 | |
| LEX_ATTRS = {LIKE_NUM: like_num}
 |