mirror of
				https://github.com/explosion/spaCy.git
				synced 2025-10-30 23:47:31 +03:00 
			
		
		
		
	Add Romanian and Croatian skeletons (experimental)
Add language data templates to make it easier for others to contribute to the language support
This commit is contained in:
		
							parent
							
								
									18c859500b
								
							
						
					
					
						commit
						c6fea3e5f6
					
				
							
								
								
									
										27
									
								
								spacy/lang/hr/__init__.py
									
									
									
									
									
										Normal file
									
								
							
							
						
						
									
										27
									
								
								spacy/lang/hr/__init__.py
									
									
									
									
									
										Normal file
									
								
							|  | @ -0,0 +1,27 @@ | |||
| # coding: utf8 | ||||
| from __future__ import unicode_literals | ||||
| 
 | ||||
| from .stop_words import STOP_WORDS | ||||
| 
 | ||||
| from ..tokenizer_exceptions import BASE_EXCEPTIONS | ||||
| from ..norm_exceptions import BASE_NORMS | ||||
| from ...language import Language | ||||
| from ...attrs import LANG, NORM | ||||
| from ...util import update_exc, add_lookups | ||||
| 
 | ||||
| 
 | ||||
| class CroatianDefaults(Language.Defaults): | ||||
|     lex_attr_getters = dict(Language.Defaults.lex_attr_getters) | ||||
|     lex_attr_getters[LANG] = lambda text: 'hr' | ||||
|     lex_attr_getters[NORM] = add_lookups(Language.Defaults.lex_attr_getters[NORM], BASE_NORMS) | ||||
|     tokenizer_exceptions = update_exc(BASE_EXCEPTIONS) | ||||
|     stop_words = STOP_WORDS | ||||
| 
 | ||||
| 
 | ||||
| class Croatian(Language): | ||||
|     lang = 'hr' | ||||
|     Defaults = CroatianDefaults | ||||
| 
 | ||||
| 
 | ||||
| __all__ = ['Croatian'] | ||||
| 
 | ||||
							
								
								
									
										187
									
								
								spacy/lang/hr/stop_words.py
									
									
									
									
									
										Normal file
									
								
							
							
						
						
									
										187
									
								
								spacy/lang/hr/stop_words.py
									
									
									
									
									
										Normal file
									
								
							|  | @ -0,0 +1,187 @@ | |||
| # encoding: utf8 | ||||
| from __future__ import unicode_literals | ||||
| 
 | ||||
| 
 | ||||
| # Source: https://github.com/stopwords-iso/stopwords-hr | ||||
| 
 | ||||
| STOP_WORDS = set(""" | ||||
| a | ||||
| ako | ||||
| ali | ||||
| bi | ||||
| bih | ||||
| bila | ||||
| bili | ||||
| bilo | ||||
| bio | ||||
| bismo | ||||
| biste | ||||
| biti | ||||
| bumo | ||||
| da | ||||
| do | ||||
| duž | ||||
| ga | ||||
| hoće | ||||
| hoćemo | ||||
| hoćete | ||||
| hoćeš | ||||
| hoću | ||||
| i | ||||
| iako | ||||
| ih | ||||
| ili | ||||
| iz | ||||
| ja | ||||
| je | ||||
| jedna | ||||
| jedne | ||||
| jedno | ||||
| jer | ||||
| jesam | ||||
| jesi | ||||
| jesmo | ||||
| jest | ||||
| jeste | ||||
| jesu | ||||
| jim | ||||
| joj | ||||
| još | ||||
| ju | ||||
| kada | ||||
| kako | ||||
| kao | ||||
| koja | ||||
| koje | ||||
| koji | ||||
| kojima | ||||
| koju | ||||
| kroz | ||||
| li | ||||
| me | ||||
| mene | ||||
| meni | ||||
| mi | ||||
| mimo | ||||
| moj | ||||
| moja | ||||
| moje | ||||
| mu | ||||
| na | ||||
| nad | ||||
| nakon | ||||
| nam | ||||
| nama | ||||
| nas | ||||
| naš | ||||
| naša | ||||
| naše | ||||
| našeg | ||||
| ne | ||||
| nego | ||||
| neka | ||||
| neki | ||||
| nekog | ||||
| neku | ||||
| nema | ||||
| netko | ||||
| neće | ||||
| nećemo | ||||
| nećete | ||||
| nećeš | ||||
| neću | ||||
| nešto | ||||
| ni | ||||
| nije | ||||
| nikoga | ||||
| nikoje | ||||
| nikoju | ||||
| nisam | ||||
| nisi | ||||
| nismo | ||||
| niste | ||||
| nisu | ||||
| njega | ||||
| njegov | ||||
| njegova | ||||
| njegovo | ||||
| njemu | ||||
| njezin | ||||
| njezina | ||||
| njezino | ||||
| njih | ||||
| njihov | ||||
| njihova | ||||
| njihovo | ||||
| njim | ||||
| njima | ||||
| njoj | ||||
| nju | ||||
| no | ||||
| o | ||||
| od | ||||
| odmah | ||||
| on | ||||
| ona | ||||
| oni | ||||
| ono | ||||
| ova | ||||
| pa | ||||
| pak | ||||
| po | ||||
| pod | ||||
| pored | ||||
| prije | ||||
| s | ||||
| sa | ||||
| sam | ||||
| samo | ||||
| se | ||||
| sebe | ||||
| sebi | ||||
| si | ||||
| smo | ||||
| ste | ||||
| su | ||||
| sve | ||||
| svi | ||||
| svog | ||||
| svoj | ||||
| svoja | ||||
| svoje | ||||
| svom | ||||
| ta | ||||
| tada | ||||
| taj | ||||
| tako | ||||
| te | ||||
| tebe | ||||
| tebi | ||||
| ti | ||||
| to | ||||
| toj | ||||
| tome | ||||
| tu | ||||
| tvoj | ||||
| tvoja | ||||
| tvoje | ||||
| u | ||||
| uz | ||||
| vam | ||||
| vama | ||||
| vas | ||||
| vaš | ||||
| vaša | ||||
| vaše | ||||
| već | ||||
| vi | ||||
| vrlo | ||||
| za | ||||
| zar | ||||
| će | ||||
| ćemo | ||||
| ćete | ||||
| ćeš | ||||
| ću | ||||
| što | ||||
| """.split()) | ||||
							
								
								
									
										28
									
								
								spacy/lang/ro/__init__.py
									
									
									
									
									
										Normal file
									
								
							
							
						
						
									
										28
									
								
								spacy/lang/ro/__init__.py
									
									
									
									
									
										Normal file
									
								
							|  | @ -0,0 +1,28 @@ | |||
| # coding: utf8 | ||||
| from __future__ import unicode_literals | ||||
| 
 | ||||
| from .tokenizer_exceptions import TOKENIZER_EXCEPTIONS | ||||
| from .stop_words import STOP_WORDS | ||||
| 
 | ||||
| from ..tokenizer_exceptions import BASE_EXCEPTIONS | ||||
| from ..norm_exceptions import BASE_NORMS | ||||
| from ...language import Language | ||||
| from ...attrs import LANG, NORM | ||||
| from ...util import update_exc, add_lookups | ||||
| 
 | ||||
| 
 | ||||
| class RomanianDefaults(Language.Defaults): | ||||
|     lex_attr_getters = dict(Language.Defaults.lex_attr_getters) | ||||
|     lex_attr_getters[LANG] = lambda text: 'ro' | ||||
|     lex_attr_getters[NORM] = add_lookups(Language.Defaults.lex_attr_getters[NORM], BASE_NORMS) | ||||
|     tokenizer_exceptions = update_exc(BASE_EXCEPTIONS, TOKENIZER_EXCEPTIONS) | ||||
|     stop_words = STOP_WORDS | ||||
| 
 | ||||
| 
 | ||||
| class Romanian(Language): | ||||
|     lang = 'ro' | ||||
|     Defaults = RomanianDefaults | ||||
| 
 | ||||
| 
 | ||||
| __all__ = ['Romanian'] | ||||
| 
 | ||||
							
								
								
									
										442
									
								
								spacy/lang/ro/stop_words.py
									
									
									
									
									
										Normal file
									
								
							
							
						
						
									
										442
									
								
								spacy/lang/ro/stop_words.py
									
									
									
									
									
										Normal file
									
								
							|  | @ -0,0 +1,442 @@ | |||
| # encoding: utf8 | ||||
| from __future__ import unicode_literals | ||||
| 
 | ||||
| 
 | ||||
| # Source: https://github.com/stopwords-iso/stopwords-ro | ||||
| 
 | ||||
| STOP_WORDS = set(""" | ||||
| a | ||||
| abia | ||||
| acea | ||||
| aceasta | ||||
| această | ||||
| aceea | ||||
| aceeasi | ||||
| acei | ||||
| aceia | ||||
| acel | ||||
| acela | ||||
| acelasi | ||||
| acele | ||||
| acelea | ||||
| acest | ||||
| acesta | ||||
| aceste | ||||
| acestea | ||||
| acestei | ||||
| acestia | ||||
| acestui | ||||
| aceşti | ||||
| aceştia | ||||
| acolo | ||||
| acord | ||||
| acum | ||||
| adica | ||||
| ai | ||||
| aia | ||||
| aibă | ||||
| aici | ||||
| aiurea | ||||
| al | ||||
| ala | ||||
| alaturi | ||||
| ale | ||||
| alea | ||||
| alt | ||||
| alta | ||||
| altceva | ||||
| altcineva | ||||
| alte | ||||
| altfel | ||||
| alti | ||||
| altii | ||||
| altul | ||||
| am | ||||
| anume | ||||
| apoi | ||||
| ar | ||||
| are | ||||
| as | ||||
| asa | ||||
| asemenea | ||||
| asta | ||||
| astazi | ||||
| astea | ||||
| astfel | ||||
| astăzi | ||||
| asupra | ||||
| atare | ||||
| atat | ||||
| atata | ||||
| atatea | ||||
| atatia | ||||
| ati | ||||
| atit | ||||
| atita | ||||
| atitea | ||||
| atitia | ||||
| atunci | ||||
| au | ||||
| avea | ||||
| avem | ||||
| aveţi | ||||
| avut | ||||
| azi | ||||
| aş | ||||
| aşadar | ||||
| aţi | ||||
| b | ||||
| ba | ||||
| bine | ||||
| bucur | ||||
| bună | ||||
| c | ||||
| ca | ||||
| cam | ||||
| cand | ||||
| capat | ||||
| care | ||||
| careia | ||||
| carora | ||||
| caruia | ||||
| cat | ||||
| catre | ||||
| caut | ||||
| ce | ||||
| cea | ||||
| ceea | ||||
| cei | ||||
| ceilalti | ||||
| cel | ||||
| cele | ||||
| celor | ||||
| ceva | ||||
| chiar | ||||
| ci | ||||
| cinci | ||||
| cind | ||||
| cine | ||||
| cineva | ||||
| cit | ||||
| cita | ||||
| cite | ||||
| citeva | ||||
| citi | ||||
| citiva | ||||
| conform | ||||
| contra | ||||
| cu | ||||
| cui | ||||
| cum | ||||
| cumva | ||||
| curând | ||||
| curînd | ||||
| când | ||||
| cât | ||||
| câte | ||||
| câtva | ||||
| câţi | ||||
| cînd | ||||
| cît | ||||
| cîte | ||||
| cîtva | ||||
| cîţi | ||||
| că | ||||
| căci | ||||
| cărei | ||||
| căror | ||||
| cărui | ||||
| către | ||||
| d | ||||
| da | ||||
| daca | ||||
| dacă | ||||
| dar | ||||
| dat | ||||
| datorită | ||||
| dată | ||||
| dau | ||||
| de | ||||
| deasupra | ||||
| deci | ||||
| decit | ||||
| degraba | ||||
| deja | ||||
| deoarece | ||||
| departe | ||||
| desi | ||||
| despre | ||||
| deşi | ||||
| din | ||||
| dinaintea | ||||
| dintr | ||||
| dintr- | ||||
| dintre | ||||
| doar | ||||
| doi | ||||
| doilea | ||||
| două | ||||
| drept | ||||
| dupa | ||||
| după | ||||
| dă | ||||
| e | ||||
| ea | ||||
| ei | ||||
| el | ||||
| ele | ||||
| era | ||||
| eram | ||||
| este | ||||
| eu | ||||
| exact | ||||
| eşti | ||||
| f | ||||
| face | ||||
| fara | ||||
| fata | ||||
| fel | ||||
| fi | ||||
| fie | ||||
| fiecare | ||||
| fii | ||||
| fim | ||||
| fiu | ||||
| fiţi | ||||
| foarte | ||||
| fost | ||||
| frumos | ||||
| fără | ||||
| g | ||||
| geaba | ||||
| graţie | ||||
| h | ||||
| halbă | ||||
| i | ||||
| ia | ||||
| iar | ||||
| ieri | ||||
| ii | ||||
| il | ||||
| imi | ||||
| in | ||||
| inainte | ||||
| inapoi | ||||
| inca | ||||
| incit | ||||
| insa | ||||
| intr | ||||
| intre | ||||
| isi | ||||
| iti | ||||
| j | ||||
| k | ||||
| l | ||||
| la | ||||
| le | ||||
| li | ||||
| lor | ||||
| lui | ||||
| lângă | ||||
| lîngă | ||||
| m | ||||
| ma | ||||
| mai | ||||
| mare | ||||
| mea | ||||
| mei | ||||
| mele | ||||
| mereu | ||||
| meu | ||||
| mi | ||||
| mie | ||||
| mine | ||||
| mod | ||||
| mult | ||||
| multa | ||||
| multe | ||||
| multi | ||||
| multă | ||||
| mulţi | ||||
| mulţumesc | ||||
| mâine | ||||
| mîine | ||||
| mă | ||||
| n | ||||
| ne | ||||
| nevoie | ||||
| ni | ||||
| nici | ||||
| niciodata | ||||
| nicăieri | ||||
| nimeni | ||||
| nimeri | ||||
| nimic | ||||
| niste | ||||
| nişte | ||||
| noastre | ||||
| noastră | ||||
| noi | ||||
| noroc | ||||
| nostri | ||||
| nostru | ||||
| nou | ||||
| noua | ||||
| nouă | ||||
| noştri | ||||
| nu | ||||
| numai | ||||
| o | ||||
| opt | ||||
| or | ||||
| ori | ||||
| oricare | ||||
| orice | ||||
| oricine | ||||
| oricum | ||||
| oricând | ||||
| oricât | ||||
| oricînd | ||||
| oricît | ||||
| oriunde | ||||
| p | ||||
| pai | ||||
| parca | ||||
| patra | ||||
| patru | ||||
| patrulea | ||||
| pe | ||||
| pentru | ||||
| peste | ||||
| pic | ||||
| pina | ||||
| plus | ||||
| poate | ||||
| pot | ||||
| prea | ||||
| prima | ||||
| primul | ||||
| prin | ||||
| printr- | ||||
| putini | ||||
| puţin | ||||
| puţina | ||||
| puţină | ||||
| până | ||||
| pînă | ||||
| r | ||||
| rog | ||||
| s | ||||
| sa | ||||
| sa-mi | ||||
| sa-ti | ||||
| sai | ||||
| sale | ||||
| sau | ||||
| se | ||||
| si | ||||
| sint | ||||
| sintem | ||||
| spate | ||||
| spre | ||||
| sub | ||||
| sunt | ||||
| suntem | ||||
| sunteţi | ||||
| sus | ||||
| sută | ||||
| sînt | ||||
| sîntem | ||||
| sînteţi | ||||
| să | ||||
| săi | ||||
| său | ||||
| t | ||||
| ta | ||||
| tale | ||||
| te | ||||
| ti | ||||
| timp | ||||
| tine | ||||
| toata | ||||
| toate | ||||
| toată | ||||
| tocmai | ||||
| tot | ||||
| toti | ||||
| totul | ||||
| totusi | ||||
| totuşi | ||||
| toţi | ||||
| trei | ||||
| treia | ||||
| treilea | ||||
| tu | ||||
| tuturor | ||||
| tăi | ||||
| tău | ||||
| u | ||||
| ul | ||||
| ului | ||||
| un | ||||
| una | ||||
| unde | ||||
| undeva | ||||
| unei | ||||
| uneia | ||||
| unele | ||||
| uneori | ||||
| unii | ||||
| unor | ||||
| unora | ||||
| unu | ||||
| unui | ||||
| unuia | ||||
| unul | ||||
| v | ||||
| va | ||||
| vi | ||||
| voastre | ||||
| voastră | ||||
| voi | ||||
| vom | ||||
| vor | ||||
| vostru | ||||
| vouă | ||||
| voştri | ||||
| vreme | ||||
| vreo | ||||
| vreun | ||||
| vă | ||||
| x | ||||
| z | ||||
| zece | ||||
| zero | ||||
| zi | ||||
| zice | ||||
| îi | ||||
| îl | ||||
| îmi | ||||
| împotriva | ||||
| în | ||||
| înainte | ||||
| înaintea | ||||
| încotro | ||||
| încât | ||||
| încît | ||||
| între | ||||
| întrucât | ||||
| întrucît | ||||
| îţi | ||||
| ăla | ||||
| ălea | ||||
| ăsta | ||||
| ăstea | ||||
| ăştia | ||||
| şapte | ||||
| şase | ||||
| şi | ||||
| ştiu | ||||
| ţi | ||||
| ţie | ||||
| """.split()) | ||||
							
								
								
									
										17
									
								
								spacy/lang/ro/tokenizer_exceptions.py
									
									
									
									
									
										Normal file
									
								
							
							
						
						
									
										17
									
								
								spacy/lang/ro/tokenizer_exceptions.py
									
									
									
									
									
										Normal file
									
								
							|  | @ -0,0 +1,17 @@ | |||
| # coding: utf8 | ||||
| from __future__ import unicode_literals | ||||
| 
 | ||||
| from ...symbols import ORTH | ||||
| 
 | ||||
| 
 | ||||
| _exc = {} | ||||
| 
 | ||||
| 
 | ||||
| # Source: https://en.wiktionary.org/wiki/Category:Romanian_abbreviations | ||||
| for orth in [ | ||||
|     "1-a", "1-ul", "10-a", "10-lea", "2-a", "3-a", "3-lea", "6-lea", | ||||
|     "d-voastră", "dvs.", "Rom.", "str."]: | ||||
|     _exc[orth] = [{ORTH: orth}] | ||||
| 
 | ||||
| 
 | ||||
| TOKENIZER_EXCEPTIONS = _exc | ||||
|  | @ -100,6 +100,8 @@ | |||
|         "da": "Danish", | ||||
|         "hu": "Hungarian", | ||||
|         "pl": "Polish", | ||||
|         "ro": "Romanian", | ||||
|         "hr": "Croatian", | ||||
|         "he": "Hebrew", | ||||
|         "ga": "Irish", | ||||
|         "bn": "Bengali", | ||||
|  |  | |||
		Loading…
	
		Reference in New Issue
	
	Block a user