mirror of
https://github.com/explosion/spaCy.git
synced 2024-11-12 04:38:28 +03:00
0e08e49e87
* Add Romanian lemmatizer lookup table. Adapted from http://www.lexiconista.com/datasets/lemmatization/ by replacing cedillas with commas (ș and ț). The original dataset is licensed under the Open Database License. * Fix one blatant issue in the Romanian lemmatizer * Romanian examples file * Add ro_tokenizer in conftest * Add Romanian lemmatizer test
24 lines
657 B
Python
24 lines
657 B
Python
# coding: utf8
|
|
from __future__ import unicode_literals
|
|
|
|
|
|
"""
|
|
Example sentences to test spaCy and its language models.
|
|
|
|
>>> from spacy.lang.ro import Romanian
|
|
>>> from spacy.lang.ro.examples import sentences
|
|
>>> nlp = Romanian()
|
|
>>> docs = nlp.pipe(sentences)
|
|
"""
|
|
|
|
|
|
sentences = [
|
|
"Apple plănuiește să cumpere o companie britanică pentru un miliard de dolari",
|
|
"Municipalitatea din San Francisco ia în calcul interzicerea roboților curieri pe trotuar",
|
|
"Londra este un oraș mare în Regatul Unit",
|
|
"Unde ești?",
|
|
"Cine este președintele Franței?",
|
|
"Care este capitala Statelor Unite?",
|
|
"Când s-a născut Barack Obama?"
|
|
]
|