mirror of
https://github.com/explosion/spaCy.git
synced 2024-12-26 01:46:28 +03:00
Merge branch 'master' of https://github.com/explosion/spaCy
This commit is contained in:
commit
605144398b
1
.gitignore
vendored
1
.gitignore
vendored
|
@ -37,6 +37,7 @@ data/en/strings
|
||||||
_build/
|
_build/
|
||||||
.env/
|
.env/
|
||||||
tmp/
|
tmp/
|
||||||
|
cythonize.json
|
||||||
|
|
||||||
# Byte-compiled / optimized / DLL files
|
# Byte-compiled / optimized / DLL files
|
||||||
__pycache__/
|
__pycache__/
|
||||||
|
|
|
@ -3,7 +3,83 @@ from __future__ import unicode_literals
|
||||||
import re
|
import re
|
||||||
|
|
||||||
|
|
||||||
STOP_WORDS = set()
|
STOP_WORDS = set("""
|
||||||
|
|
||||||
|
á a ab aber ach acht achte achten achter achtes ag alle allein allem allen
|
||||||
|
aller allerdings alles allgemeinen als also am an andere anderen andern anders
|
||||||
|
auch auf aus ausser außer ausserdem außerdem
|
||||||
|
|
||||||
|
bald bei beide beiden beim beispiel bekannt bereits besonders besser besten bin
|
||||||
|
bis bisher bist
|
||||||
|
|
||||||
|
da dabei dadurch dafür dagegen daher dahin dahinter damals damit danach daneben
|
||||||
|
dank dann daran darauf daraus darf darfst darin darüber darum darunter das
|
||||||
|
dasein daselbst dass daß dasselbe davon davor dazu dazwischen dein deine deinem
|
||||||
|
deiner dem dementsprechend demgegenüber demgemäss demgemäß demselben demzufolge
|
||||||
|
den denen denn denselben der deren derjenige derjenigen dermassen dermaßen
|
||||||
|
derselbe derselben des deshalb desselben dessen deswegen dich die diejenige
|
||||||
|
diejenigen dies diese dieselbe dieselben diesem diesen dieser dieses dir doch
|
||||||
|
dort drei drin dritte dritten dritter drittes du durch durchaus dürfen dürft
|
||||||
|
durfte durften
|
||||||
|
|
||||||
|
eben ebenso ehrlich eigen eigene eigenen eigener eigenes ein einander eine
|
||||||
|
einem einen einer eines einigeeinigen einiger einiges einmal einmaleins elf en
|
||||||
|
ende endlich entweder er erst erste ersten erster erstes es etwa etwas euch
|
||||||
|
|
||||||
|
früher fünf fünfte fünften fünfter fünftes für
|
||||||
|
|
||||||
|
gab ganz ganze ganzen ganzer ganzes gar gedurft gegen gegenüber gehabt gehen
|
||||||
|
geht gekannt gekonnt gemacht gemocht gemusst genug gerade gern gesagt geschweige
|
||||||
|
gewesen gewollt geworden gibt ging gleich gott gross groß grosse große grossen
|
||||||
|
großen grosser großer grosses großes gut gute guter gutes
|
||||||
|
|
||||||
|
habe haben habt hast hat hatte hätte hatten hätten heisst heißt her heute hier hin hinter hoch
|
||||||
|
|
||||||
|
ich ihm ihn ihnen ihr ihre ihrem ihrer ihres im immer in indem infolgedessen
|
||||||
|
ins irgend ist
|
||||||
|
|
||||||
|
ja jahr jahre jahren je jede jedem jeden jeder jedermann jedermanns jedoch
|
||||||
|
jemand jemandem jemanden jene jenem jenen jener jenes jetzt
|
||||||
|
|
||||||
|
kam kann kannst kaum kein keine keinem keinen keiner kleine kleinen kleiner
|
||||||
|
kleines kommen kommt können könnt konnte könnte konnten kurz
|
||||||
|
|
||||||
|
lang lange leicht leider lieber los
|
||||||
|
|
||||||
|
machen macht machte mag magst man manche manchem manchen mancher manches mehr
|
||||||
|
mein meine meinem meinen meiner meines mensch menschen mich mir mit mittel
|
||||||
|
mochte möchte mochten mögen möglich mögt morgen muss muß müssen musst müsst
|
||||||
|
musste mussten
|
||||||
|
|
||||||
|
na nach nachdem nahm natürlich neben nein neue neuen neun neunte neunten neunter
|
||||||
|
neuntes nicht nichts nie niemand niemandem niemanden noch nun nur
|
||||||
|
|
||||||
|
ob oben oder offen oft ohne
|
||||||
|
|
||||||
|
recht rechte rechten rechter rechtes richtig rund
|
||||||
|
|
||||||
|
sagt sagte sah satt schlecht schon sechs sechste sechsten sechster sechstes
|
||||||
|
sehr sei seid seien sein seine seinem seinen seiner seines seit seitdem selbst
|
||||||
|
selbst sich sie sieben siebente siebenten siebenter siebentes siebte siebten
|
||||||
|
siebter siebtes sind so solang solche solchem solchen solcher solches soll
|
||||||
|
sollen sollte sollten sondern sonst sowie später statt
|
||||||
|
|
||||||
|
tag tage tagen tat teil tel trotzdem tun
|
||||||
|
|
||||||
|
über überhaupt übrigens uhr um und uns unser unsere unserer unter
|
||||||
|
|
||||||
|
vergangene vergangenen viel viele vielem vielen vielleicht vier vierte vierten
|
||||||
|
vierter viertes vom von vor
|
||||||
|
|
||||||
|
wahr während währenddem währenddessen wann war wäre waren wart warum was wegen
|
||||||
|
weil weit weiter weitere weiteren weiteres welche welchem welchen welcher
|
||||||
|
welches wem wen wenig wenige weniger weniges wenigstens wenn wer werde werden
|
||||||
|
werdet wessen wie wieder will willst wir wird wirklich wirst wo wohl wollen wollt wollte wollten worden wurde würde wurden würden
|
||||||
|
|
||||||
|
zehn zehnte zehnten zehnter zehntes zeit zu zuerst zugleich zum zunächst zur
|
||||||
|
zurück zusammen zwanzig zwar zwei zweite zweiten zweiter zweites zwischen
|
||||||
|
|
||||||
|
""".split())
|
||||||
|
|
||||||
|
|
||||||
TOKENIZER_PREFIXES = map(re.escape, r'''
|
TOKENIZER_PREFIXES = map(re.escape, r'''
|
||||||
|
|
File diff suppressed because it is too large
Load Diff
|
@ -164,8 +164,8 @@ p
|
||||||
+cell #[code other]
|
+cell #[code other]
|
||||||
+cell -
|
+cell -
|
||||||
+cell
|
+cell
|
||||||
| The object to compare with. By default, accepts #[code Doc],
|
| The object to compare with. By default, accepts #[code Doc],
|
||||||
| #[code Span], #[code Token] and #[code Lexeme] objects.
|
| #[code Span], #[code Token] and #[code Lexeme] objects.
|
||||||
|
|
||||||
+footrow
|
+footrow
|
||||||
+cell return
|
+cell return
|
||||||
|
|
|
@ -156,8 +156,8 @@ p
|
||||||
+cell #[code other]
|
+cell #[code other]
|
||||||
+cell -
|
+cell -
|
||||||
+cell
|
+cell
|
||||||
| The object to compare with. By default, accepts #[code Doc],
|
| The object to compare with. By default, accepts #[code Doc],
|
||||||
| #[code Span], #[code Token] and #[code Lexeme] objects.
|
| #[code Span], #[code Token] and #[code Lexeme] objects.
|
||||||
|
|
||||||
+footrow
|
+footrow
|
||||||
+cell return
|
+cell return
|
||||||
|
|
|
@ -70,8 +70,8 @@ p Create the vocabulary.
|
||||||
+cell #[code lex_attr_getters]
|
+cell #[code lex_attr_getters]
|
||||||
+cell dict
|
+cell dict
|
||||||
+cell
|
+cell
|
||||||
| A dictionary mapping attribute IDs to functions to compute them.
|
| A dictionary mapping attribute IDs to functions to compute them.
|
||||||
| Defaults to #[code None].
|
| Defaults to #[code None].
|
||||||
|
|
||||||
+row
|
+row
|
||||||
+cell #[code lemmatizer]
|
+cell #[code lemmatizer]
|
||||||
|
|
|
@ -56,7 +56,7 @@ p
|
||||||
| fetched via #[code spacy.util.get_data_path()]. You can
|
| fetched via #[code spacy.util.get_data_path()]. You can
|
||||||
| configure this default using #[code spacy.util.set_data_path()].
|
| configure this default using #[code spacy.util.set_data_path()].
|
||||||
| The data path is expected to be either a string, or an object
|
| The data path is expected to be either a string, or an object
|
||||||
| responding to #[code thepathlib.Path] interface. If the path is
|
| responding to the #[code pathlib.Path] interface. If the path is
|
||||||
| a string, it will be immediately transformed into a
|
| a string, it will be immediately transformed into a
|
||||||
| #[code pathlib.Path] object. spaCy promises to never manipulate
|
| #[code pathlib.Path] object. spaCy promises to never manipulate
|
||||||
| or open file-system paths as strings. All access to the
|
| or open file-system paths as strings. All access to the
|
||||||
|
|
|
@ -73,7 +73,7 @@ p
|
||||||
| one-by-one. After a long and bitter struggle, the global interpreter
|
| one-by-one. After a long and bitter struggle, the global interpreter
|
||||||
| lock was freed around spaCy's main parsing loop in v0.100.3. This means
|
| lock was freed around spaCy's main parsing loop in v0.100.3. This means
|
||||||
| that the #[code .pipe()] method will be significantly faster in most
|
| that the #[code .pipe()] method will be significantly faster in most
|
||||||
| practical situations, because it allows shared memory parallelism.
|
| practical situations, because it allows shared memory parallelism.
|
||||||
|
|
||||||
+code.
|
+code.
|
||||||
for doc in nlp.pipe(texts, batch_size=10000, n_threads=3):
|
for doc in nlp.pipe(texts, batch_size=10000, n_threads=3):
|
||||||
|
|
|
@ -15,7 +15,7 @@ include _includes/_mixins
|
||||||
+grid-col("third").o-card
|
+grid-col("third").o-card
|
||||||
+h(2) Fastest in the world
|
+h(2) Fastest in the world
|
||||||
p
|
p
|
||||||
| spaCy excells at large-scale information extraction tasks.
|
| spaCy excels at large-scale information extraction tasks.
|
||||||
| It's written from the ground up in carefully memory-managed
|
| It's written from the ground up in carefully memory-managed
|
||||||
| Cython. Independent research has confirmed that spaCy is
|
| Cython. Independent research has confirmed that spaCy is
|
||||||
| the fastest in the world. If your application needs to
|
| the fastest in the world. If your application needs to
|
||||||
|
|
Loading…
Reference in New Issue
Block a user