spaCy/spacy/cli/templates/quickstart_training.jinja

{# This is a template for training configs used for the quickstart widget in
the docs and the init config command. It encodes various best practices and
can help generate the best possible configuration, given a user's requirements. #}
{%- set use_transformer = (transformer_data and hardware != "cpu") -%}
{%- set transformer = transformer_data[optimize] if use_transformer else {} -%}
[paths]
train = null
dev = null

[system]
{% if use_transformer -%}
gpu_allocator = "pytorch"
{% else -%}
gpu_allocator = null
{% endif %}

[nlp]
lang = "{{ lang }}"
{%- set full_pipeline = ["transformer" if use_transformer else "tok2vec"] + components %}
pipeline = {{ full_pipeline|pprint()|replace("'", '"')|safe }}
tokenizer = {"@tokenizers": "spacy.Tokenizer.v1"}

[components]

{# TRANSFORMER PIPELINE #}
{%- if use_transformer -%}
[components.transformer]
factory = "transformer"

[components.transformer.model]
@architectures = "spacy-transformers.TransformerModel.v1"
name = "{{ transformer["name"] }}"
tokenizer_config = {"use_fast": true}

[components.transformer.model.get_spans]
@span_getters = "spacy-transformers.strided_spans.v1"
window = 128
stride = 96

{% if "morphologizer" in components %}
[components.morphologizer]
factory = "morphologizer"

[components.morphologizer.model]
@architectures = "spacy.Tagger.v1"
nO = null

[components.morphologizer.model.tok2vec]
@architectures = "spacy-transformers.TransformerListener.v1"
grad_factor = 1.0

[components.morphologizer.model.tok2vec.pooling]
@layers = "reduce_mean.v1"
{%- endif %}

{% if "tagger" in components %}
[components.tagger]
factory = "tagger"

[components.tagger.model]
@architectures = "spacy.Tagger.v1"
nO = null

[components.tagger.model.tok2vec]
@architectures = "spacy-transformers.TransformerListener.v1"
grad_factor = 1.0

[components.tagger.model.tok2vec.pooling]
@layers = "reduce_mean.v1"
{%- endif %}

{% if "parser" in components -%}
[components.parser]
factory = "parser"

[components.parser.model]
@architectures = "spacy.TransitionBasedParser.v1"
state_type = "parser"
extra_state_tokens = false
hidden_width = 128
maxout_pieces = 3
use_upper = false
nO = null

[components.parser.model.tok2vec]
@architectures = "spacy-transformers.TransformerListener.v1"
grad_factor = 1.0

[components.parser.model.tok2vec.pooling]
@layers = "reduce_mean.v1"
{%- endif %}

{% if "ner" in components -%}
[components.ner]
factory = "ner"

[components.ner.model]
@architectures = "spacy.TransitionBasedParser.v1"
state_type = "ner"
extra_state_tokens = false
hidden_width = 64
maxout_pieces = 2
use_upper = false
nO = null

[components.ner.model.tok2vec]
@architectures = "spacy-transformers.TransformerListener.v1"
grad_factor = 1.0

[components.ner.model.tok2vec.pooling]
@layers = "reduce_mean.v1"
{% endif -%}

{% if "entity_linker" in components -%}
[components.entity_linker]
factory = "entity_linker"
get_candidates = {"@misc":"spacy.CandidateGenerator.v1"}
incl_context = true
incl_prior = true

[components.entity_linker.model]
@architectures = "spacy.EntityLinker.v1"
nO = null

[components.entity_linker.model.tok2vec]
@architectures = "spacy-transformers.TransformerListener.v1"
grad_factor = 1.0

[components.entity_linker.model.tok2vec.pooling]
@layers = "reduce_mean.v1"
{% endif -%}

{% if "textcat" in components %}
[components.textcat]
factory = "textcat"

{% if optimize == "accuracy" %}
[components.textcat.model]
@architectures = "spacy.TextCatEnsemble.v2"
nO = null

[components.textcat.model.tok2vec]
@architectures = "spacy-transformers.TransformerListener.v1"
grad_factor = 1.0

[components.textcat.model.tok2vec.pooling]
@layers = "reduce_mean.v1"

[components.textcat.model.linear_model]
@architectures = "spacy.TextCatBOW.v1"
exclusive_classes = false
ngram_size = 1
no_output_layer = false

{% else -%}
[components.textcat.model]
@architectures = "spacy.TextCatBOW.v1"
exclusive_classes = false
ngram_size = 1
no_output_layer = false
{%- endif %}
{%- endif %}

{# NON-TRANSFORMER PIPELINE #}
{% else -%}

{%- if hardware == "gpu" -%}
# There are no recommended transformer weights available for language '{{ lang }}'
# yet, so the pipeline described here is not transformer-based.
{%- endif %}

[components.tok2vec]
factory = "tok2vec"

[components.tok2vec.model]
@architectures = "spacy.Tok2Vec.v1"

[components.tok2vec.model.embed]
@architectures = "spacy.MultiHashEmbed.v1"
width = ${components.tok2vec.model.encode.width}
{% if has_letters -%}
attrs = ["NORM", "PREFIX", "SUFFIX", "SHAPE"]
rows = [5000, 2500, 2500, 2500]
{% else -%}
attrs = ["ORTH", "SHAPE"]
rows = [5000, 2500]
{% endif -%}
include_static_vectors = {{ "true" if optimize == "accuracy" else "false" }}

[components.tok2vec.model.encode]
@architectures = "spacy.MaxoutWindowEncoder.v1"
width = {{ 96 if optimize == "efficiency" else 256 }}
depth = {{ 4 if optimize == "efficiency" else 8 }}
window_size = 1
maxout_pieces = 3

{% if "morphologizer" in components %}
[components.morphologizer]
factory = "morphologizer"

[components.morphologizer.model]
@architectures = "spacy.Tagger.v1"
nO = null

[components.morphologizer.model.tok2vec]
@architectures = "spacy.Tok2VecListener.v1"
width = ${components.tok2vec.model.encode.width}
{%- endif %}

{% if "tagger" in components %}
[components.tagger]
factory = "tagger"

[components.tagger.model]
@architectures = "spacy.Tagger.v1"
nO = null

[components.tagger.model.tok2vec]
@architectures = "spacy.Tok2VecListener.v1"
width = ${components.tok2vec.model.encode.width}
{%- endif %}

{% if "parser" in components -%}
[components.parser]
factory = "parser"

[components.parser.model]
@architectures = "spacy.TransitionBasedParser.v1"
state_type = "parser"
extra_state_tokens = false
hidden_width = 128
maxout_pieces = 3
use_upper = true
nO = null

[components.parser.model.tok2vec]
@architectures = "spacy.Tok2VecListener.v1"
width = ${components.tok2vec.model.encode.width}
{%- endif %}

{% if "ner" in components %}
[components.ner]
factory = "ner"

[components.ner.model]
@architectures = "spacy.TransitionBasedParser.v1"
state_type = "ner"
extra_state_tokens = false
hidden_width = 64
maxout_pieces = 2
use_upper = true
nO = null

[components.ner.model.tok2vec]
@architectures = "spacy.Tok2VecListener.v1"
width = ${components.tok2vec.model.encode.width}
{% endif %}

{% if "entity_linker" in components -%}
[components.entity_linker]
factory = "entity_linker"
get_candidates = {"@misc":"spacy.CandidateGenerator.v1"}
incl_context = true
incl_prior = true

[components.entity_linker.model]
@architectures = "spacy.EntityLinker.v1"
nO = null

[components.entity_linker.model.tok2vec]
@architectures = "spacy.Tok2VecListener.v1"
width = ${components.tok2vec.model.encode.width}
{% endif %}

{% if "textcat" in components %}
[components.textcat]
factory = "textcat"

{% if optimize == "accuracy" %}
[components.textcat.model]
@architectures = "spacy.TextCatEnsemble.v2"
nO = null

[components.textcat.model.tok2vec]
@architectures = "spacy.Tok2VecListener.v1"
width = ${components.tok2vec.model.encode.width}

[components.textcat.model.linear_model]
@architectures = "spacy.TextCatBOW.v1"
exclusive_classes = false
ngram_size = 1
no_output_layer = false

{% else -%}
[components.textcat.model]
@architectures = "spacy.TextCatBOW.v1"
exclusive_classes = false
ngram_size = 1
no_output_layer = false
{%- endif %}
{%- endif %}
{% endif %}

{% for pipe in components %}
{% if pipe not in ["tagger", "morphologizer", "parser", "ner", "textcat", "entity_linker"] %}
{# Other components defined by the user: we just assume they're factories #}
[components.{{ pipe }}]
factory = "{{ pipe }}"
{% endif %}
{% endfor %}

[corpora]

[corpora.train]
@readers = "spacy.Corpus.v1"
path = ${paths.train}
max_length = {{ 500 if hardware == "gpu" else 2000 }}

[corpora.dev]
@readers = "spacy.Corpus.v1"
path = ${paths.dev}
max_length = 0

[training]
{% if use_transformer -%}
accumulate_gradient = {{ transformer["size_factor"] }}
{% endif -%}
dev_corpus = "corpora.dev"
train_corpus = "corpora.train"

[training.optimizer]
@optimizers = "Adam.v1"

{% if use_transformer -%}
[training.optimizer.learn_rate]
@schedules = "warmup_linear.v1"
warmup_steps = 250
total_steps = 20000
initial_rate = 5e-5
{% endif %}

{% if use_transformer %}
[training.batcher]
@batchers = "spacy.batch_by_padded.v1"
discard_oversize = true
size = 2000
buffer = 256
{%- else %}
[training.batcher]
@batchers = "spacy.batch_by_words.v1"
discard_oversize = false
tolerance = 0.2

[training.batcher.size]
@schedules = "compounding.v1"
start = 100
stop = 1000
compound = 1.001
{% endif %}

[initialize]
{% if use_transformer or optimize == "efficiency" or not word_vectors -%}
vectors = null
{% else -%}
vectors = "{{ word_vectors }}"
{% endif -%}
Update for new Thinc and adjust config 2020-08-13 18:38:30 +03:00			`{# This is a template for training configs used for the quickstart widget in`
			`the docs and the init config command. It encodes various best practices and`
			`can help generate the best possible configuration, given a user's requirements. #}`
Update quickstart, template and docs 2020-08-15 15:50:29 +03:00			`{%- set use_transformer = (transformer_data and hardware != "cpu") -%}`
			`{%- set transformer = transformer_data[optimize] if use_transformer else {} -%}`
Update for new Thinc and adjust config 2020-08-13 18:38:30 +03:00			`[paths]`
Make corpus paths default to None and improve errors 2020-09-29 23:33:46 +03:00			`train = null`
			`dev = null`
Update for new Thinc and adjust config 2020-08-13 18:38:30 +03:00
Update quickstart, template and docs 2020-08-15 15:50:29 +03:00			`[system]`
Update docs [ci skip] 2020-09-20 13:30:53 +03:00			`{% if use_transformer -%}`
			`gpu_allocator = "pytorch"`
			`{% else -%}`
			`gpu_allocator = null`
			`{% endif %}`
Update quickstart, template and docs 2020-08-15 15:50:29 +03:00
Update for new Thinc and adjust config 2020-08-13 18:38:30 +03:00			`[nlp]`
			`lang = "{{ lang }}"`
Update quickstart, template and docs 2020-08-15 15:50:29 +03:00			`{%- set full_pipeline = ["transformer" if use_transformer else "tok2vec"] + components %}`
			`pipeline = {{ full_pipeline\|pprint()\|replace("'", '"')\|safe }}`
Update for new Thinc and adjust config 2020-08-13 18:38:30 +03:00			`tokenizer = {"@tokenizers": "spacy.Tokenizer.v1"}`

			`[components]`

			`{# TRANSFORMER PIPELINE #}`
Update quickstart, template and docs 2020-08-15 15:50:29 +03:00			`{%- if use_transformer -%}`
Update for new Thinc and adjust config 2020-08-13 18:38:30 +03:00			`[components.transformer]`
			`factory = "transformer"`

			`[components.transformer.model]`
			`@architectures = "spacy-transformers.TransformerModel.v1"`
Update quickstart, template and docs 2020-08-15 15:50:29 +03:00			`name = "{{ transformer["name"] }}"`
Update for new Thinc and adjust config 2020-08-13 18:38:30 +03:00			`tokenizer_config = {"use_fast": true}`

			`[components.transformer.model.get_spans]`
Prefix span getters 2020-09-03 18:37:06 +03:00			`@span_getters = "spacy-transformers.strided_spans.v1"`
Update for new Thinc and adjust config 2020-08-13 18:38:30 +03:00			`window = 128`
			`stride = 96`

Add morphologizer to quickstart template 2020-10-02 16:06:16 +03:00			`{% if "morphologizer" in components %}`
			`[components.morphologizer]`
			`factory = "morphologizer"`

			`[components.morphologizer.model]`
			`@architectures = "spacy.Tagger.v1"`
			`nO = null`

			`[components.morphologizer.model.tok2vec]`
			`@architectures = "spacy-transformers.TransformerListener.v1"`
			`grad_factor = 1.0`

			`[components.morphologizer.model.tok2vec.pooling]`
			`@layers = "reduce_mean.v1"`
			`{%- endif %}`

Update for new Thinc and adjust config 2020-08-13 18:38:30 +03:00			`{% if "tagger" in components %}`
			`[components.tagger]`
			`factory = "tagger"`

			`[components.tagger.model]`
			`@architectures = "spacy.Tagger.v1"`
			`nO = null`

			`[components.tagger.model.tok2vec]`
Rename Transformer listener (#6001) * rename to spacy-transformers.TransformerListener * add some more tok2vec tests * use select_pipes * fix docs - annotation setter was not changed in the end 2020-08-31 13:41:39 +03:00			`@architectures = "spacy-transformers.TransformerListener.v1"`
Update for new Thinc and adjust config 2020-08-13 18:38:30 +03:00			`grad_factor = 1.0`

			`[components.tagger.model.tok2vec.pooling]`
			`@layers = "reduce_mean.v1"`
			`{%- endif %}`

			`{% if "parser" in components -%}`
			`[components.parser]`
			`factory = "parser"`

			`[components.parser.model]`
			`@architectures = "spacy.TransitionBasedParser.v1"`
'parser' instead of 'deps' for state_type 2020-09-23 17:53:49 +03:00			`state_type = "parser"`
state_type and extra_state_tokens instead of nr_feature_tokens 2020-09-23 14:35:09 +03:00			`extra_state_tokens = false`
Update for new Thinc and adjust config 2020-08-13 18:38:30 +03:00			`hidden_width = 128`
			`maxout_pieces = 3`
			`use_upper = false`
			`nO = null`

			`[components.parser.model.tok2vec]`
Rename Transformer listener (#6001) * rename to spacy-transformers.TransformerListener * add some more tok2vec tests * use select_pipes * fix docs - annotation setter was not changed in the end 2020-08-31 13:41:39 +03:00			`@architectures = "spacy-transformers.TransformerListener.v1"`
Update for new Thinc and adjust config 2020-08-13 18:38:30 +03:00			`grad_factor = 1.0`

			`[components.parser.model.tok2vec.pooling]`
			`@layers = "reduce_mean.v1"`
			`{%- endif %}`

			`{% if "ner" in components -%}`
			`[components.ner]`
			`factory = "ner"`

			`[components.ner.model]`
			`@architectures = "spacy.TransitionBasedParser.v1"`
state_type and extra_state_tokens instead of nr_feature_tokens 2020-09-23 14:35:09 +03:00			`state_type = "ner"`
			`extra_state_tokens = false`
Update for new Thinc and adjust config 2020-08-13 18:38:30 +03:00			`hidden_width = 64`
			`maxout_pieces = 2`
			`use_upper = false`
			`nO = null`

			`[components.ner.model.tok2vec]`
Rename Transformer listener (#6001) * rename to spacy-transformers.TransformerListener * add some more tok2vec tests * use select_pipes * fix docs - annotation setter was not changed in the end 2020-08-31 13:41:39 +03:00			`@architectures = "spacy-transformers.TransformerListener.v1"`
Update for new Thinc and adjust config 2020-08-13 18:38:30 +03:00			`grad_factor = 1.0`

			`[components.ner.model.tok2vec.pooling]`
			`@layers = "reduce_mean.v1"`
			`{% endif -%}`

add entity_linker to jinja template 2020-09-22 11:40:05 +03:00			`{% if "entity_linker" in components -%}`
			`[components.entity_linker]`
			`factory = "entity_linker"`
			`get_candidates = {"@misc":"spacy.CandidateGenerator.v1"}`
			`incl_context = true`
			`incl_prior = true`

			`[components.entity_linker.model]`
			`@architectures = "spacy.EntityLinker.v1"`
			`nO = null`

			`[components.entity_linker.model.tok2vec]`
			`@architectures = "spacy-transformers.TransformerListener.v1"`
			`grad_factor = 1.0`
add pooling to NEL's TransformerListener 2020-09-23 10:24:28 +03:00
			`[components.entity_linker.model.tok2vec.pooling]`
			`@layers = "reduce_mean.v1"`
add entity_linker to jinja template 2020-09-22 11:40:05 +03:00			`{% endif -%}`

add textcat to quickstart 2020-09-22 11:22:06 +03:00			`{% if "textcat" in components %}`
			`[components.textcat]`
			`factory = "textcat"`

			`{% if optimize == "accuracy" %}`
			`[components.textcat.model]`
TextCat updates and fixes (#6263) * small fix in example imports * throw error when train_corpus or dev_corpus is not a string * small fix in custom logger example * limit macro_auc to labels with 2 annotations * fix typo * also create parents of output_dir if need be * update documentation of textcat scores * refactor TextCatEnsemble * fix tests for new AUC definition * bump to 3.0.0a42 * update docs * rename to spacy.TextCatEnsemble.v2 * spacy.TextCatEnsemble.v1 in legacy * cleanup * small fix * update to 3.0.0rc2 * fix import that got lost in merge * cursed IDE * fix two typos 2020-10-18 15:50:41 +03:00			`@architectures = "spacy.TextCatEnsemble.v2"`
			`nO = null`

			`[components.textcat.model.tok2vec]`
			`@architectures = "spacy-transformers.TransformerListener.v1"`
			`grad_factor = 1.0`

Fix textcat + transformer architecture (#6371) * add pooling to textcat TransformerListener * maybe_get_dim in case it's null 2020-11-10 15:14:47 +03:00			`[components.textcat.model.tok2vec.pooling]`
			`@layers = "reduce_mean.v1"`

TextCat updates and fixes (#6263) * small fix in example imports * throw error when train_corpus or dev_corpus is not a string * small fix in custom logger example * limit macro_auc to labels with 2 annotations * fix typo * also create parents of output_dir if need be * update documentation of textcat scores * refactor TextCatEnsemble * fix tests for new AUC definition * bump to 3.0.0a42 * update docs * rename to spacy.TextCatEnsemble.v2 * spacy.TextCatEnsemble.v1 in legacy * cleanup * small fix * update to 3.0.0rc2 * fix import that got lost in merge * cursed IDE * fix two typos 2020-10-18 15:50:41 +03:00			`[components.textcat.model.linear_model]`
			`@architectures = "spacy.TextCatBOW.v1"`
add textcat to quickstart 2020-09-22 11:22:06 +03:00			`exclusive_classes = false`
			`ngram_size = 1`
TextCat updates and fixes (#6263) * small fix in example imports * throw error when train_corpus or dev_corpus is not a string * small fix in custom logger example * limit macro_auc to labels with 2 annotations * fix typo * also create parents of output_dir if need be * update documentation of textcat scores * refactor TextCatEnsemble * fix tests for new AUC definition * bump to 3.0.0a42 * update docs * rename to spacy.TextCatEnsemble.v2 * spacy.TextCatEnsemble.v1 in legacy * cleanup * small fix * update to 3.0.0rc2 * fix import that got lost in merge * cursed IDE * fix two typos 2020-10-18 15:50:41 +03:00			`no_output_layer = false`
add textcat to quickstart 2020-09-22 11:22:06 +03:00
			`{% else -%}`
			`[components.textcat.model]`
			`@architectures = "spacy.TextCatBOW.v1"`
			`exclusive_classes = false`
			`ngram_size = 1`
add no_output_layer to TextCatBOW config 2020-09-22 13:06:40 +03:00			`no_output_layer = false`
add textcat to quickstart 2020-09-22 11:22:06 +03:00			`{%- endif %}`
			`{%- endif %}`

Update for new Thinc and adjust config 2020-08-13 18:38:30 +03:00			`{# NON-TRANSFORMER PIPELINE #}`
			`{% else -%}`

			`{%- if hardware == "gpu" -%}`
			`# There are no recommended transformer weights available for language '{{ lang }}'`
			`# yet, so the pipeline described here is not transformer-based.`
			`{%- endif %}`

			`[components.tok2vec]`
			`factory = "tok2vec"`

			`[components.tok2vec.model]`
			`@architectures = "spacy.Tok2Vec.v1"`

			`[components.tok2vec.model.embed]`
			`@architectures = "spacy.MultiHashEmbed.v1"`
Merge branch 'develop' of https://github.com/explosion/spaCy into develop [ci skip] 2020-08-20 12:20:58 +03:00			`width = ${components.tok2vec.model.encode.width}`
Upd quickstart template 2020-10-05 22:19:41 +03:00			`{% if has_letters -%}`
			`attrs = ["NORM", "PREFIX", "SUFFIX", "SHAPE"]`
			`rows = [5000, 2500, 2500, 2500]`
			`{% else -%}`
			`attrs = ["ORTH", "SHAPE"]`
			`rows = [5000, 2500]`
			`{% endif -%}`
Fix quickstart 2020-10-05 22:21:30 +03:00			`include_static_vectors = {{ "true" if optimize == "accuracy" else "false" }}`
Update for new Thinc and adjust config 2020-08-13 18:38:30 +03:00
			`[components.tok2vec.model.encode]`
			`@architectures = "spacy.MaxoutWindowEncoder.v1"`
			`width = {{ 96 if optimize == "efficiency" else 256 }}`
			`depth = {{ 4 if optimize == "efficiency" else 8 }}`
			`window_size = 1`
			`maxout_pieces = 3`

Add morphologizer to quickstart template 2020-10-02 16:06:16 +03:00			`{% if "morphologizer" in components %}`
			`[components.morphologizer]`
			`factory = "morphologizer"`

			`[components.morphologizer.model]`
			`@architectures = "spacy.Tagger.v1"`
			`nO = null`

			`[components.morphologizer.model.tok2vec]`
			`@architectures = "spacy.Tok2VecListener.v1"`
			`width = ${components.tok2vec.model.encode.width}`
			`{%- endif %}`

Update for new Thinc and adjust config 2020-08-13 18:38:30 +03:00			`{% if "tagger" in components %}`
			`[components.tagger]`
			`factory = "tagger"`

			`[components.tagger.model]`
			`@architectures = "spacy.Tagger.v1"`
			`nO = null`

			`[components.tagger.model.tok2vec]`
			`@architectures = "spacy.Tok2VecListener.v1"`
Merge branch 'develop' of https://github.com/explosion/spaCy into develop [ci skip] 2020-08-20 12:20:58 +03:00			`width = ${components.tok2vec.model.encode.width}`
Update for new Thinc and adjust config 2020-08-13 18:38:30 +03:00			`{%- endif %}`

			`{% if "parser" in components -%}`
			`[components.parser]`
			`factory = "parser"`

			`[components.parser.model]`
			`@architectures = "spacy.TransitionBasedParser.v1"`
'parser' instead of 'deps' for state_type 2020-09-23 17:53:49 +03:00			`state_type = "parser"`
state_type and extra_state_tokens instead of nr_feature_tokens 2020-09-23 14:35:09 +03:00			`extra_state_tokens = false`
Update for new Thinc and adjust config 2020-08-13 18:38:30 +03:00			`hidden_width = 128`
			`maxout_pieces = 3`
			`use_upper = true`
			`nO = null`

			`[components.parser.model.tok2vec]`
			`@architectures = "spacy.Tok2VecListener.v1"`
Merge branch 'develop' of https://github.com/explosion/spaCy into develop [ci skip] 2020-08-20 12:20:58 +03:00			`width = ${components.tok2vec.model.encode.width}`
Update for new Thinc and adjust config 2020-08-13 18:38:30 +03:00			`{%- endif %}`

			`{% if "ner" in components %}`
			`[components.ner]`
			`factory = "ner"`

			`[components.ner.model]`
			`@architectures = "spacy.TransitionBasedParser.v1"`
state_type and extra_state_tokens instead of nr_feature_tokens 2020-09-23 14:35:09 +03:00			`state_type = "ner"`
			`extra_state_tokens = false`
Update for new Thinc and adjust config 2020-08-13 18:38:30 +03:00			`hidden_width = 64`
			`maxout_pieces = 2`
			`use_upper = true`
			`nO = null`

			`[components.ner.model.tok2vec]`
			`@architectures = "spacy.Tok2VecListener.v1"`
Merge branch 'develop' of https://github.com/explosion/spaCy into develop [ci skip] 2020-08-20 12:20:58 +03:00			`width = ${components.tok2vec.model.encode.width}`
Update for new Thinc and adjust config 2020-08-13 18:38:30 +03:00			`{% endif %}`
add textcat to quickstart 2020-09-22 11:22:06 +03:00
add entity_linker to jinja template 2020-09-22 11:40:05 +03:00			`{% if "entity_linker" in components -%}`
			`[components.entity_linker]`
			`factory = "entity_linker"`
			`get_candidates = {"@misc":"spacy.CandidateGenerator.v1"}`
			`incl_context = true`
			`incl_prior = true`

			`[components.entity_linker.model]`
			`@architectures = "spacy.EntityLinker.v1"`
			`nO = null`

			`[components.entity_linker.model.tok2vec]`
			`@architectures = "spacy.Tok2VecListener.v1"`
			`width = ${components.tok2vec.model.encode.width}`
			`{% endif %}`

add textcat to quickstart 2020-09-22 11:22:06 +03:00			`{% if "textcat" in components %}`
			`[components.textcat]`
			`factory = "textcat"`

			`{% if optimize == "accuracy" %}`
			`[components.textcat.model]`
TextCat updates and fixes (#6263) * small fix in example imports * throw error when train_corpus or dev_corpus is not a string * small fix in custom logger example * limit macro_auc to labels with 2 annotations * fix typo * also create parents of output_dir if need be * update documentation of textcat scores * refactor TextCatEnsemble * fix tests for new AUC definition * bump to 3.0.0a42 * update docs * rename to spacy.TextCatEnsemble.v2 * spacy.TextCatEnsemble.v1 in legacy * cleanup * small fix * update to 3.0.0rc2 * fix import that got lost in merge * cursed IDE * fix two typos 2020-10-18 15:50:41 +03:00			`@architectures = "spacy.TextCatEnsemble.v2"`
			`nO = null`

			`[components.textcat.model.tok2vec]`
			`@architectures = "spacy.Tok2VecListener.v1"`
			`width = ${components.tok2vec.model.encode.width}`

			`[components.textcat.model.linear_model]`
			`@architectures = "spacy.TextCatBOW.v1"`
add textcat to quickstart 2020-09-22 11:22:06 +03:00			`exclusive_classes = false`
			`ngram_size = 1`
TextCat updates and fixes (#6263) * small fix in example imports * throw error when train_corpus or dev_corpus is not a string * small fix in custom logger example * limit macro_auc to labels with 2 annotations * fix typo * also create parents of output_dir if need be * update documentation of textcat scores * refactor TextCatEnsemble * fix tests for new AUC definition * bump to 3.0.0a42 * update docs * rename to spacy.TextCatEnsemble.v2 * spacy.TextCatEnsemble.v1 in legacy * cleanup * small fix * update to 3.0.0rc2 * fix import that got lost in merge * cursed IDE * fix two typos 2020-10-18 15:50:41 +03:00			`no_output_layer = false`
add textcat to quickstart 2020-09-22 11:22:06 +03:00
			`{% else -%}`
			`[components.textcat.model]`
			`@architectures = "spacy.TextCatBOW.v1"`
			`exclusive_classes = false`
			`ngram_size = 1`
add no_output_layer to TextCatBOW config 2020-09-22 13:06:40 +03:00			`no_output_layer = false`
add textcat to quickstart 2020-09-22 11:22:06 +03:00			`{%- endif %}`
			`{%- endif %}`
Update for new Thinc and adjust config 2020-08-13 18:38:30 +03:00			`{% endif %}`

			`{% for pipe in components %}`
Add morphologizer to quickstart template 2020-10-02 16:06:16 +03:00			`{% if pipe not in ["tagger", "morphologizer", "parser", "ner", "textcat", "entity_linker"] %}`
Update for new Thinc and adjust config 2020-08-13 18:38:30 +03:00			`{# Other components defined by the user: we just assume they're factories #}`
			`[components.{{ pipe }}]`
			`factory = "{{ pipe }}"`
			`{% endif %}`
			`{% endfor %}`

generalize corpora, dot notation for dev and train corpus 2020-09-17 12:38:59 +03:00			`[corpora]`

			`[corpora.train]`
			`@readers = "spacy.Corpus.v1"`
			`path = ${paths.train}`
			`max_length = {{ 500 if hardware == "gpu" else 2000 }}`

			`[corpora.dev]`
			`@readers = "spacy.Corpus.v1"`
			`path = ${paths.dev}`
			`max_length = 0`

Update for new Thinc and adjust config 2020-08-13 18:38:30 +03:00			`[training]`
Update quickstart, template and docs 2020-08-15 15:50:29 +03:00			`{% if use_transformer -%}`
			`accumulate_gradient = {{ transformer["size_factor"] }}`
Fix whitespace in template [ci skip] 2020-09-23 14:21:42 +03:00			`{% endif -%}`
generalize corpora, dot notation for dev and train corpus 2020-09-17 12:38:59 +03:00			`dev_corpus = "corpora.dev"`
			`train_corpus = "corpora.train"`
Update for new Thinc and adjust config 2020-08-13 18:38:30 +03:00
			`[training.optimizer]`
			`@optimizers = "Adam.v1"`

Fix learn rate for non-transformer 2020-09-04 22:22:50 +03:00			`{% if use_transformer -%}`
Update for new Thinc and adjust config 2020-08-13 18:38:30 +03:00			`[training.optimizer.learn_rate]`
			`@schedules = "warmup_linear.v1"`
			`warmup_steps = 250`
			`total_steps = 20000`
			`initial_rate = 5e-5`
Fix learn rate for non-transformer 2020-09-04 22:22:50 +03:00			`{% endif %}`
Update for new Thinc and adjust config 2020-08-13 18:38:30 +03:00
Update quickstart, template and docs 2020-08-15 15:50:29 +03:00			`{% if use_transformer %}`
Update for new Thinc and adjust config 2020-08-13 18:38:30 +03:00			`[training.batcher]`
Add prefix to batchers 2020-09-03 18:30:41 +03:00			`@batchers = "spacy.batch_by_padded.v1"`
Update for new Thinc and adjust config 2020-08-13 18:38:30 +03:00			`discard_oversize = true`
			`size = 2000`
			`buffer = 256`
			`{%- else %}`
			`[training.batcher]`
Add prefix to batchers 2020-09-03 18:30:41 +03:00			`@batchers = "spacy.batch_by_words.v1"`
Update for new Thinc and adjust config 2020-08-13 18:38:30 +03:00			`discard_oversize = false`
			`tolerance = 0.2`

			`[training.batcher.size]`
			`@schedules = "compounding.v1"`
			`start = 100`
			`stop = 1000`
			`compound = 1.001`
			`{% endif %}`
Update config 2020-09-28 13:05:23 +03:00
			`[initialize]`
			`{% if use_transformer or optimize == "efficiency" or not word_vectors -%}`
			`vectors = null`
			`{% else -%}`
			`vectors = "{{ word_vectors }}"`
			`{% endif -%}`