spaCy/spacy/tests/tokenizer/test_tokenizer.py

# coding: utf-8
from __future__ import unicode_literals
from os import path

import pytest

from spacy.util import utf8open


def test_tokenizer_handles_no_word(en_tokenizer):
    tokens = en_tokenizer("")
    assert len(tokens) == 0


@pytest.mark.parametrize('text', ["hello"])
def test_tokenizer_handles_single_word(en_tokenizer, text):
    tokens = en_tokenizer(text)
    assert tokens[0].text == text


@pytest.mark.parametrize('text', ["hello possums"])
def test_tokenizer_handles_two_words(en_tokenizer, text):
    tokens = en_tokenizer(text)
    assert len(tokens) == 2
    assert tokens[0].text != tokens[1].text


def test_tokenizer_handles_punct(en_tokenizer):
    text = "hello, possums."
    tokens = en_tokenizer(text)
    assert len(tokens) == 4
    assert tokens[0].text == "hello"
    assert tokens[1].text == ","
    assert tokens[2].text == "possums"
    assert tokens[1].text != "hello"


def test_tokenizer_handles_digits(en_tokenizer):
    text = "The year: 1984."
    tokens = en_tokenizer(text)
    assert len(tokens) == 5
    assert tokens[0].text == "The"
    assert tokens[3].text == "1984"


def test_tokenizer_handles_basic_contraction(en_tokenizer):
    text = "don't giggle"
    tokens = en_tokenizer(text)
    assert len(tokens) == 3
    assert tokens[1].text == "n't"
    text = "i said don't!"
    tokens = en_tokenizer(text)
    assert len(tokens) == 5
    assert tokens[4].text == "!"


@pytest.mark.parametrize('text', ["`ain't", '''"isn't''', "can't!"])
def test_tokenizer_handles_basic_contraction_punct(en_tokenizer, text):
    tokens = en_tokenizer(text)
    assert len(tokens) == 3


def test_tokenizer_handles_long_text(en_tokenizer):
    text = """Tributes pour in for late British Labour Party leader

Tributes poured in from around the world Thursday
to the late Labour Party leader John Smith, who died earlier from a massive
heart attack aged 55.

In Washington, the US State Department issued a statement regretting "the
untimely death" of the rapier-tongued Scottish barrister and parliamentarian.

"Mr. Smith, throughout his distinguished"""

    tokens = en_tokenizer(text)
    assert len(tokens) > 5


@pytest.mark.parametrize('file_name', ["sun.txt"])
def test_tokenizer_handle_text_from_file(en_tokenizer, file_name):
    loc = path.join(path.dirname(__file__), file_name)
    text = utf8open(loc).read()
    assert len(text) != 0
    tokens = en_tokenizer(text)
    assert len(tokens) > 100


@pytest.mark.parametrize('text,length', [
    ("The U.S. Army likes Shock and Awe.", 8),
    ("U.N. regulations are not a part of their concern.", 10),
    ("“Isn't it?”", 6),
    ("""Yes! "I'd rather have a walk", Ms. Comble sighed. """, 15),
    ("""'Me too!', Mr. P. Delaware cried. """, 11),
    ("They ran about 10km.", 6),
    # ("But then the 6,000-year ice age came...", 10)
    ])
def test_tokenizer_handles_cnts(en_tokenizer, text, length):
    tokens = en_tokenizer(text)
    assert len(tokens) == length


def test_tokenizer_suspected_freeing_strings(en_tokenizer):
    text1 = "Betty Botter bought a pound of butter."
    text2 = "Betty also bought a pound of butter."
    tokens1 = en_tokenizer(text1)
    tokens2 = en_tokenizer(text2)
    assert tokens1[0].text == "Betty"
    assert tokens2[0].text == "Betty"
* Add new tests for fancier tokenization cases 2014-09-15 08:31:58 +04:00			`# coding: utf-8`
* Tests passing for reorganized version 2014-07-07 06:23:46 +04:00			`from __future__ import unicode_literals`
Modernize and merge tokenizer tests for text from file 2017-01-05 15:15:52 +03:00			`from os import path`
* Tests passing for reorganized version 2014-07-07 06:23:46 +04:00
* Upd tokenizer test 2014-12-21 12:38:27 +03:00			`import pytest`
Add __reduce__ to Tokenizer so that English pickles. - Add tests to test_pickle and test_tokenizer that save to tempfiles. 2015-10-24 08:18:47 +03:00
Modernize and merge tokenizer tests for text from file 2017-01-05 15:15:52 +03:00			`from spacy.util import utf8open`
Add test for tokenizer regular expressions 2016-11-24 15:51:59 +03:00
* Tests passing for reorganized version 2014-07-07 06:23:46 +04:00
Modernize and merge general tokenizer tests 2017-01-05 15:17:05 +03:00			`def test_tokenizer_handles_no_word(en_tokenizer):`
			`tokens = en_tokenizer("")`
Add rokenizer test for zero length string 2015-02-07 05:01:44 +03:00			`assert len(tokens) == 0`

Tweak line spacing 2015-04-19 22:39:18 +03:00
Modernize and merge general tokenizer tests 2017-01-05 15:17:05 +03:00			`@pytest.mark.parametrize('text', ["hello"])`
			`def test_tokenizer_handles_single_word(en_tokenizer, text):`
			`tokens = en_tokenizer(text)`
			`assert tokens[0].text == text`
* Tests passing for reorganized version 2014-07-07 06:23:46 +04:00

Modernize and merge general tokenizer tests 2017-01-05 15:17:05 +03:00			`@pytest.mark.parametrize('text', ["hello possums"])`
			`def test_tokenizer_handles_two_words(en_tokenizer, text):`
			`tokens = en_tokenizer(text)`
* Large refactor, particularly to Python API 2014-10-23 17:59:17 +04:00			`assert len(tokens) == 2`
Modernize and merge general tokenizer tests 2017-01-05 15:17:05 +03:00			`assert tokens[0].text != tokens[1].text`
* Tests passing for reorganized version 2014-07-07 06:23:46 +04:00

Modernize and merge general tokenizer tests 2017-01-05 15:17:05 +03:00			`def test_tokenizer_handles_punct(en_tokenizer):`
			`text = "hello, possums."`
			`tokens = en_tokenizer(text)`
* Add new tests for fancier tokenization cases 2014-09-15 08:31:58 +04:00			`assert len(tokens) == 4`
Modernize and merge general tokenizer tests 2017-01-05 15:17:05 +03:00			`assert tokens[0].text == "hello"`
			`assert tokens[1].text == ","`
			`assert tokens[2].text == "possums"`
			`assert tokens[1].text != "hello"`
* Tests passing for reorganized version 2014-07-07 06:23:46 +04:00

Modernize and merge general tokenizer tests 2017-01-05 15:17:05 +03:00			`def test_tokenizer_handles_digits(en_tokenizer):`
			`text = "The year: 1984."`
			`tokens = en_tokenizer(text)`
* Large refactor, particularly to Python API 2014-10-23 17:59:17 +04:00			`assert len(tokens) == 5`
Modernize and merge general tokenizer tests 2017-01-05 15:17:05 +03:00			`assert tokens[0].text == "The"`
			`assert tokens[3].text == "1984"`
* Tests passing for reorganized version 2014-07-07 06:23:46 +04:00

Modernize and merge general tokenizer tests 2017-01-05 15:17:05 +03:00			`def test_tokenizer_handles_basic_contraction(en_tokenizer):`
			`text = "don't giggle"`
			`tokens = en_tokenizer(text)`
* Large refactor, particularly to Python API 2014-10-23 17:59:17 +04:00			`assert len(tokens) == 3`
Modernize and merge general tokenizer tests 2017-01-05 15:17:05 +03:00			`assert tokens[1].text == "n't"`
			`text = "i said don't!"`
			`tokens = en_tokenizer(text)`
* Large refactor, particularly to Python API 2014-10-23 17:59:17 +04:00			`assert len(tokens) == 5`
Modernize and merge general tokenizer tests 2017-01-05 15:17:05 +03:00			`assert tokens[4].text == "!"`
* Fix bug with trailing punct on contractions. Reduced efficiency, and slightly hacky implementation. 2014-09-12 20:00:42 +04:00
Modernize and merge general tokenizer tests 2017-01-05 15:17:05 +03:00
			@pytest.mark.parametrize('text', ["`ain't", '''"isn't''', "can't!"])
			`def test_tokenizer_handles_basic_contraction_punct(en_tokenizer, text):`
			`tokens = en_tokenizer(text)`
* Fix bug with trailing punct on contractions. Reduced efficiency, and slightly hacky implementation. 2014-09-12 20:00:42 +04:00			`assert len(tokens) == 3`

Tweak line spacing 2015-04-19 22:39:18 +03:00
Modernize and merge general tokenizer tests 2017-01-05 15:17:05 +03:00			`def test_tokenizer_handles_long_text(en_tokenizer):`
* Update tokenization tests for new tokenizer rules 2014-09-15 03:32:51 +04:00			`text = """Tributes pour in for late British Labour Party leader`

Remove trailing whitespace 2015-04-19 11:31:31 +03:00			`Tributes poured in from around the world Thursday`
			`to the late Labour Party leader John Smith, who died earlier from a massive`
* Update tokenization tests for new tokenizer rules 2014-09-15 03:32:51 +04:00			`heart attack aged 55.`

Remove trailing whitespace 2015-04-19 11:31:31 +03:00			`In Washington, the US State Department issued a statement regretting "the`
* Update tokenization tests for new tokenizer rules 2014-09-15 03:32:51 +04:00			`untimely death" of the rapier-tongued Scottish barrister and parliamentarian.`

			`"Mr. Smith, throughout his distinguished"""`
Remove trailing whitespace 2015-04-19 11:31:31 +03:00
* Set up tokenizer/ tests properly, using a session-scoped fixture to avoid long load/unload times. Tokenizer tests now complete in 20 seconds. 2015-06-07 18:24:49 +03:00			`tokens = en_tokenizer(text)`
* Update tokenization tests for new tokenizer rules 2014-09-15 03:32:51 +04:00			`assert len(tokens) > 5`
* Add new tests for fancier tokenization cases 2014-09-15 08:31:58 +04:00

Modernize and merge tokenizer tests for text from file 2017-01-05 15:15:52 +03:00			`@pytest.mark.parametrize('file_name', ["sun.txt"])`
			`def test_tokenizer_handle_text_from_file(en_tokenizer, file_name):`
			`loc = path.join(path.dirname(__file__), file_name)`
			`text = utf8open(loc).read()`
			`assert len(text) != 0`
* Add explicit tokenizer test 2015-06-07 22:29:17 +03:00			`tokens = en_tokenizer(text)`
Modernize and merge general tokenizer tests 2017-01-05 15:17:05 +03:00			`assert len(tokens) > 100`


			`@pytest.mark.parametrize('text,length', [`
			`("The U.S. Army likes Shock and Awe.", 8),`
			`("U.N. regulations are not a part of their concern.", 10),`
			`("“Isn't it?”", 6),`
			`("""Yes! "I'd rather have a walk", Ms. Comble sighed. """, 15),`
			`("""'Me too!', Mr. P. Delaware cried. """, 11),`
			`("They ran about 10km.", 6),`
			`# ("But then the 6,000-year ice age came...", 10)`
			`])`
			`def test_tokenizer_handles_cnts(en_tokenizer, text, length):`
* Add explicit tokenizer test 2015-06-07 22:29:17 +03:00			`tokens = en_tokenizer(text)`
Modernize and merge general tokenizer tests 2017-01-05 15:17:05 +03:00			`assert len(tokens) == length`
* Add xfail test for Issue #225: tokenization with non-whitespace delimiters 2016-01-19 15:20:14 +03:00

Modernize and merge tokenizer tests for string loading 2017-01-05 15:16:55 +03:00			`def test_tokenizer_suspected_freeing_strings(en_tokenizer):`
			`text1 = "Betty Botter bought a pound of butter."`
			`text2 = "Betty also bought a pound of butter."`
			`tokens1 = en_tokenizer(text1)`
			`tokens2 = en_tokenizer(text2)`
			`assert tokens1[0].text == "Betty"`
			`assert tokens2[0].text == "Betty"`