mirror of
https://github.com/explosion/spaCy.git
synced 2025-01-12 02:06:31 +03:00
663333c3b2
* Fix 5314 * Add contributor * Resolve requested changes Co-authored-by: Jakob Jul Elben <jakob@datamaga.com>
19 lines
1.3 KiB
Python
19 lines
1.3 KiB
Python
import pytest
|
|
|
|
from bin.wiki_entity_linking.wikipedia_processor import _process_wp_text
|
|
|
|
old_format_text = """<text bytes="11456" xml:space="preserve">[[Fil:Archäologie schichtengrabung.jpg|thumb|Arkæologisk [[udgravning]] med profil.]] '''Arkæologi''' er studiet af tidligere tiders [[menneske]]lige [[aktivitet]], primært gennem studiet af menneskets materielle levn.</text>"""
|
|
new_format_text = """<text xml:space="preserve">[[Fil:Archäologie schichtengrabung.jpg|thumb|Arkæologisk [[udgravning]] med profil.]] '''Arkæologi''' er studiet af tidligere tiders [[menneske]]lige [[aktivitet]], primært gennem studiet af menneskets materielle levn.</text>"""
|
|
potential_future_format = """<text bytes="11456" xml:space="preserve">[[Fil:Archäologie schichtengrabung.jpg|thumb|Arkæologisk [[udgravning]] med profil.]] '''Arkæologi''' er studiet af tidligere tiders [[menneske]]lige [[aktivitet]], primært gennem studiet af menneskets materielle levn.</text>"""
|
|
|
|
|
|
@pytest.mark.parametrize(
|
|
"text", [old_format_text, new_format_text, potential_future_format]
|
|
)
|
|
def test_issue5314(text):
|
|
title = "Arkæologi"
|
|
clean_text, _ = _process_wp_text(title, text, {})
|
|
|
|
expected_text = "Arkæologi er studiet af tidligere tiders menneskelige aktivitet, primært gennem studiet af menneskets materielle levn."
|
|
assert clean_text.strip() == expected_text
|