From c0ceb775fb62e29c4a279a7893db2bd1ed6e5b03 Mon Sep 17 00:00:00 2001 From: Duygu Altinok Date: Mon, 13 Nov 2017 14:53:21 +0100 Subject: [PATCH] cleaned encoding problems MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit Some Turkish only letters had some kind of encoding problems. For instance line13 "altmýþ", is indeed line14 "altmış". I cleaned the duplicates that was led by this problem, also went over the word list once. --- spacy/lang/tr/stop_words.py | 42 ++++--------------------------------- 1 file changed, 4 insertions(+), 38 deletions(-) diff --git a/spacy/lang/tr/stop_words.py b/spacy/lang/tr/stop_words.py index aaed02a3e..d4f231a38 100644 --- a/spacy/lang/tr/stop_words.py +++ b/spacy/lang/tr/stop_words.py @@ -10,16 +10,14 @@ acep adamakıllı adeta ait -altmýþ altmış -altý altı ama amma anca ancak arada -artýk +artık aslında aynen ayrıca @@ -29,10 +27,9 @@ açıkçası bana bari bazen -bazý bazı başkası -baţka +başka belki ben benden @@ -40,9 +37,7 @@ beni benim beri beriki -beþ beş -beţ bilcümle bile bin @@ -64,11 +59,8 @@ birkez birlikte birçok birçoğu -birþey -birþeyi birşey birşeyi -birţey bitevi biteviye bittabi @@ -124,11 +116,9 @@ denli derakap derhal derken -deđil değil değin diye -diđer diğer diğeri doksan @@ -168,7 +158,6 @@ evvelce evvelden evvelemirde evveli -eđer eğer fakat filanca @@ -240,12 +229,11 @@ iyicene için iş işte -iţte kadar kaffesi kah kala -kanýmca +kanımca karşın katrilyon kaynak @@ -262,7 +250,6 @@ kez keza kezalik keşke -keţke ki kim kimden @@ -273,8 +260,6 @@ kimse kimsecik kimsecikler külliyen -kýrk -kýsaca kırk kısaca lakin @@ -285,7 +270,6 @@ madem mademki mamafih mebni -međer meğer meğerki meğerse @@ -293,9 +277,7 @@ milyar milyon mu mü -mý mı -nasýl nasıl nasılsa nazaran @@ -352,8 +334,6 @@ onda ondan onlar onlardan -onlari -onlarýn onları onların onu @@ -433,9 +413,7 @@ yedi yeniden yenilerde yerine -yetmiþ yetmiş -yetmiţ yine yirmi yok @@ -477,15 +455,6 @@ zira öz üzere üç -þey -þeyden -þeyi -þeyler -þu -þuna -þunda -þundan -þunu şayet şey şeyden @@ -505,8 +474,5 @@ zira şuracıkta şurası şöyle -ţayet -ţimdi -ţu -ţöyle +şimdi """.split())