Skip to content

Commit 72b4504

Browse files
committed
Added tests for Slovak language.
1 parent 567b3e8 commit 72b4504

File tree

2 files changed

+28
-0
lines changed

2 files changed

+28
-0
lines changed

tests/conftest.py

Lines changed: 5 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -141,3 +141,8 @@ def de_with_clean_no_span_fixture():
141141
def kk_default_fixture():
142142
kk_segmenter = pysbd.Segmenter(language="kk", clean=False, char_span=False)
143143
return kk_segmenter
144+
145+
@pytest.fixture()
146+
def sk_default_fixture():
147+
sk_segmenter = pysbd.Segmenter(language="sk", clean=False, char_span=False)
148+
return sk_segmenter

tests/lang/test_slovak.py

Lines changed: 23 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,23 @@
1+
# -*- coding: utf-8 -*-
2+
import pytest
3+
4+
GOLDEN_SK_RULES_TEST_CASES = [
5+
("Ide o majiteľov firmy ABTrade s. r. o., ktorí stoja aj za ďalšími spoločnosťami, napr. XYZCorp a.s.",
6+
["Ide o majiteľov firmy ABTrade s. r. o., ktorí stoja aj za ďalšími spoločnosťami, napr. XYZCorp a.s."]),
7+
("„Prieskumy beriem na ľahkú váhu. V podstate ma to nezaujíma,“ reagoval Matovič na prieskum agentúry Focus.",
8+
["„Prieskumy beriem na ľahkú váhu. V podstate ma to nezaujíma,“ reagoval Matovič na prieskum agentúry Focus."]),
9+
("Toto sa mi podarilo až na 10. pokus, ale stálo to za to.",
10+
["Toto sa mi podarilo až na 10. pokus, ale stálo to za to."]),
11+
("Ide o príslušníkov XII. Pluku špeciálneho určenia.",
12+
["Ide o príslušníkov XII. Pluku špeciálneho určenia."]),
13+
("Spoločnosť bola založená 7. Apríla 2020, na zmluve však figuruje dátum 20. marec 2020.",
14+
["Spoločnosť bola založená 7. Apríla 2020, na zmluve však figuruje dátum 20. marec 2020."]),
15+
]
16+
17+
18+
@pytest.mark.parametrize('text,expected_sents', GOLDEN_SK_RULES_TEST_CASES)
19+
def test_pl_sbd(sk_default_fixture, text, expected_sents):
20+
"""Slovak language SBD tests"""
21+
segments = sk_default_fixture.segment(text)
22+
segments = [s.strip() for s in segments]
23+
assert segments == expected_sents

0 commit comments

Comments
 (0)