Merge branch 'mn-benchmark' of https://github.com/DeNeutoy/pySBD into mn-benchmark

Mark Neumann · Mark Neumann · commit 6ebcb9d94d6d · 2020-07-12T10:58:45.000-07:00
diff --git a/pysbd/exclamation_words.py b/pysbd/exclamation_words.py
@@ -15,4 +15,3 @@ class ExclamationWords(object):
     def apply_rules(cls, text):
         return re.sub(ExclamationWords.EXCLAMATION_REGEX, replace_punctuation,
                       text)
-
diff --git a/pysbd/processor.py b/pysbd/processor.py
@@ -1,15 +1,11 @@
 # -*- coding: utf-8 -*-
 import re
-import spacy
 from pysbd.utils import Text, TextSpan
 from pysbd.lists_item_replacer import ListItemReplacer
 from pysbd.exclamation_words import ExclamationWords
 from pysbd.between_punctuation import BetweenPunctuation
 from pysbd.abbreviation_replacer import AbbreviationReplacer
 
-nlp = spacy.blank('en')
-
-
 class Processor(object):
 
     def __init__(self, text, lang, char_span=False):
@@ -28,7 +24,6 @@ def __init__(self, text, lang, char_span=False):
         self.text = text
         self.lang = lang
         self.char_span = char_span
-        self.doc = nlp.make_doc(self.text)
 
     def process(self):
         if not self.text:
@@ -42,20 +37,8 @@ def process(self):
         self.text = Text(self.text).apply(
             self.lang.Abbreviation.WithMultiplePeriodsAndEmailRule,
             self.lang.GeoLocationRule, self.lang.FileFormatRule)
-        processed = self.split_into_segments()
-        if self.char_span:
-            return self.sentences_with_char_spans(processed)
-        else:
-            return processed
-
-    def sentences_with_char_spans(self, sentences):
-        sent_start_token_idx = [m.start() for sent in sentences for m in re.finditer(re.escape(sent), self.doc.text)]
-        for tok in self.doc:
-            if tok.idx in sent_start_token_idx:
-                tok.is_sent_start = True
-            else:
-                tok.is_sent_start = False
-        return [TextSpan(sent.text_with_ws, sent.start_char, sent.end_char) for sent in self.doc.sents]
+        postprocessed_sents = self.split_into_segments()
+        return postprocessed_sents
 
     def rm_none_flatten(self, sents):
         """Remove None values and unpack list of list sents
diff --git a/pysbd/segmenter.py b/pysbd/segmenter.py
@@ -1,7 +1,10 @@
 # -*- coding: utf-8 -*-
+import re
+
 from pysbd.languages import Language
 from pysbd.processor import Processor
 from pysbd.cleaner import Cleaner
+from pysbd.utils import TextSpan
 
 class Segmenter(object):
 
@@ -44,16 +47,30 @@ def processor(self, text):
             return Processor(text, self.language_module,
                              char_span=self.char_span)
 
+    def sentences_with_char_spans(self, sentences):
+        # since SENTENCE_BOUNDARY_REGEX doesnt account
+        # for trailing whitespaces \s* is used as suffix
+        # to keep non-destructive text after segments joins
+        return [TextSpan(m.group(), m.start(), m.end()) for sent in sentences
+                for m in re.finditer('{0}\s*'.format(re.escape(sent)),
+                self.original_text)]
+
     def segment(self, text):
+        self.original_text = text
         if not text:
             return []
         if self.clean and self.char_span:
             raise ValueError("char_span must be False if clean is True. "
                              "Since `clean=True` will modify original text.")
-        if self.language != 'en' and self.char_span:
-            raise ValueError("char_span functionality not supported for "
-                             "languages other than English (`en`)")
         elif self.clean:
             text = self.cleaner(text).clean()
-        segments = self.processor(text).process()
-        return segments
+        postprocessed_sents = self.processor(text).process()
+        sentence_w_char_spans = self.sentences_with_char_spans(postprocessed_sents)
+        if self.clean:
+            # clean and destructed sentences
+            return postprocessed_sents
+        elif self.char_span:
+            return sentence_w_char_spans
+        else:
+            # nondestructive with whitespaces
+            return [textspan.sent for textspan in sentence_w_char_spans]
diff --git a/tests/lang/test_amharic.py b/tests/lang/test_amharic.py
@@ -10,4 +10,5 @@
 def test_am_sbd(am_default_fixture, text, expected_sents):
     """Amharic language SBD tests"""
     segments = am_default_fixture.segment(text)
+    segments = [s.strip() for s in segments]
     assert segments == expected_sents
diff --git a/tests/lang/test_arabic.py b/tests/lang/test_arabic.py
@@ -20,4 +20,5 @@
 def test_ar_sbd(ar_default_fixture, text, expected_sents):
     """Arabic language SBD tests"""
     segments = ar_default_fixture.segment(text)
+    segments = [s.strip() for s in segments]
     assert segments == expected_sents
diff --git a/tests/lang/test_armenian.py b/tests/lang/test_armenian.py
@@ -83,10 +83,12 @@
 def test_hy_sbd(hy_default_fixture, text, expected_sents):
     """Armenian language SBD tests"""
     segments = hy_default_fixture.segment(text)
+    segments = [s.strip() for s in segments]
     assert segments == expected_sents
 
 @pytest.mark.parametrize('text,expected_sents', HY_MORE_TEST_CASES)
 def test_hy_sbd_more(hy_default_fixture, text, expected_sents):
     """Armenian language SBD tests"""
     segments = hy_default_fixture.segment(text)
+    segments = [s.strip() for s in segments]
     assert segments == expected_sents
diff --git a/tests/lang/test_bulgarian.py b/tests/lang/test_bulgarian.py
@@ -16,4 +16,5 @@
 def test_bg_sbd(bg_default_fixture, text, expected_sents):
     """Bulgarian language SBD tests"""
     segments = bg_default_fixture.segment(text)
+    segments = [s.strip() for s in segments]
     assert segments == expected_sents
diff --git a/tests/lang/test_burmese.py b/tests/lang/test_burmese.py
@@ -10,4 +10,5 @@
 def test_my_sbd(my_default_fixture, text, expected_sents):
     """Burmese language SBD tests"""
     segments = my_default_fixture.segment(text)
+    segments = [s.strip() for s in segments]
     assert segments == expected_sents
diff --git a/tests/lang/test_chinese.py b/tests/lang/test_chinese.py
@@ -12,4 +12,5 @@
 def test_zsh_sbd(zh_default_fixture, text, expected_sents):
     """Chinese language SBD tests from Pragmatic Segmenter"""
     segments = zh_default_fixture.segment(text)
+    segments = [s.strip() for s in segments]
     assert segments == expected_sents
diff --git a/tests/lang/test_danish.py b/tests/lang/test_danish.py
@@ -101,6 +101,7 @@
 def test_da_sbd(da_default_fixture, text, expected_sents):
     """Danish language SBD tests"""
     segments = da_default_fixture.segment(text)
+    segments = [s.strip() for s in segments]
     assert segments == expected_sents
 
 DA_RULES_CLEAN_TEST_CASES = [
@@ -117,11 +118,13 @@ def test_da_sbd(da_default_fixture, text, expected_sents):
 def test_da_sbd_clean(da_with_clean_no_span_fixture, text, expected_sents):
     """Danish language SBD tests with text clean"""
     segments = da_with_clean_no_span_fixture.segment(text)
+    segments = [s.strip() for s in segments]
     assert segments == expected_sents
 
 @pytest.mark.parametrize('text,expected_sents', DA_PDF_TEST_DATA)
 def test_da_pdf_type(text, expected_sents):
     """SBD tests from Pragmatic Segmenter for doctype:pdf"""
     seg = pysbd.Segmenter(language="da", clean=True, doc_type='pdf')
     segments = seg.segment(text)
+    segments = [s.strip() for s in segments]
     assert segments == expected_sents
diff --git a/tests/lang/test_deutsch.py b/tests/lang/test_deutsch.py
@@ -84,13 +84,15 @@
 def test_de_sbd(de_default_fixture, text, expected_sents):
     """Deutsch language SBD tests"""
     segments = de_default_fixture.segment(text)
+    segments = [s.strip() for s in segments]
     assert segments == expected_sents
 
 
 @pytest.mark.parametrize('text,expected_sents', DE_CLEAN_RULES_TEST_CASES)
 def test_de_sbd_clean(de_with_clean_no_span_fixture, text, expected_sents):
     """Deutsch language SBD tests with clean=True"""
     segments = de_with_clean_no_span_fixture.segment(text)
+    segments = [s.strip() for s in segments]
     assert segments == expected_sents
 
 
@@ -99,4 +101,5 @@ def test_de_pdf_type(text, expected_sents):
     """SBD tests from Pragmatic Segmenter for deutsch & doctype:pdf"""
     seg = pysbd.Segmenter(language="de", clean=True, doc_type='pdf')
     segments = seg.segment(text)
+    segments = [s.strip() for s in segments]
     assert segments == expected_sents
diff --git a/tests/lang/test_dutch.py b/tests/lang/test_dutch.py
@@ -13,4 +13,5 @@
 def test_nl_sbd(nl_default_fixture, text, expected_sents):
     """Dutch language SBD tests"""
     segments = nl_default_fixture.segment(text)
+    segments = [s.strip() for s in segments]
     assert segments == expected_sents
diff --git a/tests/lang/test_english.py b/tests/lang/test_english.py
@@ -166,4 +166,5 @@
 def test_en_sbd(pysbd_default_en_no_clean_no_span_fixture, text, expected_sents):
     """SBD tests from Pragmatic Segmenter"""
     segments = pysbd_default_en_no_clean_no_span_fixture.segment(text)
+    segments = [s.strip() for s in segments]
     assert segments == expected_sents
diff --git a/tests/lang/test_english_clean.py b/tests/lang/test_english_clean.py
@@ -819,11 +819,13 @@
 def test_en_sbd_with_clean(en_with_clean_no_span_fixture, text, expected_sents):
     """SBD tests from Pragmatic Segmenter needs clean:true"""
     segments = en_with_clean_no_span_fixture.segment(text)
+    segments = [s.strip() for s in segments]
     assert segments == expected_sents
 
 @pytest.mark.parametrize('text,expected_sents', TESTS_WO_CLEAN)
 def test_en_sbd_wo_clean(text, expected_sents):
     """SBD tests from Pragmatic Segmenter without clean:true"""
     seg = pysbd.Segmenter(language="en", clean=False)
     segments = seg.segment(text)
+    segments = [s.strip() for s in segments]
     assert segments == expected_sents
diff --git a/tests/lang/test_french.py b/tests/lang/test_french.py
@@ -18,4 +18,5 @@
 def test_fr_sbd(fr_default_fixture, text, expected_sents):
     """French language SBD tests"""
     segments = fr_default_fixture.segment(text)
+    segments = [s.strip() for s in segments]
     assert segments == expected_sents
diff --git a/tests/lang/test_greek.py b/tests/lang/test_greek.py
@@ -10,4 +10,5 @@
 def test_el_sbd(el_default_fixture, text, expected_sents):
     """Greek language SBD tests"""
     segments = el_default_fixture.segment(text)
+    segments = [s.strip() for s in segments]
     assert segments == expected_sents
diff --git a/tests/lang/test_hindi.py b/tests/lang/test_hindi.py
@@ -10,4 +10,5 @@
 def test_hi_sbd(hi_default_fixture, text, expected_sents):
     """Hindi language SBD tests from Pragmatic Segmenter"""
     segments = hi_default_fixture.segment(text)
+    segments = [s.strip() for s in segments]
     assert segments == expected_sents
diff --git a/tests/lang/test_italian.py b/tests/lang/test_italian.py
@@ -83,10 +83,12 @@
 def test_it_sbd(it_default_fixture, text, expected_sents):
     """Italian language SBD tests"""
     segments = it_default_fixture.segment(text)
+    segments = [s.strip() for s in segments]
     assert segments == expected_sents
 
 @pytest.mark.parametrize('text,expected_sents', IT_MORE_TEST_CASES)
 def test_it_sbd_more_cases(it_default_fixture, text, expected_sents):
     """Italian language SBD tests more examples"""
     segments = it_default_fixture.segment(text)
+    segments = [s.strip() for s in segments]
     assert segments == expected_sents
diff --git a/tests/lang/test_japanese.py b/tests/lang/test_japanese.py
@@ -16,6 +16,7 @@
 def test_ja_sbd(ja_default_fixture, text, expected_sents):
     """Japanese language SBD tests"""
     segments = ja_default_fixture.segment(text)
+    segments = [s.strip() for s in segments]
     assert segments == expected_sents
 
 JA_TEST_CASES_CLEAN = [("これは父の\n家です。", ["これは父の家です。"])]
@@ -24,4 +25,5 @@ def test_ja_sbd(ja_default_fixture, text, expected_sents):
 def test_ja_sbd_clean(ja_with_clean_no_span_fixture, text, expected_sents):
     """Japanese language SBD tests with clean=True"""
     segments = ja_with_clean_no_span_fixture.segment(text)
+    segments = [s.strip() for s in segments]
     assert segments == expected_sents
diff --git a/tests/lang/test_kazakh.py b/tests/lang/test_kazakh.py
@@ -36,4 +36,5 @@
 def test_kk_sbd(kk_default_fixture, text, expected_sents):
     """Kazakh language SBD tests"""
     segments = kk_default_fixture.segment(text)
+    segments = [s.strip() for s in segments]
     assert segments == expected_sents
diff --git a/tests/lang/test_marathi.py b/tests/lang/test_marathi.py
@@ -18,4 +18,5 @@
 def test_mr_sbd(mr_default_fixture, text, expected_sents):
     """Marathi language SBD tests"""
     segments = mr_default_fixture.segment(text)
+    segments = [s.strip() for s in segments]
     assert segments == expected_sents
diff --git a/tests/lang/test_persian.py b/tests/lang/test_persian.py
@@ -11,4 +11,5 @@
 def test_fa_sbd(fa_default_fixture, text, expected_sents):
     """Persian language SBD tests"""
     segments = fa_default_fixture.segment(text)
+    segments = [s.strip() for s in segments]
     assert segments == expected_sents
diff --git a/tests/lang/test_polish.py b/tests/lang/test_polish.py
@@ -10,4 +10,5 @@
 def test_pl_sbd(pl_default_fixture, text, expected_sents):
     """Polish language SBD tests"""
     segments = pl_default_fixture.segment(text)
+    segments = [s.strip() for s in segments]
     assert segments == expected_sents
diff --git a/tests/lang/test_russian.py b/tests/lang/test_russian.py
@@ -93,10 +93,12 @@
 def test_ru_sbd(ru_default_fixture, text, expected_sents):
     """Russian language SBD tests"""
     segments = ru_default_fixture.segment(text)
+    segments = [s.strip() for s in segments]
     assert segments == expected_sents
 
 @pytest.mark.parametrize('text,expected_sents', RU_MORE_TEST_CASES)
 def test_ru_sbd(ru_default_fixture, text, expected_sents):
     """Russian language SBD tests"""
     segments = ru_default_fixture.segment(text)
+    segments = [s.strip() for s in segments]
     assert segments == expected_sents
diff --git a/tests/lang/test_spanish.py b/tests/lang/test_spanish.py
@@ -98,18 +98,21 @@
 def test_es_sbd(es_default_fixture, text, expected_sents):
     """Spanish (Espanol) language SBD tests from Pragmatic Segmenter"""
     segments = es_default_fixture.segment(text)
+    segments = [s.strip() for s in segments]
     assert segments == expected_sents
 
 @pytest.mark.parametrize('text,expected_sents', ES_MORE_TEST_CASES)
 def test_es_sbd_more_examples(es_default_fixture, text, expected_sents):
     """Spanish (Espanol) language SBD tests from Pragmatic Segmenter Contributors"""
     segments = es_default_fixture.segment(text)
+    segments = [s.strip() for s in segments]
     assert segments == expected_sents
 
 @pytest.mark.parametrize('text,expected_sents', ES_CLEAN_TEST_CASES)
 def test_es_sbd_more_examples(es_with_clean_no_span_fixture, text, expected_sents):
     """Spanish (Espanol) language SBD tests from Pragmatic Segmenter Contributors"""
     segments = es_with_clean_no_span_fixture.segment(text)
+    segments = [s.strip() for s in segments]
     assert segments == expected_sents
 
 ES_PDF_CASE = [("\nA continuación me permito presentar a la Ingeniera LAURA MILENA LEÓN \nSANDOVAL, identificada con el documento N°. 1026.253.553 de Bogotá, \negresada del Programa Ingeniería Industrial en el año 2012, quien se desatacó por \nsu excelencia académica, actualmente cursa el programa de Maestría en \nIngeniería Industrial y se encuentra en un intercambio cultural en Bangalore – \nIndia.",
@@ -120,4 +123,5 @@ def test_es_pdf_type(text, expected_sents):
     """Spanish SBD tests from Pragmatic Segmenter for doctype:pdf"""
     seg = pysbd.Segmenter(language="es", clean=True, doc_type='pdf')
     segments = seg.segment(text)
+    segments = [s.strip() for s in segments]
     assert segments == expected_sents
diff --git a/tests/lang/test_urdu.py b/tests/lang/test_urdu.py
@@ -10,4 +10,5 @@
 def test_ur_sbd(ur_default_fixture, text, expected_sents):
     """Urdu language SBD tests"""
     segments = ur_default_fixture.segment(text)
+    segments = [s.strip() for s in segments]
     assert segments == expected_sents
diff --git a/tests/regression/test_issues.py b/tests/regression/test_issues.py
@@ -67,6 +67,7 @@ def test_issue(issue_no, text, expected_sents):
     """pySBD issues tests from https://github.com/nipunsadvilkar/pySBD/issues/"""
     seg = pysbd.Segmenter(language="en", clean=False)
     segments = seg.segment(text)
+    segments = [s.strip() for s in segments]
     assert segments == expected_sents
     # clubbing sentences and matching with original text
     assert text == " ".join(segments)
diff --git a/tests/test_segmenter.py b/tests/test_segmenter.py
@@ -18,6 +18,7 @@ def test_newline_input(pysbd_default_en_no_clean_no_span_fixture, text="\n"):
 def test_segmenter_doesnt_mutate_input(pysbd_default_en_no_clean_no_span_fixture,
                                        text='My name is Jonas E. Smith. Please turn to p. 55.'):
     segments = pysbd_default_en_no_clean_no_span_fixture.segment(text)
+    segments = [s.strip() for s in segments]
     assert text == 'My name is Jonas E. Smith. Please turn to p. 55.'
 
 @pytest.mark.parametrize('text,expected',
@@ -46,16 +47,6 @@ def test_exception_with_both_clean_and_span_true():
     assert str(e.value) == "char_span must be False if clean is True. "\
                             "Since `clean=True` will modify original text."
 
-def test_exception_with_otherthan_en_lang_span_true():
-    """Test to not allow clean=True and char_span=True
-    """
-    with pytest.raises(ValueError) as e:
-        seg = pysbd.Segmenter(language="zh", clean=False, char_span=True)
-        text = "我们明天一起去看《摔跤吧！爸爸》好吗？好！"
-        seg.segment(text)
-    assert str(e.value) == "char_span functionality not supported for "\
-                            "languages other than English (`en`)"
-
 PDF_TEST_DATA = [
     ("This is a sentence\ncut off in the middle because pdf.",
         ["This is a sentence cut off in the middle because pdf."]),
@@ -76,4 +67,5 @@ def test_en_pdf_type(text, expected_sents):
     """SBD tests from Pragmatic Segmenter for doctype:pdf"""
     seg = pysbd.Segmenter(language="en", clean=True, doc_type='pdf')
     segments = seg.segment(text)
+    segments = [s.strip() for s in segments]
     assert segments == expected_sents