adding tests for RSM and oRSM

Fede-Rausa · Fede-Rausa · commit 442cd334626c · 2025-11-24T15:58:04.000+01:00
diff --git a/octis/models/RSM.py b/octis/models/RSM.py
@@ -17,57 +17,57 @@ class RSM(AbstractModel):
     update_with_test = False
 
     def __init__(
-            self, num_topics=50, epochs=5, btsz=100, 
+            self, num_topics=50, epochs=5, btsz=100,
             lr=0.01, momentum=0.1, K=1, softstart=0.001,
             decay=0, penalty_L1=False, penalty_local=False,
-            epochs_per_monitor=1, 
+            epochs_per_monitor=1,
             monitor_ppl=False, monitor_time=False,
+            increase_speed=0,
+            cd_type='mfcd', train_optimizer='sgd',
+            logdtm=False, random_state=None):
 
-            #persistent_cd = False, mean_field_cd = True, increase_cd = False, 
-            increase_speed = 0,
-            cd_type='mfcd',
-            train_optimizer='sgd', 
-            logdtm=False,
-            random_state=None):
-
-        '''  
+        '''
         Parameters
         ----------
         num_topics : number of topics
         epochs : number of training epochs
         btsz : batch size
         lr : learning rate
-        momentum : momentum of momentum optimizer (applied only if train_optimizer='momentum')
-        rms_decay : decay rate for RMSProp optimizer (applied only if train_optimizer='rmsprop')
-        adam_decay1 : first decay rate for Adam optimizer (applied only if train_optimizer='adam')
-        adam_decay2 : second decay rate for Adam optimizer (applied only if train_optimizer='adam')
+        momentum : momentum of momentum optimizer
+        (applied only if train_optimizer='momentum')
+        rms_decay : decay rate for RMSProp optimizer
+        (applied only if train_optimizer='rmsprop')
+        adam_decay1 : first decay rate for Adam optimizer
+        (applied only if train_optimizer='adam')
+        adam_decay2 : second decay rate for Adam optimizer
+        (applied only if train_optimizer='adam')
         K : number of Gibbs sampling steps when using KCD
         decay : penalization coefficient, default 0 (no penalization)
         penalty_L1 : if True uses L1 penalization, else L2 penalization
-        penalty_local : if True uses local penalization, else global penalization
-        softstart : initialization scale for weights (randomly drawn from N(0,1)*softstart)
-        logdtm : if True each cell of the dtm is transformed as log(1+cell), 
+        penalty_local : if True uses local penalization,
+        else global penalization
+        softstart : initialization scale for weights
+        (randomly drawn from N(0,1)*softstart)
+        logdtm : if True each cell of the dtm is transformed as log(1+cell),
         otherwise the raw counts are used
         monitor : if True prints training information during training
 
-        cd_type : type of contrastive divergence to use, 'kcd', 'pcd', 'mfcd' (default) or 'gradkcd'
+        cd_type : type of contrastive divergence to use,
+          'kcd', 'pcd', 'mfcd' (default) or 'gradkcd' :
                     'kcd' stands for k-step contrastive divergence
                     'pcd' stands for persistent contrastive divergence
                     'mfcd' stands for mean-field contrastive divergence
-                    'gradkcd' stands for gradual k-step contrastive divergence, 
+                    'gradkcd' stands for gradual k-step contrastive divergence,
                     where k increases over epochs by a factor increase_speed
         train_optimizer : training optimizer to use :
-                    'full' for full batch training, 
+                    'full' for full batch training,
                     'sgd' for simple stochastic gradient descent,
                     'minibatch' for mini-batch training,
                     'momentum' for mini-batch with momentum,
                     'rmsprop' for RMSProp optimizer,
                     'adam' for Adam optimizer,
                     'adagrad' for Adagrad optimizer
         '''
-
-
-
         super().__init__()
         self.hyperparameters = dict()
         self.hyperparameters["num_topics"] = num_topics
@@ -77,10 +77,7 @@ def __init__(
         self.hyperparameters["K"] = K
         self.hyperparameters["softstart"] = softstart
         self.hyperparameters["epochs"] = epochs
-        #self.hyperparameters["increase_cd"] = increase_cd
         self.hyperparameters["increase_speed"] = increase_speed
-        #self.hyperparameters["mean_field_cd"] = mean_field_cd
-        #self.hyperparameters["persistent_cd"] = persistent_cd
         self.hyperparameters["monitor_time"] = monitor_time
         self.hyperparameters["monitor_ppl"] = monitor_ppl
         self.hyperparameters["epochs_per_monitor"] = epochs_per_monitor
@@ -96,7 +93,6 @@ def __init__(
         self.hyperparameters['adam_decay1'] = 0.9
         self.hyperparameters['adam_decay2'] = 0.999
 
-
     def info(self):
         """
         Returns model informations
@@ -106,16 +102,12 @@ def info(self):
             "name": "RSM, Replicated Softmax Model",
         }
 
-
     def hyperparameters_info(self):
         """
         Returns hyperparameters informations
         """
         return defaults.RSM_hyperparameters_info
 
-
-
-
     def train_model(self, dataset, hyperparams=None, top_words=10):
         """
         Train the model and return output
@@ -137,7 +129,8 @@ def train_model(self, dataset, hyperparams=None, top_words=10):
             hyperparams = {}
 
         if self.use_partitions:
-            train_corpus, test_corpus = dataset.get_partitioned_corpus(use_validation = False)
+            train_corpus, test_corpus = dataset.get_partitioned_corpus(
+                use_validation = False)
         else:
             train_corpus = dataset.get_corpus()
 
diff --git a/tests/test_octis.py b/tests/test_octis.py
@@ -5,6 +5,8 @@
 import pytest
 
 from octis.dataset.dataset import Dataset
+from octis.models.RSM import RSM
+from octis.models.oRSM import oRSM
 from octis.models.LDA import LDA
 from octis.models.LDA_tomopy import LDA_tomopy as LDATOMOTO
 from octis.models.ETM import ETM
@@ -574,3 +576,65 @@ def test_model_output_prodlda_not_partitioned(data_dir):
     assert type(output['topic-document-matrix']) == np.ndarray
     assert output['topic-document-matrix'].shape == (
         num_topics, len(dataset.get_corpus()))
+
+
+
+
+def test_model_output_rsm(data_dir):
+    dataset = Dataset()
+    dataset.load_custom_dataset_from_folder(data_dir + '/M10')
+    num_topics = 3
+    model = RSM(num_topics=num_topics, epochs=2)
+    output = model.train_model(dataset)
+    assert 'topics' in output.keys()
+    assert 'topic-word-matrix' in output.keys()
+    assert 'test-topic-document-matrix' in output.keys()
+
+    # check topics format
+    assert type(output['topics']) == list
+    assert len(output['topics']) == num_topics
+
+    # check topic-word-matrix format
+    assert type(output['topic-word-matrix']) == np.ndarray
+    assert output['topic-word-matrix'].shape == (num_topics, len(
+        dataset.get_vocabulary()))
+
+    # check topic-document-matrix format
+    assert type(output['topic-document-matrix']) == np.ndarray
+    assert output['topic-document-matrix'].shape == (num_topics, len(
+        dataset.get_partitioned_corpus()[0]))
+
+    # check test-topic-document-matrix format
+    assert type(output['test-topic-document-matrix']) == np.ndarray
+    assert output['test-topic-document-matrix'].shape == (num_topics, len(
+        dataset.get_partitioned_corpus()[2]))
+    
+
+def test_model_output_orsm(data_dir):
+    dataset = Dataset()
+    dataset.load_custom_dataset_from_folder(data_dir + '/M10')
+    num_topics = 3
+    model = oRSM(num_topics=num_topics, epochs=2)
+    output = model.train_model(dataset)
+    assert 'topics' in output.keys()
+    assert 'topic-word-matrix' in output.keys()
+    assert 'test-topic-document-matrix' in output.keys()
+
+    # check topics format
+    assert type(output['topics']) == list
+    assert len(output['topics']) == num_topics
+
+    # check topic-word-matrix format
+    assert type(output['topic-word-matrix']) == np.ndarray
+    assert output['topic-word-matrix'].shape == (num_topics, len(
+        dataset.get_vocabulary()))
+
+    # check topic-document-matrix format
+    assert type(output['topic-document-matrix']) == np.ndarray
+    assert output['topic-document-matrix'].shape == (num_topics, len(
+        dataset.get_partitioned_corpus()[0]))
+
+    # check test-topic-document-matrix format
+    assert type(output['test-topic-document-matrix']) == np.ndarray
+    assert output['test-topic-document-matrix'].shape == (num_topics, len(
+        dataset.get_partitioned_corpus()[2]))