feat: added panaroo as a genome comparison tool, closes #6

m-jahn · m-jahn · commit 20e70b24062e · 2025-12-10T10:24:42.000+01:00
diff --git a/.test/config/config.yml b/.test/config/config.yml
@@ -21,3 +21,8 @@ quast:
   reference_fasta: ""
   reference_gff: ""
   extra: ""
+
+panaroo:
+  remove_source: "cmsearch"
+  remove_feature: "tRNA|rRNA|ncRNA|exon|sequence_feature"
+  extra: "--clean-mode strict --remove-invalid-genes"
diff --git a/README.md b/README.md
@@ -4,6 +4,7 @@
 [![GitHub actions status](https://github.com/MPUSP/snakemake-assembly-postprocessing/actions/workflows/main.yml/badge.svg)](https://github.com/MPUSP/snakemake-assembly-postprocessing/actions/workflows/main.yml)
 [![run with conda](http://img.shields.io/badge/run%20with-conda-3EB049?labelColor=000000&logo=anaconda)](https://docs.conda.io/en/latest/)
 [![run with apptainer](https://img.shields.io/badge/run%20with-apptainer-1D355C.svg?labelColor=000000)](https://apptainer.org/)
+[![workflow catalog](https://img.shields.io/badge/Snakemake%20workflow%20catalog-darkgreen)](https://snakemake.github.io/snakemake-workflow-catalog/docs/workflows/MPUSP/snakemake-assembly-postprocessing)
 
 A Snakemake workflow for the post-processing of microbial genome assemblies.
 
@@ -20,6 +21,8 @@ If you use this workflow in a paper, don't forget to give credits to the authors
    1. NCBI's Prokaryotic Genome Annotation Pipeline ([PGAP](https://github.com/ncbi/pgap)). Note: needs to be installed manually
    2. [prokka](https://github.com/tseemann/prokka), a fast and light-weight prokaryotic annotation tool
    3. [bakta](https://github.com/oschwengers/bakta), a fast, alignment-free annotation tool. Note: Bakta will automatically download its companion database from zenodo (light: 1.5 GB, full: 40 GB)
+3. Create a QC report for the assemblies using [Quast](https://github.com/ablab/quast)
+4. Create a pangenome analysis (orthologs/homologs) using [Panaroo](https://gthlab.au/panaroo/)
 
 ## Requirements
 
@@ -64,6 +67,14 @@ conda activate snakemake-assembly-postprocessing
 
 ## References
 
+> Seemann T. _Prokka: rapid prokaryotic genome annotation_. Bioinformatics. **2014** Jul 15;30(14):2068-9. PMID: 24642063. https://doi.org/10.1093/bioinformatics/btu153.
+
+> Schwengers O, Jelonek L, Dieckmann MA, Beyvers S, Blom J, Goesmann A. _Bakta: rapid and standardized annotation of bacterial genomes via alignment-free sequence identification_. Microb Genom, 7(11):000685 **2021**. PMID: 34739369. https://doi.org/10.1099/mgen.0.000685.
+
 > Li W, O'Neill KR, Haft DH, DiCuccio M, Chetvernin V, Badretdin A, Coulouris G, Chitsaz F, Derbyshire MK, Durkin AS, Gonzales NR, Gwadz M, Lanczycki CJ, Song JS, Thanki N, Wang J, Yamashita RA, Yang M, Zheng C, Marchler-Bauer A, Thibaud-Nissen F. _RefSeq: Expanding the Prokaryotic Genome Annotation Pipeline reach with protein family model curation._ Nucleic Acids Res, **2021** Jan 8;49(D1):D1020-D1028. https://doi.org/10.1093/nar/gkaa1105
 
+> Gurevich A, Saveliev V, Vyahhi N, Tesler G. _QUAST: quality assessment tool for genome assemblies_. Bioinformatics. 29(8):1072-5, **2013**. PMID: 23422339. https://doi.org/10.1093/bioinformatics/btt086.
+
+> Tonkin-Hill G, MacAlasdair N, Ruis C, Weimann A, Horesh G, Lees JA, Gladstone RA, Lo S, Beaudoin C, Floto RA, Frost SDW, Corander J, Bentley SD, Parkhill J. _Producing polished prokaryotic pangenomes with the Panaroo pipeline_. Genome Biol. 21(1):180, **2020**. PMID: 32698896. https://doi.org/10.1186/s13059-020-02090-4.
+
 > Köster, J., Mölder, F., Jablonski, K. P., Letcher, B., Hall, M. B., Tomkins-Tinch, C. H., Sochat, V., Forster, J., Lee, S., Twardziok, S. O., Kanitz, A., Wilm, A., Holtgrewe, M., Rahmann, S., & Nahnsen, S. _Sustainable data analysis with Snakemake_. F1000Research, 10:33, 10, 33, **2021**. https://doi.org/10.12688/f1000research.29032.2.
diff --git a/config/config.yml b/config/config.yml
@@ -21,3 +21,8 @@ quast:
   reference_fasta: ""
   reference_gff: ""
   extra: ""
+
+panaroo:
+  remove_source: "cmsearch"
+  remove_feature: "tRNA|rRNA|ncRNA|exon|sequence_feature"
+  extra: "--clean-mode strict --remove-invalid-genes"
diff --git a/config/schemas/config.schema.yml b/config/schemas/config.schema.yml
@@ -80,6 +80,18 @@ properties:
       extra:
         type: string
         description: Extra command-line arguments for QUAST
+  panaroo:
+    type: object
+    properties:
+      remove_source:
+        type: string
+        description: Source types to remove in Panaroo (regex supported)
+      remove_feature:
+        type: string
+        description: Feature types to remove in Panaroo (regex supported)
+      extra:
+        type: string
+        description: Extra command-line arguments for Panaroo
 
 required:
   - samplesheet
diff --git a/workflow/Snakefile b/workflow/Snakefile
@@ -67,8 +67,5 @@ onerror:
 # -----------------------------------------------------
 rule all:
     input:
-        expand(
-            "results/qc/quast/{tool}/report.txt",
-            tool=config["tool"],
-        ),
+        get_final_input,
     default_target: True
diff --git a/workflow/envs/panaroo.yml b/workflow/envs/panaroo.yml
@@ -0,0 +1,9 @@
+name: panaroo
+channels:
+  - conda-forge
+  - bioconda
+  - nodefaults
+dependencies:
+  - numpy=1.26.4
+  - scipy=1.11.4
+  - panaroo=1.5.2
diff --git a/workflow/rules/annotate.smk b/workflow/rules/annotate.smk
@@ -138,13 +138,13 @@ rule get_bakta_db:
         """
         if [ {params.download_db} != 'none' ]; then
           echo 'The most recent of the following available Bakta DBs is downloaded:' > {log};
-          bakta_db list >> {log};
+          bakta_db list &>> {log};
           bakta_db download --output {params.outdir} --type {params.download_db} &>> {log};
         else
           echo 'Using Bakta DB from supplied input dir: {params.existing_db}' > {log};
           ln -s {params.existing_db} {output.db};
-          echo 'Update ARMFinderPlus DB using supplied input dir: {params.existing_db}' > {log};
-          amrfinder_update --force_update --database {params.existing_db}/amrfinderplus-db >> {log}
+          echo 'Update ARMFinderPlus DB using supplied input dir: {params.existing_db}' >> {log};
+          amrfinder_update --force_update --database {params.existing_db}/amrfinderplus-db &>> {log}
         fi
         """
 
diff --git a/workflow/rules/common.smk b/workflow/rules/common.smk
@@ -23,7 +23,6 @@ def get_fasta(wildcards):
     sample = wildcards.sample
     if sample not in samples.index:
         raise ValueError(f"Sample {sample} not found in samplesheet.")
-    # return the fasta file path
     return samples.loc[sample, "file"]
 
 
@@ -35,9 +34,31 @@ def get_quast_fasta(wildcards):
     )
 
 
-def get_quast_gff(wildcards):
+def get_panaroo_gff(wildcards):
     return expand(
-        "results/annotation/{tool}/{sample}/{sample}.gff",
+        "results/qc/panaroo/{tool}/prepare/{sample}.gff",
         tool=wildcards.tool,
         sample=samples.index,
     )
+
+
+def get_panaroo_fasta(wildcards):
+    return expand(
+        "results/qc/panaroo/{tool}/prepare/{sample}.fna",
+        tool=wildcards.tool,
+        sample=samples.index,
+    )
+
+
+def get_final_input(wildcards):
+    inputs = []
+    inputs += expand(
+        "results/qc/quast/{tool}/report.txt",
+        tool=config["tool"],
+    )
+    if len(samples.index) > 1:
+        inputs += expand(
+            "results/qc/panaroo/{tool}/summary_statistics.txt",
+            tool=config["tool"],
+        )
+    return inputs
diff --git a/workflow/rules/qc.smk b/workflow/rules/qc.smk
@@ -20,7 +20,7 @@ rule quast:
             else []
         ),
         extra=config["quast"]["extra"],
-    threads: workflow.cores * 0.25
+    threads: 4
     log:
         "results/qc/quast/{tool}/quast.log",
     shell:
@@ -34,3 +34,61 @@ rule quast:
         {input.fasta} \
         > {log} 2>&1
         """
+
+
+rule prepare_panaroo:
+    input:
+        fasta="results/annotation/{tool}/{sample}/{sample}.fna",
+        gff="results/annotation/{tool}/{sample}/{sample}.gff",
+    output:
+        fasta="results/qc/panaroo/{tool}/prepare/{sample}.fna",
+        gff="results/qc/panaroo/{tool}/prepare/{sample}.gff",
+    conda:
+        "../envs/panaroo.yml"
+    message:
+        """--- Prepare input files for pan-genome alignment ---"""
+    params:
+        remove_source=config["panaroo"]["remove_source"],
+        remove_feature=config["panaroo"]["remove_feature"],
+    log:
+        "results/qc/panaroo/{tool}/prepare/{sample}.log",
+    shell:
+        """
+        echo 'Preparing annotation for Panaroo:' > {log};
+        echo '  - formatting seqnames in FASTA files' >> {log};
+        awk '{{ sub(/>.*\\|/, ">"); sub(/[[:space:]].*$/, ""); print }}' \
+          {input.fasta} > {output.fasta} 2>> {log};
+        echo '  - removing sequences and selected features in GFF files' >> {log};
+        awk ' /^##FASTA/ {{exit}} $2 !~ /{params.remove_source}/ && $3 !~ /{params.remove_feature}/ {{print}}' \
+          {input.gff} > {output.gff} 2>> {log}
+        """
+
+
+rule panaroo:
+    input:
+        gff=get_panaroo_gff,
+        fasta=get_panaroo_fasta,
+    output:
+        stats="results/qc/panaroo/{tool}/summary_statistics.txt",
+    conda:
+        "../envs/panaroo.yml"
+    message:
+        """--- Running PANAROO to create pangenome from all annotations ---"""
+    params:
+        outdir=lambda wc, output: os.path.dirname(output.stats),
+        extra=config["panaroo"]["extra"],
+    threads: 4
+    log:
+        "results/qc/panaroo/{tool}/panaroo.log",
+    shell:
+        """
+        printf '%s\n' {input.gff} | \
+          paste -d ' ' - <(printf '%s\n' {input.fasta}) \
+          > {params.outdir}/input_files.txt;
+        panaroo \
+          -i {params.outdir}/input_files.txt \
+          -o {params.outdir} \
+          -t {threads} \
+          {params.extra} \
+          > {log} 2>&1
+        """