MannLabs · GeorgWa · Dec 6, 2025 · Dec 6, 2025 · Dec 6, 2025 · Dec 6, 2025
diff --git a/REFACTOR.md b/REFACTOR.md
@@ -0,0 +1,37 @@
+# Refactor TODO
+
+## PSM Reader Modification Translators
+
+✅ **IMPLEMENTED** - Replace `__call__` with explicit `translate` method in modification translator classes:
+
+- `alphabase/psm_reader/msfragger_reader.py`: `MSFraggerModificationTranslation.__call__` → `translate`
+- `alphabase/psm_reader/sage_reader.py`: `SageModificationTranslation.__call__` → `translate`
+
+Reference: https://github.com/MannLabs/alphabase/pull/XXX (PR review comment by @mschwoer)
+
+## MSFragger Custom Modification Support
+
+✅ **IMPLEMENTED** - Custom modifications via inherited `modification_mapping` parameter:
+
+```python
+reader = MSFraggerPsmTsvReader(
+    modification_mapping={
+        'Phospho@S': 'S(79.9663)',
+        'Phospho@T': 'T(79.9663)',
+        'Oxidation@M': 'M(15.9949)',
+        'TMTpro@Any_N-term': 'N-term(304.2071)',
+        'Amidated@Any_C-term': 'C-term(17.0265)',
+    }
+)
+```
+
+Keys use alphabase format (`Mod@AA`), values use MSFragger's native format (`AA(mass)` or `N-term(mass)`).
+Uses the inherited `modification_mapping` parameter from `PSMReaderBase`, which creates a `rev_mod_mapping`
+that is passed to `MSFraggerModificationTranslation`.
+
+Implementation:
+1. ✅ Use inherited `modification_mapping` parameter (same as other readers)
+2. ✅ Check `rev_mod_mapping` first before falling back to `mass_mapped_mods` from yaml
+3. ✅ Validation handled by base `ModificationMapper` class
+
+Reference: PR review comment by @lucas-diedrich
diff --git a/alphabase/psm_reader/msfragger_reader.py b/alphabase/psm_reader/msfragger_reader.py
@@ -92,7 +92,7 @@ def _parse_lookup_key(lookup_key: str, entry: str) -> Tuple[str, float]:
     return amino_acid, mass_shift
 
 
-class MSFraggerModificationTranslation:
+class MSFraggerModificationTranslator:
     """Translate MSFragger PSM.TSV modifications to alphabase format."""
 
     def __init__(
@@ -119,7 +119,7 @@ def __init__(
         self._mod_mass_tol = mod_mass_tol
         self._rev_mod_mapping = rev_mod_mapping
 
-    def __call__(self, psm_df: pd.DataFrame) -> pd.DataFrame:
+    def translate(self, psm_df: pd.DataFrame) -> pd.DataFrame:
         """Translate modifications from MSFragger assigned modifications.
 
         Parameters
@@ -386,12 +386,12 @@ def _translate_score(self) -> None:
 
     def _load_modifications(self, origin_df: pd.DataFrame) -> None:  # noqa: ARG002
         """Parse modifications from PsmDfCols.TMP_MODS column (mapped from 'Assigned Modifications')."""
-        translator = MSFraggerModificationTranslation(
+        modification_translator = MSFraggerModificationTranslator(
             mass_mapped_mods=self._mass_mapped_mods,
             mod_mass_tol=self._mod_mass_tol,
             rev_mod_mapping=self._modification_mapper.rev_mod_mapping or {},
         )
-        self._psm_df = translator(self._psm_df)
+        self._psm_df = modification_translator.translate(self._psm_df)
 
 
 class MSFraggerPepXMLReader(PSMReaderBase):

diff --git a/alphabase/psm_reader/sage_reader.py b/alphabase/psm_reader/sage_reader.py
@@ -19,7 +19,7 @@
 )
 
 
-class SageModificationTranslation:
+class SageModificationTranslator:
     """Translate Sage style modifications to alphabase style modifications."""
 
     def __init__(
@@ -60,7 +60,7 @@ def __init__(
                     "Custom translation df must have columns 'modification' and 'matched_mod_name'."
                 )
 
-    def __call__(self, psm_df: pd.DataFrame) -> pd.DataFrame:
+    def translate(self, psm_df: pd.DataFrame) -> pd.DataFrame:
         """Translate modifications in the PSMs to alphabase style modifications.
 
         1. Discover all modifications in the PSMs.
@@ -636,11 +636,11 @@ def _filter_fdr(self) -> None:
         )
 
     def _translate_modifications(self) -> None:
-        sage_translation = SageModificationTranslation(
+        modification_translator = SageModificationTranslator(
             custom_translation_df=self.custom_translation_df,
             mp_process_num=self.mp_process_num,
         )
-        self._psm_df = sage_translation(self._psm_df)
+        self._psm_df = modification_translator.translate(self._psm_df)
 
         # drop modified_sequence
         self._psm_df.drop(columns=[PsmDfCols.MODIFIED_SEQUENCE], inplace=True)

diff --git a/nbs_tests/psm_reader/sage_reader.ipynb b/nbs_tests/psm_reader/sage_reader.ipynb
@@ -27,18 +27,7 @@
    "execution_count": null,
    "metadata": {},
    "outputs": [],
-   "source": [
-    "from alphabase.psm_reader import psm_reader_provider\n",
-    "from alphabase.psm_reader.sage_reader import (\n",
-    "    SageModificationTranslation,\n",
-    "    _sage_spec_idx_from_scan_nr,\n",
-    "    _match_modified_sequence,\n",
-    "    _get_annotated_mod_df,\n",
-    "    _lookup_modification,\n",
-    "    register_readers,\n",
-    ")\n",
-    "register_readers()"
-   ]
+   "source": "from alphabase.psm_reader import psm_reader_provider\nfrom alphabase.psm_reader.sage_reader import (\n    SageModificationTranslator,\n    _sage_spec_idx_from_scan_nr,\n    _match_modified_sequence,\n    _get_annotated_mod_df,\n    _lookup_modification,\n    register_readers,\n)\nregister_readers()"
   },
   {
    "cell_type": "code",
@@ -104,38 +93,7 @@
    "execution_count": null,
    "metadata": {},
    "outputs": [],
-   "source": [
-    "df = pd.DataFrame({\n",
-    "    'modified_sequence': [\n",
-    "        '[+114.04293]-MAGTK[+114.04293]',\n",
-    "        '[+114.04293]-MAGTK[+114.04293]',\n",
-    "        '[+114.04293]-M[+15.9949]K[+42.010567]LLAR',\n",
-    "        '[+1337.0]-PEPTIDEK'\n",
-    "    ]\n",
-    "})\n",
-    "\n",
-    "custom_translation_df = pd.DataFrame({\n",
-    "    'modification': ['[+42.010567]'],\n",
-    "    'matched_mod_name': ['ThisModDoesNotExist@K']\n",
-    "})\n",
-    "\n",
-    "sage_translation = SageModificationTranslation(\n",
-    "    custom_translation_df=custom_translation_df\n",
-    "    )\n",
-    "result_df = sage_translation(df)\n",
-    "\n",
-    "assert result_df['mod_sites'].equals(pd.Series([\n",
-    "    '0;5',\n",
-    "    '0;5',\n",
-    "    '0;1;2'\n",
-    "]))\n",
-    "\n",
-    "assert result_df['mods'].equals(pd.Series([\n",
-    "    'GG@Protein_N-term;GG@K',\n",
-    "    'GG@Protein_N-term;GG@K',\n",
-    "    'GG@Protein_N-term;Oxidation@M;ThisModDoesNotExist@K'\n",
-    "]))"
-   ]
+   "source": "df = pd.DataFrame({\n    'modified_sequence': [\n        '[+114.04293]-MAGTK[+114.04293]',\n        '[+114.04293]-MAGTK[+114.04293]',\n        '[+114.04293]-M[+15.9949]K[+42.010567]LLAR',\n        '[+1337.0]-PEPTIDEK'\n    ]\n})\n\ncustom_translation_df = pd.DataFrame({\n    'modification': ['[+42.010567]'],\n    'matched_mod_name': ['ThisModDoesNotExist@K']\n})\n\nsage_translator = SageModificationTranslator(\n    custom_translation_df=custom_translation_df\n    )\nresult_df = sage_translator.translate(df)\n\nassert result_df['mod_sites'].equals(pd.Series([\n    '0;5',\n    '0;5',\n    '0;1;2'\n]))\n\nassert result_df['mods'].equals(pd.Series([\n    'GG@Protein_N-term;GG@K',\n    'GG@Protein_N-term;GG@K',\n    'GG@Protein_N-term;Oxidation@M;ThisModDoesNotExist@K'\n]))"
   },
   {
    "cell_type": "code",