scieloorg · robertatakenaka · Nov 22, 2025 · Nov 22, 2025 · Nov 22, 2025 · Copilot
diff --git a/scielo_classic_website/spsxml/sps_xml_body_pipes.py b/scielo_classic_website/spsxml/sps_xml_body_pipes.py
@@ -4,6 +4,7 @@
 import os
 from copy import deepcopy
 from io import StringIO
+import re
 
 import plumber
 from lxml import etree as ET
@@ -19,20 +20,50 @@
     "e": "disp-formula",
 }
 
-
-ELEM_NAME = {
+LABEL_INITIAL_TO_ELEMENT = {
     "t": "table-wrap",
     "f": "fig",
     "e": "disp-formula",
-    "c": "table-wrap",
+    "c": "table-wrap", # cuadro
+    "a": "app", # appendix, anexo
 }
 
+FILENAME_TO_ELEMENT = {}
+FILENAME_TO_ELEMENT.update(LABEL_INITIAL_TO_ELEMENT)
+FILENAME_TO_ELEMENT["i"] = "fig"
+
 
 ELEM_AND_REF_TYPE = {
     "table-wrap": "table",
 }
 
 
+def get_letter_and_number(codigo):
+    """
+    Verifica se a string inteira corresponde exatamente ao padrão:
+    [Letra (maiúscula/minúscula)][Um ou mais dígitos].
+    Se corresponder (ex: 'f1', 'A99'), retorna a string original.
+    Se não corresponder (ex: '1f', 'f1a'), retorna None.
+    """
+
+    # Expressão Regular: r"^[a-zA-Z]\d+$"
+    # ^: Início da string
+    # [a-zA-Z]: Exatamente uma letra
+    # \d+: Um ou mais dígitos
+    # $: Fim da string
+    regex = r"^[a-zA-Z]\d+$"
+
+    # re.fullmatch() verifica se a string inteira corresponde ao padrão
+    match = re.fullmatch(regex, codigo)
+
+    if match:
+        # Se o padrão casar com a string inteira, retorna o valor original
+        return codigo
+    else:
+        # Caso contrário, retorna None
-    # Expressão Regular: r"^[a-zA-Z]\d+$"
-    # ^: Início da string
-    # [a-zA-Z]: Exatamente uma letra
-    # \d+: Um ou mais dígitos
-    # $: Fim da string
-    regex = r"^[a-zA-Z]\d+$"
-    
-    # re.fullmatch() verifica se a string inteira corresponde ao padrão
-    match = re.fullmatch(regex, codigo)
-    
-    if match:
-        # Se o padrão casar com a string inteira, retorna o valor original
-        return codigo
-    else:
-        # Caso contrário, retorna None
+    # Regular Expression: r"^[a-zA-Z]\d+$"
+    # ^: Start of string
+    # [a-zA-Z]: Exactly one letter
+    # \d+: One or more digits
+    # $: End of string
+    regex = r"^[a-zA-Z]\d+$"
+    
+    # re.fullmatch() checks if the entire string matches the pattern
+    match = re.fullmatch(regex, codigo)
+    
+    if match:
+        # If the pattern matches the entire string, return the original value
+        return codigo
+    else:
+        # Otherwise, return None
-    # Expressão Regular: r"^[a-zA-Z]\d+$"
-    # ^: Início da string
-    # [a-zA-Z]: Exatamente uma letra
-    # \d+: Um ou mais dígitos
-    # $: Fim da string
-    regex = r"^[a-zA-Z]\d+$"
-    
-    # re.fullmatch() verifica se a string inteira corresponde ao padrão
-    match = re.fullmatch(regex, codigo)
-    
-    if match:
-        # Se o padrão casar com a string inteira, retorna o valor original
-        return codigo
-    else:
-        # Caso contrário, retorna None
+    # Regular Expression: r"^[a-zA-Z]\d+$"
+    # ^: Start of string
+    # [a-zA-Z]: Exactly one letter
+    # \d+: One or more digits
+    # $: End of string
+    regex = r"^[a-zA-Z]\d+$"
+    
+    # re.fullmatch() checks if the entire string matches the pattern
+    match = re.fullmatch(regex, codigo)
+    
+    if match:
+        # If the pattern matches the entire string, return the original value
+        return codigo
+    else:
+        # Otherwise, return None
+        return None
+
+
 class XMLBodyAnBackConvertException(Exception): ...
 
 
@@ -257,6 +288,7 @@ def convert_html_to_xml_step_4(document):
     # logging.info("convert_html_to_xml - step 4")
     ppl = plumber.Pipeline(
         StartPipe(),
+        ReplaceIdhrefAndRidhrefByIdPipe(),
         DivIdToAssetPipe(),
         XRefTypePipe(),
         InsertGraphicInFigPipe(),
@@ -831,7 +863,7 @@ def parser_node(self, node, journal_acron):
         if "img/revistas/" in href or ".." in href:
             return self._create_internal_link_to_asset_html_page(node)
 
-        if journal_acron and journal_acron in href:
+        if journal_acron and f"/{journal_acron}/" in href.lower():
             return self._create_internal_link_to_asset_html_page(node)
 
         if ":" in href:
@@ -950,7 +982,32 @@ def transform(self, data):
     def _extract_xref_text(self, xref_element):
         return " ".join(xref_element.xpath(".//text()")).strip()
 
-    def _extract_rid(self, href, pkg_name, label_text, label_number):
+    def get_rid_from_xref_label_and_number(self, label_text, label_number):
+        """
+        Gera o rid a partir do label_text e label_number.
+
+        Args:
+            label_text: Texto do label (e.g., 'Table', 'Figure')
+            label_number: Número do label (e.g., '1', '2')
+
+        Returns:
+            String com o rid ou None
+        """
+        if not label_text:
-        if not label_text:
+        if not label_text or label_text == "":
-        if not label_text:
+        if not label_text or label_text == "":
+            return None
+
+        element_prefix = label_text[0].lower()
+        if not label_number:
+            return element_prefix
+
+        if label_number.isdigit():
+            return f"{element_prefix}{label_number}"
+
+        if label_number[:-1].isdigit() and  label_number[-1].isalpha():
-        if label_number[:-1].isdigit() and  label_number[-1].isalpha():
+        if len(label_number) > 1 and label_number[:-1].isdigit() and label_number[-1].isalpha():
-        if label_number[:-1].isdigit() and  label_number[-1].isalpha():
+        if label_number[:-1].isdigit() and label_number[-1].isalpha():
-        if label_number[:-1].isdigit() and  label_number[-1].isalpha():
+        if len(label_number) > 1 and label_number[:-1].isdigit() and label_number[-1].isalpha():
-        if label_number[:-1].isdigit() and  label_number[-1].isalpha():
+        if label_number[:-1].isdigit() and label_number[-1].isalpha():
+            return f"{element_prefix}{label_number[:-1]}"
+        return None
+
+    def get_rid_from_href_and_pkg_name(self, href, pkg_name):
         """
         Extrai o rid a partir do href e nome do pacote.
 
@@ -961,45 +1018,48 @@ def _extract_rid(self, href, pkg_name, label_text, label_number):
         Returns:
             String com o rid ou None
         """
-        if label_text and label_number and label_number.isdigit():
-            try:
-                return ELEM_NAME.get(label_text[0].lower())[0] + str(label_number)
-            except (IndexError, AttributeError, ValueError):
-                pass
-
         basename = os.path.basename(href)
         filename, _ = os.path.splitext(basename)
         if filename.startswith(pkg_name):
-            rid = filename.replace(pkg_name, "")
-            if rid:
-                return rid
-
-        greater_pos = -1
-        rid = None
-        for k, v in ELEM_NAME.items():
-            position = filename.rfind(k)
-            if position > greater_pos:
-                rid = k
-                greater_pos = position
-        if rid:
-            rid = filename[greater_pos:]
-            return rid
-        return filename
-
-    def parse_xref_text(self, xref_text, label_text):
-        # Tables 1-3
-        parts = xref_text.split(" ")
-
-        if len(parts) == 1 and parts[0][0].isdigit():
-            return label_text, parts[0]
-
-        if len(parts) == 1:
-            return label_text, None
+            filename = filename.replace(pkg_name, "")
-            filename = filename.replace(pkg_name, "")
+            filename = filename[len(pkg_name):]
-            filename = filename.replace(pkg_name, "")
+            filename = filename[len(pkg_name):]
+            if not filename:
+                return None
+        return get_letter_and_number(filename)
 
-        if len(parts) == 2 and parts[-1][0].isdigit():
-            return parts[0], parts[-1]
+    def _extract_filename(self, href):
+        basename = os.path.basename(href)
+        filename, ext = os.path.splitext(basename)
+        return filename, ext
 
-        return None, None
+    def get_label_text_and_number_from_xref_text(self, xref_text, label_text):
+        # Tables 1-3
+        if not xref_text:
+            return None, None
+
+        parts = xref_text.split()
+
-
+        if not parts:
+            return None, None
-
+        if not parts:
+            return None, None
+        # first character of last part
-        # first character of last part
+        # first character of last part
+        if not parts or not parts[-1]:
+            return parts[0] if parts else None, None
-        # first character of last part
+        # first character of last part
+        if not parts or not parts[-1]:
+            return parts[0] if parts else None, None
+        expected_number = parts[-1]
+        if expected_number[0].isdigit():
+            if len(parts) == 2:
+                return parts[0], expected_number
+            if len(parts) == 1:
+                return label_text, expected_number
+        return parts[0], None
+
+    def get_element_name(self, label_text, rid, ext):
+        element_name = None
+        if label_text:
+            label_initial = label_text[0].lower()
+            element_name = LABEL_INITIAL_TO_ELEMENT.get(label_initial)
+        elif rid:
+            element_name = FILENAME_TO_ELEMENT.get(rid[0])
+        if not element_name:
+            if ext in (".pdf", ".doc", ".docx", ".xls", ".xlsx", ".ppt", ".pptx", ".html", ".htm"):
+                element_name = "supplementary-material"
+        if not element_name:
+            element_name = "element"
+        return element_name
 
     def parser_xref_parent(self, xref_parent, root, pkg_name):
         label_text = None
@@ -1020,19 +1080,37 @@ def parser_xref_parent(self, xref_parent, root, pkg_name):
                 logging.error("XRefSpecialInternalLinkPipe - no href found")
                 continue
 
-            label_text, label_number = self.parse_xref_text(xref_text, label_text)
+            basename, ext = self._extract_filename(href)
+            child.set("filebasename", basename)
 
-            rid = self._extract_rid(href, pkg_name, label_text, label_number)
-            child.set("rid", rid)
-            element_name = ELEM_NAME.get(rid[0]) or "fig"
+            label_text, label_number = self.get_label_text_and_number_from_xref_text(xref_text, label_text)
+            rid = self.get_rid_from_xref_label_and_number(label_text, label_number)
+            if not rid:
+                rid = self.get_rid_from_href_and_pkg_name(href, pkg_name)
+            if rid:
+                child.set("rid-href", rid)
+
+            element_name = self.get_element_name(label_text, rid, ext)
+            child.set("ref-type", ELEM_AND_REF_TYPE.get(element_name) or element_name)
             try:
-                found = root.xpath(f"//*[@id='{rid}']")[0]
+                xpath = f"//*[@filebasename='{basename}']"
+                if rid:
+                    xpath = f"//*[@id='{rid}' | @filebasename='{basename}']"
-                    xpath = f"//*[@id='{rid}' | @filebasename='{basename}']"
+                    xpath = f"//*[@id='{rid}' and @filebasename='{basename}']"
-                    xpath = f"//*[@id='{rid}' | @filebasename='{basename}']"
+                    xpath = f"//*[@id='{rid}' and @filebasename='{basename}']"
+                found = root.xpath(xpath)[0]
-                xpath = f"//*[@filebasename='{basename}']"
-                if rid:
-                    xpath = f"//*[@id='{rid}' | @filebasename='{basename}']"
-                found = root.xpath(xpath)[0]
+                if rid:
+                    xpath = "//*[@id=$rid or @filebasename=$basename]"
+                    found_nodes = root.xpath(xpath, rid=rid, basename=basename)
+                else:
+                    xpath = "//*[@filebasename=$basename]"
+                    found_nodes = root.xpath(xpath, basename=basename)
+                found = found_nodes[0]
-                xpath = f"//*[@filebasename='{basename}']"
-                if rid:
-                    xpath = f"//*[@id='{rid}' | @filebasename='{basename}']"
-                found = root.xpath(xpath)[0]
+                if rid:
+                    xpath = "//*[@id=$rid or @filebasename=$basename]"
+                    found_nodes = root.xpath(xpath, rid=rid, basename=basename)
+                else:
+                    xpath = "//*[@filebasename=$basename]"
+                    found_nodes = root.xpath(xpath, basename=basename)
+                found = found_nodes[0]
+                if not found.get("filebasename"):
+                    found.set("filebasename", basename)
+                if not found.get("id") and not found.get("id-href") and rid:
+                    found.set("id-href", rid)
+
             except IndexError:
                 new_elem = ET.Element(element_name)
-                new_elem.set("id", rid)
+                if rid:
+                    new_elem.set("id-href", rid)
+                new_elem.set("filebasename", basename)
 
                 elem_label = ET.Element("label")
                 new_elem.append(elem_label)
+                elem_label.text = xref_text
 
                 g = ET.Element("graphic")
                 g.set("{http://www.w3.org/1999/xlink}href", href)
@@ -1042,7 +1120,9 @@ def parser_xref_parent(self, xref_parent, root, pkg_name):
 
             child.attrib.pop("is_internal_link_to_asset_html_page")
 
-        for child in reversed(children):
+        # Sort children by rid before inserting
-        # Sort children by rid before inserting
+        # Sort children by filebasename before inserting
-        # Sort children by rid before inserting
+        # Sort children by filebasename before inserting
+        children_sorted = sorted(children, key=lambda x: x.get("filebasename"))
+        for child in children_sorted:
             node = ET.Element(xref_parent.tag)
             node.append(child)
             xref_parent.addnext(node)
@@ -1157,14 +1237,19 @@ def parser_node(self, node):
         graphic = sibling.find(".//graphic")
         if graphic is None and table is None:
             return
+
+        elem = None
         if graphic is not None:
             node.append(deepcopy(graphic))
             elem = graphic
         elif table is not None:
             node.append(deepcopy(table))
             elem = table
-        parent = elem.getparent()
-        parent.remove(elem)
+
+        if elem is not None:
+            parent = elem.getparent()
+            if parent is not None:
+                parent.remove(elem)
 
     def transform(self, data):
         raw, xml = data
@@ -1341,6 +1426,43 @@ def transform(self, data):
         return data
 
 
+class ReplaceIdhrefAndRidhrefByIdPipe(plumber.Pipe):
+    """
+    Transforma div em table-wrap ou fig.
+    """
+    def replace_rid_href_by_id(self, node, xml):
+        node_id = node.get("id")
+        filebasename = node.get("filebasename")
+        for xref in xml.xpath(f".//*[@rid and @filebasename='{filebasename}']"):
+            xref.set("rid", node_id)
+            xref.attrib.pop("rid-href", None)
+            xref.attrib.pop("filebasename", None)
+        node.attrib.pop("filebasename", None)
+        node.attrib.pop("id-href", None)
+
+    def create_rid_from_filebasename(self, node, rid=None):
+        node.set("rid", node.attrib.pop("filebasename"))
+        node.attrib.pop("rid-href", None)
+
+    def create_id_from_filebasename(self, node, xml):
+        node.set("id", node.attrib.pop("filebasename"))
+        node.attrib.pop("rid-href", None)
+
+    def transform(self, data):
+        raw, xml = data
+        for node in xml.xpath(".//*[@filebasename and @id]"):
+            self.replace_rid_href_by_id(node, xml)
+
+        for node in xml.xpath(".//*[not(@rid) and @rid-href and @filebasename]"):
+            self.create_rid_from_filebasename(node, xml)
+
+        for node in xml.xpath(".//*[not(@id) and @id-href and @filebasename]"):
+            self.create_id_from_filebasename(node, xml)
+
+
+        return data
+
+
 class InsertCaptionAndTitleInTableWrapPipe(plumber.Pipe):
     """
     Insere caption dentro de table-wrap.