py-pdf · MartinThoma · Dec 10, 2023 · Dec 7, 2023 · Dec 8, 2023 · Dec 8, 2023
diff --git a/pypdf/_xobj_image_helpers.py b/pypdf/_xobj_image_helpers.py
@@ -4,7 +4,7 @@
 from io import BytesIO
 from typing import Any, List, Tuple, Union, cast
 
-from ._utils import logger_warning
+from ._utils import WHITESPACES, logger_warning
 from .constants import ColorSpaces
 from .errors import PdfReadError
 from .generic import (
@@ -195,7 +195,13 @@
         else:
             if img.mode == "1":
                 # Two values ("high" and "low").
-                assert len(lookup) == 2 * nb, len(lookup)
+                expected_count = 2 * nb
+                if len(lookup) != expected_count:
+                    if len(lookup) < expected_count:
+                        raise PdfReadError(f"Not enough lookup values: Expected {expected_count}, got {len(lookup)}.")
+                    lookup = lookup[:expected_count]
+                    if not all(_value in WHITESPACES for _value in lookup[expected_count:]):
+                        raise PdfReadError(f"Too many lookup values: Expected {expected_count}, got {len(lookup)}.")
                 colors_arr = [lookup[:nb], lookup[nb:]]
                 arr = b"".join(
                     [

diff --git a/tests/test_filters.py b/tests/test_filters.py
@@ -589,3 +589,12 @@ def test_flate_decode_with_image_mode_1():
     reader = PdfReader(BytesIO(get_data_from_url(url, name=name)))
     for image in reader.pages[7].images:
         _ = image
+
+
+@pytest.mark.enable_socket()
+def test_flate_decode_with_image_mode_1__whitespace_at_end_of_lookup():
+    """From #2331"""
+    url = "https://github.com/py-pdf/pypdf/files/13611048/out1.pdf"
+    name = "issue2331.pdf"
+    reader = PdfReader(BytesIO(get_data_from_url(url, name=name)))
+    reader.pages[0].images[0]