Merge pull request #16 from VikParuchuri/dev

Fix PDF flattening
VikParuchuri · Oct 25, 2024 · 10d979b · 10d979b
2 parents c88e23c + a8605c2
commit 10d979b
Show file tree

Hide file tree

Showing 2 changed files with 3 additions and 2 deletions.
diff --git a/pdftext/extraction.py b/pdftext/extraction.py
@@ -1,3 +1,4 @@
+from itertools import repeat
 from typing import List
 from concurrent.futures import ProcessPoolExecutor
 import math
@@ -54,7 +55,7 @@ def _get_pages(pdf_path, page_range=None, flatten_pdf=False, workers=None):
     page_range_chunks = [page_range[i * pages_per_worker:(i + 1) * pages_per_worker] for i in range(workers)]
 
     with ProcessPoolExecutor(max_workers=workers, initializer=worker_init, initargs=(pdf_path, flatten_pdf)) as executor:
-        pages = list(executor.map(_get_page_range, page_range_chunks))
+        pages = list(executor.map(_get_page_range, page_range_chunks, repeat(flatten_pdf)))
 
     ordered_pages = [page for sublist in pages for page in sublist]
 

diff --git a/pyproject.toml b/pyproject.toml
@@ -1,6 +1,6 @@
 [tool.poetry]
 name = "pdftext"
-version = "0.3.17"
+version = "0.3.18"
 description = "Extract structured text from pdfs quickly"
 authors = ["Vik Paruchuri <vik.paruchuri@gmail.com>"]
 license = "Apache-2.0"