Add epub file parser (run-llama#355)

haowjy · Jerry Liu · web-flow · commit 500e40d9dc19 · 2023-02-01T23:58:36.000-08:00
Co-authored-by: Jerry Liu &lt;jerry@robustintelligence.com&gt;
diff --git a/gpt_index/readers/file/base.py b/gpt_index/readers/file/base.py
@@ -5,6 +5,7 @@
 from gpt_index.readers.base import BaseReader
 from gpt_index.readers.file.base_parser import BaseParser
 from gpt_index.readers.file.docs_parser import DocxParser, PDFParser
+from gpt_index.readers.file.epub_parser import EpubParser
 from gpt_index.readers.file.image_parser import ImageParser
 from gpt_index.readers.file.markdown_parser import MarkdownParser
 from gpt_index.readers.file.slides_parser import PptxParser
@@ -22,6 +23,7 @@
     ".mp3": VideoAudioParser(),
     ".mp4": VideoAudioParser(),
     ".csv": CSVParser(),
+    ".epub": EpubParser(),
     ".md": MarkdownParser(),
 }
 
diff --git a/gpt_index/readers/file/epub_parser.py b/gpt_index/readers/file/epub_parser.py
@@ -0,0 +1,43 @@
+"""Epub parser.
+
+Contains parsers for epub files.
+"""
+
+from pathlib import Path
+from typing import Dict
+
+from gpt_index.readers.file.base_parser import BaseParser
+
+
+class EpubParser(BaseParser):
+    """Epub Parser."""
+
+    def _init_parser(self) -> Dict:
+        """Init parser."""
+        return {}
+
+    def parse_file(self, file: Path, errors: str = "ignore") -> str:
+        """Parse file."""
+        try:
+            import ebooklib
+            from ebooklib import epub
+        except ImportError:
+            raise ValueError("`EbookLib` is required to read Epub files.")
+        try:
+            import html2text
+        except ImportError:
+            raise ValueError("`html2text` is required to parse Epub files.")
+
+        text_list = []
+        book = epub.read_epub(file, options={"ignore_ncx": True})
+
+        # Iterate through all chapters.
+        for item in book.get_items():
+            # Chapters are typically located in epub documents items.
+            if item.get_type() == ebooklib.ITEM_DOCUMENT:
+                text_list.append(
+                    html2text.html2text(item.get_content().decode("utf-8"))
+                )
+
+        text = "\n".join(text_list)
+        return text