Project Files

docs

initial-docs

ANNOTATE-IMAGE-DETECTION.md

MEMORIZE-DOC-IMAGES.md

SETUP.md

USER-DOCS.md

CHANGELOG.md

DEPLOYMENT.md

USER_GUIDE.md

python

docling_parser.py

extract_image_page.py

pymupdf_parser.py

requirements.txt

src

documents

parsers

pdfParser.ts

textParser.ts

fileWatcher.ts

loader.ts

fpzip

decompress.ts

fpzip_bridge.cpp

fpzip_loader.ts

fpzip_wasm.js

fpzip_wasm.wasm

package.json

helpers

documentImages.ts

drawBboxesOnImage.ts

embedLocalImages.ts

frontmatter.ts

globalConfigReader.ts

pngMetadata.ts

readPngMetadata.ts

sequenceExtractor.ts

toolProgress.ts

videoAssembler.ts

visionCapabilityPrimer.ts

visionPromotionLog.ts

rag

bm25.ts

chunker.ts

embeddings.ts

retriever.ts

retrieverSingleton.ts

vectorStore.ts

services

chatExporter.ts

lmStudioVisionAnalyzer.ts

toolResultHarvester.ts

userDocsGuidePrimer.ts

sources

adapters

githubMarkdownSourceAdapter.ts

huggingFaceMarkdownSourceAdapter.ts

lmStudioConversationSourceAdapter.ts

staticHtmlSourceAdapter.ts

http.ts

lmStudioConversationMarkdown.ts

normalizer.ts

registry.ts

remoteImageResolver.ts

types.ts

tools

analyse_image.ts

annotate_image.ts

detect_object.ts

export_doc.ts

extract_image.ts

fetch_image.ts

find_doc.ts

forget_doc.ts

memorize_doc.ts

read_config.ts

read_doc.ts

rewrite_doc.ts

show_image.ts

skip_doc.ts

types

external-shims.d.ts

utils

language.ts

pythonRunner.ts

ragLogger.ts

ragVenvSetup.ts

config.ts

core-bundle.mjs

index.ts

orchestrator.ts

promptPreprocessor.ts

thinkingToolCallParser.ts

toolsProvider.ts

types.ts

.gitignore

.lmsignore

.npmignore

.swcrc

build.mjs

LICENSE

manifest.json

mcp-shims.d.ts

package-lock.json

package.json

README.md

rollup.config.mjs

tsconfig.json

python / pymupdf_parser.py

#!/usr/bin/env python3
"""
PyMuPDF-based PDF parser for robust text extraction.
Fallback for when Docling misses content due to encoding issues.
"""

import sys
import json
import traceback

def parse_pdf(file_path: str) -> dict:
    """Parse PDF using PyMuPDF (fitz) for robust text extraction."""
    try:
        import fitz  # PyMuPDF
    except ImportError:
        return {
            "success": False,
            "error": "PyMuPDF not installed. Run: pip install pymupdf"
        }
    
    try:
        doc = fitz.open(file_path)
        
        # Extract text from all pages
        full_text = ""
        for page_num, page in enumerate(doc):
            text = page.get_text("text")  # Plain text extraction
            if text.strip():
                full_text += f"\n--- Page {page_num + 1} ---\n"
                full_text += text
        
        # Get metadata BEFORE closing document!
        metadata = doc.metadata or {}
        title = metadata.get("title", "")
        page_count = doc.page_count
        char_count = len(full_text)
        
        # Clean up
        doc.close()
        
        return {
            "success": True,
            "content": full_text.strip(),
            "metadata": {
                "title": title if title else None,
                "page_count": page_count,
                "char_count": char_count
            }
        }
        
    except Exception as e:
        return {
            "success": False,
            "error": f"PyMuPDF parsing failed: {str(e)}\n{traceback.format_exc()}"
        }


def main():
    if len(sys.argv) < 2:
        print(json.dumps({
            "success": False,
            "error": "Usage: pymupdf_parser.py <pdf_path>"
        }))
        sys.exit(1)
    
    file_path = sys.argv[1]
    result = parse_pdf(file_path)
    print(json.dumps(result, ensure_ascii=False))


if __name__ == "__main__":
    main()

user-docs

user-docs