OCR zur Texterkennung

Zur Extraktion des Inhalts von PDF Dokumenten wird pdftotext genutzt. Das funktioniert bei den meisten Dokumenten ausgezeichnet. Im Schweriner BIS finden sich aber auch PDFs mit gescannten Inhalten. Diese können durch pdftotext nicht extrahiert werden. Eventuell kann eine freie OCR Software für diese Fälle genutzt werden.