Ricerca_Stringa_PDF

Questo script permette di cercare una stringa o una REGEX all’interno di uno o più file PDF, con possibilità di analizzare intere cartelle in modo ricorsivo. Alla fine genera automaticamente due file di report:

File con la stringa.txt
File senza stringa.txt

L’obiettivo è offrire un tool semplice, immediato e utilizzabile da terminale senza configurazioni complicate.

✨ Funzionalità principali

✔️ Estrazione testo dai PDF tramite PyPDF2
✔️ Ricerca case-insensitive
✔️ Modalità REGEX opzionale
✔️ Supporto a:
singolo PDF
cartella
ricerca ricorsiva nelle sottocartelle
✔️ Barra di progresso con tqdm
✔️ Gestione robusta degli errori
✔️ Generazione automatica dei file:
File con la stringa.txt
File senza stringa.txt

📦 Requisiti

Installazione dei pacchetti necessari:

pip install PyPDF2 tqdm

▶️ Utilizzo

Esegui lo script normalmente:

python3 cerca_pdf.py

Ti guiderà passo passo:

Ti chiederà se vuoi usare una REGEX
Inserirai la stringa o il pattern
Indicherai un PDF singolo o una cartella
Lo script eseguirà la scansione e genererà i due file di output

📁 Output generati

Alla fine dell’analisi troverai nella cartella di lavoro:

File con la stringa.txt

Contiene tutti i PDF in cui la stringa/regex è stata trovata.
File senza stringa.txt

Contiene tutti i PDF in cui non è stata trovata.

📄 Esempio di esecuzione

— Ricerca stringa/REGEX nei PDF (ricorsiva) —

Vuoi usare una REGEX? [s/N]: s
1) Inserisci la REGEX da cercare: fattura\s+\d+
2) Inserisci percorso PDF o cartella: ./documenti/

📄 PDF trovati: 128

Analisi PDF (REGEX): 100%|█████████████████████| 128/128 [00:08]

— RISULTATO —
✔ File con la stringa/regex: 47 → File con la stringa.txt
✘ File senza: 81 → File senza stringa.txt

Fatto! Report generati.

🧩 Struttura del codice

Lo script è organizzato in moduli funzionali:

Estrazione testo PDF
Ricerca semplice
Ricerca REGEX
Scansione ricorsiva delle cartelle
Flusso guidato via terminale
Entrypoint if name == "main":

Name		Name	Last commit message	Last commit date
Latest commit History 7 Commits
.github/workflows		.github/workflows
README.md		README.md
main.py		main.py
requirements.txt		requirements.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

Ricerca_Stringa_PDF

✨ Funzionalità principali

📦 Requisiti

▶️ Utilizzo

📁 Output generati

📄 Esempio di esecuzione

🧩 Struttura del codice

About

Uh oh!

Releases 4

Packages

Languages

Mattemn97/Ricerca_Stringa_PDF

Folders and files

Latest commit

History

Repository files navigation

Ricerca_Stringa_PDF

✨ Funzionalità principali

📦 Requisiti

▶️ Utilizzo

📁 Output generati

📄 Esempio di esecuzione

🧩 Struttura del codice

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases 4

Packages 0

Languages

Packages