64 Estrarre il testo da un Pdf scansionato
Mnemosine Newsletter
MNEMOSINE
La newsletter di assistenza computers di Claudio Giovanelli
N. 64 - 22 Settembre 2025
LEZIONE APPROFONDIMENTO:
ESTRARRE IL TESTO DA UN PDF SCANSIONATO
Da anni occasionalmente mi viene chiesto come poter estrarre gratuitamente il testo scansionato da un file Pdf, per poterlo modificare, riutilizzare o reimpaginare. Questa funzione richiederebbe un abbonamento a pagamento ad Acrobat Pro.
L’estrazione del testo da un Pdf testuale o da un Pdf derivato da scansione ricercabile, non richiederebbe nessun accorgimento particolare. Basterebbe aprirlo con Acrobat Reader, selezionarlo, copiarlo e incollarlo in un editor di testo.
L’estrazione del testo da un Pdf testuale o da un Pdf derivato da scansione ricercabile, non richiederebbe nessun accorgimento particolare. Basterebbe aprirlo con Acrobat Reader, selezionarlo, copiarlo e incollarlo in un editor di testo.
Quasi nessuno lo sa, ma il segreto per fare la stessa operazione con un file Pdf scansionato non ricercabile, è aprilo con Chrome al posto di Acrobat Reader.
Ecco come procedere:
- Lasciando Acrobat Reader come visualizzatore predefinito, sul file Pdf fare un click col tasto destro e al menu contestuale scegliere “Apri con” e quindi scegliere “Google Chrome”
- Si aprirà il Pdf nel visualizzatore Pdf integrato in Chrome. Se il Pdf fosse di molte pagine nell’angolo in basso a sinistra comparirà “Estrazione testo dal Pdf in corso”. Avviso che potrebbe durare vari secondi in base alla lunghezza del testo presente nel Pdf. Lasciare il tempo di finire e quindi all’avviso di sparire.
- Ora tutto il testo è visualizzato ed è possibile selezionarlo cliccando in un punto con il tasto sinistro e selezionarlo trascinando il mouse. E’ consigliabile selezionarlo tutto in un colpo solo usando il semplice comando da tastiera CTRL A (ricordiamo che A sta per “All” ossia “Tutto”).
- Una volta selezionato con il tasto destro scegliere “Copia”, quindi aprire un editor di testo come Microsoft Word, Libre Office Writer o il Blocco Note integrato in Windows e fare “Incolla”.
Questo è stato possibile in quando il visualizzatore di Pdf integrato in Chrome ha anche la funzione di OCR (riconoscimento ottico dei caratteri) integrata, mentre ad esempio Edge e altri browser non ne sono provvisti.
Consiglio comunque di incollare il testo estratto nel Blocco Note in quanto ha il grande pregio di far perdere qualsiasi carattere nascosto di impaginazione e ottenere il vero Puro Testo. Poi se lo si desidera è possibile riselezionarlo tutto e incollarlo in Word o Writer per impaginarlo bene come si desidera.
Consiglio comunque di incollare il testo estratto nel Blocco Note in quanto ha il grande pregio di far perdere qualsiasi carattere nascosto di impaginazione e ottenere il vero Puro Testo. Poi se lo si desidera è possibile riselezionarlo tutto e incollarlo in Word o Writer per impaginarlo bene come si desidera.
Blocco Note si trova nelle App, ma per aprirlo subito basta fare il tasto destro anche sul desktop e al menu contestuale scegliere “Nuovo” e quindi “Documento testo”.
PDF SCANSIONATI RICERCABILI E NON RICERCABILI
Questo è un importante chiarimento che la maggior parte degli utenti non conosce. Da sempre ha creato confusione in quanto non riuscivano a capire perché il testo in alcuni Pdf era selezionabile e per altri era impossibile.
Esistono due tipologie di Pdf di testo scansionati:
- PDF RICERCABILE: è un documento scansionato che oltre all’immagine della pagina, il programma che l’ha scansionato ha riconosciuto anche il testo contenuto usando la tecnologia OCR. Nel Pdf ricercabile il testo può essere selezionato, copiato ed è anche possibile ricercare un termine all’interno del testo stesso. Questo avviene in quando il programma di scansione dotato di OCR ha generato il Pdf che oltre all’immagine ha integrato anche il testo “sotto” l’immagine rendendolo invisibile all’utente, ma permettendo al software di interpretare e utilizzare il contenuto testuale.
- PDF NON RICERCABILE: è un documento scansionato che contiene solo l’immagine della pagina. Il metodo spiegato prima consente di estrarre il testo proprio da questa tipologia di Pdf
Questa soluzione è molto semplice, veloce e soprattutto pulita in quanto non richiede l'installazione di nessun tipo di software aggiuntivo.
Questa soluzione è facile da ricordare anche perché immagino nell'immediato non serva quasi a nessuno, ma potrà capitare in futuro di esservi molto utile.
ATTENZIONE: PER CHI STA USANDO ANCORA WINDOWS 10
Il 14 ottobre 2025, quindi il fine supporto di Windows 10, è ormai vicino.
Chi ha un computer compatibile con WINDOWS 11, ma ha finora rimandato l'aggiornamento ed è rimasto con WINDOWS 10 è consigliabile da subito passare a Windows 11 e ovviamente potete contattarmi.
Chi invece ha un computer vecchiotto con Windows 10 e non compatibile con Windows 11, consiglio di contattarmi per verificare cosa fare e valutare il passaggio a un computer nuovo al più presto finché i prezzi sono ancora particolarmente bassi e non aspettare assolutamente i prossimi mesi, quando milioni di persone in tutto il mondo essendo costrette, decideranno di cambiare il computer!
Troverete direttamente nel menu del mio sito la voce "Notebook nuovi in vendita" in cui saranno sempre presenti la mia selezione di notebook nuovi in vendita aggiornati con tutti i dettagli.
IMPORTANTE: per chi non l'avesse ancora letto cliccare su "Fine supporto di Windows 10 il 14 ottobre 2025"