Cómo unir varios documentos PDF, extraer páginas y mucho más |

Una amiga me comentaba hace unos días la necesidad de crear un documento en PDF a partir de muchos documentos PDF sueltos, tenía que entregar un trabajo en PDF y lo tenía hecho página por página. Busqué por internet y encontré una solución simple: una utilidad llamada PdfTk que es libre (GPL) y multiplataforma (funciona en GNU/Linux, FreeBSD, Solaris, Mac OS X y Windows), y además nos permite hacer muchas más cosas, aquí la lista:

Unir distintos PDFs en uno solo
Dividir un PDF para extraer sus páginas
Rellenar formularios PDF
Extraer los metadatos
Extraer los archivos adjuntos de un documento PDF
Reparar PDFs corruptos cuando es posible
Cifrar/descifrar documentos mediante contraseña
Aplicar una marca de agua al fondo del documento
etc

Este programa funciona en línea de comandos (hay una GUI que no es oficial y que yo no he probado). Lo que viene a continuación son algunos ejemplos prácticos de las opciones que yo he probado, que són las más básicas, lo demás lo probaré el dia que lo necesite:

Unir distontos documentos PDF en un documento PDF final:

$ pdftk doc1.pdf doc2.pdf doc3.pdf cat output doc-unido.pdf

También podríamos usar comodines (*, ?, [a-z], etc), este es el ejemplo más sencillo:

$ pdftk doc?.pdf cat output doc-unido.pdf

Incluso podemos usar variables, esto es tremendamente útil si lo usamos en scripts o si el comando se vuelve realmente largo. Además nos permite seleccionar páginas concretas de cada documento. En el siguiente ejemplo crearemos un documento combinado que contendrá las 3 primeras páginas de doc1.pdf, las 2 primeras de doc2.pdf y la cuarta de doc3.pdf:

$ pdftk  A=doc1.pdf B=doc2.pdf C=doc3.pdf cat A1-3 B1-2 C4 output doc-combinado.pdf

Podemos usar este sistema para invertir las páginas de un documento, en este caso supondremos que doc1.pdf tiene 5 páginas:

$ pdftk A=doc1.pdf cat A5-1 output doc1-inverso.pdf

Incluso podemos extraer por separado todas las páginas de un PDF. Este comando crea archivos con nombres pg_01.pdf, pg_02.pdf, etc… y otro archivo llamado doc_data.txt con los metadatos del PDF en nuestro directorio actual.

$ pdftk doc1.pdf burst

Si sólo queremos extraer los metadatos del documento, como por ejemplo el programa que se usó para crear el PDF, la fecha de creación, autor, número de páginas, etc podemos usar el parámetro dump_data:

$ pdftk doc1.pdf dump_data output metadatos.txt

Esto sólo es el principio, no olvidéis consultar la página man para más información, podéis ojearla online. Espero que os haya sido de utilidad.

5 thoughts on “Cómo unir varios documentos PDF, extraer páginas y mucho más”

Raist January 25, 2008 at 2:35 pm

Una herramienta muy interesante , tomo nota .
fany April 20, 2009 at 11:39 am

Buenos días,
Podrias ponerme el enlace para descargarme el programa, ya que me he descargado varias cosas de la pagina y no entiendo nada, ya que no aparece ningun ejecutable.
Un salduo y gracias por adelantado.
admin April 20, 2009 at 11:50 am

Es que eso depende del sistema operativo que estés usando. Si no usas ninguno de los muchos que hay en esa lista (windows, macosx, debian, ubuntu, suse, gentoo, freebsd), puedes descargar el código fuente (sección Source) y compilarlo tu misma. Pero si usas GNU/Linux, raro sería que tu distribución no lo incorpore por defecto en sus repositorios. Si necesitas ayuda dime en qué sistema estás intentando instalarlo.
Ana June 17, 2009 at 11:49 am

Gracias, me ha venido genial.
Informático de Guardia July 28, 2009 at 10:32 pm

Aunque pdftk es una herramienta excepcional hay ocasiones en las que no tienes permisos de administración (y pdftk no suele venir por defecto).

Para dichas ocasiones suelo usar pdfSam, una herramienta libre, portable y multiplataforma para el trabajo con pdfs.

Un saludo y enhorabuena por el blog [ directo a mi lector de RSS ]

Comments are closed.