La combo che spakka: Writer2ePub & MyTXTCleaner

EpubA volte, quando prendo in mano l’e-reader di Siobhàn, o la guardo leggere da sopra la spalla, il mio corpo è squassato da convulsioni molto poco eleganti. Se è stata una giornata particolarmente stressante, non è insolito che crolli a terra sbavante, ripetendo con voce sommessa “l’orrore, l’orrore”.
Ora: sarò anche ossessivo (io sono di diverso avviso), ma certe cose non si possono proprio vedere. L’e-book tipico che si può trovare nel lettore della Siò è infatti un pdf formattato a culo, con a capi completamente a caso e interlinea variabile. Il risultato è quasi altrettanto fastidioso di un wall of text.

Per il bene del mio equilibrio spirituale, ho passato anni (be’, no: settimane) a battermi per avere e-book che fossero una festa per gli occhi.
Uno dei primi programmi con cui sono venuto a contatto naturalmente è Calibre, ma non sono mai rimasto particolarmente soddisfatto dalle sue conversioni. Codice sporco, a capi impazziti che dovevo correggere a mano, e altre piccole amenità che a volte fanno riflettere se valga poi la pena di convertire un pdf. Finché ho trovato due piccoli programmi semplici semplici da usare.
Calibre va bene se il file di partenza è un mobipocket, e soprattutto è utile per rimuovere gli odiosi DRM (qui il Duca spiega come). Ma in tutti gli altri casi, la soluzione ideale è la combo MyTXTCleaner + Writer2ePub. E oggi voglio spiegarvi come funzionano.

Writer2epubWriter2ePub + MyTXTCleaner
Se voglio creare un epub e il mio file di partenza è un .pdf, un .doc, un .psd, un .rtf o un .txt, allora questi due programmi saranno la mia prima scelta. In teoria questi programmi funzionano benissimo anche se il mio file di partenza è un .html; in realtà, però, in quest’ultimo caso si fa prima a utilizzare Sigil.

Cosa sono?
Sono due plug-in compatibili con i word processor OpenOffice, LibreOffice e NeoOffice 1.

A cosa serve MyTXTCleaner?
Serve a cancellare gli a capi forzati e tutte quelle stramberie di formattazione che spesso infestano i file di testo importati da un pdf. Non è un convertitore: tutto quello che fa è cancellare gli accapi che non seguano un segno di punteggiatura forte.
Nella definizione di Luke:

Vi è mai capitato di trovarvi
davanti ad un testo che
va a capo
in maniera imprevedibile e che
non riuscite in
alcun modo a sistemare, proprio
come questo?

Ciò accade perché nel testo sono presenti dei caratteri di fine paragrafo indesiderati. Se prendiamo del testo proveniente da un PDF, inevitabilmente ad ogni fine riga ci ritroveremo con un fine paragrafo.
A questo punto, o ci mettiamo lì con tanta pazienza e li cancelliamo uno per uno, riga per riga, o utilizziamo la macro MyTXTcleaner che farà il lavoro per noi.

A cosa serve Writer2ePub?
Converte i file .odt e .doc in un epub pulito e altamente personalizzabile, completo di indicizzazione, copertina e metadati.

Dove si possono scaricare?
Qui si può scaricare MyTXTCleaner; qui si può scaricare Writer2epub.

Come si usano
Per prima cosa, apriamo il nostro file con uno dei word processor sopraindicati (nel mio caso, utilizzerò LibreOffice). Se il file di partenza è in formato .doc, .rtf o .txt potrete aprirli normalmente con il programma. Se il file di partenza è un pdf, dovrete fare un banale passo in più – ossia selezionare tutto il testo contenuto nel pdf, copiarlo e incollarlo in un nuovo documento del word processor che avete scelto.

1. Pulire il file di testo
Se a questo punto, come capita 9 volte su 10, il vostro file presenta i consueti problemi di a capi e altri misteri della formattazione, cliccate sul pulsante di MyTXTCleaner e il programma farà in pochi secondi una pulizia dell’intero documento.
L’unico problema di MyTXTCleaner è che cancella anche gli accapi dopo i titoli dei capitoli, quindi bisogna poi fare un check manuale per ripristinarli.

Screenshot MyTXTCleaner

Oggi ho preso una botta in testa e ho deciso di convertire Il signore degli anelli!

2. L’indicizzazione
Se vogliamo che il nostro libro sia indicizzato per parti, capitoli e sottocapitoli, dobbiamo creare una TOC (Table of Contents).
Per far questo, i word processor ci mettono a disposizione le intestazioni (in inglese, headings). Possiamo assegnare un’intestazione a ciascuno dei capitoli del nostro libro aprendo il menu a tendina che, di default, si trova a sinistra del menu di selezione del font.
Le Intestazioni 1 sono quelle più grandi, che ricomprendono tutte le altre. Ogni Intestazione 2 sarà contenuta all’interno dell’Intestazione 1 precedente, e ogni Intestazione 3 sarà contenuta all’interno dell’Intestazione 2 precedente, e così via. In genere, utilizzo l’Intestazione 1 per il titolo del libro e per i titoli delle parti del libro, le Intestazioni 2 per i capitoli e (quando ce ne sono) le Intestazioni 3 per i sotto-capitoli. Ma ognuno può fare come più gli aggrada.
Nota: quando evidenziate un titolo per trasformarlo in intestazione, assicuratevi che non ci siano a capi. Il programma infatti riconosce l’a capo come uno stacco, quindi di fatto creerà due diverse intestazioni anziché una sola. Questo potrebbe diventare fastidioso in futuro, quando per esempio direte a Writer2ePub di creare un’interruzione di pagina ogni volta che si presenta una Intestazione1 o Intestazione2.

Screenshot02 Intestazioni

Chi usa un word processor (cioè tutti) dovrebbe già sapere cosa sia un’intestazione, ma meglio andare sul sicuro.

Non preoccupatevi dell’aspetto che prenderanno le intestazioni nel programma di testo: saranno poi modificate nella conversione in epub. Che è quanto andremo a fare adesso.

3. Settare Writer2ePub
Per prima cosa, apriamo le “Preferences” di Writer2ePub – per accedervi, cliccate sul tasto con la piccola “p” rossa accanto al simbolo “e” del programma. Qui potrete scegliere alcune delle configurazioni più importanti del vostro futuro epub; tra cui:
– Divisione dei file. Stabilisce quando il programma deve creare un’interruzione di pagina. “Prima di Intestazione 1”, per esempio, significa che quando il programma incontra un’Intestazione 1, inizia una nuova pagina con essa.
– Font. Decidete quale sarà il font del vostro epub. Uno dei limiti del Writer, infatti, è che nella conversione tutti i font del file di partenza vengono trasformati in un unico font che decidete adesso.

Screenshot03 Preferences

4. Metadati e conversione
Okay, abbiamo quasi finito; quello che rimane da fare è inserire i metadati del libro (titolo, nome dell’autore, ISBN, eccetera; anche una copertina!) e avviare la conversione. Il pulsante di mezzo fra i tre di Writer2ePub apre il menu dei metadati, ma in realtà si può inserirli direttamente in fase di conversione.
Cliccate sul pulsante più a sinistra dei tre di Writer2ePub, date un’ultima occhiata ai metadati e avviate la conversione. Fatto!

Attenzione.
La conversione mantiene le dimensioni del testo, le intestazioni, e l’uso di corsivo, grassetto, sottolineato, gli elenchi puntati e numerati, le tabelle e le immagini. Ma nient’altro: altre eventuali modifiche verranno perse nella conversione.

Screenshot04 Metadati

Il signore degli anelli è pronto a infestare il mio e-reader.

A questo punto il vostro epub è pronto; potete aprirlo e controllarlo con un programma che legge gli epub (come Sigil)2 o caricarlo direttamente nel lettore per verificare l’effetto.
Avrete un epub indicizzato come volete voi, con gli a capi decisi dall’autore invece che dalla follia della formattazione di un pdf, e con un codice sufficientemente pulito da poterci lavorare ulteriormente con altri programmi senza impazzire. Un libro di bell’aspetto migliora l’esperienza di lettura.

Tra l’altro, ho tanto preso in giro Siobhàn, ma è stata lei a iniziarmi a tutto questo. Mi ha anche dato una mano a sistemare questo articolo.
Io infatti, quando si tratta di imparare nuovi programmi, sono intellettualmente pigro; e se non fosse per lei, forse a quest’ora sarei ancora a sniffare la carta ^-^

Sniffare libri

Il vero appeal del libro di carta.

Per maggior informazioni su Writer2ePub, non mancate di visitare questa pagina.

————-

(1) Negli ultimi mesi, sia MyTXTCleaner che Writer2epub hanno cominciato ad avere problemi con OpenOffice. E’ successo a me, e poco tempo dopo anche a Siobhàn. Sospetto che questo abbia a che fare con l’ultimo aggiornamento di OpenOffice.
Per questo motivo, siamo passati da OpenOffice a LibreOffice, che al momento funziona a meraviglia.Torna su
(2) In futuro dedicherò sicuramente un articolo a Sigil, un programma per modificare gli epub che in poco tempo è diventato un altro dei miei preferiti. Ma dato che sono una persona ordinata, ho deciso di tenere separati i vari programmi in post differenti.Torna su

Annunci

16 risposte a “La combo che spakka: Writer2ePub & MyTXTCleaner

  1. Tra l’altro, ho tanto preso in giro Siobhàn, ma è stata lei a iniziarmi a tutto questo. Mi ha anche dato una mano a sistemare questo articolo.
    Io infatti, quando si tratta di imparare nuovi programmi, sono intellettualmente pigro; e se non fosse per lei, forse a quest’ora sarei ancora a sniffare la carta ^-^

    Ecco, dillo, dillo! Senza di me non saresti niente. Merito eterna gratitudineee, muahahHAHAHAHAAA!!! *O*

  2. Grazie per l’articolo!
    Sto lavorando ad una versione più avanzata di W2E, le funzioni nuove sono molte e diventerà sempre più semplice utilizzarla…
    Luke

  3. Sto lavorando ad una versione più avanzata di W2E, le funzioni nuove sono molte e diventerà sempre più semplice utilizzarla…

    Bene!

    Hai poi risolto quei problemi di compatibilità che entrambi i programmi avevano cominciato ad avere con OpenOffice?

    • Certo! I problemi di compatibilità sono stati risolti (ma MyTXTcleaner, così come lo conoscete, non verrà portato avanti).
      A breve uscirà la 1.2, con molte di quelle novità che ho annunciato.
      Luke

  4. Gli dèi siano lodati!
    Sarò sincero, ormai do importanza solo al contenuto, e anche se mi piange il cuore leggere file formattati ad minchiam o peggio ancora, coi caratteri “speciali” sostituiti da altri simboli (come – o ? o & o £ ecc.), quasi non me ne accorgo. Finché è leggibile, è ok.
    Stavo appena provando a convertire un libro secondo il tutorial, ma il .pdf in questione è così sconvolto che quando evidenzio il testo, ne ottengo solo metà, a sprazzi, come se il resto non esistesse o fosse un’immagine non cliccabile o boh.
    Temo che in casi di pdf corrotti o misteriosi, non ci sia granché da fare. Vorrei provare con altri .pdf (di solito sono i manuali che danno problemi). Vi terrò aggiornati. >.<

    P.S. Fortuna che c'è Siò. Ho consigliato il suo blog alla mia donna. Spacca.

    • @Federico: “convertire”, come scritto anche nel manuale, non è l’obiettivo di W2E.
      Il PDF è un formato di stampa, e come tale non nasce per essere ulteriormente elaborato, e per questo è così difficile estrarre i contenuti. In un PDF gli “oggetti”, immagini, paragrafi, parole, numeri di pagina (ma anche singole lettere), possono essere posizionati su una pagina in qualunque sequenza poiché è la posizione che assumeranno in stampa che importa. Ma questo significa che potenzialmente una pagina PDF il testo che contiene è una sequenza di tutte le lettere “a”, seguito da tutte le “b” e così via, tutte collocate nella corretta posizione nella pagina. Il contenuto di un PDF pertanto potrebbe anche perdere significato una vota estratto dalla pagina, come quasi sempre accade anche se non in modo così garve come nel mio paradossale esempio.

      Writer2ePub è invece stato pensato per “creare” un ePub (e dalle ultime versioni anche un Mobipocket) partendo da un contenuto già redatto e corretto. È uno strumento che aiuta a generare un codice più pulito e corretto possibile, un codice che garantisce la massima compatibilità possibile con i dispositivi di lettura oggi in commercio. Capisco che tu “non faccia caso” agli eBook mal formattati, ma chi paga 5, 10 o 15 euro per un libro digitale normalmente si infuria se si ritrova un libro illeggibile.

      E posso garantirti che di libri in vendita fatti “a mentula canis” ce ne sono molti, ed è per questo che l’eBook Club Italia sta combattendo non “contro” gli Editori, ma a favore della buona tipografia digitale…
      W2E vuole solo essere un buon strumento per aiutare tutti coloro che desiderano produrre un eBook a realizzare un prodotto che soddisfi i lettori anche dal punto di vista tipografico.

      Non per nulla molti Editori lo hanno già adottato, ed altri mi hanno contattato per usarlo nel loro processo produttivo.

      Luke

      • @Luke, non me ne intendo granché, però vedo che alcuni pdf, per esempio quelli che “produco” io stesso da un racconto breve ecc., sono abbastanza puliti, e così anche altri. In p2p spesso però si trovano quelle che credo siano delle conversioni in testo e immagini di scansioni vere e proprie, e forse questo provoca dei pdf così brutti.
        Sul discorso editoria mi trovi, com’è naturale, d’accordissimo; finora non ho avuto l’occasione di comprare alcun ebook in primis per il prezzo (ho trovato romanzi a 10, 12€!), in secundis proprio per il timore di incappare in un prodotto di scarsa qualità che non valesse il denaro speso.
        Ad ogni modo, ho seguito le indicazioni di Tapiro e ho egregiamente trasposto un .pdf mal formattato in un .epub raffinatissimo; e il bello è che ho ridotto al minimo le modifiche (un banalissimo Trova e Sostituisci alla numerazione dei capitoli, e anche MyTXTcleaner ha fatto la sua bella parte).
        Luke, hai fatto un ottimo lavoro! 😉

  5. Stavo appena provando a convertire un libro secondo il tutorial, ma il .pdf in questione è così sconvolto che quando evidenzio il testo, ne ottengo solo metà, a sprazzi, come se il resto non esistesse o fosse un’immagine non cliccabile o boh.
    Temo che in casi di pdf corrotti o misteriosi, non ci sia granché da fare.

    Se ti va, prova a passarmelo via mail e vediamo se riesco a farci qualcosa.
    Ovviamente, con i pdf fatti di copie anastatiche delle pagine non ci puoi fare molto. Ma, per esempio, se hai un pdf con parti di testo e parti di immagine (che verrebbero persi con un semplice Copia e Incolla), ci sono un paio di Pdf Converters online che funzionano decentemente. Mi ero servito di uno di essi per convertire in file di testo Rampaging Fuckers of Everything di Hansen o Breakfast of Champions su Vonnegut, che contengono molte immagini.
    Potrei anche aggiungere all’articolo un’appendice sui pdf converters.

    Writer2ePub è invece stato pensato per “creare” un ePub (e dalle ultime versioni anche un Mobipocket) partendo da un contenuto già redatto e corretto.

    Uhm… spiegami meglio questa cosa.
    Ho visto tra i menu del programma ci sarebbe questa opzione (si può vedere nel terzo screenshot), ma non mi è molto chiaro come funzioni. Se vuoi mandami una mail.

  6. tapiro, ti amo.

  7. @Tapiro: inviato. Controlla la mail e soprattutto lo spam. Appena ne vedi una del tipo: “buy cheap cialis, do you want to enlarge your penis?” ecc., quello sono io con l’indirizzo dell’ufficio.
    [joking]

  8. tapiro, ti amo.

    ^-^””

    Appena ne vedi una del tipo: “buy cheap cialis, do you want to enlarge your penis?” ecc., quello sono io con l’indirizzo dell’ufficio.

    Yummy.

    Comunque ho dato un’occhiata. Il problema sembra essere che ci sono un po’ di immagini, per cui quando fai “Seleziona tutto” e poi copi, quelle di perdono via (a volte portandosi via un po’ di testo, perché alcuni brani di testo, come le didascalie delle immagini, sono anch’esse immagini).
    In questi giorni farò una ricerca sui convertitori pdf online finché ribecco quello figo che ho usato per il libro di Hansen e ti faccio sapere se il risultato è buono.

  9. Thanks!
    Io non ci ho sbattuto più di tanto non appena ho visto che nel primo capitolo, sottolineando selettivamente dal titolo a metà pagina, ottenevo solo frammenti sparsi (e non c’era nessuna immagine).

  10. Sei un nevrotico ossessivo -.-

  11. E non hai visto la sua libreria. In ordine cronologico. Per autore. E se scambi di posto due libri se ne accorge alla prima occhiata.

  12. Oggi ho testato i due programmini per la prima volta: avevo dei bellissimi riassunti in pdf del programma scolastico di storia da ficcare sull’e-reader.
    E insomma, Writer2EPub su Openoffice non ha voluto proprio funzionare. BASIC syntax error, diceva. Beh, l’hai detto tu in primis che come combo non funzionava un granché.
    Alla fine mi sono affidata a Calibre per la conversione da rtf a epub, e ne sono rimasta soddisfatta: mi ha persino conservato le scritte in grassetto/corsivo, figo.
    Ora ho un anno di appunti sul reader e sento che studiare per la maturità sarà più semplice, grazie Tapiro o/

  13. Pingback: Abituarsi a Calibre e Sigil: Guida alla personalizzazione degli e-book | Tapirullanza

Rispondi

Inserisci i tuoi dati qui sotto o clicca su un'icona per effettuare l'accesso:

Logo WordPress.com

Stai commentando usando il tuo account WordPress.com. Chiudi sessione / Modifica )

Foto Twitter

Stai commentando usando il tuo account Twitter. Chiudi sessione / Modifica )

Foto di Facebook

Stai commentando usando il tuo account Facebook. Chiudi sessione / Modifica )

Google+ photo

Stai commentando usando il tuo account Google+. Chiudi sessione / Modifica )

Connessione a %s...