Forum

JiFile per Joomla!

JIFile
JiFile è una componente per Joomla! che permette di indicizzare il contenuto dei file(PDF, DOC, ecc.) per poter effettuare delle ricerche al loro interno.

Scopri di più...  Demo

JoomPhoto Mobile

JPhotoMobile
JoomPhoto Mobile è una componente per Joomla! che ti permette di condividere le foto dal tuo dispositivo Android sul tuo portale Joomla!.

Scopri di più...  Demo

iFile Framework

IFile
IFile è un framework open source scritto interamente in PHP, permette l'indicizzazione dei contenuti testuali di un documento (DOC, PDF, EXCEL, etc) e una rapida ricerca all'interno degli stessi.

Scopri di più...  Demo

Easy Language

EasyLanguage
Easy Language è un plugin per la gestione semplice ed immediata di testi multilingua in ogni parte possibile di joomla, articoli, componenti, moduli, metadata, template, altri componenti(esempio K2) ecc.

Scopri di più...

Article Book Effect

Article Book Effect
Visualizza gli articoli di Joomla con l'effetto volta pagina di un libro. Questo plugin consente di visualizzare il contenuto di un articolo Joomla come un vero e proprio libro o una rivista, utilizzando tutti i vantaggi di HTML5

Scopri di più...  Demo

 

Fototessera

Article Book Effect
La più famosa Android App che ti permette di stampare le foto tessere per i tuoi documenti con il tuo smartphone Android, in modo semplice ed intuitivo.

Scopri di più...

 

Ombra pazza 3D

Ombra pazza 3D
Ombra Pazza è il puzzle game 3D frenetico e divertente per Android! Prova a ruotare le forme portandole nella posizione delle proprie ombre senza mai fallire! Risolvi una dopo l'altra tutte le combinazioni dei livelli di gioco.

Scopri di più...

 

Admin Countdown

Admin Countdown
Modulo per Joomla! 2.5 e 3.x visualizza nella parte di amministrazione del sito, un timer con il conto alla rovescia del tempo rimanente della tua sessione.

Scopri di più...  Demo

 
Benvenuto, Ospite
Nome utente: Password: Ricordami

ARGOMENTO: Indicizzare un documento PDF con IFile

Indicizzare un documento PDF con IFile 19/03/2012 16:57 #280

  • Giampaolo
  • Avatar di Giampaolo
  • OFFLINE
  • Administrator
  • Messaggi: 458
  • Ringraziamenti ricevuti 41
Analizzando i topic scritti per JiFile e IFile, ho notato che il problema principale è la mancata indicizzazione dei documenti in formato PDF.
Nella maggior parte dei casi, questo è dovuto ad un problema di encoding del testo recuperato.
Di seguito alcune informazioni importanti per poter utilizzare al meglio il processo di indicizzazione di questi documenti.

Ho pensato di strutturare il tutto come una FAQ in modo che possa essere più semplice trovare le risposte alle domande più comuni.

- Cosa usa IFile per il recupero del testo di un documento PDF?
IFile (e quindi anche JiFile che lo utilizza) usa la XPDF per il recupero dei contenuti testuali da un documento PDF.
Vedi: www.foolabs.com/xpdf/download.html

- Che versione di XPDF utilizza IFile?
Dalla versione 1.1.4 di IFile è stata integrata la 3.0.3

- Con che tipo di Encoding vengono recuperati i testi dai documenti PDF mediante la XPDF?
La XPDF di default recupera e ritorna il testo con formato "Latin 1" (ISO-8859-1).

- E' possibile modificare il tipo di encoding della XPDF?
E' possibile modificare il tipo di encoding per il recupero dei testi con la XDPF dalla versione 1.1.4 di IFile.

- Come posso modificare il tipo di encoding della XPDF?
Per poter modificare il tipo di enconding della XPDF deve essere modificato il file "xpdfrc" (presente dalla versione 1.1.4 di IFile) che si trova nella cartella "/adapter/helpers/binaries/xpdfrc/".
Ad esempio se si vuole lavorare con documenti che hanno un encoding UTF-8, il file "xpdfrc" deve essere modificato con un normale editor di testo andando ad aggiungere la seguente riga:

textEncoding UTF-8

In questo modo la XPDF ritorna il testo in formato UTF-8.
Maggiori dettagli sull'utilizzo del file "xpdfrc" sono descritti nei file allegati:

Questo allegato è nascosto ai visitatori. Prego accedi o registrati per visualizzarli.


Questo allegato è nascosto ai visitatori. Prego accedi o registrati per visualizzarli.


- Perchè se indicizzo un documento in formato diverso da quello dell'analyzer mi tronca il testo?
Il problema deriva dal fatto che quando le librerie di Lucene cercano di indicizzare il testo di un documento se si utilizza un encoding non corretto il testo viene troncato.

Vedi topic: www.isapp.it/it/forum/supporto-ifile/15-...azioni-troncate.html

Di fatto utilizzando un Analyzer di tipo UTF-8, le librerie di lucene cercheranno di convertire il testo dall'Encoding, definito nel tag <encoding> del file di configurazione di IFile, in UTF-8.
Se per caso il testo recuperato con la XPDF non rispetta il vero charset definito, il testo potrebbe tornare troncato al primo carattere non corretto.
Il problema potrebbe essere risolto, sapendo qual'è il tipo di encoding del testo, recuperandolo anche con l'utilizzo del file "xpdfrc" e configurando correttamente IFile.
If you like, if it was useful, consider a donation, Thanks
Se vuoi, se ti siamo stati utili, considera una donazione, Grazie
Help us by voting our extensions on Joomla.org:
JiFile
JoomPhoto Mobile
Easy Language
Ultima modifica: 28/03/2012 19:47 da Giampaolo.
L\'Argomento è stato bloccato.