Forum

JiFile for Joomla!

JIFile
JiFile is a component for Joomla! that allows you to index file contents (PDF, DOC, etc..) to perform searches in them.

Learn more...  Demo

JoomPhoto Mobile

JPhotoMobile
JoomPhoto Mobile is a component for Joomla! that allows you to share the photos from your Android device to your site Joomla.

Learn more...  Demo

iFile Framework

IFile
IFile is an open source framework written entirely in PHP, allows the indexing of textual content of a document (DOC, PDF, EXCEL, etc.) and a quick search within them.

Learn more...  Demo

Easy Language

EasyLanguage
Easy Language is a plugin for easy and immediate management of multilingual texts in every possible area of joomla, articles, components, modules, metadata, template, other components(example K2) etc.

Learn more...

Article Book Effect

Article Book Effect
View Joomla articles with the effect turns the page of a book. This plugin will display the contents of an article in Joomla as a real book or magazine, using all the benefits of HTML5

Learn more...  Demo

 

Passport photo

Passport photo
The most popular Android app that allows you to print photos cards for your documents with your Android smartphone, in a simple and intuitive way.

Learn more...

 

Crazy Shadow

Crazy Shadow
Crazy Shadow is the 3D fast-paced and fun puzzle Android game! Try to rotate and drag shapes in the position of their shadows without fail! Solve in succession all combinations of levels of the game.

Learn more...

 

Admin Countdown

Admin Countdown
Module for Joomla! 2.5 and 3.x displays in the administration part of the site, a timer with countdown of the time remaining in your session.

Learn more...  Demo

 
Welcome, Guest
Username: Password: Remember me

TOPIC: Indicizzare un documento PDF con IFile

Indicizzare un documento PDF con IFile 19 Mar 2012 16:57 #280

  • Giampaolo
  • Giampaolo's Avatar
  • OFFLINE
  • Administrator
  • Posts: 465
  • Thank you received: 42
Analizzando i topic scritti per JiFile e IFile, ho notato che il problema principale è la mancata indicizzazione dei documenti in formato PDF.
Nella maggior parte dei casi, questo è dovuto ad un problema di encoding del testo recuperato.
Di seguito alcune informazioni importanti per poter utilizzare al meglio il processo di indicizzazione di questi documenti.

Ho pensato di strutturare il tutto come una FAQ in modo che possa essere più semplice trovare le risposte alle domande più comuni.

- Cosa usa IFile per il recupero del testo di un documento PDF?
IFile (e quindi anche JiFile che lo utilizza) usa la XPDF per il recupero dei contenuti testuali da un documento PDF.
Vedi: www.foolabs.com/xpdf/download.html

- Che versione di XPDF utilizza IFile?
Dalla versione 1.1.4 di IFile è stata integrata la 3.0.3

- Con che tipo di Encoding vengono recuperati i testi dai documenti PDF mediante la XPDF?
La XPDF di default recupera e ritorna il testo con formato "Latin 1" (ISO-8859-1).

- E' possibile modificare il tipo di encoding della XPDF?
E' possibile modificare il tipo di encoding per il recupero dei testi con la XDPF dalla versione 1.1.4 di IFile.

- Come posso modificare il tipo di encoding della XPDF?
Per poter modificare il tipo di enconding della XPDF deve essere modificato il file "xpdfrc" (presente dalla versione 1.1.4 di IFile) che si trova nella cartella "/adapter/helpers/binaries/xpdfrc/".
Ad esempio se si vuole lavorare con documenti che hanno un encoding UTF-8, il file "xpdfrc" deve essere modificato con un normale editor di testo andando ad aggiungere la seguente riga:

textEncoding UTF-8

In questo modo la XPDF ritorna il testo in formato UTF-8.
Maggiori dettagli sull'utilizzo del file "xpdfrc" sono descritti nei file allegati:

This attachment is hidden for guests. Please log in or register to see it.


This attachment is hidden for guests. Please log in or register to see it.


- Perchè se indicizzo un documento in formato diverso da quello dell'analyzer mi tronca il testo?
Il problema deriva dal fatto che quando le librerie di Lucene cercano di indicizzare il testo di un documento se si utilizza un encoding non corretto il testo viene troncato.

Vedi topic: www.isapp.it/it/forum/supporto-ifile/15-...azioni-troncate.html

Di fatto utilizzando un Analyzer di tipo UTF-8, le librerie di lucene cercheranno di convertire il testo dall'Encoding, definito nel tag <encoding> del file di configurazione di IFile, in UTF-8.
Se per caso il testo recuperato con la XPDF non rispetta il vero charset definito, il testo potrebbe tornare troncato al primo carattere non corretto.
Il problema potrebbe essere risolto, sapendo qual'è il tipo di encoding del testo, recuperandolo anche con l'utilizzo del file "xpdfrc" e configurando correttamente IFile.
If you like, if it was useful, consider a donation, Thanks
Se vuoi, se ti siamo stati utili, considera una donazione, Grazie
Help us by voting our extensions on Joomla.org:
JiFile
JoomPhoto Mobile
Easy Language
Last Edit: 28 Mar 2012 19:47 by Giampaolo.
The topic has been locked.