Forum

JiFile for Joomla!

JIFile
JiFile is a component for Joomla! that allows you to index file contents (PDF, DOC, etc..) to perform searches in them.

Learn more...  Demo

JoomPhoto Mobile

JPhotoMobile
JoomPhoto Mobile is a component for Joomla! that allows you to share the photos from your Android device to your site Joomla.

Learn more...  Demo

iFile Framework

IFile
IFile is an open source framework written entirely in PHP, allows the indexing of textual content of a document (DOC, PDF, EXCEL, etc.) and a quick search within them.

Learn more...  Demo

Easy Language

EasyLanguage
Easy Language is a plugin for easy and immediate management of multilingual texts in every possible area of joomla, articles, components, modules, metadata, template, other components(example K2) etc.

Learn more...

Article Book Effect

Article Book Effect
View Joomla articles with the effect turns the page of a book. This plugin will display the contents of an article in Joomla as a real book or magazine, using all the benefits of HTML5

Learn more...  Demo

 

Passport photo

Passport photo
The most popular Android app that allows you to print photos cards for your documents with your Android smartphone, in a simple and intuitive way.

Learn more...

 

Crazy Shadow

Crazy Shadow
Crazy Shadow is the 3D fast-paced and fun puzzle Android game! Try to rotate and drag shapes in the position of their shadows without fail! Solve in succession all combinations of levels of the game.

Learn more...

 

Admin Countdown

Admin Countdown
Module for Joomla! 2.5 and 3.x displays in the administration part of the site, a timer with countdown of the time remaining in your session.

Learn more...  Demo

 
Welcome, Guest
Username: Password: Remember me

TOPIC: problema codifica ansi (credo)

problema codifica ansi (credo) 05 Mar 2013 14:47 #1025

Buongiorno,
credo di avere un problema con la codifica dei file pdf che vorrei indicizzare (ansi).

Il problema che rilevo è che nell'indicizzare il componente mi dice che il file è vuoto. Dal report check system mi sembra che sia tutto regolare (per i pdf).

Come posso risolvere il problema?

Grazie di cuore

Benedetta
The administrator has disabled public write access.

problema codifica ansi (credo) 05 Mar 2013 14:50 #1026

  • Giampaolo
  • Giampaolo's Avatar
  • OFFLINE
  • Administrator
  • Posts: 465
  • Thank you received: 43
Ciao Benedetta,
prova a leggere questo Topic:

www.isapp.it/en/forum/jifile-for-joomla-...ncoding-problem.html

Se hai ancora problemi non esitare a contattarci.
If you like, if it was useful, consider a donation, Thanks
Se vuoi, se ti siamo stati utili, considera una donazione, Grazie
Help us by voting our extensions on Joomla.org:
JiFile
JoomPhoto Mobile
Easy Language
The administrator has disabled public write access.

problema codifica ansi (credo) 05 Mar 2013 17:59 #1030

Ciao!
Ho riseguito le istruzioni del file che mi hai mandato, ma sembra non cambiare niente.

Mi vengono due dubbi: nel report check system ci sono in effetti tre segnali: ANTIWORD Binaries File unsupported, id3 KO e com_dotnet KO, cui non ho dato importanza perché sembrano non riguardare i pdf (a me interessa principalmente indicizzare dei pdf).

L'altra questione che mi rimane è la codifica dei file (te ne mando uno in allegato) che è ansi.

Grazie della disponibilità!

Benedetta
Attachments:
  • Attachment This attachment is hidden for guests. Please log in or register to see it.
The administrator has disabled public write access.

problema codifica ansi (credo) 05 Mar 2013 19:20 #1031

  • Giampaolo
  • Giampaolo's Avatar
  • OFFLINE
  • Administrator
  • Posts: 465
  • Thank you received: 43
Ciao Benedetta,
abbiamo fatto i nostri test e tutto funzione perfettamente.
Di seguito ti allego una immagine e dopo la descrivo punto per punto.


This image is hidden for guests. Please log in or register to see it.



1. Il sistema indicizza correttamente il tuo file.
2. Questa è la configurazione del file: libraries\ifile\adapter\helpers\binaries\xpdfrc\xpdfrc (utilizzata per il recupero dei contenuti del file PDF)
3. Abbiamo preso una parola presente nel file PDF verso la fine del documento per fare i test di ricerca.
4. Abbiamo verificato che cercando questa parola JiFile trovasse la corrispondenza con il tuo PDF
5. Questa è la configurazione di JiFile utilizzata.

Per quest'ultimo punto è importante che tu capisca come funziona.
Come vedi il campo "Encoding" è stato lasciato vuoto e ti spiego il perchè.

JiFile utilizza due importanti componenti esterne per recuperare i documenti e indicizzarli e sono:

XPDF per il recupero dei contenuti dei documenti PDF
Zend Framework per la loro indicizzazione mediante Lucene

Ora va capito che per fare funzionare il tutto i due sistemi devono essere configurati adeguatamente per comunicare in modo corretto, altrimenti uno dei due sistemi potrebbe non funzionare bene.

Nel punto 2. come vedi abbiamo commentato la riga "textEncoding UTF-8" con il carattere #.
In questo modo abbiamo detto alla XPDF di utilizzare l'encodng di default per il recupero dei documenti (Latin-1 - ovvero ISO-8859-1) e dato che il tuo documento è scritto in Italiano probabilmente è l'encoding corretto.
Quindi ora quando la XPDF va a leggere il contenuto dal file PDF memorizza tutti i caratteri presenti nel documento con il tipo di encoding configurato (in questo caso Latin-1).

Nel punto 5. invece configuriamo Lucene.
Lucene lavora in questo modo, ovvero recupera la stringa e cerca di convertirla nel tipo di codifica descritta nell'ANALYZER (in questo caso UTF8), ma per convertirla ha bisogno di sapere qual'è la fonte di conversione ovvero il tipo di encondig del testo passato.
Per dirgli questo deve essere configurato il campo "ENCODING" e noi non configurandolo diciamo a Lucene di usare quello di Default (ISO-8859-1)

In questo modo Lucene sa come gestire il testo e lavora senza dare errori.

Spero di averti aiutato, se ci sono altri problemi faccelo sapere.
If you like, if it was useful, consider a donation, Thanks
Se vuoi, se ti siamo stati utili, considera una donazione, Grazie
Help us by voting our extensions on Joomla.org:
JiFile
JoomPhoto Mobile
Easy Language
Last Edit: 05 Mar 2013 19:28 by Giampaolo.
The administrator has disabled public write access.

problema codifica ansi (credo) 06 Mar 2013 11:08 #1032

Ciao!
Da me non funziona, quindi ti invio:

il report check system


iFile Framework Exists Version 1.1.3 or later iFile Framework is installed Version 1.1.5 Used by JiFile

WebSite: ifile.isapp.it
Zend Framework
Zend Lucene Exists Version 1.10.1 or later Zend Lucene is installed in /home/FTPocst/FTPROOT/htdocs/libraries/ifile - Version 1.11.3 Used by Lucene and MySqli Interface

WebSite: www.zend.com
Zend Cache Exists Version 1.10 or later Zend Cache is installed in /home/FTPocst/FTPROOT/htdocs/libraries/ifile Version 1.11.3 Used by JiFile

WebSite: www.zend.com
Encoding
PCRE OK Not defined PCRE unicode support is enabled in PHP Used by Zend Search Lucene Framework

WebSite: www.php.net/manual/en/book.pcre.php
SERVER
Server 64bit Not defined Note: If the OS is 64bit but running a 32 bit version of php, the check will return (32 bit) Only for linux/windows.
Copy adapter/helpers/binaries/[linux|windows]/bin64/pdftotext in adapter/helpers/binaries/[linux|windows]

WebSite: www.php.net/manual/en/install.php
XPDF
XPDF Binaries File Download PATCH LINK! CHMOD 0755 Permission XPDF Binaries File (adapter/helpers/binaries/freebsd/pdftotext): 0755 Used only for PDF file parser

WebSite: www.foolabs.com
ANTIWORD
ANTIWORD Binaries File Unsupported CHMOD 0755 ANTIWORD Binaries File isn't supported - for FRE system operation. Check configuration for use COM or PHP parser Used only for DOC file parser

WebSite: www.winfield.demon.nl/
PHP
PHP Version OK Version 5.1.0 or later Version installed is 5.3.17 Not defined

WebSite: www.php.net
Extension
libxml OK Version 2.6.0 or later Not check version Used for Office Open Xml (OOXML) and OpenDocument (ODF) file parser

WebSite: www.php.net/manual/en/book.libxml.php
dom OK Not defined Version installed is 20031129 Used for Office Open Xml (OOXML) and OpenDocument (ODF) file parser

WebSite: www.php.net/manual/en/book.dom.php
SimpleXML OK Not defined Version installed is 0.1 Used for Office Open Xml (OOXML) and OpenDocument (ODF) file parser

WebSite: www.php.net/manual/en/book.simplexml.php
mbstring OK Not defined Not check version Used by Zend Search Lucene

WebSite: www.php.net/manual/en/book.mbstring.php
zip OK Not defined Version installed is 1.11.0 Used for Office Open Xml (OOXML) and OpenDocument (ODF) file parser

WebSite: www.php.net/manual/en/class.ziparchive.php
zlib OK Version 1.0.9 or later Version installed is 1.1 Used for Office Open Xml (OOXML) and OpenDocument (ODF) file parser

WebSite: www.php.net/manual/en/book.zlib.php
iconv OK Not defined Not check version Used by Zend Search Lucene

WebSite: www.php.net/manual/en/book.iconv.php
id3 KO Version 0.1 or later Install library in PHP Used for MP3 file parser

WebSite: www.php.net/manual/en/book.id3.php
mysqli OK Not defined Version installed is 0.1 Used only for MySqli Interface

WebSite: www.php.net/manual/en/book.mysqli.php
exif OK Version 1.4 or later Version installed is 1.4 $Id$ Used for JPG file parser

WebSite: www.php.net/manual/en/book.exif.php
com_dotnet KO Version 0.1 or later Install library in PHP Used for DOC file parser

WebSite: www.php.net/manual/en/book.com.php
Function
popen OK Not defined Function exists Used only for PDF file parser

WebSite: www.php.net/manual/en/function.popen.php
strip_tags OK Not defined Function exists Used only for XML file parser

WebSite: php.net/manual/en/function.strip-tags.php



il print screen delle altre impostazioni






il testo del file xpdfrc
#
begin Greek support package (2011-aug-15)
# nameToUnicodeC:/xampp/htdocs/IFile/mytest/ifile/adapter/helpers/binaries/windows/greek/Greek.nameToUnicode
# unicodeMapISO-8859-7C:/xampp/htdocs/IFile/mytest/ifile/adapter/helpers/binaries/windows/greek/ISO-8859-7.unicodeMap
#
end Greek support package

#
UTF-8 Encoding
# textEncoding UTF-8
#
UTF-8 Encoding


il risultato dell'indicizzazione
The administrator has disabled public write access.

problema codifica ansi (credo) 06 Mar 2013 11:10 #1033

scusa dove ti mando gli allegati che non riesco ad allegarli (forse sono pesanti)?
Last Edit: 06 Mar 2013 11:15 by benedetta.
The administrator has disabled public write access.

problema codifica ansi (credo) 06 Mar 2013 11:32 #1034

  • Giampaolo
  • Giampaolo's Avatar
  • OFFLINE
  • Administrator
  • Posts: 465
  • Thank you received: 43
Ciao,
puoi scrivere a:

info[at]isapp.it

Metti come oggetto il nome del topic e manda tutto.
If you like, if it was useful, consider a donation, Thanks
Se vuoi, se ti siamo stati utili, considera una donazione, Grazie
Help us by voting our extensions on Joomla.org:
JiFile
JoomPhoto Mobile
Easy Language
The administrator has disabled public write access.