Welcome,
Guest
|
|
ciao,
ho lanciato l'indicizzazione di una gran mole di dati per vedere se tutto funziona correttamente e come si comporta iFile. Spesso, quando l'indicizzazione incontra un file RTF mi viene restituito un Fatal Error e l'esecuzione si blocca. PHP Fatal error: Maximum execution time of 360 seconds exceeded in /var/www/html/ifile/ifile/adapter/helpers/class.rtf2txt.php Il problema non è aggirabile aumentando il Maximum execution time nel file di configurazione di iFile; ho fatto molte prove, ma anche impostando diverse ore di esecuzione l'indicizzazione viene bloccata. L'idea sarebbe quella di intervenire nel file class.rtf2txt.php per eliminare l'analisi nei tag \pict. E' corretto? Mi date un aiuto? grazie Andrea |
The administrator has disabled public write access.
|
|
Ciao Andrea,
come sempre grazie per il supporto che ci stai dando. IFile per la parserizzazione dei documenti si basa anche su librerie Open Source di terze parti e per questo in alcuni casi si potrebbero verificare errori anche a noi sconosciuti. Ho verificato ed infatti la libreria (o meglio la classe) utilizzata per la parserizzazione dei contenuti RTF non funziona perfettamente. Di fatto si porta dietro tantissime altre informazioni che non dovrebbero essere indicizzate (oltre al binario delle immagini come tu hai evidenziato). Verificheremo nei prossimi giorni se sarà necessario intervenire sulla libreria per la parserizzazione dei file RTF o sostituirla (lasciando la stessa interfaccia in modo che sarà necessario solo sovrascrivere il file class.rtf2txt.php). Di certo così come lavora in questo momento non è, ne performante ne tanto meno utilizzabile al 100%. Il progetto IFile è un progetto giovane e sopratutto Open Source e quindi ogni suggerimento, aiuto o miglioramento da parte dalla comunity che la utilizza è sempre ben accetto per realizzare un prodotto utile e funzionale. Grazie |
If you like, if it was useful, consider a donation, Thanks
Se vuoi, se ti siamo stati utili, considera una donazione, Grazie Help us by voting our extensions on Joomla.org: JiFile JoomPhoto Mobile Easy Language
The administrator has disabled public write access.
|
|
grazie,
se sistemo qualcosa vi faccio avere il codice. in realtà, leggendo il while della funzione GetPlainText(), dato che il tag pict non è specificato, dovrebbe essere ignorato di default... ![]() Il problema, infatti, non è di qualche blocco od errore, ma un problema di performance. Lo script lavora correttamente, impiega però troppo tempo per analizzare il grande tag dell'immagine e il Maximum execution time viene superato. |
Last Edit: 30 Dec 2011 12:09 by trullox.Reason: sono stati pubblicati altri post mentre scrivevo
The administrator has disabled public write access.
|
|
ok, credo di aver trovato una soluzione senza riscrivere o sostituire la classe class.rtf2txt.php
Ho notato che nella classe class.doc2txt.php è possibile parserizzare anche i file RTF. Ho quindi modificato la funzione parse() nella classe Adapter_Search_Lucene_Document_RTF, andando a modificare verso la riga 67 (dico "verso" perchè magari rispetto al file ufficiale rilasciato ho inserito qualche spazio di troppo...) $doc = new PHPRtfLib(); $doc = new PHPWordLib(); E' necessario però intervenire per correggere alcuni (secondo me) errori nel file class.doc2txt.php che impediscono un corretto funzionamento. Verso la riga 159 all'interno della funzione GetRTFPlainText() vengono richiamate alcune funzioni per rimuovere dei tag RTF $contents = $this->RemoveRTFBlock('fonttbl');
$contents = $this->RemoveRTFBlock('colortbl');
$info_block = $this->ExtractRTFBlock('info');
$contents = $this->RemoveRTFBlock('info');
$s1 = 1;
while ($s1 > 0) {
$contents = $this->RemoveRTFBlock('*');
$s1 = strpos($contents, '\*');
} Il problema è risolvibile passando per riferimento la variabile $content. Il codice all'interno della funzione GetRTFPlainText() diventa: $contents = $this->RemoveRTFBlock('fonttbl',$contents);
$contents = $this->RemoveRTFBlock('colortbl',$contents);
$info_block = $this->ExtractRTFBlock('info',$contents);
$contents = $this->RemoveRTFBlock('info',$contents);
$s1 = 1;
while ($s1 > 0) {
$contents = $this->RemoveRTFBlock('*',$contents);
$s1 = strpos($contents, '\*');
} function ExtractRTFBlock($blockname, &$contents) {
//global $contents;
$blockname = '{\\' . $blockname;
$s1 = strpos($contents, $blockname);
$s2 = strpos($contents, '}}', $s1);
return substr($contents, $s1, $s2-$s1+1);
}
function RemoveRTFBlock($blockname, &$contents) {
//global $contents;
$blockname = '{\\' . $blockname;
$s1 = strpos($contents, $blockname);
$s2 = strpos($contents, '}}', $s1);
$part1 = substr($contents, 0, $s1-1);
$part2 = substr($contents, $s2+1);
return $part1 . $part2;
} Attualmente quindi iFile mi indicizza correttamente i file RTF pesanti con immagini nel giro di pochi secondi. Ovviamente le prestazioni saranno ancora molto migliorabili, però per adesso è possibile evitare l'errore di Maximum execution time. (Un file di 15 MB è stato indicizzato con interfaccia mysqli in 35 secondi) Andrea |
Last Edit: 30 Dec 2011 13:05 by trullox.Reason: tabulazioni corrette del codice php
The administrator has disabled public write access.
|
|
Ciao Andrea,
grazie per l'aiuto. L'idea è ottima e funziona. Volevo solo farti presente che la classe gestisce ad oggi solo le versioni non superiori alla 1.5 degli RTF (ad oggi sembra si sia arrivati alla versione 1.9.1). Inoltre potresti avere anche tag di apertura, nei file RTF, senza versione specificata e quindi ricevere un messaggio di "File is not a RTF". Si potrebbe modificare due righe per ovviare a questo problema: la prima riga è per il controllo sul file: function CheckRTFFormat(&$contents) {
// This function checks whether the format of the file is RTF
// Currently supported version is up to 1.5
// OLD
// if (substr($contents, 0, 6) == '{\rtf1') return TRUE; else return FALSE;
if (substr($contents, 0, 5) == '{\rtf') return TRUE; else return FALSE;
} la seconda è presente nella terza riga della funzione "GetRTFPlainText": function GetRTFPlainText(&$contents) {
$s1 = strpos($contents, '{', 1);
$rtf_header = substr($contents, 0, $s1);
// OLD
//if (substr($rtf_header, 0, 6) == '{\rtf1') $rtf_version = 1; else return FALSE;
if (substr($contents, 0, 5) == '{\rtf') return TRUE; else return FALSE;
..... Ho provato su alcuni file scaricati dalla rete che non definiscono la versione, e l'unico problema riscontrato è che, se il file non è realmente stato creato nella versione 1.5, si porta dietro alcune informazioni inutili in più. Ad esempio in alcuni casi riporta anche il binario delle immagini, probabilmente dovuto alla gestione diversa dei TAG. Noi pensiamo di lasciare il controllo originario ({\rtf1) e modificheremo la documentazione evidenziando che ad oggi IFile parserizza ed indicizza solo file RTF con versioni non superiore alla 1.5 e che contengono il tag di apertura come definito nella classe ({\rtf1). Grazie ancora per il tuo immenso aiuto. |
If you like, if it was useful, consider a donation, Thanks
Se vuoi, se ti siamo stati utili, considera una donazione, Grazie Help us by voting our extensions on Joomla.org: JiFile JoomPhoto Mobile Easy Language
The administrator has disabled public write access.
|
If you not change browser settings, you agree to it. Learn more