Navigacija
Lista poslednjih: 16, 32, 64, 128 poruka.

Ekstraktovanje teksta iz .rtf ili .doc pomoću PHP

[es] :: PHP :: Ekstraktovanje teksta iz .rtf ili .doc pomoću PHP

[ Pregleda: 2708 | Odgovora: 8 ] > FB > Twit

Postavi temu Odgovori

Autor

Pretraga teme: Traži
Markiranje Štampanje RSS

biske86
Ivan Biševac
Zubin Potok

Član broj: 62435
Poruke: 979
*.dynamic.isp.telekom.rs.

Sajt: biske.rs


+39 Profil

icon Ekstraktovanje teksta iz .rtf ili .doc pomoću PHP29.07.2010. u 23:15 - pre 167 meseci
Postoji li neka biblioteka koja može da vrši izdvajanje teksta iz .rtf ili .doc formata ali tako da izdvojim samo bolovani tekst?
U pitanju je baza reči za rečnik koja mi je neupotrebljiva u formatu .rtf ili .doc već hoću da reči ubacim u neku bazu.

Struktura reči je:
srpska rec (boldovano) engleski prevod (nije boldovano)

U principu mi nije neophodno da to bude php već bilo kojom metodom koja je uspešna. Ja sam probao preko jave ali biblioteka koju sam imao nije imala podršku za ekstraktovanje bold teksta.
 
Odgovor na temu

strutter.poison

Član broj: 264822
Poruke: 115
*.dynamic.isp.telekom.rs.



+2 Profil

icon Re: Ekstraktovanje teksta iz .rtf ili .doc pomoću PHP29.07.2010. u 23:50 - pre 167 meseci
Pa mozes da sacuvas taj .doc kao .html a onda skontas sablon i sa PHP-om (ili koji ti je jezik blizi) iscupas ono sto ti treba, tj. boldovano.
Verovatno ima jos nacina.. ovaj mi prvi pade na pamet.
 
Odgovor na temu

vatri
Banja Luka, RS

Član broj: 68697
Poruke: 1006
*.static.stelkom.net.



+18 Profil

icon Re: Ekstraktovanje teksta iz .rtf ili .doc pomoću PHP30.07.2010. u 11:55 - pre 167 meseci
Vjerovatno ces morati iskoristii preg_match_all() za oba slucaja.

RTF je obicni tekst tako da mozes file_get_contents() iskoristiti i procitati ga. Evo ti link da vidis kako se formatira .rtf > http://www.biblioscape.com/rtf15_spec.htm#Heading41
Za .doc - ako imas Windows - mozes iskoristiti biblioteku COM ili mozda ovako nesto


http://answers.yahoo.com/question/index?qid=20080823105354AARm3fc
 
Odgovor na temu

Nikola Poša
Backend (PHP) developer
Beograd

Član broj: 173839
Poruke: 1616
*.adsl-a-6.sezampro.rs.



+33 Profil

icon Re: Ekstraktovanje teksta iz .rtf ili .doc pomoću PHP30.07.2010. u 12:15 - pre 167 meseci
Probaj i PHPDOCX. Sa njim je koliko vidim moguće prebaciti doc(x) u HTML, a onda je match-ovanje bold-ovan teksta jednostavan posao.
 
Odgovor na temu

vatri
Banja Luka, RS

Član broj: 68697
Poruke: 1006
*.static.stelkom.net.



+18 Profil

icon Re: Ekstraktovanje teksta iz .rtf ili .doc pomoću PHP30.07.2010. u 14:36 - pre 167 meseci
A da sad si me podsjetio - imas tu foru i kao web service: http://www.livedocx.com/
 
Odgovor na temu

Nikola Poša
Backend (PHP) developer
Beograd

Član broj: 173839
Poruke: 1616
*.adsl-a-6.sezampro.rs.



+33 Profil

icon Re: Ekstraktovanje teksta iz .rtf ili .doc pomoću PHP30.07.2010. u 17:11 - pre 167 meseci
A za taj servis postoji gotova klasa: http://www.phplivedocx.org/articles/.
 
Odgovor na temu

Goran Rakić
Beograd

Moderator
Član broj: 999
Poruke: 3766

Sajt: blog.goranrakic.com


+125 Profil

icon Re: Ekstraktovanje teksta iz .rtf ili .doc pomoću PHP30.07.2010. u 17:59 - pre 167 meseci
Koliko se meni čini sve ovo radi generisanje dokumenata, a ne čitanje tako da ste promašili temu.
http://sr.libreoffice.org — slobodan kancelarijski paket, obrada teksta, tablice,
prezentacije, legalno bez troškova licenciranja
 
Odgovor na temu

vatri
Banja Luka, RS

Član broj: 68697
Poruke: 1006
*.dynamic.dsl.t-2.net.



+18 Profil

icon Re: Ekstraktovanje teksta iz .rtf ili .doc pomoću PHP30.07.2010. u 18:38 - pre 167 meseci
Ovaj PHPDocX, koliko vidim, moze generisat xHTML iz .doc-a :

Code:

require_once('../classes/cTransformDoc.inc');

$objDocument = new cTransformDoc();
$objDocument->setStrFile('../docx/link.docx');
$objDocument->fGenerateXHTML();
$objDocument->fValidatorXHTML();
echo $objDocument->getStrXHTML();


A namjena ovog LiveDocx-a je da generise word dokument iz sablona, ali ne znam moze li citati doc fajlove...
 
Odgovor na temu

strutter.poison

Član broj: 264822
Poruke: 115
*.dynamic.isp.telekom.rs.



+2 Profil

icon Re: Ekstraktovanje teksta iz .rtf ili .doc pomoću PHP31.07.2010. u 00:14 - pre 167 meseci
Mozda ja nesto propustam, ali ovo uopste nije komplikovano buduci da covek kaze da ne mora php vec bilo koja metoda koja radi. U tom slucaju:

Google: "doc to html"

Code (php):

//uzmemo sadrzaj fajla
$data = file_get_contents('path/to/fajl.html');
//sklonimo enter, tab i novi red
$data = str_replace(array("\n", "\t", "\r"), '', $data);
//recimo da je b tag
preg_match_all('/<b>(.*?)<\/b>/i', $data, $matches);
//print ili nesto drugo
print_r($matches[1]);

Eventualno slozeniji regex pattern ako ima potrebe (vidi se iz koda).

Ako je u pitanju jedan fajl (ili vise a da to nije mnogo) onda moze ili OO ili MS Word pa save as .html tj. Web Page i onda ovih par linija php-a.
 
Odgovor na temu

[es] :: PHP :: Ekstraktovanje teksta iz .rtf ili .doc pomoću PHP

[ Pregleda: 2708 | Odgovora: 8 ] > FB > Twit

Postavi temu Odgovori

Navigacija
Lista poslednjih: 16, 32, 64, 128 poruka.