Navigacija
Lista poslednjih: 16, 32, 64, 128 poruka.

Savjet u vezi web crawlera

[es] :: PHP :: Savjet u vezi web crawlera

[ Pregleda: 1721 | Odgovora: 4 ] > FB > Twit

Postavi temu Odgovori

Autor

Pretraga teme: Traži
Markiranje Štampanje RSS

virtualVoid

Član broj: 161084
Poruke: 698



+28 Profil

icon Savjet u vezi web crawlera30.01.2009. u 13:08 - pre 185 meseci
Radi se o sajtu (joomla engine) koji objavljuje azurne informacije prikupljene sa drugih sajtova (oko 10tak sajtova). Obicno se to radi o nekoliko recenica teksta koji se onda formatira u par redaka. Do sada sam to radio rucno i imam osjecaj da obavljam posao koji bih mogao raditi automatski.

Surfao sam u potrazi za nekim php web crawlerom, medjutim nisam nasao zadovoljavajuci crawler. Zamolio bih vas da me uputite do kvalitetnog web crawlera koji bih mogao iskoristiti (imam osnovno iskustvo u php-u, znam prepoznati sto koji objekt radi i slicno te ga shodno prepraviti, dok sam bolji u c# i asp.net).

PHP sam spomenuo radi dostupnosti php skripti, ali on uopce ne mora biti radjen u php-u jer cu ga ionako korisiti off-site.
...
 
Odgovor na temu

agvozden
Aleksandar Gvozden
founder
Info-G
Beograd

Član broj: 37813
Poruke: 1123
*.ptt.rs.

Sajt: www.gvozden.info


+68 Profil

icon Re: Savjet u vezi web crawlera30.01.2009. u 13:54 - pre 185 meseci
U principu, to mozes raditi putem rss fedova ukoliko su dostupni na sajtovima. parsera ima dosta na webu...

ukoliko to nije slucaj onda ces morati da pises crawlere, a za takvu namenu mislim da ne postoji univerzalni, vec zavisi od sajta do sajta.
negde ce to biti lako uraditi, negde vrlo komplikovano, negde nemoguce (tamo gde menjaju strukturu cesto)
 
Odgovor na temu

ColdKeyboard
Sasa Karanovic
Hardware and Firmware Engineer
Toronto, Canada

Član broj: 31924
Poruke: 868
93.86.75.*

Jabber: ColdKeyboard
Sajt: www.SasaKaranovic.com


+11 Profil

icon Re: Savjet u vezi web crawlera30.01.2009. u 15:04 - pre 185 meseci
Ja sam pisao neke crawlere za Blic.co.yu i dnevnik.hr da preuzima vijesti sa njihovog sajta samo tako sto ukucam URL do vijesti...

Ali prilicno je naporno pisati jer za svaku stranicu moras drugacije pristupiti, gledati da li se struktura mijenja,
izbacivati nepotrebne elemente itd itd... dok ne dobijes skriptu kojoj mozes 100% vjerovat da nece napraviti
neko s*anje.

Cisto sumnjam da na netu mozes naci nesto tako, jedino mozda da probas sa onom klasom koju mozes
da koristis kao SQL query language ali pretragu po HTML kodu stranice... ne mogu se sjetit kako se tacno
zove, mislim da Nemanja ili Dakipro znaju.

Pozdrav,
Sale
 
Odgovor na temu

virtualVoid

Član broj: 161084
Poruke: 698



+28 Profil

icon Re: Savjet u vezi web crawlera30.01.2009. u 15:18 - pre 185 meseci
Citat:
agvozden: U principu, to mozes raditi putem rss fedova ukoliko su dostupni na sajtovima. parsera ima dosta na webu...

ukoliko to nije slucaj onda ces morati da pises crawlere, a za takvu namenu mislim da ne postoji univerzalni, vec zavisi od sajta do sajta.
negde ce to biti lako uraditi, negde vrlo komplikovano, negde nemoguce (tamo gde menjaju strukturu cesto)


Hm, ovo mi je bila prvotna ideja. Stovise, i oni sajtovi koji nemaju RSS, to se lako sredi preko feed generatora kojim ima tona na netu. Imas li mi preporuciti koji dobar parser posto vidim da imas iskustva?


@coldkeyboard
Hvala i tebi. Pretpostavljao sam da moze doci do komplikacija, ali nisam mogao pretpostaviti koje su. Ovo sa feedom mi se cini najlakse rjesenje, ukoliko se pokaze da ta metoda radi.
...
 
Odgovor na temu

Nemke_BG

Član broj: 163822
Poruke: 341
91.148.85.*

Jabber: Nemke_BG@elitesecurity.org
Sajt: https://www.nmdesign.rs


+45 Profil

icon Re: Savjet u vezi web crawlera30.01.2009. u 21:39 - pre 185 meseci
RSS parsera imas stvarno dosta....

Ja sam do sad koristio lastRSS i MagPie...s tim da mi je lastRSS bolji....

ali naravno ako te ne mrzi onda mozes ti da napises jedan mali parser u php-u uz pomoc SimpleXML-a(PHP 5)...
skroz imas kontrolu nad rss-om a veoma je jednostavno...progooglaj malo imas mnogoooo primera...
...
 
Odgovor na temu

[es] :: PHP :: Savjet u vezi web crawlera

[ Pregleda: 1721 | Odgovora: 4 ] > FB > Twit

Postavi temu Odgovori

Navigacija
Lista poslednjih: 16, 32, 64, 128 poruka.