Navigacija
Lista poslednjih: 16, 32, 64, 128 poruka.

PhP scraper - nekoliko pitanja

[es] :: PHP :: PHP za početnike :: PhP scraper - nekoliko pitanja

[ Pregleda: 1586 | Odgovora: 2 ] > FB > Twit

Postavi temu Odgovori

Autor

Pretraga teme: Traži
Markiranje Štampanje RSS

kelja

Član broj: 70429
Poruke: 1416
*.dynamic.isp.telekom.rs.



+35 Profil

icon PhP scraper - nekoliko pitanja18.04.2011. u 12:52 - pre 157 meseci
Uz pomoc simpledom klase:

http://simplehtmldom.sourceforge.net/

odradio sam neki scraper.

Konkretno, radi se o ovom sajtu:
http://www.clickbank.com/mkplS...words=habits&firstResult=1

Treba izvuci cene, imena proizvoda, linkove, itd, itd...

Korisnik zadaje keyword i skript bi trebalo da izlista SVE rezultate (varijabla firstResult se uvecava za 10, kad kliknete na sledeci link u paginaciji; da, vidim da moze da izlista i po 50 rezultata).

E, sad, kako se to izlistavanje stranica radi? Koji nacini spadaju u dobru praksu, a koji ne?
(Ja sam odradio refresh i uvecavanje $_GET varijable koja predstavlja pocetni rezultat, ali ne znam koliko je to ok???)

Hvala!
 
Odgovor na temu

Skaarj
Novi Sad

Član broj: 21463
Poruke: 365
*.dynamic.isp.telekom.rs.



+3 Profil

icon Re: PhP scraper - nekoliko pitanja18.04.2011. u 15:44 - pre 157 meseci
Kod tebe je u pitanju jednostavna stranica, iz koje mozes da izvuces sve sa nekoliko regexa, tako da bih u konkretnom slucaju zabatalio simplehtmldom. Znaci dovuces stranicu cURLom, parsiras sta treba, i pozoves ostale stranice opet CURLom (zavisno koliko ima rezultata).

Ako aplikacija ima vise simultanih zahteva ili jako cesto pretrazuje pomenuti sajt, sto moze da dovede do banovanja, razmisli o korsicenju vise IP adresa, ili koristi TOR.

Za pomoc za curlom pogledaj http://www.dinke.net/blog/en/2006/08/31/curl-http-client/ jako lepa i funkcionalna klasa, koju mozes i da doradis po potrebi.

 
Odgovor na temu

kelja

Član broj: 70429
Poruke: 1416
*.dynamic.isp.telekom.rs.



+35 Profil

icon Re: PhP scraper - nekoliko pitanja18.04.2011. u 23:49 - pre 157 meseci
Hvala.
Pa da, prvo sam mislio da koristim curl, pa sam ipak odradio skript sa simplehtmldom klasom (radi vezbe, ucinilia mi se prilicno zgodnom) i regularnijem ekspresijama (nije bio dovoljan sam simplehtmldom, edit: ili jos nisam naucio da koristim, sto je verovatnije :D, html nije konzistentan, neki trazeni elementi se ne nalaze na stranici, a treba to upisati u csv/bazu/sta god, trebalo je odvojiti kategoriju od subkategorije, itd, itd)

Citat:
Ako aplikacija ima vise simultanih zahteva ili jako cesto pretrazuje pomenuti sajt, sto moze da dovede do banovanja, razmisli o korsicenju vise IP adresa, ili koristi TOR.


Ono sto me zanimalo je zapravo ovo sto si pomenuo - kako izbeci banovanje zbog precestih zahteva... Vidim da se koriste i proxy-ji.

A ovu klasu cu svakako da isprobam!
 
Odgovor na temu

[es] :: PHP :: PHP za početnike :: PhP scraper - nekoliko pitanja

[ Pregleda: 1586 | Odgovora: 2 ] > FB > Twit

Postavi temu Odgovori

Navigacija
Lista poslednjih: 16, 32, 64, 128 poruka.