NEW: Usare Curl e Php per prendere il contenuto di una pagina web
Posted by: veke87 on
Nov 20th, 2008 |
Filed under: Programmazione
Salve gente,
oggi voglio presentarvi una funzioncina che potrebbe tornarvi utile… Questa piccola guida è rivolta sopratutto ai programmatori php che si trovano spesso di fronte a problemi che per essere risolti utilizzano il web-scraping .
In Particolare, La mia funzione fa uso di php+curl per prendere il contenuto servito dalla pagina richiesta. L’uso della libreria curl permette di gestire molte più informazioni della semplice chiamata a fopen..
Inoltre curl, nei vari benchmark risulta essere ben 200 volte più veloce a serivire le richieste della normale chiamata a fopen(’http….’);
Qui di seguito vi lascio il mio codice sorgente free.
Input: url della pagina da crawlare
Output: contenuto della pagina oppure null
Features: lo script ha un set limitato di user agent e li utilizza per simulare una vera chiamata a browser ( alcuni server potrebbero non servire affatto una risposta se il campo User-Agent non è settato )
Per utilizzare questa semplice funzione basterà chiamare la funzione getContent con argomento l’url completo della pagina da ricevere.
Saluti, Andrea






Be the first!
Tags: 




Loading...