perlunity.de - PERL | JAVASCRIPT | PHP | MySQL | APACHE



#!/COMMUNITY

Members: 5310
davon online: 1
weitere User: 21
Click for quality!




10.09.2010 / 05:18

Community-Member werden   |   Paßwort vergessen   |   OnlineMonitor (1) Wer ist online ... OnlineMonitor starten !
     

 

Home


PERLscripts


PHPscripts


JAVAscripts


Hilfreiches


Links2www


Newscenter


Community


Interna




Community  »  CGI: Allgemeines Forum zur Themenübersicht Themensuche Themenansicht in Thread-Modus


BeitragSpiderScript kürzt automatisch URLs auf Root
Seitenanfang
Hi,

ich hab mir ein Spiderscript besorgt, mit dem man sich bei Google Ergebnisse holen kann, die dann weiterverarbeitet werden können. Leider kürzt das Script die gefundenen URLs auf die Hauptdomain, ich bräuchte nun aber exakt die URLs der gefundenen Seiten. Zum besseren Verständnis: Das Script findet z.B. die URL http://www.seite.com/unterseite_xyz.html, gibt aber als Ergebnis nur folgendes aus: http://www.seite.com/

Ich habe schon im Script gesucht, kenne mich aber nicht besonders aus und finde den Teil nicht, der dafür verantwortlich ist. Der müsste aber vermutlich im folgenden Teil stecken:

$url = "http://www.google.com/search?q=$search&start=$startcount";
$content = get($url);

#print "$content";

$content =~ s/\n|\r/ /g; # get it all on one line
print "<table>";
open (FILE, '>>./data/linkdump.pl');
while ($content =~ m/href=\"http:\/\/(.*?)\//g) {
my $url = $1;
if (($url =~ m/www\./) && ($url !~ m/google/)) {
my ($email, $removeit);
if ($assemail eq 'yes') {$removeit = $url; $removeit =~ s/www\.//i; $email = "webmaster\@$removeit"}
# Check to see if the link is already in the database
my $sth = $dbh->prepare("SELECT id FROM links WHERE url = \"http://$url\"") || print "could not access database";
$sth->execute();
if (!$sth->fetchrow_hashref) {
print "<tr><td style='font-family:tahoma;font-size:8pt'><b><font color=green>Ok</font> </b>";
print "$url<br></td></tr>";
print FILE "$url|$category|$email\n";
} else {
print "<tr><td style='font-family:tahoma;font-size:8pt'><b><font color=red>Excluded</font> </b>";
print "$url<br></td></tr>";
}
$sth->finish;
}
}
close(FILE);

Kann mir da vielleicht jemand helfen und mir sagen, was ich entfernen oder ändern muss ?

Datum: 11.05.2006-14:37

Beitragre: SpiderScript kürzt automatisch URLs auf Root
Seitenanfang
Hi,

der folgende Teil mus ausgetauscht werden:_


while ($content =~ m/href=\"http:\/\/(.*?)\//g) {

in

while ($content =~ m/href=\"http:\/\/(.*?)/g) {

-uw

Datum: 12.05.2006-13:48

-






-
-