Strict Standards: date(): It is not safe to rely on the system's timezone settings. You are *required* to use the date.timezone setting or the date_default_timezone_set() function. In case you used any of those methods and you are still getting this warning, you most likely misspelled the timezone identifier. We selected 'America/New_York' for 'EST/-5.0/no DST' instead in /homepages/20/d268022878/htdocs/forum/viewtopic.php on line 988

Strict Standards: getdate(): It is not safe to rely on the system's timezone settings. You are *required* to use the date.timezone setting or the date_default_timezone_set() function. In case you used any of those methods and you are still getting this warning, you most likely misspelled the timezone identifier. We selected 'America/New_York' for 'EST/-5.0/no DST' instead in /homepages/20/d268022878/htdocs/forum/viewtopic.php on line 988
[phpBB Debug] PHP Notice: in file /includes/functions.php on line 4284: Cannot modify header information - headers already sent by (output started at /viewtopic.php:988)
[phpBB Debug] PHP Notice: in file /includes/functions.php on line 4286: Cannot modify header information - headers already sent by (output started at /viewtopic.php:988)
[phpBB Debug] PHP Notice: in file /includes/functions.php on line 4287: Cannot modify header information - headers already sent by (output started at /viewtopic.php:988)
[phpBB Debug] PHP Notice: in file /includes/functions.php on line 4288: Cannot modify header information - headers already sent by (output started at /viewtopic.php:988)
FAROO Forum • View topic - Proxy für Crawler

Proxy für Crawler

Your wishes and suggestions for the next version

Proxy für Crawler

Postby auser » Sat May 23, 2009 11:06 am

Hallo,

ich würde gerne einen Proxy für den Crawler benutzen.

Viele Grüße,
auser
auser
 
Posts: 148
Joined: Thu May 07, 2009 4:20 pm

Re: Proxy für Crawler

Postby Wolf » Sat May 23, 2009 5:15 pm

Hallo auser,

auser wrote:ich würde gerne einen Proxy für den Crawler benutzen.


Naja, wir haben da das Konzept der Raw Sockets, was ich ja gerade (vorläufig) deaktiviert habe.
Dashalb ist jetzt die Checkbox "passive crawling" im Crawler-Tab ausgegraut. Das Ganze funktioniert so, das jeder HTTP Traffic des Rechners dem Crawler zugeleitet wird.
Im Prinzip wie ein Proxy, nur mit dem Vorteil dass nichts konfiguriert werden muss und dass keine Veränderungen und Inkompatibilitäten durch den Proxy entstehen.

Wie es aussieht gab es unerwünschte Nebenwirkungen durch den Parallelbetrieb von aktivem Crawler und passivem Crawling über Raw Sockets. Evtl. haben auch die vielen abgelehnten eingehenden Store-Request den passiven Crawler aus dem Gleichgewicht gebracht. Hier müssen wir also nochmal ran.

Bei relativ kleiner Userbasis ist das aktive Crawling in jedem Fall effektiver, weil es sich um eine abgestimmte, konzertierte Aktion der einzelnen Peers handelt, die sicherstellt das das Web in kürzestmöglicher Zeit abgegrast wird und es keine Überschneidungen zwischen den Peers gibt.
Ähnlich wie bei einem Heuschreckenschwarm ;) http://blog.faroo.com/?p=39

Gruß,
Wolf
Wolf
Site Admin
 
Posts: 130
Joined: Wed Dec 17, 2008 12:28 pm

Re: Proxy für Crawler

Postby auser » Sat May 23, 2009 5:32 pm

Hallo Wolf

Wolf wrote:Naja, wir haben da das Konzept der Raw Sockets, was ich ja gerade (vorläufig) deaktiviert habe.

Habe mal etwas im Netz gesucht und dabei entdeckt das die Raw Sockets unter XP SP3 entfernt oder zumindest nur eingeschränkt funktionieren. Bringt es dann noch was die Raw Sockets zu verwenden ?

Den Proxy für den Crawler hätte ich gerne weil "Deutschland gerade Amok läuft" und ich deswegen lieber über Tor crawlen würde, man weiß ja nicht wohin die Reise geht.

Viele Grüße,
auser
Last edited by auser on Sat May 23, 2009 5:57 pm, edited 1 time in total.
auser
 
Posts: 148
Joined: Thu May 07, 2009 4:20 pm

Re: Proxy für Crawler

Postby Wolf » Sat May 23, 2009 5:55 pm

Hallo auser,

auser wrote:
Wolf wrote:Naja, wir haben da das Konzept der Raw Sockets, was ich ja gerade (vorläufig) deaktiviert habe.

Habe mal etwas im Netz gesucht und dabei entdeckt das die Raw Sockets unter XP SP3 entfernt oder zumindest nur eingeschränkt funktionieren. Bringt es dann noch was die Raw Sockets zu verwenden ?

Ja, das ist leider ein Thema, das MS die Nachhaltigkeit der eigenen Schnittstelle geopfert hat. Entscheidend ist wo die Reise mit Windows 7 hingeht :?:

auser wrote:Den Proxy für den Crawler hätte ich gerne weil "Deutschland gerade Amok" läuft und ich dann lieber über Tor crawlen würde. Man weiß ja nicht wohin die Reise geht.

Ja, ich verfolge die Diskussion auch, ist ein globale Tendenz. Unter diesem Aspekt ist eine Trennung zwischen der ohnehin sicheren DHT Kommunikation und dem Lesen der Webseiten für den Crawler (als einzigem offenen Angriffspunkt) sicher sinnvoll (und kein großer Aufwand ;) ).

Viele Grüße,
Wolf
Wolf
Site Admin
 
Posts: 130
Joined: Wed Dec 17, 2008 12:28 pm

Re: Proxy für Crawler

Postby auser » Sat May 23, 2009 6:04 pm

Hallo again ;)

Wolf wrote:
auser wrote:
Wolf wrote:Naja, wir haben da das Konzept der Raw Sockets, was ich ja gerade (vorläufig) deaktiviert habe.

Habe mal etwas im Netz gesucht und dabei entdeckt das die Raw Sockets unter XP SP3 entfernt oder zumindest nur eingeschränkt funktionieren. Bringt es dann noch was die Raw Sockets zu verwenden ?

Ja, das ist leider ein Thema, das MS die Nachhaltigkeit der eigenen Schnittstelle geopfert hat. Entscheidend ist wo die Reise mit Windows 7 hingeht :?:

Also meine Glaskugel sagt mir das Windows XP so schnell nicht verschwindet und Raw Sockets unter Windows 7 wird es nicht geben, oder nur sehr eingeschränkt. Das ist MS bestimmt zu unsicher.

Viele Grüße,
auser
auser
 
Posts: 148
Joined: Thu May 07, 2009 4:20 pm

Re: Proxy für Crawler

Postby Wolf » Mon May 25, 2009 11:18 am

Hallo auser,

auser wrote:ich würde gerne einen Proxy für den Crawler benutzen.


Unter Options / Crawler / Crawler Options kann man jetzt einen HTTP Proxy für den Crawler angeben.
Für Tor / Privoxy vorkonfiguriert, aber per Default deaktiviert.

Außerdem gibt es unter Options / General jetzt eine Option für das Auto-Update ;) .

Eine Testversion gibts hier:
http://www.faroo.com/download/faroo_setup_3431.exe

Viele Grüße,
Wolf
Wolf
Site Admin
 
Posts: 130
Joined: Wed Dec 17, 2008 12:28 pm

Re: Proxy für Crawler

Postby auser » Mon May 25, 2009 5:32 pm

Hallo Wolf,

Wolf wrote:Unter Options / Crawler / Crawler Options kann man jetzt einen HTTP Proxy für den Crawler angeben.
Für Tor / Privoxy vorkonfiguriert, aber per Default deaktiviert.

Außerdem gibt es unter Options / General jetzt eine Option für das Auto-Update ;) .

Danke, funktioniert auch beides :)

Viele Grüße,
auser
auser
 
Posts: 148
Joined: Thu May 07, 2009 4:20 pm


Return to Ideas

Who is online

Users browsing this forum: No registered users and 1 guest

cron