Strict Standards: date(): It is not safe to rely on the system's timezone settings. You are *required* to use the date.timezone setting or the date_default_timezone_set() function. In case you used any of those methods and you are still getting this warning, you most likely misspelled the timezone identifier. We selected 'America/New_York' for 'EDT/-4.0/DST' instead in /homepages/20/d268022878/htdocs/forum/viewtopic.php on line 988

Strict Standards: getdate(): It is not safe to rely on the system's timezone settings. You are *required* to use the date.timezone setting or the date_default_timezone_set() function. In case you used any of those methods and you are still getting this warning, you most likely misspelled the timezone identifier. We selected 'America/New_York' for 'EDT/-4.0/DST' instead in /homepages/20/d268022878/htdocs/forum/viewtopic.php on line 988
[phpBB Debug] PHP Notice: in file /includes/functions.php on line 4284: Cannot modify header information - headers already sent by (output started at /viewtopic.php:988)
[phpBB Debug] PHP Notice: in file /includes/functions.php on line 4286: Cannot modify header information - headers already sent by (output started at /viewtopic.php:988)
[phpBB Debug] PHP Notice: in file /includes/functions.php on line 4287: Cannot modify header information - headers already sent by (output started at /viewtopic.php:988)
[phpBB Debug] PHP Notice: in file /includes/functions.php on line 4288: Cannot modify header information - headers already sent by (output started at /viewtopic.php:988)
FAROO Forum • View topic - Crawler bleibt hängen und mehr

Crawler bleibt hängen und mehr

Bug reports

Crawler bleibt hängen und mehr

Postby auser » Wed Feb 03, 2010 11:49 am

Mit der Version 2.0.3512 bleibt nach einer gewissen Zeit der Crawler stehen obwohl die Queue voll ist. Der Crawler läuft über einen Proxy. Nach einen Neustart geht es dann wieder.

Auch kommt es vor das bei einem Aufruf einer "Kontinuierliche Suche" FAROO nicht reagiert. Dann reicht aber meistens den Aufruf abzubrechen und es nochmal zu versuchen. Manchmal dauert es aber auch nur 5 Minuten was aber bestimmt nicht so sein sollte.

Vielleicht sind zu viele Verbindungen gleichzeitig offen. Aktuell habe ich 213 (167.936) aktive Peers. Kann man die maximale Anzahl nicht begrenzen und für die "GUI" ein paar Verbindungen reservieren?

Bei mir ist ja "Pause on user activity" deaktiviert. FAROO sollte aber trotzdem bei einer Suche, egal ob lokal oder von außen, alles andere solange pausieren. Es müsste ja möglich sein jeden Thread kurzzeitig anzuhalten.

Und soll das so sein das URLs wie "...google.../search?..." in der Queue sind?
auser
 
Posts: 148
Joined: Thu May 07, 2009 4:20 pm

Re: Crawler bleibt hängen und mehr

Postby Wolf » Wed Feb 03, 2010 12:44 pm

auser wrote:Mit der Version 2.0.3512 bleibt nach einer gewissen Zeit der Crawler stehen obwohl die Queue voll ist.

Wahrscheinlich ist das kein Fehler. Der Crawler arbeitet nur Seiten aus der Queue ab, wenn in Index / Words in Cache = 0 ist.
Das heisst es werden nur wenige Seiten gecrawlt, dann wird erst gewartet bis alle Daten von diesen Seiten an die anderen Peers verteilt ist.
Das kann eine Weile dauerrn, und sieht dann evtl. wie hängen aus.

auser wrote:Vielleicht sind zu viele Verbindungen gleichzeitig offen. Aktuell habe ich 213 (167.936) aktive Peers. Kann man die maximale Anzahl nicht begrenzen und für die "GUI" ein paar Verbindungen reservieren?

Es werden ja keine 213 Verbindungen parallel geöffnet/gehalten. Es sind maximal 50 gleichzeitig eingehende Verbindungen erlaubt (davon maximal 20 fürs indexieren), und 10 ausgehende. GUI Verbindungen werden immer erlaubt.

auser wrote:Bei mir ist ja "Pause on user activity" deaktiviert. FAROO sollte aber trotzdem bei einer Suche, egal ob lokal oder von außen, alles andere solange pausieren. Es müsste ja möglich sein jeden Thread kurzzeitig anzuhalten.

Ja, schauen wir uns an.

auser wrote:Und soll das so sein das URLs wie "...google.../search?..." in der Queue sind?

So mit den Punkten? Kannst du bitte einen Auszug aus der CrawlerQueue.xml posten?
Wolf
Site Admin
 
Posts: 130
Joined: Wed Dec 17, 2008 12:28 pm

Re: Crawler bleibt hängen und mehr

Postby auser » Wed Feb 03, 2010 1:21 pm

Wolf wrote:
auser wrote:Mit der Version 2.0.3512 bleibt nach einer gewissen Zeit der Crawler stehen obwohl die Queue voll ist.

Wahrscheinlich ist das kein Fehler. Der Crawler arbeitet nur Seiten aus der Queue ab, wenn in Index / Words in Cache = 0 ist.
Das heisst es werden nur wenige Seiten gecrawlt, dann wird erst gewartet bis alle Daten von diesen Seiten an die anderen Peers verteilt ist.
Das kann eine Weile dauerrn, und sieht dann evtl. wie hängen aus.

Das waren mehr als 15 Minuten, für sieht mich sieht das verdächtig aus. Beim nächsten blockieren werde ich mir den Wort Cache angucken.

Wolf wrote:
auser wrote:Vielleicht sind zu viele Verbindungen gleichzeitig offen. Aktuell habe ich 213 (167.936) aktive Peers. Kann man die maximale Anzahl nicht begrenzen und für die "GUI" ein paar Verbindungen reservieren?

Es werden ja keine 213 Verbindungen parallel geöffnet/gehalten. Es sind maximal 50 gleichzeitig eingehende Verbindungen erlaubt (davon maximal 20 fürs indexieren), und 10 ausgehende. GUI Verbindungen werden immer erlaubt.

War ja nur ein "vielleicht", aber ein Grund muss es ja geben, das passiert nicht immer, kommt aber vor das FAROO nicht, oder sehr sehr spät reagiert.

Wolf wrote:
auser wrote:Bei mir ist ja "Pause on user activity" deaktiviert. FAROO sollte aber trotzdem bei einer Suche, egal ob lokal oder von außen, alles andere solange pausieren. Es müsste ja möglich sein jeden Thread kurzzeitig anzuhalten.

Ja, schauen wir uns an.

Schön, es reicht vielleicht wenn die Threads die auf die Festplatte zugreifen angehalten werden. Die sollten am meisten stören.

Wolf wrote:
auser wrote:Und soll das so sein das URLs wie "...google.../search?..." in der Queue sind?

So mit den Punkten? Kannst du bitte einen Auszug aus der CrawlerQueue.xml posten?

Nein ohne Punkte. Das waren ganz normale Google-Such-URLs wie diese http://www.google.de/search?hl=de&source=..., nur das diese aus China waren.

Habe noch ein Eintrag gefunden
<links>
<url>http://www.google.cn/search?complete=1&amp;hl=zh-CN&amp;q=site:www.novelking.com.cn+%E7%B4%AB%E7%BD%97%E5%85%B0%E7%9A%84%E7%BA%A6%E5%AE%9A</url>
<region>CN</region>
<proximity>true</proximity>
<indexRoot>true</indexRoot>
<depth>-1</depth>
<primaryKey />
<resultPage>0</resultPage>
<timeout>15000</timeout>
<local>false</local>
<global>true</global>
<indexLinksShallow>false</indexLinksShallow>
</links>

Bei den anderen wurde nach Wörtern gesucht. Wenn ich wieder welche bemerke schreibe ich die hier rein.

Edit:
Nach dem abschicken dieser Nachricht ist die URL "http://www.google.de/search?hl=de&source=..." von oben in der meiner Queue gelandet.
auser
 
Posts: 148
Joined: Thu May 07, 2009 4:20 pm

Re: Crawler bleibt hängen und mehr

Postby auser » Wed Feb 03, 2010 8:04 pm

So, der Crawler hat wieder nichts gemacht. Es war aber so wie du geschrieben hast das der Wort Cache nicht leer war. Allerdings hat sich da auch nach über 30 Minuten nichts geändert. Das kann doch nicht richtig sein, oder doch?
auser
 
Posts: 148
Joined: Thu May 07, 2009 4:20 pm

Re: Crawler bleibt hängen und mehr

Postby Wolf » Wed Feb 03, 2010 8:35 pm

auser wrote:So, der Crawler hat wieder nichts gemacht. Es war aber so wie du geschrieben hast das der Wort Cache nicht leer war. Allerdings hat sich da auch nach über 30 Minuten nichts geändert.

Danke für die Info. Es wurden keine neuen Seiten gecrawlt oder hat sich auch die Zahl in "Words in Cache" überhaupt nicht geändert während der 30 min?
Der Peer ist connected (grün) und "Pause on user activity" ist deaktiviert?
Das sollte dann nicht sein. Ich werde morgen mal wieder eine Version mit aktiviertem Logging bereitstellen.
Wolf
Site Admin
 
Posts: 130
Joined: Wed Dec 17, 2008 12:28 pm

Re: Crawler bleibt hängen und mehr

Postby auser » Wed Feb 03, 2010 10:25 pm

Wolf wrote:
auser wrote:So, der Crawler hat wieder nichts gemacht. Es war aber so wie du geschrieben hast das der Wort Cache nicht leer war. Allerdings hat sich da auch nach über 30 Minuten nichts geändert.

Danke für die Info. Es wurden keine neuen Seiten gecrawlt oder hat sich auch die Zahl in "Words in Cache" überhaupt nicht geändert während der 30 min?

keine neue Seiten
Wort-Cache immer bei 42
Threads immer bei 0
Queue gut gefüllt

Wolf wrote:Der Peer ist connected (grün) und "Pause on user activity" ist deaktiviert?

Ja
auser
 
Posts: 148
Joined: Thu May 07, 2009 4:20 pm

Re: Crawler bleibt hängen und mehr

Postby auser » Thu Feb 04, 2010 11:45 am

So, jetzt auch bei leeren Wort-Cache.

keine neue Seiten
Wort-Cache immer bei 0
Threads immer bei 0
Queue 538, keine Änderungen

Edit:

Ok, habe jetzt zufällig zum richtigen Zeitpunkt hin geguckt. Während mein Peer dabei war Daten hochzuladen, ging er kurzzeitig Offline (also rot), manchmal wechselte das auch kurz hintereinander. Danach funktioniert der Peer bis auf DHT-out, und somit bleibt auch der Crawler hängen.
auser
 
Posts: 148
Joined: Thu May 07, 2009 4:20 pm

Re: Crawler bleibt hängen und mehr

Postby auser » Thu Feb 04, 2010 3:50 pm

Hier nochmal eine (kleine) Suchmaschine

<links>
<url>http://www.baidu.com/s?wd=%E5%89%91%E5%BD%92%E4%BD%95%E5%87%A6%E4%B8%8B%E8%BD%BD</url>
<region>CN</region>
<proximity>true</proximity>
<indexRoot>true</indexRoot>
<depth>-1</depth>
<primaryKey />
<resultPage>0</resultPage>
<timeout>15000</timeout>
<local>false</local>
<global>true</global>
<indexLinksShallow>false</indexLinksShallow>
</links>
auser
 
Posts: 148
Joined: Thu May 07, 2009 4:20 pm

Re: Crawler bleibt hängen und mehr

Postby Wolf » Thu Feb 04, 2010 9:15 pm

auser wrote:So, jetzt auch bei leeren Wort-Cache.
... Während mein Peer dabei war Daten hochzuladen, ging er kurzzeitig Offline (also rot), manchmal wechselte das auch kurz hintereinander. Danach funktioniert der Peer bis auf DHT-out, und somit bleibt auch der Crawler hängen.

Ich hab im Lab eine Version mit Logging bereitgestellt. Vielleicht kann man ja dort sehen woran es liegt.
Wolf
Site Admin
 
Posts: 130
Joined: Wed Dec 17, 2008 12:28 pm

Re: Crawler bleibt hängen und mehr

Postby auser » Fri Feb 05, 2010 12:11 am


...Edited for privacy...
05.02.2010 00:34:25 Result Page exception: Eine Ausnahme vom Typ "System.OutOfMemoryException" wurde ausgelöst.


Hier ist FAROO abgestürzt.


oder das


...Edited for privacy...
05.02.2010 00:54:13 LookupNode exception: Eine Ausnahme vom Typ "System.OutOfMemoryException" wurde ausgelöst.
...Edited for privacy...

05.02.2010 00:54:17 listener exception Eine Ausnahme vom Typ "System.OutOfMemoryException" wurde ausgelöst.
05.02.2010 00:54:17 listener exception Eine Ausnahme vom Typ "System.OutOfMemoryException" wurde ausgelöst.
05.02.2010 00:54:17 listener exception Eine Ausnahme vom Typ "System.OutOfMemoryException" wurde ausgelöst.
05.02.2010 00:54:17 listener exception Eine Ausnahme vom Typ "System.OutOfMemoryException" wurde ausgelöst.
05.02.2010 00:54:17 listener exception Eine Ausnahme vom Typ "System.OutOfMemoryException" wurde ausgelöst.
05.02.2010 00:54:17 listener exception Eine Ausnahme vom Typ "System.OutOfMemoryException" wurde ausgelöst.
...Edited for privacy...

05.02.2010 00:54:18 listener exception Eine Ausnahme vom Typ "System.OutOfMemoryException" wurde ausgelöst.
05.02.2010 00:54:19 listener exception Eine Ausnahme vom Typ "System.OutOfMemoryException" wurde ausgelöst.
05.02.2010 00:54:19 listener exception Eine Ausnahme vom Typ "System.OutOfMemoryException" wurde ausgelöst.

...Edited for privacy...

...

FAROO lief weiter, Crawler aber nicht.
auser
 
Posts: 148
Joined: Thu May 07, 2009 4:20 pm

Next

Return to Bugs

Who is online

Users browsing this forum: No registered users and 1 guest

cron