YaCy-Bugtracker

View Issue Details Jump to Notes ] Issue History ] Print ]
IDProjectCategoryView StatusDate SubmittedLast Update
0000115YaCy[All Projects] Generalpublic2011-12-27 18:262016-09-29 01:53
Reportergack 
Assigned ToBuBu 
PrioritynormalSeverityminorReproducibilityalways
StatusresolvedResolutionfixed 
ETAnone 
PlatformOSOS Version
Product VersionYaCy 1.0 
Target VersionFixed in Version 
Summary0000115: "no parser found" bei XML-Dokumenten
DescriptionBestimmte Dokumente/Seiten werden nicht geparsed

Beispiele:
http://www.worldcat.org/identities/lccn-n81-74650 [^]
http://www.worldcat.org/identities/lccn-n96-101658 [^]

Es handelt sich dabei um XML-Dokumente vom Typ "text/xml".

Quelltextbeispiel: "<?xml version="1.0" ?>
<?xml-stylesheet type="text/xsl" href="/identities/NameFinderResponse.xsl"?>
<Identity type="personal" xmlns=""><creationtime>Wed Nov 17 06:37:48 2010 UTC</creationtime><pnkey>lccn-n81-74650</pnkey> ..."

wget http://www.worldcat.org/identities/lccn-n81-74650 [^]
asking libproxy about url 'http://www.worldcat.org/identities/lccn-n81-74650' [^]
libproxy suggest to use 'direct://' [^]
--2011-12-27 18:17:46-- http://www.worldcat.org/identities/lccn-n81-74650 [^]
Auflösen des Hostnamen »www.worldcat.org«.... 132.174.11.84
Verbindungsaufbau zu www.worldcat.org|132.174.11.84|:80... verbunden.
HTTP Anforderung gesendet, warte auf Antwort... 200 OK
Länge: nicht spezifiziert [text/xml]
In »»lccn-n81-74650«« speichern.

Auf der Parser-Konfigurationsseite (http://localhost:8090/ConfigParser.html [^]) gibt es auch keinen Eintrag für "text/xml".

Steps To ReproduceEine der oben angegeben Beispiel-URLs crawlen.
TagsNo tags attached.
Attached Files

- Relationships

-  Notes
(0001314)
BuBu (developer)
2016-09-29 01:53

Bei heutigem Test waren die Beispielseiten inzwischen html Seiten

<!DOCTYPE html
  PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> [^]
<html xmlns="http://www.w3.org/1999/xhtml"> [^]

und beide konnten erfolgreich gecrawled.

text/xml ist mit commit https://github.com/yacy/yacy_search_server/commit/efcb6a1e74cd814db981d3b4a39ee6c1fa8d609a [^] als Mime unter RSS Parser gelistet.

- Issue History
Date Modified Username Field Change
2011-12-27 18:26 gack New Issue
2016-09-29 01:53 BuBu Note Added: 0001314
2016-09-29 01:53 BuBu Status new => resolved
2016-09-29 01:53 BuBu Resolution open => fixed
2016-09-29 01:53 BuBu Assigned To => BuBu


Copyright © 2000 - 2018 MantisBT Team
Powered by Mantis Bugtracker