YaCy-Bugtracker

View Issue Details Jump to Notes ] Issue History ] Print ]
IDProjectCategoryView StatusDate SubmittedLast Update
0000172YaCyWishlist - Wunschlistepublic2012-03-18 23:342015-12-08 00:22
ReporterMarek 
Assigned ToBuBu 
PrioritynormalSeverityfeatureReproducibilityalways
StatusresolvedResolutionfixed 
ETAnone 
PlatformOSOS Version
Product Version 
Target VersionFixed in Version 
Summary0000172: Parser for .txt
DescriptionInhalte normaler Textfiles werden nicht indiziert.
TagsNo tags attached.
Attached Files

- Relationships

-  Notes
(0000350)
Quix0r (updater)
2012-03-21 21:39
edited on: 2012-03-21 21:40

Es sollte auch auf text/plain dann reagiert werden, auch wenn der Server dies z.B. fuer eine HTML-Datei sendet. Dies kann durchaus gewollt sein, dass der Browser den HTML-Code nur anzeigt aber nicht rendert. Hier darf auch YaCy nicht einfach sagen ".php/.jsp/.html ist immer text/html", Ausgaben dieser "dynamischen Scripte" kann sehr unterschiedlich sein (Bild, CSS, JavaScript).

Nochmals aus dem Forum wiederholt: Der Server sendet Content-Type, dann ist dies so zu fressen, wie es kommt und nicht einfach selber korregieren. Leider tut dies YaCy bei URLs wie z.B. http://some-media-wiki.url/wiki/File:Mein-Bild.jpg, [^] hier "denkt" sich YaCy, dass dies ein Bild ist, der Server aber sendet ein text/html und sollte dann auch so geparst werden (was der Firefox z.B. korrekt macht).

Wird dies nicht gesendet, "Magic-Sniffing" tun (die ersten 8-12 Bytes ranziehen und untersuchen (z.B. GIF86a + ein paar Bytes ist immer typisch fuer ein GIF-Bild usw.).

(0000363)
LA_FORGE (reporter)
2012-04-12 18:17

Es wäre super genial, wenn man große Textfiles bis zu 2 GB mit YaCy indexieren könnte die auch überhaupt keine Dateiendung haben. Aktueller Fall: Logfiles einer Datenbank-Migration in der Firma, ich muss die TXT-Endung immer manuell dranhängen. Der Inhalt ist auf jeden Fall nichts proprietäres sondern reiner Plaintext. Trotz hochgestellter max. Dateigröße ( auch -1 versucht) bricht er ab und indexiert meist nur wenige Wörter (8 bis 10). @Developer könnt ihr da was zaubern? :-)
(0001154)
BuBu (developer)
2015-12-08 00:22

Einige Änderungen wurden implementiert.
Textdateien werden indiziert
P.S. und geliefertes mime wird bei Auswahl Parser zwischenzeitlich bevorzugt.

- Issue History
Date Modified Username Field Change
2012-03-18 23:34 Marek New Issue
2012-03-21 21:39 Quix0r Note Added: 0000350
2012-03-21 21:39 Quix0r Note Edited: 0000350 View Revisions
2012-03-21 21:40 Quix0r Note Edited: 0000350 View Revisions
2012-04-12 18:17 LA_FORGE Note Added: 0000363
2015-12-08 00:22 BuBu Note Added: 0001154
2015-12-08 00:22 BuBu Status new => resolved
2015-12-08 00:22 BuBu Resolution open => fixed
2015-12-08 00:22 BuBu Assigned To => BuBu


Copyright © 2000 - 2019 MantisBT Team
Powered by Mantis Bugtracker