shadowcat hat geschrieben:Ich denke, das Hauptproblem ist, dass fertige Search Engines fertige (=gerenderte) Seiten durchsuchen. Wir brauchen aber eigentlich was, das es den Modulen überläßt, was in den Index kommt und was nicht. Es sei denn, wie stellen diesen Ansatz komplett um.
Eine fertige, brauchbare Library habe ich bisher nicht gefunden, abgesehen von ZendSearch_Lucene.
Ja, wir brauchen was, das die Module einbindet. Das momentane Konzept ist allerdings nicht gut. Mal abgesehen von dem unglaublichen Overhead den die aktuelle Suche auf der Grund der endlosen Zeichensatzorgien hat, ist es nicht geschickt, erst die Module suchen zu lassen, sie dann ein Ergebnis zurückliefern zu lassen, dass dann noch mal geparst wird.
Ins Grobe gedacht:
Die Module erstellen eine vollständige Zusammenfassung, nur TEXT von jedem für sie relevanten Index und liefern optional auch noch ein Bildchen dazu.
Diese Zusammenfassung schieben sie in die Search Engine und erhalten eine ID zurück.
Die Search Engine nutzt die Zusammenfassungen für eine Volltextsuche und bildet daraus (Täglich, Stündlich ... nach Bedarf) einen Index der für eine Echtzeitsuche genutzt wird.
Die Treffer im Suchergebnis werden mit der ID der Module verlinkt.
Wird ein Treffer aufgerufen, fordert die Search Engine mit Hilfe der ID den Inhalt beim Modul an und baut die Zielseite auf.