Wissensdatenbank
Trainiere deinen Bot mit eigenen Inhalten: Dokumente, Websites, manueller Text und API-Quellen.
Übersicht
Die Wissensdatenbank ist das Herzstück deines Bots. Hier hinterlegst du alle Inhalte, aus denen der Bot seine Antworten generiert. Je besser und umfangreicher die Wissensdatenbank, desto genauer und hilfreicher die Antworten deines Bots.
Quellentypen
| Typ | Formate | Max. Größe | Beschreibung |
|---|---|---|---|
| Dokument | PDF, DOCX, TXT | 10 MB / Datei | Direkt hochgeladene Dateien |
| Website-Crawler | URL | 500 Seiten | Automatisches Crawlen einer Website |
| Manueller Text | Freitext | 50.000 Zeichen | FAQ-Einträge oder freier Text |
| API-Quelle | JSON Endpoint | - | Dynamische Daten aus einer externen API |
Dokumente hochladen
Navigiere zu Wissensdatenbank → Dokumente → „Dokument hochladen" und wähle eine oder mehrere Dateien aus:
- PDF – Textbasierte PDFs werden automatisch extrahiert. Gescannte PDFs werden per OCR verarbeitet (Pro-Plan).
- DOCX – Word-Dokumente inklusive Formatierung, Tabellen und Listen.
- TXT – Einfache Textdateien werden direkt importiert.
Website-Crawler
Der Website-Crawler durchsucht automatisch alle Seiten einer Website und extrahiert den Textinhalt. So funktioniert es:
- Gehe zu Wissensdatenbank → „Website crawlen"
- Gib die Start-URL ein (z. B. https://example.com)
- Konfiguriere die Einstellungen:
- Klicke auf „Crawling starten"
| Einstellung | Standard | Beschreibung |
|---|---|---|
| Maximale Seiten | 100 | Maximale Anzahl der zu crawlenden Seiten (max. 500) |
| Tiefe | 3 | Maximale Link-Tiefe ab der Start-URL |
| Gleiche Domain | Ja | Nur Seiten der gleichen Domain crawlen |
| URL-Muster | - | Regex-Pattern zum Filtern von URLs (z. B. /blog/.*) |
| Ausschluss-Muster | - | Regex-Pattern zum Ausschließen von URLs |
| Automatisch aktualisieren | Nein | Crawling regelmäßig wiederholen (wöchentlich) |
Manueller Text
Für FAQ-Einträge, Richtlinien oder spezifische Informationen kannst du Text direkt eingeben. Das ist besonders nützlich für:
- Häufig gestellte Fragen (FAQ) mit exakten Antworten
- Firmendaten wie Öffnungszeiten, Adresse, Kontaktinformationen
- Produktinformationen, die nicht auf der Website stehen
- Interne Richtlinien für die Bot-Antworten
- Korrekturen oder Ergänzungen zu bestehenden Dokumenten
API-Quellen
Für dynamische Inhalte (z. B. aktuelle Preise, Lagerbestände) kannst du eine externe API als Quelle einbinden. Der Bot ruft die Daten bei Bedarf in Echtzeit ab.
{
"name": "Produkt-API",
"url": "https://api.example.com/products",
"method": "GET",
"headers": {
"Authorization": "Bearer {{API_TOKEN}}"
},
"refreshInterval": 3600,
"jsonPath": "$.products[*]",
"fieldMapping": {
"title": "$.name",
"content": "$.description",
"metadata": {
"price": "$.price",
"stock": "$.inStock"
}
}
}
Chunk-Editor
Alle Inhalte werden in Chunks (Textabschnitte) aufgeteilt und als Vektoren gespeichert. Im Chunk-Editor kannst du:
- Einzelne Chunks bearbeiten, um die Qualität der Antworten zu verbessern
- Chunks zusammenführen, wenn zusammenhängende Informationen getrennt wurden
- Chunks aufteilen, wenn ein Chunk zu viele verschiedene Themen enthält
- Chunks löschen, die irrelevant oder fehlerhaft sind
- Metadaten hinzufügen (z. B. Kategorie, Gültigkeitsdatum)
- Die Ähnlichkeitssuche testen: Gib eine Frage ein und sieh, welche Chunks der Bot finden würde
Best Practices
- Starte mit den 20 häufigsten Kundenfragen als manuellen Text
- Lade wichtige Dokumente wie AGB, Datenschutzerklärung und Produktkataloge hoch
- Nutze den Crawler für deine Website, aber beschränke ihn auf relevante Bereiche
- Überprüfe regelmäßig die Chunk-Qualität im Editor
- Teste den Bot nach jedem Update der Wissensdatenbank
- Halte die Wissensdatenbank aktuell – veraltete Informationen führen zu falschen Antworten
- Nutze die Ähnlichkeitssuche im Chunk-Editor um Lücken zu finden
Limits nach Plan
| Plan | Dokumente | Crawler-Seiten | API-Quellen | Gesamt-Chunks |
|---|---|---|---|---|
| Free | 5 | 50 | 0 | 500 |
| Pro | 50 | 200 | 3 | 5.000 |
| Business | 200 | 500 | 10 | 20.000 |
| Enterprise | Unbegrenzt | 1.000 | Unbegrenzt | 100.000 |