# Datenbasis erstellen

Über den Menüpunkt Datenimport gelangen Sie zu einem Überblick über die aktuellen Korpora.

Ein Korpus kann aus mehreren Dokumenten bestehen. Bei einer Website sind dies die einzelnen Unterseiten, bei einer PDF-Sammlung sind dies die einzelnen PDF-Dokumente. Ein Dokument wiederum besteht aus vielen Chunks. Dies sind die beim Crawling identifizierten und extrahierten Textabschnitte, für die Embeddings berechnet werden und die für die Beantwortung von Fragen herangezogen werden. In der Übersicht ist für jedes Korpus angegeben, wie viele Dokumente es enthält und für jedes Dokument wiederum angegeben, wie viele Einträge (also Chunks) es enthält.

# Datenquelle bestimmen

Mit Klick auf Neue Datenquelle einlesen bzw. + Hinzufügen (wenn schon Korpora vorhanden sind) starten Sie den Prozess zur Aufbereitung der Daten. Im ersten Schritt können Sie die von Ihnen gewünschte Website-URL angeben oder per Drag & Drop Dokumente hochladen und mit Klick auf Los geht's das Webscraping bzw. das Dokumentenparsing starten.

# Webscraping bzw. Dokumentenparsing und Vektorisierung

Beim Webscraping bzw. Dokumentenparsing werden die Inhalte einer Website bzw. eines Dokuments extrahiert. Bei der Vektorisierung werden die Ähnlichkeiten zwischen verschiedenen Textabschnitten berechnet. Bei einer Website werden alle Seiten gecrawled, die unter der angegebenen "Seed-URL" zu finden sind. Da das Webscraping bzw. Dokumentenparsing abhängig und die Berechnung der Embeddings von der Größe der Website bzw. des Dokuments einige Minuten bis zu wenige Stunden dauern kann, können Sie sich per E-Mail benachrichtigen lassen, wenn der Vorgang abgeschlossen ist.

Bei Bedarf können Sie den Prozess abbrechen und mit den bisher gecrawlten Inhalten arbeiten oder die bisher gecrawlten Inhalte löschen:

Sobald der Prozess abgeschlossen ist, können Sie die Daten aktivieren und so der Wissensbasis des KI-Assistenten zur Verfügung stellen. Mit Klick auf Chatbot ausprobieren öffnet sich das Chatfenster auf der rechten Bildschirmseite und Sie können erste Testfragen stellen. Mit Klick auf Chatbot systematisch testen gelangen Sie zum Testkatalog. Informationen zum systematischen Testing finden Sie unter Testing .