v0.2.0

RAG-System

Dokument-Upload und kontextbewusster Chat, angetrieben durch Vector Embeddings und Retrieval Augmented Generation.

Das Boilerplate wird jetzt mit einer vollständig integrierten RAG-Pipeline ausgeliefert. Du kannst PDF- und Plaintext-Dokumente hochladen, die automatisch in Chunks aufgeteilt, eingebettet und in Pinecone gespeichert werden. Wenn du eine Frage im AI-Chat stellst, führt das System eine semantische Suche im Vector-Index durch, ruft die relevantesten Dokumentenfragmente ab und injiziert sie als Kontext in den LLM-Prompt, bevor eine Antwort generiert wird.

Die Dokumentenverarbeitung verwendet eine Sliding-Window-Chunking-Strategie mit konfigurierbarem Overlap, um den Kontext über Chunk-Grenzen hinweg zu erhalten. Jeder Chunk wird über den konfigurierten Provider eingebettet und zusammen mit Metadaten (Quelldateiname, Seitenzahl, Chunk-Index) gespeichert, sodass Antworten ihre Herkunft zitieren können. Der Retrieval-Schritt bewertet Ergebnisse nach Cosinus-Ähnlichkeit und wendet einen Relevanzschwellenwert an, um das Einschleusen von Rauschen zu vermeiden.

Dies ist ein Minor-Version-Bump, da RAG eine bedeutende neue Funktionsoberfläche darstellt. Es berührt die Upload-API, die Hintergrundverarbeitung, den Vector-Speicher und die Chat-Completion-Pipeline. Die Architektur ist provider-agnostisch: Um Pinecone gegen einen anderen Vector-Store auszutauschen, muss lediglich ein einzelner Adapter geändert werden.

Contributors

Sascha RahnSascha Rahn