v0.3.3

AI Vision & PDF Chat

Bildanalyse über multimodale Modelle und PDF-Dokumenten-Chat mit automatischem Content-Chunking.

Vision-Funktionen

Nutzer können Bilder direkt in den Chat hochladen und erhalten eine Analyse von multimodalen Modellen. Das Bild wird als Base64-kodierter Payload zusammen mit dem Text-Prompt übermittelt, sodass das Modell visuellen Inhalt auswerten kann – Diagramme, Screenshots, Charts, handschriftliche Notizen. Eine separate Vision-API oder eine vorgelagerte Verarbeitungspipeline ist nicht erforderlich.

PDF-Dokumenten-Chat

Der PDF-Chat folgt einer dreistufigen Pipeline: Hochladen, Parsen und Konversation. Dokumente werden serverseitig mit pdf-parse geparst und anschließend in Chunks aufgeteilt, die auf das Kontextfenster des Modells abgestimmt sind. Der aufgeteilte Inhalt wird als Kontext für nachfolgende Chat-Nachrichten eingefügt, sodass Nutzer Fragen zu bestimmten Abschnitten stellen können, ohne die Datei erneut hochzuladen.

Credits werden nach dem Pre-Processing (Parsen und Chunking), aber vor Beginn des Streamings abgezogen. So wird sichergestellt, dass Nutzer nur für erfolgreich verarbeitete Dokumente belastet werden, während Missbrauch durch wiederholte Upload-Versuche verhindert wird.

Turbopack-Kompatibilität

Die pdf-parse-Bibliothek hängt von pdfjs-dist ab, das dynamische Worker-Imports verwendet, die Turbopack's statische Analyse zum Absturz bringen. Ein createRequire-Loader-Modul-Pattern kapselt den nativen require()-Aufruf in einer separaten Datei, die Turbopack ignoriert – so werden Laufzeitfehler vermieden, ohne auf Webpack zurückfallen zu müssen.

Contributors

Sascha RahnSascha Rahn