Vision-Funktionen
Nutzer können Bilder direkt in den Chat hochladen und erhalten eine Analyse von multimodalen Modellen. Das Bild wird als Base64-kodierter Payload zusammen mit dem Text-Prompt übermittelt, sodass das Modell visuellen Inhalt auswerten kann – Diagramme, Screenshots, Charts, handschriftliche Notizen. Eine separate Vision-API oder eine vorgelagerte Verarbeitungspipeline ist nicht erforderlich.
PDF-Dokumenten-Chat
Der PDF-Chat folgt einer dreistufigen Pipeline: Hochladen, Parsen und Konversation. Dokumente werden serverseitig mit pdf-parse geparst und anschließend in Chunks aufgeteilt, die auf das Kontextfenster des Modells abgestimmt sind. Der aufgeteilte Inhalt wird als Kontext für nachfolgende Chat-Nachrichten eingefügt, sodass Nutzer Fragen zu bestimmten Abschnitten stellen können, ohne die Datei erneut hochzuladen.
Credits werden nach dem Pre-Processing (Parsen und Chunking), aber vor Beginn des Streamings abgezogen. So wird sichergestellt, dass Nutzer nur für erfolgreich verarbeitete Dokumente belastet werden, während Missbrauch durch wiederholte Upload-Versuche verhindert wird.
Turbopack-Kompatibilität
Die pdf-parse-Bibliothek hängt von pdfjs-dist ab, das dynamische Worker-Imports verwendet, die Turbopack's statische Analyse zum Absturz bringen. Ein createRequire-Loader-Modul-Pattern kapselt den nativen require()-Aufruf in einer separaten Datei, die Turbopack ignoriert – so werden Laufzeitfehler vermieden, ohne auf Webpack zurückfallen zu müssen.