Wie gut ist meine RAG-Pipeline wirklich und lässt sich das objektiv messen? Dieser Frage sind wir am 29.01.26 mit etwa 40 Teilnehmenden im Rahmen unserer JENA.AI Live Workshop-Reihe nachgegangen. Im Fokus stand die praxisnahe Evaluation von RAG-Pipelines. Gemeinsam haben wir nicht nur die Qualität generierter Antworten betrachtet, sondern auch den vom RAG extrahierten Kontext messbar gemacht. Das ist besonders relevant für alle, die RAG-Systeme produktiv einsetzen, weiterentwickeln oder verschiedene Ansätze vergleichen möchten. Anhand von Toy-Examples, Diskussionen und Hands-on-Sessions haben wir mit der RAGAS Library an konkreten Metriken gearbeitet. In der Praxis heißt das, Schwachstellen im Retrieval oder in der Antwortgenerierung gezielt zu identifizieren und Verbesserungen nachvollziehbar zu überprüfen. Weg vom Bauchgefühl, hin zu fundierten Entscheidungen auf Basis messbarer Kriterien wie faktischer Korrektheit, semantischer Ähnlichkeit und Kontext-Relevanz. Vielen Dank an Dr. Oliver Mothes für den starken Input sowie an alle Teilnehmenden für den offenen Austausch und das aktive Mitdenken. JENA.AI Live steht für KI zum Anfassen, Verstehen und Anwenden. Vom ersten Prompt bis zum eigenen Prototyp.

