Generative KI-Systeme werden zunehmend eingesetzt, um umfangreiche Wissensbestände in Unternehmen zugänglich zu machen. In regulierten Ingenieurumgebungen wie der Automobilentwicklung, der Luftfahrt oder der industriellen Automatisierung arbeiten solche Systeme häufig mit großen Dokumentensammlungen aus Sicherheitsanforderungen, technischen Spezifikationen, Normenwerken und internen Entwicklungsrichtlinien.
Retrieval-Augmented Generation (RAG) hat sich dabei als zentrale Architektur etabliert, um solche Wissensbestände strukturiert nutzbar zu machen. Gleichzeitig führt die Integration probabilistischer Sprachmodelle in sicherheitsrelevante Entwicklungsprozesse zu einer grundlegenden Herausforderung: klassische Verfahren der Softwareverifikation wurden für deterministische Systeme entwickelt.
Die Sicherstellung von fachlicher Korrektheit, Quellenbindung, Robustheit und Nachvollziehbarkeit erfordert daher neue Ansätze zur Bewertung generativer Systeme.
Vor diesem Hintergrund hat Automotive Artificial Intelligence (AAI) GmbH das Framework AXIOM entwickelt, ein Verfahren zur automatisierten Verifikation und Validierung von Enterprise-RAG-Systemen.
Die Herausforderung bei der Bewertung von Enterprise-RAG-Systemen
Traditionelle Bewertungsmetriken wie BLEU oder ROUGE wurden ursprünglich für Aufgaben wie maschinelle Übersetzung oder Textzusammenfassung entwickelt. Diese Verfahren messen vor allem den lexikalischen Überlapp zwischen generiertem Text und einer Referenzantwort.
Für generative Systeme in regulierten Industrieumgebungen reicht ein solcher Ansatz jedoch nicht aus.
Enterprise-RAG-Systeme müssen andere Anforderungen erfüllen. Ihre Antworten müssen fachlich korrekt sein, eindeutig auf autorisierte Dokumente zurückführbar sein, alle Aspekte einer Anfrage vollständig abdecken und auch unter komplexen oder adversarialen Eingaben stabil bleiben. Gleichzeitig müssen Unternehmen nachvollziehbare Prüfpfade und Governance-Nachweise für interne Audits und regulatorische Prüfungen bereitstellen.
Die Bewertung solcher Systeme wird damit zu einer eigenständigen ingenieurtechnischen Aufgabe.
Einführung von AXIOM
AXIOM ist ein Framework zur automatisierten Verifikation und Validierung von Retrieval-Augmented-Generation-Systemen in Unternehmensumgebungen.
Der Ansatz basiert auf einer Agentic-V-Model-Architektur, die das klassische V-Modell aus der sicherheitskritischen Systementwicklung auf generative KI-Systeme überträgt.
Anstelle statischer Testdatensätze erzeugt AXIOM dynamische Evaluationsszenarien direkt aus dem zugrunde liegenden Wissensbestand eines Unternehmens und bewertet Systemantworten entlang mehrerer Qualitätsdimensionen.
Die Architektur basiert auf drei spezialisierten Evaluationsagenten.
Ein Teacher-Agent generiert strukturierte Referenzfragen und -antworten aus dem Dokumentenkorpus.
Ein Examiner-Agent führt dynamische mehrstufige Dialogtests durch, um das Verhalten des Systems unter realistischen sowie adversarialen Interaktionssituationen zu prüfen.
Ein Judge-Agent bewertet die Antworten anhand mehrerer Kriterien, darunter fachliche Korrektheit, Quellenbindung, Vollständigkeit, Robustheit, Sicherheit, Neutralität und Nutzbarkeit.
Diese mehrschichtige Architektur ermöglicht eine systematische und reproduzierbare Verifikation generativer Systeme.
Kontinuierliche Evaluation für Enterprise-KI
AXIOM ist darauf ausgelegt, direkt in moderne CI/CD-Umgebungen integriert zu werden.
Änderungen an Modellen, Retrieval-Pipelines oder Wissensbeständen können automatisch einen vollständigen Evaluationslauf auslösen.
Auf diese Weise lassen sich Funktionsänderungen frühzeitig erkennen, Verbesserungen messen und die Qualität generativer Systeme kontinuierlich überwachen.
Gerade in sicherheitsrelevanten Anwendungsfeldern wie der Fahrzeugentwicklung, in denen generative Systeme mit regulatorischen oder technischen Spezifikationen arbeiten, ist eine solche strukturierte Evaluation entscheidend.
Regulierungskonformität und technische Governance
Das AXIOM-Framework wurde speziell für regulierte Industrieumgebungen konzipiert.
Die Architektur unterstützt strukturierte Prüfprozesse im Einklang mit etablierten Industriestandards wie ISO 26262 für funktionale Sicherheit, SOTIF-Anforderungen nach ISO 21448 sowie aktuellen Entwicklungen im Bereich der KI-Sicherheitsstandards, beispielsweise ISO/PAS 8800.
Durch die Verknüpfung von Evaluationsergebnissen mit nachvollziehbaren Dokumentquellen ermöglicht AXIOM eine überprüfbare Governance generativer KI-Systeme.
Downloadlink zum Whitepaper
Das vollständige Whitepaper beschreibt die Architektur von AXIOM, die agentenbasierte Evaluationsmethodik sowie die Integration in industrielle Entwicklungsprozesse im Detail.