Machine-Learning Projekt im SoSe 2025 CSM Master, HdM-Stuttgart in Kooperation mit dem Zentrum für Solar und Wasserstoffforschung (ZSW) Stuttgart.
Als datenschutzkonforme Alternative zu ChatGPT möchte das ZSW seinen MitarbeiterInnen einen im eigenen Rechenzentrum gehosteten ChatZSW auf Basis eines vortrainierten LLAMA 3-Modells bereitstellen. Damit dieser zielgerichtet und korrekt auf fachspezifischen Fragestellungen innerhalb des ZSW antworten kann, sollen in einem RAG-System institutsinterne Informationsquellen an das LLM angebunden werden.
Aufgabe und Ziel
Im Rahmen dieses Projekts soll eine Pipeline auf Basis der Python-Library langchain aufgebaut werden, die das LLAMA 3-Modell mit einer Vektordatenbank verbindet. Hierbei soll anhand von Experimenten
1. die für die spezifischen Informationsquellen und Einsatzszenarien des ZSW sinnvollste Kombination von Techniken des Embeddings, Chunkings und Retrievals herausgefunden werden.
2. Als Stretch-Goal soll in weiterführenden Experimenten untersucht werden, ob mit Techniken des Pre-/Post-Retrievals (z.B. Filtering) weitere Verbesserungen erzielt werden können.
Wir versprechen uns von diesem Semesterprojekt einen praxisbezogenen Einstieg in die LLM- und Vektordatenbank-Technologien. Den Experimenten wird deshalb eine Literaturrecherche zum Thema RAG-Systeme und die Einarbeitung in die Technologien vorausgehen. Die im Rahmen des Semester-Projekts gewonnen Erkenntnisse sollen am Ende dem ZSW zugute kommen und als Basis für die weitere Entwicklung des internen ChatBot-Systems dienen.
Datenbasis
Perspektivisch sollen verschiedene ZSW-interne Datenquellen (ZSW-Wiki, Intranet, noch nicht veröffentlichte wissenschaftliche Paper) regelmäßig neu in das RAG-System eingebunden werden. Für dieses Projekt wird jedoch vom ZSW zunächst ein fester, öffentlicher Datensatz bereitgestellt, welcher als Basis für die Experimente dient. Es handelt sich um >100 wissenschaftliche Veröffentlichungen auf englischer Sprache zum Forschungsthemen des ZSWs in Form von PDF-Dateien. Zusätzlich soll ein Snapshot der offiziellen Website des ZSWs mit einfließen.
Performance-Measure
Die Antwortgeschwindigkeit/bzw. die benötigte Rechenpower stellt einen ersten Performance-Indikator dar. Da die Qualität der Antworten eines Chatbots darüber hinaus meist nur subjektiv beurteilt werden kann, ist zentraler Bestandteil des Projekts, zunächst Methoden und Indikatoren zur Messung der Qualität für die Auswertung der Experimente zu entwerfen (Die Einbindung von Mitarbeitenden des ZSW oder der Einsatz eines Judge-LLM wäre hier denkbar.) Da von einer allgemein guten Textformulierungsleistung des verwendeten LLMs ausgegangen werden kann, soll hauptsächlich die korrekte Wiedergabe von Fakten aus den angebundenen ZSW-Informationsquellen beurteilt werden.
Umgebung des zu implementierenden Systems
Für die Umsetzung der Pipeline und Durchführung der Experimente steht seitens des ZSW ein Linux-Server mit ausreichend GPU-Kapazitäten zur Verfügung (NVIDIA H100 GPU mit 80gb VRAM). Der Fokus liegt auf den Experimenten zur Optimierung der Verbindung zwischen LLM und der Vektordatenbank. Auf die Live-Anbindung der Informationsquellen (Wiki, Intranet, etc.) an das Projekt, so wie eine graphische Chat-Oberfläche wird deshalb in diesem Rahmen verzichtet und nur mit dem vom ZSW bereitgestellten exemplarischen Daten-Snapshot gearbeitet.
Projektarbeit
SS2025
Medieninformatik (Bachelor, 7 Semester)
Team |
Anton Stötzer, Niklas Vinterstad |
Betreuer |
Johannes Maucher |
Kooperationspartner |
Jessica Hofmann - Zentrum für Sonnenenergie- und Wasserstoff-Forschung Baden-Württember (ZSW) |