HdM Stage | Das Projekt- und Medienarchiv der HdM Stuttgart

ChatZSW - wissenschaftlicher RAG-Assistent für das ZSW-Forschungsinstitut

Als datenschutzkonforme Alternative zu ChatGPT möchte das ZSW seinen MitarbeiterInnen einen im eigenen Rechenzentrum gehosteten ChatZSW auf Basis eines vortrainierten LLAMA 3-Modells bereitstellen. Damit dieser zielgerichtet und korrekt auf fachspezifischen Fragestellungen innerhalb des ZSW antworten kann, sollen in einem RAG-System institutsinterne Informationsquellen und wissenschaftliche Veröffentlichungen an das LLM angebunden werden.

Zum Projekt wurden keine Video-Dateien gefunden

Beschreibung

Machine-Learning Projekt im SoSe 2025 CSM Master, HdM-Stuttgart in Kooperation mit dem Zentrum für Solar und Wasserstoffforschung (ZSW) Stuttgart.

Als datenschutzkonforme Alternative zu ChatGPT möchte das ZSW seinen MitarbeiterInnen einen im eigenen Rechenzentrum gehosteten ChatZSW auf Basis eines vortrainierten LLAMA 3-Modells bereitstellen. Damit dieser zielgerichtet und korrekt auf fachspezifischen Fragestellungen innerhalb des ZSW antworten kann, sollen in einem RAG-System institutsinterne Informationsquellen an das LLM angebunden werden.

Aufgabe und Ziel

Im Rahmen dieses Projekts soll eine Pipeline auf Basis der Python-Library langchain aufgebaut werden, die das LLAMA 3-Modell mit einer Vektordatenbank verbindet. Hierbei soll anhand von Experimenten

1. die für die spezifischen Informationsquellen und Einsatzszenarien des ZSW sinnvollste Kombination von Techniken des Embeddings, Chunkings und Retrievals herausgefunden werden.
2. Als Stretch-Goal soll in weiterführenden Experimenten untersucht werden, ob mit Techniken des Pre-/Post-Retrievals (z.B. Filtering) weitere Verbesserungen erzielt werden können.

Wir versprechen uns von diesem Semesterprojekt einen praxisbezogenen Einstieg in die LLM- und Vektordatenbank-Technologien. Den Experimenten wird deshalb eine Literaturrecherche zum Thema RAG-Systeme und die Einarbeitung in die Technologien vorausgehen. Die im Rahmen des Semester-Projekts gewonnen Erkenntnisse sollen am Ende dem ZSW zugute kommen und als Basis für die weitere Entwicklung des internen ChatBot-Systems dienen.

Datenbasis

Perspektivisch sollen verschiedene ZSW-interne Datenquellen (ZSW-Wiki, Intranet, noch nicht veröffentlichte wissenschaftliche Paper) regelmäßig neu in das RAG-System eingebunden werden. Für dieses Projekt wird jedoch vom ZSW zunächst ein fester, öffentlicher Datensatz bereitgestellt, welcher als Basis für die Experimente dient. Es handelt sich um >100 wissenschaftliche Veröffentlichungen auf englischer Sprache zum Forschungsthemen des ZSWs in Form von PDF-Dateien. Zusätzlich soll ein Snapshot der offiziellen Website des ZSWs mit einfließen.

Performance-Measure

Die Antwortgeschwindigkeit/bzw. die benötigte Rechenpower stellt einen ersten Performance-Indikator dar. Da die Qualität der Antworten eines Chatbots darüber hinaus meist nur subjektiv beurteilt werden kann, ist zentraler Bestandteil des Projekts, zunächst Methoden und Indikatoren zur Messung der Qualität für die Auswertung der Experimente zu entwerfen (Die Einbindung von Mitarbeitenden des ZSW oder der Einsatz eines Judge-LLM wäre hier denkbar.) Da von einer allgemein guten Textformulierungsleistung des verwendeten LLMs ausgegangen werden kann, soll hauptsächlich die korrekte Wiedergabe von Fakten aus den angebundenen ZSW-Informationsquellen beurteilt werden.

Umgebung des zu implementierenden Systems

Für die Umsetzung der Pipeline und Durchführung der Experimente steht seitens des ZSW ein Linux-Server mit ausreichend GPU-Kapazitäten zur Verfügung (NVIDIA H100 GPU mit 80gb VRAM). Der Fokus liegt auf den Experimenten zur Optimierung der Verbindung zwischen LLM und der Vektordatenbank. Auf die Live-Anbindung der Informationsquellen (Wiki, Intranet, etc.) an das Projekt, so wie eine graphische Chat-Oberfläche wird deshalb in diesem Rahmen verzichtet und nur mit dem vom ZSW bereitgestellten exemplarischen Daten-Snapshot gearbeitet.

Projektart

Projektarbeit

Semester

SS2025

Beteiligte Studiengänge

Medieninformatik (Bachelor, 7 Semester)

Team

Anton Stötzer, Niklas Vinterstad

Betreuer

Johannes Maucher

Kooperationspartner

Jessica Hofmann - Zentrum für Sonnenenergie- und Wasserstoff-Forschung Baden-Württember (ZSW)

Ansprechpartner

Anton Stötzer

as328@hdm-stuttgart.de

Programmierung

Python

Langchain

Microsoft Guidance

Das Projekt- und Medienarchiv der HdM

ChatZSW - wissenschaftlicher RAG-Assistent für das ZSW-Forschungsinstitut

Beschreibung

Entstehungsdetails

Projektart

Semester

Beteiligte Studiengänge

Team

Team

Betreuer

Kooperationspartner

Kontakt

Ansprechpartner

Umsetzung

Programmierung

Weitere Dateien

Audiovisuelle Medien
Audiovisuelle Medien (Master)
Bibliothek- und Informationsmanagement (Master)
Bibliotheks- und Informationsmanagement
Computer Science and Media (Master)
Crossmedia Publishing and Management (Master)
Crossmedia-Redaktion/Public Relations
Data Science and Business Analytics
Deutsch-chinesischer Studiengang Druck- und Medientechnologie
Digital Design
Digital- und Medienwirtschaft
Druck- und Medientechnologie
Informationsdesign
Integriertes Produktdesign
International Business (MBA)
Intra- und Entrepreneurship (tech, berufsbegleitende, MBE)
Media Entertainment
Media Research (Master)
Mediapublishing
Medien- und Wirtschaftspsychologie
Medieninformatik
Medienmanagement (Master)
Mobile Medien
Online-Medien-Management
Packaging Development Management (Master)
Print Media Technologies
Print-Media-Management
Social Media Marketing & Managment
Studiengangübergreifendes Angebot
Unternehmenskommunikation (Master)
Verpackungstechnik
Werbung und Marktkommunikation
Wirtschaftsinformatik (Master)
Wirtschaftsinformatik und digitale Medien
Wirtschaftsingenieurwesen Medien

SS2025
WS2024/2025
SS2024
WS2023/2024
SS2023
WS2022/2023
SS2022
WS2021/2022
SS2021
WS2020/2021
SS2020
WS2019/2020
SS2019
WS2018/2019
SS2018
WS2017/2018
SS2017
WS2016/2017
SS2016
WS2015/2016
SS2015
WS2014/2015
SS2014
WS2013/2014
SS2013
WS2012/2013
SS2012
WS2011/2012
SS2011
WS2010/2011
SS2010
WS2009/2010
SS2009
WS2008/2009
SS2008
WS2007/2008
SS2007
WS2006/2007
SS2006
WS2005/2006
SS2005
WS2004/2005
SS2004
WS2003/2004
SS2003
WS2002/2003
SS2002
WS2001/2002
WS2000/2001
SS2000
WS1999/2000
SS1999
WS1998/1999
SS1998
WS1997/1998