KI für das Gemeinwohl auf dem Digital-Gipfel 2024
Wir waren für den zweiten Tag des diesjährigen Digital-Gipfels der Bundesregierung in Frankfurt am Main eingeladen. Ziel des Digital-Gipfels ist es, Menschen aus Politik, Wirtschaft, Forschung und Zivilgesellschaft zusammenzubringen, um Ideen, Lösungen und Herausforderungen in Bezug auf die digitale Transformation in Deutschland zu diskutieren.
Themen des Digital-Gipfels
Angeboten wurden verschiedene Vorträge und Diskussionsformate in Themenbereichen wie Vernetzte und datengetriebene Wirtschaft und Gesellschaft, Lernende Systeme und Kultur und Medien. So konnten wir beispielsweise mehr über die Organisation und Arbeitsweise der Datenlabore der Bundesregierung erfahren, die seit drei Jahren Datenprodukte und -projekte für die Bundesverwaltung umsetzen und damit den Einsatz von Daten und KI dort vorantreiben.
Ein weiteres wichtiges Thema war die Digitalisierungsstrategie der Bundesregierung, die Fortschritte und Herausforderungen aufzeigte, insbesondere hinsichtlich der Ausfinanzierung der sogenannten Leuchtturmprojekte und der Rolle des Beirats. Mehrere dieser Leuchtturmprojekte haben sich in anderen Sessions ebenfalls präsentiert und über ihre Arbeit informiert.
Pitch & Connect: Gemeinwohlorientierte KI-Projekte im Rampenlicht
Das Highlight für uns war das Event Pitch & Connect, bei dem sich 12 gemeinwohlorientierte KI-Projekte, die sich unter anderem mit Teilhabe, Desinformation oder Umwelt- und Wasserschutz befassen, einem engagierten Publikum vorstellen durften. Wir waren dort mit unserem Projekt StaatKlar: Dein digitaler Assistent für die Beantragung staatlicher Unterstützung vertreten.
StaatKlar dient dazu, Wissenslücken zu überbrücken und bürokratische Hürden bei der Beantragung staatlicher Ansprüche durch Bürger:innen abzubauen. Mit dem Talk to your Data-Ansatz, den wir bereits in vielen weiteren Projekten erfolgreich umgesetzt haben, werden für die Anwendung relevante Dokumente wie Informationsbroschüren zu staatlichen Leistungen als Datenbasis verwendet. Ein Large Language Model nutzt diese Datenbasis für die Generierung seiner Antworten.
In der Folge können Bürger:innen in einer intuitiven webbasierten Chat-Anwendung mit dem Modell „sprechen“ und Antworten auf ihre Fragen und Hilfestellung zu ihren Herausforderungen in Bezug auf staatliche Unterstützung bekommen.
Mehr Informationen zu StaatKlar gibt es im 5-minütigen Pitch aus dem aufgezeichneten Livestream des Digital-Gipfels sowie einer kurzen Demo der Anwendung:
Autoren
M3 2024
Auf der diesjährigen Minds Mastering Machines (M3) Konferenz in Köln standen neben den neuesten Trends im Bereich Machine Learning besonders Sprachmodelle (LLM), aber auch der AI Act, AI Fairness und automatische Datenintegration im Fokus. Wir waren mit zwei talks zu unseren Projekten beteiligt.
SQLDays – Vortrag Azure Data Factory 2022 – whats new?
SQLDays 2022 – Folien zum Vortrag von Stefan Kirner zu Neuigikeiten in der Azure Data Factory und Synapse Pipelines und ein Vergleich der Technologien.
Konferenz-Rückblick: DataLift Summit
Nachdem 2021 Präsenz-Konferenzen die Ausnahme waren, boten die meisten Veranstalter dieses Jahr entweder Hybrid- oder auch reine Vorort-Konferenzen an. Neben der Pycon in Berlin und M3 (Minds Mastering Machines) in Karlsruhe durfte ich zudem auch dem Debüt des Datalift Summit beiwohnen.
Der DataLift Summit wird organisiert von der AI guild, einem Deutschland weit agierenden Community von “data practitioners”. Ein hipper Berliner Co-Workingspace bot Räumlichkeiten für drei parallele Tracks sowie einen Innenhof, in dem sich die rund 300 Teilnehmer kennenlernen konnten. Networking war erklärtes Ziel der Konferenz, aus diesem Grund waren die 45 Minuten Vorträge meist kurze 20 Minuten Impulse aus der Praxis, gefolgt von Q&A, die teils in eine muntere Gruppendiskussion mündete. Darüber hinaus enthielt das Programm viele Pausen, um ausreichend Raum für persönlichen Austausch zu schaffen sowie zusätzlich Meetups am Abend in den Räumlichkeiten der Sponsoren.
Inhaltliche Schwerpunkte:
MLOps war über alle drei Konferenzen hinweg eines der häufigst diskutieren Themen. Obwohl der Begriff allgegenwärtig ist, hat sich noch kein klarer Technologie-Stack hervorgetan. Zalando präsentierte auf dem DataLift Summit in einer dreiteiligen Vortragsreihe ihre interne Lösung, die vor allem auf zahlreichen Eigenentwicklungen wie etwa zflow basiert. GetYourGuide hingegen setzt mehr auf Open Source Lösungen rund um das generell sehr beliebte MLflow, kombiniert mit BentoML zwecks model serving. Generell beliebt war auch die Nutzung von Databricks Notebooks, nicht zur Daten Exploration sondern sogar zwecks Data Preprocessing innerhalb von ETL PipelinesFür mich überraschend setzt derzeit niemand der Anwesenden auf Kubeflow und die damit verbundenen Tools wie Katib (Hyperparameter Tuning), ArgoCD (Orchestrierung) und SeldonCore (model serving). Insbesondere dank Googles neuen VertexAI als managed Kubeflow für Google Cloud Nutzer bietet dieses nun eine mächtige Alternative im MLOps Bereich.
Weitere wichtige Themen waren Erklärbarkeit, Nutzer-Akzeptanz und Datenqualität. Footprint, ein Start-up zur Bestimmung der Schuhgröße, beschrieb die Herausforderung in der Nutzerkommunikation, um ein valides Foto der Füße zu erhalten. Tchibo beschrieb, wie sie Google’s neuen Temporal Fusion Transformer zur Abverkaufsprognose nutzen, auch da dieses Modell eine Feature-Eklärbarkeit bietet. Bezüglich Datenqualität möchte ich noch einen sehr guten
scieneers Workshop zu visueller Datenexploration
Nach eineinhalb Vortrag-Tagen war der Freitag für Workshops vorgesehen. Hier durfte ich die Teilnehmer drei Stunden durch Visual Data Exploration with Python führen. Hier das wichtigste in Kürze:
- Visualisierungen werden typischerweise zur Ergebnisvorstellung eingesetzt und sollten daher in der Regel eine klare Nachricht vermitteln.
- Bei explorativer Visualisierung hingegen müssen die Einsichten erst gefunden werden, weshalb einer schnelle Chart-Modifikation Vorzug vor Visualiserungsdetails gegeben werden sollte.
- Für den Einstieg in eine EDA eignen sich Reports von dataprep oder pandas-profiling zur ersten Orientierung. Anschließend sollten die Daten mit Blick auf natürliche Gruppen (bpsw. Marken), zeitliche Aggregationen (bspw. Tage) und geographische Informationen (bspw. Standorte) analysiert werden.
- Python bietet zahlreiche Bibliotheken zur Datenvisualiseriung, wobei sich für explorative Aufgaben vor allem interaktive, high-level Tools eignen:
- Plotly-Express bietet zahlreiche mächtige Visualisierungen hinter einer kompakten, intuitiven API. Dabei sind alle Charts automatisch interaktiv, ermöglichen etwa das Filtern nach Farben oder das Zoomen in Scatter Charts.
- Altair folgt der Grammer of Graphics und ermöglicht damit frei kombinierbare Visualisierungen, welche durch “Bindings” miteinander verbunden werden können. Dies ermöglicht es etwa in einem Chart einen Filter für die Daten eines anderen Charts zu konfigurieren.
- Charts können mit Python zudem einfach in interaktive Dashboards verwandelt werden, um so bspw tiefer in einzelne Subgruppen einzutauchen. Tools hierfür sind:
Wer tiefer in den Workshop einsteigen möchte, dem sei das GitHub-Repo empfohlen. Ansonsten hoffen wir, euch im nächsten Jahr oder einer der anstehenden Herbst Konferenzen (etwa der Data2Day) persönlich kennenzulernen.
PASS Camp 2022 – Ein Einblick
Das PASS Camp fand nach zweijähriger Corona-Pause endlich wieder statt und auch wir waren dabei. In unserem Blog geben wir Euch einen kurzen Einblick.