Minds Mastering Machines 2024
Dia Fachkonferenz zum Thema Machine Learning und Künstliche Intelligenz (KI)
Auch in diesem Jahr trafen sich am 24. und 25. April Data Scientists, Data Engineers und Developer in Köln, um auf der Minds Mastering Machines (M3) Konferenz die neuesten Trends im Bereich Machine Learning zu diskutieren. Im Fokus standen besonders Sprachmodelle. Aber auch andere wichtige Themen, wie der AI Act, Fairness bei Machine Learning-Modellen und automatisierte Datenintegration, waren Teil des Programms.
Um so mehr freuen wir uns als scieneers GmbH, dass wir in diesem Jahr erneut mit zwei Kollegen – Martin Danner und Jan Höllmer – bei der Konferenz vertreten sein durften.
Martin gab neue Einblicke in das Pilot-Projekt GenomAIx, während Jan Strategien zur Optimierung von Vektordatenbanken vorstellte.
Martin beim Vortrag zu GenomAIx
GenomAIx
Erforschung des Dark Genome mit KI zur Entwicklung neuartiger Krankheitsinterventionen bei seltenen Erkrankungen
Martin und Jeremias Krause vom Institut für Humangenetik und Genommedizin der Uniklinik RWTH Aachen stellten den aktuellen Stand ihres Forschungsprojekts GenomAIx vor. Der Schwerpunkt dieses Projekts liegt auf der Erforschung des sogenannten Dark Genomes, das etwa 98% der menschlichen DNA ausmacht, aber in bisherigen Analysen häufig nicht berücksichtigt wird. Martin und Jeremias untersuchen seltene Krankheiten, deren Ursachen bisher unklar sind, und wie diese mit Varianten (vereinfacht: Fehlern in DNA-Abschnitten) im Dark Genome zusammenhängen und erklärt werden können.
Die Suche nach der Nadel im Heuhaufen wird dabei durch zahlreiche ML-Modelle unterstützt. Ein Element ist das angepasste ESMFold Modell, das die 3D-Proteinstruktur von Aminosäurenketten (die in DNA-Abschnitten kodiert werden) vorhersagt.
Der Vortrag behandelte aber nicht nur die essenzielle Rolle von Machine Learning Modellen in der Genommedizin, sondern betonte auch die immer stärkere Bedeutung der Cloud. Angesichts der überwältigenden Menge an Daten, die in der Genommedizin generiert werden, sind robuste und skalierbare Lösungen gefragt. Die Cloudarchitektur von Genomaix bietet eine Umgebung, die in der Lage ist, die gewaltigen Datenmengen zu bewältigen, zu speichern und sinnvoll zu analysieren. Erste kleine, aber signifikante Erfolge, die durch die Integration einer benutzerfreundlichen Oberfläche für medizinisches Personal in die Cloudarchitektur erreicht wurden, waren Anlass für eine angeregte Diskussion und einen spannenden Austausch am Abend
Mehr Informationen zum Projekt GenomAIx finden Sie in unserem Blog.
Der Vortrag zum Durchblättern
Jan beim Vortrag zu Vektordatenbanken
Vektordatenbank-Optimierung
Balance zwischen Speicher, Geschwindigkeit und Genauigkeit
Im Rahmen der Retrieval-Augmented-Generation (RAG), also der Möglichkeit, einem Sprachmodell bisher unbekannte Informationen hinzuzufügen, haben Vektordatenbanken zunehmend an Bedeutung gewonnen. Sie ermöglichen das effiziente Speichern und Durchsuchen von Embeddings und bilden so die Grundlage für den Aufbau einer flexiblen und skalierbaren Wissensdatenbank – eine wesentliche Komponente vieler RAG-Pipelines.
Jan gab in seinem Vortrag einen Einblick in die Funktionsweise von Vektordatenbanken. Anhand von Qdrant bot er einen Mix aus theoretischen Grundlagen, etwa zur Quantisierung und HNSW (ein Index für Vektordatenbanken), und Anregungen zu möglichen Optimierungsstrategien, beispielsweise zur Verbesserung der Abfragegeschwindigkeit.
Zum Abschluss wurden Denkanstöße zur zukünftigen Rolle von Vektordatenbanken gegeben und diskutiert, inwiefern Graphdatenbanken eine sinnvolle Weiterentwicklung im Kontext von RAG darstellen könnten.
Der Vortrag zum Durchblättern
Unsere Eindrücke zur M3 2024
Dieses Jahr wurden zwei Themen besonders intensiv auf der M3 diskutiert: Sprachmodelle und der EU AI Act. Zahlreiche faszinierende Beiträge wurden zu diversen Aspekten der Sprachmodelle präsentiert, einschließlich ihrer Verwendung in Retrieval-Augmented-Pipelines, Self-Hosting in firmeneigenen Serverräumen sowie die damit verbundenen Herausforderungen hinsichtlich Fairness.
Der EU AI Act hat sowohl innerhalb als auch außerhalb der Vorträge für viel Diskussion gesorgt. Einerseits könnten die neuen Transparenzauflagen für kleinere Unternehmen eine erhebliche Belastung darstellen. Andererseits wird der AI Act bereits jetzt als Standortvorteil angesehen, da die Regulierung einen bislang weitgehend unkontrollierten Wirtschaftsbereich betrifft. Wir sind gespannt auf die Auswirkungen des AI Act, sobald dieser verabschiedet wurde.
Wir bedanken uns bei allen Teilnehmer:innen für ihre spannenden Vorträge und Anregungen und freuen uns bereits auf das nächste Jahr!
Autoren
Martin Danner, Data Scientist bei scieneers GmbH
martin.danner@scieneers.de
Jan Höllmer, Data Scientist bei scieneers GmbH
jan.hoellmer@scieneers.de