Suche
  • Anna

Woman of the Month Dezember 2020: Dr. Sara Rydbeck

Aktualisiert: Jan 17


© Karolina Ziomek, 2020.


Sara arbeitet als Senior Data Scientist bei m2hycon, einer Beratungsfirma, die Unternehmen hilft mittels mathematischer Methoden und passender Algorithmen Prozesse zu optimieren und zu automatisieren und somit die Effizienz zu steigern. Die gebürtige Schwedin hat in Physik promoviert, nach einem Ausflug in die Forschung sich aber für eine Karriere als Data Scientist entschieden.


[Anna] Kannst du uns von deinem Werdegang erzählen? Wie wird eine schwedische Physikerin zum Data Scientist in Hamburg?


[Sara] Ich habe in Stockholm in theoretischer Physik promoviert, im Bereich Kosmologie und Astroteilchenphysik. Meine Forschungsprojekte waren immer an der Schnittstelle zwischen Theorie und Experiment und das bedeutet, ich hatte viel mit Daten zu tun, experimentelle Daten und simulierte Daten, und mit Statistik und Programmierung für die Analyse. Nach der Promotion habe ich eine Postdoc-Stelle bei DESY in Hamburg bekommen, das ist ein Forschungsinstitut für Teilchenphysik. Die Stelle war nur für zwei Jahre, und hätte ich mit Physik weiter gemacht, hätte ich eine weitere Postdoc-Stelle woanders auf der Welt finden müssen. Aber wie viele andere habe ich mich dann entschlossen, das Forscherleben hinter mir zu lassen. Ein Grund, weshalb ich in Hamburg geblieben bin, ist dass ich hier meinen heutigen Mann kennengelernt habe. Nachdem ich intensiv Deutschkurse besucht habe, war mein erster Job in der Wirtschaft für einen Datenbank-Spezialisten. Da ich Programmiererfahrungen hatte, hat mir der Arbeitgeber zugetraut, dass ich mich schnell in Datenbank-Themen und SQL einarbeiten werde. Die Firma hat außerdem für Kunden Trainings angeboten, an denen Mitarbeiter auch teilnehmen konnten. Bei der Firma habe ich Datenbank-Lösungen konzipiert, um Vertriebsprozesse in der Energiewirtschaft abzubilden, habe es dabei aber vermisst, mathematische Analysen durchzuführen.


[Anna] Kurze Zwischenfrage: welche Programmiererfahrungen hattest du zu diesem Zeitpunkt?


[Sara] Es ist mir fast etwas peinlich, aber in meinem Bereich war das Fortran, das war irgendwie noch ziemlich üblich damals, aber auch Perl, wo man ähnlich wie in Python skripten kann und Datenlogistik machen kann.

Was ich immer wieder gemacht habe in meiner Karriere, als Physikerin und danach, ist, dass ich immer wieder neue Tools, Methoden und Programmiersprachen lerne. Wenn man einmal eine Sprache gelernt hat, dann hilft das, um die nächste Sprache zu lernen.


[Anna] Kommen wir wieder zurück zu deinem Werdegang.


[Sara] Ich konnte mich bereits bei dem Arbeitgeber weiter entwickeln Richtung Data Science. Diesen Gedanken, dass ich mathematische Analysen vermisse, habe ich mit meinem damaligen Chef besprochen, der innovativ und fördernd war. Zusammen haben wir ein Churn-Analyse-Verfahren entwickelt für unsere Energielieferanten-Kunden damit sie vorhersagen konnten ob ein Endkunde beabsichtigt Lieferant zu wechseln. Hierfür haben wir zunächst Prototypen mit Pilotkunden zusammen entwickelt, später wurde das Ganze als Produkt vermarktet. Seitdem arbeite ich mit Data Science. Ich war anschließend bei einer Firma, bei der ich mit internationalen Kunden im Inkasso-Bereich zusammengearbeitet habe. Jetzt bin ich bei einem kleinen Beratungsunternehmen mit Kunden in unterschiedlichen Branchen. Lustigerweise mache ich wieder Forschung, in einem sehr interessanten Projekt zur digitalen Spedition, gesponsert vom Verkehrsministerium. Es ist zwar jetzt Forschung in der Wirtschaft, aber irgendwie schließt sich der Kreis. Das ist der Weg, den ich bisher gegangen bin.


[Anna] Was findest du am Bereich Data Science besonders spannend?


[Sara] Es ist sehr aktuell, die Entwicklung geht sehr schnell und ich habe das Gefühl wirklich was verändern zu können. Das ist vielleicht auch ein bisschen der Unterschied zur Grundlagenforschung. Es ist ja wirklich sehr spannend, mehr über das Universum zu verstehen, aber es ist ein langsamer Prozess da etwas zu entdecken. In der Wirtschaft ist alles viel mehr dynamisch.


[Anna] Was war das erste Modell, das du trainiert hast?


[Sara] Das war für die Churn-Analyse und das erste, was ich probiert habe, war logistische Regression, nach der Klassifikation welcher Kunde geht, welcher Kunde bleibt. Das habe ich mit R gemacht. Als ich dann mehr und mehr Lösungen entwickelt habe, die in Kundenumgebungen integriert werden müssen, habe ich angefangen mehr und mehr mit Python zu arbeiten. Mittlerweile benutze ich Python auch für explorative Analysen und für alles, was ich sonst noch so mache.


[Anna] Du kannst Python und R, welche Sprache hat deiner Meinung nach die größere Bedeutung für KI?


[Sara] Von den Beiden würde ich sagen Python, weil es mehr aus der Programmierecke kommt und man mehr zusätzliche Sachen machen kann, beispielsweise Webservices programmieren. Mir gefällt Python auch, weil ich mag diese Programmierphilosophie, dass man mehr unter Kontrolle hat sozusagen. Sollte man R Studio vermissen, hat JupyterLab alternativ ähnliche Features, so dass man zum Beispiel die Objekte, die man erzeugt hat, neben dem Code sehen kann. Wenn ich wetten würde, was für KI ein starker Konkurrent ist zu Python, würde ich eher sagen Julia als R.


[Anna] In welchen Bereichen kann KI deiner Meinung nach gesellschaftliches Potenzial entfalten und in welchen Bereichen siehst du die Entwicklung wiederum kritisch?


[Sara] In den Firmen sehe ich viel Potenzial, zum einen mit Daten besser und sicherer umzugehen. Es schockiert mich manchmal wie viel mit Excel auch bei größeren Datenmengen in manchen Firmen gearbeitet wird. Zum anderen natürlich, mit Hilfe von KI Prozesse effizienter und fairer zu machen. Das sehe ich als eine positive Veränderung, weil die Kosten für Ineffizienz, denke ich, trägt letztendlich der Konsument. Ich weiß, dass eine Befürchtung manchmal ist, dass Jobs gestrichen werden, aber ich habe es auch gesehen, dass Leute, die für mehr qualifizierte Aufgaben angestellt sind, viel Zeit mit monotonen Aufgaben verbringen müssen, weil es einfach keine automatisierte Lösung dafür gibt. KI kann hier Ressourcen freimachen.

Kritische Entwicklungen wie zum Beispiel Ausnutzen sind meiner Meinung nach mit oder ohne KI da. Es kann zum Beispiel mit Politik zu tun haben oder mit Datenschutz. Menschen formulieren die Fragestellungen und Ziele der Modelle, und entscheiden welche Daten einfließen und nicht. Ich habe gerade das Buch „Weapons of Math Destruction“ gelesen, die Beispiele darin stammen sehr viel aus den USA und ich habe immer wieder dabei gedacht „wie kann das erlaubt sein?“. Dort sind zum Beispiel Arbeitnehmer nicht gesetzlich geschützt, etwa bei der Arbeitszeit. Hier in Deutschland und in anderen europäischen Ländern ist es nicht erlaubt, zu lange ohne Pause zu arbeiten, oder mit zu kurzer Zeit zwischen den Arbeitstagen. In dem Buch meint die Autorin außerdem, dass das europäische Datenschutzmodell vorbildlich sein sollte für die Amerikaner.

Ein weiteres Beispiel ist die Verbreitung von Desinformationen weil es einfacher wird Fake News zu erzeugen. Da glaube ich daran, Einstellungen zu ändern in Richtung Quellenkritisches und Faktenbasiertes Denken, mithilfe von mehr Transparenz. In dem vorher genannten Buch wird vorgeschlagen, Forscher in die großen IT Unternehmen zu lassen, damit diese neutral daran forschen welche Wirkung die Algorithmen haben können. Ich habe auch neulich von einem interessanten Forschungsprojekt bei MIT gehört, wo sie ein KI-getriebenes Nachrichtenportal entwickelt haben, die durch einstellbare Schalter dem Leser ermöglichen soll, raus von seiner Informationsblase zu kommen.


[Anna] Welche Rolle spielt deiner Meinung nach die internationale Zusammenarbeit im Bereich KI? Wie beobachtest du die politische Entwicklung in den unterschiedlichen Staaten?


[Sara] In der Firma, bei der ich gearbeitet hatte, die international aufgestellt war, hatte ich mit internen Kunden hauptsächlich im europäischen Raum aber auch USA zu tun, die alle zu ein und demselben Konzern gehörten. Ich hätte mir gewünscht, dass es bei denen untereinander mehr Konkurrenz gegeben hätte, wer schneller im KI entwickeln ist. Aber es ist ja auch so mit KI, dass es Geld kostet. Es verlangt etwas Explorieren und Ressourcen aus Business und IT. Manche Stakeholders haben es schon wichtig gefunden, mit anderen war es mehr ein Überzeugungsprojekt.

Politisch geht es viel darum, was man mit Daten machen darf. In den EU haben wir GDPR (General Data Protection Regulation, auf Deutsch DSGVO, Datenschutz-Grundverordnung) und deshalb mussten wir jedes Mal ein Dokument ausfüllen und erklären, was für Daten wir schicken würden zwischen den Ländern und dies auch begründen. Wir durften nicht einfach Daten verschicken, die vielleicht irgendwann benutzt werden könnten, sondern mussten beschreiben, wie sie verarbeitet werden und zu welchem Zweck. Die Firmen haben Angestellte, die für Datenschutz verantwortlich sind und es kann einen Audit geben, bei dem eine Behörde kommt und das überprüft. In den USA war es günstiger externe Daten zu kaufen, und meinem Verständnis nach können dort Daten, die eine Person für einen Zweck abgibt, weiterverkauft und auch für andere Zwecke verwendet werden. Mit China hatte ich nicht zu tun, aber da ist es ja sogar so, dass der Staat soziale Medien kontrolliert und Daten für Überwachung und Propagandazwecke verwenden.


[Anna] Unser Blog möchte KI aus der weiblichen Perspektive analysieren. Einer der Gründe hierfür ist der geringe Frauenanteil und dem daraus folgenden Bias. Viele Studien deuten darauf hin, dass eine höhere Diversity in den Data Science Teams zu einem geringen Bias in den trainierten Modellen führt. Hast du Situationen erlebt, die dies bestätigen oder vielleicht auch widerlegen?


[Sara] Ich finde es immer wichtig beim Einführen von KI, sich mit dem Kunden auszutauschen, weil sie ja ihre Prozesse kennen. Meine Rolle ist als externe Beraterin mit Expertise in Data Science, aber ihre Expertise und Erfahrungen aus der Branche und aus dem Markt sind sehr relevante Beiträge. In meinem Fall hat das meistens in einer natürlichen Weise dazu geführt, dass mehrere Personen dabei waren, um zu besprechen, welche Daten sie haben, welche Fragestellungen sie mit diesen Daten beantworten wollen und können. Solche Zusammenarbeit ist auch oft notwendig für mich als Data Scientist um die Daten zu verstehen. Ich habe keine gute Anekdote dazu, aber man versucht ja immer kreativ zu sein, um Features zu finden und das Geschlecht ist da natürlich dabei, wenn möglich, sodass man zum Beispiel sehen kann, dass Frauen ihre Schulden schneller begleichen oder Verträge weniger kündigen. Von daher gibt es das gegebenenfalls als Feature, das man untersuchen kann.

Aber was ich eher beobachtet habe, und das ist wirklich meine persönliche nicht wissenschaftliche Beobachtung, es gibt auch Data Scientists, die nicht so interessiert daran sind, die Daten zu verstehen oder sogar die Fragestellungen nicht. Sie sehen es vielleicht nicht als ihre Verantwortung, sondern sind eher enthusiastisch über das mathematische und technische Verfahren, das sie verwenden. Da ist meine Beobachtung gewesen, dass die Data Scientists, die sich darum bemüht haben, selber die Daten und Fragestellungen zu verstehen, Männer und Frauen waren, während die Data Scientists, die das nicht gemacht haben, in allen Fällen Männer waren. Ich hoffe das klingt nicht zu böse, unterschiedliche Leute bringen ja unterschiedliche Stärken zu einem Team. Es kann aber etwas gefährlich sein, glaube ich, wenn man jemand ist, der sehr gut seine Modelle verkaufen kann, aber dadurch die Fragen nicht sinnvoll beantwortet oder Ergebnisse verfälscht, weil es mit den Daten nicht passt. Wir, die die Modelle und Algorithmen am besten verstehen, haben eine Verantwortung darauf hinzuweisen was man damit machen kann und was nicht, auf Gefahren hinzuweisen und auch darauf welche Alternativen es dann gibt, es anders zu machen.


[Anna] Vielen Dank für das Interview und deine Zeit.

 
  • LinkedIn - Schwarzer Kreis
  • Twitter

©2020 Neurona.