Suche
  • Anna & Marlene

Woman of the Month: Dr. Janna Lipenkova

Unsere Frau des Monats Mai ist Dr. Janna Lipenkova! Sie ist CEO von Anacode, einem Berliner Startup, das Software für Textanalyse und Marketingforschung in China entwickelt, und von Equintel, einem FinTech-Unternehmen, das potenzielle Investitionsziele automatisch identifiziert und Unternehmensprofile auf der Grundlage einer Vielzahl von strukturierten und unstrukturierten Datenquellen erstellt. Janna hat darüber hinaus einen Magister in Chinastudien und Wirtschaft sowie einen Ph.D. in Computerlinguistik und verfügt über fast ein Jahrzehnt Berufserfahrung im Bereich Natural Language Processing (u.a. Google, ABBYY Moskau und Lionbridge). Neben ihrem spannenden Blog hat Janna zahlreiche Publikationen und Vorträge auf internationalen Konferenzen verfasst. Ihr Ziel ist es, die menschliche Sprache in die Technologie einzubinden und die Technologie in internationale Geschäftsszenarien zu integrieren, um die Internationalisierung von einer Herausforderung zu einer Chance zu machen.



Anna: Janna, erzähl uns doch bitte von deinem Werdegang, wie bist du im Bereich der künstlichen Intelligenz gelandet?


Janna: Ja, das war ein langer Weg seit meiner Kindheit. Ich komme ursprünglich aus Russland, bin dann relativ früh mit meinen Eltern nach Deutschland gekommen und später dann auf eine Schule in Frankreich gegangen - ich musste also schon im Schulalter ganz eigenständig mit vier verschiedenen Sprachen umgehen; Englisch ist ja natürlich noch dazugekommen in der Schule. Auch die Verarbeitung und Strukturierung von Informationen hat mich damals fasziniert. Ich hatte erst vor kurzer Zeit diese Erinnerung, dass ich als kleines Kind viel Musik gemacht habe und mich dann an den Rechner setzte, um eine lange Datenbank von Komponisten aufzubauen.

Dieses Interesse für Sprachen und Informationen ist also recht früh entstanden. Andererseits hat mich aber auch die Mathematik interessiert, ich glaube, aus denselben Gründen, warum ich mich dann später für Natural Language Processing (NLP) und K.I. interessierte. Was mich da so fasziniert ist die Tatsache, dass diese zwei Teile - also die linke und rechte Gehirnhälfte bzw. Logik einerseits und andererseits eben all dieses Kreative, was wir in der Sprache haben - da zusammenkommen und dass man sich in alle Richtungen ausdrücken kann.

Ich habe dann angefangen, Chinastudien zu studieren, vor allem, weil ich mit Chinesisch eine ganz andere Sprache lernen wollte. Das Studium bestand primär aus kulturellen Inhalten und ein bisschen Linguistik, aber ich interessierte mich dann relativ früh für die Richtung Computerlinguistik, also dem akademischen Pendant zu NLP, womit ich ein Ausnahmefall in dem Studiengang war. Ich musste mir die ganzen Programmierkenntnisse selbst aneignen und habe dann meine Masterarbeit schon im Bereich Computerlinguistik geschrieben. Da diese Kombination aus Computerlinguistik und Chinesisch sehr selten war, bekam ich dann auch relativ schnell eine Möglichkeit, in dem Bereich zu promovieren.

Ehrlich gesagt habe ich während meines Studiums so viel mit Sprachen gearbeitet – ich habe unterrichtet, übersetzt, Wörterbücher erstellt – dass mich diese Arbeit, vor allem die technische Übersetzungsarbeit, teilweise total gelangweilt hat, weil viele Sachen sehr repetitiv sind. Und da hatte ich immer diesen Gedanken: Das muss man doch irgendwie automatisieren können. Das hat eben auch mein Interesse für Computerlinguistik verstärkt. Im letzten PHD-Jahr habe ich dann mein erstes Unternehmen gegründet, Anacode. Das ist ein Unternehmen, bei dem wir NLP und Data Mining verwenden, um Marktforschung zu betreiben und Transparenz in heutigen Märkten zu schaffen. Die ursprüngliche Beobachtung war, dass Märkte heutzutage immer komplexer werden, es ist alles sehr global und es gibt sehr viele Überschneidungen zwischen verschiedenen Branchen. Beispielsweise die Automobilbranche, die sich jetzt auch in der IT einarbeiten muss, weil autonomes und assistiertes Fahren immer mehr in den Vordergrund rückt. Früher war das alles viel klarer getrennt, aber heutzutage sind alle viel mehr miteinander vernetzt, verschiedene Branchen greifen ineinander. Dadurch haben Unternehmen natürlich Schwierigkeiten, sich Transparenz zu verschaffen und bei den schnellen Entwicklungen und kurzen Innovationszyklen auf dem Laufenden zu bleiben. Daraus ist dann Anacode entstanden, weil wir dachten, diese ganze Dynamik spiegelt sich auch im Internet wieder. Es gibt da verschiedene Datenquellen wie Social Media, aber auch Presse, Patente und so weiter, die uns wertvolle Informationen zu all diesen Marktbewegungen liefern. Und man muss eigentlich „nur“ eine Technologie haben, die diese Daten in großen Mengen und in schnellen Zeitabständen auswerten kann. Da haben wir das NLP angesetzt, um Infos zu bekommen über Konsumenten, über Wettbewerber, über neue Technologien und so weiter. Das Ganze hielten wir mehrsprachig und fingen mit Chinesisch an, das war anfangs schon so der exotische Faktor. Wir haben es dann nach und nach auf weitere Sprachen ausgeweitet, der Fokus bleibt aber auf Schwellenregionen, weil das eben die Märkte sind, wo diese Dynamik dann auch sehr klar zum Vorschein kommt.


Anna: Interessant! Auf deinem Blog hast du kürzlich den AI Trends & News Monitor veröffentlicht. Wie ist das Projekt entstanden und wie ist dieser Monitor aufgebaut?


Janna: Ja, der AI Trends&News Monitor liegt uns im Moment sehr am Herzen. Er ist aus unserem eigenen Bedarf heraus entstanden, weil wir selber sehr tief im KI-Bereich verwurzelt und unterwegs sind, aber wir merken da trotzdem ganz oft, dass es schwer ist, sich bei allen Entwicklungen auf dem Laufenden zu halten und da die richtigen Zusammenhänge zu machen. Wenn man im NLP-Bereich arbeitet, dann möchte man natürlich wissen, was für einen eigentlich aktuell ist. Und das ist in der Fülle der Infos, die man hat, dann wirklich nicht so einfach zu durchschauen. Zudem haben wir natürlich alle begrenzte Zeit, um im Web zu surfen und Artikel zu unseren Themen zu lesen. Der KI Monitor ist entstanden aus diesem Bedarf, den wir bei uns gesehen haben und der Technologie, die wir schon haben, um Daten im Web zu sammeln und zu analysieren. Der Monitor klassifiziert die KI-Bereiche in Anwendungen, Algorithmen, in verschiedene Bibliotheken, Daten-Strategien oder AI Governance. Der Nutzer hat die Möglichkeit, sich bestimmte Themen in diesen Themenblöcken anzuschauen. Wenn ich also nach einer bestimmten KI-Bibliothek online suche, kann ich sie hier finden. Ebenso wie Dokumente und Artikel zu den jeweiligen Themen, die eben schon vorstrukturiert sind und getaggt mit Themen nach Relevanz sortiert.

Wir sehen den AI Monitor als einen Prototypen für die nächste Generation von Suche und Informationsaufbereitung. Wie Google Search, aber nochmal mit der ganzen komplexen Struktur des KI-Bereiches oben drüber. Die jetzige Version für KI ist der Anfang - aber wir glauben, dass sich dieser Ansatz dann auch für weitere Technologien wie Cybersecurity, Blockchain usw. skalieren lässt.


Anna: Du hast ja schon erzählt von deinem linguistischen Background und dass du unter anderem fließend Chinesisch sprichst. Inwiefern hilft dir dieses Wissen der unterschiedlichen Sprachen bei deiner Arbeit im Bereich NLP?


Janna: Ich glaube, ich kann das gar nicht so einfach beurteilen, weil ich es mir gar nicht vorstellen kann, wie das ist, wenn man keine Sprachen kann. Ich habe mir nach dem Studium zwar gesagt, dass fünf Sprachen genug sind und habe entsprechend aufgehört, neue zu lernen. Aber während der Covidzeit ist dieses Interesse am Sprachenlernen auch wieder aufgekommen, weswegen ich Italienisch gelernt habe und jetzt noch dabei bin, Spanisch und Japanisch zu lernen. Ich glaube, dass wir alle eine Begabung für Sprachen haben, weil wir ja alle unsere Muttersprache gelernt haben. Und das ist wirklich eine sehr natürliche Fähigkeit, die man auch ergreifen sollte und die man eben auch ohne dieses Dasitzen und Vokabeln oder Grammatik büffeln sehr gut entfalten kann. Ich kann auf jeden Fall sagen, dass es mich jetzt beruflich auch wieder bereichert, diese neuen Sprachen zu lernen – sowohl aus technischer als auch aus der Business-Perspektive.


Anna: Ich hatte mich gefragt, inwiefern dieses Wissen über genau diese unterschiedlichen Sprachen und deren Strukturen einem hilft, dem Computer die Sprache beizubringen, der ja doch einfach ganz anders tickt als der Mensch und viel Kontext oder Gestik und Mimik ganz anders bewertet, das kann der Computer zumindest auf Anhieb ja alles nicht. Oder der Kontext von einzelnen Wörtern - je nachdem, ob man sagt: es hat mir gut gefallen oder das hat mir echt gut gefallen. Die Betonung kann den Inhalt ändern. Das alles kann der Computer nicht. So ein Netz trainiert man da ein bisschen anders. Deswegen hatte ich mich gefragt, inwiefern dir das hilft.


Janna: Ich habe nur wenige Projekte gemacht, bei denen ich mit Sprachen gearbeitet habe, die ich nicht kannte. Aber ich glaube, da hat man auf jeden Fall viel weniger Transparenz in dem, was man macht. Circa 70 bis 90 Prozent der Arbeit bei KI gehen in die Datenvorbereitung, -bereinigung und das Preprocessing, da ist es wichtig, glaube ich, dass man einmal die Daten versteht und dann eben auch die richtigen Schritte anwendet. Sobald das neuronale Netzwerk kommt, kann man das in der Regel nicht mehr linguistisch beeinflussen. Aber bei Fragestellungen im Preprocessing – wie zum Beispiel, brauche ich einen Parser und welcher Parser wäre am besten geeignet? - da ist es schon gut, wenn man die Daten und die Sprache versteht. Ich weiß allerdings natürlich, dass es auch viele Leute gibt, die sich eben mit Sprachen auseinandersetzen, ohne sie zu können und da eine sehr abstrakte und vermutlich auch objektivere Sichtweise drauf haben.


Anna: Deswegen fand ich die Frage ganz spannend.


Janna: Ja. Wobei ich sagen muss, wir haben gerade auch ein Projekt, das sehr multilingual ist. Da arbeiten wir mit einer größeren Datenmenge in insgesamt 25 Sprachen und wenden Deep Learning Modelle an. Das sind dann vor allem verschiedene Arten von embeddings. Da hat man gar nicht die Zeit und die Kapazität, sich in jede Sprache einzuarbeiten. Aber das ist dann auch wirklich eine sehr abstrakte Darstellung, die man da bekommt – das lohnt sich vor allem, wenn man wirklich mit einer großen Datenmenge arbeitet.


Anna: Du hast kürzlich ein weiteres Unternehmen gegründet, Equintel. Somit hast du schon zwei Unternehmen gegründet. In Deutschland sind nur bei zirka 16 Prozent aller Start-up Gründungen Frauen involviert und nur 4 Prozent der gegründeten Startups werden ausschließlich von Frauen gegründet. Es kommt mir so unwahrscheinlich wenig und traurig vor. Wie nimmst du dich in diesem Kontext als Unternehmerin wahr und welche Auswirkung hat dies auf dich als Gründerin?


Janna: Ich habe mich recht früh darauf festgelegt, dass ich beruflich das mache, was ich will. Also solange es keinem schadet und solange es Nutzen für die Welt bringt. Und deswegen hat die Tatsache, dass ich eine Frau bin, nicht wirklich meine Entscheidung beeinflusst, zu gründen. Ich wusste einfach, dass ich das mit Anacode will und jetzt auch mit Equintel. Im Laufe der Arbeit muss ich eigentlich sagen, dass das eher ein Vorteil war, weil es eben wenig Frauen gibt und man dadurch teilweise etwas mehr Sichtbarkeit hat, man steht eindeutig noch exotisch dar. Man sticht ein bisschen heraus.


Anna: Also dieses Alleinsein als positives Merkmal sozusagen, weil man dadurch auffällt.


Janna: Und andererseits gab es vor allem jetzt in den letzten zwei Jahren generell in der Tech Szene viel Bemühung um Diversität. Das ist sehr förderlich. Ich glaube wirklich, dass wir heute schon eine Chancengleichheit haben, die noch nie da war. Das muss man einfach auch nutzen, aber man muss es eben auch wirklich wollen und es ist ein sehr schwieriger Weg, auf dem man wirklich sehr viel Ausdauer und Kraft braucht. Ich glaube, man muss es einfach machen, wenn man das will. Ich finde diese Diskussion auch immer etwas überdramatisiert in dem Sinne, dass man sich weniger darauf fokussieren sollte, ob jemand eine Frau ist oder nicht, sondern dass man einfach macht und zeigt, dass man es drauf hat. Ich glaube, das ist der richtige Ansatz, weil die Möglichkeit da ist.


Anna: Ich habe letztens gehört - und das fand ich ein bisschen schockierend - dass im Silicon Valley vom Venture Capital auch nur ganz wenig Prozent an Start-ups von Frauen geht. Das meiste Geld fließt an die Männer. Dafür gibt's auch Studien. Und sowas könnte ja natürlich passieren, dass man zwar sehr motiviert ist und völlig überzeugt ist von seiner Idee, dass man aber nicht die Investoren in der Form bekommt, wie sie vielleicht ein Mann bekommen würde. Oder vielleicht kriegt man mit, dass ein Mann eine andere Idee hat, die eigentlich nicht so stark ist, aber merkt, er kriegt das Geld. Vielleicht ist das ja auch von mir überinterpretiert an der Stelle. Aber wenn du so weit keine negativen Erfahrungen hast oder sogar eher positiv, weil du das für dich genutzt hast, dass die Struktur so ist, dann ist es ja sogar umso besser.


Janna: Das kann ich auch wirklich allen ans Herz legen, dass man einfach macht und alles nutzt, was man hat. Natürlich ist es aber auch wichtig, dass immer mehr das Thema Diversity verstanden und angegangen wird. Das ist eben auch so wichtig bei KI-Modellen, damit kein ungewollter Bias z. B. in Bezug auf Gender oder Nationalität entsteht, vor allem durch unbalancierte Datasets. Aber ich persönlich hatte in meinem Werdegang keine negativen Erfahrungen in der Hinsicht. Natürlich habe ich viel weniger Gründerinnen als Gründer kennengelernt, weil die Statistik eben so ist. Aber das waren immer top professionelle und kompetente Frauen, die das einfach drauf hatten.

Anna: Super. Das klingt doch gut. Meine letzte Frage: Was sind denn deine beiden Lieblings K.I. Anwendungen, die du privat nutzt?


Janna: So viele! Ich weiß nicht, ob ich alle aufzählen kann. Ich habe ja einen voreingenommenen Blick. Ich überlege mir bei jedem Fehler, was hat das Modell jetzt falsch gemacht? Aber ich denke, es ist auf jeden Fall DeepL bei der Übersetzung. Und sonst? Ich kann gar nichts Konkretes nennen. Durch das Sprachenlernen interessiere ich mich sehr für technologiebasierte Sprachapps wie Duolingo, Babbel und so weiter. Ich glaube, ich betrachte die auch unterbewusst aus der Marktforschungsperspektive, weil ich selber etwas in dem Bereich gemacht habe.


Anna: Ja super. Vielen Dank für das Interview.