Word2vec: Textanalyse mit neuronalen Netzwerken

In der Welt der KI und des maschinellen Lernens ist die natürliche Sprachverarbeitung (NLP) sehr wichtig geworden. Die Word2vec-Technologie ist ein Schlüsselkonzept hierbei. Sie wurde von Tomas Mikolov und seinem Team bei Google entwickelt.

Word2vec wandelt Wörter in Vektorrepräsentationen um. So macht es die natürliche Sprache für Computer verständlich. Es ist ein zweischichtiges neuronales Netz.

Die Besonderheit von Word2vec ist, dass es Wörter in einem Vektorraum abbildet. Ähnliche Wörter stehen dabei nahe beieinander. Das ermöglicht es, ohne menschliche Analyse semantische Beziehungen zu erkennen.

Diese Fähigkeit macht Word2vec sehr nützlich. Es wird in der KI für viele Anwendungen eingesetzt. Dazu gehören Internetsuche, Sentimentanalyse und Empfehlungssysteme.

word2vec

Wichtige Erkenntnisse

Word2vec ist ein zweischichtiges neuronales Netz, das Wörter in Vektorrepräsentationen überführt
Es erkennt semantische Beziehungen und Analogien zwischen Wörtern ohne menschliche Analyse
Word2vec ist vielseitig einsetzbar in Anwendungen wie Internetsuche, Sentimentanalyse und Empfehlungssysteme
Die Technologie bildet die mathematische Grundlage für viele Fortschritte in der natürlichen Sprachverarbeitung
Word2vec wurde bei Google entwickelt und hält ein Patent auf die Technologie

Einführung in die neuronale Textverarbeitung

Die neuronale Textverarbeitung, auch als Natural Language Processing (NLP) bekannt, ist ein Teil der künstlichen Intelligenz. Sie beschäftigt sich mit der Interpretation, Verarbeitung und Erzeugung menschlicher Sprache durch Computer. Word2vec ist eine Schlüsseltechnologie, die Wörter in Vektorräume transformiert. So erkennt und verarbeitet sie semantische und syntaktische Muster in Sprache.

Word2vec hat die Textanalyse revolutioniert. Es bildet die Basis für viele Anwendungen wie maschinelle Übersetzung, automatische Zusammenfassung und künstliche Gesprächspartner. Computer können nun Beziehungen zwischen Begriffen erkennen und verarbeiten, was früher eine große Herausforderung war.

In den nächsten Abschnitten schauen wir uns die Grundlagen von Word2vec genauer an. Wir werden seine Funktionsweise und vielfältigen Anwendungen in der Textanalyse betrachten. Außerdem werden wir andere Sprachmodelle und Entwicklungen in der NLP erkunden. So verstehen wir die neuronale Textverarbeitung besser.

„Word2vec ist eine der beliebtesten Implementierungen des Word Embedding, bei der Wörter in numerische Vektoren transformiert werden, um ihre semantischen Beziehungen zu erfassen.“

Kennzahl	Wert
Word2vec Verwendung	Worteinbettungen in numerischen Vektoren erstellen
Algorithmen	Continuous Bag-of-Words (CBOW), Skip-Gram
Genauigkeit in Textanalysen	Höher als traditionelle Methoden
Alternativen	GloVe, FastText

Grundlagen der Word2vec-Technologie

Word2vec wurde 2013 von Google-Forschern entwickelt. Es ist ein Schlüsselkonzept in der Verarbeitung natürlicher Sprache (NLP). Es wandelt Wörter in vektorielle Repräsentationen um, auch Vektorisierung genannt. So kann man semantische Ähnlichkeiten zwischen Wörtern erfassen.

Definition und Funktionsweise

Word2vec stellt Wörter als Vektoren dar, die ihre Bedeutung zeigen. Es analysiert Texte, um Wörter basierend auf ihrer Umgebung zu verstehen. So erkennt man Ähnlichkeiten und kann Konzepte analogisieren.

Historische Entwicklung bei Google

Tomáš Mikolov und seine Gruppe bei Google entwickelten Word2vec. 2013 wurde es in einem Papier vorgestellt. Es wurde zuerst für Googles Suchfunktion genutzt, aber bald in der NLP-Community anerkannt.

Bedeutung für moderne NLP-Anwendungen

Word2vec ist wichtig für viele NLP-Anwendungen. Es hilft bei der Sentimentanalyse und Textklassifikation. Auch bei Empfehlungssystemen und Suchmaschinenoptimierung ist es entscheidend. Es zeigt, wie wichtig semantische Beziehungen sind.

Word2vec hat die NLP-Forschung stark vorangetrieben. Es ist ein Grundstein für KI-Systeme. Es ermöglicht es, Textdaten zu analysieren und zu verstehen.

Vektorrepräsentation von Wörtern im Raum

Word2vec-Technologie zeigt Wörter als Punkte in einem mehrdimensionalen Raum. Ähnliche Wörter stehen dabei nahe beieinander. So werden ihre Beziehungen und Bedeutungen klar.

Diese Darstellung ermöglicht es, mit Wörtern zu rechnen. Man kann zum Beispiel Wortähnlichkeiten berechnen. Auch semantische Beziehungen werden erfasst.

Die Vektoren zeigen subtile Bedeutungsunterschiede und Kontextinformationen. So können Computer die Sprache besser verstehen. Das ist wichtig für moderne Sprachverarbeitung, wie Sentimentanalyse und Empfehlungssysteme.

Modell	Jahr	Ansatz	Besonderheiten
Word2Vec	2013	Analyse von Wortkontext-Fenstern	Populäres Modell zur Erstellung von Worteinbettungen
GloVe	2014	Verwendung globaler Statistiken	Alternativer Ansatz zur Erstellung von Worteinbettungen
BERT	2018	Bidirektionales Transformermodell	Kontextuelle Worteinbettungen mit hoher Leistung
ELMo	2018	Tiefe bidirektionale LSTM-Modelle	Kontextuelle Worteinbettungen mit mehreren Ebenen

Diese Worteinbettungen sind sehr nützlich für NLP-Aufgaben. Sie helfen maschinellen Lernalgorithmen, semantische Beziehungen zu verstehen.

„Worteinbettungen sind mathematische Darstellungen von Wörtern in einem kontinuierlichen Vektorraum, die in der Verarbeitung natürlicher Sprache eingesetzt werden, um das Sprachverständnis von Computern zu verbessern.“

Die mathematische Struktur hinter Word2vec

Word2vec ist ein Schlüsselwerkzeug in der Textanalyse. Es verwendet Vektorarithmetik, um Wörter als Vektoren darzustellen. Ein Beispiel zeigt, wie man Wörter wie „König“, „Mann“ und „Frau“ zu „Königin“ addiert.

Die Kosinus-Ähnlichkeit hilft, die Nähe von Wörtern zu messen. So erkennt man semantisch ähnliche Begriffe. Mit Techniken wie PCA kann man die Dimensionen der Vektoren reduzieren.

Konzept	Beschreibung
Vektorarithmetik	Grundlage für die Darstellung semantischer Beziehungen zwischen Wörtern
Kosinus-Ähnlichkeit	Metrik zur Messung der Nähe von Wörtern im Vektorraum
Dimensionsreduktion	Techniken wie PCA zur Visualisierung und Erkennung semantischer Eigenschaften

Die Mathematik hinter Word2vec ist entscheidend. Sie ermöglicht es, Wörter in einem Vektorraum-Modell zu visualisieren. So kann man tiefere Einblicke in Sprache gewinnen.

Vektorraum-Modell

Continuous Bag-of-Words (CBOW) Modell

Das Continuous Bag-of-Words (CBOW) Modell ist eine Hauptarchitektur des Word2vec-Verfahrens. Es versucht, ein Zielwort auf Basis seines Kontexts vorherzusagen. Anders als bei anderen Sprachmodellierung-Ansätzen, berücksichtigt CBOW nicht die Reihenfolge der Wörter. Es behandelt den Kontext als eine einfache Kontextvorhersage.

Die CBOW-Architektur nutzt eine neuronale Netzwerk-basierte Herangehensweise. Es hat Eingabe-, verborgene und Ausgabeschichten. Ein Kontextfenster von 2 Wörtern wird verwendet, um das Zielwort vorherzusagen. Im Vergleich zum Skip-Gram-Modell ist CBOW effizienter beim Training auf häufigen Wörtern. Aber bei seltenen Wörtern kann es manchmal weniger präzise sein.

CBOW findet in vielen NLP-Anwendungen Einsatz. Zum Beispiel bei Sentimentanalyse, Textklassifizierung oder maschineller Übersetzung. Es bietet Einblicke in die Bedeutung und den Kontext von Sprache.

Merkmal	CBOW Modell	Skip-Gram Modell
Trainingsgeschwindigkeit	Schneller	Langsamer
Genauigkeit bei häufigen Wörtern	Besser	Schlechter
Genauigkeit bei seltenen Wörtern	Schlechter	Besser
Repräsentation seltener Wörter	Weniger präzise	Präziser

Insgesamt bietet das CBOW-Modell eine effiziente Methode zur Worteinbettung und Kontextvorhersage. Es wird in vielen modernen KI-Systemen zur Textverarbeitung verwendet.

Skip-Gram Architektur und ihre Besonderheiten

Das Skip-Gram-Modell ist eine Hauptarchitektur des Word2vec-Ansatzes. Es ist anders als das CBOW-Modell. Das Skip-Gram-Modell versucht, den Kontext eines Zielwortes vorherzusagen.

Funktionsweise des Skip-Gram Modells

Das Skip-Gram-Modell will die Wahrscheinlichkeit von Kontextwörtern in der Umgebung eines Zielworts maximieren. Es optimiert die Wortvektoren, um die Wahrscheinlichkeit der Kontextwörter gut zu zeigen. Es ist gut für seltenere Wörter und kleinere Datensätze.

Anwendungsbereiche und Vorteile

Effizient bei seltenen Wörtern und kleineren Datensätzen
Ermöglicht eine detailliertere Modellierung der Wortbeziehungen
Wird erfolgreich in Anwendungen wie Sentimentanalyse, Textklassifikation und Empfehlungssystemen eingesetzt
Erlaubt die Verwendung von Techniken wie negatives Sampling und hierarchisches Softmax, um die Berechnungen effizienter zu gestalten

Die Skip-Gram-Architektur verbessert Wortvorhersage, Kontextmodellierung und seltenen Wörtern. Durch Sprachmodell-Training und Worteinbettungen ist es vielseitig in der Textanalyse einsetzbar.

Training und Optimierung von Word2vec-Modellen

Das Training von neuronales Netzwerk-Training Word2vec-Modellen nutzt große Textkorpora. Techniken wie negativer Stichprobe und hierarchisches Softmax steigern die Effizienz. Die Hyperparameter-Optimierung beinhaltet Anpassungen wie Fenstergröße und Vektordimensionen. Moderne Methoden verbessern die Modellperformance durch Subsampling häufiger Wörter und Mehrwort-Ausdrücke.

Word2Vec wurde 2013 von Google eingeführt und veränderte die Sprachverarbeitung in der KI. Wortvektoren sind numerische Darstellungen von Wörtern, die Bedeutungen und Strukturen erfassen. Sie zeigen, dass Wörter mit ähnlichen Bedeutungen nahe beieinander liegen.

Die distributionelle Hypothese ist wichtig für Wortvektoren. Sie besagt, dass Wörter in ähnlichen Kontexten ähnliche Bedeutungen haben. Im Continuous Bag-of-Words (CBOW) Modell werden Kontextvektoren gemittelt, um ein Zielwort zu erzeugen. Im Skip-Gram Modell werden Prognosen für Wörter innerhalb eines Fensters erstellt.

Moderne Methoden wie Gradientenabstieg und hierarchisches Softmax verbessern Word2Vec-Modelle. Die Softmax-Funktion berechnet die Wahrscheinlichkeit eines Wortes im Kontext. Techniken wie negativer Stichprobe reduzieren die Trainingszeit, ohne die Qualität zu mindern.

Die Optimierung von Word2Vec-Modellen ist entscheidend für leistungsstarke Sprachmodelle. Durch fortschrittliche Trainingsmethoden profitieren Anwendungen in Textanalyse und Übersetzung von Word2Vec-Erkenntnissen.

Praktische Anwendungen in der Textanalyse

Word2vec ist eine innovative Technologie, die in der Textanalyse viel genutzt wird. Ein Hauptbereich ist die Sentimentanalyse. Hier hilft Word2vec, die Stimmung in Texten genau zu erkennen.

Es versteht, wie Wörter zusammenhängen. So kann man Texte gut auf positive, negative oder neutrale Gefühle untersuchen.

Ein weiterer wichtiger Einsatzbereich ist die Dokumentenklassifizierung. Word2vec macht es einfacher, Texte in Kategorien wie Nachrichten oder Produktbewertungen einzuteilen. Das hilft, Inhalte schneller zu finden und zu sortieren.

Empfehlungssysteme und Suchoptimierung

Word2vec ist auch in Empfehlungssystemen sehr nützlich. Es findet ähnliche Produkte oder Dienstleistungen, die semantisch nahe stehen. So bekommen Nutzer Empfehlungen, die genau zu ihnen passen.

In der Suchoptimierung hilft Word2vec ebenfalls. Es versteht Suchbegriffe besser, sodass Suchergebnisse genauer und nützlicher werden. So findet man Inhalte, die über den Wortlaut hinausgehen, was die Nutzerfreundlichkeit steigert.

Textanalyse Anwendungen

„Word2vec revolutioniert die Textanalyse, indem es Sprache auf einer tieferen semantischen Ebene versteht und so innovative Anwendungen ermöglicht.“

Integration mit modernen KI-Systemen

Word2vec ist eine wichtige Technologie für Textanalyse mit neuronalen Netzwerken. Es ist ein Schlüssel für KI-Systeme. Es hilft bei der Verarbeitung natürlicher Sprache (NLP) und ermöglicht Chatbots, automatische Übersetzung und Sprachassistenten.

Es verbessert die Leistung von Sprachmodellen durch Transfer Learning. Die Integration in KI-Pipelines erweitert die Anwendungsmöglichkeiten. Es ermöglicht ein tieferes Sprachverständnis durch Vektorrepräsentationen von Wörtern.

Anwendungsbereiche	Vorteile der Integration
Chatbots und virtuelle Assistenten Automatische Übersetzung Sentiment-Analyse und Textklassifizierung Empfehlungssysteme und Suchmaschinen	Verbessertes Sprachverständnis und natürlichere Interaktion Stärkere Kontexterfassung und semantische Analyse Leistungssteigerung durch Transfer Learning Erweiterung der Funktionalität von KI-Pipelines

Die Integration von Word2vec in KI-Systeme und Deep Learning bringt neue Chancen. Es verbessert das Sprachverständnis und die Effizienz von NLP-Pipelines.

Semantische Ähnlichkeiten und Wortbeziehungen

Word2vec-Technologie entdeckt semantische Ähnlichkeiten und komplexe Wortbeziehungen. Wörter werden in einem kontinuierlichen Raum als Vektoren dargestellt. So können faszinierende Analogien wie „König : Mann = Königin : Frau“ gelöst werden.

Durch kontextabhängige Analyse verstehen wir die Bedeutung von Wörtern in verschiedenen Zusammenhängen.

Analogien und Wortassoziationen

Word2vec-Modelle lernen und erfassen semantische Beziehungen zwischen Wörtern. Sie entdecken Analogien, wie „König : Mann = Königin : Frau“. Diese Fähigkeit ist ein Schlüsselmerkmal der Wortähnlichkeit und lexikalischen Semantik.

Kontextuelle Analyse

Word2vec ermöglicht es, die kontextabhängige Bedeutung von Wörtern zu verstehen. Durch Analyse des Umfelds erkennen wir semantische Relationen zwischen Wörtern. Diese Fähigkeit ist entscheidend für fortgeschrittene Sprachverständnis-Aufgaben und leistungsfähige Suchfunktionen.

„Word2vec ist eine revolutionäre Technik, die es ermöglicht, komplexe Beziehungen zwischen Wörtern zu erfassen und zu nutzen.“

Word2vec-basierte Systeme ermöglichen ein tieferes Verständnis von Analogieaufgaben und kontextabhängigen Bedeutungen der Sprache. Diese Erkenntnisse sind entscheidend für moderne Anwendungen der natürlichen Sprachverarbeitung.

Herausforderungen und Limitationen

Word2vec hat viele Vorteile, wie die Fähigkeit, Wörter zu verstehen und Texte zu analysieren. Aber es gibt auch Herausforderungen und Grenzen.

Ein großer Haken ist die Sprachkomplexität und Mehrdeutigkeit von Sprachen. Manchmal kann Word2vec mehrdeutige Wörter nicht genau verarbeiten. Das liegt daran, dass es die Bedeutung eines Wortes aus seinem Kontext ableitet.

Es verarbeitet Texte als „Bag of Words“. Das bedeutet, es ignoriert die Reihenfolge der Wörter. Für Anwendungen wie Textgenerierung oder Übersetzung sind diese Informationen wichtig.

Die Qualität der Modelle hängt stark von den Trainingsdaten ab. Wenn die Daten vorurteilsbeladen sind, kann das Modell stereotype Assoziationen entwickeln.

Der Rechenaufwand bei der Modellenwicklung ist ebenfalls eine Herausforderung. Besonders bei großen Textkorpora.

„Trotz seiner Stärken hat Word2vec Einschränkungen. Es kann Schwierigkeiten mit mehrdeutigen Wörtern haben und erfasst keine Wortordnung. Die Qualität der Ergebnisse hängt stark von der Trainingsdatenmenge und -qualität ab.“

Zusammenfassend zeigt Word2vec, dass es nicht für alle Textanalyseprobleme geeignet ist. Der effektive Einsatz erfordert ein Verständnis seiner Stärken und Schwächen.

Word2vec im Vergleich zu anderen NLP-Modellen

Word2vec ist ein bahnbrechendes Modell für Textanalyse. Es ist einfach und effizient, besonders im Vergleich zu GloVe, FastText und BERT. GloVe nutzt globale Statistiken, FastText Subwörter und BERT kontextsensitive Einbettungen. Aber BERT ist rechenintensiver und braucht mehr Training.

Word2vec ist schnell und leicht zu interpretieren. Es ist ideal für spezielle Aufgaben und bei begrenzten Ressourcen. Es kann Wörter in Vektoren darstellen und semantische Beziehungen erfassen. Das macht es zu einem starken Werkzeug für NLP-Aufgaben wie Sentimentanalyse und Textklassifikation.

Modell	Ansatz	Stärken	Schwächen
Word2vec	Neuronale Netzwerke	Einfach, effizient, interpretierbar	Kontextunabhängige Einbettungen
GloVe	Globale Statistiken	Nutzung umfassender Statistiken	Weniger flexibel als neuronale Ansätze
FastText	Subwort-Informationen	Berücksichtigung von Wortbildung	Höherer Ressourcenverbrauch
BERT	Transformermodell	Kontextsensitive Einbettungen	Rechenintensiv, komplexes Training

Word2vec bleibt ein Schlüsseltool in der NLP-Welt. Seine Effizienz und Einfachheit machen es wertvoll. Es kann mit BERT seine Stärken zeigen.

Implementierung in der Praxis

Die Umsetzung von Python NLP-Anwendungen wie Word2vec nutzt oft Gensim oder TensorFlow. Diese Bibliotheken erleichtern es Entwicklern, Textverarbeitungsmodelle zu erstellen und zu trainieren.

Coding-Beispiele und Tools

Coding-Beispiele zeigen, wie man Wortvektormodelle trainiert und Wörter vergleicht. Diese Techniken sind wichtig für Anwendungen wie Textklassifikation und Empfehlungssysteme.

Tools wie der Word2Vec-Explorer von Gensim erleichtern die Interpretation der gelernten Wortrepräsentationen. So können Sie Ihre Modellimplementierung besser analysieren und verbessern.

Best Practices für die Entwicklung

Für hochwertige Word2vec-Modelle gibt es bewährte Best Practices:

Die Datenvorverarbeitung ist wichtig: Reinigen, Tokenisieren und Normalisieren Sie den Text.
Wählen Sie die richtigen Hyperparameter: Überlegen Sie gut über Fenstergröße, Lernrate und Dimensionalität nach.
Verwenden Sie Validierungstechniken: Kreuzvalidierung hilft, die Modellqualität zu beurteilen.
Überwachen und Feinabstimmen Sie das Modell: Regelmäßige Evaluation und Anpassung sind für den Einsatz wichtig.

Folgen Sie diesen Best Practices, um leistungsfähige Word2vec-Modelle zu entwickeln. So nutzen Sie die Vorteile der neuronalen Textverarbeitung.

„Die praktische Umsetzung von Word2vec erfordert zwar etwas Aufwand, bietet aber immense Möglichkeiten für innovative Textanalyse-Anwendungen.“

Zukunftsperspektiven und Entwicklungen

Die Zukunft von Word2vec und verwandten NLP-Trends sieht gut aus. Sie wird durch KI-Fortschritte geprägt. Neue Modelle werden Text mit Bildern und Audio kombinieren.

Transferlernen und sprachübergreifende Modelle werden wichtiger. Forscher arbeiten daran, Worteinbettungen besser zu verstehen und Bias zu reduzieren.

Transformer-basierte Modelle wie BERT spielen eine große Rolle. Sie ermöglichen ein besseres Sprachverständnis. Durch Techniken wie Masked Language Modeling und Next Sentence Prediction wird das Textverständnis verbessert.

Entwicklungen im Transfer Learning eröffnen neue Wege. Modelle können auf verschiedene Anwendungen und Sprachen übertragen werden. Das macht Word2vec und ähnliche Technologien flexibler und effizienter.

„Die Zukunft von NLP liegt in der Integration von Sprachverständnis, Bild- und Audioanalyse zu leistungsfähigen, multimodalen Systemen.“

Die Entwicklung von Word2vec und verwandten Ansätzen zeigt vielversprechende Trends. Forscher arbeiten daran, die Grenzen der Technologie zu überschreiten. So entstehen neue, innovative Anwendungen im Bereich des Sprachverständnisses.

Fazit

Die NLP-Revolution begann mit Word2vec. Sie hat, wie wir Sprache in KI-Anwendungen nutzen, stark verändert. Diese Technologie versteht nun, wie Wörter zusammenhängen.

Durch sie entstanden neue Lösungen in Sprachverständnis, Suchmaschinen und Empfehlungssystemen. Das zeigt, wie wichtig sie für die Zukunft ist.

Obwohl es neue KI-Anwendungen gibt, bleibt Word2vec wichtig. Seine Effizienz und Verständlichkeit machen es unverzichtbar in der Textanalyse. Die Zukunft der Textanalyse wird spannend bleiben.

Word2vec hat eine echte NLP-Revolution ausgelöst. Es ist ein wichtiger Teil moderner KI-Systeme. Die Zukunft zeigt, dass es weiterhin eine zentrale Rolle spielen wird.

FAQ

Was ist Word2vec?

Word2vec ist ein Tool, das Wörter in Zahlen umwandelt. So wird die Sprache für Computer verständlich. Es wurde von Google entwickelt und ist wichtig für viele Sprachsysteme.

Wie funktioniert die Vektorrepräsentation von Wörtern?

Word2vec zeigt Wörter als Punkte in einem Raum. Ähnliche Wörter stehen dabei nahe beieinander. Das ermöglicht es, Wörter miteinander zu rechnen.

Welche Hauptarchitekturen nutzt Word2vec?

Es gibt zwei Hauptarten bei Word2vec: CBOW und Skip-Gram. CBOW versucht, ein Wort zu erraten, basierend auf seinem Kontext. Skip-Gram macht das Gegenteil.

Wie wird Word2vec trainiert?

Word2vec lernt durch große Textsammlungen. Es nutzt Techniken wie negative Stichprobe. So verbessert es seine Fähigkeiten.

Welche praktischen Anwendungen hat Word2vec?

Word2vec hilft bei der Textanalyse. Es wird für Sentimentanalyse, Textklassifikation und Empfehlungssysteme verwendet. Auch für Chatbots und Übersetzungen ist es wichtig.

Welche Herausforderungen und Limitationen hat Word2vec?

Word2vec hat Schwierigkeiten mit Wörtern, die mehrere Bedeutungen haben. Es versteht keine Wortreihenfolge. Die Qualität hängt von den Trainingsdaten ab.

Wie unterscheidet sich Word2vec von anderen NLP-Modellen?

Word2vec ist einfacher und effizienter als andere Modelle. Modelle wie GloVe nutzen andere Methoden. Neuere Modelle wie BERT sind kontextsensitiver, aber rechenintensiver.

Wie kann man Word2vec in der Praxis implementieren?

Man nutzt Python-Bibliotheken wie Gensim oder TensorFlow. Beispiele zeigen, wie man Modelle trainiert und Wörter vergleicht. Wichtig sind gute Daten und die richtigen Einstellungen.

Wie sieht die Zukunft von Word2vec aus?

Die Zukunft von Word2vec liegt in der Kombination mit neuen Technologien. Es geht um multimodale Modelle und sprachübergreifende Systeme. Forschung konzentriert sich auf bessere Modelle und weniger Vorurteile.