CODECENTRIC.AI BOOTCAMP

created by @codecentric.ai

Natural Language Processing

basics

Was ist NLP?

00

1001

1010

0110

0001

1011

01

!

1. Was kann NLP?

2. Ein Blick in die Werkzeugkiste

4. Wie weiter?

3. Was kann NLP nicht gut?

1. Was kann NLP?

Anwendungen

Chatbots

Sprachassistenten

Textklassifikation

Suchmaschinen

Question Answering

Übersetzung

Stimmungsbild

Sprachassistenten

Hey Siri, mach das Licht im Kühlschrank aus!

"Hey Siri, ruf Oma über den Lautsprecher an!"

Alexa, spiel Deutschlandfunk!

Alexa, wieviel ist 7 mal 6?

OK google, wie wird das Wetter?

OK google, hol schon mal den Wagen.

Cortana, erzähl mir einen Witz!

Cortana, was steht auf meiner Einkaufsliste?

Übersetzung

Question Answering

2. Wie geht NLP?

Werkzeugkiste

optical character

recognition

voice

recognition

web crawling

web scraping

e-mail

databases

social media

von Rohtext...

  • Worte, Wortgruppen, Personen, ...
  • Häufigkeiten, Relevanz, Wortnähe, ...
doc X
0 0.00, 0.12, 0.43, 0.50, ...
1 0.73, 0.32, 0.02, 0.45, ...
2 0.00, 0.00, 0.00, 1.00, ...
3 0.32, 0.12, 0.47, 0.89, ...
4 0.00, 1.00, 1.00, 0.92, ...
5 0.00, 0.16, 0.05, 0.38, ...
6 0.93, 0.85, 0.48, 0.32, ...
... ...

... durch NLP zu strukturierten Daten

doc X y
0 0.00, 0.12, 0.43, 0.50, ... +
1 0.73, 0.32, 0.02, 0.45, ... +
2 0.00, 0.00, 0.00, 1.00, ... -
3 0.32, 0.12, 0.47, 0.89, ... -
4 0.00, 1.00, 1.00, 0.92, ... +
5 0.00, 0.16, 0.05, 0.38, ... -
6 0.93, 0.85, 0.48, 0.32, ... -
... ... ...

Werkzeug  Sprachanalyse

tokenize

part-of-speech tagging

Peter fährt auf seinem Fahrrad nach Berlin .
Peter fahren auf sein Fahrrad nach Berlin .

stem / lemmatize

Subst
Subst
Subst
Verb
Präp
Präp
Präp

spaCy

NLTK

gensim

Sprachanalyse-Bibliotheken

the natural language toolkit

industrial strength natural language processing

topic modelling for humans

...

Azrael
bin
ich
hasse
laufe
Gargamel
Mama
Omnibus
Papa
...
0
1
1
1
0
1
0
0
1
...

Werkzeug  bag of words

ich
Schlumpf
Gargamel
Papa
bin
hasse
und
ich bin Papa Schlumpf und ich hasse Gargamel

Werkzeug  N-Gramme

ich bin Papa Schlumpf und ich hasse Gargamel

Bigramme

Trigramme

ich bin
bin Papa
Papa Schlumpf
...
ich bin Papa
bin Papa Schlumpf
...
ich bin Papa Schlumpf und ich hasse Gargamel
Papa
Schlumpf
hasse
Gargamel

Werkzeug  Stopp-Wörter

auf hinter soll
aus ich sollte
bei ihm sondern
bin ihn sonst
bis ihnen um
bist ihr und
stopwords_nltk.txt
ich
und
bin
ich

Stopp-Wörter

sind nicht

wichtig

Ärzte
Die
Ärzte

Werkzeug  named entity recognition

Joe fährt mit dem Zug um 18:00 Uhr nach Berlin.

Zeitangabe

Person

Ort

Organisationen

Nationalitäten

Mengenangaben

...

Werkzeug  Wort-Einbettungen

Deutschland
array([ 1.61266834e-01,  1.17928527e-01,  1.55770943e-01,
       -1.71809588e-02, -1.22292554e-02, -8.68283212e-02,  
                   ...,             ...,             ...,
       -9.91134644e-02,  3.59951071e-02, -1.15666792e-01])

word2vec

gloVe

fasttext

Werkzeug  Wort-Einbettungen

Werkzeug  neuronale Netze

dichte vernetzte Schichten

1-dimensionale Faltungsschichten

...

rekurrente Schichten

(gru, lstm)

3. Was kann NLP nicht gut?

Grenzen

Problem  Mehrdeutigkeit

Stadt am Bodensee

Synonym für Beständigkeit

...   Ich   mag   Konstanz   ...

?

Problem  Kontextwissen

Michael Jackson (1958-2009)

US-amerikanischer Sänger

Michael David Jackson (*1944)

britischer General

Michael Jackson war bei den Ereignissen 
                   des Blutsonntag anwesend.

?

Problem  Sprachgebrauch

tollwütig (veraltet)

unglaublich / fantastisch

... Sie ist toll !

?

sich aufgrund einer Psychose auffällig verhaltend (veraltet)

4. Wie geht es weiter?

Ausblick

codecentric.AI  bootcamp

NLP basics - Tutorial

codecentric.AI  bootcamp

NLP basics - Tutorial

Politiker Rede (Rohtext)
Angela Merkel Liebe Kolleginnen und Kollegen aus dem Deu
Bernd Neumann In seiner Rede betonte Staatsminister Bernd
Gerhard Schröder Unser Zwiegespräch war anders. Michael Glo
Christina Weiss Als vor vier Jahren das Amt des oder nunme
Christina Weiss Auf diesem Festival wird ein deutscher Film
Angela Merkel Ich freue mich, das "African Partnership Foru
Joschka Fischer Es ist eine Freude und für uns alle eine beso
Bernd Neumann Dass ein überaus erfolgreicher Rockmusiker

Klassifikation

Training

Test

 

  • bag of words
  • Bayes-Klassifikator
  • neuronale Netze
  • Wort-Einbettungen
Christina Weiss
Gerhard Schröder
Joschka Fischer
Angela Merkel

Evaluation

NLP  advanced

Chatbots

Übersetzer

text-to-speech

question answering

Sprachassistenten

https://botpress.io
http://opennmt.net
https://mycroft.ai
http://mary.dfki.de
\mathrm{tfidf}(t,D)=\frac{\#(t,D)}{\max_{t'}\#(t',D)}\log\frac{N}{\sum_{D':t\in D'} 1}
tfidf(t,D)=#(t,D)maxt#(t,D)logND:tD1\mathrm{tfidf}(t,D)=\frac{\#(t,D)}{\max_{t'}\#(t',D)}\log\frac{N}{\sum_{D':t\in D'} 1}
[ 0.00,  0.24, -0.82,

  0.04, -0.44, 0.98, 

  ....,  ....,  ....]

seq2seq-Netze

Dokument-Einbettungen

statistische Methoden

NLP basics

By cc_ai

NLP basics

  • 79
Loading comments...

More from cc_ai