1
00:00:00,000 --> 00:00:13,230
*33C3 Vorspannmusik*

2
00:00:13,230 --> 00:00:18,370
Herald Carina Haupt: David Kriesel ist
Data Scientist. Und der eine oder andere

3
00:00:18,370 --> 00:00:24,919
kennt ihn vielleicht noch vom 31C3, wo er
den relativ bekannt gewordenen berühmten

4
00:00:24,919 --> 00:00:27,039
Xerox Scanning Bug Vortrag gehalten hat.

5
00:00:27,039 --> 00:00:34,950
*Applaus*

6
00:00:34,950 --> 00:00:41,460
Dieser hat ihn offensichtlich nicht nur
hier bekannt gemacht. Sondern auch zu

7
00:00:41,460 --> 00:00:45,840
internationaler Bekanntheit verholfen. Und
damit begrüsse ich ihn und freue mich auf

8
00:00:45,840 --> 00:00:51,380
einen spannenden Talk und bitte Euch
nochmal um einen ganz ganz herzlichen

9
00:00:51,380 --> 00:00:54,100
Applaus für David.

10
00:00:54,100 --> 00:00:57,040
*Applaus*

11
00:00:57,040 --> 00:00:59,320
David: Dankeschön

12
00:00:59,320 --> 00:01:01,060
*Applaus*

13
00:01:01,060 --> 00:01:06,720
Ja, dankeschön. Herzlich willkommen. Auch
nochmal von mir. Auch an die Leute im

14
00:01:06,720 --> 00:01:11,580
Internet. Und auch an die Leute vom
Spiegel. Von denen ich weiss, dass sie

15
00:01:11,580 --> 00:01:18,390
anwesend sind. Es ist schön wieder hier
zu sein. Mein Name ist David Kriesel. Ich

16
00:01:18,390 --> 00:01:22,570
bin Informatiker aus Bonn. Und ich mache
beruflich, es wurde schon gesagt Data

17
00:01:22,570 --> 00:01:26,620
Science und Machine Learning. Und salopp
gesagt, versuche ich für meine

18
00:01:26,620 --> 00:01:33,540
Arbeitgeber aus grossen Datenmengen Wissen
zu ziehen. Und seit 2014 habe ich knapp

19
00:01:33,540 --> 00:01:38,750
100 000 Artikel von Spiegel Online
ge-vorratsdaten-speichert.

20
00:01:38,750 --> 00:01:45,550
*Gelächter**Applaus*

21
00:01:45,550 --> 00:01:49,590
Und das habe ich einfach niemanden
erzählt.

22
00:01:49,590 --> 00:01:51,320
*Gelächter*

23
00:01:51,320 --> 00:01:55,420
Und während ich da so zweieinhalb Jahre
sitze und das niemanden erzähle, ist die

24
00:01:55,420 --> 00:01:59,470
Stimmung medial irgendwie umgeschlagen.
Vor zweieinhalb Jahren war die Welt noch

25
00:01:59,470 --> 00:02:04,600
in Ordnung und heute ist die Rede von
Lügenpresse und Fake News und genau aus

26
00:02:04,600 --> 00:02:09,669
dieser Zeit des Stimmungsumbruchs haben
wir jetzt einen riesigen Datensatz über

27
00:02:09,669 --> 00:02:15,290
den vielleicht grössten Meinungsmacher
unserer Nation. Und mit diesem Datensatz

28
00:02:15,290 --> 00:02:18,950
werden wir heute zwei Sachen machen:
Erstens, wir werden den Datensatz

29
00:02:18,950 --> 00:02:23,720
durchleuchten und was über Spiegel Online
lernen. Und zwar so, dass ihr das auch mit

30
00:02:23,720 --> 00:02:29,629
nach Hause nehmen und beim Lesen dann
anwenden könnt. Und zweitens, wir werden

31
00:02:29,629 --> 00:02:34,129
Einblick erhalten wie die Datensammelwut
von heute funktioniert und wie mächtig

32
00:02:34,129 --> 00:02:38,029
oder vielleicht auch nicht mächtig die
ist. Und das machen wir so, dass es für

33
00:02:38,029 --> 00:02:42,750
jeden verstehbar ist, nicht nur für
Informatiker. Und zusätzlich werde ich,

34
00:02:42,750 --> 00:02:46,359
wie in meinem letzten Vortrag vor zwei
Jahren ein bisschen auf das

35
00:02:46,359 --> 00:02:50,069
Gesellschaftliche eingehen. Und wir werden
an ein paar passenden Beispielen

36
00:02:50,069 --> 00:02:53,429
beleuchten, wie die moderne
Datenverarbeitung unsere Gesellschaft

37
00:02:53,429 --> 00:02:57,210
beeinflussen kann. Und ob wir die Welt,
mit dieser allumfassenden Datensammelwut

38
00:02:57,210 --> 00:03:01,119
besser machen oder schlechter machen, dass
kann dann ja später jeder von euch für

39
00:03:01,119 --> 00:03:06,510
sich selbst entscheiden. Am besten fangen
wir an, in dem ich kurz beschreibe wie

40
00:03:06,510 --> 00:03:12,010
genau Spiegelmining funktioniert. Rund um
die Uhr, alle paar Minuten schaut einer

41
00:03:12,010 --> 00:03:16,599
meiner Server vollautomatisch auf Spiegel
Online nach ob dort neue Artikel stehen

42
00:03:16,599 --> 00:03:20,340
und werden neue Artikel gefunden, dann
werden die heruntergalden und

43
00:03:20,340 --> 00:03:25,141
abgespeichert. Und auf diese Weise hat der
Datensatz einen coolen Vorteil der ja

44
00:03:25,141 --> 00:03:29,519
jetzt vielleicht nicht sofort ersichtlich
ist: ich erhalte neue Artikel binnen

45
00:03:29,519 --> 00:03:33,960
Minuten, nachdem sie veröffentlicht
wurden. Das heisst, ich kriege die im

46
00:03:33,960 --> 00:03:35,650
Originalzustand, also vor allen

47
00:03:35,650 --> 00:03:37,470
Verbesserungen und Änderungen,

48
00:03:37,470 --> 00:03:38,920
die im Nachhinein vorgenommen

49
00:03:38,920 --> 00:03:41,519
werden und das ist natürlich
viel aussagekräftiger.

50
00:03:41,519 --> 00:03:45,589
Man erhält ein unverfälschten Eindruck und
es ist nicht so wie wenn man einen Artikel

51
00:03:45,589 --> 00:03:50,129
runterlädt, die vieleicht schon Jahre alt
und tausend mal editiert sind. Aus den

52
00:03:50,129 --> 00:03:54,059
heruntergeladenen Artikeln lese ich dann
sogenannte Features. Feature ist einfach

53
00:03:54,059 --> 00:03:57,919
das Fachwort für ein Artikelmerkmal. Ganz
einfache Features eines Artikels können

54
00:03:57,919 --> 00:04:00,420
zum Beispiel der
Veröffentlichungszeitpunkt oder die

55
00:04:00,420 --> 00:04:04,260
Rubrik sein, in der der Artikel steckt.
Und die Features nehme ich dann und mache

56
00:04:04,260 --> 00:04:08,739
damit Auswertungen, von den sehen wir
heute noch ein paar. Und die interessanten

57
00:04:08,739 --> 00:04:12,979
unter den Auswertungen nutze ich dann, um
auf meiner Seite eine Blogartikelserie zu

58
00:04:12,979 --> 00:04:16,959
schreiben, um meinen Lesern einen Einblick
in Spiegel Online und die Data Science

59
00:04:16,959 --> 00:04:21,060
gleichermassen zu geben und das war es.
Spiegelmining in wenigen Minuten. Und am

60
00:04:21,060 --> 00:04:24,750
Anfang machen wir jetzt ein paar sehr
einfache Auswertungen, so sehen wir wie

61
00:04:24,750 --> 00:04:28,110
das funktioniert und verschaffen uns
gleichzeitig einen Überblick über

62
00:04:28,110 --> 00:04:32,060
Spiegel Online und als erstes zählen wir
mal wie häufig die einzelnen Rubriken so

63
00:04:32,060 --> 00:04:37,400
vorkommen. Das ist die Ansicht. Die
Größe der Kreise gibt die Artikelanzahl

64
00:04:37,400 --> 00:04:42,340
pro Rubrik wieder und wie wir sehen, wird
Spiegel Online dominiert von Politik, das

65
00:04:42,340 --> 00:04:47,740
ist der große rote Kreis rechts oben, von
Panorama, das ist der grüne Kreis in der

66
00:04:47,740 --> 00:04:51,930
Mitte und vom Sport, das ist der
fliederfarbene Kreis ganz unten. Ich

67
00:04:51,930 --> 00:04:54,740
weiss, was fliederfarben ist. Ich höre
schon Leute lachen.

68
00:04:54,740 --> 00:04:57,490
*Applaus*

69
00:04:57,490 --> 00:05:04,270
Also die drei Rubriken, die machen
zusammen die Hälfte der Artikel aus. Und

70
00:05:04,270 --> 00:05:08,169
das nächste supereinfache Feature ist der
Veröffentlichungszeitpunkt von jedem

71
00:05:08,169 --> 00:05:11,910
Artikel. Damit messen wir jetzt einfach
mal, wieviele Artikel Spiegel Online am

72
00:05:11,910 --> 00:05:16,120
Tag so schreibt. Der Plot sieht jetzt
richtig richtig krass unordentlich aus,

73
00:05:16,120 --> 00:05:19,730
dass man da fast keine Werte erkennen
kann. Das liegt an den Wochenenden.

74
00:05:19,730 --> 00:05:23,020
Da wird um die Hälfte weniger
veröffentlicht als normal. Und deswegen

75
00:05:23,020 --> 00:05:27,019
schwankt das so krass. Und hier gibt es
dann auch gleich den ersten Bericht aus

76
00:05:27,019 --> 00:05:32,240
der Praxis: wie man deutlich sieht, habe
ich Anfang März 2015 ein paar Tage Loch

77
00:05:32,240 --> 00:05:36,770
in den Daten. Und der Grund ist, dass der
März ein Monat mit "ae" ist.

78
00:05:36,770 --> 00:05:40,180
*Gelächter**Applaus*

79
00:05:45,950 --> 00:05:52,639
Also, mir ist das nach kurzer Zeit zum
Glück aufgefallen. Also wenn Ihr Daten

80
00:05:52,639 --> 00:05:56,940
aufnehmt, dann programmiert Euch bitte mal
irgendeine Form von Warnsystem, das

81
00:05:56,940 --> 00:06:00,710
anschlägt, wenn länger keine Daten mehr
eintrudeln. Ich hatte das zum Glück und

82
00:06:00,710 --> 00:06:04,380
das hat mir hier sehr geholfen. Jetzt
schlägt es in ein paar Minuten an und da

83
00:06:04,380 --> 00:06:08,009
hatte ich so irgendwie ein paar Tage keine
Ahnung. Zurück zum Plot: Wegen der

84
00:06:08,009 --> 00:06:10,969
Unordnung mit den Wochenenden ändern wir
jetzt unseren Plot und berechnen statt den

85
00:06:10,969 --> 00:06:14,821
Artikeln pro Tag jetzt die Artikel pro
Woche. Und man sieht jetzt auch was und da

86
00:06:14,821 --> 00:06:19,340
sehen wir, dass Spiegel Online im Schnitt
so 700 Artikel die Woche veröffentlicht,

87
00:06:19,340 --> 00:06:23,979
also so 100 am Tag. Und das ist schon
ziemlich viel Output. Ãœbrigens die beiden

88
00:06:23,979 --> 00:06:28,830
krassen Einbrüche, die Ihr hier seht, das
sind die Weihnachtswochen, da wird weniger

89
00:06:28,830 --> 00:06:32,430
veröffentlicht und der Datensatz für
diesen Vortrag ist vom 4. Dezember,

90
00:06:32,430 --> 00:06:36,490
deswegen ist dieser Weihnachts-Low dieses
Mal einfach noch nicht drin. Und wenn man

91
00:06:36,490 --> 00:06:41,090
jetzt Features einzeln betrachtet, aber
richtig interessant wird es, wenn wir

92
00:06:41,090 --> 00:06:43,979
Features zusammen betrachten. Wir
verwursten jetzt also mal

93
00:06:43,979 --> 00:06:48,440
Veröffentlichungszeitpunkt und Rubrik
zusammen. Und dann können wir sehen, das

94
00:06:48,440 --> 00:06:54,740
beispielsweise der Output in den Rubriken
Panorama und Politik stabil ist. Während

95
00:06:54,740 --> 00:06:58,840
Wissenschaft und Uni-Spiegel ganz schön
zusammengestrichen wurden. Das gilt

96
00:06:58,840 --> 00:07:02,759
übrigens in abgeschwächter Form auch für
andere Ressorts. Solche Infos, welche

97
00:07:02,759 --> 00:07:06,990
Ressorts gerade gerupft werden, sind zum
Beispiel relativ interessant, wenn man

98
00:07:06,990 --> 00:07:10,840
Konkurrent von Spiegel Online ist. Das
kann man ohne weiteres auslesen. Und wir

99
00:07:10,840 --> 00:07:15,470
sehen, geschickt Features ausdenken und
zusammenstöpseln, ist die halbe Welt.

100
00:07:15,470 --> 00:07:20,160
Jetzt nehmen wir mal die Textlänge der
Artikel dazu. Hier sind die typischen

101
00:07:20,160 --> 00:07:25,050
Artikellängen im Spiegel angegeben und
zwar pro Rubrik. Und man sieht, dass der

102
00:07:25,050 --> 00:07:30,160
typische Kulturartikel fast dreimal so
lang ist, wie der typische Panorama- oder

103
00:07:30,160 --> 00:07:35,569
Sportartikel und immerhin noch doppelt so
lang wie der typische Politikartikel. Und

104
00:07:35,569 --> 00:07:40,110
jetzt hatten wir schon gesehen, das
Panorama, Sport und Politik trotz ihrer

105
00:07:40,110 --> 00:07:43,680
kurzen Artikellängen genau die drei
dominierenden Ressorts sind. Und daraus

106
00:07:43,680 --> 00:07:48,509
können wir folgern, das Spiegel Online es
eher auf Reichweite anlegt und auf

107
00:07:48,509 --> 00:07:54,600
Abdeckungsbreite als auf Tiefe. Die
Strategie Reichweite um jeden Preis

108
00:07:54,600 --> 00:07:58,179
scheint Spiegel Online auch noch so zu
verstärken. Die zusammengestrichenen

109
00:07:58,179 --> 00:08:01,760
Rubriken waren alles welche mit eher
langen Texten. Und bevor das hier jetzt

110
00:08:01,760 --> 00:08:05,660
falsch ankommt, ich sage das ohne jede
Wertung im Sinne von gut oder schlecht das

111
00:08:05,660 --> 00:08:09,140
ist ja eine valide Strategie für ein
Medium und ich beschreibe einfach nur

112
00:08:09,140 --> 00:08:12,789
gemessene Daten. Und es ist keineswegs der
Zweck der Veranstaltung irgendwie

113
00:08:12,789 --> 00:08:16,609
substanzlos in Richtung von Spiegel Online
zu haten. Wer hatet wird nicht ernst

114
00:08:16,609 --> 00:08:19,869
genommen. Das habe ich ja in meinem
letzten Vortrag schon ausführlich

115
00:08:19,869 --> 00:08:23,900
beschrieben. Und die meisten Sachen, die
hier im Vortrag noch kommen, denkt daran,

116
00:08:23,900 --> 00:08:29,169
die sind bei den anderen wahrscheinlich
ähnlich. Wichtig ist auch dass man mit

117
00:08:29,169 --> 00:08:33,740
den Features experimentiert. Hier ist zum
Beispiel ein Diagramm, das zeigt, dass

118
00:08:33,740 --> 00:08:38,260
Veröffentlichungsvolumen pro Wochentag
und Stunde. Die Zeilen sind die Wochentage

119
00:08:38,260 --> 00:08:42,559
und die Spalten sind die Stunden eines
Tages. Pro Wochentag und Stunde sehen wir

120
00:08:42,559 --> 00:08:46,450
einen Block. Und in den grossen Blöcken
sind viele Artikel erschienen und in den

121
00:08:46,450 --> 00:08:51,970
kleinen wenige. Und jetzt lernen wir daran
mal, wie es in der Data Science zugeht:

122
00:08:51,970 --> 00:08:56,300
Erstens: In der Data Science findet man
immer wieder Botschaften bestätigt, die

123
00:08:56,300 --> 00:09:01,720
man vorher schon erahnt hat. Das ist der
langweilige Teil der Data Science. Aber

124
00:09:01,720 --> 00:09:05,531
das ist gut, um die eigenen Messverfahren
zu überprüfen. Wir sehen hier, zu den

125
00:09:05,531 --> 00:09:10,400
unchristlichen Zeiten wird viel weniger
veröffentlicht. Bahnbrechende Erkenntnis:

126
00:09:10,400 --> 00:09:12,970
Auch der Spiegel-Online-Redakteur
möchte mal schlafen.

127
00:09:12,970 --> 00:09:14,200
*Gelächter*

128
00:09:14,200 --> 00:09:20,580
Zweitens: In der Data Science findet man
aber auch immer Systematiken da, wo man

129
00:09:20,580 --> 00:09:25,690
keine erwartet hat. Und das passiert oft
dann, wenn man Features verbindet. Wir

130
00:09:25,690 --> 00:09:29,840
färben jetzt mal jeden dieser Blöcke
ein, nach der typischen Textlänge. Rote

131
00:09:29,840 --> 00:09:35,120
Blöcke enthalten typischerweise lange
Texte und blaue Blöcke eher kurze. Und

132
00:09:35,120 --> 00:09:40,120
zack Es gibt einen klaren Zusammenhang
zwischen Tageszeit und Länge der Artikel.

133
00:09:40,120 --> 00:09:43,921
Für mich als Nicht-Journalist war das
damals überraschend. Die typische Länge

134
00:09:43,921 --> 00:09:47,950
der veröffentlichten Artikel die ist von
Montag bis Freitag zwischen 5 bis 6 Uhr

135
00:09:47,950 --> 00:09:53,930
früh am grössten. Das gleiche am
Wochenende. Hier gibt es zum Tagesstart

136
00:09:53,930 --> 00:09:58,580
auch nur längere Artikel, ein bisschen
später natürlich. Und das Rätsels

137
00:09:58,580 --> 00:10:02,550
Lösung zu diesem Phänomen kommt später
noch. Und als Drittes, ist die Data

138
00:10:02,550 --> 00:10:08,660
Science natürlich auch dazu da fieseste
Vorurteile zu schüren. Ich führe Euch

139
00:10:08,660 --> 00:10:13,010
das mal vor. Jetzt gebt mir bitte mal ein
Handzeichen, wer von Euch denkt, dass die

140
00:10:13,010 --> 00:10:17,620
Leutchen aus dem Kulturressort morgens
bitte, gerne ein bisschen länger pennen

141
00:10:17,620 --> 00:10:18,620
als die anderen.

142
00:10:18,620 --> 00:10:20,220
*Gelächter*

143
00:10:20,220 --> 00:10:25,100
Also, vielleicht für das Internet: Wir
haben einen Raum von 1600 Leuten, der ist

144
00:10:25,100 --> 00:10:32,200
proppenvoll und fast alle haben die Hand
gehoben. Und die Lösung ist: stimmt!

145
00:10:32,200 --> 00:10:33,850
*Gelächter*

146
00:10:33,850 --> 00:10:37,150
Die Kulturwissenschaftler

147
00:10:37,150 --> 00:10:38,800
*Applaus*

148
00:10:38,800 --> 00:10:43,870
Die Kulturwissenschaftler veröffentlichen
typischerweise später. In der oberen

149
00:10:43,870 --> 00:10:47,280
Verteilung sind alle Artikel ausser
Kultur. Da ist ab 5 Uhr morgens

150
00:10:47,280 --> 00:10:51,530
Aktivität. Und in der unteren Verteilung
sind die Kulturartikel, da geht es

151
00:10:51,530 --> 00:10:58,180
mindestens 2 Stunden später los. Aber zum
Ausgleich gehen die auch früher nach Hause.

152
00:10:58,180 --> 00:11:00,510
*Gelächter*

153
00:11:00,510 --> 00:11:02,830
*Applaus*

154
00:11:02,830 --> 00:11:08,100
Aber, damit wir hier nicht wirklich
Vorurteile schüren, ich war bei Spiegel

155
00:11:08,100 --> 00:11:13,080
Online eingeladen im Oktober und da habe
ich das auch so gesagt. Und dann haben sie

156
00:11:13,080 --> 00:11:17,090
gesagt: 'David, nein, nein!' Manche
Artikel werden natürlich auch vorab

157
00:11:17,090 --> 00:11:21,490
gescheduled, das will ich hier 
fairerweise dazusagen.

158
00:11:21,490 --> 00:11:23,650
Und ich mache das auch als Ermahnung, dass

159
00:11:23,650 --> 00:11:27,250
ihr, wenn Ihr damit arbeitet, immer
nochmal selbst nachdenken müsst. was Ihr

160
00:11:27,250 --> 00:11:31,060
auch solchen Auswertungen wirklich folgern
könnt. Besonders dann, wenn Ihr schon mit

161
00:11:31,060 --> 00:11:34,970
einem Vorurteil da rein gegangen seid, so
wie wir jetzt. Wir haben gerade gesehen,

162
00:11:34,970 --> 00:11:38,580
wie solche Auswertungen grundsätzlich
funktionieren, also können wir jetzt

163
00:11:38,580 --> 00:11:42,670
einen Schritt weitergehen. Und im Internet
wird es ja genau immer dann besonders

164
00:11:42,670 --> 00:11:46,880
knusprig, wenn personenbezogene Daten ins
Spiel kommen.

165
00:11:50,020 --> 00:11:52,560
Also, habe ich mir gedacht,

166
00:11:52,560 --> 00:11:56,630
es wäre doch mal ein nettes Feature, wenn
wir mal die Autoren aus den Spiegel

167
00:11:56,630 --> 00:12:00,750
Artikeln rauslesen. Und das machen wir
jetzt. Und die werten wir gleich auf zwei

168
00:12:00,750 --> 00:12:04,620
Arten aus: Die erste Auswertung wird eine
ganz neue Auswertung in diesem Vortrag,

169
00:12:04,620 --> 00:12:08,500
also eine ganz neue Art. Und die zweite
Auswertung wird ein bisschen politisch

170
00:12:08,500 --> 00:12:13,750
inkorrekt. In unserer ersten Auswertung
werden wir versuchen Spiegel Online

171
00:12:13,750 --> 00:12:18,310
interne Personalstrukturen einfach von
aussen zu lesen. Wenn man zu jedem Artikel

172
00:12:18,310 --> 00:12:21,850
eine Liste an Autoren hat, dann weiss man
ja nicht nur, wer jeden Artikel

173
00:12:21,850 --> 00:12:25,940
geschrieben hat, sondern man weiss auch,
wer mit wem schreibt. Und bei Autoren, die

174
00:12:25,940 --> 00:12:29,510
oft zusammen Artikel schreiben, dürfen
wir davon ausgehen, dass die intensiv

175
00:12:29,510 --> 00:12:32,740
zusammenarbeiten. Wir wissen also
sozusagen, welche Autoren wichtig

176
00:12:32,740 --> 00:12:37,320
füreinander sind, was die Artikel angeht.
Wer wenig oder gar nicht zusammenschreibt,

177
00:12:37,320 --> 00:12:40,950
der ist in dieser Ansicht nicht wichtig
füreinander. Aus diesen Wichtigkeiten

178
00:12:40,950 --> 00:12:45,820
können wir dann eine Autorenlandkarte
bauen. Und hier ist sie. Das ist ein Teil

179
00:12:45,820 --> 00:12:49,790
des sozialen Netzwerkes der Spiegel Online
Autoren generiert über die letzten

180
00:12:49,790 --> 00:12:54,140
2 Jahre. Und jeder Autor ist so ein Bubble
Und Autoren, die nur ganz selten

181
00:12:54,140 --> 00:12:59,190
vorkommen, die habe ich hier gefiltert.
Und man sieht genau, dass es da Grüppchen

182
00:12:59,190 --> 00:13:03,180
von Autoren gibt, die sich dichter
zusammentun. Und das sieht aus, als wären

183
00:13:03,180 --> 00:13:06,800
es die Teams. Und jetzt müssen wir
natürlich kontrollieren, ob unser

184
00:13:06,800 --> 00:13:10,470
Durchleuchten von aussen, auch wirklich
funktioniert. Und um das zu machen,

185
00:13:10,470 --> 00:13:14,450
färben wir die Autoren mal nach Ihren
Ressorts ein. Die Ressorts, die kriegt man

186
00:13:14,450 --> 00:13:19,301
aus dem Spiegel Online Impressum. Siehe
da, in vielen Fällen haben sich

187
00:13:19,301 --> 00:13:23,440
tatsächlich die Ressorts vollautomatisch
in der Landkarte zusammengetan. Hier in

188
00:13:23,440 --> 00:13:28,800
pink ist Sport. Wissenschaft und
Gesundheit. Netzwelt. Politik. Ein

189
00:13:28,800 --> 00:13:32,620
bisschen verteilter, da habe ich jetzt
nicht alle eingekreist. Panorama. Reise.

190
00:13:32,620 --> 00:13:36,510
Ich nenne jetzt nicht alle Teams, aber Ihr
seht das Prinzip. Die hellblauen

191
00:13:36,510 --> 00:13:40,510
verteilten Punkte sind übrigens das Team
von bento, die arbeiten ein bisschen

192
00:13:40,510 --> 00:13:43,960
übergreifender. Das ist
die Kinderausgabe vom Spiegel.

193
00:13:43,960 --> 00:13:44,960
*Gelächter*

194
00:13:44,960 --> 00:13:48,350
*Applaus*

195
00:13:48,510 --> 00:13:54,690
Und der Punkt ist, wir haben jetzt relativ
genau von aussen durchleuchten können,

196
00:13:54,690 --> 00:13:59,010
wer mit wem intern in einem Team steckt.
Und der Witz ist, schaut die ganzen grauen

197
00:13:59,010 --> 00:14:03,350
Bubble an. Die sind grau, weil sie nicht
mehr über das Spiegel Impressum

198
00:14:03,350 --> 00:14:07,000
zugeordnet werden konnten. Das sind zum
Beispiel ausgeschiedene Kollegen. Der

199
00:14:07,000 --> 00:14:13,300
Spiegel Chefredakteur ist kürzlich auch
grau geworden. Aber durch ihre Nähe zu

200
00:14:13,300 --> 00:14:17,451
den gefärbten Gruppen, können wir die
trotzdem grob einem Team zuordnen. Wir

201
00:14:17,451 --> 00:14:20,980
können also etwas über die sagen, obwohl
wir eigentlich gar nichts über die

202
00:14:20,980 --> 00:14:24,150
wissen. Und sowas ist dann interessant.
Wir können also einfach live von aussen

203
00:14:24,150 --> 00:14:27,940
über die Personalstrukturen Buch führen.
Aber jetzt... Ihr wartet bestimmt schon

204
00:14:27,940 --> 00:14:32,490
alle zum politisch inkorrekten Teil. Ich
möchte Euch nämlich für etwas

205
00:14:32,490 --> 00:14:37,430
sensibilisieren. In diesem Plot ist jede
Zeile ein Autor. Und von links nach rechts

206
00:14:37,430 --> 00:14:42,790
vergeht die Zeit. Und jeder farbige Strich
ist ein vom jeweiligen Autor

207
00:14:42,790 --> 00:14:46,430
veröffentlichter Artikel. Und wenn wir
die Autoren kennen und das tun wir ja

208
00:14:46,430 --> 00:14:50,100
jetzt, dann wissen wir natürlich auch
sehr genau, wer wann veröffentlicht. Wir

209
00:14:50,100 --> 00:14:53,370
sehen zum Beispiel diese Zeile mit
regelmässigen Muster, das ist ein

210
00:14:53,370 --> 00:14:57,030
Kolumnist, der veröffentlicht genau im
Wochentakt, bis auf ein paar Ausnahmen.

211
00:14:57,030 --> 00:15:00,540
Bei den Leuten, die Tagesgeschehen
veröffentlichen, ist die Dichte höher.

212
00:15:00,540 --> 00:15:04,640
Und das heisst, wir wissen bei denen
umgekehrt auch relativ gut, wann die

213
00:15:04,640 --> 00:15:10,320
Urlaub machen. So, weil das sind nämlich
die Lücken in den dichtgefüllten Zeilen.

214
00:15:10,320 --> 00:15:14,010
Und, wenn aber wir die Urlaube ungefähr
kennen, dann wissen wir auch ungefähr,

215
00:15:14,010 --> 00:15:17,290
wessen Urlaube sich überproportional
überschneiden.

216
00:15:17,290 --> 00:15:19,540
*Gelächter*

217
00:15:19,540 --> 00:15:23,203
Sachen wie Weihnachten, die fast alle
Urlaub machen, die kann man ja einfach

218
00:15:23,203 --> 00:15:28,350
rausrechnen. Und ich appelliere jetzt an
Eure Berufserfahrung und mutmasse mal ganz

219
00:15:28,350 --> 00:15:32,340
wild, dass Ihr auch schon mal Kollegen
hattet, die irgendwie immer gleichzeitig

220
00:15:32,340 --> 00:15:38,540
im Urlaub waren. Also, Spass beiseite. Aus
solchen Daten kann man ohne weiteres

221
00:15:38,540 --> 00:15:44,040
lesen, wer mit was hat. Jetzt wisst Ihr
auch, warum ich die Autoren hier

222
00:15:44,040 --> 00:15:49,190
anonymisiert habe. Es ist übrigens total
klar, dass das, was wir hier finden, nicht

223
00:15:49,190 --> 00:15:53,340
alles Pärchen sein müssen. Das sind die
Pärchenkandidaten. Aber, wenn man an der

224
00:15:53,340 --> 00:15:59,050
Praxis und sowas interessiert ist, dann
ist man ja damit schon mal auf 99% des

225
00:15:59,050 --> 00:16:03,620
Weges zum Ziel. Es gibt Firmen, die werten
sowas aus, so illegal das auch ist. Jetzt

226
00:16:03,620 --> 00:16:07,880
habt Ihr alle gerade gelacht, Kann ich mal
um Handzeichen bitten, wer von Euch heute

227
00:16:07,880 --> 00:16:15,390
bei seiner Firma Urlaub genommen hat.
Ãœber jeden gibt es solche Daten. Glaubt

228
00:16:15,390 --> 00:16:19,850
mir. Und wir halten jetzt mal inne, und
dann machen wir uns nochmal klar, was wir

229
00:16:19,850 --> 00:16:23,460
gerade gesehen haben und was die
gesellschaftlichen Implikationen sind. Was

230
00:16:23,460 --> 00:16:26,390
wir gerade gesehen haben, ist
Wissensgewinnung über interne

231
00:16:26,390 --> 00:16:29,590
Firmeninformationen und über
höchstpersönliche Lebensbereiche. Und

232
00:16:29,590 --> 00:16:33,420
aus Daten, die erstmal gar nicht danach
aussehen. Wir hatten ja eigentlich einen

233
00:16:33,420 --> 00:16:36,430
Satz Spiegelartikel. Und plötzlich,
überraschend, haben wir gute

234
00:16:36,430 --> 00:16:40,140
Anhaltspunkte, wer mit wem was hat, und
wir können Teamstrukturen erahnen. Und

235
00:16:40,140 --> 00:16:44,230
damit komme ich zu wichtigsten Message des
Vortrags: Wenn Ihr Daten veröffentlicht,

236
00:16:44,230 --> 00:16:47,850
dann entscheidet nicht Ihr, was Ihr da
veröffentlicht, das entscheidet der

237
00:16:47,850 --> 00:16:52,740
Gegner. Wir haben noch nicht einmal die
Daten selbst betrachtet. Wir haben die

238
00:16:52,740 --> 00:16:56,830
Artikel selbst ja gar nicht angefasst. Was
wir angefasst haben, waren nur Metadaten.

239
00:16:56,830 --> 00:17:00,590
Zeiten und Autoren, genau wie bei der
Vorratsdatenspeicherung. Das sind ja auch

240
00:17:00,590 --> 00:17:06,900
nur Metadaten. Gebt mal ein paar Monate
eurer Metadaten, einfach nur, wem Ihr wann

241
00:17:06,900 --> 00:17:10,879
Mails und Whatsapp geschickt habt und wann
Ihr auf welchen Webseiten wart. Keine

242
00:17:10,879 --> 00:17:14,559
Inhalte. Danach kann ich Euch sagen, wer
Eure besten Freunde sind, ob Ihr eine

243
00:17:14,559 --> 00:17:19,180
Affäre habt, wie Ihr sexuell orientiert
seid, ob Ihr schwanger seid, ob Ihr eine

244
00:17:19,180 --> 00:17:22,400
Krankheit habt, was Eure politische
Einstellung ist, wie euer Glaube

245
00:17:22,400 --> 00:17:26,320
ausgerichtet ist, und ob Ihr finanzielle
Probleme habt und alles, was ich gerade

246
00:17:26,320 --> 00:17:30,930
vergessen habe. Das Missbrauchsprofil für
einen solchen Datensatz, wie den der

247
00:17:30,930 --> 00:17:34,890
Vorratsdatenspeicherung, das kann man gar
nicht in Worte fassen. Und ich will da

248
00:17:34,890 --> 00:17:37,580
überhaupt nicht mit
Verschwörungstheorien anfangen, wir

249
00:17:37,580 --> 00:17:40,920
können ja mal alle glauben, dass die
Vorratsdatenspeicherung für die

250
00:17:40,920 --> 00:17:44,790
Aufklärung von Verbrechen nützlich sein
kann, das ist ja auch total plausibel. Und

251
00:17:44,790 --> 00:17:48,770
wir können ja auch mal glauben, dass die
Person, die die Vorratsdatenspeicherung

252
00:17:48,770 --> 00:17:52,355
jetzt etablieren guten Willens sind. Lasst
uns das einfach mal annehmen. Das heisst

253
00:17:52,355 --> 00:17:55,200
aber nicht, dass morgen keiner an die
Macht kommt, der das vielleicht ganz

254
00:17:55,200 --> 00:18:01,660
anders macht. Was wir hier gerade
erhalten, ist die Infrastruktur, für eine

255
00:18:01,660 --> 00:18:06,240
Generalüberwachung, die selbst George
Orwell's Big Brother die Schamesröte ins

256
00:18:06,240 --> 00:18:10,400
Gesicht treiben würde.

257
00:18:10,400 --> 00:18:15,990
*Applaus*

258
00:18:15,990 --> 00:18:21,200
Und diese Ãœberwachungsinfrastruktur, die
stellen wir jetzt extra schon mal bereit

259
00:18:21,200 --> 00:18:25,400
für den Fall, dass eine zukünftige
Regierung böswillig ist und sie nutzen

260
00:18:25,400 --> 00:18:31,220
will. Das ist, was gerade passiert. Jetzt
haben wir einen kurzen Exkurs über

261
00:18:31,220 --> 00:18:34,410
Metadaten gemacht, und wir gehen jetzt
zurück zu Spiegel Online, damit sich Eure

262
00:18:34,410 --> 00:18:38,170
Laune wieder hebt. Und deswegen kommt
jetzt ein kleiner Einschub, den könnt Ihr

263
00:18:38,170 --> 00:18:41,520
dann direkt anwenden, wenn Ihr das
nächste Mal Spiegel Online lest. Und

264
00:18:41,520 --> 00:18:45,210
danach machen wir mal ein bisschen was
Grösseres. Als ich die Autoren aus den

265
00:18:45,210 --> 00:18:53,310
Artikeln rauslesen wollte, da war ich
irgendwann ziemlich genervt. Also manchmal

266
00:18:53,310 --> 00:18:57,410
stehen die oben unter dem Titel, wie hier
links im Bild. Oder die stehen unten, wie

267
00:18:57,410 --> 00:19:01,560
rechts im Bild. Und wenn die Autoren oben
stehen, sind sie ausgeschrieben. Und wenn

268
00:19:01,560 --> 00:19:06,550
sie unten stehen, sind es Kürzel. Oben
stehen sie im wirklichen Satz, hier zum

269
00:19:06,550 --> 00:19:11,870
Beispiel von Marcel Rosenbach. Und unten
die Kürzel sind ohne Satz drumrum. Manche

270
00:19:11,870 --> 00:19:15,490
Autoren haben nur Vor- und Nachname.
Manche Namen haben aber auch vier oder

271
00:19:15,490 --> 00:19:20,920
fünf Worte. Wie zum Beispiel der
freundliche Herr Philip Alvares De Souza

272
00:19:20,920 --> 00:19:24,600
Suarez. Das habe ich mir extra hier
aufgeschrieben, fünf Worte. Das ist ein

273
00:19:24,600 --> 00:19:29,230
Name. Also Data Science kann technisch
nervig sein. Sagt nicht, ich hätte Euch

274
00:19:29,230 --> 00:19:35,700
nicht gewarnt. Und jedenfalls habe ich mir
gedacht, wtf, warum stehen da Autoren in

275
00:19:35,700 --> 00:19:39,770
verschiedenen Formen und vor allem an
verschiedenen Orten? Also habe ich mir mal

276
00:19:39,770 --> 00:19:45,500
das als Feature reingenommen, ob die
Autoren oben oder unten stehen. Und dann

277
00:19:45,500 --> 00:19:49,570
habe ich Messwerte zwischen den
beiden Artikelgruppen verglichen, Autoren

278
00:19:49,570 --> 00:19:55,520
oben und Autoren unten. Und es stellt sich
raus, wenn die Autoren unten stehen, also

279
00:19:55,520 --> 00:19:59,500
nicht namentlich ausgeschrieben sind, ist
ein typischer Artikel knapp 300 Worte

280
00:19:59,500 --> 00:20:02,920
lang. Wir sehen hier die Verteilung der
Artikellängen von Artikeln ohne

281
00:20:02,920 --> 00:20:06,661
ausgeschriebenen Namen. Und nach rechts
werden die Artikel länger, da wird es

282
00:20:06,661 --> 00:20:11,780
immer weniger. Und stehen die Autoren aber
oben, sind also ausgeschrieben, ist ein

283
00:20:11,780 --> 00:20:16,660
Artikel typischerweise mehr als
zweieinhalb mal so lang. Knapp 750 Worte.

284
00:20:16,660 --> 00:20:20,920
Man weiss schon, womit man gegoogelt
werden will als Redakteur.

285
00:20:20,920 --> 00:20:21,920
*Gelächter*

286
00:20:21,920 --> 00:20:27,440
Und nochwas: bei den langen Artikeln ist
auch nur bei ca. 2% eine

287
00:20:27,440 --> 00:20:31,160
Nachrichtenagentur mit dabei. Bei den
kurzen ist bei knapp 80% eine

288
00:20:31,160 --> 00:20:35,170
Nachrichtenagentur mit dabei. Also Fazit
für Euch zum mI t nach Hause nehmen: Wenn

289
00:20:35,170 --> 00:20:39,000
Ihr längere Artikel wollt, die Spiegel
Online selbst verfasst hat, dann achtet

290
00:20:39,000 --> 00:20:42,880
drauf, dass die Autoren drangeschrieben
sind. Wenn Ihr kurze Agenturmeldungen

291
00:20:42,880 --> 00:20:45,370
wollt, sind die Kürzel gut.

292
00:20:45,370 --> 00:20:49,740
*Applaus*

293
00:20:49,740 --> 00:20:54,620
Und wir hatten ja schon gesehen, dass am
Tagesanfang primär längere Artikel

294
00:20:54,620 --> 00:20:58,230
erscheinen und das waren eben in
Wirklichkeit die selbst geschriebenen.

295
00:20:58,230 --> 00:21:02,540
Morgens ist der Prozentsatz von denen
vergleichsweise hoch. Und jetzt könen wir

296
00:21:02,540 --> 00:21:05,250
die Gelegenheit nutzen und einen Schritt
zurücktreten und gucken, was wir bis

297
00:21:05,250 --> 00:21:10,520
jetzt gemacht haben. Und wir haben unsere
Riesenmenge Artikel, immer auf äusserst

298
00:21:10,520 --> 00:21:14,240
einfache Art und Weise auseinander
geschnitten und ausgewertet. Wir haben die

299
00:21:14,240 --> 00:21:18,030
in Wochentage oder Uhrzeiten
auseinandergeschnitten. Oder in Rubriken.

300
00:21:18,030 --> 00:21:21,550
Und dafür, wie einfach diese Ideen sind,
haben wir eigentlich ein paar ganz gute

301
00:21:21,550 --> 00:21:25,350
Ergebnisse bekommen. Aber, was wir noch
gar nicht gemacht haben, ist uns dem

302
00:21:25,350 --> 00:21:29,480
Datensatz mal inhaltlich zu nähern. Und
es wäre doch total cool, wenn wir die

303
00:21:29,480 --> 00:21:33,460
Artikelmenge mal nach den wirklichen
Themen über die berichtet wird,

304
00:21:33,460 --> 00:21:41,780
auseinanderschneiden und auswerten
können. Spiegel Online liefert uns

305
00:21:41,780 --> 00:21:46,120
hierbei auch eine gute Hilfe: Artikel
werden dort verschlagwortet. Jeder Artikel

306
00:21:46,120 --> 00:21:51,160
bekommt von seinem Autor so um die 10
Keywords zugewiesen. Der Artikel links im

307
00:21:51,160 --> 00:21:55,510
Bild hat zum Beispiel die Keywords
Politik, Ausland, Saudi Arabien und König

308
00:21:55,510 --> 00:22:00,300
Salman von Saudi Arabien. Also habe ich
die Keywords mal ausgelesen. Ueber alle

309
00:22:00,300 --> 00:22:05,000
Artikel hinweg habe ich um die 65000
verschiedene Keywords gefunden. Und jetzt

310
00:22:05,000 --> 00:22:09,090
gucken wir, wie oft, welche Keywords
zusammen in den selben Artikeln kommen.

311
00:22:09,090 --> 00:22:12,820
Und Keywords, die fast ausschliesslich
zusammen vorkommen, die sind sozusagen

312
00:22:12,820 --> 00:22:16,730
verheiratet, die sieht man einfach als
eins in der Auswertung. Und umgekehrt gibt

313
00:22:16,730 --> 00:22:21,130
es natürlich Keywords, die beide für
sich genommen existieren, aber nie oder

314
00:22:21,130 --> 00:22:25,110
fast nie zusammen, die sind dann
unverwandt. Und dann gibt es noch einen

315
00:22:25,110 --> 00:22:32,430
interessanten Mittelweg:
Hier ist ein Beispiel.

316
00:22:32,430 --> 00:22:35,110
*Gelächter**Applaus*

317
00:22:35,110 --> 00:22:39,330
Artikel mit dem Keyword "Angela Merkel",
die haben meist auch das Keyword Politik.

318
00:22:39,330 --> 00:22:43,650
Und umgekehrt ist das aber nicht so. Das
Keyword Politik ist viel grösser. Und es

319
00:22:43,650 --> 00:22:48,430
gibt extrem viele Politikartikel ohne
Angela Merkel. Und diese Keywords sind

320
00:22:48,430 --> 00:22:52,360
nicht die selben, aber es ist klar, die
haben eine Verbindung. Und wir messen also

321
00:22:52,360 --> 00:22:57,710
für alle 65000 Keywords, paarweise, wie
verwandt die so sind. Und dann verbinden

322
00:22:57,710 --> 00:23:02,411
wir Keywords, die stark verwandt sind mit
so ganz strammen, dicken Federn. Ich meine

323
00:23:02,411 --> 00:23:05,860
jetzt wirklich Federn im physikalischen
Sinne, die die Keywords zueinander

324
00:23:05,860 --> 00:23:10,420
hinziehen. Zwischen schwächer verwandten
Keywords kommen schwächere Federn, die

325
00:23:10,420 --> 00:23:14,350
werden dann länger. Und jetzt machen wir
eine Physiksimulation. und schauen zu, wie

326
00:23:14,350 --> 00:23:20,630
sich diese abertausenden Federn
zurechtzurren. Verwandte Keywords werden

327
00:23:20,630 --> 00:23:25,340
jetzt tendenziell nahe beeinander layoutet
und weniger verwandte nicht so nah. Was

328
00:23:25,340 --> 00:23:28,820
hier ensteht ist eine thematische
Landkarte, von allen Sachen über die

329
00:23:28,820 --> 00:23:32,611
Spiegel Online in den letzten 2 Jahren
berichtet hat. Und jetzt gerade sieht es

330
00:23:32,611 --> 00:23:36,600
so aus, als passiert da fast nichts mehr,
aber gerade passiert die Detailarbeit. Das

331
00:23:36,600 --> 00:23:40,530
sieht man nur von soweit oben nicht. Und
deswegen zoomen wir jetzt mal ganz weit

332
00:23:40,530 --> 00:23:44,620
rein, damit wir lernen, was wir da
erschaffen haben. Hier ist die Volkswagen

333
00:23:44,620 --> 00:23:49,060
Abgasaffäre. Wie Ihr seht haben die
Keywords unterschiedliche Grössen. Die

334
00:23:49,060 --> 00:23:52,740
Grösse der einzelnen Keywords spiegelt
die Anzahl der Artikel wieder, die das

335
00:23:52,740 --> 00:23:56,220
Keyword innehaben. Und das sind sozusagen
die Artikel, die in dem Keyword

336
00:23:56,220 --> 00:24:01,360
drinstecken. Und die Farbe zeigt an, was
die vorherrschende Rubrik ist über alle

337
00:24:01,360 --> 00:24:04,830
Artikel, die in einem Keyword drin
stecken. Dieses Okergelb heisst

338
00:24:04,830 --> 00:24:09,870
Wirtschaft. Passt! Der Witz ist, diese
Darstellungsweise ist extrem mächtig und

339
00:24:09,870 --> 00:24:13,580
vielseitig. Ãœber die Farbe der Keywords
da können mit dieser Darstellungsweise

340
00:24:13,580 --> 00:24:18,820
noch viel mehr Infos rüberbringen, als
nur, welche Themen verwandt sind. Und mit

341
00:24:18,820 --> 00:24:24,170
der Farbe können wir beliebige Messwerte
anzeigen. Und wenn ich danach so farbige

342
00:24:24,170 --> 00:24:28,070
Keywordlandschaften habe, dann können wir
sehen, ob es zwischen Thema und Messwert

343
00:24:28,070 --> 00:24:32,161
einen Zusammenhang gibt und das machen wir
heute auch noch. Aber erstmal gucken wir

344
00:24:32,161 --> 00:24:36,980
ein bisschen weiter rum, hier sind
verschiedene Flugzeugunglücke. Der

345
00:24:36,980 --> 00:24:48,900
Themenkomplex befindet sich zwischen
Panorama - Grün und Politik - Rot. Wobei

346
00:24:48,900 --> 00:24:51,980
die politischen Anteile von dem Flugzeug
kommen, das über der

347
00:24:51,980 --> 00:24:59,780
Ukrainisch-Russischen Grenze abgeschossen
wurde. Jetzt versagt meine Singstimme.

348
00:24:59,780 --> 00:25:06,559
So besser. So hier ist Griechenland-Krise.
Das ist offensichtloch ein Thema zwischen

349
00:25:06,559 --> 00:25:11,220
Politik und Wirtschaft rot und wieder oker
und Wolfgang Schäuble ist da direkt mal

350
00:25:11,220 --> 00:25:15,770
als Aufpasser dazu-layoutet worden.
Interessanterweise hat der keine Farbe,

351
00:25:15,770 --> 00:25:19,140
der ist grau und das ist nicht
altersbedingt sondern das liegt daran,

352
00:25:19,140 --> 00:25:23,270
das es im Keyword Wolfgang Schäuble kein
dominierendes Ressort gab und

353
00:25:23,270 --> 00:25:25,360
jetzt machen wir mal was Topaktuelles.

354
00:25:25,360 --> 00:25:28,360
Das ist die US-Wahl dieses Jahr. 
Wir sehen Hillary Clinton

355
00:25:28,360 --> 00:25:32,170
und Donald Trump und alles was da so drum
rum wimmelt und das ist offensichtlich

356
00:25:32,170 --> 00:25:37,059
ein politisches Thema, es ist rot und man
beachte, wie hier das Keyword Emails

357
00:25:37,059 --> 00:25:41,610
dazu-layoutet wurde. Und von hier aus
machen wir uns jetzt mal

358
00:25:41,610 --> 00:25:43,720
die Größe der gesamten Landschaft klar.

359
00:25:43,720 --> 00:25:47,390
Ich weiss nicht, wer heute
Morgen von euch in dem Vortrag über

360
00:25:47,390 --> 00:25:51,370
Mikroskope war, da hat der Vortragende
immer und immer mehr reingezoomt, um klar

361
00:25:51,370 --> 00:25:55,370
zu machen wie klein die Sachen sind und
wir machen das jetzt umgekehrt, wir wollen

362
00:25:55,370 --> 00:25:59,200
darstellen wie riesig die Landkarte ist
und wir zoomen immer und immer mehr raus.

363
00:25:59,200 --> 00:26:03,200
Wir haben raus-gezoomt. Der alte
Bildauschnit ist dick eingerahmt, damit

364
00:26:03,200 --> 00:26:07,020
ihr seht wo der ist. Und wir sehen, 
dass der US-Wahlkampf eingebettet ist

365
00:26:07,020 --> 00:26:09,440
in größeren Landstrich der 
Auslandspolitik.

366
00:26:09,440 --> 00:26:12,130
Links sehen wir den Bürgerkrieg in Syrien

367
00:26:12,130 --> 00:26:15,910
darüber der Islamische Staat und von da
geht es über den Islamistischen Terror

368
00:26:15,910 --> 00:26:18,440
weiter nach Frankreich.

369
00:26:18,440 --> 00:26:25,360
*Gelächter**Applaus*

370
00:26:25,360 --> 00:26:31,640
Jaa, die Mathematik ist gnadenlos, ne. 
Oben sind die aktuellen Türkei-Thematiken,

371
00:26:31,640 --> 00:26:34,270
also das ist deren Putschversuch und 
deren Demokratur

372
00:26:34,270 --> 00:26:37,540
und rechts von der Mitte ist Russland
und der Ukraine Konflikt und

373
00:26:37,540 --> 00:26:41,320
links unten ist Israel und der Nahost

374
00:26:41,320 --> 00:26:46,509
Konflikt und wir zoomen nch weiter raus.
Hier ist nun die gesamte politische

375
00:26:46,509 --> 00:26:50,591
Landschaft, diesmal haben wir mit zwei
Rechtecken markiert, wo wir herkommen wir

376
00:26:50,591 --> 00:26:54,560
kommen, ursprünglich von der US-Wahl und
dann von der Auslandspolitik. Also die

377
00:26:54,560 --> 00:26:58,930
Auslandspolitik ist oben rechts und unten
rechts ist der Inlandsteil und seit Neuem

378
00:26:58,930 --> 00:27:02,780
gibt es nen riesigen Knubbel, der in der
Mitte, das ist die Flüchtlingsthematik,

379
00:27:02,780 --> 00:27:06,640
die ist mittlerweile so groß, wie eine
eigene Unterrubrik und die ist als dritte

380
00:27:06,640 --> 00:27:10,440
Kraft genau zwischen Ausland und Inland
etabliert, ja. Was ja auch genau passt.

381
00:27:10,440 --> 00:27:15,679
Wir zoomen nochmal weiter raus. Ja, jetzt
kann man gar nichts mehr erkennne, außer

382
00:27:15,679 --> 00:27:19,700
verschieden farbigen Landschaften. Ich sag
also mal, für eine grobe Orientierung,

383
00:27:19,700 --> 00:27:23,460
hier kommen wir her, das rote ist der
Politikteil. Rechts darüber in

384
00:27:23,460 --> 00:27:28,481
giftgrün das Panorama. Das wird
durchteilt von der Wirtschaft, die Kette

385
00:27:28,481 --> 00:27:32,340
von türkisen Clustern entlang der
Unterseite des Hauptkontinentes ist die

386
00:27:32,340 --> 00:27:37,160
Netzwelt. Blau im Osten ist der Kulturteil
und so weiter und so fort. Wir können

387
00:27:37,160 --> 00:27:41,120
jetzt nicht alle durchgehen, ihr seht, die
Gebiete gehen noch ineinander über und

388
00:27:41,120 --> 00:27:45,080
wir wissen jetzt fast, wie riesig diese
Landkarte ist, einmal rauszoomen haben wir

389
00:27:45,080 --> 00:27:49,390
nämlich noch. Hier ist die große weite
Welt, ja den unteren Teil haben wir schon

390
00:27:49,390 --> 00:27:54,299
grob kennengelernt, und hier sind wir
eigentlich her gekommen, und auf dem Rest

391
00:27:54,299 --> 00:27:57,450
der Welt, etwas entrückt ist
die Wissenschaft, das ...

392
00:27:57,450 --> 00:28:02,970
*Gelächter im Saal*
*Applaus*

393
00:28:06,160 --> 00:28:09,830
Ich sehe, ihr könnt das nachvollziehen
und habt da auch mal gearbeitet.

394
00:28:09,830 --> 00:28:10,820
*Gelächter*

395
00:28:10,820 --> 00:28:13,590
Und ganz weit weg vom
Hauptkontinent ist der Sport.

396
00:28:13,590 --> 00:28:14,420
*Gelächter*

397
00:28:14,420 --> 00:28:18,570
So, und jetzt sehen wir erstmal, wie gross
das ist und wie breit der Spiegel angelegt

398
00:28:18,570 --> 00:28:22,120
ist und diese riesige Landkarte gibts
übrigens bei mir auf der Website, da

399
00:28:22,120 --> 00:28:24,860
könnt ihr auch selbst drin rumforschen,
wie in GoogleMaps, so drin rum scrollen,

400
00:28:24,860 --> 00:28:29,070
das macht auch mehr Spaß als wenn ich das
hier nur vorkaue und darum gehts jetzt

401
00:28:29,070 --> 00:28:32,910
auch weiter. Wir wenden die jetzt an. Ja,
Spiegel Online bietet unter sehr vielen

402
00:28:32,910 --> 00:28:36,410
Artikeln an, ja, ähmm, ..

403
00:28:36,410 --> 00:28:38,350
*Publikum Gemurmel**Gelächter*

404
00:28:38,350 --> 00:28:42,220
Ich, das Gelächter geht los, bevor ich
etwas gesagt habe. Ihr wisst doch gar

405
00:28:42,220 --> 00:28:46,460
nicht, was ich sagen will, ne? Das man
seine eigene Meinung dazu äußern darf.

406
00:28:46,460 --> 00:28:48,490
*Publikum und David Gelächter*

407
00:28:48,490 --> 00:28:51,750
Und unter manchen Artikeln sperren sie
diese Funktion aber, ne,

408
00:28:51,750 --> 00:28:52,520
*einzelnes Gelächter*

409
00:28:52,520 --> 00:28:54,340
und das untersuchen wir jetzt mal,

410
00:28:54,340 --> 00:28:58,250
Und ich hatte euch am Anfang des Vortrages
gesagt, das Artikel direkt nach nen paar

411
00:28:58,250 --> 00:29:01,970
Minuten nach ihrem erscheinen von mir
abgerufen werden, also wenn ich sag, das

412
00:29:01,970 --> 00:29:05,870
was nicht kommentiert werden darf, dann
war das sehr wahrscheinlich, direkt vom

413
00:29:05,870 --> 00:29:08,250
Start weg so. So schnell
randaliert kein Mensch.

414
00:29:08,250 --> 00:29:10,410
*leichtes Gelächter im Publikum*

415
00:29:10,410 --> 00:29:14,340
Also, bevor wir jetzt ne Themenlandkarte
damit malen, schauen wir mal ganz kurz auf

416
00:29:14,340 --> 00:29:17,820
die zeitliche Entwicklung, der
Kommentierbarkeit, und zwar einfach, damit

417
00:29:17,820 --> 00:29:21,450
wir ne Orientierung haben. In dem Plot
sehen wir pro Kalenderwoche wieviel

418
00:29:21,450 --> 00:29:25,570
Prozent der erschienen Artikel kommentiert
werden durften, und wieviele nicht.

419
00:29:25,570 --> 00:29:30,340
In Rot sind die Nichtkomentierbaren und 
Blau die Kommentierbaren und als ich 2014

420
00:29:30,340 --> 00:29:34,090
angefangen habe runterzuladen, waren
erstmal ne ganze Zeit so 80 Prozent der

421
00:29:34,090 --> 00:29:37,740
Artikel kommentierbar. Und genau seit dem
Zeitpunkt der großen

422
00:29:37,740 --> 00:29:42,650
Flüchtlingsberichterstattung im Sommer
2015, ja, sinkt der (Graph) der Artikel

423
00:29:42,650 --> 00:29:47,090
der kommentierbaren Nachrichten
kontinuierlich ab, und jetzt seit kurzem

424
00:29:47,090 --> 00:29:51,400
ist wirklich die Mehrzahl der Artikel ohne
Kommentarfunktion, ne, dir rote Linie

425
00:29:51,400 --> 00:29:54,960
überholt die Blaue, und die
Kommentierbarkeit wird übrigens nicht nur

426
00:29:54,960 --> 00:29:59,599
im Politikressort weniger, das passiert
übergreifend in fast allen Ressorts und

427
00:29:59,599 --> 00:30:03,220
ob seit dem der Hass im Netz irgendwie
themenübergreifend soviel schlimmer

428
00:30:03,220 --> 00:30:07,140
geworden ist oder Spiegel-Online jetzt
einfach soviel Angst vor fiesen

429
00:30:07,140 --> 00:30:10,940
Kommentaren hat, das kann ich aus denn
Zahlen nicht ablesen, das müsst ihr dann

430
00:30:10,940 --> 00:30:15,500
für euch selbst entscheiden. Interessant
ist aber noch der kleine, grüne Plot im

431
00:30:15,500 --> 00:30:20,090
Bild, ne , das sind auch nicht
kommentierbare Artikel. Aber bei denen

432
00:30:20,090 --> 00:30:23,910
steht so ein kleiner Entschuldigungstext
dran, ja. Das hier die Kommentarfunktion

433
00:30:23,910 --> 00:30:27,970
wegen der Netikette und so weiter gesperrt
ist. Ihr braucht das hier jetzt nicht

434
00:30:27,970 --> 00:30:31,929
lesen, ich bring das nur zur Ansicht, und
diesen Entschuldigungstext haben sie zu

435
00:30:31,929 --> 00:30:36,890
Anfang der Flüchtlingsberichterstattung
eingeführt und es scheint so, als war

436
00:30:36,890 --> 00:30:40,340
Spiegel-Online da selbst ein bisschen
unwohl mit dem krassen Anstieg der

437
00:30:40,340 --> 00:30:44,240
Kommentarsperrungen. Aber wie man am Plot
sieht, haben sie den Hinweis ganz flott

438
00:30:44,240 --> 00:30:47,710
wieder aufgegeben, obwohl die
Kommentiermöglichkeiten immer und immer

439
00:30:47,710 --> 00:30:52,799
mehr gesperrt werden. So und jetzt gehts
zur Landkarte. Wir färben ein Keyword

440
00:30:52,799 --> 00:30:57,920
röter, wenn unterdurchschnittlich viele
Artikel darin kommentierbar sind und wir

441
00:30:57,920 --> 00:31:01,270
färben ein Keyword eher blau, wenn das
Keyword überdurchschnittlich

442
00:31:01,270 --> 00:31:04,770
kommentierbar ist. Graue Keywords 
repräsentieren so den Durchschnitt, da

443
00:31:04,770 --> 00:31:07,560
dann so 70 Prozent kommentierbar 
und das gibt

444
00:31:07,560 --> 00:31:11,001
natürlich auch alle Farben dazwischen.
Also wenn so'n Keyword wirklich

445
00:31:11,001 --> 00:31:14,630
aufleuchtet, dann ist das irgendwo am Ende
der Skala oder am Anfang. Und die

446
00:31:14,630 --> 00:31:18,551
Landkarte stell ich auch bald auf meine
Website, die jetzt kommt, da könnt ihr da

447
00:31:18,551 --> 00:31:22,410
auch selbst drin rumklicken. So, und wir
fangen mal mit ein paar einfachen Sachen

448
00:31:22,410 --> 00:31:26,900
an. Ja ihr ahnt es, Sport darf man quasi
komplett kommentieren, ja, knallblau. Und

449
00:31:26,900 --> 00:31:30,540
falls ihr euch fragt, was der knallrote
Punkt da ist, das ist ein bestimmtes

450
00:31:30,540 --> 00:31:34,679
Artikelformat, das ist technisch ohne
Kommentarfunktion. Sowas kommt schon mal

451
00:31:34,679 --> 00:31:39,080
vor, ich sag nur, weil ich gleich sonst 13
mal die Frage kriege. Und wo man in der

452
00:31:39,080 --> 00:31:43,219
Regel auch gut kommentieren darf, das sind
Wissenschaftsthemen und Wirtschaftsthemen

453
00:31:43,219 --> 00:31:45,320
Hier sind die Bahnstreiks, ja.

454
00:31:45,320 --> 00:31:48,790
Da darf nach Kräften auf die Bahn 
eingekloppt werden.

455
00:31:48,790 --> 00:31:49,960
*Gelächter*

456
00:31:49,960 --> 00:31:56,440
Und wo wir schon von Streik reden, ist
bestimmt jeder hier im Raum in Gedanken,

457
00:31:56,440 --> 00:32:01,730
bei der Lufthansa, die streiken ja als
Hauptkonzernaktivität. Alles blau, ja

458
00:32:01,730 --> 00:32:02,870
*Gelächer im Saal*

459
00:32:02,870 --> 00:32:06,070
Alles blau, auch die dürfen fiese
Kommentare abkriegen. Ich würd ja

460
00:32:06,070 --> 00:32:08,890
mitlachen, aber ich bin mit dem Flugzeug
hier in Hamburg, ne

461
00:32:08,890 --> 00:32:11,110
*Gelächter im Saal*
*kleiner Applaus*

462
00:32:11,110 --> 00:32:15,500
So, nach dem ganzen blau. jetzt mal was 
rotes. Knallrote Landschaft, ergibt sich

463
00:32:15,500 --> 00:32:21,810
um die Justiz. Das sind Berichte über die
Kriminalität; Morde, Attentate, ja, "the

464
00:32:21,810 --> 00:32:27,380
full packedge" und hier will man eher
weniger Lesekommentare, ja. So, die Justiz

465
00:32:27,380 --> 00:32:33,200
hat so 30 Prozent Kommentierbarkeit von
den üblichen 70 Prozent. Hier ist die

466
00:32:33,200 --> 00:32:38,489
ganze Geschichte rund um den NSU-Prozeß.
Der ist hier ja auch Thema. Tiefrot, ja,

467
00:32:38,489 --> 00:32:42,460
generell auch alles, was mit Rechtsradikal
und Nazis und so zu tun hat, darf eher

468
00:32:42,460 --> 00:32:46,140
wenig kommentiert werden und der
Kernknubbel hier, der hat so um die 18

469
00:32:46,140 --> 00:32:52,510
Prozent, ja, ist also noch weniger als die
Justiz und die waren schon rot. Was auch

470
00:32:52,510 --> 00:32:55,160
tiefrot ist, ist alles um die
Flüchtlingsthematik und zwar nicht nur

471
00:32:55,160 --> 00:32:58,120
das Konkrete, sondern auch der
weitergefasste Rahmen, Asylrecht

472
00:32:58,120 --> 00:33:03,210
und so weiter. Seht ihr sogar im Bild. Und
von Aussen sieht das aus, als sperrt der

473
00:33:03,210 --> 00:33:08,600
Spiegel seine Kommentarfunktion komplett
systematisch und zwar nach Themen, Ja? Und

474
00:33:08,600 --> 00:33:12,290
das wir sowas direkt visuell raus finden
können, das macht diese Landkarte so

475
00:33:12,290 --> 00:33:16,081
unheimlich mächtig. Allgemein ist es in
der Data-Science nicht nur wichtig richtig

476
00:33:16,081 --> 00:33:19,820
auszuwerten, es ist genauso wichtig, die
Informationen möglichst anschaulich

477
00:33:19,820 --> 00:33:23,110
visuell aufzubereiten. So können dann
nämlich auch Leute, die keine

478
00:33:23,110 --> 00:33:27,070
Informatiker sind, sofort komplexe
Zusammenhänge erkennen. Es gibt ja nur

479
00:33:27,070 --> 00:33:32,160
eine Breitbandverbindung ins Gehirn und
das sind die Augen. Richtig interessant

480
00:33:32,160 --> 00:33:36,929
wirds, wenn man mal guckt, wie
Spiegel-Online die Kommentierbarkeit hart

481
00:33:36,929 --> 00:33:43,290
national ordnet. Das hier ist der ganze
Nahost-Konflikt, um Israel, ja, wie ihr an

482
00:33:43,290 --> 00:33:48,090
dem satten Rot seht, zum Nahostkonflikt
und Israel hat man bei fast allen Artikeln

483
00:33:48,090 --> 00:33:53,710
die Klappe zu halten. So und jetzt
schwenken wir mal vom Nahost-Konflikt zum

484
00:33:53,710 --> 00:33:58,029
Ukraine-Konflikt. Ja *lächelt seufzend*

485
00:33:58,029 --> 00:34:03,440
* akustische Aufruhr im Publikum*
*Einzelapplaus*

486
00:34:03,440 --> 00:34:04,110
Ja.

487
00:34:04,110 --> 00:34:05,600
*Applaus*

488
00:34:05,600 --> 00:34:10,379
Also. Ihr könnt euch mit nach Hause
nehmen. Meine Damen und Herren:

489
00:34:10,379 --> 00:34:11,770
Russen bashen ist OK.

490
00:34:11,770 --> 00:34:13,230
*Gelächter im Publikum*

491
00:34:13,230 --> 00:34:16,329
Ja, was wir hier - Live und in Farbe -
sichtbar gemacht haben, ist nichts anderes

492
00:34:16,329 --> 00:34:21,379
als unsere westliche Filterbuble. Die kann
man messen. Zum Iran darf man seinen Senf

493
00:34:21,379 --> 00:34:27,099
dazugeben, zu Großbritanien auch. Zur
Türkei, da ist Spiegel-Online sich noch

494
00:34:27,099 --> 00:34:28,099
nicht ganz sicher.

495
00:34:28,099 --> 00:34:29,099
*Gelächter*

496
00:34:29,099 --> 00:34:33,899
Und Frankreich ist interessant, diese
Region der Landkarte, die möchte

497
00:34:33,899 --> 00:34:39,219
eigentlich blau sein aber die ganzen
Keywords rund um die Terrorserie dort, die

498
00:34:39,219 --> 00:34:42,329
sind knallrot und die strahlen in die
Nachbarn aus und das schauen wir uns jetzt

499
00:34:42,329 --> 00:34:47,440
doch mal ein bisschen genauer an, Das sind
alles Frankreichartikel aber nach Zeit.

500
00:34:47,440 --> 00:34:52,079
Die blaue Linie ist das Aufkommen der
kommentierbaren Artikel, die rote Linie

501
00:34:52,079 --> 00:34:56,300
wieder das Aufkommen der
Nichtkommentierbaren und wir sehen: wie

502
00:34:56,300 --> 00:35:00,821
Frankreich von 2014 bis 2015 erstmal
überwiegend kommentierbar ist und die

503
00:35:00,821 --> 00:35:06,339
blaue Linie ist über der roten, und hier
ist die Terrorserie in Paris im November

504
00:35:06,339 --> 00:35:12,160
2015 und es wird plötzlich enorm viel
berichtet. Also sehen wir ne krasse Spitze

505
00:35:12,160 --> 00:35:17,980
am Frankreichartikeln, ne, und davon sind
die Meisten nicht kommentierbar. Also:

506
00:35:17,980 --> 00:35:20,200
Frankreich an sich dürft ihr gerne
kommentieren aber bezüglich der

507
00:35:20,200 --> 00:35:25,859
Anschläge dort bitte nicht. Und das
Interessante ist, der Effekt wirkt fort,

508
00:35:25,859 --> 00:35:30,369
Seit der Terrorserie ist Frankreich
generell nicht mehr so kommentierbar. Die

509
00:35:30,369 --> 00:35:34,609
rote Linie ist meist über der Blauen. Und
jetzt tretten wir wieder einen Schritt

510
00:35:34,609 --> 00:35:40,759
zurück. Und natürlich sehe ich auch, das
der Spiegel Themenbereiche aufgrund der

511
00:35:40,759 --> 00:35:44,290
Erfahrungen in der Verasngenheit sperren
kann. Und generell müssen wir auch

512
00:35:44,290 --> 00:35:48,059
zugeben, das ist das gute Recht von
Spiegel-Online zu entscheiden, wo und in

513
00:35:48,059 --> 00:35:51,849
welcher Form sie Anderen auf ihrer Seite
ne Plattform geben und wo sie das eben

514
00:35:51,849 --> 00:35:56,499
nicht tun. Aber genauso ist es auch unser
gutes Recht diese Systematik hier mal

515
00:35:56,499 --> 00:36:01,499
sichtbar zu machen. Und ich denke, das
sieht insgesamt so aus als verböte

516
00:36:01,499 --> 00:36:06,320
Spiegel-Online genau zu denjeniegen Themen
die Kommentierung, bei denen zu erwarten

517
00:36:06,320 --> 00:36:12,729
ist, das die Meinungen der Leser politisch
nicht opportun sind. Ob das jetzt etwas

518
00:36:12,729 --> 00:36:16,309
über Spiegel-Online aussagt oder über
seine Leser oder irgendwie ein

519
00:36:16,309 --> 00:36:19,930
gesamtgesellschaftliches Problem ist, das
müsst ihr dann wieder selbst entscheiden.

520
00:36:19,930 --> 00:36:26,680
Was die Auswertung angeht, haben wir den
Vortrag bis jetzt im Grunde zweigeteilt.

521
00:36:26,680 --> 00:36:34,230
Am Anfang haben wir die Artikelsammlung in
nur wenige Töpfe unterteilt, und danach

522
00:36:34,230 --> 00:36:37,900
haben wir die Artikelsammlung in viel mehr
Töpfe unterteilt, das sind die wenigen,

523
00:36:37,900 --> 00:36:42,049
jeder Artikel konnte sogar in mehreren
Töpfen sein. Ne, das war ja so? Wenn nen

524
00:36:42,049 --> 00:36:45,890
Artikel mehrere Keywords hatte, dann war
er auch in mehreren Töpfen. Und das war

525
00:36:45,890 --> 00:36:51,109
ne viel komplexere, aber auch viel
mächtigere Art der Unterteilung. Und

526
00:36:51,109 --> 00:36:54,550
jetzt merkt ihr euch diese beiden Arten
der Unterteilung mal kurz und damit machen

527
00:36:54,550 --> 00:37:00,380
wir was politisches, wir gehen über zum
Thema Wahlkampf. Ja, Wahlkämpfe

528
00:37:00,380 --> 00:37:04,390
funktionieren grob so, das man die Menge
aller Wähler auseinander schneidet,

529
00:37:04,390 --> 00:37:08,420
wie wir unsere Artikel auseinander
geschnitten haben. Das heißt dann 'Voter

530
00:37:08,420 --> 00:37:14,569
Targeting'. Und bei der US-Wahl konnte man
z.B. sagen man schneidet die Wähler grob

531
00:37:14,569 --> 00:37:19,369
nach Geschlecht, Hautfarbe, Alter und
Gehalt. Das wird dann in der Tat auch so

532
00:37:19,369 --> 00:37:22,950
gemacht. Dann könnte man sozusagen allen
schwarzen Frauen in Kalifonien, die

533
00:37:22,950 --> 00:37:27,630
zuwischen 30 und 40 sind und über 60.000
Dollar im Jahr verdienen, zugeschnittene

534
00:37:27,630 --> 00:37:33,529
Wahlwerbung schicken. Und das ist ne
relativ grobe Art der Unterteilung und die

535
00:37:33,529 --> 00:37:37,750
ist sozusagen analog zu unseren groben
Unterteilungen hier, auf der linken Seite

536
00:37:37,750 --> 00:37:50,849
der Folie. Aber was wäre dann die rechte
Seite? Vor einiger Zeit hat dieser Artikel

537
00:37:50,849 --> 00:37:54,829
des Schweizer Tagesanzeiger die Runde
gemacht. Ich bin sicher viele von euch

538
00:37:54,829 --> 00:38:00,520
kennen den, der ging ziemlich durchs Netz,
der wurde am Tag 13 mal als Lesebefehl

539
00:38:00,520 --> 00:38:04,479
geschickt, und so weiter und so fort. Also
ich glaube, ich habe den bestimmt 50 mal

540
00:38:04,479 --> 00:38:08,569
bekommen, weil ich mich halt auch mit dem
Maschinen-Learning auseinandersetze.

541
00:38:08,569 --> 00:38:14,020
Und in dem Artikel steht im Grunde, das ne
Datenanalysefirma es geschafft habe, eine

542
00:38:14,020 --> 00:38:18,700
extrem feine Unterteilung von Wählern
hinzukriegen. Das wäre, sozusagen, analog

543
00:38:18,700 --> 00:38:23,160
zu unserer sehr mächtigen
Themenlandkarte. Und in dem Artikel steht

544
00:38:23,160 --> 00:38:28,329
weiter, das hätte diese Firma sowohl für
die Präsidentschaftswahl, als auch für

545
00:38:28,329 --> 00:38:33,430
das Brexit-Referendum gemacht. Und es
wurde dann behauptet, deswegen wäre Trump

546
00:38:33,430 --> 00:38:38,530
gewählt worden und deswegen wäre der
Brexit durchgekommen. Das ist natürlich

547
00:38:38,530 --> 00:38:43,300
spooky. Und das verkauft sich gut. Ja -
uijuijuijuijui - Die selbe Firma hinter

548
00:38:43,300 --> 00:38:49,259
Trump und hinter dem Brexit, ja, da glüht
der Aluhut, wirklich.

549
00:38:49,259 --> 00:38:54,309
*Gelächter*
*Applaus*

550
00:38:54,309 --> 00:39:02,180
Und die sagen, ihre Unterteilung der
Wählerschaft sei so fein, das man jedem

551
00:39:02,180 --> 00:39:07,299
Wähler seine genau passende Wahlwerbung
schicken könnte. Und sie sagen nicht nur

552
00:39:07,299 --> 00:39:10,460
das, sie sagen sie können das sogar noch
genauer, sie können sogar den

553
00:39:10,460 --> 00:39:14,640
Gesprächston treffen, so dass der Wähler
wahrscheinlich drauf hört. Generell

554
00:39:14,640 --> 00:39:19,349
würde ich sagen, ne, tiefer hängen.
Es ist überhaupt nicht klar, was die

555
00:39:19,349 --> 00:39:24,150
Firma den beiden Wahlkämpfen überhaupt
wirklich gebracht hat. Die Infos kommen im

556
00:39:24,150 --> 00:39:28,450
wesentlich nämlich von der Firma selbst
und ich glaube, ehrlich gesagt ja, da hat

557
00:39:28,450 --> 00:39:32,470
die Firma einen hervorragenden Vertriebler
geschickt und der hat dann wirklich der

558
00:39:32,470 --> 00:39:37,529
Presse einen brillianten Vortrag gehalten
und die Presse hat's dann einfach gekauft.

559
00:39:37,529 --> 00:39:42,190
So und die Kernaussage ist doch nur: Ihr
könnt jetzt Wahlwerbung bekommen, oder

560
00:39:42,190 --> 00:39:46,339
Werbung im Allgemeinen, die extrem
genau auf euch zugeschnitten ist und euch

561
00:39:46,339 --> 00:39:51,650
so effizienter zu Dingen verleitet. Mit
anderen Worten: Endlich kriegen nur noch

562
00:39:51,650 --> 00:39:55,319
diejenigen Viagra-Spam, die das Produkt
auch wirklich benötigen.

563
00:39:55,319 --> 00:39:56,979
Das ist ja zunächst mal nicht schlimm.

564
00:39:56,979 --> 00:39:58,249
*verhaltendes Gelächter*

565
00:39:58,249 --> 00:40:02,099
Ja, Aber kaufen und eben wählen, das
müssen die Leute schon noch selbst, es

566
00:40:02,099 --> 00:40:05,329
ist nicht so das BigData die Leute
fernsteuert. Das müssen wir schon

567
00:40:05,329 --> 00:40:10,279
festhalten, also man könnte sagen: Wer
vor so zielgerichteter Werbung Angst hat,

568
00:40:10,279 --> 00:40:13,700
der sollte vielleicht die eigene
Urteilsfähigkeit hinterfragen.

569
00:40:13,700 --> 00:40:19,430
*Applaus*

570
00:40:20,050 --> 00:40:26,069
Ja. Ja. Bestimmt haben auch ein paar von
euch diesen Gedankengang gehabt und an der

571
00:40:26,069 --> 00:40:30,830
Stelle hat ich keinen Applaus erwartet.
Sich selbst haben sie sich ein

572
00:40:30,830 --> 00:40:34,470
bisschen bruhigt, mit diesem Gedankengang.
Das Problem ist nur, ich glaube,

573
00:40:34,470 --> 00:40:39,259
die eigene Urteilsfähigkeit hinterfragen,
das macht kaum einer. In der Realität

574
00:40:39,259 --> 00:40:43,059
wählen die Leute doch irgendwie
denjenigen, der ihnen am meisten, am

575
00:40:43,059 --> 00:40:48,140
emotional passensten, kurz vor der Wahl
was zubrüllt. Ja. Und so laufen Wahlen.

576
00:40:48,140 --> 00:40:52,380
Das ist ja auch politisch so gewollt, Wo
kämen wir auch hin, wenn Wahlen irgendwie

577
00:40:52,380 --> 00:40:54,849
langfristigen Erfolg belohnen würden, ne.

578
00:40:54,849 --> 00:40:55,930
*verhaltendes Lachen*

579
00:40:55,930 --> 00:41:01,420
Und dieses emotionale Zurufen und das geht
mit so höchst personalisierter Werbung

580
00:41:01,420 --> 00:41:07,999
urplötzlich, unglaublich effizient. Und
das bedeutet, ja, Data-Science-Techniken

581
00:41:07,999 --> 00:41:12,650
können Wahlen beeinflussen. Ja vorhin
hatte ich die Voratsdatenspeicherung

582
00:41:12,650 --> 00:41:17,869
angeprangert ja ich bin ja auf dem CCC,
also vermute ich, dass die Meisten von

583
00:41:17,869 --> 00:41:21,670
von mit mir einer Meinung waren. Und damit
kommen wir genau zum Punkt; Wisst ihr, was

584
00:41:21,670 --> 00:41:25,720
die Firma aus dem Artikel genommen hat, um
die Wähler so ultragenau zu vermessen?

585
00:41:25,720 --> 00:41:29,569
Das waren überhaupt gar keinen
staatlichen Ãœberwachungsdaten, das waren

586
00:41:29,569 --> 00:41:35,329
Facebook-Likes. Also Daten, die die Leute
selbst über sich ins Netz gestellt

587
00:41:35,329 --> 00:41:38,880
hatten, ne. Und es ist wichtig mit
staatlicher Ãœberwachung kritisch zu sein.

588
00:41:38,880 --> 00:41:42,819
Ja das dürfen wir und das müssen wir
auch, wenn wir kein Unrechtsstaat werden

589
00:41:42,819 --> 00:41:47,289
wollen. Aber wenn wir dann gleichzeitig
völlig unkritisch sind mit uns selbst,

590
00:41:47,289 --> 00:41:52,950
ja, und wirklich jeden Mist ins Facebook
oder ähnliche Plattformen pumpen, ja,

591
00:41:52,950 --> 00:41:54,810
dann haben wir nichts gewonnen.

592
00:41:55,900 --> 00:42:06,070
*Applaus*

593
00:42:06,070 --> 00:42:11,359
Mein Vortrag neigt sich dem Ende zu. Es
kommen jetzt noch zwei Sachen: eine kleine

594
00:42:11,359 --> 00:42:17,130
Ãœberraschung und dann habe ich noch ne
Bitte an euch alle. Und zuerst gibt es die

595
00:42:17,130 --> 00:42:22,950
Ãœberraschung. Ja, habe ich vorhin gesagt,
ich hätte 100.000 Artikel von

596
00:42:22,950 --> 00:42:27,890
Spiegel-Online geladen?
Ich meinte über 700.000

597
00:42:27,890 --> 00:42:31,930
*Applaus*

598
00:42:31,930 --> 00:42:36,530
Ne, ich lade jeden Artikel nicht nur
einmal runter, wenn er erscheint somdern

599
00:42:36,530 --> 00:42:40,370
mehrfach in wachsenden Zeitabständen. 
Und mit anderen Worten, wir können messen,

600
00:42:40,370 --> 00:42:43,230
was in Artikeln geändert wurde.

601
00:42:43,230 --> 00:42:49,660
*Gelächter*
*Applaus*

602
00:42:49,660 --> 00:42:53,719
So und aus Zeitgründen, gibts damit keine
riesen Auswertung. Erstens aus

603
00:42:53,719 --> 00:42:57,510
Zeitgründen hier im Vortrag aber auch
zweitens aus persönlichen Zeitgründen ne,

604
00:42:57,510 --> 00:43:01,640
ich muss irgendwann auch nochmal arbeiten.
Aber wir haben ne kleine Demo.

605
00:43:01,640 --> 00:43:06,819
Ich hab zum Beispiel mal geguckt, ob 
Titel geändert werden, ne.

606
00:43:06,819 --> 00:43:10,520
Und bei sowas findet man einfach lustige 
Sachen. Es gibt nicht nur den Titel,

607
00:43:10,520 --> 00:43:11,960
der hier offensichtlich ist.

608
00:43:11,960 --> 00:43:16,300
Sondern es gibt auch zusätzlich den
Html-Titel, die Techniker unter euch

609
00:43:16,300 --> 00:43:20,900
kennen den. Der wird oben im Browser
angezeigt und auch die Html-Titel erfasse

610
00:43:20,900 --> 00:43:27,140
ich natürlich. So und am 21.Januar -
wobei der hier sichtbare Artikel ist am

611
00:43:27,140 --> 00:43:32,349
20. Januar 2015 rausgekommen - und am
21.Januar und das war einen Tag nachdem

612
00:43:32,349 --> 00:43:36,710
der Artikel erschienen war, wurde mir
angezeigt: Der Html-Titel hat sich

613
00:43:36,710 --> 00:43:43,329
geändert aus "SAP wächst 2014 langsamer
als geplant." Ich hab mich dann gefragt:

614
00:43:43,329 --> 00:43:48,049
He, warum wurde er denn geändert, ja also
wie war der vorher. Ganz einfach: Als der

615
00:43:48,049 --> 00:43:54,410
Artikel rauskam, wuchs nähmlich nicht SAP
sondern der SAP-Chef

616
00:43:54,410 --> 00:43:56,000
wuchs langsamer als geplant.

617
00:43:56,000 --> 00:43:57,589
*Gelächter*

618
00:43:57,589 --> 00:43:59,989
Sowas finde ich an sich ganz sympatisch,

619
00:43:59,989 --> 00:44:02,229
*Gelächter*

620
00:44:02,229 --> 00:44:05,579
denn es zeigt, das bei Spiegel Online noch
Menschen an den Texten sitzen und keine

621
00:44:05,579 --> 00:44:10,940
Computer und im Moment heisst der Artikel
übrigens: SAP kann Wachstums- und

622
00:44:10,940 --> 00:44:15,349
Gewinnziele nicht erfüllen. Also das hat
nochmal irgendwem nicht gefallen, ne. Und

623
00:44:15,349 --> 00:44:19,369
irgendwann zwischendurch haben sie es
nochmal geändert. Also, jetzt wisst ihr

624
00:44:19,369 --> 00:44:22,069
erst, wie mächtig der Datensatz
tatsächlich ist. Ich hab von jedem

625
00:44:22,069 --> 00:44:26,060
Artikel diverse zeitlich versetzte
Versionen und das erlaubt natürlich viel,

626
00:44:26,060 --> 00:44:29,640
viel krassere Auswertungen und damit fang
ich aber selbst erst an und deswegen ist

627
00:44:29,640 --> 00:44:33,489
heute noch so wenig davon im Vortrag, aber
das war meine Ãœberraschung und jetzt

628
00:44:33,489 --> 00:44:39,029
kommt meine Bitte. Ihr habt jetzt alles
mögliche gesehen und wir haben Artikel

629
00:44:39,029 --> 00:44:43,680
auf einfach und komplexe Weise unterteilt.
Wir haben gesehen, das verschiedene

630
00:44:43,680 --> 00:44:47,319
Arten der Unterteilung und Darstellung
verschieden mächtig sind und wir haben

631
00:44:47,319 --> 00:44:51,240
verschiedenste Features aus den Artikeln
gelesen: Rubrik, Zeiten, Kommentierbarkeit

632
00:44:51,240 --> 00:44:56,900
Autor. Jede Menge weiterer Features sind
denkbar. Auch kompliziertere Features ja.

633
00:44:56,900 --> 00:45:01,259
Man könnte zum Bsp für jeden Artikel die
darin enthaltenden Links raus ziehen und

634
00:45:01,259 --> 00:45:05,130
dann gucken, ob bestimmte Autoren Kumpels
haben, auf die sie oft verlinken.

635
00:45:05,130 --> 00:45:09,289
Der Fantasie sind wirklich keine Grenzen
gesetzt. Und zum Schluss haben wir sogar

636
00:45:09,289 --> 00:45:14,710
gesehen, wir können für jeden Artikel
messen, was verändert wurde, ne.

637
00:45:14,710 --> 00:45:19,559
Wir können z.B. gucken, wo die Leser am
meisten randalieren. Da guckt man, indem

638
00:45:19,559 --> 00:45:23,059
man guckt, wo die Kommentarfunktionen erst
geöffnet und später dann geschlossen

639
00:45:23,059 --> 00:45:28,729
sind. Also meine Bitte an euch, jeder der
hier zuguckt, schickt mir bitte einen Mail

640
00:45:28,729 --> 00:45:34,749
mit seinem kreativsten Auswertungsideen
für den Datensatz. Und in dem

641
00:45:34,749 --> 00:45:36,969
Zusammenhang hab ich noch ne Message, die
ihr euch auch mitnehmen könnt. Wenn ihr

642
00:45:36,969 --> 00:45:40,609
was im Bereich der Data-Science macht,
Rohdaten sind geil.

643
00:45:40,609 --> 00:45:53,650
*Gelächer*
*Applaus*

644
00:45:53,650 --> 00:45:58,269
Behaltet immer alle Rohdaten, wenn ihr es
irgendwie vom Speicher bezahlen könnt.

645
00:45:58,269 --> 00:46:02,209
Ne, dann könnt ihr nämlich im nachhinein
alles mögliche tun. Ich hab alle Rohdaten

646
00:46:02,209 --> 00:46:05,410
komplett da. Das sind über 60 GB
pures HTML.

647
00:46:05,410 --> 00:46:06,410
*Gelächter*

648
00:46:06,960 --> 00:46:10,510
Und neue Features im nachhinein dazu
auswerten, ist deswegen überhaupt

649
00:46:10,510 --> 00:46:14,420
kein Problem. Darum bitte, bitte, lasst
eurer Fantasie freien Lauf. Erfindet neue

650
00:46:14,420 --> 00:46:18,280
Features, erfindet wonach die ausgewertet
werden sollen. Schickt mir einfach, was

651
00:46:18,280 --> 00:46:21,620
ihr euch denkt, ja. Vieleicht ist nicht
alles, was ihr wollt möglich und

652
00:46:21,620 --> 00:46:24,929
vielleicht schau ich auch nicht alles
sofort. Ich bin ja auch berufstätig und

653
00:46:24,929 --> 00:46:28,840
zum Jahresanfang werde ich stramm
eingespannt sein Aber ich versuch was

654
00:46:28,840 --> 00:46:33,719
möglich zu machen. Also einfach
einschicken. Seit kreativ. Und damit

655
00:46:33,719 --> 00:46:37,680
bleibts mir nur noch, ein dickes
Dankeschömn zu sagen dafür das ihr diese

656
00:46:37,680 --> 00:46:42,189
Stunde mit mir verbracht habt. 
Hier sind noch die Links. Und bis dann.

657
00:46:42,189 --> 00:47:02,160
*Applaus*
* Jubel**Applaus*

658
00:47:02,160 --> 00:47:06,030
Herald: Ganz so schell wirst du
natürlich noch nicht entlassen, weil wir

659
00:47:06,030 --> 00:47:11,200
haben noch unsere Fragerunde. Erstmal
herzlichen Dank, immer schön zu sehen,

660
00:47:11,200 --> 00:47:14,849
wie die Mathematik doch spannend sein
kann, um eben solche Daten zu analysieren.

661
00:47:14,849 --> 00:47:24,220
Und ja, wie immer, wenn ihr Fragen habt,
tretet vor zu den Mikrofonen. Und alle die

662
00:47:24,220 --> 00:47:30,390
schnell, ich glaube nebenan startet der
Jahresrückblick mit Fefe oder

663
00:47:30,390 --> 00:47:32,849
David Kreisel: Ne der Fefe sitzt da vorne
im Publikum.

664
00:47:32,849 --> 00:47:40,539
Herald: Ach ja, der sitzt noch hier. So
schnell wird er dann drüben noch nicht

665
00:47:40,539 --> 00:47:46,690
starten, vielleicht wollen die schon mal
einen Platz. Genau. .... Wo haben wir

666
00:47:46,690 --> 00:47:49,309
Fragen, an Mikro 3, beginnen wir dort:

667
00:47:49,309 --> 00:47:54,569
Mik 3: Hi, super Vortrag, fand ich echt
Klasse. Was mich mal interessieren würde:

668
00:47:54,569 --> 00:47:58,499
Hast du mal geguckt, ob die Split testen
und die Artikel-Überschriften ändern

669
00:47:58,499 --> 00:48:01,339
anhand von wieviel Leute drauf klicken
oder sowas?

670
00:48:01,339 --> 00:48:05,279
David: Ja das würde man messen daran, 
wie viele verschiedene Titel man so findet

671
00:48:05,279 --> 00:48:08,680
und wenn diese Zahl der durchschnittlichen
Titel pro Artikel ansteigt, dann passiert

672
00:48:08,680 --> 00:48:14,640
das und wenn ich das richtig interpretiere
dann testen sie das gerade. Also es ist

673
00:48:14,640 --> 00:48:18,480
noch nicht übergreifend, es ist immer nur
so stossweise, vielleicht will mich auch

674
00:48:18,480 --> 00:48:21,890
einer korrigieren von Spiegel Online, aber
so wie meine Daten aussehen, ja hab ich

675
00:48:21,890 --> 00:48:26,999
getestet, sie versuchen es gerade. Also
was ist Splittesten? Vieleicht mal fürs

676
00:48:26,999 --> 00:48:30,640
Publikum. Man veröffentlicht Artikel mit
verschiedenen Titeln und dann guckt man,

677
00:48:30,640 --> 00:48:33,630
wo am meisten Leute klicken, bei welchem
Titel und der Titel darf dann weiter

678
00:48:33,630 --> 00:48:38,559
leben. Ihr verändert also durch euren
Besuch direkt die Nachrichtenseite.

679
00:48:38,559 --> 00:48:46,210
Mikro 1: Ja hi. Ich wollte fragen, ob du
auch Spiegel-plus Artikel, die es ja seit

680
00:48:46,210 --> 00:48:50,329
Mitte diesen Jahres, glaube ich, gibt mit
einbezogen hast und wenn ja, hast du einen

681
00:48:50,329 --> 00:48:51,329
plus Account?

682
00:48:51,329 --> 00:48:52,329
David: Äh, ja.

683
00:48:52,329 --> 00:48:53,890
*leichtes Gelächter im Publikum*

684
00:48:53,890 --> 00:48:57,829
Ich habe die mit einbezogen, ähm, und
natürlich habe ich auch einen

685
00:48:57,829 --> 00:49:00,220
plus-Account, der das vollautomatisch
entschlüsselt,

686
00:49:00,220 --> 00:49:01,220
*räusper*

687
00:49:01,220 --> 00:49:02,220
und dazu also

688
00:49:02,220 --> 00:49:03,080
*Gelächter*

689
00:49:03,080 --> 00:49:06,250
wenn einer Näheres - Ich hab mich da
wahnsinnig geärgert - kurz - als die

690
00:49:06,250 --> 00:49:09,640
plus-Artikel rauskamen, weil ich die
nicht auf Anhieb de-krypten konnte.

691
00:49:09,640 --> 00:49:12,319
Und dazu gibts jetzt bei mir einen 
Blogartikel, seitdem,

692
00:49:12,319 --> 00:49:15,140
wie man die de-kryptet.

693
00:49:15,140 --> 00:49:19,070
*Applaus*

694
00:49:19,070 --> 00:49:22,600
Ich muss übrigens mal was Positives
sagen, die Spiegel plus Artikel sind im

695
00:49:22,600 --> 00:49:26,089
Median 1100 Worte lang, also man muss
schon sagen,

696
00:49:26,089 --> 00:49:27,439
da kriegt ihr auch was fürs Geld.

697
00:49:27,439 --> 00:49:29,599
*leichtes Gelächter**leichter Applaus*

698
00:49:29,599 --> 00:49:39,839
Mikro 7: Hast du im Rahmen deiner Analysen
auch auf die Inhalte geguckt, das du

699
00:49:39,839 --> 00:49:46,339
vielleicht die Worthäufigkeit analysiert
hast und die Zuordnung zu Ressorts oder zu

700
00:49:46,339 --> 00:49:51,339
Schlagworten anhand der Inhalte
abgeglichen hast, um vielleicht raus

701
00:49:51,339 --> 00:49:54,680
zufinden, ob die Verschlagwortung
vollständig oder richtig ist.

702
00:49:54,680 --> 00:49:58,582
David: Ne hab ich noch nicht gemacht. Man
kann ja die Schlagworte nehmen und da hab

703
00:49:58,582 --> 00:50:01,609
ich es mir bequem gemacht oder man
versucht jetzt ne Analyse zu machen, was

704
00:50:01,609 --> 00:50:04,579
die relevanten Worte im Artikel sind und
das hab ich noch nicht gemacht, Das wären

705
00:50:04,579 --> 00:50:08,470
dann sozusagen die schöneren Schlagworte.
Aber ne, hab ich noch nicht gemacht.

706
00:50:08,470 --> 00:50:12,219
Herald -Frage aus dem Internet:

707
00:50:12,219 --> 00:50:16,420
Signal Angel: IRC möchte wissen, welche
Software du benutzt hast, um die Daten zu

708
00:50:16,420 --> 00:50:19,519
sammeln. zu analysieren, zu visualisieren
und ob es

709
00:50:19,519 --> 00:50:20,519
die Daten irgendwo gibt, außer bei dir.

710
00:50:20,519 --> 00:50:24,360
David: OK. Nein gibts noch nicht, irgendwo
außer bei mir, weil ich mir auch gar

711
00:50:24,360 --> 00:50:31,440
nicht sicher bin, ob ich die verteilen
darf. Ich benutze den Python Data Stack

712
00:50:31,440 --> 00:50:34,599
und die Software zum runterladen hab ich
mir selbst geschrieben, die läuft auf

713
00:50:34,599 --> 00:50:40,690
einem meiner Server und darüberhinaus
nutze ich Pandas für die Analyse, das ist

714
00:50:40,690 --> 00:50:43,880
auf Python aufbauend und dann diese ganze
MaschinLearning Sachen da drüber

715
00:50:43,880 --> 00:50:48,739
scikit-learn. Also den ganzen Py DataStack
googelt danach einfach, da findet ihr viel

716
00:50:48,739 --> 00:50:51,589
und zum Visualisieren hab ich hier Tableau
genommen, das ist ne

717
00:50:51,589 --> 00:50:56,930
Visualisierungssoftware. Die schon
voragregierte und vorerechnete Daten bis

718
00:50:56,930 --> 00:51:00,339
zu ein paar GigaByte ganz gut verkraftet
und da kann man sehr schnell schöne

719
00:51:00,339 --> 00:51:04,720
Visualisierungen draus ziehen und zum

720
00:51:04,720 --> 00:51:06,319
Visualisieren der Graphen hab ich Gephi
genommen.

721
00:51:06,319 --> 00:51:12,529
Mikro 4: Hast du Daten Real-Time
analysiert oder

722
00:51:12,529 --> 00:51:14,119
alles im nachhinein gemacht?

723
00:51:14,119 --> 00:51:16,069
David: Ich versteh die Frage nicht.

724
00:51:16,069 --> 00:51:19,630
Mirko: Ob du die Daten während du sie
gesammelt hast analysiert hast?

725
00:51:19,630 --> 00:51:23,079
David: Ach so, ne. Das wird alles
rohdatenmäßig gesammelt, dann wird das

726
00:51:23,079 --> 00:51:28,960
im weiteren Schritt erst mal, werden die
Rohfeatures rausge-parsed und das sind dann

727
00:51:28,960 --> 00:51:31,680
so wenige, das sie in der Tat dann in
einen RAM passen und ich dann darauf

728
00:51:31,680 --> 00:51:36,089
weitere High-Level Feature machen kann.
Das passiert so in 3 Layern. Also es ist

729
00:51:36,089 --> 00:51:41,180
nicht direkt dabei aber während wir hier
gesprochen haben, ist schon wieder 10 mal

730
00:51:41,180 --> 00:51:44,079
runter geladen worden. Insofern ist das
schon gleichzeitig zum Runterladen.

731
00:51:44,079 --> 00:51:48,709
Das Runterladen geht weiter.

732
00:51:48,709 --> 00:51:53,560
Mikro 3: Eine Idee für die Auswertung: Du
könntest mal gucken, ob bestimmte

733
00:51:53,560 --> 00:51:57,309
Wortgruppen in älteren Artikeln nochmal
vorkamen, um zu sehen welche zusammen

734
00:51:57,309 --> 00:51:58,309
kopiert wurden.

735
00:51:58,309 --> 00:52:03,029
David: Du meinst, ja ja , so ne Auswertung
im Sinne von: In jedem Artikel kriegt ihr

736
00:52:03,029 --> 00:52:07,460
durchschnittlich 73 Prozent neuen Content
quasi, ja?

737
00:52:07,460 --> 00:52:08,950
*Gelächter*

738
00:52:08,950 --> 00:52:10,020
Mikro: Ja

739
00:52:10,020 --> 00:52:11,790
David: Guter Punkt

740
00:52:11,790 --> 00:52:13,130
*Applaus*

741
00:52:13,130 --> 00:52:15,229
David: Machen wir so.

742
00:52:17,039 --> 00:52:22,530
Mikro: Hallo, ich wollte nur kurz einen
Denkanstoss geben, ich formuliere das mal

743
00:52:22,530 --> 00:52:28,440
als Frage. Könnte es sein, das diese
Nichtkommentierbarkeit von Israel-Artikeln

744
00:52:28,440 --> 00:52:32,430
auch einfach ein Ressourcen-Problem ist,
weil es da vielleicht mehr aus

745
00:52:32,430 --> 00:52:36,140
juristischen Gründen zu zensieren gibt
für die Redaktion?

746
00:52:36,140 --> 00:52:38,049
David: Das kann selbstverständlich sein.
Ja natürlich.

747
00:52:38,049 --> 00:52:40,869
Mikro: Z.B. gibt es ja durchaus
Sigularitäten mit dem deutschen

748
00:52:40,869 --> 00:52:42,999
Strafrecht, das man bestimmte Sachen 
nicht sagen darf.

749
00:52:42,999 --> 00:52:48,950
David: Ja. Also, hätte es nur Israel
erwischt, hätte ich das auch sofort auch

750
00:52:48,950 --> 00:52:51,989
gedacht. Aber ja kann natürlich sein. 
Das ist auch so ganz wichtig an so

751
00:52:51,989 --> 00:52:54,759
Data-Science, ich hab das hier jetzt
teilweise bisschen ketzerisch vorgetragen

752
00:52:54,759 --> 00:52:58,450
aber natürlich müsst ihr schon selbst
nochmal gucken, was ihr aus den Daten

753
00:52:58,450 --> 00:53:02,309
folgert. Ja natürlich, das kann sein. Am
besten wissen das natürlich nur die

754
00:53:02,309 --> 00:53:06,369
Spiegelleute. Aber Israel war ja nicht der
einzige Punkt der nichtkommentierbar war

755
00:53:06,369 --> 00:53:13,479
und zur reinen Justiz gibt es keine
Singularität im deutschen Strafrecht.

756
00:53:13,479 --> 00:53:18,219
Mikro 6: Hallo David, vielen Dank für den
Talk. Hast du überlegt die Software

757
00:53:18,219 --> 00:53:22,159
irgendwie Open Source anzubieten , so
dass man sie z.B. für

758
00:53:22,159 --> 00:53:25,219
andere Quellen anpassen kann. Tagesschau
etc.

759
00:53:25,219 --> 00:53:29,680
David: Hab ich nicht überlegt. Aber
ehrlich gesagt, so aufwendig ist es auch

760
00:53:29,680 --> 00:53:35,549
nicht. Ihr schreibt euch nen Script, was
euch alle paar Minuten mal losläuft und

761
00:53:35,549 --> 00:53:41,009
die Artikel runter lädt und das
speicherst in einer Datenbank fertig. Also

762
00:53:41,009 --> 00:53:44,849
das Open Source, ist das uninteressanteste
was es gibt. Ddas findet ihr in 1000

763
00:53:44,849 --> 00:53:49,019
Varianten sauberer als ich das gemacht hab
nochmal, glaube ich. Aber ja, man könnte

764
00:53:49,019 --> 00:53:52,220
mal eine Vergleichsauswertung mit anderen
Medien starten, ja.

765
00:53:52,220 --> 00:53:57,789
Mikro 1: Wie hast du den Strain aus deiner
Karte entfernt, du hast da ne ganze Menge

766
00:53:57,789 --> 00:54:00,229
Dimensionen auf zwei Dimensionen runter
gebrochen ..

767
00:54:00,229 --> 00:54:02,199
David: Den was aus meiner Karte entfernt?

768
00:54:02,199 --> 00:54:04,270
Mikro: Die Spannung, weil du hast ja sehr

769
00:54:04,270 --> 00:54:06,680
viel Dimensionen auf zwei Dimensionen
reduziert ...

770
00:54:06,680 --> 00:54:07,410
David: Ja,

771
00:54:07,410 --> 00:54:09,279
Mikro: .. und wie hast du sichergestellt,
das jetzt nicht Inseln bei einander sind,

772
00:54:09,279 --> 00:54:12,320
die gar nicht zusammen gehören oder
manche anderen nicht beieinander sind,

773
00:54:12,320 --> 00:54:14,920
die aufgrund von Inseln, die dazwischen 
liegen nicht nah genug zueinander kamen.

774
00:54:14,920 --> 00:54:18,299
David: In der Theorie kann man das nie
ausschliessen, aber in dem Graoh steckt

775
00:54:18,299 --> 00:54:22,060
sehr viel Verfahren drin. Also ich hab
zunächst mal zugesehen, das ich

776
00:54:22,060 --> 00:54:25,190
überhaupt nur die wichtigen Kanten pro
Knoten behalte, sonst hat man wirklich

777
00:54:25,190 --> 00:54:29,609
viel zu viele Kanten und dann gibts da
professionelle Graph-Layouting-Verfahren

778
00:54:29,609 --> 00:54:33,829
für, also Gephi bietet was, das heißt
VsAtlas 2 und das war das, was ihr in den

779
00:54:33,829 --> 00:54:37,839
hübschen Video gesehen habt, damit geht
das sehr gut, Also du must das natürlich

780
00:54:37,839 --> 00:54:42,579
ein bisschen Schmakes da rein investieren,
wie du die Kanten vorher ausfilters und

781
00:54:42,579 --> 00:54:46,660
dann, dann bist du immer noch nicht sicher
in der Theorie, aber dann siehst ja, ob

782
00:54:46,660 --> 00:54:49,509
das Bild gut wird oder nicht.

783
00:54:49,509 --> 00:54:55,060
Mikro 2: Du meintest, du warst im Oktober
beim Spiegel, wie war den deren Reaktion

784
00:54:55,060 --> 00:54:57,440
zu deinen Analysen?

785
00:54:57,440 --> 00:55:01,359
David: Positiv, also, ob das jetzt nur
daran lag, dass die sowieso nichts dagegen

786
00:55:01,359 --> 00:55:03,849
tun können, weiss ich nicht, 
aber ehrlich gesagt,

787
00:55:03,849 --> 00:55:04,859
*Gelächter*

788
00:55:04,859 --> 00:55:08,180
hab ich das als sehr positiv und
interessiert wargenommen und auch ich hab

789
00:55:08,180 --> 00:55:12,619
was gelernt und das war eigentlich einen
ziemlich cooler Termin, also sportlicher

790
00:55:12,619 --> 00:55:16,599
als die Kollegen bei Xerox sag ich mal.

791
00:55:16,599 --> 00:55:23,240
*großes Gelächter**Applaus*

792
00:55:23,240 --> 00:55:33,579
Mikro: Ist vielleicht ne Suggestivfrage,
vielleicht auch in Richtung, wie man

793
00:55:33,579 --> 00:55:42,510
weiterforschen könnte. Das Verfahren, das
du benutzt hast, um die thematische Nähe

794
00:55:42,510 --> 00:55:46,589
verschiedener Tags zueinander zu
bestimmen, wäre es mathematisch

795
00:55:46,589 --> 00:55:48,819
*ACHTUNG: Mathematiker-Kauderwelsh* ..

796
00:55:48,819 --> 00:55:52,230
nicht korrekter, wenn du eine singuläre 
Zerlegung der Adjazentmatrix

797
00:55:52,230 --> 00:55:55,329
dieser Schlagworte baust,
ähnlich wie Google Page Rank

798
00:55:55,329 --> 00:55:56,390
das gemacht hat.

799
00:55:56,390 --> 00:56:01,719
David: Ja. Aber dann kann man nicht so
einen schönen Graphen draus basteln und

800
00:56:01,719 --> 00:56:05,959
es kommt wahrscheinlich was ähnliches
raus, sein wir ehrlich. Ich sehe ja die

801
00:56:05,959 --> 00:56:08,989
Werte der Kanten und wahrscheinlich ist es
am Ende das Selbe.

802
00:56:08,989 --> 00:56:15,540
Mikro: Ja wenn du genug Dimensionen
benutzt ist es äquivalent.

803
00:56:18,790 --> 00:56:22,329
David: Ja.
Alles ist still, Mensch.

804
00:56:22,329 --> 00:56:26,249
Mikro 3: Nochmal kurz zu den Landkarten,
das sind irgendwelche

805
00:56:26,249 --> 00:56:28,180
MonteCarlo Methoden diese Springs ...

806
00:56:28,180 --> 00:56:29,339
David: Ja

807
00:56:29,339 --> 00:56:33,859
Mikro: ... im Endeffekt positionieren, wie
stabil sind die?

808
00:56:33,859 --> 00:56:37,509
David: Ich denke, ich hab mich da in die
Theorie nicht eingearbeitet weiter, es

809
00:56:37,509 --> 00:56:40,650
würde mich wundern, wenn du da ne
Stabilität drüber nachweisen könntest.

810
00:56:40,650 --> 00:56:45,160
"Fest steht, sie sind etabliert für
große Graphen." weil da ist sowieso nix

811
00:56:45,160 --> 00:56:50,050
mehr zu planarisieren in der Größe und
dann sieht man halt zu zu iterieren bis es

812
00:56:50,050 --> 00:56:53,859
stimmt und wenn es schlecht aussieht, dann
drückt man nochmal auf den Startknopf.

813
00:56:53,859 --> 00:56:57,449
Also so ist wirklich die Praxis.

814
00:56:57,989 --> 00:57:02,519
Mikro: Hallo. Hast du mal Markov auf deine
Daten geworfen,

815
00:57:02,519 --> 00:57:05,349
um Spiegelartikel zu generieren.

816
00:57:05,349 --> 00:57:06,659
*Gelächter**Applaus*

817
00:57:06,659 --> 00:57:09,159
David: Nein! Könntest du mir bitte damit
eine Email schicken?

818
00:57:09,159 --> 00:57:11,949
*Gekiecher und Gelächter im Saal*
Mikro: Sehr gerne.

819
00:57:11,949 --> 00:57:14,500
David: Oh wir haben Spaß, ich seh das
schon ..

820
00:57:14,500 --> 00:57:16,799
*Gelächter**Applaus*

821
00:57:16,799 --> 00:57:25,439
D: Da machen wir aber nicht nur die 
Artikel Generierung sondern dann wird

822
00:57:25,439 --> 00:57:29,190
bitte auch direkt dazu generiert, zu 
welchem Thema kommentiert werden darf

823
00:57:29,190 --> 00:57:30,580
und zu welchen nicht, ne ...

824
00:57:30,580 --> 00:57:32,070
*vereinzeltes Gelächter*
Ruf aus dem Publikum: Autoren generieren

825
00:57:32,070 --> 00:57:35,380
David: Autoren generieren, das ist auch
schön, ja.

826
00:57:35,380 --> 00:57:37,249
*Gelächter*

827
00:57:37,249 --> 00:57:45,150
Herald: So wir sind auch am Ende unserer
Zeit. Wer noch Fragen hat, du bist sicher

828
00:57:45,150 --> 00:57:46,150
gleich noch ...

829
00:57:46,150 --> 00:57:49,709
David: Ich geh hier jetzt da raus, zur
nächsten Bierbar, die da ist, falls die

830
00:57:49,709 --> 00:57:57,219
nicht vor Saal 2 ist, ist die vor Saal 1
dann bin ich da.

831
00:57:57,219 --> 00:57:58,780
Wir machen jetzt DDos auf
die Bierbar. Ja.

832
00:57:58,780 --> 00:57:59,810
*Applaus*

833
00:57:59,810 --> 00:58:02,609
Herald: Ja ist ja auch Zeit.

834
00:58:02,609 --> 00:58:12,260
*Applaus*

835
00:58:12,260 --> 00:58:18,869
Herald : Auch von mir auch nochmal ein 
Herzlichen Dank ....

836
00:58:19,628 --> 00:58:45,361
33c3 - Abspann-Musik